파이썬 중복 처리

tool 공부/PYTHON

파이썬 중복 처리

Zziii 2023. 11. 24. 16:26

728x90

중복 제거하기

# 데이터 전체  
data.drop_duplicates(inplace=True)

-데이터 프레임에 있는 모든 열이 동시에 중복인 행을 삭제하고 중복 대표 한개의 행만을 남김
-inplace=True : 원본 데이터에 중복제거 한 것을 반영

# 한개 열

data.drop_duplicates(['이름'],inplace=True)

- '이름'이라는 열의 중복 행을 삭제하고 중복 대표 한개의 행만을 남김

# 여러개 열

data.drop_duplicates([['이름','나이']],inplace=True)

- '이름', '나이'가 같은 행을 삭제하고 중복 대표 한개의 행만을 남김

# 중복된 행을 전부 삭제

data.drop_duplicates([['이름','나이']],inplace=True,keep=False)

-keep=False : 중복된 행을 전부 삭제

# 중복된 행을 삭제하고 제일 위에 있는 행만 남김

data.drop_duplicates([['이름','나이']],inplace=True,keep='first')

-keep='first' : 중복된 행을 삭제하고 가장 위에 있는 행만 남김

# 중복된 행을 삭제하고 제일 아래에 있는 행만 남김

data.drop_duplicates([['이름','나이']],inplace=True,keep='last')

-keep='last' : 중복된 행을 삭제하고 가장 아래에 있는 행만 남김

# 중복처리하고 인덱스를 새로 설정

data.drop_duplicates(['이름','나이'],ignore_index=True)

-ignore_index=True : 기존의 인덱스를 없애고 0부터 새로운 인덱스 부여
*매개변수별 기본값
inplace=False --- 원본데이터 변겅x
keep=True --- 중복데이터 제거후 대표 행 하나만 남김
ignore_index=False ---원본데이터 인덱스 유지

중복 추출

# 중복데이터 중 가장 위에 있는 행만 대표로 추출

data[data.duplicated(['이름','나이'])]

-data[data.duplicated(['이름','나이')],keep='first']와 동일한 결과
*keep 매개변수의 기본값 'first'

# 중복데이터 모두 추출

data\[data.duplicated(['이름','나이')],keep=False]

728x90

'tool 공부 > PYTHON' 카테고리의 다른 글

파이썬 merge 여러개 한번에 하기 (0)	2024.03.13
kiwi(키위) 형태소 분석기 설치 (0)	2024.02.20
파이썬 결측치와 공백 다루기 (0)	2023.08.03
리스트 컴프리헨션 (list comprehension) (0)	2023.07.31
[Python] 날짜 간격 구하기 (0)	2023.07.21

현재글파이썬 중복 처리

250x250

티스토리챌린지, 판다스, 오답, 기초, Pandas, qgis, 가상환경, 베어유, Python, 파이썬, 필기, TypeError, SQLD, SQL, 에러, 오블완, oracle, 결측치, 정보처리기사, 빡공단,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

배움기록