728x90
반응형
중복 제거하기
# 데이터 전체
data.drop_duplicates(inplace=True)
-데이터 프레임에 있는 모든 열이 동시에 중복인 행을 삭제하고 중복 대표 한개의 행만을 남김
-inplace=True : 원본 데이터에 중복제거 한 것을 반영
# 한개 열
data.drop_duplicates(['이름'],inplace=True)
- '이름'이라는 열의 중복 행을 삭제하고 중복 대표 한개의 행만을 남김
# 여러개 열
data.drop_duplicates([['이름','나이']],inplace=True)
- '이름', '나이'가 같은 행을 삭제하고 중복 대표 한개의 행만을 남김
# 중복된 행을 전부 삭제
data.drop_duplicates([['이름','나이']],inplace=True,keep=False)
-keep=False : 중복된 행을 전부 삭제
# 중복된 행을 삭제하고 제일 위에 있는 행만 남김
data.drop_duplicates([['이름','나이']],inplace=True,keep='first')
-keep='first' : 중복된 행을 삭제하고 가장 위에 있는 행만 남김
# 중복된 행을 삭제하고 제일 아래에 있는 행만 남김
data.drop_duplicates([['이름','나이']],inplace=True,keep='last')
-keep='last' : 중복된 행을 삭제하고 가장 아래에 있는 행만 남김
# 중복처리하고 인덱스를 새로 설정
data.drop_duplicates(['이름','나이'],ignore_index=True)
-ignore_index=True : 기존의 인덱스를 없애고 0부터 새로운 인덱스 부여
*매개변수별 기본값
inplace=False --- 원본데이터 변겅x
keep=True --- 중복데이터 제거후 대표 행 하나만 남김
ignore_index=False ---원본데이터 인덱스 유지
중복 추출
# 중복데이터 중 가장 위에 있는 행만 대표로 추출
data[data.duplicated(['이름','나이'])]
-data[data.duplicated(['이름','나이')],keep='first']와 동일한 결과
*keep 매개변수의 기본값 'first'
# 중복데이터 모두 추출
data\[data.duplicated(['이름','나이')],keep=False]
728x90
반응형
'tool 공부 > PYTHON' 카테고리의 다른 글
파이썬 merge 여러개 한번에 하기 (0) | 2024.03.13 |
---|---|
kiwi(키위) 형태소 분석기 설치 (0) | 2024.02.20 |
파이썬 결측치와 공백 다루기 (0) | 2023.08.03 |
리스트 컴프리헨션 (list comprehension) (0) | 2023.07.31 |
[Python] 날짜 간격 구하기 (0) | 2023.07.21 |