728x90
반응형

tool 공부/PYTHON 17

df.head와 print(df.head)의 차이

df.head와 print(df.head)의 차이 df.head()와 print(df.head)는 서로 다른 동작을 수행한다. 1.df.head(): 이 함수는 Pandas 데이터프레임(df라 가정)의 처음 몇 개의 행을 반환한다. 기본적으로 처음 5개의 행을 반환하지만, 괄호 안에 숫자를 넣어서 반환할 행의 수를 조절할 수 있다. 이 함수는 데이터프레임의 일부를 보여주는 것이 목적이므로 값을 반환한다. 예를 들면, df.head(10)은 처음 10개의 행을 반환한다. 2. print(df.head): 이것은 df.head 메서드 자체를 출력하는 것이다. 이렇게 하면 메서드의 위치와 속성을 출력하게 된다. 그러나 실제로 데이터프레임의 일부를 출력하지 않는다 일반적으로 데이터프레임의 내용을 확인하려면 df..

tool 공부/PYTHON 2024.03.14

파이썬 merge 여러개 한번에 하기

여러개 데이터프레임 한번에 merge 하기 from functools import reduce pop = reduce(lambda x,y: pd.merge(x,y, on='columns1', how='outer'), [df_1, df_2, df_3, df_4]) 아래는 설명 위 코드는 functools 모듈에서 reduce 함수를 가져와 사용하고 있다. reduce 함수는 리스트와 같은 반복 가능한(iterable) 객체에 함수를 순차적으로 적용하여 하나의 값으로 축소하는 데 사용된다. 여기서는 reduce 함수를 활용하여 pd.merge() 함수를 반복적으로 적용하여 여러 데이터프레임을 하나의 데이터프레임으로 병합하고 있다. reduce() 함수는 다음과 같은 구조를 가진다. reduce(functio..

tool 공부/PYTHON 2024.03.13

kiwi(키위) 형태소 분석기 설치

- kiwipiepy 형태소 분석 설치 1. https://github.com/Kitware/CMake/releases/download/v3.27.0-rc2/cmake-3.27.0-rc2-windows-x86_64.msi 를 통해 파일 다운로드 2. 설치파일 실행 3. Next 클릭 4. 동의 체크 후 Next 클릭 5. 가운데 항목에 체크 후 Next 클릭 6. 경로 바꾸지 않고 그대로 둔채 Next 클릭 7. Install 버튼 클릭해서 설치 완료 8. 설치하고자 하는 가상환경에 kiwipiepy 명령어로 설치 - kiwi 형태소 분석기 명사 추출 kiwi 형태소 분석기로 형태소 분석 후 품사 태깅 된 결과에서 N으로 시작하거나 SL로 시작하는 품사 결과만 가져와서 명사추출하는 코드 * 태그 목록은 ..

tool 공부/PYTHON 2024.02.20

파이썬 중복 처리

중복 제거하기# 데이터 전체 data.drop_duplicates(inplace=True) -데이터 프레임에 있는 모든 열이 동시에 중복인 행을 삭제하고 중복 대표 한개의 행만을 남김 -inplace=True : 원본 데이터에 중복제거 한 것을 반영# 한개 열 data.drop_duplicates(['이름'],inplace=True)- '이름'이라는 열의 중복 행을 삭제하고 중복 대표 한개의 행만을 남김# 여러개 열 data.drop_duplicates([['이름','나이']],inplace=True)- '이름', '나이'가 같은 행을 삭제하고 중복 대표 한개의 행만을 남김# 중복된 행을 전부 삭제 data.drop_duplicates([['이름','나이']],inplace=True,keep=False)..

tool 공부/PYTHON 2023.11.24

파이썬 결측치와 공백 다루기

결측치와 공백의 차이 결측치와 공백은 데이터상에서 다른 개념이다. 얼핏봐서 비어있는 공백은 결측치 처럼 보일 수 있겠으나, 공백은 결측치가 아니고 하나의 공백(스페이스)라는 값이 들어있는 것으로 판단한다. 컴퓨터는 결측치(누락된 값)와 공백(빈 문자열)을 서로 다르게 인식한다. 아래는 두개념의 차이점이다. 결측치 (Missing Values): 결측치는 데이터의 누락이나 부재를 나타낸다. 컴퓨터에서는 주로 `NaN` (Not a Number) 또는 `None` (파이썬에서 사용)으로 표현된다. 데이터가 수치형일 때 `NaN`으로 표현되며, 파이썬과 같은 프로그래밍 언어에서는 `None`으로 표현됩니다. 결측치는 실제 값이 없거나 수집되지 않았거나 처리되지 않았을 때 발생한다. 예를 들어, 어떤 조사에서 ..

tool 공부/PYTHON 2023.08.03

리스트 컴프리헨션 (list comprehension)

- 리스트 컴프리헨션 정의 리스트 컴프리헨션(List Comprehension)은 파이썬의 강력한 기능 중 하나로, 기존 리스트를 사용하여 간단하게 새로운 리스트를 생성하는 방법을 제공하는것이다. 이는 반복문과 조건문을 사용하여 리스트를 초기화하거나 필터링하는 작업으로 한 줄로 간결하게 표현할 수 있게 해주는 기능이다. 일반적으로 리스트 컴프리헨션은 다음과 같은 구조를 갖는다. [표현식 for 항목 in iterable if 조건문] 표현식 : 각 항목에 대해 평가되는 표현식이다. 새로운 리스트의 요소를 어떻게 계산할지를 정의한다. 항목 : iterable 객체(예: 리스트, 튜플, 문자열 등)에서 가져온 요소를 나타낸다. iterable : 반복 가능한 객체로, 순회하며 항목을 하나씩 가져올 수 있는 ..

tool 공부/PYTHON 2023.07.31

[Python] 날짜 간격 구하기

파이썬에서는 `datetime` 모듈을 사용하여 날짜와 시간을 다룰 수 있다. `datetime` 모듈에서는 `datetime` 클래스를 제공하며, 이 클래스를 사용하여 날짜와 시간을 다룰 수 있다. 먼저, `datetime` 모듈과 `datetime` 클래스를 임포트한다. from datetime import datetime, timedelta 그리고 날짜를 나타내는 `datetime` 객체를 생성한다. 예를 들어, 2023년 4월 24일을 나타내는 `datetime` 객체를 다음과 같이 생성할 수 있다. date1 = datetime(2023, 4, 24) 이제, 다른 날짜와의 간격을 계산하려면 또 다른 `datetime` 객체를 생성하고, 두 객체 간의 차이를 계산하면 된다. 예를 들어, 2023년..

tool 공부/PYTHON 2023.07.21

파이썬 .reset_index() 인덱스 없애기

.reset_index() .reset_index() 함수는 pandas에서 제공하는 함수로, DataFrame의 인덱스를 초기화하는 역할을 한다. 기존의 인덱스를 제거하고 기본 정수 인덱스로 대체하고자 할 때 주로 사용됩니다. 이 함수는 다중 인덱스를 제거하거나 인덱스를 열로 변환하거나, DataFrame의 인덱스가 불규칙한 상태로 남아있는 경우 등 다양한 상황에서 유용하게 사용될 수 있다. 아래 .reset_index() 함수를 사용한 몇가지 예시를 살펴보자. Case1 : 인덱스를 기본 정수 인덱스로 초기화하기 import pandas as pd # DataFrame 생성 df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # 인덱스 초기화 df_reset ..

tool 공부/PYTHON 2023.07.02

파이썬 정규식

str.contains('?')를 사용했다가 의도대로 ? 를 포함한 문자가 출력이 안됨 str.contains('\?') 위와 같이 이스케이프 문자인 '\' 를 붙여줘야 의도대로 출력됨 이유는 '?' 문자가 정규식에서 0또는 1번의 앞의 패턴이 일치하는 문자열을 의미하기 때문에 예를들어 '2022.?' 를 쓴다면 2022.03.01과 같이 앞의 패턴이 일치하는 애들을 모두 가져오기 때문.. 따라서 공부해보는 파이썬 정규식 're' 모듈을 사용하여 문자열 패턴을 찾거나 변경 가능 -gpt가 알려주는 기초 정규식 .: 어떤 한 개의 문자를 의미합니다. *: 바로 앞 문자가 0개 이상인 패턴을 의미합니다. +: 바로 앞 문자가 1개 이상인 패턴을 의미합니다. ?: 바로 앞 문자가 0개 또는 1개인 패턴을 의미..

tool 공부/PYTHON 2023.05.10

파이썬 공휴일 전날 여부 컬럼 생성

holidays 모듈 활용하여 공휴일 날짜 불러오기 datetime.timedelta 을 활용하여 하루전 날짜 구하기 import datetime # 한국 공휴일 불러오기 import holidays kr_holidays = holidays.Korea() # timedelta를 이용해서 공휴일 하루전 날짜 구하기 # 1, 0 으로 구분하는 컬럼 생성 df['before_holidays'] = df['일자'].apply(lambda x : 1 if (x-datetime.timedelta(days=1)).date() in kr_holidays else 0 )

tool 공부/PYTHON 2023.05.08
728x90
반응형