728x90
반응형

파이썬 13

파이썬 중복 처리

중복 제거하기# 데이터 전체 data.drop_duplicates(inplace=True) -데이터 프레임에 있는 모든 열이 동시에 중복인 행을 삭제하고 중복 대표 한개의 행만을 남김 -inplace=True : 원본 데이터에 중복제거 한 것을 반영# 한개 열 data.drop_duplicates(['이름'],inplace=True)- '이름'이라는 열의 중복 행을 삭제하고 중복 대표 한개의 행만을 남김# 여러개 열 data.drop_duplicates([['이름','나이']],inplace=True)- '이름', '나이'가 같은 행을 삭제하고 중복 대표 한개의 행만을 남김# 중복된 행을 전부 삭제 data.drop_duplicates([['이름','나이']],inplace=True,keep=False)..

tool 공부/PYTHON 2023.11.24

파이썬 결측치와 공백 다루기

결측치와 공백의 차이 결측치와 공백은 데이터상에서 다른 개념이다. 얼핏봐서 비어있는 공백은 결측치 처럼 보일 수 있겠으나, 공백은 결측치가 아니고 하나의 공백(스페이스)라는 값이 들어있는 것으로 판단한다. 컴퓨터는 결측치(누락된 값)와 공백(빈 문자열)을 서로 다르게 인식한다. 아래는 두개념의 차이점이다. 결측치 (Missing Values): 결측치는 데이터의 누락이나 부재를 나타낸다. 컴퓨터에서는 주로 `NaN` (Not a Number) 또는 `None` (파이썬에서 사용)으로 표현된다. 데이터가 수치형일 때 `NaN`으로 표현되며, 파이썬과 같은 프로그래밍 언어에서는 `None`으로 표현됩니다. 결측치는 실제 값이 없거나 수집되지 않았거나 처리되지 않았을 때 발생한다. 예를 들어, 어떤 조사에서 ..

tool 공부/PYTHON 2023.08.03

파이썬 .reset_index() 인덱스 없애기

.reset_index() .reset_index() 함수는 pandas에서 제공하는 함수로, DataFrame의 인덱스를 초기화하는 역할을 한다. 기존의 인덱스를 제거하고 기본 정수 인덱스로 대체하고자 할 때 주로 사용됩니다. 이 함수는 다중 인덱스를 제거하거나 인덱스를 열로 변환하거나, DataFrame의 인덱스가 불규칙한 상태로 남아있는 경우 등 다양한 상황에서 유용하게 사용될 수 있다. 아래 .reset_index() 함수를 사용한 몇가지 예시를 살펴보자. Case1 : 인덱스를 기본 정수 인덱스로 초기화하기 import pandas as pd # DataFrame 생성 df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # 인덱스 초기화 df_reset ..

tool 공부/PYTHON 2023.07.02

CRS 개념 및 파이썬 crs 변환

CRS는 "Coordinate Reference System"의 약자로, 공간 데이터를 표현하는 데 사용되는 좌표 시스템을 정의한 것이다. 좌표 시스템은 지구의 표면을 나타내는 데 사용되는 좌표 체계와 해당 체계의 측정 단위를 포함한 것으로, CRS는 공간 데이터를 지리적으로 표현하고 해석하기 위해 필요한 중요한 요소이다. CRS는 지구의 모양과 크기, 좌표 체계 및 측정 단위를 설명한다. 대표적인 CRS 예시로는 1. WGS84 (EPSG:4326): 지구를 구로 가정하고, 위도(latitude)와 경도(longitude)로 좌표를 표현한다. GPS 데이터 및 웹 맵에서 주로 사용된다. 예시: (37.7749° N, 122.4194° W) 2. UTM (Universal Transverse Mercat..

tool 공부/geo 2023.06.22

파이썬 정규식

str.contains('?')를 사용했다가 의도대로 ? 를 포함한 문자가 출력이 안됨 str.contains('\?') 위와 같이 이스케이프 문자인 '\' 를 붙여줘야 의도대로 출력됨 이유는 '?' 문자가 정규식에서 0또는 1번의 앞의 패턴이 일치하는 문자열을 의미하기 때문에 예를들어 '2022.?' 를 쓴다면 2022.03.01과 같이 앞의 패턴이 일치하는 애들을 모두 가져오기 때문.. 따라서 공부해보는 파이썬 정규식 're' 모듈을 사용하여 문자열 패턴을 찾거나 변경 가능 -gpt가 알려주는 기초 정규식 .: 어떤 한 개의 문자를 의미합니다. *: 바로 앞 문자가 0개 이상인 패턴을 의미합니다. +: 바로 앞 문자가 1개 이상인 패턴을 의미합니다. ?: 바로 앞 문자가 0개 또는 1개인 패턴을 의미..

tool 공부/PYTHON 2023.05.10

파이썬 공휴일 전날 여부 컬럼 생성

holidays 모듈 활용하여 공휴일 날짜 불러오기 datetime.timedelta 을 활용하여 하루전 날짜 구하기 import datetime # 한국 공휴일 불러오기 import holidays kr_holidays = holidays.Korea() # timedelta를 이용해서 공휴일 하루전 날짜 구하기 # 1, 0 으로 구분하는 컬럼 생성 df['before_holidays'] = df['일자'].apply(lambda x : 1 if (x-datetime.timedelta(days=1)).date() in kr_holidays else 0 )

tool 공부/PYTHON 2023.05.08

파이썬 자료구조(리스트, 튜플, 딕셔너리 요약)

list - [1,2,3,4] - .append() : 리스트 마지막에 요소 추가 - .insert(위치, 요소) : 리스트 원하는 위치에 요소 추가 tuple - (1,2,3,4) - 튜플은 삭제, 추가 안됨 - 속도 빠름 - 함수 여러개의 값 return 튜플 형태로 dictionary - {1:일번,2:2번,key:value} - 딕셔너리 key, value 값으로 이루어짐 - 정숫값 인덱싱 못함 - 'A' in df.keys() - 'A' in df.values() - dic['key'] = 2000 - 딕셔너리 for 문 - for key, value in dic.items(): "%s: Buy %s" % (company, interest_stocks[company])

tool 공부/PYTHON 2023.04.21

[Python] sqlite3 모듈 기초

- 모듈 불러오기 import sqlite3 - DB 연결 con = sqlite3.connect(경로) cursor = con.cursor - 테이블 만들기 * CREATE TABLE 테이블명(컬럼명1 컬럼타입, 컬럼명2 컬럼타입) sql = "CREATE TABLE test(col1 text, col2 int, col3 int, cl4 int, col5 int)" cursor.execute(sql) - 테이블에 값 삽입 sql = "INSERT INTO test VALUES ('1',2,3,4,5)" cursor.execute(sql) sql = "INSERT INTO test VALUES('6',7,8,9,10)" cursor.execute(sql) - DB 파일에 반영하기 con.commit() ..

tool 공부/PYTHON 2023.04.04
728x90
반응형