'분류 전체보기' 카테고리의 글 목록

과적합(Overfitting 방지 기법)

1. 과적합(Overfitting)이란?정의:모델이 훈련 데이터에 너무 잘 맞게 학습하여, 새로운 데이터(검증 데이터 또는 테스트 데이터)에 대해 일반화 성능이 떨어지는 현상원인:모델의 복잡도 과다:모델이 너무 많은 파라미터 또는 복잡한 구조(예: 깊은 신경망, 높은 차원의 트리)를 가짐데이터 부족:훈련 데이터의 양이 충분하지 않아 모델이 데이터의 노이즈까지 학습불균형 데이터:특정 클래스나 특성이 과도하게 편향된 데이터를 학습학습 시간 초과:모델이 너무 오랫동안 학습하여 훈련 데이터에 과도하게 최적화2. 과적합 방지 기법(1) L1 규제 (Lasso Regularization)개념:모델의 복잡성을 줄이기 위해, 가중치(Weight)의 절대값의 합에 페널티를 부과.손실 함수에 L1 규제항 추가특징:w가 충..

이론공부/데이터분석 2025.01.04

DT vs RF

1. Decision Tree (결정 트리)Decision Tree는 데이터를 기반으로 의사 결정 규칙을 계층적으로 학습하여 예측하는 기초적인 지도 학습 알고리즘데이터를 특정 특성(Feature)으로 나누는 과정(분할)을 반복하여 트리 구조를 형성트리의 리프 노드는 최종 예측값(분류나 회귀)을 나타냄작동 원리데이터를 여러 특성을 기준으로 분할하여 불순도(Entropy, Gini Impurity)를 최소화각 분할 단계에서 최적의 분할 기준(특성 및 임계값)을 선택분할을 반복하여 데이터를 점점 더 세부적으로 나눔특징장점:직관적이고 이해하기 쉬운 모델비선형 관계를 처리 가능범주형 및 연속형 데이터 모두 사용 가능단점:과적합(Overfitting)의 가능성이 높음데이터의 작은 변화에도 민감하여 불안정사용 예제데..

이론공부/ML 2025.01.03

[텍스트분석] 토픽 모델링

토픽모델링(Topic Modeling)문서 집합에서 숨겨진 주제를 자동으로 추출하는 기법지도학습/비지도학습 있으나 주로 비지도학습을 사용하며, 주제별로 요약하거나 문서간의 유사성을 분석할때 활용 LDA(Latent Dirichlet Allocation)문서를 주제의 혼합으로 주제를 단어의 혼합으로 가정하는 확률적 모델문서> 주제> 단어라는 계층적 구조를 따름각 문서는 다수의 주제에 속할 수 있으며, 각 주제는 단어 집합의 분포로 표현LDA는 문서에서 단어가 생성되는 과정을 확률적으로 추정하여 주제를 발견 정리해서 말하면,문서는 여러 주제의 혼합물:각 문서는 여러 주제(topic)에 속할 수 있으며, 주제별로 가중치를 가짐.주제는 단어의 확률 분포:각 주제는 특정 단어들에 대한 확률 분포를 가짐.단어는 주..

이론공부/데이터분석 2025.01.03

[텍스트 분석] TF-IDF

TF-IDFTF-IDF(Term Frequency / Inverse Document Frequency)는 문서 내 텍스트 데이터를 분석할 때, 특정 단어가문서에서 얼마나 중요한지를 측정하는 통계적 방법TF : 단어가 특정 문서에서 얼마나 자주 등장했는지IDF : 단어가 전체문서에서 얼마나 희소한지TF(Term Frequency)단어 t가 특정 문서d에서 얼마나 자주 등장했는지를 나타내는 척도IDF(Inverse Document Frequency)특정 단어가 전체 문서 집합에서 얼마나 희소한지를 측정많이 등장하는 흔한단어는 낮은 가중치를, 드물게 등장하는 단어는 높은 가중치를 부여TF-IDF(Term Frequency Inverse Document Frequency)TF와 IDF를 곱하여 단어의 가중치를 ..

이론공부/데이터분석 2025.01.02

CRISP-DM

CRISP-DM (Cross-Industry Standard Process for Data Mining)- 데이터마이닝 프로젝트를 체계적으로 수행하기 위한 산업간 표준 절차 - 표준화된 절차는 총 6단계로 구성되어있음 1. 비즈니스 이해(Business Understanding): 프로젝트의 목표와 비즈니스 문제를 명확히 정의 - 목표 설정 - 주요 성공 기준(KPI) 정의 - 데이터 마이닝 목표와 범위 설정 2. 데이터 이해(Data Understanding): 데이터의 구조, 품질, 특성을 파악 - 데이터를 수집하고 초기 분석 수행 - 데이터의 품질문제 식별 - 주요 속성(특성) 탐색 3. 데이터 준비(Data Preparation): 분석을 위해 데이터를 준비 및 변환 - 데이터 정제(..

이론공부/데이터분석 2025.01.02

[그로스 해킹] 제품 시장 적합성(Product-Market Fit)

제품 시장 적합성(Product-Market Fit)제품 시장 적합성은 특정 제품이 고객의 니즈를 충족시키고, 시장에서 긍정적인 반응을 얻는 상태. 이는 제품이 고객에게 가치를 제공하며, 자연스럽게 수요가 발생하는 지점제품 시장 적합성을 평가하는 지표리텐션(Retention): 고객이 제품을 계속해서 사용하고 유지하는 비율로, 제품 시장 적합성을 판단하는 중요한 지표리텐션은 산업군에 따라 다르게 적용예) 여행 산업은 고객의 구매 주기가 길기 때문에 리텐션을 평가할 때 긴 시간 주기반면, 뉴스 산업 같은 경우 주기가 짧음현대적인 접근 방식오늘날에는 제품을 시장에 빠르게 출시(MVP: 최소 기능 제품)하여 초기 고객의 피드백을 받고, 이를 바탕으로 제품을 개선하는 방식이 보편화빠른 출시와 피드백 수집: 초기..

이론공부 2024.12.24

Python 특정 문자 포함 행 추출하기

데이터프레임에서 특정 문자 포함 행 추출하기데이터 분석을 하다 보면 데이터의 특정 열에서 영어 또는 한글이 포함된 행만 추출하거나, 특정 키워드가 들어간 행을 따로 가져와야 할 때가 많다. Python의 pandas 라이브러리를 사용하여 이러한 작업을 쉽게 수행할 수 있다. 1. 영어가 포함된 행만 추출하기특정 열에 영어 문자가 포함된 행만 추출하려면 str.contains() 메서드를 사용하면다. 이때, 정규식을 활용하여 영어 문자가 포함된 행을 필터링할 수 있다. import pandas as pd# 샘플 데이터 생성data = { '장소': ['Seoul Station', '서울역', 'Busan Port', '인천공항', 'Gwanghwamun', '김포공항'], '기타': [1, 2,..

tool 공부/PYTHON 2024.11.09

압축 해제 crc 오류 해결

압축해제를 진행하다보면 아래와 같이 crc 오류가 날때가 있는데... 반디집에서 CRC 오류가 발생하는 이유는 주로 파일이 손상되었거나 다운로드 중 일부 데이터가 손실되었을 때이다. 1. 파일 다시 다운로드 CRC 오류는 파일이 손상된 경우 발생하는데, 이 경우 가장 쉬운 해결책은 파일을 다시 다운로드하는 것이다. 다운로드 도중 인터넷 연결이 불안정하거나 중단되면 파일에 오류가 생길 수 있다.2. 압축 프로그램 업데이트 사용 중인 반디집 버전이 오래된 경우 최신 버전으로 업데이트해보면 된다. 최신 버전은 파일 압축 및 해제 과정에서 발생하는 오류를 수정할 수 있다.3. 압축 파일 복구 반디집에는 손상된 압축 파일을 복구하는 기능이 없다. 하지만 WinRAR과 같은 다른 프로그램을 이용하면 일부 압..

잡동사니 2024.11.08

연관 분석(Association Analysis) (1)

연관 분석(Association Analysis)은 주로 데이터 항목들 간의 관계를 찾고, 이를 통해 의미 있는 패턴을 도출하는 기법이다. 장바구니 분석(Market Basket Analysis)에서 '어떤 상품이 자주 함께 구매되는가?'와 같은 패턴을 찾는 것이 실 예이다. 대표적인 알고리즘으로는 Apriori 알고리즘과 FP-Growth가 있다. 이 알고리즘을 이해하기 위해서는 우선 지지도, 신뢰도, 향상도라는 개념을 이해해야한다. 1. 지지도(Support) : 특정 아이템 집합이 전체 거래에서 등장한 비율 예를 들어 { 빵, 우유 } 라는 집합이 있다고 했을 때, 100건의 거래중에서 빵과 우유를 동시에 구매한 거래가 30건이라면 지지도 = 30/100 = 0.3 이되는 것이다. 2. 신뢰도(..

이론공부/데이터분석 2024.11.07

ArcGIS 무료 다운로드

ArcGIS pro 평가판 다운로드ArcGIS 평가판은 일반적으로 21일 동안 제공된다. 이 기간 이후에는 구매를해서 사용해야 되는데 현재 요금은 아래와 같은것 같다.ArcGIS Online (클라우드 기반):개인용: 기본 계정은 무료로 제공되며, 추가 기능을 사용하기 위한 구독은 연간 약 $100에서 시작한다. 비즈니스용: 사용자 수와 사용 용량에 따라 가격이 크게 다르다. 기본 요금은 연간 수천 달러에 이를 수 있다. ArcGIS Pro (데스크톱 GIS):Standard (Basic) 라이선스: 연간 구독 가격이 약 $700 - $1,500 정도이다. Advanced 라이선스: 더 많은 기능을 제공하며, 연간 구독 가격이 $3,000 이상일 수 있다. 영구 라이선스: 약 $1,500 - $4,000..

tool 공부/geo 2024.09.04

배움기록

분류 전체보기 102

티스토리툴바

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30