728x90
반응형

이론공부 14

최소제곱법을 통한 회귀계수 행렬 구하기

행렬정의 오차 제곱합을 최소화 시켜야 하므로 오차 제곱을 구하면 행과 열이 같아야 하므로 오차의 전치행렬과 오차 행렬을 곱해주는 것과 같다. 그런데 회귀식에 의해 오차는 아래와 같이 나타낼 수 있다. 제곱식에 대입해서 전개하면 아래와 같이 전개한다. 가운데 두항은 서로 전치행렬관계이면서 1*1 행렬이므 -2로 연산이 가능하다. 오차항의 제곱을 최소화하기위해 정리된 식을 베타의 추정량으로 미분하면 아래와 같이 정리된다. 따라서 추정 회귀계수를 행렬로 나타내면 위와 같이 정리된다. 참고 사이트 http://infoso.kr/?p=3224

이론공부/통계 2024.04.09

불편추정량이란

불편 추정량(Unbiased Estimator)은 통계학에서 추정량(estimator)의 성질 중 하나를 나타낸다. 추정량이 불편적이라는 것은 그 추정량의 기대값이 추정하려는 모수(parameter)의 실제 값과 같다는 것을 의미한다. 다시 말해, 불편 추정량은 임의의 샘플을 사용하여 계산된 추정치의 평균이 모집단에서의 실제 모수와 같다는 것을 의미한다. 수학적으로, 추정량이 모수에 대한 추정치라고 할 때, 추정량이 불편 추정량인지 확인하기 위해서는 다음을 만족해야한다. 불편 추정량의 중요한 특성 중 하나는 추정량의 편향(bias)이 없다는 것이다. 편향이 없는 추정량은 표본의 크기가 커질수록 모수에 대한 추정치가 모수에 수렴한다는 것을 의미한다.

이론공부/통계 2024.04.09

척도의 종류

척도는 데이터의 성격과 측정 방법에 따라 분류할 수 있으며, 크게 질적 척도(명목적 데이터)와 양적 척도(수치적 데이터)로 나눌 수 있다. 이들 각각은 더 세분화되어 명목 척도, 서열 척도(질적 척도 내)와 등간 척도, 비율 척도(양적 척도 내)로 구분된다. 질적 척도 (Qualitative Scales) 질적 척도는 비수치적 특성을 측정하기 위해 사용되며, 주로 설문조사, 인터뷰 등에서 인간의 태도, 선호도 등을 측정할 때 사용된다. 1. 명목 척도 (Nominal Scale) 설명: 명목 척도는 데이터를 단순히 분류하기 위해 사용되는 척도로, 숫자는 구분을 위한 목적으로만 사용되며, 숫자 간에는 아무런 수학적 관계가 없다. 예시: 성별(남, 여), 혈액형(A, B, AB, O), 지역(서울, 부산, ..

이론공부/통계 2024.03.18

[사회조사분석사] 통계분석과 활용1-(2)

베르누이 시행베르누이 시행은 단 두가지 결과만을 가지는 실험이나 시행을 말한다. 이 두가지 결과는 일반적으로 "성공", "실패" 즉 1과0으로 구분되며, 각각의 확률은 p와 1-p이다. 여기서 p는 성공 확률을 나타낸다. 베르누이 시행의 대표적인 예로는 동전 던지기(앞면 또는 뒷면), 시험 합격여부(합격 또는 불합격)등이 있다. 이항분포이항분포는 고정된 수의 n번의 독립적인 베르누이 시행에서 특정한 결과(성공)가 k번 나타날 확률 분포이다. 이 때, 각 시행의 성공 확률은 p로 동일하다. 이항분포의 확률 질량 함수는 아래와 같다. 이항분포의 예로는 10번의 동전 던지기에서 앞면이 나오는 횟수, 20명의 학생들 중 시험에 합격하는 학생의 수 등이 있다. 그래프로 보는 이항분포이항분포의 모양은 n과 p에 따..

이론공부/통계 2024.03.06

[사회조사분석사] 통계분석과 활용 1-(1)

1. 배반사건 (Mutually Exclusive Events)설명: 배반사건이란 두 사건이 동시에 발생할 수 없는 경우예를 들어, 한 번의 주사위 던지기에서 3이 나오는 사건과 5가 나오는 사건은 동시에 일어날 수 없다.수식: 사건 A와 B가 배반사건일 경우, P(A∩B)=02. 독립확률 (Independent Events)설명: 두 사건이 서로 독립적일 때, 한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않음A가 발생할 확률과 B가 발생할 확률은 서로 영향을 주지 않음두 사건이 서로 배반사건이라면 예를들어, 동전을 던졌을때 동전이 앞면 나왔을때 동전의 뒷면은 동시에 나올 수 없으므로 서로 독립이 아님예를 들어, 동전을 두 번 던져 첫 번째 던지기에서 앞면이 나오는 사건과 두 번째 던지기에서 ..

이론공부/통계 2024.03.04

[웹로그 분석] 인덱스 페이지, 랜딩페이지

랜딩페이지란 랜딩 페이지는 사용자가 웹사이트에 처음으로 접속했을 때 보게 되는 페이지 검색 엔진이나 외부 링크를 통해 웹사이트로 유입된 사용자들이 보는 첫 페이지를 의미 랜딩 페이지는 사용자를 웹사이트로 유입시키는데 중요한 역할을 하는 페이지 인덱스페이지란 인덱스 페이지는 일반적으로 웹사이트의 첫 페이지 또는 홈페이지 이는 사용자가 웹사이트에 접속하면 가장 먼저 보게 되는 페이지이며, 웹사이트의 메인 페이지 보통 인덱스 페이지에는 웹사이트의 주요 내용이나 서비스에 대한 간략한 설명이 포함되어 있음 랜딩페이지 vs 인덱스페이지 랜딩 페이지 (Landing Page): 랜딩 페이지는 사용자가 웹사이트로 유입될 때 처음 접하는 페이지 이 페이지는 외부 링크, 광고, 소셜 미디어 등을 통해 유입된 사용자들이 보..

[웹로그 분석] 사용자 세션이란?

사용자 세션이란? 사용자 세션은 사용자가 웹사이트나 앱과 상호 작용하는 시간 동안의 활동을 말한다. 일반적으로 사용자가 웹사이트를 방문하고 떠날 때까지의 시간 동안 한 번의 세션을 형성한다. 사용자 세션은 일반적으로 다음과 같은 방식으로 정의될 수 있다. 시작 및 종료 시간: 사용자가 사이트에 처음 접속한 시간부터 브라우저를 닫거나 사이트를 떠난 시간까지의 기간. 활동: 사용자의 사이트 내 활동, 예를 들어 페이지 방문, 클릭, 검색 등. 세션 ID: 각 세션을 식별하기 위한 고유한 식별자. 세션은 사용자의 활동을 추적하고 분석하는 데 사용된다. 이를 통해 사이트 운영자는 사용자의 행동 패턴을 이해하고 사용자 경험을 개선하거나 마케팅 전략을 최적화할 수 있다. 사용자 세션의 길이는 사용자의 활동 패턴과 ..

EDA(탐색적 데이터 분석)

- EDA란? EDA는 "Exploratory Data Analysis(탐색적 데이터 분석)"의 약자로, 데이터셋을 탐색하고 이해하기 위한 과정을 말한다. EDA는 데이터 과학이나 기계 학습 프로젝트의 초기 단계 중 하나로 수행되며, 데이터의 특성, 구조, 패턴 등을 파악하고 통계적 기법 및 시각화를 사용하여 데이터를 살펴보는 과정이다. - EDA 수행 목적 데이터 이해: 데이터의 기본 특성을 이해하고 데이터가 어떻게 구성되어 있는지 파악한다. 패턴 탐색: 데이터에서 어떤 패턴, 경향, 관계가 나타나는지 찾아낸다. 이상치 감지: 데이터에서 이상치나 오류를 찾아내고 처리한다. 변수 간 관계 분석: 변수들 간의 상호작용이나 영향을 탐색한다. 결측치 처리: 데이터에 결측치가 있는 경우, 이를 확인하고 적절한 ..

데이터 분석 유형

데이터 분석 4가지 유형 1. Descriptive Analysis(설명 분석) 데이터를 요약하고 집계하여 데이터의 main feature를 설명하는 분석 발생한 사실 그자체를 분석하는 방법 ex) 한 학급의 시험 점수를 생각해보자. 이 학급의 학생들이 받은 시험 점수를 통해 기술적 통계 분석을 수행할 수 있다. 평균 (Mean): 상황: 학급의 평균 점수를 계산하여, 전반적인 학업 성취도를 파악한다. 예시: 학급의 평균 시험 점수가 75점이면, 학생들 전체 평균적으로 B 등급 수준의 성적을 받았다고 판단할 수 있다. 중앙값 (Median): 상황: 학급의 중앙값은 전체 학생들을 점수순으로 나열했을 때 중간에 위치한 값으로, 극단적인 값에 영향을 받지 않는다. 예시: 중앙값이 78점이면, 학생들의 대다수..

이론공부 2023.11.24
728x90
반응형