본문 바로가기
반응형

Data Science/통계용어11

결정 트리(Decision Trees) 결정 트리(Decision Trees) 개요 결정 트리는 분류 및 회귀 문제에 사용되는 감독 학습 알고리즘입니다. 이 알고리즘은 데이터를 분석하여 패턴을 학습하고, 일련의 질문을 통해 결정을 내리는 나무 형태의 모델을 만듭니다. 각 노드(node)는 데이터의 특징(feature)에 대한 질문을 나타내며, 각 분기(branch)는 가능한 응답을 나타냅니다. 가장 하단의 노드(잎 노드, leaf node)는 결정 결과를 나타냅니다. 필요 이유 이해와 해석이 용이: 결정 트리는 시각화가 쉽고, 비전문가도 이해하기 쉬운 결과를 제공합니다. 데이터 전처리 요구가 적음: 결정 트리는 다른 알고리즘에 비해 덜 복잡한 데이터 전처리가 필요합니다. 비선형 관계 모델링: 결정 트리는 데이터의 비선형 패턴을 포착할 수 있습.. 2024. 1. 7.
분류분석(Classification Analysis 분류 분석(Classification Analysis)은 데이터 과학과 기계 학습 분야에서 사용되는 주요 기술 중 하나입니다. 이 방법은 입력 데이터를 미리 정의된 클래스나 범주로 분류하는 과정을 말합니다. 주요 목적은 새로운 데이터가 주어졌을 때, 이를 올바른 범주로 분류하는 것입니다. 분류 분석 알고리즘은 크게 다음과 같이 나눌 수 있습니다 결정 트리(Decision Trees): 데이터를 분류하기 위해 결정 규칙의 계층적 구조를 사용합니다. 각 노드는 특정 속성에 대한 결정을 나타내며, 이를 통해 데이터를 서브셋으로 나눕니다. 나이브 베이즈(Naive Bayes): 통계적 방법을 사용하여 각 클래스에 속할 확률을 계산합니다. 이 알고리즘은 모든 특성이 서로 독립적이라고 가정합니다. 서포트 벡터 머신.. 2024. 1. 7.
회귀분석 회귀분석은 변수들 사이의 관계를 모델링하고, 한 변수의 변화가 다른 변수에 어떤 영향을 미칠지 예측하는 통계적 방법입니다. 회귀분석의 주요 목적은 종속 변수(응답 변수)와 하나 또는 여러 개의 독립 변수(예측 변수) 간의 관계를 찾고, 이를 수학적 모델로 표현하는 것입니다. 회귀분석의 기본 수식 회귀분석에서 가장 기본적인 형태는 선형 회귀분석입니다. 선형 회귀의 일반적인 수식은 다음과 같습니다: 여기서, 회귀분석의 종류 단순 선형 회귀 (Simple Linear Regression): 한 개의 독립 변수와 종속 변수 간의 관계를 모델링합니다. 다중 선형 회귀 (Multiple Linear Regression): 두 개 이상의 독립 변수를 포함하여 종속 변수와의 관계를 모델링합니다. 로지스틱 회귀 (Log.. 2024. 1. 7.
상관계수 상관계수 (Correlation Coefficient) 정의와 의미 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도입니다. 이 값은 -1과 1 사이의 값을 가지며, 값이 클수록 변수 간의 관계가 강하다는 것을 의미합니다. 종류 피어슨 상관계수 (Pearson Correlation Coefficient): 가장 흔히 사용되는 상관계수로, 두 변수 간의 선형 관계의 강도를 측정합니다. 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient): 두 변수의 순위 간의 관계를 측정하는 비모수적 방법입니다. 켄달 순위 상관계수 (Kendall Rank Correlation Coefficient): 두 변수 간의 순위 관계의 강도를 측정합니다. 계산 .. 2024. 1. 7.
통계용어(선형대수) - 선도변수(leading variable), 자유변수(free variable) | 선도변수(leading variable)와 자유변수(free variable)선도변수는 선도원소가 속한 열에 대응되는 미지수를 말하며자유변수는 그 밖의 미지수를 의미한다. 예를 들어, 다음과 같이 확대행렬로 표현할때 적색으로 표기된 1이 선도원소이기 때문에이에 대응되는 x, y 가 선도 변수가 되고 ,그 나머지 변수인 z 는 자유변수이다. 2017. 9. 10.
통계용어(선형대수) - 선도원소(leading element) | 선도원소행의 원소중 0을 제외한 첫번째 나오는 원소 빨간색으로 표기된 부분이 선도원소 참고로 행제형행렬에서의 선도원소는 1이다. 2017. 9. 10.
통계용어 - 모수적, 비모수적 방법 :: Data 쿡북 수정이력 : | 배경통계를 통해서 우리가 확인하고 싶은것은 모집단(전체집단)의 특성이다.그러나 모집단은 어떤 경우 대상이 너무 클 뿐 아니라 신약의 경우 모든 사람에게 테스트 할 수 없기 때문에 적절하게 표본집단을 선택하고 어떤 가정을 통해 추론하게 된다. | 모수적 방법어떤 대상의 표본을 뽑아서 실험을 하게 되면 중요한 지표가 나오게 되는데, 그것이 평균, 표준편차, 분산이다.그런데 중심 극한 정리에 의해서 일정 수 이상(보통 30개)의 표본은 모집단의 분포가 연속형이든, 이산형이든, 한쪽으로 치우졌든 표본평균의 분포는 정규본포에 근접하게 된다.따라서 두 표본이 정규분포를 띈다고 가정한다면 이를 바탕으로 평균, 표준편차 비교등을 통해 집단간 차이를 밝혀낼 수 있다.이렇듯 정규성을 갖는다는 모수적 특징을.. 2017. 9. 9.
통계용어 - 자유도(degrees of freedom) :: Data 쿡북 | 자유도(degrees of freedom) 자유도(degrees of freedom)는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 크기가 n인 표본의 관측값({\displaystyle x_{1},x_{2},\dots ,x_{n}})의 자유도는 n-1이다(출처 : 위키피디아) 다시 표현해보자 A + B = 10 이라고 할때 A가 값이 정해지면 B는 선택의 여지 없이 정해진다. 즉 A가 자유도를 가지면 B는 자유도가 없다.따라서 관측값이 n 개가 있다고 할때 여기서의 자유도는 n-1 이 된다. 위키피디아의 예시를 다시한번 보자어떤 실험에서 4개 집단에 피험자들이 각 30명씩 무선배치되었을 때, 는?전체 자유도 집단내 자유도 집단간 자유도 2017. 9. 8.
통계용어 - 독립변수(Independent variable), 종속변수(Dependent variable) :: Data 쿡북 | 독립변수 란함수 관계에서, 다른 변수의 변화와는 관계없이 독립적으로 변화할 수 있는 변수 (출처 : google)- 연구자가 의도적으로 변화시키는 변수- 다른 변수의 영향을 받지 않는 변수- 종속 변수에 영향을 주는 변수 - 입력값 - 원인변수(Explanatory variable), 예측변수(Predictor variable) 이라고도 함 예) y=f(x) 일때 x y=f(x,y) 일 때 y | 종속변수 란 ↔ (독립변수)두 변수 중 한 변수의 값이 결정되는 데 따라 그 값이 결정되는 다른 변수. 함수 y=f(x)에 있어서, 독립 변수 x가 변하는 데 따라 변하는 y를 이름 (출처 : google)- 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어 하는 변수- 반응변수(Response v.. 2017. 9. 8.
통계용어 - 확률변수(random variable) :: Data 쿡북 | 확률변수란? 일정한 확률을 갖고 발생하는 사건(event)[1]에 수치가 부여되는 변수. 일반적으로 대문자 XX로 나타낸다. 확률변수 XX의 구체적인 값에 대해서는 보통 소문자를 사용해서, 예를 들어 XX가 pp의 확률로 xx의 값을 가진다는 것은 P\left(X=x\right)=pP(X=x)=p 등의 확률함수로 표현할 수 있다. 보통 확률변수 XX가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 출처 : 나무위키 다른 표현으로 보자표본공간의 각 원소에 하나의 실수값을 대응 시키는 함수 예를 들어 설명하면,동.. 2017. 9. 8.
통계용어 - 기대값(expected value) :: Data 쿡북 통계 용어를 정리해보자 | 기대값(expected value)이란 기대값 정의를 보면 다음과 같이 되어 있다.확률론에서, 확률 변수의 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.(위키피디아) 예를 들어보자주사위 하나를 던졌을 때 각 누의 값이 나올 확률이 1/6이라고 한다면 주사위의 기대값은 각 눈의 값에 각 확률을 곱한 값의 합이다. 이것을 공식으로 보면 다음과 같다. 수식으로 풀어보면 다음과 같다. 결론적으로, 주사위의 기대값은 3.5다. | 왜 기대값을 구해야 하나?주사위를 한번 던진 결과를 가지고 그 결과를 주사위가 준 일반적.. 2017. 9. 8.
반응형