본문 바로가기

Data Science/통계용어11

결정 트리(Decision Trees) 결정 트리(Decision Trees) 개요 결정 트리는 분류 및 회귀 문제에 사용되는 감독 학습 알고리즘입니다. 이 알고리즘은 데이터를 분석하여 패턴을 학습하고, 일련의 질문을 통해 결정을 내리는 나무 형태의 모델을 만듭니다. 각 노드(node)는 데이터의 특징(feature)에 대한 질문을 나타내며, 각 분기(branch)는 가능한 응답을 나타냅니다. 가장 하단의 노드(잎 노드, leaf node)는 결정 결과를 나타냅니다. 필요 이유 이해와 해석이 용이: 결정 트리는 시각화가 쉽고, 비전문가도 이해하기 쉬운 결과를 제공합니다. 데이터 전처리 요구가 적음: 결정 트리는 다른 알고리즘에 비해 덜 복잡한 데이터 전처리가 필요합니다. 비선형 관계 모델링: 결정 트리는 데이터의 비선형 패턴을 포착할 수 있습.. 2024. 1. 7.
분류분석(Classification Analysis 분류 분석(Classification Analysis)은 데이터 과학과 기계 학습 분야에서 사용되는 주요 기술 중 하나입니다. 이 방법은 입력 데이터를 미리 정의된 클래스나 범주로 분류하는 과정을 말합니다. 주요 목적은 새로운 데이터가 주어졌을 때, 이를 올바른 범주로 분류하는 것입니다. 분류 분석 알고리즘은 크게 다음과 같이 나눌 수 있습니다 결정 트리(Decision Trees): 데이터를 분류하기 위해 결정 규칙의 계층적 구조를 사용합니다. 각 노드는 특정 속성에 대한 결정을 나타내며, 이를 통해 데이터를 서브셋으로 나눕니다. 나이브 베이즈(Naive Bayes): 통계적 방법을 사용하여 각 클래스에 속할 확률을 계산합니다. 이 알고리즘은 모든 특성이 서로 독립적이라고 가정합니다. 서포트 벡터 머신.. 2024. 1. 7.
회귀분석 회귀분석은 변수들 사이의 관계를 모델링하고, 한 변수의 변화가 다른 변수에 어떤 영향을 미칠지 예측하는 통계적 방법입니다. 회귀분석의 주요 목적은 종속 변수(응답 변수)와 하나 또는 여러 개의 독립 변수(예측 변수) 간의 관계를 찾고, 이를 수학적 모델로 표현하는 것입니다. 회귀분석의 기본 수식 회귀분석에서 가장 기본적인 형태는 선형 회귀분석입니다. 선형 회귀의 일반적인 수식은 다음과 같습니다: 여기서, 회귀분석의 종류 단순 선형 회귀 (Simple Linear Regression): 한 개의 독립 변수와 종속 변수 간의 관계를 모델링합니다. 다중 선형 회귀 (Multiple Linear Regression): 두 개 이상의 독립 변수를 포함하여 종속 변수와의 관계를 모델링합니다. 로지스틱 회귀 (Log.. 2024. 1. 7.
상관계수 상관계수 (Correlation Coefficient) 정의와 의미 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도입니다. 이 값은 -1과 1 사이의 값을 가지며, 값이 클수록 변수 간의 관계가 강하다는 것을 의미합니다. 종류 피어슨 상관계수 (Pearson Correlation Coefficient): 가장 흔히 사용되는 상관계수로, 두 변수 간의 선형 관계의 강도를 측정합니다. 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient): 두 변수의 순위 간의 관계를 측정하는 비모수적 방법입니다. 켄달 순위 상관계수 (Kendall Rank Correlation Coefficient): 두 변수 간의 순위 관계의 강도를 측정합니다. 계산 .. 2024. 1. 7.