본문으로 바로가기

| 들어가며

앞으로 몇 차수에 걸쳐 다변량 분석 중 집단간 차이 유의성 분석에 대한 내용을 정리한다.

이번은 T Test에 대한 내용이다.

용어에 대한 것은 해당 용어를 클릭하면 이동한다.


전체 연관 내용은 아래 링크를 참고하기 바란다.

1) T Test : 표본의 평균차이 검정 (모집단의 분산이 같다는 가정 하에 함)

2) Welch Test : 표본의 평균차이 검정 (모집단의 분산이 같지 않을 수 있다는 가정하에 함)

3) F Test (Var Test) : 표본의 분산 차이 검정

4) Ansari-Bardley Test : 동질적 2개집단 표본 분포 비모수 검정

5) Mode Test : 이질적 2개 집단 표본 분포의 비모수 검정

6) Fligner Test : K개 집단의 표본 분포 비모수 검정

7) Battlett Test : K개 집단의 표본 분포 모수 검정


| T Test (T 검정)의 정의

두 집단간의 분석을 할 때 대부분 모집단의 정보가 부족하기 때문에 분산을 모르는 경우가 대부분이다.

T Test는 모집단의 정보가 제한적이나 분산은 같을 것으로 가정한 검정이다.

두 집단의 분산이 같다는 것은 이 또한 추정이긴 하나 유사한 집단이나 동일 집단내 분류를 달리 하는 그룹으로 묶는 것이다.


T Test의 검정 통계량은 "Student T" 분포를 토대로 산정된다. 

참고로 T Test는 기네스 사의 사원이었던 윌리엄 고셋이 만들어낸 것으로 그의 필명인 Student t를 그대로 활용하고 있다.


| Welch Test의 정의

Welch Test는 T 검정과 유사하나, 분산이 다를 것으로 가정한 검정이다.

이미 언급했던 것 처럼 모분산의 정보를 대부분 알기 어렵기 때문에 일반 t-test보다는 welch test가 더 많이 활용된다.

참고로 R에서 t-test와 welch test는 같은 function을 활용하며 속성값에  var.equal=TRUE가 없으면 default로 FALSE가 적용되어 welch test가 된다.


| R을 활용한 T Test 실습

  • 두 개 독립 표본의 평균 차이 검정
남학생과 여학생의 영어 성적에 대해 다음과 같이 나왔다고 가정할 때 남학생과 여학생의 평균에 차이가 존재하는지를 알아보려고 한다.
t.test의 귀무가설은 "차이가 없다"이고  
대립가설은 "차이가 있다." 이다.

> boy <-  c(46,47,58,47,27,58,56,26,47,25)
> girl <- c(78,57,31,28,67,77,36,57,36,57)
> t.test(boy,girl, var.equal = TRUE)

Two Sample t-test

data:  boy and girl
t = -1.208, df = 18, p-value = 0.2427
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -23.831339   6.431339
sample estimates:
mean of x mean of y 
     43.7      52.4 

> t.test(boy,girl)

Welch Two Sample t-test

data:  boy and girl
t = -1.208, df = 16.133, p-value = 0.2445
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -23.957861   6.557861
sample estimates:
mean of x mean of y 
     43.7      52.4 

데이터에 대해 p-value를 보면 유의수준인 0.05보다 크기 때문에 둘 다 귀무가설을 채택한다. 

남녀의 영어 성적은 차이가 없다고 본다. 

속성값을 보면 var.equal 이 보이는데 TRUE가 를 쓴 것은 t.test  없는 것은 welch test를 한 것이다.


  • 2개 대응 표본의 평균 차이 검정 사례

어떤 영화 평점에 대해 광고 전후의 선호도를 뽑았다고 가정하자. 

bf는 이전의 평점.

af는 이후의 평점이다.

여기서는 동일한 표본에 대해 정책의 전수를 보는 것이기 때문에 대응 표본으로 속성 값에 paried=T를 준다.

자, 광고에 따라 영화의 선호도가 차이가 있는지 없는지를 판별하기 위해서 t.test를 해보자


> bf <- c(11,14,18,21,26,28,37,45,48,60,64)

> af <- c(13,15,17,18,19,23,25,28,29,36,37)

> t.test(bf,af, paired=T)


Paired t-test


data:  bf and af

t = 3.2993, df = 10, p-value = 0.008024

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

  3.305576 17.058061

sample estimates:

mean of the differences 

               10.18182


결과를 보면 검정 통계량 t값 3.2993에 대한 p-value가 0.008024로 

유의확률 0.05보다 작기 때문에 귀무가설을 버리고 대립가설을 채택한다.

따라서 결론은 광고에 따라 영화의 선호도가 차이를 보였다 라고 할 수 있다. 



| 결론

t.test에 대한 간단한 예제를 보았다.

다음 블로깅에서는 F test, 표본의 "분산" 차이 검정을 설명한다.


| 주요 용어

비모수, 모수 : http://datacookbook.kr/64


| 참고자료

도서 : 다변량 분석 및 데이터마이닝(이재길 지음


댓글을 달아 주세요