t-test

JiHun

2021-10-06

통계 공부

t-test
- 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대해 가설검정 방법
t-test 목적
- 목적 : 두개의 집단이 같은지 다른지 비교하기 위해 사용한다.
그런데, 여기서 ‘집단’이라는 표현이 다소 애매하다.
통계에서 일반적으로 집단이란 샘플(표본)을 이야기 한다
그러나 샘플(표본)만 존재하는 것은 아니다
모집단(영어로 population)이라는 것도 있다
모집단 중에 일부를 표본으로 뽑아서 연구하거나 조사한다.
그렇다면 어떻게 두 집단이 같은지 다른지 비교할까?
정답은 두 집단의 평균값이 통계적으로 같은지 다른지를 확인한다.
t-test 예
- 어느 날 당신은 A대학 남학생들의 키가 B대학 남학생들보다는 크다는 생각이 들었다. 두 대학 남학생들의 키는 같을까? 다를까?
- A대학 남학생 평균키 = 178.5cm
- B대학 남학생 평균키 = 179.9cm
t-test를 위한 통계적 질문
- A대학 남학생 평균키(178.5cm)와 B대학 남학생 평균키(179.9cm)가 우연히 같은 확률은 얼마나 될까?
- A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까?
- 만약 1.4cm 차이가 우연히 발생했다면 두 대학의 남학생의 키는 같은 것이고 우연히 발생하지 않았다면 두 대학의 남학생의 키는 다른것이다.
- 그렇다면 과연 1.4cm의 차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까?
- 1.4cm의 차이는 과연 큰 것인가 작은 것인가?
- 우리는 1.4cm가 얼마나 큰지 혹은 작은지 알 수 없습니다.
- 우리는 이제 이 1.4cm가 얼마나 큰지 혹은 작은지 결정할 나름의 비교 대상이 필요하다.
- 누구를 가지고 와서 비교해야 할까? -> 표준편차(분산), 표준편차는 데이터에 큰 문제가 없는 한은 의미 없는 우연히 퍼져 있는 정도
- 이 1.4cm의 차이도 결국 두 집단의 평균적인 거리이다.
  - 왜나하면, 두집단의 수많은 데이터의 평균의 차이가 1.4cm라는 것은 두 집단의 수 많은 데이터들 사이의 평균적인 거리가 1.4cm라는 의미이기 때문이다.
- 그렇다면 비교해보자
  - 두 집단 A와 B의 데이터 사이의 평균적인 거리는 1.4cm이다.
  - 두 집단 A와 B의 데이터들의 표준편차는 XXXcm 이다
- 따라서,
  - 만약 이 1.4cm가 표준편차 XXXcm보다 현저히 작다면, 우리는 이 1.4cm의 차이에 큰 의미를 둘 수 없을 것이다.
  - 그러나 1.4cm가 표준편차 XXXcm보다 현저히 크다면, 우리는 이 1.4cm의 차이에 큰 의미를 둘 수 있을 것이다.
- 결론적으로,
  - 두 집단의 평균값의 차이가 표준편차보다 현저히 작으면, 우리는 이 차이가 우연히 발생했다고 결론을 내릴 것이다.
  - 반대로, 두 집단의 평균값의 차이가 표준편차보다 현저히 크면, 우리는 이 차이가 우연히 발생하지 않았다고 결론을 내릴 것이다.
- 앞에서 통계학이란 분산(표준편차)의 마법이라고 했다.
  - 결론적으로는 t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고서 결정하는 통계적 과정이다.
정규분포
- 정규분포의 특징
  - 종모양 (bell shape)
  - 정가운데 (평균)을 중심으로 좌우 대칭
  - 정규분포의 양 끝은 영원히 “0"에 닿지 않음
- 정규분포는 평균과 표준편차만으로 규정됨
  - 평균과 표준편차가 다른 무한대 개의 서로 다른 정규분포가 존재
- 정규분포의 아래 면적은 확률을 의미 함
  - 정규분포 곡선 아래의 모든 면적의 합은 “1”
  - 따라서 정규분포를 이용한 확률을 구하려면 적분을 해야 함
표준정규분포
- 표준정규분포
  - 평균이 “0"이고, 표준편차가 “1"인 정규분포
- 왜?
  - 무한대 가지의 정규분포 곡선을 적분하는 번거로움을 덜기 위해
표준정규분포의 사용예시
- 표준정규분포 사용의 예
  - 금년도 대학교 신입생 1000명을 대상으로 영어 실력고사를 시행
  - 영어점수의 분포가 정규분포에 근사
  - 평균점수는 82이고 표준 편차는 5
- 이때, 82점부터 90점까지의 점수를 받은 학생의 수는?
  - 평균이 82이고 표준편차가 5인 정규분포 곡선에서 82점부터 90점까지의 면적을 적분을 적용해 구하면,
  - 이 면적이 곧 확률이므로 구한 확률 x 1000명을 적용하면 82점부터 90점까지의 점수를 받은 학생 수를 구할 수 있음
- 적분은 미친짓이므로, 우리가 가진 정규분포를 표준정규분포를 바꾸자
- 어떻게???
  - z-score = ( 값 - 평균값 ) / 표준편차
  - Z(82) = (82 - 82) / 5 = 0
  - Z(90) = (90 - 82) / 5 = 1.6
- 그 다음엔 어떻게?
  - 통계학자들이 사전에 “표준정규분포표"라는 확률표를 만들어 놓음
    - 0.9452 - 0.5 = 0.4452
    - 0.4452 x 1000 = 445명
z-test
- 이와 같이 z-score(z값)을 가지고 하는 테스트를 z-test라 한다.
- z-test는 z값과 표준정규분포표를 이용하여 할 수 있다.
- z-score(z값)으로 변환하는 것을 z-transformation이라고 하기도 하고 표준화(standardization)이라고 하기도 한다.
  - z-score = ( 값 - 평균값 ) / 표준편차
  - 1 표준편차당 관찰값(X)이 평균으로부터 얼마나 떨어져 있는지를 의미
  - z값은 단위로부터 자유롭다 (dimensionless quantity)
정규분포표는 그렇다 치고 어디에 써먹어야 할까?
- 정규분포곡선의 아랫쪽 면적은 확률이다.
- 이게 어디에 연결될까?
- 첫 강의에서 이야기 했던 내용을 떠올려 보자
- 어떤 사건이 우연히 발생할 확률이 얼마일까?
- 여기서 말하는 확률이 바로 정규분포곡선 아랫쪽의 면적인 그 확률이다
이것을 우리가 처음 하려고 했던 t-test의 질문을 떠올려 보면,
- A대학 남학생 평균키(178.5cm)와 B대학 남학생 평균키(179.9cm)가 우연히 같을 확률은 얼마나 될까?
- A대학과 B대학의 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까?
- 다만, t-test를 할 때는 정규분포를 쓰지 않고 다른 분포곡선을 사용한다.
양측검정 vs 단측검정
- 결론적으로 양측검정과 단측검정의 차이는 대립가설(Alternative Hypothesis)의 차이에서 발생
  - 양측은 “0"보다 크거나 작은 두 가지를 모두 포함하므로 분포곡선의 양쪽 꼬리의 면적의 합이 5.0%에 들어갈 만큼 크거나 작아야 한다.
  - 단측은 “0"보다 크다(우측검정)와 “0"보다 작다(좌측검정)의 두 가지로 나누어볼 수 있고 어느 한쪽 꼬리의 면적이 5.0%에 들어갈 만큼 크거나 작아야 하낟.
  - “0"을 기준으로 양측이든 단측이든 95% 안에 들어오면 두 평균값의 차이는 우연히 발생한 것이므로, 두 집단의 평균값은 통계적으로는 같은 것이다.
t-값 (t-value)의 의미
- 우리의 목적은 두 집단의 평균값이 같은지 다른지 알고 싶은 것이다.
- 그래서 통계적 가설에 의거하여 두 집단의 평균값의 차이가 “0"과 같은 지 다른 지 궁금하다.
- 위의 값에서 우리가 궁금해 하는 그 차이는 분자에 있다.
- 여기에서 중요한 것이 통계적인 생각/질문/접근법이다
- 도대체 저 값이 얼마나 커야 큰 것일까?
- 비교 대상이 필요하겠죠?
- t-value = ( 평균값1 - 평균값2) / (표준편차 / sqrt(n) )
- 우리는 두 평균값의 차이를 표준편차와 비교하는 것이다.
- 왜?
  - 표준편차란 우리의 데이터가 평균값을 기준으로 평균적으로 퍼진 정도이다.
  - 따라서 이 자체는 의미 없는 편차
  - 만약 두 집단의 평균값의 (편)차가 의미 없는 편차인 표준편차만도 못하다면 당연히, 이 차이는 우연히 발생했다고 보아야 할 것이다.
  - 그런데, 여기서 sqrt(n)의 역할은 무엇일까요?
정리하자면
- 두 집단의 평균값의 차이가 의미 없는 편차인 표준편차 만도 못하다면, 이 차이는 우연히 발생했다고 본다.
- 표본의 크기 (n)이 커지면 커질수록 t-값은 커지고
- 표본의 크기 (n)이 커지면 커질수록, t-분포는 표준 정규분포에 근사
- t-test에서 자유도(df)는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고
- 자유도가 커졌다는 의미는 우리가 t-분포에 묶여있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미
t-test 실전 예제
- 결론적으로 양측검정을 전제했을 때,
- 표준편차(s)가 7.05cm였고, 표본의 크기(n)가 101명이라면
- t-value = 1.996, df=100
- critical value(c.v.) = 1.984 이므로
- 우리의 t-값이 c.v.보다 크므로 두 평균의 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으므로, 이 차이는 통계적으로 유의하다.
- 그러므로, 두 대학의 학생의 키는 통계적으로 유의하게 다르다
  - 이 뜻은 두 대학 학생의 평균키 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으며
  - 이는 우연히 발생했다고 보기 어려워 (현재로서는 정확한 이유는 모르겠으나) 두 대학의 학생의 키가 다른 원인이 있다고 볼 수 있다.