통계 기초

유튜브 Sapientia a Dei 채널에서 공부한 내용을 정리하였습니다.

  • 통계적인 사고방식이란?

    • “어떤 사건이 우연히 발생할 확률이 얼마일까?” 라고 묻는 것
  • 평균

    • 자료의 중심값으로서 자료의 특성을 대표하는 값
  • 분산

    • 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져있는 평균적인 거리
  • p-값이란?

    • p-value : probability value, 즉 p-값이란 확률값이다.
    • p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5% 보다 작다는 의미가 된다.
    • 우연히 발생할 확률이 5%보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다고 보는 것이다. 즉, 이 사건은 우연히 발생한 것이 아니라 분명히 뭔가 이유(인과관계)가 있다고 추정하는 것이다.
    • p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 가능성이 없다는 뜻이므로 뭔가 이유가 있다는 뜻이 되고 이를 우리는 “유의하다”. 즉 뭔가 의미(이유)가 있다 (인과관계가 있다) 정도로 해석하는 것이다.
    • 만약 p-값이 0.05보다 크면, 이 사건은 우연히 발생한 것이다 라고 생각하고 이 사건에는 어떠한 의미 즉, 인과관계가 없다고 판단하는 것이다.
    • 우리가 사용하는 p-값의 확률값은 1종오류의 수준을 5% 미만으로 제약한다는 의미로 사용되는 것이다.
    • 다르게 말하자면, 어떤 사건이 우연히 발생했음에도 우연히 발생하지 않았다고 결론 내릴 오류를 5%이내로 하겠다는 것이다.
  • 귀무가설, 대립가설

    • “어떤 사건이 우연히 일어날 확률” 을 구할 때, p-값을 사용하는데, 만약 여기서 말하는 그 사건이 우연히 일어났다 라고 가정하는 것이 귀무가설이고, 그 사건이 우연히 일어난 것이 아니고 뭔가 이유(인과관계)가 있다 라고 가정하는 것이 대립가설이다.
    • 즉, 귀무가설이 맞다면 그 사건은 우연히 일어난 것으로 추정하고, 대립가설이 맞다면 우연히 일어난 것이 아닌 뭔가 이유(인과관계)가 있다고 추정하는 것이다.
  • 변수

    • 하나의 개념을 대표하는 상징으로서 그것의 특성이 갖는 값이나 강도 또는 크기의 차이를 나타낼 수 있는 것
  • 명목변수 / 척도

    • 각 범주(속성)간 순위가 없다.
    • 범주에 할당된 값은 범주 이름을 대신할 뿐 의미가 없다.
    • 예) 성별/인종/혈액형 등
  • 순위변수 / 척도

    • 각 범주(속성)간 순위가 있다.
    • 범주에 할당된 값은 범주의 이름뿐만 아니라 순위를 나타낸다.
    • 순위 사이에 등간선은 없다.
    • 예 ) 성적/학력/경제수준/리커르트 척도
  • 구간변수 / 척도

    • 측정된 범주 사이에 등간성이 있다.
    • 할당된 값은 임의 단위로서 비율이나 절대 ‘0’의 의미가 없다.
    • 따라서 덧셈은 가능하나 곱셈은 안된다.
    • 예 ) 온도
  • 비율변수 / 척도

    • 측정된 범주 사이에 등간성이 있다.
    • 할당된 값은 임의 단위로서 비율과 절대 ‘0’의 의미가 있다.
    • 덧셈과 곱셈 모두 가능하다.
    • 예) 키/몸무게/나이/시간
  • 상관관계

    • 한 변수와 다른 변수가 공변하는 함수관계
    • 상관관계를 나타내는 상관계수는 두가지를 의미한다
      • 힘 & 방향
  • 상관계수

    • 상관계수는 -1부터 0을 거쳐 +1까지만 존재
    • 상관계수가 -1일 때, 완벽한 음의 상관관계
    • 상관계수가 0일 때, 아무런 관계도 없음
    • 상관계수가 +1일 때, 완벽한 양의 상관관계
  • 상관계수의 + / - 는 방향을 의미

  • 상관계수의 크기는 힘을 의미

    • 상관계수가 절대값 1에 가까울수록 힘이 세다
    • 힘이 세다는 것은 데이터들이 가깝게 모여 있다는 의미
    • 따라서 데이터들이 퍼져 있으면 상관계수가 0에 가까워 짐
  • 가장 중요한 것은 “상관관계는 인과관계가 아니다"라는 점

  • 인과관계

    • 원인과 결과의 관계를 가지는 변수의 관계성을 의미
    • 저녁을 먹었기 때문에 배부르다
      • 저녁식사가 원인이고 배부른 것이 결과
    • 수입이 있기 때문에 지출이 있다
      • 수입이 원인이고 지출이 결과
    • 고객은 만족하기 때문에 재방문하려고 한다
      • 고객만족이 원인이고 재방문 의도가 결과