통계학의 이해 Ⅰ 1주차 통계학이란?
【표본추출】
✹ 확률표본추출(Probability Sampling) ⇔ 비확률표본추출(Non-probability Sampling)
모집단에서 각 개체가 선택될 확률이 일정하거나, 그 확률을 알 수 있는 방식으로 샘플을 추출하는 방법이다.
✶ 단순 무작위 추출(SRS; Simple Random Sampling)
모집단의 모든 개체가 동등한 확률로 선택되는 방법이다.
✶ 계통 추출(Systematic Sampling)
모집단에서 첫 번째 개체를 무작위로 선택한 후, 일정한 간격으로 개체를 선택하는 방법이다.
✶ 층화 추출(Stratified Sampling)
모집단을 여러 개의 층(strata)으로 나눈 후, 각 층에서 개체를 무작위로 선택하는 방법이다. 각 층은 모집단의 중요한 특성을 반영하는 집단으로 나누어진다. 내부는 동질적, 외부는 이질적이다.
✶ 군집 추출(Cluster Sampling)
모집단을 집락(cluster)으로 나눈 후, 일부 집락을 무작위로 선택하는 방법이다. 내부는 이질적, 외부는 동질적이다.
【가중치】
✹ 가중치(weight)
표본이 모집단을 대표하지 못할 때, 가중치를 조정해서 해결할 수 있다.
(예시) 대학 졸업자 취업 현황 조사
⬩ 모집단: 수도권 40만 명과 지방 20만 명
⬩ 표본: 수도권 500명과 지방 500명
✶ 추출확률에 따른 가중치 w₁
표본 추출 시 추출 확률을 반영하여 가중치 부여
⬩ 추출률
수도권: 500명 / 40만 명 = 0.00125
지방: 500명 / 20만 명 = 0.0025
⬩ 설계 가중치(= 1 / 추출률)
수도권: 1 / 0.00125 = 800
지방: 1 / 0.0025 = 400
✶ 무응답에 따른 가중치 w₂
대체 표본이 없거나 일부 항목에 답을 하지 않은 경우 가중치 부여
⬩ 응답률
수도권: 300명 / 500명 = 60%
지방: 400명 / 500명 = 80%
⬩ 응답 가중치(= 1 / 응답률)
수도권: 1 / 0.6 = 1.6667
지방: 1 / 0.8 = 1.25
✶ 사후층화를 위한 가중치 w₃
조사 후 표본의 분포가 모집단의 분포와 일치하도록 가중치 부여
⬩ 분포
모집단 성비: 남성 45%, 여성 55%
표본 성비: 남성 60%, 여성 40%
⬩ 사후층화 가중치
남성 가중치 45% / 60% = 0.75
여성 가중치 55% / 40% = 1.375
✶ 최종 가중치 = w₁ × w₂ × w₃
수도권 남성 가중치: 800 × 1.6667 × 0.75 = 1000
수도권 여성 가중치: 800 × 1.6667 × 1.375 = 1400
지방 남성 가중치: 400 × 1.25 × 0.75 = 375
지방 여성 가중치: 400 × 1.25 × 1.375 = 687.5
【과제】
다음과 같이 세 지역에서 표본을 50대 이상과 40대 이하로 나눠서 조사를 하려고 한다.
A지역 | B지역 | C지역 | 합계 | |
50대 이상 | 150 | 200 | 150 | 500 |
40대 이하 | 150 | 100 | 250 | 500 |
모집단의 구성이 다음과 같이 주어져 있다.
A지역 | B지역 | C지역 | 합계 | |
50대 이상 | 4,000 | 3,000 | 3,500 | 10,500 |
40대 이하 | 5,500 | 5,000 | 4,500 | 15,000 |
1) 위의 지역 정보를 가지고 A지역의 표본에 대한 가중치 유도하기
2) 위의 지역 정보와 연령 정보를 가지고 A지역의 50대 이상의 표본에 대한 가중치 유도하기