통계학의 이해 Ⅰ 2주차 일변량 자료 기술통계
【자료의 분류와 특성】
✹ 범주형 자료(Categorial Data)
질적 데이터를 나타내며, 특정 그룹이나 범주로 데이터를 분류하는 데 사용된다.
✶ 명목형 자료(Nominal Data)
범주 간 순서가 없는 범주형 자료
(예) 혈액형, 성별 등
✶ 순서형 자료(Ordinal Data)
범주 간 순서가 있는 범주형 자료로, 범주화를 통해 수치형 자료를 순서형 자료로 변환할 수 있다.
(예) 비만도, 선호도, 학점 등
✹ 수치형 자료(Numerical Data)
정량적 데이터를 나타내며, 수치로 표현되는 데이터를 말한다.
✶ 이산형 자료(Discrete Data)
셀 수 있는 형태의 자료
(예) 충치 개수, 교통사고 건수 등
✶ 연속형 자료(Continuous Data)
값이 연속적으로 존재하여 셀 수 없는 형태의 자료로, 특정 구간 내 모든 값을 가질 수 있다.
(예) 신장, 체중, 시간 등
【범주형 자료 정리】
✹ 도수분포표(Frequency Distribution Table)
데이터를 요약하고 정리하기 위해 사용되는 표로, 값 또는 구간별로 데이터의 빈도를 정리하여 표시한다.
✶ 도수(Frequency)
각 계급에 속하는 데이터의 개수
✶ 상대도수(Relative Frequency)
도수를 전체 데이터 개수로 나누어 비율로 나타낸 값
✹ 원 도표(Pie Chart)
데이터의 각 항목이 전체에서 차지하는 비율을 원형으로 나타낸 그래프
✹ 막대 그래프(Bar Chart)
데이터의 각 항목의 크기를 막대의 길이로 나타낸 그래프
【수치형 자료 정리】
✹ 점 도표(Dot Plot)
각 데이터의 값을 점으로 표시하여 데이터의 분포를 시각적으로 표현한 그래프로, 데이터 값이 반복될 경우에는 같은 값 위에 점이 쌓이는 방식으로 표현된다.
✹ 히스토그램(Histogram)
데이터를 구간(계급)으로 나누고, 각 구간에 속하는 데이터의 빈도를 막대 형태로 나타낸 그래프
⬩ 막대 그래프와 구간이 같으면 차이가 없고, 구간이 같지 않으면 차이가 있다.
⬩ 계급의 상대도수를 사각형의 면적으로 표시한다.
✹ 줄기와 잎 그림(Stem-and-Leaf Plot)
데이터를 줄기와 잎으로 나누어 정리한 그래프
✹ 상자 그림(Box Plot)
데이터의 중앙값, 사분위수, 이상치를 시각적으로 표현한 그래프
【과제】
1) 예제파일 자료를 이용해 도수분포표와 막대 그래프 그리기
# 데이터 읽기
scores <- scan("score.txt", what = "character")
# 학점별 도수 계산
score_table <- table(scores)[c("A+", "A", "B+", "B", "C+", "C", "D+", "D", "F")]
# 도수 합계
total_scores <- sum(score_table)
# 상대도수 계산
relative_freq <- round(100 * score_table / total_scores, 1)[c("A+", "A", "B+", "B", "C+", "C", "D+", "D", "F")]
# 누적상대도수 계산
cumulative_freq <- cumsum(relative_freq)
# 도수분포표
score_freq <- cbind("Freq" = score_table, "RelFreq" = relative_freq, "CumRelFreq" = cumulative_freq)
# 결과
print(score_freq)
# 막대그래프
barplot(relative_freq, ylim = c(0, 30), space = 0.2, xlab = "학점", ylab = "상대도수(%)")
abline(h = 0)
abline(h = c(10, 20), lty = 3)
2) 취업률 자료를 (,] 기준으로 변경해 도수분포표와 히스토그램 그리기