이번엔 중심극한정리에 대해서 다뤄볼게요.
통계학에서 가장 중요한 정리 중 하나인데, 실무에서도 엄청 자주 쓰더라고요
표본 크기만 크면 어떤 분포든 정규분포가 되고, 신뢰구간이나 가설검정할 때도 필수고...!!
그래서 이번에는 중심극한정리의 개념과 엑셀에서 활용하는 방법들을 정리해봤어요.
중심극한정리는 표본 크기가 클 때 표본평균이 정규분포를 따른다는 놀라운 정리예요.
데이터 분석하시는 분들에게 조금이라도 도움이 되길 바라며 시작해볼게요:)

✅ 중심극한정리가 뭔가요?
중심극한정리는 **Central Limit Theorem (CLT)**이라고 불러요.
쉽게 말해서 모집단이 어떤 분포를 따르든 상관없이, 표본 크기가 충분히 크면 표본평균들은 정규분포를 따른다는 놀라운 정리입니다!
이게 바로 통계학의 기적이라고 불리는 이유예요.
중심극한정리의 3가지 핵심
- 표본 크기가 충분히 클 때: 일반적으로 n ≥ 30
- 독립적인 표본: 각 표본이 서로 영향을 주지 않음
- 어떤 분포든 상관없음: 균등분포, 이항분포, 심지어 치우친 분포도!
왜 '중심극한'이라고 부르나요?
- 중심: 표본평균들이 모집단 평균 중심으로 모임
- 극한: 표본 크기가 무한대로 갈 때의 상황
- 정리: 수학적으로 증명된 법칙
✅ 중심극한정리 시각화
주사위 예제로 중심극한정리를 이해해봐요!
단계별 설명
1개 주사위: 1~6이 동일한 확률 (균등분포)
2개 주사위 합: 7이 가장 높은 확률 (삼각형 모양)
3개 주사위 합: 더욱 정규분포에 가까워짐
많은 주사위 합: 완전한 정규분포!
엑셀로 시뮬레이션 해보기
-- 1개 주사위 (A1:A1000)
=RANDBETWEEN(1,6)
-- 2개 주사위 평균 (B1:B1000)
=AVERAGE(RANDBETWEEN(1,6),RANDBETWEEN(1,6))
-- 10개 주사위 평균 (C1:C1000)
=(RANDBETWEEN(1,6)+RANDBETWEEN(1,6)+...+RANDBETWEEN(1,6))/10
-- 히스토그램으로 그래프 그리면 정규분포 모양 확인!
📍 중심극한정리의 핵심 공식
표본평균의 분포:
- 평균: μ (모집단 평균과 동일)
- 표준편차: σ/√n (표준오차, Standard Error)
- 분포: 정규분포 N(μ, σ²/n)
-- 표준오차 계산
=모집단표준편차/SQRT(표본크기)
-- 표본평균의 95% 신뢰구간
=표본평균 ± 1.96*표준오차
✅ 표본 크기와 정규성
표본 크기에 따라 중심극한정리가 어떻게 작동하는지 살펴봐요.
표본 크기별 가이드라인
표본 크기 | 정규성 | 권장사항 |
n < 15 | 모집단이 정규분포여야 함 | 비모수 검정 고려 |
15 ≤ n < 30 | 약간 치우쳐도 OK | 정규성 검정 필요 |
30 ≤ n < 100 | 웬만하면 정규분포 | 중심극한정리 적용 가능 |
n ≥ 100 | 거의 확실히 정규분포 | 안전하게 정규분포 가정 |
엑셀로 확인해보기
-- 균등분포에서 표본 추출 (U(0,1))
표본1 (n=5): =AVERAGE(RAND(),RAND(),RAND(),RAND(),RAND())
표본2 (n=30): 30개 RAND() 값의 평균
표본3 (n=100): 100개 RAND() 값의 평균
-- 각각 1000번 반복해서 히스토그램 그리면
-- n이 클수록 더 정규분포에 가까워짐!
📍 특수한 경우들
극단적으로 치우친 분포
- 지수분포, 로그정규분포: n ≥ 50 권장
- 베르누이분포(0,1): np ≥ 5, n(1-p) ≥ 5
- 코시분포: 중심극한정리 적용 불가 (평균이 정의되지 않음)
실무 팁
- 의심스러우면 더 큰 표본 사용
- Q-Q plot으로 정규성 시각적 확인
- 부트스트랩 방법 활용 고려
✅ 실무 활용 - 신뢰구간과 가설검정
🎯 예제 1: 고객 만족도 조사
상황: 100명의 고객 만족도 평균 7.8점, 표준편차 1.5점
1단계: 표준오차 계산
표준오차 = 1.5/√100 = 0.15
-- 엑셀 계산
=1.5/SQRT(100)
결과: 0.15
2단계: 95% 신뢰구간
오차한계 = 1.96 × 0.15 = 0.294
95% 신뢰구간: 7.8 ± 0.294 = [7.506, 8.094]
-- 엑셀 계산
하한: =7.8-1.96*0.15 → 7.506
상한: =7.8+1.96*0.15 → 8.094
3단계: 가설검정 (목표: 8점 이상)
H0: μ = 8 (목표 달성)
H1: μ < 8 (목표 미달성)
Z통계량 = (7.8-8)/0.15 = -1.33
-- 엑셀로 p값 계산
=NORM.S.DIST(-1.33, TRUE)
결과: 0.092 (9.2%)
결론: p값(0.092) > 0.05이므로 목표 달성했다고 볼 수 있음
🎯 예제 2: 제품 무게 품질관리
상황: 제품 무게 표준 500g, 표준편차 10g, 36개 샘플 평균 498g
표준오차 = 10/√36 = 1.67
Z통계량 = (498-500)/1.67 = -1.20
-- 양측검정 p값
=2*NORM.S.DIST(-1.20, TRUE)
결과: 0.230 (23.0%)
결론: 유의미한 차이 없음 (공정 정상)
🎯 예제 3: 마케팅 전환율 분석
상황: 1000명 대상 이메일 마케팅, 80명 전환 (전환율 8%)
-- 이항분포의 정규근사 (중심극한정리 활용)
평균: μ = np = 1000 × 0.08 = 80
표준편차: σ = √(np(1-p)) = √(1000×0.08×0.92) = 8.58
-- 전환율의 신뢰구간
표본비율: p̂ = 80/1000 = 0.08
표준오차: √(p̂(1-p̂)/n) = √(0.08×0.92/1000) = 0.0086
95% 신뢰구간: 0.08 ± 1.96×0.0086 = [0.063, 0.097]
즉, 6.3% ~ 9.7% 사이
⚠️ 실무 주의사항
- 표본 크기 확인: 30개 이상인지 반드시 확인
- 독립성 가정: 표본들이 서로 독립적인지 점검
- 모집단 크기: 유한모집단에서는 유한모집단수정계수 적용
- 이상치 영향: 극값이 있으면 중심극한정리 효과 감소
✅ 중심극한정리 시뮬레이션
엑셀로 직접 체험해보기
균등분포에서 중심극한정리 확인하는 실습을 해봐요!
1단계: 기본 설정
-- A열: 표본번호 (1~1000)
-- B열: 표본크기 5의 평균
-- C열: 표본크기 30의 평균
-- D열: 표본크기 100의 평균
2단계: 표본평균 생성
-- B2 (n=5 표본평균)
=AVERAGE(RAND(),RAND(),RAND(),RAND(),RAND())
-- C2 (n=30 표본평균) - 보조열 사용
=AVERAGE(E2:AH2) (E2:AH2에 30개 RAND() 함수)
-- D2 (n=100 표본평균) - 보조열 사용
=AVERAGE(AI2:DO2) (AI2:DO2에 100개 RAND() 함수)
3단계: 통계량 계산
-- 각 열의 평균과 표준편차
평균 (n=5): =AVERAGE(B:B) → 약 0.5
평균 (n=30): =AVERAGE(C:C) → 약 0.5
평균 (n=100): =AVERAGE(D:D) → 약 0.5
표준편차 (n=5): =STDEV(B:B) → 약 0.13
표준편차 (n=30): =STDEV(C:C) → 약 0.05
표준편차 (n=100): =STDEV(D:D) → 약 0.03
4단계: 이론값과 비교
-- 균등분포 U(0,1)의 특성
모집단 평균: μ = 0.5
모집단 표준편차: σ = 1/√12 ≈ 0.289
-- 이론적 표준오차
n=5일 때: 0.289/√5 ≈ 0.129
n=30일 때: 0.289/√30 ≈ 0.053
n=100일 때: 0.289/√100 ≈ 0.029
-- 시뮬레이션 결과와 비교해보세요!
5단계: 히스토그램 그리기
- 삽입 → 차트 → 히스토그램
- 각 열(B, C, D)의 데이터로 히스토그램 생성
- n이 클수록 더 정규분포에 가까운 모양!
✅ 중심극한정리 완벽 정리
🚨 핵심 개념 정리
구분 | 모집단 | 표본평균 분포 |
평균 | μ | μ (동일) |
표준편차 | σ | σ/√n (표준오차) |
분포 | 어떤 분포든 | 정규분포 (n≥30) |
변동성 | - | n이 클수록 감소 |
💡 실무 적용 체크리스트
- 표본 크기 확인: n ≥ 30인가?
- 독립성 확인: 표본들이 독립적인가?
- 표준오차 계산: σ/√n
- 신뢰구간 구성: 평균 ± Z×표준오차
- 가설검정 실시: Z통계량 계산
🔍 주요 공식들
계산 항목 | 공식 | 엑셀 함수 |
표준오차 | σ/√n | =표준편차/SQRT(표본크기) |
Z통계량 | (x̄-μ)/(σ/√n) | =(표본평균-모평균)/표준오차 |
95% 신뢰구간 | x̄ ± 1.96×SE | =평균±1.96*표준오차 |
p값 | P(Z ≥ |z|) | =2*(1-NORM.S.DIST(ABS(z),TRUE)) |
🎯 언제 사용하나요?
- 신뢰구간 계산: 모집단 평균의 범위 추정
- 가설검정: 평균에 대한 통계적 검정
- 품질관리: 공정 능력 평가
- 마케팅 분석: 전환율, 만족도 분석
- A/B 테스트: 그룹 간 차이 검정

많은 도움이 되셨을까요~?
더 나은 통계왕이 되기 위해서 열심히 화이팅!
'Study > Data Analysis' 카테고리의 다른 글
엑셀 통계검정 완벽 가이드 | t검정, 카이제곱검정, 정규성검정 방법 선택 (0) | 2025.06.21 |
---|---|
엑셀 이항분포 함수 완벽 가이드 | BINOM.DIST, BINOM.INV로 성공확률부터 품질관리까지 (0) | 2025.06.21 |
엑셀 t분포 함수 완벽 가이드 | T.DIST, T.INV로 가설검정부터 신뢰구간까지 (1) | 2025.06.21 |
MySQL 기초 - 3편: 내장 함수로 데이터 활용 마스터하기 🎯 (1) | 2025.06.20 |
엑셀 정규분포 함수 완벽 가이드 | NORM.DIST, NORM.INV로 확률계산부터 실무활용까지 (2) | 2025.06.20 |