CRUD

Create, Read, Update, and Delete

Study/Data Analysis

엑셀 중심극한정리 완벽 가이드 | 표본평균 정규분포부터 신뢰구간 계산까지

하이앤 2025. 6. 21. 11:07
반응형
SMALL

 

이번엔 중심극한정리에 대해서 다뤄볼게요.

통계학에서 가장 중요한 정리 중 하나인데, 실무에서도 엄청 자주 쓰더라고요

표본 크기만 크면 어떤 분포든 정규분포가 되고, 신뢰구간이나 가설검정할 때도 필수고...!!

그래서 이번에는 중심극한정리의 개념과 엑셀에서 활용하는 방법들을 정리해봤어요.

중심극한정리는 표본 크기가 클 때 표본평균이 정규분포를 따른다는 놀라운 정리예요.

데이터 분석하시는 분들에게 조금이라도 도움이 되길 바라며 시작해볼게요:)

SMALL

✅ 중심극한정리가 뭔가요?

중심극한정리는 **Central Limit Theorem (CLT)**이라고 불러요.

쉽게 말해서 모집단이 어떤 분포를 따르든 상관없이, 표본 크기가 충분히 크면 표본평균들은 정규분포를 따른다는 놀라운 정리입니다!

이게 바로 통계학의 기적이라고 불리는 이유예요.

중심극한정리의 3가지 핵심

  • 표본 크기가 충분히 클 때: 일반적으로 n ≥ 30
  • 독립적인 표본: 각 표본이 서로 영향을 주지 않음
  • 어떤 분포든 상관없음: 균등분포, 이항분포, 심지어 치우친 분포도!

왜 '중심극한'이라고 부르나요?

  • 중심: 표본평균들이 모집단 평균 중심으로 모임
  • 극한: 표본 크기가 무한대로 갈 때의 상황
  • 정리: 수학적으로 증명된 법칙
반응형

✅ 중심극한정리 시각화

주사위 예제로 중심극한정리를 이해해봐요!

 

단계별 설명

1개 주사위: 1~6이 동일한 확률 (균등분포)

2개 주사위 합: 7이 가장 높은 확률 (삼각형 모양)

3개 주사위 합: 더욱 정규분포에 가까워짐

많은 주사위 합: 완전한 정규분포!

 

엑셀로 시뮬레이션 해보기

-- 1개 주사위 (A1:A1000)
=RANDBETWEEN(1,6)

-- 2개 주사위 평균 (B1:B1000)
=AVERAGE(RANDBETWEEN(1,6),RANDBETWEEN(1,6))

-- 10개 주사위 평균 (C1:C1000)
=(RANDBETWEEN(1,6)+RANDBETWEEN(1,6)+...+RANDBETWEEN(1,6))/10

-- 히스토그램으로 그래프 그리면 정규분포 모양 확인!

 

📍 중심극한정리의 핵심 공식

표본평균의 분포:

  • 평균: μ (모집단 평균과 동일)
  • 표준편차: σ/√n (표준오차, Standard Error)
  • 분포: 정규분포 N(μ, σ²/n)
-- 표준오차 계산
=모집단표준편차/SQRT(표본크기)

-- 표본평균의 95% 신뢰구간
=표본평균 ± 1.96*표준오차

✅ 표본 크기와 정규성

표본 크기에 따라 중심극한정리가 어떻게 작동하는지 살펴봐요.

 

표본 크기별 가이드라인

표본 크기 정규성 권장사항
n < 15 모집단이 정규분포여야 함 비모수 검정 고려
15 ≤ n < 30 약간 치우쳐도 OK 정규성 검정 필요
30 ≤ n < 100 웬만하면 정규분포 중심극한정리 적용 가능
n ≥ 100 거의 확실히 정규분포 안전하게 정규분포 가정

 

엑셀로 확인해보기

-- 균등분포에서 표본 추출 (U(0,1))
표본1 (n=5): =AVERAGE(RAND(),RAND(),RAND(),RAND(),RAND())
표본2 (n=30): 30개 RAND() 값의 평균
표본3 (n=100): 100개 RAND() 값의 평균

-- 각각 1000번 반복해서 히스토그램 그리면
-- n이 클수록 더 정규분포에 가까워짐!

 

📍 특수한 경우들

극단적으로 치우친 분포

  • 지수분포, 로그정규분포: n ≥ 50 권장
  • 베르누이분포(0,1): np ≥ 5, n(1-p) ≥ 5
  • 코시분포: 중심극한정리 적용 불가 (평균이 정의되지 않음)

실무 팁

  • 의심스러우면 더 큰 표본 사용
  • Q-Q plot으로 정규성 시각적 확인
  • 부트스트랩 방법 활용 고려

✅ 실무 활용 - 신뢰구간과 가설검정

🎯 예제 1: 고객 만족도 조사

상황: 100명의 고객 만족도 평균 7.8점, 표준편차 1.5점

 

1단계: 표준오차 계산

표준오차 = 1.5/√100 = 0.15

-- 엑셀 계산
=1.5/SQRT(100)
결과: 0.15

 

2단계: 95% 신뢰구간

오차한계 = 1.96 × 0.15 = 0.294

95% 신뢰구간: 7.8 ± 0.294 = [7.506, 8.094]

-- 엑셀 계산
하한: =7.8-1.96*0.15 → 7.506
상한: =7.8+1.96*0.15 → 8.094

 

3단계: 가설검정 (목표: 8점 이상)

H0: μ = 8 (목표 달성)
H1: μ < 8 (목표 미달성)

Z통계량 = (7.8-8)/0.15 = -1.33

-- 엑셀로 p값 계산
=NORM.S.DIST(-1.33, TRUE)
결과: 0.092 (9.2%)

결론: p값(0.092) > 0.05이므로 목표 달성했다고 볼 수 있음

 

🎯 예제 2: 제품 무게 품질관리

상황: 제품 무게 표준 500g, 표준편차 10g, 36개 샘플 평균 498g

표준오차 = 10/√36 = 1.67

Z통계량 = (498-500)/1.67 = -1.20

-- 양측검정 p값
=2*NORM.S.DIST(-1.20, TRUE)
결과: 0.230 (23.0%)

결론: 유의미한 차이 없음 (공정 정상)

 

🎯 예제 3: 마케팅 전환율 분석

상황: 1000명 대상 이메일 마케팅, 80명 전환 (전환율 8%)

-- 이항분포의 정규근사 (중심극한정리 활용)
평균: μ = np = 1000 × 0.08 = 80
표준편차: σ = √(np(1-p)) = √(1000×0.08×0.92) = 8.58

-- 전환율의 신뢰구간
표본비율: p̂ = 80/1000 = 0.08
표준오차: √(p̂(1-p̂)/n) = √(0.08×0.92/1000) = 0.0086

95% 신뢰구간: 0.08 ± 1.96×0.0086 = [0.063, 0.097]
즉, 6.3% ~ 9.7% 사이

 

⚠️ 실무 주의사항

  • 표본 크기 확인: 30개 이상인지 반드시 확인
  • 독립성 가정: 표본들이 서로 독립적인지 점검
  • 모집단 크기: 유한모집단에서는 유한모집단수정계수 적용
  • 이상치 영향: 극값이 있으면 중심극한정리 효과 감소

✅ 중심극한정리 시뮬레이션

엑셀로 직접 체험해보기

균등분포에서 중심극한정리 확인하는 실습을 해봐요!

 

1단계: 기본 설정

-- A열: 표본번호 (1~1000)
-- B열: 표본크기 5의 평균
-- C열: 표본크기 30의 평균  
-- D열: 표본크기 100의 평균

 

2단계: 표본평균 생성

-- B2 (n=5 표본평균)
=AVERAGE(RAND(),RAND(),RAND(),RAND(),RAND())

-- C2 (n=30 표본평균) - 보조열 사용
=AVERAGE(E2:AH2)  (E2:AH2에 30개 RAND() 함수)

-- D2 (n=100 표본평균) - 보조열 사용  
=AVERAGE(AI2:DO2)  (AI2:DO2에 100개 RAND() 함수)

 

3단계: 통계량 계산

-- 각 열의 평균과 표준편차
평균 (n=5): =AVERAGE(B:B)    → 약 0.5
평균 (n=30): =AVERAGE(C:C)   → 약 0.5  
평균 (n=100): =AVERAGE(D:D)  → 약 0.5

표준편차 (n=5): =STDEV(B:B)    → 약 0.13
표준편차 (n=30): =STDEV(C:C)   → 약 0.05
표준편차 (n=100): =STDEV(D:D)  → 약 0.03

 

4단계: 이론값과 비교

-- 균등분포 U(0,1)의 특성
모집단 평균: μ = 0.5
모집단 표준편차: σ = 1/√12 ≈ 0.289

-- 이론적 표준오차
n=5일 때: 0.289/√5 ≈ 0.129
n=30일 때: 0.289/√30 ≈ 0.053  
n=100일 때: 0.289/√100 ≈ 0.029

-- 시뮬레이션 결과와 비교해보세요!

 

5단계: 히스토그램 그리기

  • 삽입 → 차트 → 히스토그램
  • 각 열(B, C, D)의 데이터로 히스토그램 생성
  • n이 클수록 더 정규분포에 가까운 모양!

✅ 중심극한정리 완벽 정리

🚨 핵심 개념 정리

구분 모집단 표본평균 분포
평균 μ μ (동일)
표준편차 σ σ/√n (표준오차)
분포 어떤 분포든 정규분포 (n≥30)
변동성 - n이 클수록 감소

💡 실무 적용 체크리스트

  1. 표본 크기 확인: n ≥ 30인가?
  2. 독립성 확인: 표본들이 독립적인가?
  3. 표준오차 계산: σ/√n
  4. 신뢰구간 구성: 평균 ± Z×표준오차
  5. 가설검정 실시: Z통계량 계산

🔍 주요 공식들

계산 항목 공식 엑셀 함수
표준오차 σ/√n =표준편차/SQRT(표본크기)
Z통계량 (x̄-μ)/(σ/√n) =(표본평균-모평균)/표준오차
95% 신뢰구간 x̄ ± 1.96×SE =평균±1.96*표준오차
p값 P(Z ≥ |z|) =2*(1-NORM.S.DIST(ABS(z),TRUE))

🎯 언제 사용하나요?

  • 신뢰구간 계산: 모집단 평균의 범위 추정
  • 가설검정: 평균에 대한 통계적 검정
  • 품질관리: 공정 능력 평가
  • 마케팅 분석: 전환율, 만족도 분석
  • A/B 테스트: 그룹 간 차이 검정

많은 도움이 되셨을까요~?

 

더 나은 통계왕이 되기 위해서 열심히 화이팅!

반응형
LIST