본문 바로가기
Study/Data Analysis

Box Plot(상자 수염) 해석하는 법

by 하이앤 2025. 6. 16.
728x90
반응형
SMALL

오늘은 box plot에 대한 정리를 해보았어요!

 

반응형
SMALL

Box Plot (상자그림) 읽는 법

"© pieriantraining - How to interpret box plots'

Box Plot의 구성 요소

    이상치 (outlier) ○
         |
    ┌────┴────┐ ← Upper Whisker (위쪽 수염)
    │         │
    │    ─    │ ← Q3 (제3사분위수, 75th percentile)
    │    ─    │ ← Median (중앙값, 50th percentile) 
    │    ─    │ ← Q1 (제1사분위수, 25th percentile)
    │         │
    └────┬────┘ ← Lower Whisker (아래쪽 수염)
         |
    이상치 (outlier) ○

각 구성요소 의미

1. 상자 (Box)

  • 상단: Q3 (75th percentile)
  • 중간선: 중앙값 (Median, 50th percentile)
  • 하단: Q1 (25th percentile)
  • 상자 높이: IQR (Q3 - Q1) = 데이터의 중간 50%

2. 수염 (Whiskers)

  • 위쪽 수염: Q3에서 최대 1.5×IQR까지 또는 실제 최댓값
  • 아래쪽 수염: Q1에서 최대 1.5×IQR까지 또는 실제 최솟값

3. 이상치 (Outliers)

  • 점(○)으로 표시: 수염 범위를 벗어난 값들
  • 기준: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과

Box Plot으로 알 수 있는 정보

1. 중심 위치 (Central Tendency)

  • 중앙값: 상자 안의 선 위치
  • 데이터 집중도: 상자의 크기

2. 분산도 (Spread)

  • IQR: 상자의 높이
  • 전체 범위: 수염 + 이상치까지의 범위

3. 치우침 (Skewness)

  • 대칭적: 중앙값이 상자 중앙, 수염 길이 비슷
  • 양의 치우침: 중앙값이 상자 아래쪽, 위쪽 수염이 길음
  • 음의 치우침: 중앙값이 상자 위쪽, 아래쪽 수염이 길음

4. 이상치

  • 점으로 표시된 값들: 극단적인 값들
  • 개수와 위치: 데이터 품질 판단

실제 해석 예시

예시 1: 정규분포에 가까운 데이터

         ○ (이상치)
         |
    ┌────┴────┐
    │         │
    │    ─    │ ← 중앙값이 상자 중앙
    │         │
    └────┬────┘
         |
         ○ (이상치)
  • 해석: 대칭적, 정규분포 가능성

 

예시 2: 양의 치우침 (Right-skewed)

              ○○ (많은 이상치)
              |
         ┌────┴────┐
         │    ─    │ ← 중앙값이 상자 아래쪽
         │         │
         │         │
         └─────────┘
  • 해석: 오른쪽으로 치우침, 소수의 큰 값들

 

예시 3: 음의 치우침 (Left-skewed)

         ┌─────────┐
         │         │
         │         │
         │    ─    │ ← 중앙값이 상자 위쪽
         └────┬────┘
              |
              ○○ (많은 이상치)
  • 해석: 왼쪽으로 치우림, 소수의 작은 값들

 

여러 그룹 비교할 때

Side-by-side Box Plot

그룹A    그룹B    그룹C
  |        |        |
 ┌─┐      ┌─┐      ┌─┐
 │─│      │ │      │ │
 │ │      │─│      │─│
 └─┘      │ │      │ │
  |       └─┘      └─┘
  ○        |        |
           ○        ○○

비교 포인트

  1. 중앙값 비교: 중심선 위치
  2. 분산 비교: 상자와 수염 크기
  3. 치우침 비교: 상자 내 중앙값 위치
  4. 이상치 비교: 이상치 개수와 패턴

Box Plot의 장단점

장점

  • 한 눈에 파악: 분포의 핵심 정보를 간결하게 표현
  • 그룹 비교: 여러 그룹을 쉽게 비교
  • 이상치 식별: 이상치를 명확하게 표시
  • 강건함: 이상치에 영향받지 않는 중앙값 기반

단점

  • 세부 정보 손실: 정확한 분포 모양을 알 수 없음
  • 다봉분포: 여러 개의 피크를 가진 분포 파악 어려움
  • 표본 크기: 작은 표본에서는 정보가 제한적

실무 활용 팁

  1. 히스토그램과 함께: 더 완전한 분포 파악
  2. 수치 확인: 실제 Q1, Q3, 중앙값 수치도 함께 보기
  3. 맥락 고려: 도메인 지식과 함께 해석
  4. 시계열: 시간에 따른 분포 변화 모니터링
728x90
반응형
LIST