728x90
반응형
SMALL

오늘은 box plot에 대한 정리를 해보았어요!
반응형
SMALL
Box Plot (상자그림) 읽는 법

Box Plot의 구성 요소
이상치 (outlier) ○
|
┌────┴────┐ ← Upper Whisker (위쪽 수염)
│ │
│ ─ │ ← Q3 (제3사분위수, 75th percentile)
│ ─ │ ← Median (중앙값, 50th percentile)
│ ─ │ ← Q1 (제1사분위수, 25th percentile)
│ │
└────┬────┘ ← Lower Whisker (아래쪽 수염)
|
이상치 (outlier) ○
각 구성요소 의미
1. 상자 (Box)
- 상단: Q3 (75th percentile)
- 중간선: 중앙값 (Median, 50th percentile)
- 하단: Q1 (25th percentile)
- 상자 높이: IQR (Q3 - Q1) = 데이터의 중간 50%
2. 수염 (Whiskers)
- 위쪽 수염: Q3에서 최대 1.5×IQR까지 또는 실제 최댓값
- 아래쪽 수염: Q1에서 최대 1.5×IQR까지 또는 실제 최솟값
3. 이상치 (Outliers)
- 점(○)으로 표시: 수염 범위를 벗어난 값들
- 기준: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과
Box Plot으로 알 수 있는 정보
1. 중심 위치 (Central Tendency)
- 중앙값: 상자 안의 선 위치
- 데이터 집중도: 상자의 크기
2. 분산도 (Spread)
- IQR: 상자의 높이
- 전체 범위: 수염 + 이상치까지의 범위
3. 치우침 (Skewness)
- 대칭적: 중앙값이 상자 중앙, 수염 길이 비슷
- 양의 치우침: 중앙값이 상자 아래쪽, 위쪽 수염이 길음
- 음의 치우침: 중앙값이 상자 위쪽, 아래쪽 수염이 길음
4. 이상치
- 점으로 표시된 값들: 극단적인 값들
- 개수와 위치: 데이터 품질 판단
실제 해석 예시
예시 1: 정규분포에 가까운 데이터
○ (이상치)
|
┌────┴────┐
│ │
│ ─ │ ← 중앙값이 상자 중앙
│ │
└────┬────┘
|
○ (이상치)
- 해석: 대칭적, 정규분포 가능성
예시 2: 양의 치우침 (Right-skewed)
○○ (많은 이상치)
|
┌────┴────┐
│ ─ │ ← 중앙값이 상자 아래쪽
│ │
│ │
└─────────┘
- 해석: 오른쪽으로 치우침, 소수의 큰 값들
예시 3: 음의 치우침 (Left-skewed)
┌─────────┐
│ │
│ │
│ ─ │ ← 중앙값이 상자 위쪽
└────┬────┘
|
○○ (많은 이상치)
- 해석: 왼쪽으로 치우림, 소수의 작은 값들
여러 그룹 비교할 때
Side-by-side Box Plot
그룹A 그룹B 그룹C
| | |
┌─┐ ┌─┐ ┌─┐
│─│ │ │ │ │
│ │ │─│ │─│
└─┘ │ │ │ │
| └─┘ └─┘
○ | |
○ ○○
비교 포인트
- 중앙값 비교: 중심선 위치
- 분산 비교: 상자와 수염 크기
- 치우침 비교: 상자 내 중앙값 위치
- 이상치 비교: 이상치 개수와 패턴
Box Plot의 장단점
장점
- 한 눈에 파악: 분포의 핵심 정보를 간결하게 표현
- 그룹 비교: 여러 그룹을 쉽게 비교
- 이상치 식별: 이상치를 명확하게 표시
- 강건함: 이상치에 영향받지 않는 중앙값 기반
단점
- 세부 정보 손실: 정확한 분포 모양을 알 수 없음
- 다봉분포: 여러 개의 피크를 가진 분포 파악 어려움
- 표본 크기: 작은 표본에서는 정보가 제한적
실무 활용 팁
- 히스토그램과 함께: 더 완전한 분포 파악
- 수치 확인: 실제 Q1, Q3, 중앙값 수치도 함께 보기
- 맥락 고려: 도메인 지식과 함께 해석
- 시계열: 시간에 따른 분포 변화 모니터링
728x90
반응형
LIST
'Study > Data Analysis' 카테고리의 다른 글
| 엑셀 난수 생성 완벽 가이드: RAND, RANDBETWEEN 함수와 데이터분석도구로 확률분포 난수까지 (1) | 2025.06.19 |
|---|---|
| MySQL 기초 - 2편: DML로 데이터 조작 마스터하기 📊 (1) | 2025.06.17 |
| MySQL 기초 - 1편: DDL로 테이블 구조 마스터하기 🏗️ (1) | 2025.06.16 |
| 문과생의 통계학 기초 개념 정리 ❸ (Statistics Fundamentals for Quant Research) (2) | 2025.06.08 |
| 문과생의 통계학 기초 개념 정리 ❷ (Statistics Fundamentals for Quant Research) (2) | 2025.06.07 |