EDA?
: 탐색적 데이터 분석으로, 모델을 적용하기 전 데이터의 특성을 이해하는 과정이다
먼저 데이터를 로드해야 한다. 타이타닉 데이터를 활용해 간단한 EDA를 해보자!
1. 데이터 로드
필요한 데이터를 불러온 후 데이터 형태, 분포 등 전반적인 특징을 확인해주자

2. 결측치 및 이상치 탐색



3. 시각화를 통한 데이터 특성 탐색
히트맵을 통해 특성별 상관관계를 나타내보았다. 여기서 상관계수는 -1에 가까울수록 관련이 없고, 1에 가까워질수록 관련이 있는 관계임을 뜻한다.
* 하지만 "A와 B의 상관관계가 높다 == A와 B가 연관이 있다." 이지 "A가 증가하면 B가 증가한다" 는 아니다.


히트맵은 대각선 기준으로 위아래가 같은 값을 가지므로, 가시성을 위해 반을 제거하여주었다.
'SKN > 05. Machine Learning' 카테고리의 다른 글
| 규제선형모델 (0) | 2025.03.11 |
|---|---|
| 데이터 전처리 (0) | 2025.03.11 |