SKN/05. Machine Learning

EDA

claovy☘️ 2025. 3. 11. 23:23

EDA?

: 탐색적 데이터 분석으로, 모델을 적용하기 전 데이터의 특성을 이해하는 과정이다

 

먼저 데이터를 로드해야 한다. 타이타닉 데이터를 활용해 간단한 EDA를 해보자!

 

1. 데이터 로드

필요한 데이터를 불러온 후 데이터 형태, 분포 등 전반적인 특징을 확인해주자

 

2. 결측치 및 이상치 탐색

 

3. 시각화를 통한 데이터 특성 탐색

히트맵을 통해 특성별 상관관계를 나타내보았다. 여기서 상관계수는 -1에 가까울수록 관련이 없고, 1에 가까워질수록 관련이 있는 관계임을 뜻한다. 

 

* 하지만 "A와 B의 상관관계가 높다 == A와 B가 연관이 있다." 이지 "A가 증가하면 B가 증가한다" 는 아니다.

히트맵은 대각선 기준으로 위아래가 같은 값을 가지므로, 가시성을 위해 반을 제거하여주었다.

'SKN > 05. Machine Learning' 카테고리의 다른 글

규제선형모델  (0) 2025.03.11
데이터 전처리  (0) 2025.03.11