04. 데이터 결측치 확인

SKN/04. Data Analysis

04. 데이터 결측치 확인

claovy☘️ 2025. 3. 6. 11:36

(1) 결측치 확인

# 1. df.isna()
# 2. df.isnull()

(2) 결측치 처리

대표값으로 결측치 대체 (평균값, 기본값, 최빈값)

# df['Phone'] = df['Phone'].fillna('010-0000-0000') # 기본값
# df['Phone'].value_counts() # 컬럼별로 나온 횟수 카운트
# df['Phone'] = df['Phone'].fillna('010-2345-6789') # 최빈값
# df.info()

결측치가 포함된 행 제거

# - how='any' : 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)
# - how='all' : 모든 셀이 결측치인 경우 행 제거

df = df.dropna(how='all')
df.info()

2. 중복값 처리

# df.duplicated() = 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주
# 결과가 1 = 2개 데이터 중복
# 결과가 2 = A라는 데이터가 3번 중복된 경우 or A라는 데이터가 2번, B라는 데이터가 2번 중복된 경우

df.duplicated().sum()

[출력]
np.int64(1) 

=> 2개의 데이터가 중복되었다는 뜻

특정 컬럼을 지정해서 중복 데이터를 찾기

df[df.duplicated(['Name'])]

중복 데이터 제거

df = df.drop_duplicates().reset_index(drop=True)    # reset_index() : 제거된 행을 제외하고 인덱스 재설정
df

'SKN > 04. Data Analysis' 카테고리의 다른 글

05. matplotlib (0)	2025.03.06
03. pandas overview (0)	2025.03.04
02. numpy [통계] [정렬] [병합] (0)	2025.02.28
01. numpy overview (1)	2025.02.28

현재글04. 데이터 결측치 확인

claovy☘️

우당탕탕 기술블로그

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

claovy☘️

04. 데이터 결측치 확인

'SKN > 04. Data Analysis' 카테고리의 다른 글

'SKN/04. Data Analysis'의 다른글

티스토리툴바

04. 데이터 결측치 확인

'SKN > 04. Data Analysis' 카테고리의 다른 글

'SKN/04. Data Analysis'의 다른글

관련글

티스토리툴바