SKN/04. Data Analysis

04. 데이터 결측치 확인

claovy☘️ 2025. 3. 6. 11:36

(1) 결측치 확인

# 1. df.isna()
# 2. df.isnull()

 

(2) 결측치 처리

대표값으로 결측치 대체 (평균값, 기본값, 최빈값)
# df['Phone'] = df['Phone'].fillna('010-0000-0000') # 기본값
# df['Phone'].value_counts() # 컬럼별로 나온 횟수 카운트
# df['Phone'] = df['Phone'].fillna('010-2345-6789') # 최빈값
# df.info()

 

결측치가 포함된 행 제거
# - how='any' : 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)
# - how='all' : 모든 셀이 결측치인 경우 행 제거

df = df.dropna(how='all')
df.info()

 

2. 중복값 처리

# df.duplicated() = 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주
# 결과가 1 = 2개 데이터 중복
# 결과가 2 = A라는 데이터가 3번 중복된 경우 or A라는 데이터가 2번, B라는 데이터가 2번 중복된 경우

df.duplicated().sum()

[출력]
np.int64(1) 

=> 2개의 데이터가 중복되었다는 뜻
특정 컬럼을 지정해서 중복 데이터를 찾기
df[df.duplicated(['Name'])]

중복 데이터 제거
df = df.drop_duplicates().reset_index(drop=True)    # reset_index() : 제거된 행을 제외하고 인덱스 재설정
df

'SKN > 04. Data Analysis' 카테고리의 다른 글

05. matplotlib  (0) 2025.03.06
03. pandas overview  (0) 2025.03.04
02. numpy [통계] [정렬] [병합]  (0) 2025.02.28
01. numpy overview  (1) 2025.02.28