(1) 결측치 확인
# 1. df.isna()
# 2. df.isnull()
(2) 결측치 처리
대표값으로 결측치 대체 (평균값, 기본값, 최빈값)
# df['Phone'] = df['Phone'].fillna('010-0000-0000') # 기본값
# df['Phone'].value_counts() # 컬럼별로 나온 횟수 카운트
# df['Phone'] = df['Phone'].fillna('010-2345-6789') # 최빈값
# df.info()
결측치가 포함된 행 제거
# - how='any' : 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)
# - how='all' : 모든 셀이 결측치인 경우 행 제거
df = df.dropna(how='all')
df.info()
2. 중복값 처리
# df.duplicated() = 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주
# 결과가 1 = 2개 데이터 중복
# 결과가 2 = A라는 데이터가 3번 중복된 경우 or A라는 데이터가 2번, B라는 데이터가 2번 중복된 경우
df.duplicated().sum()
[출력]
np.int64(1)
=> 2개의 데이터가 중복되었다는 뜻
특정 컬럼을 지정해서 중복 데이터를 찾기
df[df.duplicated(['Name'])]

중복 데이터 제거
df = df.drop_duplicates().reset_index(drop=True) # reset_index() : 제거된 행을 제외하고 인덱스 재설정
df

'SKN > 04. Data Analysis' 카테고리의 다른 글
| 05. matplotlib (0) | 2025.03.06 |
|---|---|
| 03. pandas overview (0) | 2025.03.04 |
| 02. numpy [통계] [정렬] [병합] (0) | 2025.02.28 |
| 01. numpy overview (1) | 2025.02.28 |