SKN/05. Machine Learning 3

규제선형모델

규제 선형 모델다항식이 복잡해지면서 회귀 계수값이 크게 설정되어 과대적합 유발"선형 모델"의 목적은 비용함수를 최소화하는 것"규제 선형 모델"의 목적은 비용함수를 최소화 하는데에 회귀계수 크기를 제한 (alpha)Ridgefrom sklearn.linear_model import Ridgereg = Ridge(alpha=1)reg.fit(X_train, y_train)print(reg.score(X_train, y_train), reg.score(X_test, y_test))print(reg.coef_)alpha 값을 10으로 준 결과0.7398240895568371 0.6724237562438147[-0.12137453 0.03421897 -0.01307037 1.8210257 -1.6874729..

데이터 전처리

1. 인코딩Label encorder : 범주형 데이터를 숫자로 변환from sklearn.preprocessing import LabelEncoderitems = ['TV', '냉장고', '세탁기', '컴퓨터', '전기난로', '컴퓨터', 'TV', '믹서기', '컴퓨터']encoder = LabelEncoder()encoder.fit(items)  # 중복값을 제거, 오름차순 정렬encoded_items = encoder.transform(items)encoded_items[출력]array([0, 1, 3, 5, 4, 5, 0, 2, 5]) One-hot encorder : 데이터를 희소배열(특정 인덱스만 값을 가지는 배열)로 변환from sklearn.preprocessing import OneHo..

EDA

EDA?: 탐색적 데이터 분석으로, 모델을 적용하기 전 데이터의 특성을 이해하는 과정이다 먼저 데이터를 로드해야 한다. 타이타닉 데이터를 활용해 간단한 EDA를 해보자! 1. 데이터 로드필요한 데이터를 불러온 후 데이터 형태, 분포 등 전반적인 특징을 확인해주자 2. 결측치 및 이상치 탐색 3. 시각화를 통한 데이터 특성 탐색히트맵을 통해 특성별 상관관계를 나타내보았다. 여기서 상관계수는 -1에 가까울수록 관련이 없고, 1에 가까워질수록 관련이 있는 관계임을 뜻한다.  * 하지만 "A와 B의 상관관계가 높다 == A와 B가 연관이 있다." 이지 "A가 증가하면 B가 증가한다" 는 아니다.히트맵은 대각선 기준으로 위아래가 같은 값을 가지므로, 가시성을 위해 반을 제거하여주었다.