전처리 기법: 원-핫 인코딩(One-Hot Encoding), 구간화(Data bining)

AI/인공지능 기초

대학원생(노예) 2023. 11. 12. 23:23

이전 포스팅인 '결측치: 정규화(Normalization)'를 이어서 작성합니다.

전처리 기법: 정규화(Normalization)

이전 포스팅인 '전처리 기법: 이상치(Outlier)'를 이어서 작성합니다. https://kys0411.tistory.com/176 전처리 기법: 이상치(Outlier) 이전 포스팅인 '결측치: 중복 데이터'를 이어서 작성합니다. https://kys0411.ti

kys0411.tistory.com

원 핫 인코딩은 머신러닝이나 딥러닝 프레임워크에서 범주형 데이터를 지원하지 않는 경우 사용한다. 이는 카테고리별 이진 특성을 만들어 해당하는 특성만 1, 나머지는 0으로 만드는 방법입니다.

이전 포스팅에서 사용한 trade 데이터셋을 사용하겠다.

# trade 데이터의 국가명 컬럼 원본
print(trade['국가명'].head())

trade의 국가명 칼럼은 중국, 미국, 일본, 미국이 있는 것을 확인했다. 원 핫 인코딩은 pandas 라이브러리를 사용하여 쉽게 구현할 수 있다. pandas의 get_dummies의 함수를 통해 쉽게 할 수 있다.

# get_dummies를 통해 국가명 원-핫 인코딩
country = pd.get_dummies(trade['국가명'])
country.head()

이를 pandas의 concat 함수로 데이터 프레임 trade와 위에서 만든 country를 합쳐준다.

trade = pd.concat([trade, country], axis=1)
trade.head()

위 사진처럼 결과가 나온다. 원 핫 인코딩으로 범주형 데이터인 '국가명' 칼럼을 수치형 데이터로 바꾸었다. 마지막으로 기존에 있던 '국가명' 칼럼을 삭제해준다.

trade.drop(['국가명'], axis=1, inplace=True)
trade.head()