대학원 일기

전처리 기법: 중복 데이터 본문

AI/인공지능 기초

전처리 기법: 중복 데이터

대학원생(노예) 2023. 11. 11. 23:57

데이터는 앞선 포스팅에서 사용한 데이터를 이용한다. 

https://kys0411.tistory.com/174

 

전처리 기법: 결측치(Missing Data)

[관세청 수출입 무역 통계]를 가공한 데이터로 실습해보겠다. https://tradedata.go.kr/cts/index.do 관세청 수출입무역통계 수출입 현황, 물류통계 등 관세청 무역통계정보를 종합적으로 제공 tradedata.go.kr

kys0411.tistory.com

 

 

중복 데이터 

데이터를 수집하고 처리하는 과정에서 중복된 데이터가 생길 수 있다. 같은 값을 가진 데이터가 있다면 제거해야한다. 

 

중복된 데이터는 DataFrame.duplicated() 함수를 통해 확인한다. 이는 데이터 중복 여부를 boolean 값으로 반환해준다. 

trade[trade.duplicated()]

trade[(trade['기간']=='2020년 03월')&(trade['국가명']=='중국')]

 

186번, 187번 인덱스가 중복되어 있으므로 DataFrame.drop_duplicated를 통해 중복된 데이터를 삭제한다. inplace는 True로 하여 데이터프레임에 바로 적용한다. 또한, keep 옵션을 통해 어느 데이터(앞, 뒤)를 삭제할 지 선택할 수 있다. 

keep의 옵션은 first랑 last이다. 사용은 keep='first' 이런 식으로 사용하면 된다.

trade.drop_duplicates(inplace=True)

 

 

깔끔하다.

Comments