전처리 기법: 중복 데이터

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

대학원 일기

전처리 기법: 중복 데이터 본문

AI/인공지능 기초

전처리 기법: 중복 데이터

대학원생(노예) 2023. 11. 11. 23:57

데이터는 앞선 포스팅에서 사용한 데이터를 이용한다.

https://kys0411.tistory.com/174

전처리 기법: 결측치(Missing Data)

[관세청 수출입 무역 통계]를 가공한 데이터로 실습해보겠다. https://tradedata.go.kr/cts/index.do 관세청 수출입무역통계 수출입 현황, 물류통계 등 관세청 무역통계정보를 종합적으로 제공 tradedata.go.kr

kys0411.tistory.com

중복 데이터

데이터를 수집하고 처리하는 과정에서 중복된 데이터가 생길 수 있다. 같은 값을 가진 데이터가 있다면 제거해야한다.

중복된 데이터는 DataFrame.duplicated() 함수를 통해 확인한다. 이는 데이터 중복 여부를 boolean 값으로 반환해준다.

trade[trade.duplicated()]

trade[(trade['기간']=='2020년 03월')&(trade['국가명']=='중국')]

186번, 187번 인덱스가 중복되어 있으므로 DataFrame.drop_duplicated를 통해 중복된 데이터를 삭제한다. inplace는 True로 하여 데이터프레임에 바로 적용한다. 또한, keep 옵션을 통해 어느 데이터(앞, 뒤)를 삭제할 지 선택할 수 있다.

keep의 옵션은 first랑 last이다. 사용은 keep='first' 이런 식으로 사용하면 된다.

trade.drop_duplicates(inplace=True)

깔끔하다.

'AI > 인공지능 기초' 카테고리의 다른 글

전처리 기법: 정규화(Normalization) (1)	2023.11.12
전처리 기법: 이상치(Outlier) (1)	2023.11.12
전처리 기법: 결측치(Missing Data) (0)	2023.11.09
Machine Learning 기초 (0)	2022.05.11
머신러닝(ML)과 딥러닝(DL)의 차이 (0)	2022.03.14

'AI/인공지능 기초' Related Articles

Comments

대학원 일기

전처리 기법: 중복 데이터 본문

전처리 기법: 중복 데이터

중복 데이터

'AI > 인공지능 기초' 카테고리의 다른 글

티스토리툴바