일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 로스트아크
- 경사하강법
- API
- MLP
- 디자인 패턴
- 대학원 급여
- 활성화 함수
- 딥러닝
- 영화 api
- 통계학
- 파이썬 경사하강법
- 대학원 월급
- 인공지능
- 인공지능 깃 버전관리
- python
- 머신러닝
- pandas
- 의료 ai 대학원 월급
- 디자인패턴
- 자바
- 자바 영화 api
- 백준
- C# 프로젝트
- 딥러닝 실험 깃 버전관리
- 정규화
- 파이썬
- DCP
- 코딩테스트
- Dehaze
- 자바 프로젝트
Archives
- Today
- Total
대학원 일기
전처리 기법: 중복 데이터 본문
데이터는 앞선 포스팅에서 사용한 데이터를 이용한다.
https://kys0411.tistory.com/174
전처리 기법: 결측치(Missing Data)
[관세청 수출입 무역 통계]를 가공한 데이터로 실습해보겠다. https://tradedata.go.kr/cts/index.do 관세청 수출입무역통계 수출입 현황, 물류통계 등 관세청 무역통계정보를 종합적으로 제공 tradedata.go.kr
kys0411.tistory.com
중복 데이터
데이터를 수집하고 처리하는 과정에서 중복된 데이터가 생길 수 있다. 같은 값을 가진 데이터가 있다면 제거해야한다.
중복된 데이터는 DataFrame.duplicated() 함수를 통해 확인한다. 이는 데이터 중복 여부를 boolean 값으로 반환해준다.
trade[trade.duplicated()]
trade[(trade['기간']=='2020년 03월')&(trade['국가명']=='중국')]
186번, 187번 인덱스가 중복되어 있으므로 DataFrame.drop_duplicated를 통해 중복된 데이터를 삭제한다. inplace는 True로 하여 데이터프레임에 바로 적용한다. 또한, keep 옵션을 통해 어느 데이터(앞, 뒤)를 삭제할 지 선택할 수 있다.
keep의 옵션은 first랑 last이다. 사용은 keep='first' 이런 식으로 사용하면 된다.
trade.drop_duplicates(inplace=True)
깔끔하다.
'AI > 인공지능 기초' 카테고리의 다른 글
전처리 기법: 정규화(Normalization) (1) | 2023.11.12 |
---|---|
전처리 기법: 이상치(Outlier) (1) | 2023.11.12 |
전처리 기법: 결측치(Missing Data) (0) | 2023.11.09 |
Machine Learning 기초 (0) | 2022.05.11 |
머신러닝(ML)과 딥러닝(DL)의 차이 (0) | 2022.03.14 |
Comments