일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 의료 ai 대학원 월급
- 백준
- Dehaze
- 통계학
- API
- 인공지능 깃 버전관리
- 자바 프로젝트
- 자바 영화 api
- 로스트아크
- 자바
- 디자인패턴
- 머신러닝
- C# 프로젝트
- MLP
- 인공지능
- 딥러닝 실험 깃 버전관리
- 대학원 월급
- 경사하강법
- 코딩테스트
- 디자인 패턴
- python
- pandas
- 딥러닝
- 영화 api
- 파이썬
- 파이썬 경사하강법
- 정규화
- 활성화 함수
- 대학원 급여
- DCP
Archives
- Today
- Total
대학원 일기
데이터마이닝과 통계 본문
1장
- 산업혁명
- 1차: 생산의 기계화
- 2차: 대량 생산
- 3차: 공장 자동화
- 4차: 다양한 기술의 융합
- 데이터빅데이터의 특성: 3V = 데이터의 크기, 데이터의 생성 속도, 데이터의 다양성
- 세상의 흐름을 주도하고 변화시키는 주요자원
- R 장점
- 설치 간단
- R스크립트의 편집과 실행 용이
- 탁월한 데이터 처리 능력
- 많은 라이브러리
- 간단한 코드 작성으로 고급 데이터 분석과 시각화
- 임베디드 기능
- 라이브러리를 통해 여러 기능으로 쉽게 확장
- 무료
- R의 특징
- 데이터 분석에 특화된 언어
- 통계를 포함한 데이터 분석 작업에 활용할 목적으로 개발한 언어
- R로 작성한 코드는 ‘프로그램’이 아니라 ‘스크립트’임
- 사용자 커뮤니티
- 초보자를 위한 학습 자료가 풍부함
- 12000여 개의 라이브러리를 포함한 다양한 패키지 제공
- 데이터 분석에 사용되는 함수들을 종류별로 묶어 패키지 형태로 제공
- 데이터 분석에 필요한 거의 모든 기능을 제공
- 기능적인 통계 그래프 제공 및 탁월한 시각화
- 데이터 분석에서 결과를 시각적으로 표현하는 것은 중요함
- 편리한 프로그래밍 환경
- R 프로그래밍을 위한 통합 개발 환경인 R Studio를 통해 모든 작업을 할 수 있음
- 프로그램 작성, 실행, 수정 등 여러 작업을 수행하기 위해 필요한 작업 환경을 무엇이라고 하는가?
- 통합 개발 환경(IDE)
- R 프로그래밍을 위한 통합 개발 환경인 R Studio를 통해 모든 작업을 할 수 있음
- 무료 사용
- R은 무료로 사용할 수 있는 오픈 소스 소프트웨어
- 데이터 분석에 특화된 언어
2장
R: 프로그램을 작성하고 실행하기 위한 소프트웨어
R Studio: R 프로그래밍을 편리하게 작업할 수 있도록 도움을 주는 보조 소프트웨어(통합 개발 환경)
패키지: R 함수들을 모아 놓은 컬렉션
라이브러리: R 패키지가 저장되는 폴더
3장
벡터: 동일한 데이터 유형(숫자 또는 문자 등)의 단일 값들이 일차원적으로 구성
식별자: 변수 또는 함수 등을 다른 것들과 구별하기 위해 사용하는 ‘이름’을 지칭하는 용어
- 일련의 문자, 숫자, ‘.’(온점), ‘_’(언더바)로 구성
- 숫자와 **‘_’(언더바)**로 시작하면 안됨
- R에서 정의된 예약어를 식별자로 사용할 수 없음
- 연산자
- 대입(할당) 연산자: 연산자에 값을 할당
- 산술 연산자: 사칙 연산
- 비교 연산자: 값들의 크기를 비교
- 논리 연산자: 참과 거짓에 대한 논리적 판단
- 결측치(NA)와 널(NULL)
- NA(Not Available): 데이터의 누락
- NULL: 변수를 만드는 과정에서 변수 이름만 있는 경우
- 초기화 과정에서 많이 사용함
- N/0(Inf): 불능, 무한대를 의미하는 Infinity
- 0/0: 부정, NaN(Not a Number)
- 요인(factor): 문자 벡터에 그룹으로 분류한 범주 정보인 레벨(level)이 추가된 데이터 구조
- 배열
- 한 개 이상의 벡터로 구성되며 동일한 데이터 유형을 갖는 집합
- 행과 열로 구성되고, 다차원으로 확장 가능
- 배열 생성 함수: array()
- 행렬
- 행과 열로 구성되는 2차원 배열
- 행렬 생성 함수: matrix()
- 리스트
- 벡터를 원소로 하는 데이터 구성
- 원소
- 이름
- 서로 다른 데이터 유형의 원소 가능(=다른 타입의 값도 받음)
- 하나 이상의 값으로 구성
- 데이터 프레임
- 각 항목들 간 데이터 유형은 서로 다를 수 있음
- 각 항목들은 단일 값으로 표현되는 2차원적인 데이터 구조
- 데이터 프레임 생성 함수: data.frame()
데이터 파일 읽고 쓰기
- 데이터 세트 목록 보기
- data(package=”datasets”)
- 데이터 세트 보기
- head(quakes) // 상위 6개 항목
- tail(quakes, n=10) // 하위 10개 항목
- names(quakes) // 이름을 부여
- dim(quakes) // 데이터의 행과 열 차원을 출력
- str(quakes) // 해당 변수의 속성과 길이, 미리보기 값을 출력
- summary(quakes) // 기술 통계 함수
- 데이터 세트 저장&읽기
- wrtie.table(quakes, “경로”, sep=””)
- df ← read.csv(”경로”)
함수
- 하나 이상의 명령어들을 묶어 놓은 것
- 함수의 이점
- 코딩 시간의 절약으로 효율성을 높일 수 있음
- 검증된 코드 사용으로 프로그래밍 효과를 높일 수 있음
4장
- 위도와 경도에 대한 지도를 출력하기 위해선 지도 API key를 얻어야 함
- 바람개비 돌리기
- 웹 스크래핑
- 웹 스크롤링: 웹 페이지의 하이퍼링크를 정기적으로 순회하며 웹 페이지를 다운로드하는 작업을 의미하고, 이를 통해 최신 정보를 유지할 수 있다.
- 웹 스크래핑: 웹 페이지의 구조를 분석하여 특정 데이터를 추출하여 필요한 정보를 얻는 과정이다.
- 플랏 함수: plot()
5장
- 데이터의 형태
- 범주형
- 명목형: 단순히 데이터의 분류를 목적으로 한다. (성별, 지역)
- 순서형: 명목형으로 데이터 간에 순서가 의미가 있는 경우 (성적 등급)
- 수치형
- 이산형: 일정한 간격이 있는 셀 수 있는 이산적인 값을 갖는 경우 (정수 단위의 근무년수)
- 연속형: 키, 지진 규모 등이 있음
- 범주형 데이터 비교: 파이 차트, 바 차트
- 수치형 데이터 비교: 산포도, 히스토그램, 박스플롯
- 범주형
- 줄기-잎 그림
- stem plot: 데이터의 분포를 대략적으로 쉽게 파악할 수 있는 그림
- 파이 차트(pie chart)
- 바 차트(bar chart)
- 수평 바 차트
- 스택형 바 차트
- 그룹형 바 차트
- X-Y 플로팅
- 히스토그램
- 박스플롯
6장
- 애니메이션: 조금씩 다른 일련의 여러 이미지를 빠르게 출력하여 사람들로 하여금 움직임과 변화에 대한 착각을 일으키게 하는 기법
패키지
- animation: 애니메이션을 GIF, HTML 문서 등과 같은 다양한 포맷으로 저장하는 기능 제공
- imager: 이미지와 비디오 처리를 위한 패키지
- magick: 이미지 처리 패키지
'School > Data Mining and Statistics' 카테고리의 다른 글
9장: OPEN API (0) | 2023.10.16 |
---|---|
8장: 웹 스크래핑 코드 (0) | 2023.10.16 |
7장: 지도 활용 코드 (0) | 2023.10.16 |
연속 확률 분포 (0) | 2023.10.16 |
이산형 확률 분포 (0) | 2023.10.16 |
Comments