데이터마이닝과 통계

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

대학원 일기

데이터마이닝과 통계 본문

School/Data Mining and Statistics

데이터마이닝과 통계

대학원생(노예) 2023. 4. 19. 20:49

1장

산업혁명
- 1차: 생산의 기계화
- 2차: 대량 생산
- 3차: 공장 자동화
- 4차: 다양한 기술의 융합
데이터빅데이터의 특성: 3V = 데이터의 크기, 데이터의 생성 속도, 데이터의 다양성
세상의 흐름을 주도하고 변화시키는 주요자원

R 장점
- 설치 간단
- R스크립트의 편집과 실행 용이
- 탁월한 데이터 처리 능력
- 많은 라이브러리
- 간단한 코드 작성으로 고급 데이터 분석과 시각화
- 임베디드 기능
- 라이브러리를 통해 여러 기능으로 쉽게 확장
- 무료

R의 특징
- 데이터 분석에 특화된 언어
  - 통계를 포함한 데이터 분석 작업에 활용할 목적으로 개발한 언어
  - R로 작성한 코드는 ‘프로그램’이 아니라 ‘스크립트’임
- 사용자 커뮤니티
  - 초보자를 위한 학습 자료가 풍부함
- 12000여 개의 라이브러리를 포함한 다양한 패키지 제공
  - 데이터 분석에 사용되는 함수들을 종류별로 묶어 패키지 형태로 제공
  - 데이터 분석에 필요한 거의 모든 기능을 제공
- 기능적인 통계 그래프 제공 및 탁월한 시각화
  - 데이터 분석에서 결과를 시각적으로 표현하는 것은 중요함
- 편리한 프로그래밍 환경
  - R 프로그래밍을 위한 통합 개발 환경인 R Studio를 통해 모든 작업을 할 수 있음
    - 프로그램 작성, 실행, 수정 등 여러 작업을 수행하기 위해 필요한 작업 환경을 무엇이라고 하는가?
    - 통합 개발 환경(IDE)
- 무료 사용
  - R은 무료로 사용할 수 있는 오픈 소스 소프트웨어

2장

R: 프로그램을 작성하고 실행하기 위한 소프트웨어

R Studio: R 프로그래밍을 편리하게 작업할 수 있도록 도움을 주는 보조 소프트웨어(통합 개발 환경)

패키지: R 함수들을 모아 놓은 컬렉션

라이브러리: R 패키지가 저장되는 폴더

3장

벡터: 동일한 데이터 유형(숫자 또는 문자 등)의 단일 값들이 일차원적으로 구성

식별자: 변수 또는 함수 등을 다른 것들과 구별하기 위해 사용하는 ‘이름’을 지칭하는 용어

일련의 문자, 숫자, ‘.’(온점), ‘_’(언더바)로 구성
숫자와 **‘_’(언더바)**로 시작하면 안됨
R에서 정의된 예약어를 식별자로 사용할 수 없음

연산자
- 대입(할당) 연산자: 연산자에 값을 할당
- 산술 연산자: 사칙 연산
- 비교 연산자: 값들의 크기를 비교
- 논리 연산자: 참과 거짓에 대한 논리적 판단

결측치(NA)와 널(NULL)
- NA(Not Available): 데이터의 누락
- NULL: 변수를 만드는 과정에서 변수 이름만 있는 경우
  - 초기화 과정에서 많이 사용함
- N/0(Inf): 불능, 무한대를 의미하는 Infinity
- 0/0: 부정, NaN(Not a Number)
요인(factor): 문자 벡터에 그룹으로 분류한 범주 정보인 레벨(level)이 추가된 데이터 구조
배열
- 한 개 이상의 벡터로 구성되며 동일한 데이터 유형을 갖는 집합
- 행과 열로 구성되고, 다차원으로 확장 가능
- 배열 생성 함수: array()
행렬
- 행과 열로 구성되는 2차원 배열
- 행렬 생성 함수: matrix()
리스트
- 벡터를 원소로 하는 데이터 구성
- 원소
  - 이름
  - 서로 다른 데이터 유형의 원소 가능(=다른 타입의 값도 받음)
  - 하나 이상의 값으로 구성
데이터 프레임
- 각 항목들 간 데이터 유형은 서로 다를 수 있음
- 각 항목들은 단일 값으로 표현되는 2차원적인 데이터 구조
- 데이터 프레임 생성 함수: data.frame()

데이터 파일 읽고 쓰기

데이터 세트 목록 보기
- data(package=”datasets”)

데이터 세트 보기
- head(quakes) // 상위 6개 항목
- tail(quakes, n=10) // 하위 10개 항목
- names(quakes) // 이름을 부여
- dim(quakes) // 데이터의 행과 열 차원을 출력
- str(quakes) // 해당 변수의 속성과 길이, 미리보기 값을 출력
- summary(quakes) // 기술 통계 함수

데이터 세트 저장&읽기
- wrtie.table(quakes, “경로”, sep=””)
- df ← read.csv(”경로”)

함수

하나 이상의 명령어들을 묶어 놓은 것
함수의 이점
- 코딩 시간의 절약으로 효율성을 높일 수 있음
- 검증된 코드 사용으로 프로그래밍 효과를 높일 수 있음

4장

위도와 경도에 대한 지도를 출력하기 위해선 지도 API key를 얻어야 함
바람개비 돌리기
웹 스크래핑
- 웹 스크롤링: 웹 페이지의 하이퍼링크를 정기적으로 순회하며 웹 페이지를 다운로드하는 작업을 의미하고, 이를 통해 최신 정보를 유지할 수 있다.
- 웹 스크래핑: 웹 페이지의 구조를 분석하여 특정 데이터를 추출하여 필요한 정보를 얻는 과정이다.

플랏 함수: plot()

5장

데이터의 형태
- 범주형
  - 명목형: 단순히 데이터의 분류를 목적으로 한다. (성별, 지역)
  - 순서형: 명목형으로 데이터 간에 순서가 의미가 있는 경우 (성적 등급)
- 수치형
  - 이산형: 일정한 간격이 있는 셀 수 있는 이산적인 값을 갖는 경우 (정수 단위의 근무년수)
  - 연속형: 키, 지진 규모 등이 있음
- 범주형 데이터 비교: 파이 차트, 바 차트
- 수치형 데이터 비교: 산포도, 히스토그램, 박스플롯
줄기-잎 그림
- stem plot: 데이터의 분포를 대략적으로 쉽게 파악할 수 있는 그림
파이 차트(pie chart)
바 차트(bar chart)
- 수평 바 차트
- 스택형 바 차트
- 그룹형 바 차트
X-Y 플로팅
히스토그램
박스플롯

6장

애니메이션: 조금씩 다른 일련의 여러 이미지를 빠르게 출력하여 사람들로 하여금 움직임과 변화에 대한 착각을 일으키게 하는 기법

패키지

animation: 애니메이션을 GIF, HTML 문서 등과 같은 다양한 포맷으로 저장하는 기능 제공
imager: 이미지와 비디오 처리를 위한 패키지
magick: 이미지 처리 패키지

'School > Data Mining and Statistics' 카테고리의 다른 글

9장: OPEN API (0)	2023.10.16
8장: 웹 스크래핑 코드 (0)	2023.10.16
7장: 지도 활용 코드 (0)	2023.10.16
연속 확률 분포 (0)	2023.10.16
이산형 확률 분포 (0)	2023.10.16

'School/Data Mining and Statistics' Related Articles

Comments

대학원 일기

데이터마이닝과 통계 본문

데이터마이닝과 통계

'School > Data Mining and Statistics' 카테고리의 다른 글

티스토리툴바