대학원 일기

데이터마이닝과 통계 본문

School/Data Mining and Statistics

데이터마이닝과 통계

대학원생(노예) 2023. 4. 19. 20:49

1장

  • 산업혁명
    • 1차: 생산의 기계화
    • 2차: 대량 생산
    • 3차: 공장 자동화
    • 4차: 다양한 기술의 융합
  • 데이터빅데이터의 특성: 3V = 데이터의 크기, 데이터의 생성 속도, 데이터의 다양성
  • 세상의 흐름을 주도하고 변화시키는 주요자원

 

  • R 장점
    • 설치 간단
    • R스크립트의 편집과 실행 용이
    • 탁월한 데이터 처리 능력
    • 많은 라이브러리
    • 간단한 코드 작성으로 고급 데이터 분석과 시각화
    • 임베디드 기능
    • 라이브러리를 통해 여러 기능으로 쉽게 확장
    • 무료

 

  • R의 특징
    • 데이터 분석에 특화된 언어
      • 통계를 포함한 데이터 분석 작업에 활용할 목적으로 개발한 언어
      • R로 작성한 코드는 ‘프로그램’이 아니라 ‘스크립트’임
    • 사용자 커뮤니티
      • 초보자를 위한 학습 자료가 풍부함
    • 12000여 개의 라이브러리를 포함한 다양한 패키지 제공
      • 데이터 분석에 사용되는 함수들을 종류별로 묶어 패키지 형태로 제공
      • 데이터 분석에 필요한 거의 모든 기능을 제공
    • 기능적인 통계 그래프 제공 및 탁월한 시각화
      • 데이터 분석에서 결과를 시각적으로 표현하는 것은 중요함
    • 편리한 프로그래밍 환경
      • R 프로그래밍을 위한 통합 개발 환경인 R Studio를 통해 모든 작업을 할 수 있음
        • 프로그램 작성, 실행, 수정 등 여러 작업을 수행하기 위해 필요한 작업 환경을 무엇이라고 하는가?
        • 통합 개발 환경(IDE)
    • 무료 사용
      • R은 무료로 사용할 수 있는 오픈 소스 소프트웨어

 

 

2장

R: 프로그램을 작성하고 실행하기 위한 소프트웨어

R Studio: R 프로그래밍을 편리하게 작업할 수 있도록 도움을 주는 보조 소프트웨어(통합 개발 환경)

 

패키지: R 함수들을 모아 놓은 컬렉션

라이브러리: R 패키지가 저장되는 폴더

 

 

 

3장

벡터: 동일한 데이터 유형(숫자 또는 문자 등)의 단일 값들이 일차원적으로 구성

식별자: 변수 또는 함수 등을 다른 것들과 구별하기 위해 사용하는 ‘이름’을 지칭하는 용어

  • 일련의 문자, 숫자, ‘.’(온점), ‘_’(언더바)로 구성
  • 숫자와 **‘_’(언더바)**로 시작하면 안됨
  • R에서 정의된 예약어를 식별자로 사용할 수 없음
  • 연산자
    • 대입(할당) 연산자: 연산자에 값을 할당
    • 산술 연산자: 사칙 연산
    • 비교 연산자: 값들의 크기를 비교
    • 논리 연산자: 참과 거짓에 대한 논리적 판단
    • 결측치(NA)와 널(NULL)
      • NA(Not Available): 데이터의 누락
      • NULL: 변수를 만드는 과정에서 변수 이름만 있는 경우
        • 초기화 과정에서 많이 사용함
      • N/0(Inf): 불능, 무한대를 의미하는 Infinity
      • 0/0: 부정, NaN(Not a Number)
    • 요인(factor): 문자 벡터에 그룹으로 분류한 범주 정보인 레벨(level)이 추가된 데이터 구조
    • 배열
      • 한 개 이상의 벡터로 구성되며 동일한 데이터 유형을 갖는 집합
      • 행과 열로 구성되고, 다차원으로 확장 가능
      • 배열 생성 함수: array()
    • 행렬
      • 행과 열로 구성되는 2차원 배열
      • 행렬 생성 함수: matrix()
    • 리스트
      • 벡터를 원소로 하는 데이터 구성
      • 원소
        • 이름
        • 서로 다른 데이터 유형의 원소 가능(=다른 타입의 값도 받음)
        • 하나 이상의 값으로 구성
    • 데이터 프레임
      • 각 항목들 간 데이터 유형은 서로 다를 수 있음
      • 각 항목들은 단일 값으로 표현되는 2차원적인 데이터 구조
      • 데이터 프레임 생성 함수: data.frame()
    •  

데이터 파일 읽고 쓰기

  • 데이터 세트 목록 보기
    • data(package=”datasets”)
  • 데이터 세트 보기
    • head(quakes) // 상위 6개 항목
    • tail(quakes, n=10) // 하위 10개 항목
    • names(quakes) // 이름을 부여
    • dim(quakes) // 데이터의 행과 열 차원을 출력
    • str(quakes) // 해당 변수의 속성과 길이, 미리보기 값을 출력
    • summary(quakes) // 기술 통계 함수
  • 데이터 세트 저장&읽기
    • wrtie.table(quakes, “경로”, sep=””)
    • df ← read.csv(”경로”)

함수

  • 하나 이상의 명령어들을 묶어 놓은 것
  • 함수의 이점
    • 코딩 시간의 절약으로 효율성을 높일 수 있음
    • 검증된 코드 사용으로 프로그래밍 효과를 높일 수 있음

 

 4장

  • 위도와 경도에 대한 지도를 출력하기 위해선 지도 API key를 얻어야 함
  • 바람개비 돌리기
  • 웹 스크래핑
    • 웹 스크롤링: 웹 페이지의 하이퍼링크를 정기적으로 순회하며 웹 페이지를 다운로드하는 작업을 의미하고, 이를 통해 최신 정보를 유지할 수 있다.
    • 웹 스크래핑: 웹 페이지의 구조를 분석하여 특정 데이터를 추출하여 필요한 정보를 얻는 과정이다.
  • 플랏 함수: plot()

 

5장

  • 데이터의 형태
    • 범주형
      • 명목형: 단순히 데이터의 분류를 목적으로 한다. (성별, 지역)
      • 순서형: 명목형으로 데이터 간에 순서가 의미가 있는 경우 (성적 등급)
    • 수치형
      • 이산형: 일정한 간격이 있는 셀 수 있는 이산적인 값을 갖는 경우 (정수 단위의 근무년수)
      • 연속형: 키, 지진 규모 등이 있음
    • 범주형 데이터 비교: 파이 차트, 바 차트
    • 수치형 데이터 비교: 산포도, 히스토그램, 박스플롯
  • 줄기-잎 그림
    • stem plot: 데이터의 분포를 대략적으로 쉽게 파악할 수 있는 그림
  • 파이 차트(pie chart) 
  • 바 차트(bar chart)
    • 수평 바 차트
    • 스택형 바 차트
    • 그룹형 바 차트
  • X-Y 플로팅
     
  • 히스토그램
     
  • 박스플롯
     

 

6장 

  • 애니메이션: 조금씩 다른 일련의 여러 이미지를 빠르게 출력하여 사람들로 하여금 움직임과 변화에 대한 착각을 일으키게 하는 기법

패키지

  • animation: 애니메이션을 GIF, HTML 문서 등과 같은 다양한 포맷으로 저장하는 기능 제공
  • imager: 이미지와 비디오 처리를 위한 패키지
  • magick: 이미지 처리 패키지

'School > Data Mining and Statistics' 카테고리의 다른 글

9장: OPEN API  (0) 2023.10.16
8장: 웹 스크래핑 코드  (0) 2023.10.16
7장: 지도 활용 코드  (0) 2023.10.16
연속 확률 분포  (0) 2023.10.16
이산형 확률 분포  (0) 2023.10.16
Comments