대학원 일기

딥러닝(Deep learning) 학습 방법 본문

AI/인공지능 기초

딥러닝(Deep learning) 학습 방법

대학원생(노예) 2022. 2. 1. 03:47

비선형 모델 학습

비선형모델: 신경망(neural network)

각각의 행벡터 $o_{i}$는 행렬로 이루어져있는 $x_{i}$와 $W$라는 가중치의 행렬곱과 $b$라는 편향값을 더하여 $O$라는 출력값이 나온다.

- $d$개의 변수로 $p$개의 선형모델을 만들어서 $p$개의 잠재변수를 설명하는 모델을 볼 수 있다.

- 아래 그림에서는 x라는 변수가 o라는 결과값으로 갈 때, w(가중치)를 곱하고 b(편향값)를 더한다.

 

softmax 함수

- 선형 모델로 나온 출력값에 softmax를 통해 분류 문제를 해결한다.

- 소프트맥스(softmax) 함수는 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산이다.

- 소프트맥스(softmax) 함수는 N개의 요소값을 가지는 벡터에서 각 요소 간 상대적인 확률을 구할 때 사용한다.

- Softmax(소프트맥스)는 입력받은 값을 출력으로 0~1사이의 값으로 모두 정규화하며 출력 값들의 총합은 항상 1이 되는 특성을 가진 함수이다.

- 소프트맥스 함수는 출력층에서 사용되는 함수이다.

- 분류 문제를 풀 때 선형 모델과 소프트맥스 함수를 결합하여 예측한다.

- 추론을 할 때에는 소프트맥스 결과값을 One hot encoder의 입력으로 연결하면 가장 큰 값만 True값, 나머지는 False값이 나오게 하여 이용 가능하다.

code in python
result

- 데이터를 추론할 때는 소프트맥스 함수를 사용하지 않고 원핫인코딩을 한다.(학습할 때는 softmax)

 

활성화 함수(activation function)

신경망은 선형모델과 활성화 함수(activation function)를 합성한 것.

- 활성함수(activationfunction)는 ℝ 위에 정의된 비선형(nonlinear) 함수로서 딥러닝에서 매우 중요한 개념이다.

- 활성화 함수를 쓰지 않으면 딥러닝은 선형 모형과 차이가 없다. 

- 시그모이도(sigmoid) 함수나 tanh 함수는 전통적으로 많이 쓰이던 활성화 함수지만, 딥러닝에서는 ReLU 함수를 많이 사용한다.

 

대표적인 활성화 함수 종류

sigmoid(시그모이드), tanh(하이퍼볼릭탄젠트), ReLU(렐루)

 

MLP(Multi Layer Perceptron)

- 딥러닝의 가장 기본적인 모델이다.

- MLP는 신경망이 여러층 합성된 모델이다.

- 입력층과 출력층 사이에 수많은 은닉층이 존재한다.

- 층이 많아질수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능하지만, 그만큼 계산량이 많아진다. 그래도, 노드를 키우는 게 더 효율적이다.

- 입력층에서 출력층으로 가는 순차적인 신경망 계산을 순전파(forward propagation)이라고 한다.

 

역전파 알고리즘(Back propagation)

- 역전파(Back propagation)은 앞에 순전파 알고리즘과 반대로 각 층의 결과값을 얻고, 출력층에서 은닉층을 거치고 입력층으로 되돌아가면서 가중치(weight)와 편향값(bias)를 재조정(update)한다.

- 딥러닝은 역전파 알고리즘을 통해 각층에서 사용된 가중치($W$)와 편향값($b$)를 학습한다.

- 역전파(back propagation)은 역순($L$→1)으로 연쇄법칙(chain-rule)을 통해 그레디언트 벡터를 전달한다.

- 역전파 알고리즘은 합성함수를 미분하는 방식인 연쇄법칙(chain-rule)을 기반으로 한 자동미분(auto-differentiation)를 사용한다.

'AI > 인공지능 기초' 카테고리의 다른 글

pandas II  (0) 2022.02.13
선형(Linear) 데이터와 비선형(Non-linear) 데이터의 차이  (0) 2022.02.03
pandas(1)  (0) 2022.01.31
경사하강법(Gradient descent)(2)  (0) 2022.01.29
경사하강법(Gradient descent)  (0) 2022.01.27
Comments