shallow neural networks(얕은 신경망)

jargons

용어	한국어	의미
input layer	입력층	입력값이 들어오는 층
hidden layer	은닉층, 히든 레이어	입력과 출력 사이의 중간 처리 층(ReLU 등의 활성화 함수 적용)
output layer	출력층	모델의 최종 예측 결과가 나오는 층
weight	가중치	한 노드에서 다른 노드로의 연결 강도(선형 계수)
bias	편향	각 유닛에 더해지는 상수 값, y절편 역할
activation	활성화	ReLU 등
pre-activation	활성화 전 값	ReLU 등 활성화 적용하기 전의 선형 계산 결과
neuron / hidden unit	뉴런/은닉 유닛	히든 레이어를 구성하는 개별 단위. 하나의 선형+비선형 처리 유닛
Multi Layer Perceptron(MLP)	다층 퍼셉트론	하나 이상의 은닉층을 가진 신경망의 명칭
shallow neural network		은닉층이 하나뿐인 신경망
deep neural network		은닉층이 여러 개인 신경망
feed-forward network		데이터가 순방향으로만 흐르는 구조(순환 없음)
fully connected network		각 층의 모든 노드가 다음 층의 모든 노드와 연결됨

얕은 신경망은 구간별 선형 함수(piecewise linear functions)를 표현하며, 다차원 입력과 출력 사이의 임의로 복잡한 관계도 근사할 수 있을 만큼 표현력이 충분하다.

shallow neural networks(얕은 신경망)
- 하나의 히든 레이어를 가진 신경망
- 입력 > 히든 유닛 > 출력
piecewise linear functions를 표현
- ReLU와 같은 활성화 함수 덕분에, 전체 출력은 여러 선형 조각이 이어진 형태가 됨
- 각 조각(region)은 히든 유닛의 활성화 여부에 따라 달라짐
- 따라서 결과적으로는 "조각난 직선들"을 연결한 복잡한 형태의 함수가 됨
복잡한 관계도 근사할 수 있을 만큼 표현력이 충분하다
- 이론적으로는 아무리 복잡한 함수라도, 충분히 많은 히든 유닛이 있으면 얕은 신경망이 흉내낼 수 있음
- 보편 근사 정리, Universal Approximation Theorem
- 예를 들어, 손글씨 인식처럼 복잡한 입력-출력 관계도 근사 가능
다차원 입력과 출력
- 입력이 벡터일 수도 있고, 출력도 벡터일 수 있음
- 예를 들어, 이미지(픽세 배열)을 받아서 [0-9]중 하나의 숫자로 분류

relu-activation-function

inactive (비활성)
- ReLU 함수는 음수를 받으면 출력을 0으로 자른다.
- 해당 유닛의 출력은 0, 학습이나 예측에 아무 기여도 하지 않음
- "죽은 상태"로 간주됨
- 이 유닛을 비활성/inactive 상태라 부른다
active (활성)
- ReLU에게 입력되는 값이 0 이상이면, 그대로 출력된다 > 정보 전달됨
- 이 경우 해당 유닛은 계산에 실제 영향을 미침
- 이때만 학습 및 출력 계산에 참여하는 셈
- 최종 출력에 영향을 미치므로 active(활성)상태라고 부름