딥러닝 수식 기호 해석

문서에서 자주 등장하는 수학 기호 정리

주요 수식 기호

기호	이름	설명	예시
(𝑓∘𝑔)	composite function/합성함수	중첩된 함수 세탁기(g) 돌리고 > 건조기(f) 돌리기 모델이 여러 층을 거치며 데이터를 처리하는 방식과 동일하다	(f·g)(x) = f(g(x))
∆	delta/델타	변화량, 얼마나 바뀌었냐 ∆weight = 100kg - 90kg = 10kg 감소	∆x = x₁ - x₀
e	Euler's number/오일러 상수(≈2.718)	로지스틱 함수 같은 데서 나옴 확률 뽑을 때 자주 등장	s = 1 / (1 + e⁻ᶻ)
∑	sigma/시그마	전부 더하기 벡터나 미니배치 처리할 때 자주 씀	∑ xᵢ = x₁ + x₂ + x₃ …
∏	Product(Pi)/파이	곱하기 버전 시그마. 전부 곱해! 확률 계산 같은 데서 자주 나옴	∏ xᵢ = x₁·x₂·x₃ …
𝜖	Epsilon/엡실론	거의 0에 가까운 수 수치 안정화용 또는 "0으로 나누기 방지용 보험" 느낌	lr = 1e-4
φ	phi / 파이(피)	파라미터 함수 특성 변환 함수 또는 모델 내부 구조
φ̂	phi hat /파이 햇	φ가 파라미터 함수, φ̂는 훈련 데이터로 학습된 함수 hat(^) 표기는 추정량을 뜻할 때 흔하게 사용됨
Pr(y₁, …, yᵢ \| x₁, …, xᵢ)	probability of y given x(조건부 확률)	입력 x들이 주어졌을 때, y들이 나올 확률
θ	theta/쎄타	모델이 학습하는 파라미터 전체 (weights, bias 등) 경사하강법으로 계속 업데이트됨

기호	이름	설명	예시
μ	mu(population mean)/뮤(모평균)	전체 데이터(모집단)의 평균 모집단의 진짜 평균
𝑥̄	x bar(sample mean)/표본평균	샘플 평균 일부 샘픙 평균, 데이터 일부만 보고 구한 평균
σ²	sigma squared(population variance)/모분산	전체 데이터가 평균에서 얼마나 퍼졌나 측정	클수록 데이터 뿔뿔이 흩어짐
𝑠²	s squared(sample variance)/표본분산	샘플만 보고 계산한 분산(보정 포함)
σ	sigma(std dev)/표준편차	분산의 루트	σ = sqrt(σ²)
𝑠	s(sample std dev)/표본 표준편차	표본 기반 편차	s = sqrt(s²)
ρₓ	rho(x)/상관계수(correlation)	X와 Y가 얼마나 같이 움직이냐	p=1이면 완전 정비례
𝑥̃	x tilde(median)/중앙값	정렬했을 때 딱 가운데 있는 값	평균보다 극단값에 덜 민감

∑랑 ∏는 각각 for 루프에서 sum이냐 product냐 차이
𝜖은 대부분 수치 안정성용. 그냥 공식에 박아두고 무시하면 편함
(f ∘ g)는 모델 여러 층 쌓은 거랑 똑같다고 보면 됨. f(g(x)) = Layer2(Layer1(input))
μ vs 𝑥̄
- 진짜 전체 평균 vs 샘플링해서 계산한 추정 평균
σ² vs 𝑠²
- 진짜 분산 vs 샘플 분산 (n-1 보정 들어감)
σ vs 𝑠
- 분산의 제곱근 → “흩어진 정도”를 원래 단위로 본 거
ρₓ
- X랑 Y가 얼마나 같이 움직이는지
𝑥̃
- 정렬 기준 중간값. 이상치에 안 휘둘리는 튼튼한 값!
θ는 조미료: 요리사(optimizer)가 손맛(gradient descent)으로 계속 조절하면서 맛을 맞추는 재료
- θ는 모델이 배우는 대상 (weight, bias 등)
φ는 조리법: 재료(x)를 어떤 방식으로 요리할지 정하는 방법. 이건 보통 정해져 있거나 바꾸기 어렵다.
- φ는 입력을 바꿔주는 변환 함수 (특성 변환, 임베딩 등)