ML&DL/Basics11 [DL] Why multiple layer perceptron? 서울대학교 딥러닝 기초 강의를 듣고 정리하였다. 딥러닝은 입력과 출력간의 복잡한 관계를 비선형 함수로 근사하는 알고리즘이다. 이때 기본적으로 MLP라는 구조를 사용한다. 자세히 살펴보면.. perceptron이라는 것을 여러개의 층(multiple layer)으로 쌓는 방법이다. 이번 포스팅에서는 MLP라는 것이 무엇이며 딥러닝에서는 왜 MLP을 사용하는지 정리해보려고 한다. (틀린 내용이 있으면 언제든지 지적 환영!!!) 딥러닝이 충실해야하는 것 딥러닝은 입력과 출력간의 복잡한 관계를 주어진 데이터를 통해 학습한다. 학습한 내용을 바탕으로 미래에 데이터가 주어졌을 때 예상되는 출력을 뱉어낸다. 그런데 데이터가 주어졌을 때 딥러닝이 하는 연산을 사람이 직접할 수 없고 컴퓨터가하는데 따라서 딥러닝은 기본.. 2023. 4. 25. [DL] Backpropagation 서울대학교 딥러닝 기초 강의를 듣고 정리하였다. 아래와 같은 fully connected neural network에서 backpropagation이 어떻게 진행되는지 수식을 통해 살펴보자. notation을 정리해보자. $a_l$: $l$번째 layer에서 linear 연산을 적용한 값을 activation function에 넣은 neuron 값 $a_l = f(z_l)$ $a_1 = [a_{11} \; a_{12} \; a_{13} \; a_{14}]^T$ $a_2 = [a_{21} \; a_{22} \; a_{23}]^T$ $z_l$: $l$번째 layer에서 linear 연산을 적용한 값 $z_{l+1} = W_l a_l + b_l$ $z_1 = [z_{11} \; z_{12} \; z_{13} .. 2023. 3. 20. [ML / DL] Stochastic Gradient Descent 식 유도하기 서울대학교 딥러닝 기초 강의를 듣고 정리하였다. 회귀 문제든, 분류 문제든, stochastic gradient descent의 일반적인 식을 공통적으로 도출할 수 있다. 이번 포스팅에서는 이 식을 유도해보면서 어떤 공통점을 찾을 수 있는지 알아본다. 통계학을 전공하다보면, 수리통계학 과목을 필수적으로 수강해야하고 여기에서 나오는 단골손님이 exponential family이다. 확률분포 $p(y | x ; \theta)$의 exponential family 형태는 아래와 같다. \[ p(y ; \eta) = b(y) exp(\eta^T T(y) - a(\eta)) \] $\eta$: natural parameter $T(y)$: sufficient statistics for $p(y | x ; \the.. 2023. 3. 19. [ML / DL] Cost function과 Maximum likelihood estimation과의 관계 서울대학교 딥러닝 기초 강의를 듣고 정리하였다. 딥러닝에서 파라미터를 근사하기 위해 필수적으로 세워야하는 cost function와 통계학에서 파라미터를 추정하기 위해 필수적으로 세우는 maximum likelihood estimation과의 관계를 알아보자. 결론부터 말하면, cost function은 maximum likelihood estimation의 사촌 관계이다. 다르게 말하면 deep learning이 cost function을 최소화하는 것은, 결국 maximum likelihood을 최대화하는 것과 동일하고 따라서 cost function을 최소화함으로써 확률값이 최대가 되는 $\theta$을 찾는 것으로 해석할 수 있다. 머신러닝이든, 딥러닝이든, 지도학습에 한하여 문제는 회귀(regr.. 2023. 3. 19. [DL] Batch / Stochastic / Mini batch Gradient Descent 서울대학교 딥러닝 기초 강의를 듣고 정리한 내용이다. 여러 gradient descent 방법에 대해 알아보자. 먼저 gradient descent 방법이란 무엇일까? 위키피디아에 의하면 아래와 같다. In mathematics, gradient descent (also often called steepest descent) is a first-order iterative optimization algorithm for finding a local minimum of a differentiable function. 1) 미분 가능한 함수에서 local minimum을 찾기 위해 2) 1차 미분 값을 사용하는 최적화 방법이다. 딥러닝에서 미분 가능한 함수는 cost function이고 이는 파라미터의 함수.. 2023. 3. 19. 이전 1 2 다음