4-1 Neural Networks Motivation 본문

ML & DL/Coursera-ML

4-1 Neural Networks Motivation

eremo2002 2019. 1. 15. 11:09

뉴럴넷이 필요한 이유에 대해 알아본다.















이러한 데이터셋을 분류해야 하는 문제를 우리는 로지스틱 회귀를 이용하였다.

여기서 굉장히 많은 다항식을 필요로 하였고 두개의 feature 다뤘기 때문에 모델은 현재 학습 데이터만 분류할 있을 것이다.














이것보다 많은 100개의 feature 다뤄야 하는 경우를 생각해보자

여기서 우리가 다변수 이차항까지 사용하게 된다면 항이 엄청나게 많아질 것이다.

그리고 사용하게 되는 feature 개수는 5,000 가량이 되며 이는 점근적으로 O(n^2) 가까워진다.










단순히 feature 제곱해서 모델을 만들면 훨씬 feature 수는 적겠지만 위의 그림처럼 data 분류하긴 어려울 것이다.

그리고 만약 x_1 * x_2 * x_3 처럼 3차항들로 이루어진 경우를 생각하면 우리가 다뤄야 하는 feature 수는 훨씬 많아질 것이며 수는 O(n^3) 가까워질 것이다. 따라서 이렇게 많은 feature 다루긴 힘들기 때문에 무작정 요소를 늘리는 방식은 좋은 방법이 아니다.













컴퓨터비전에서 문제를 생각해보자

자동차 이미지의 손잡이 부분을 확대해보면 컴퓨터가 이해하는 그림은 단순히 0-255 픽셀값으로 이루어진 행렬이다.












그리고 우리가 자동차인 것과 자동차가 아닌 것을 구분해야 한다면 자동차인 이미지와 아닌 이미지에 대해서 레이블이 달린 많은 이미지 데이터가 필요하다. 이러한 데이터를 충분히 확보해서 알고리즘을 학습시키고 새로운 이미지를 넣어봐서 학습 알고리즘을 평가하게 된다. 학습이 됐다면 아래 test이미지를 넣었을 자동차라고 나올 것이다.













만약 자동차를 분류하기 위해 이미지에서 픽셀 2개만 뽑는 것으로 가정하자

그러면 이미지들이 해당 픽셀 값에 따라 좌표평면에 다음과 같이 찍힐 것이다.

이를 분류하기 위해선 non-linear hypothesis 필요하다.











만약 이미지가 50x50 크기를 갖는 이미지라면 하나의 이미지를 표현하기 위한 pixel feature 2500 존재하게 된다.

그리고 이러한 feature 2차항들의 합으로 나타내려고 하면 3백만개의 feature 생기게 된다.

이미지의 크기가 50x50임에도 불구하고 feature 이렇게나 많은데 이미지가 커지면 어마어마한 feature 생기게 것이다.

따라서 n feature 너무 많기 때문에 로지스틱 회귀를 사용하는 것은 좋은 방법이 아니다. 이러한 문제를 있는 것이 뉴럴넷 알고리즘이며 뉴럴넷은 복잡한 비선형 알고리즘을 학습하는데 훨씬 좋은 방법이다.


























'ML & DL > Coursera-ML' 카테고리의 다른 글

4-3 Applications  (0) 2019.01.16
4-2 Neural Networks  (0) 2019.01.15
3-4 Solving the Problem of Overffiting  (0) 2019.01.11
3-3 Multiclass Classification  (0) 2019.01.10
3-2 Logistic Regression Model  (0) 2019.01.09
Comments