4-1 Neural Networks Motivation

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

4-1 Neural Networks Motivation 본문

ML & DL/Coursera-ML

4-1 Neural Networks Motivation

eremo2002 2019. 1. 15. 11:09

뉴럴넷이 필요한 이유에 대해 알아본다.

이러한 데이터셋을 잘 분류해야 하는 문제를 풀 때 우리는 로지스틱 회귀를 이용하였다.

여기서 굉장히 많은 다항식을 필요로 하였고 두개의 feature만 다뤘기 때문에 이 모델은 현재 학습 데이터만 잘 분류할 수 있을 것이다.

이것보다 더 많은 100개의 feature를 다뤄야 하는 경우를 생각해보자

여기서 우리가 다변수 이차항까지 사용하게 된다면 항이 엄청나게 많아질 것이다.

그리고 이 때 사용하게 되는 feature의 개수는 약 5,000개 가량이 되며 이는 점근적으로 O(n^2)에 가까워진다.

단순히 각 feature를 제곱해서 모델을 만들면 훨씬 feature의 수는 적겠지만 위의 그림처럼 data를 잘 분류하긴 어려울 것이다.

그리고 만약 x_1 * x_2 * x_3 처럼 3차항들로 이루어진 경우를 생각하면 우리가 다뤄야 하는 feature의 수는 훨씬 더 많아질 것이며 그 수는 O(n^3)에 가까워질 것이다. 따라서 이렇게 많은 feature를 다루긴 힘들기 때문에 무작정 요소를 늘리는 방식은 좋은 방법이 아니다.

컴퓨터비전에서 이 문제를 생각해보자

자동차 이미지의 손잡이 부분을 확대해보면 컴퓨터가 이해하는 이 그림은 단순히 0-255의 픽셀값으로 이루어진 행렬이다.

그리고 우리가 자동차인 것과 자동차가 아닌 것을 구분해야 한다면 자동차인 이미지와 아닌 이미지에 대해서 레이블이 달린 많은 이미지 데이터가 필요하다. 이러한 데이터를 충분히 확보해서 알고리즘을 학습시키고 새로운 이미지를 넣어봐서 학습 알고리즘을 평가하게 된다. 학습이 잘 됐다면 아래 test이미지를 넣었을 때 자동차라고 나올 것이다.

만약 자동차를 분류하기 위해 이미지에서 픽셀 2개만 뽑는 것으로 가정하자

그러면 각 이미지들이 해당 픽셀 값에 따라 좌표평면에 다음과 같이 찍힐 것이다.

이를 잘 분류하기 위해선 non-linear hypothesis가 필요하다.

만약 이 이미지가 50x50 크기를 갖는 이미지라면 하나의 이미지를 표현하기 위한 pixel feature가 2500개 존재하게 된다.

그리고 이러한 feature를 2차항들의 합으로 나타내려고 하면 약 3백만개의 feature가 생기게 된다.

이미지의 크기가 50x50임에도 불구하고 feature가 이렇게나 많은데 이미지가 커지면 어마어마한 feature가 생기게 될 것이다.

따라서 n이 클 때 feature가 너무 많기 때문에 로지스틱 회귀를 사용하는 것은 좋은 방법이 아니다. 이러한 문제를 잘 풀 수 있는 것이 뉴럴넷 알고리즘이며 뉴럴넷은 복잡한 비선형 알고리즘을 학습하는데 훨씬 좋은 방법이다.

저작자표시 (새창열림)

'ML & DL > Coursera-ML' 카테고리의 다른 글

4-3 Applications (0)	2019.01.16
4-2 Neural Networks (0)	2019.01.15
3-4 Solving the Problem of Overffiting (0)	2019.01.11
3-3 Multiclass Classification (0)	2019.01.10
3-2 Logistic Regression Model (0)	2019.01.09

'ML & DL/Coursera-ML' Related Articles

Comments

4-1 Neural Networks Motivation 본문

4-1 Neural Networks Motivation

'ML & DL > Coursera-ML' 카테고리의 다른 글

티스토리툴바