3-2 Logistic Regression Model

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

3-2 Logistic Regression Model 본문

ML & DL/Coursera-ML

3-2 Logistic Regression Model

eremo2002 2019. 1. 9. 23:03

로지스틱 회귀에서 파라미터를 fitting 시키기 위한 Cost function 정의에 대해 알아본다.

트레이닝 셋이 m개 있고 n개의 feature가 있다면 feature 벡터 x는 n+1차원의 벡터가 된다.

계속 언급하는 부분이지만 x_0=1이다. 일단 이진분류만 할 것이기 때문에 y는 0 또는 1이된다.

로지스틱 회귀에서의 가설 h(x)는 위와 같이 정의하였다.

그러면 적절한 파라미터 θ를 어떻게 찾을 수 있을까?

선형회귀에서 비용함수 J를 이렇게 정의하였다. (1/2을 시그마 안으로 넣은 것 뿐이다.)

선으로 그은 부분을 간단하게 cost(h(x), y)라고 하자. 그러면 cost(h(x), y)는 오차제곱에 1/2을 곱한 값이 된다.

(눈에 잘 들어오기 위해 위의 첨자를 일부러 지운 것임)

선형회귀에서의 비용함수를 똑같이 로지스틱 회귀 알고리즘에 적용했을 때 최소화 할 수 있다면 문제가 없을 것이다.

그러나 이 비용함수는 θ에 대해 볼록한 함수가 아니기 때문에 문제가 된다.

로지스틱 회귀로 문제를 풀 때 우리의 가설 h(x)는 비선형성을 가지기 때문에 이 sigmoid함수를 안에 대입하고 다시 cost함수를 정의한다면 비용함수 J(θ)는 non-convex가 된다. Non-convex 함수는 local minimum이 여러 개 존재하기 때문에 gradient descent를 적용해도 global minimum에 도달한다는 보장이 없다.

다시 말해, 로지스틱 회귀에서 사용하는 h(x)는 비선형 함수 sigmoid이기 때문에 J(θ)가 볼록하지 않은 함수가 된다는 것이다.

따라서 우리는 gradient descent를 적용할 수 있도록 볼록한 비용함수를 사용해야 한다.

Logistic regression에서의 cost function은 다음과 같다.

가설 h(x)가 예측한 값을 토대로 비용을 계산한다. Target y는 0 또는 1만 존재한다. 여기선 y가 0과 1일 때를 나누어 그에 맞는 cost function을 적용하여 cost를 계산한다.

먼저 y=1일 때를 보자, 그 때의 cost function은 이렇게 그려진다.

만약 h(x)가 1이라고 대답했다면, h(x)가 1에서의 cost값은 0이 된다. 이것은 제대로 정답을 맞췄기 때문에 cost가 0이 되는 것이다.

만약 h(x)가 0에 가까운 대답을 했다면 그때의 cost는 엄청 클 것이다. 이것은 정답을 제대로 맞추지 못했기 때문에 그만큼 cost가 커지는 것이다.

다시 y=1인 경우를 정리해보자

y=1인데 h(x)=1이라면 정답을 제대로 맞춘 것이기 때문에 cost는 0이된다.

그러나 h(x)가 0에 가까운 대답을 했을 경우 정답에서 멀어지기 때문에 cost는 무한대에 가까운 값을 받게 될 것이다.

이는 실제 악성 종양이 있는 환자에게 당신의 종양은 악성 종양이 아닐 확률이 100%니까 안심해도 된다고 하는 것과 같다. 이렇게 엄청나게 잘못된 대답을 했다면 그만큼 큰 cost값으로 알고리즘은 벌을 받게 되는 것이다.

y=0인 경우 cost function은 이렇게 그려진다.

y=0인데 h(x)가 0으로 대답했다면 정답을 제대로 맞췄으므로 이때 cost는 0이다.

만약 h(x)가 1에 가까운 답을 낼수록 정답에서 더 멀어지는 답을 했기 때문에 cost는 점점 더 커진다.

따라서 로지스틱 회귀에서의 비용함수는 모두 convex하기 때문에 non-convex인지 아닌지 고민할 필요가 없다.

로지스틱 회귀의 비용함수를 간단히 해보고 gradient descent를 적용해본다.

J(θ)를 풀어서 써보면 다음과 같다. 앞에 마이너스가 붙는 건 안에 있던 걸 밖으로 뺀 것이다.

이제 우리는 이렇게 정의한 비용함수 J를 최소화하여 최적화된 파라미터 θ를 찾아내는 것이다.

최적화된 파라미터 θ를 찾기 위해 Gradient descent를 사용한다.

파라미터가 업데이트 되는 식은 우리가 선형회귀를 배울 때 사용했던 방법과 동일하다.

다만 로지스틱 회귀이기 때문에 h(x)가 다르다. 따라서 선형 회귀에서의 gradient descent와는 조금 다르다.

어쨌든 gradient descent의 메커니즘을 통해 파라미터 θ를 반복하여 업데이트 하면 된다.

로지스틱 회귀에서도 우리가 적용했던 feature scaling을 통해 gradient descent가 빠르게 수렴할 수 있도록 할 수 있다.

저작자표시 (새창열림)

'ML & DL > Coursera-ML' 카테고리의 다른 글

3-4 Solving the Problem of Overffiting (0)	2019.01.11
3-3 Multiclass Classification (0)	2019.01.10
3-1 Classification and Representation (0)	2019.01.09
2-2 Computing Parameters Analytically (0)	2019.01.08
2-1 Multivariate Linear Regression (0)	2019.01.08

'ML & DL/Coursera-ML' Related Articles

Comments

3-2 Logistic Regression Model 본문

3-2 Logistic Regression Model

'ML & DL > Coursera-ML' 카테고리의 다른 글

티스토리툴바