반응형

ㅁ Logistic Regression

 o Supervised Learning으로 Classification 문제를 해결하며 2범주 문제를 다룬다.
  - 회귀분석으로 분류문제를 해결한다.
  - 로지스틱 회귀분석이 끝나면 결과물이 확률로 나와야 한다. 
 o A와 B, 두 카테고리 중 하나로 분류한다.
  - 선형 회귀분석 식에서
  - 우리가 예측하려는 Y값을 A일 확률로 가정하고, 
  - Y값(A일 확률)이 0.5보다 크면 A로 분류하고, 0.5보다 작으면 B라고 분류하면 되지 않나!
 

ㅁ 수식 전개

선형회귀식 y=ax+b

y를 확률로 변환 P=ax=b

이때 양변이 갖는 값의 범위가 일치하지 않는다. 
선형 회귀식은 0 ~ 1 범위이지만 확률은 무한대의 범위를 가지기 때문

그리고 범위를 맞추기 위해 다음와 같이처리한다.
P 자리에 Odds를 대입 Odds=P/(1P)=ax+b
여전히 양변의 값의 범위가 일치하지 않는다.
여기서 Odds에 Log를 씌운다.logeOdds=logeP/(1P)=ax+b

양변의 값의 범위가 일치하게 된다. 

위에서 도출한 식에서 확률 P를 구해야 하니까 Odds로 표현된 식에서 P로 정리한다.

logeP/(1P)=ax+b

양변에 e를 씌움 elogeP/(1P)=eax+b

그리고 한번 더 정리하면 P/(1P)=eax+b 가 된다. 

역수를 취함
(1P)/P=1/eax+b
1/P1=1/eax+b
1을 더함
1/P=1/eax+b+1
1/P=(1+eax+b)/eax+b
역수를 취하면 다음과 같이 P로 정리가 된다.
P=eax+b/(1+eax+b)

위의 식에서 a,b,x,e 4개를 알면 P를 구할 수 있다.
선형회귀 분석식에서 기울기랑 절편 구하는 공식을 적용하면 되고,
a랑 b는 데이터가 있으면 구할 수 있다.
x는 입력값이니까 입력하면 되고, e를 2.718로 계산한다.
그럼 이제 식을 도출할 수 있다. 계산을 하면 다음과 같은 그림이 그려진다.

Logistic Curve가 나온다.
여기서 P는 0.5를 기준으로 0.5보다 크면 A로 분류하고, 작으면 B로 분류한다.
무조건 0과 1 사이의 값이 나오지만 0과 1은 절대로 나오지 않는다.

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기