노름

일반적으로 원소가 $n$개인 벡터 v의 노름은

general_norm

으로 정의한다.

  • $l_{0}$은 벡터에 있는 0이 아닌 원소의 개수이며, $l_{\infty}$은 벡터에서 가장 큰 절댓값이 된다.
  • 노름의 지수가 클 수록 큰 값의 원소에 치우치며 작은 값은 무시한다. 그래서 RMSE가 MAE보다 더 이상치에 민감하다. 하지만 (종 모양 분포의 양 끝단처럼) 이상치가 매우 드물면 RMSE가 잘 맞아 일반적으로 널리 사용된다.

평균제곱오차(RMSE)

rmse

유클리디안 노름에 해당한다. $l_{2}$ 노름이라고도 부르며 $   \cdot   _{2}$ 또는 $   \cdot   $ 로 표시한다.

평균절대오차(MAE) = 평균 절대 편차

mae

맨해튼 노름이라고도 하며 $l_{1}$ 노름에 해당한다.

RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법이다.

결정 계수($R^{2}$)

결정계수(coefficient of determination): 모델 성능을 잘 해석하기 위해 만든 $MSE$의 표준화된 버전, 타깃의 분산에서 모델이 잡아낸 비율

r_square

ex)

r_square_example

$R^{2}$이 높다 = 분산의 설명력이 높다.

조정된 결정 계수(adjusted $R^{2}$)

다중회귀분석의 경우 설명 변수를 계속 더하게 된다면 잔차항의 제곱합 $R^{2}$값이 높아지게 된다. 이런 경우 단순히 $R^2$를 증가시키기 위해 종속변수의 설명에 중요하지 않은 독립변수를 추가 시키는 경우가 발생할 수 있는데, 이런 단점을 보완하기 위해 조정된 결정 계수가 필요하다.

$R^{2}$이 높아지는 이유

$R_{adj}^{2} = 1-\frac{(1-R^{2})(n-1)}{n-p-1}=1-(\frac{n-1}{n-p-1}\times\frac{SSE}{SST})$

  • $n$ : 표본의 수
  • $p$ : 설명 변수의 개수

$p$가 높아질 수록 $R_{adj}^{2}$ 가 감소하게 되어 $p$를 높이면 $R^{2}$가 높아지는 현상을 상쇄하게 된다

출처

  • Aurelien, Geron, 『핸즈온 머신러닝』, 박해선, 한빛미디어(2020)

태그: ,

카테고리:

업데이트: