분산과 표준편차는 모두 데이터의 변이(variation)에 관련된 개념입니다.

 

변이라 함은 데이터의 분포가 얼마나 퍼져 있는가를 의미합니다.

 

데이터가 어느 하나에 집중되어 있으면 변이가 작다, 고르게 분포되어 있으면

 

변이가 크다라고 이야기 합니다. 분산은 변이를 측정하는 그러니까 자료의

 

분포를 나타내는 한 지표입니다. 분산 말고도 변이를 나타내는 것은 다양성지수

 

라든가 범위라든가 여러가지가 있지만 분산이 가장 많이 쓰입니다.

 

분산은 편차의 제곱의 평균으로 정의되는데요 이렇게 이야기 하면 무슨 소린지

 

통 이해가 안되니까 차근차근 이야기해 볼게요.

 

50    /     50       /   50     - A반

 

 0   /     50      /   100     - B반

 

위에서 보시는 수치들은 각각 A반과 B반의 시험성적입니다.

 

평균은 A반과 B반 모두 50점으로 동일하지만 점수의 분포는 매우 다름을

 

알 수 있습니다. A반의 경우 극단적으로 모든 학생이 50점을 받아서 분포

 

가 고르지 못한 반면(이 경우 변이가 없다고 합니다.) B반의 경우는 A반 보다

 

는 분포가 골고루(그러니까 각 점수대에 고르게) 분포되어 있습니다.(이 경우

 

변이가 A반보다는 크겠지요?) 여기서부터 분산에 대한 개념이 시작됩니다.

 

분명히 평균은 같은데... 평균이 A반과 B반의 차이를 설명해주지 못한단 말이죠

 

그래서 선생님은 생각합니다. 어찌하면... 두 학급의 차이를 설명할 수 있을까

 

어찌하면 두 학급의 점수의 "분포"에 대하여 표현할 수 있을까? 점수가 평균에

 

몰려있다. 점수가 평균에서 고르게 퍼져 있다는 것은 평균점수와 각각의 학생

 

들 간의 점수 간에 얼마나 차이가 있을까?를 의미합니다. 즉 각 학생들의 점수가

 

평균으로부터 얼마나 떨어져 있는가?를 나타내지요. 개별 점수 - 평균 점수를

 

편차라고 정의하는데요. 편차가 크면 클수록 개별 점수가 평균점수에서 많이

 

떨어져 있다는 말이므로 변이가 크겠고, 작을 수록 변이가 작겠지요.

 

그래서 편차의 평균을 내어봅니다.

 

A반 : {(50-50) + (50-50) + (50 - 50)} /3    =    0

B반 : {(0 - 50) + (50 - 50) + (100-50) }  /3 = 0

 

불행히도... 편차의 합은 항상 0이기 때문에 편차의 합을 학생수(3)로 나눈

 

편차의 평균값 또한 0이 나올 수 밖에 없지요. 그런데 편차의 합이 0이 되는

 

이유를 살펴보니 바로 마이너스가 나오는 놈이 범인이라 이거죠.

 

(0-50) : 이 놈은 분면 빵점짜리 학생이고 평균점수 50점으로부터 50점 떨어진

 

놈입니다. 또한 100점짜리도 50점 떨어진 놈이지요. 만약 둘을 합해서 50+50=100

 

이 나온다면 좋겠는데... 0-50은 -50이고 100-50은 +50인지라 합하면 0이 된답니다.

 

선생님은 여기서 절망하지 않고 그렇다면 어떻게 하면... 마이너스를 없앨 수 있

 

을까 고민합니다. 그래서 생각해 낸 것이... 바로 편차를 제곱해버리는 거죠.

 

제곱의 특성은 부호에 관계없이 제곱하면 무조건 양수가 나온다는 것과

 

-10 이 5보다는 작은 수지만 제곱을 하면 -10의 제곱이 5의 제곱보다 크다는 겁니다

 

이건 매우 중요한 특성인데요... 우리가 알고 싶은 것은 -10이 5보다 작은 수라는

 

것이 아니라 -10이 5보다 어쨋든 평균에서 멀리 떨어져 있다는 것을 나타내는 겁니다

 

위의 예에서 -50은 50보다 작은 수지만 제곱하면 똑같이 2500이 되어 0점이든

 

100점이든 어쨋든 평균점수 50점에서 똑같은 거리에 떨어져서 분포된다는 것을

 

알 수 있죠. 여기서 도출된 개념이 분산입니다.

 

먼저 각각의 개별점수에서 평균을 빼서 편차를 냅니다.

 

(개별점수 - 평균)

 

B반의 경우 :

 

0 - 50 = -50

50 - 50 = 0

100 - 50 = 50

 

그 다음 위의 편차들을 제곱하지요.

 

(-50)의 제곱 = 2500

0의 제곱 =  0                         =====> 얘네들이 편차의 제곱

50의 제곱 = 2500

 

그리고 저 편차의 제곱들을 평균냅니다.

 

(2500 + 0 + 2500)/3 =========> 이놈을 계산한 결과가 바로 "분산"입니다.

 

자료의 수가 같다면, 분산이 크다는 것은 편차의 제곱이 크다는 것을 의미하고

 

편차의 제곱이 크다는 것은 데이터가 평균으로부터 멀리 떨어져 있다는 것을

 

의미하고 그것은 자료가 한 군데 모여있는 것이 아니라 고루고루 퍼져있다는

 

것을 의미하지요.

 

표준편차는 분산의 자식뻘로 보시면 됩니다. 본래 우리가 알고 싶었던게

 

편차의 평균이었는데... 편차의 합이 항상 0인 관계로 편차의 평균 즉

 

평균편차를 계산하나 마나 모조리 0이 나와버렸잖아요. 그래서 분산을

 

생각해 낸 건데...  죽어도 죽어도 평균편차를 못 잊어서~ 괜히 편차에 제곱

 

해서 평균낸 분산 값에다가 제곱근(루트)를 씌워서 그것에 이름 붙이기를

 

표준편차라고 한 것입니다.

 

x    y    z   를 평균내고 싶은데 평균내면 0이 나오니까

 

각각을 제곱해서 평균 낸 다음에 각각의 제곱의 평균에 루트를 씌우는

 

방법을 생각해 낸 것이고 거기에 평균편차라고 이름붙이기는 어이없으니

 

표준편차라고 이름 붙인 것이라 이해하시면 쉬울거에요. (물론 사실은 이와

 

다릅니다... 다만 이해를 돕기위해 이와 같이 설명합니다. "표준"이란 말을

 

괜히 붙인 것은 아니랍니다 ^^) 엄마인 분산이 자료의 분포를 설명하듯이

 

자식은 표준편차 역시 자료의 분포를 설명하지요.

 

아.. 표준편차의 정의를 아직 알려드리지 않았군요.

 

표준편차는 분산의 제곱근으로 정의되구요. 쉽게 말해 분산에 루트 씌운거

 

라고 생각하시면 됩니다 ^^

'Research > Image Processing' 카테고리의 다른 글

GPU Gems 2의 CD내용물  (2) 2008.05.20
ray casting(3)  (3) 2008.05.09
선형대수의 기본  (1) 2007.10.22
PCA  (0) 2007.07.13
FLV를 파헤쳐보자!  (0) 2007.02.23

Posted by 영웅기삼
,