(1) 기술통계학
일반통계나 관청통계가 19세기초에 이론과 더불어 보급되고 있을 무렵 벨기에 천문학자 케틀레(L.A.J. Quetelet : 1796∼1874)는 영국의 정치산술학과 독일의 국상학을 종합하여 방법론적 기초를 얻어 기술통계학을 정립하였다. 따라서 그를 고전적 기술통계확의 시조라고 한다. 케틀레는 "사회물리학"이란 저서에서 생물과 인류에 관한 자료를 이용하여 정규분포를 작성하고, 교육, 사회, 생물 등에 통계적 방법을 적용함으로써, 모든 영역에 통계적 방법의 적용가능성을 보여주었다. 케틀레 이후 갈톤(F.Galton .1822∼1911)과 피어슨(K.Pearson)은 통계적 방법을 자연현상에 적용하여 법칙성을 찾으려고 시도한 최초의 사람들이다. 즉, 그 당시 다윈(C.Darwin,1809∼1882)의 "종의 기원(Origine of Species by means of Natural Seleciton,1859)"이 출판되어 세상을 놀라게 했고, 이때 웰돈( W.F.R.Weldon, 1860∼1906)은 다윈의 진화론을 믿고 생물 진화에 관한 측정값들의 분석에 갈톤과 피어슨의 방법을 이용하였다. 갈톤은 다윈과 웰돈의 영향으로 진화론의 과학적 입증연구에 몰두하다 여러 측정값과 실험값에 의해서 형질유전을 밝히려다 복귀(復歸)의 원리를 발견하는데 이것이 회귀(regression)와 상관(correlation)의 개념이다. 회귀와 상관의 개념과 방법은 피어슨에 의해서 체계화된다. 피어슨은 우연론이나 확률론을 단순한 추상적 수리에서 구체적 문제분석에 응용하려다 웰돈의 권유에 따라 진화론을 연구하게된다. 처음엔 웰돈의 요청으로 피어슨은 나폴리산 게1000마리의 집게발 측정값의 집합을 분석한 결과 평균을 중심으로 비대칭으로 분포되고 있는 것을 알게 된다. 웰돈은 생물진화에서 종의 분화과정이 잠재해 있다고 상정하고 이것을 피어슨에게 입증하도록 의뢰했다. 그 결과 피어슨은 6개의 모수에 의해서 2개의 겹쳐지는 정규분포를 만들어 종의 분화현상을 입증시켰고, 갈톤의 유언에 따라 1911년에는 런던대학에 갈톤 연구실을 설립하고, 갈톤 교수직을 맡아 연구실에 계산력을 동원하여 2항계수표, 삼각함수표, 계승수표, 대수표들을 발표하여 통계적 방법의 실용화보급에 크게 기여했다.
또, 스페어맨(Chares Edmund Spearman:1863∼1945),보우리(A.L.Bowley : 1869∼1957)그리고 율(G.U.Yule:1881∼1951)등은 기술통계학을 사회과학분야의 연구에 본격적으로 적용하게 되었다.


(2) 회귀분석
회귀분석(Regression analysis) 이란 변수들 사이의 관계를 조사하여 모형화 시키는 통계적 기법으로서 경제, 경영, 교육, 정치 등의 사회과학 그리고 물리, 화학, 생물, 공학, 농학, 의학 등 자연과학의 거의 모든 분야에서 널리 응용되고 있습니다.

즉, 변수들 간의 함수적인 관련성을 규명하기 위하여 수학적 모형(통계모형)을 가정하고, 관측된 자료로부터 이 모형을 추정하는 통계분석방법으로 주로 예측에 사용됩니다.

회귀분석의 단계는 아래와 같습니다.

(1) 산점도 ; 변수간의 수학적 모형을 찾는다.
(2) 통계적 모형 ; 선형모형으로 유도(변수변환)
(3) 모형의 추정- 추정과 검정, 분산분석
(4) 추정된 모형의 유효성 판정---결정계수

'회귀' 라는 용어는 1885년 영국의 과학자 갈톤(F.Galton)이 발표한 "유전에 의하여 보통사람의 신장으로 회귀 (Regression toward Mediocrity in Hereditary Stature)"라는 논문에서 비롯되었다고 하는군요.
아들의 키와 부모의 키가 매우 클때(또는 작을때) 아들의 키는 일반적으로 평균키보다는 크지만(작지만) 그들의 부보만큼 크(작)지는 않다는 내용입니다.

즉, 부모가 키가 크(작)더라도 그 자식들은 결국 보통키로 회귀한다는 뜻이랍니다.

더 자세한설명
회귀분석은 변수들 간의 함수관계를 분석하고 모형화하는 통계적 기법이다. 회귀분석의 응용분야는 공학, 자연과학, 경제학, 경영학, 생명과학, 사회과학 등 여러 분야에 적용되고 있으며, 최근에는 컴퓨터 통계 소프트웨어(SAS, SPSS, MINITAB, BMDP 등)의 활용으로 변수들 사이의 복잡한 함수관계 추정하는데 가장 널리 사용되어지는 자료분석 기법이다.
예를 들면, 어느 회사 제품의 매출액이 광고비 지출액에 따라 변동한다면, 이들 두 변수사이의 함수관계를 추정하여 매출액을 추정할 수 있고, 광고비가 매출액에 미치는 효과를 분석할 수 있을 것이다.
또는 어느 부품조립 생산라인에서 제품의 불량율이 생산라인의 속도와 어떤 관련성이 있다면, 이들 두 변수들 간의 함수관계를 분석함으 로서 불량율을 가능한 줄이면서 양질의 제품을 생산할 수 있는 라인속도를 추정할 수 있을 것이다. 위의 두 가지 예에서 다른 변수로부터 추정 또는 예측되어야 하는 변수들인 판매라 불량율은 일반적으로 종속변수(dependent variable) 혹은 반응변수(response variable)라 부르고 기호 Y로 표기하고, 광고비 와 생산라인 속도와 같이 종속변수에 영향을 미치는 변수들을 독립변수(independent variable) 혹은 설 명변수(explanatory variable)라 하고 X로 표기한단.
일반적으로 종속변수에 영향을 주는 독립변수 수는 여러개 있을 수 있기 때문에 회귀분석은 하나의 종속변수와 여러 개의 독립변수들 간의 통계적 함수관 계를 분석하여 모형화 하는데 이용되고 있다.
회귀분석을 사용하는 목적은 크게 세 가지로 분류될 수 있 다.
첫째, 종속변수와 독립변수들 사이의 함수관계가 어떠한 형태(선형 또는 비선형)를 가지고 있는지를 파악하는 것이고, 둘째, 종속변수에 영향을 피치는 중요한 독립변수들의 영향을 추정, 검정하는 것이 고, 셋째, 추정된 회귀함수를 인용하여 주어진 독립변수의 값에서 종속변수의 평균변화를 추정 혹은 예측하는 것이다.
 
(3)우생학
우생학. 이 용어를 처음 만든 골턴(Francis Galton, 1822-1911, 다윈의 사촌)이란 다재다능한 영국 학자 논리의 출발점은 인류의 철저한 유전적 불평등이었다. 인종주의가 상식으로 통하던 19세기 후반 모든 유색 인종들을 ‘유전적으로
열등한’ 것으로 치부한 것은 놀랄 만한 일이 아니다. 그러나 민주주의를 싫어하던 귀족 출신의 골턴에게는 백인의 95%조차 남의 지도 없이 행동도 할 줄 모르고 추상적 사고도 못하는 ‘동물적 군중’으로 보였다. 대다수 열등분자들이 극소수 ‘우등분자’에 비해 훨씬 빨리 번식하므로 전자의 번식을 막고 후자의 번식을 장려하는 것이 ‘지도자로서 중차대한 책임’으로 느껴졌다.
골턴의 ‘인종 개선책’은 간단했다. 한편으로는 ‘염치없이 번식만을 일삼는 유전적 열등분자들을 국가의 적으로 선포하고 무자비하게 다루어야’ 하고, ‘유전적으로 우등한 극소수’는 ‘국가적 지원 대상’으로 인정하여 그들의 통혼(通婚)을 장려하고 그들이 지도자로 부상하게끔 도와주는 것이다. 서재필이나 유길준 등 당대 한국 초기 개화파들이 서구 ‘문명국가’들을 만인 평등의 세상이라 선전했지만 골턴이 생각한 ‘자연적 귀족층’(natural nobility) 주도하의 이상사회는 조선시대 양반사회보다 훨씬 더 가혹한 불평등 구조를 가졌다. 배타적 통혼권이 이루어진 것은 조선 후기 실질적 사회 지도층인 경화사족(京華士族·한양이나 그 근교에서 거주하는 양반 집단)도 마찬가지였지만, 그들이 혹 노비를 열등한 종자로 생각한다 해도 노비 번식을 인위적으로 억제할 궁리까지는 하지 않았을 것이다.
골턴의 우생학이 한 개인의 몽상으로 끝났으면 문제 없었겠지만, 골턴과 그 제자들은 곧 서구·미국 생물학계 주류의 한 부분을 이루어 학계와 일반 사회에 커다란 영향을 주기 시작했다. 골턴이 ‘번식 억제’와 단종(斷種)의 대상으로 삼은 ‘유전적 열등분자’들은 사회·경제·인종적으로 빈민이거나 비서구인 이민자이었기에, 골턴의 우생학은 해방적 근대 담론의 도전에 응수하려는 보수적 지배층이 호소할 수 있는 최적의 과학 담론이었다.
 
 
(4)정규분포
Quetelet 와 Galton의 정규분포에 대한 신앙을 예로 들어보자. Quetelet 는 저서 [인간의 여러 능력의 발달에 관하여](1835)에서 천문학, 측지학에 있어서 오차법칙으로 유도된 정규분포를 완전히 다른 영역인 인간의 유체적 정신적능력에도 적용하여 평균인이란 개념을 만들었다. 평균인은 평균의 신장, 체중, 흉위, 근력등 평균적 육체를 갖고 지적능력도 평균, 도덕적으로도 예를 들면 평균적 범죄경향을 갖고, 평균연령에서 결혼하고 평균수명에서 죽는 사회의 중심으로서 위치를 차지한다. 이 가상적 평균인과 현실의 인간과의 차이는 천문학에 있어서 관측오차와 마찬가지로 참값에서의 벗어남이고, 이는 정규분포를 따른다고 생각했다. 당신은 얼마나 벗어나 있습니가? 평균인은 결국 이상화되고 미화되어 인간의 이상적 모형이 된다는 극단적 인데 까지 가 버렸다.
  우생학의 창시자 Galton은 [자연유전](1889)에서 다음과 같이 정규분포를 찬미하였다. [나는 "오차의 도수법칙"으로 나타내지는 우주 질서의 놀라운 형식만큼 감명을 주는 것은 아무것도 모른다. 만약 고대 그리스인이 이 법칙을 알고 있었다면 그것은 의인화되고 신격화 되었을 것이다. 이 법칙은 매우 무질서한 가운데서 조용히 그리고 전혀 표면에 나오지 않도록 군림하고 있다. 군(群)이 클수록 또 외견상 무질서가 심할수록 이 법칙의 지배력은 완전하다. 그것은 이유없는 가장 고귀한 법칙이다. 무질서한 요소에서 대 표본을 추출하여 크기 순으로 나열하면 생각치도 않는 매우 아름다운 질서의 형식이 숨어 있었다는 것이 분명해진다.(E.S. Pearson, "some Incidents in the Early History of Biometry and Statistics")
  이와 같이 특히 19세기후반에는 "가능한 한 정규분포의 법칙을 채용해야만 한다"(에즈워드)라는 견해는 널리 수용되었다. 그러나 Galton, Edgeworth가 정규분포를 찬미하고 있던 바로 그 시기에 Weldon, Edgeorth, K. Pearson등에 의하여 도수분포중에는 비틀림이 있는 비대칭인 것도 있고, 평균보다 큰 값의 도수곡선의 형태는 평균보다 작은 값의 곡선을 거울에 비친 것과 같지 않다는 것을 인식하게 되었다. 평균에서의 편차를 오차로 보고 "참값"이 존재한다는 생각, 도수분포가 종 모양이 되지 않는 것은 자료 수집방법이 나쁘거나 자료 수가 부족하다는 생각을 지속하는 것은 곤란하게 되었다. 도수분포자체가 집계량의 기본적특성이라 보게 되어 여러 분야에서 정규분포가 맞지 않는 예가 많이 발견되어 정규분포 신앙이 무너져간다. 이것이 이론적으로는 K. Pearson에 의한 Pearson계 도수곡선의 정식화, 정규분포에서의 도수분포라 볼 수 있는가를 검정하기 위한 적합도 검정으로서 Chi-square분포의 재발견에 연결되어 간다.

Posted by 알 수 없는 사용자
,