본문 바로가기

글자밖 여운/실용

[니시우치 히로무] 빅데이터를 지배하는 통계의 힘-실무활용편

빅데이터를 지배하는 통계의 힘 : 실무활용 편 - 10점
니시우치 히로무 지음, 신현호 옮김, 홍종선 감수/비전비엔피(비전코리아,애플북스)

빅데이터를 지배하는 통계의 힘이라는 책 제목에 혹 해서, 예를 들어 구글이나 통신사 차원의 빅빅빅 데이터 분석의 실례를 볼 수 있는 책일거라고 생각해서 읽기 시작했는데, 그게 아니라 통계의 실무 활용에 관한 책이다. 예전에 통계 분석 관련된 작업이 필요해서 이런 저런 책을 읽었었는데, 다소 간단한 통계에 대해서는 그 수식이 수학적으로 풀리는 과정을 겨우겨우 이해한다고 치더라도, 그것의 진정한 의미가 뜬구름처럼 잘 잡히지 않았었는데, 이 책은 통계학에 대한 이해적인 측면에서 매우 훌륭하게 설명되어 있다. 


우선 이 책이 나오기 전에 같은 출판사, 같은 저자의 동일한 책 제목(빅데이터를 지배하는 통계의힘)의 책이 출간되어 있는데, 그 책도 좋다고 소문이 나서 샀는데, 읽지 않고 묵혀두었는데 저자에 의하면 그 책은 입문을 위한 입문서의 성격이 강하다고 한다. 즉 통계의 실제라기 보다는 입문을 위한 통계 분석의 역사적 배경과 분석 방법의 발전에 대한 인문서적인 성격을 띠고 있었다면, 이 책은 실제 통계를 비지니스에 활용하고자 하는 독자에게 유용한 책이라고 한다. 실무 활용편이라고는 하지만 이 책 역시 입문서인 앞부분에 성격을 띄고 있고(도대체 통계가 얼마나 복잡하다는거야?) 전편을 보지 않고도 충분히 단독적으로 활용가능하게 자세히 기초적인 이해를 바탕으로 설명한다. 


이런 책이 유용한 것은 분석 방법을 많이 알고 있고, 각종 통계 도구를 이용하는 법을 잘 알고 있다는 것, 그리고 통계학의 수학적 분석 방법에 대해 깊이 있게 이해하고 있다는 것이 그것을 실제로 어떻게 활용해서 어떤 가치를 창출하는 것과는 다르다는 데에 있다. 그런 면에서 볼 때, 통계학은 인문학의 성격을 띠고 있다고도 말할 수 있다. 오늘날과 같이 쉽게 대량의 데이터를 수집할 수 있는 디지털 환경에 노출되어 있는 경우, 데이터들이 잔뜩 수집되어 있는데, 그것에서 어떤 통찰을 얻어낼 수 있는가는 개념에 대한 단단한 이해가 기반이 되지 않고는 가능하지 않다. 저자 서문에서도 분명하게 밝히고 있지만 이 책은 '인간을 통찰하고 그 행동이나 자세를 조금이나마 변화시키는 데 목적을 두고 있다'.


다양한 계층의 사람들이 다양한 이해관계에 얽히고 설켜 살아가는 복잡한 현대 사회에 있어 의사 결정 과정의 메카니즘이 한두가지 사유로 결정되지 않는 오늘날, 어느 한쪽의 작용에 의해 뭔가를 바꾼다는 것은 어렵다. 마찬가지로 어느 현상의 원인이 어느 한 쪽의 원인이라는 인과관계는 의심의 여지를 많이 남긴다. 통계는 인과관계와, 현상파악을 할 뿐 아니라 미래를 예측하는 기능을 한다. 그런데 실제로 빅데이터에서의 예측이라는 것은 인과관계보다는 단순히 상관관계만을 따지는 경우가 많고, 전통적인 일반 통계학에서 다루는 엄밀하고 조직화된 데이터가 아닌 빠지고 부정확하고 들쑥날쑥하고 포맷없이 돌아다니는 데이터 산더미들에게서 얻는 자료들로 얻어지기 때문에, 사실 이 책에서 다루는 내용과는 다룬다. 무엇이 무엇을 야기시켰느냐의 인과관계의 문제는 매출 및 비지니스의 이익을 극대화시킬 수 있다.


이 책이 다루는 분석의 범위는 '대다수 직장인들'에게 필요한 기본적인 분석 방법을 다룬다. 여기에는 현상 파악과 그 배후에 놓인 인과관게에 대한 통찰이 포함된다. 수식 없이 문장만으로 통계 분석 방법의 본질적 이해를 향해 가이드하고 있고, 이미 고등학교나 대학에서 통계학을 교양으로 배운 사람들에게는 터무니 없을만큼 기본적인 것부터 차례차례 짚고 넘어간다. 


예를 들어 평균과 중앙값과 같은 것들의 서로 다른 개념이 어느 상황에 적절한지, 그리고 왜 평균이 현상의 통찰에 중요한 것인지부터 시작한다. 흔히 쓰는 평균과 표준편차오차범위 , 신뢰수준과 같은, 아는 것 같으면서도 실제로는 제대로 아는 게 아닌 기본적인 개념부터 차근차근 설명하는데, 이 부분은 선거 때 뉴스를 이해하는 데도 도움이 될 것 같아서 간단히 정리해본다. 


평균에서 벗어난 정도는 양과 음이 존재하므로 제곱을 이용하여 분산을 나타내는데,  즉 벗어난 값의 제곱합의 평균이므로, 다시 제곱의 평균에 제곱근을 씌워 표준편차를 나타낸다. 표준편차는 원시 데이터 자체의 불규칙성을 나타낸다. 


오차범위라는 말을 편한 대로 막 쓰는데, 통계에서는 데이터 수나 불규칙성을 바탕으로 정확히 계산해야 한다. 한정된 데이터를 통해 얻어진 평균 또는 비율이 참값으로부터 얼마나 멀어져있는지를 나타내는 것이 통계학적 오차다. 당연한 말이지만, 데이터의 불규칙성이 클수록 평균의 차이도 커진다. 원시데이터의 표준편차를 평균값 계산에 사용한 데이터수의 제곱근으로 나눈 값이다. 그러므로 표준오차는 항상 표준편차보다 작게 되며, 계산에 사용된 데이터가 커질 수록 작아진다. 평균과 표준편차를 사용하면 다음 조사에서 어느 정도의 표준오차를 하기 위해 어느 정도의 데이터 수가 필요한가를 예측할 수 있다. 그림에서처럼 표본크기가 4일때 표준오차가 500인 반면 표본 크기가 100일 경우 100엔으로 급격히 떨어지지만 500명 이상부터 2500명까지의 데이터 수에는 표준 오차에 아주 작은 변화만 있을 뿐이다. 비율의 경우에는 어떤 상태를 취하는가 취하지 않는가를 나타내는 데이터의 평균값이다. 이 말은 수학적으로 데이터의 분산 = 비율 x (1-비율)이며, 이 비율 역시 표준편차를 표본크기의 제곱근으로 나눈 평균값의 관계식과 같게 된다. 


독일의 C.헴펠이 1940년대 지적한 까마귀의 역설은 아무리 많은 검은 까마귀를 보여주더라도 검지 않은 까마귀가 없다는 반증을 할 수 없으므로 증거가 되지 않는다는 반론에 반박할 수 있는 결정적 증거를 대지 못한다. 모든 ...는 ~~이다 라는 표현은 '전칭성'이라는 용어를 사용하는데, 확률을 도입하면 모든 대신 거의 모든이라는 생각도구를 사용할 수 있다. 이 때 모든 까마귀는 다 검다라는 가설을 완전히 뒤짚어 없는 가설이, 무로 돌려보낸다는 뜻으로 귀무가설이고, 귀무가설에 반하는 데이터가 얻어지는 확률이 p-값이다. 즉, 까마귀는 검다는 가설을 주장하고 싶을 때 모든 까마귀는 검지 않다는 귀무가설의 확률을 나타낸다. 즉 귀무가설이 매우 작으면 그 귀무가설은 존재할 수 없으므로 원가설이 참이된다. p-값이 매우 작아야 하는 까닭인데, 선거 때 TV에서 자주 듣는 5% 내외의 신뢰수준이라는 말은 대략 귀무가설이 20번에 1번 정도밖에 일어자지 않는다는 말이다. 즉 어디까지가 존재할 수 없고, 어디부터가 부정할 수 없는가 하는 구간이 귀무가설이다.


통계학도 범위가 커서, 어디까지 커버하느냐가 관건인데, 여기서는 앞에서 말한 통계의 가장 기본적인 검정방법부터 회귀분석과 인자분석까지를 다룬다. 특히 다양한 설명변수를 한꺼번에 분석해주는 다중회귀분석 로지스틱 회귀분석은 입문적인 일반 통계학에서는 배우지 않기 때문에 특별히 강의를 수강하지 않고는 이해하기가 다소 난해할 수 있는데, 이 책에서는 개념에셔부터 실제 투입과 산출까지 잘 설명하고 있다.