빅데이터를 지배하는 통계의 힘 : 실무활용 편 - 니시우치 히로무 지음, 신현호 옮김, 홍종선 감수/비전비엔피(비전코리아,애플북스) |
빅데이터를 지배하는 통계의 힘이라는 책 제목에 혹 해서, 예를 들어 구글이나 통신사 차원의 빅빅빅 데이터 분석의 실례를 볼 수 있는 책일거라고 생각해서 읽기 시작했는데, 그게 아니라 통계의 실무 활용에 관한 책이다. 예전에 통계 분석 관련된 작업이 필요해서 이런 저런 책을 읽었었는데, 다소 간단한 통계에 대해서는 그 수식이 수학적으로 풀리는 과정을 겨우겨우 이해한다고 치더라도, 그것의 진정한 의미가 뜬구름처럼 잘 잡히지 않았었는데, 이 책은 통계학에 대한 이해적인 측면에서 매우 훌륭하게 설명되어 있다.
우선 이 책이 나오기 전에 같은 출판사, 같은 저자의 동일한 책 제목(빅데이터를 지배하는 통계의힘)의 책이 출간되어 있는데, 그 책도 좋다고 소문이 나서 샀는데, 읽지 않고 묵혀두었는데 저자에 의하면 그 책은 입문을 위한 입문서의 성격이 강하다고 한다. 즉 통계의 실제라기 보다는 입문을 위한 통계 분석의 역사적 배경과 분석 방법의 발전에 대한 인문서적인 성격을 띠고 있었다면, 이 책은 실제 통계를 비지니스에 활용하고자 하는 독자에게 유용한 책이라고 한다. 실무 활용편이라고는 하지만 이 책 역시 입문서인 앞부분에 성격을 띄고 있고(도대체 통계가 얼마나 복잡하다는거야?) 전편을 보지 않고도 충분히 단독적으로 활용가능하게 자세히 기초적인 이해를 바탕으로 설명한다.
이런 책이 유용한 것은 분석 방법을 많이 알고 있고, 각종 통계 도구를 이용하는 법을 잘 알고 있다는 것, 그리고 통계학의 수학적 분석 방법에 대해 깊이 있게 이해하고 있다는 것이 그것을 실제로 어떻게 활용해서 어떤 가치를 창출하는 것과는 다르다는 데에 있다. 그런 면에서 볼 때, 통계학은 인문학의 성격을 띠고 있다고도 말할 수 있다. 오늘날과 같이 쉽게 대량의 데이터를 수집할 수 있는 디지털 환경에 노출되어 있는 경우, 데이터들이 잔뜩 수집되어 있는데, 그것에서 어떤 통찰을 얻어낼 수 있는가는 개념에 대한 단단한 이해가 기반이 되지 않고는 가능하지 않다. 저자 서문에서도 분명하게 밝히고 있지만 이 책은 '인간을 통찰하고 그 행동이나 자세를 조금이나마 변화시키는 데 목적을 두고 있다'.
다양한 계층의 사람들이 다양한 이해관계에 얽히고 설켜 살아가는 복잡한 현대 사회에 있어 의사 결정 과정의 메카니즘이 한두가지 사유로 결정되지 않는 오늘날, 어느 한쪽의 작용에 의해 뭔가를 바꾼다는 것은 어렵다. 마찬가지로 어느 현상의 원인이 어느 한 쪽의 원인이라는 인과관계는 의심의 여지를 많이 남긴다. 통계는 인과관계와, 현상파악을 할 뿐 아니라 미래를 예측하는 기능을 한다. 그런데 실제로 빅데이터에서의 예측이라는 것은 인과관계보다는 단순히 상관관계만을 따지는 경우가 많고, 전통적인 일반 통계학에서 다루는 엄밀하고 조직화된 데이터가 아닌 빠지고 부정확하고 들쑥날쑥하고 포맷없이 돌아다니는 데이터 산더미들에게서 얻는 자료들로 얻어지기 때문에, 사실 이 책에서 다루는 내용과는 다룬다. 무엇이 무엇을 야기시켰느냐의 인과관계의 문제는 매출 및 비지니스의 이익을 극대화시킬 수 있다.
이 책이 다루는 분석의 범위는 '대다수 직장인들'에게 필요한 기본적인 분석 방법을 다룬다. 여기에는 현상 파악과 그 배후에 놓인 인과관게에 대한 통찰이 포함된다. 수식 없이 문장만으로 통계 분석 방법의 본질적 이해를 향해 가이드하고 있고, 이미 고등학교나 대학에서 통계학을 교양으로 배운 사람들에게는 터무니 없을만큼 기본적인 것부터 차례차례 짚고 넘어간다.
예를 들어 평균과 중앙값과 같은 것들의 서로 다른 개념이 어느 상황에 적절한지, 그리고 왜 평균이 현상의 통찰에 중요한 것인지부터 시작한다. 흔히 쓰는 평균과 표준편차오차범위 , 신뢰수준과 같은, 아는 것 같으면서도 실제로는 제대로 아는 게 아닌 기본적인 개념부터 차근차근 설명하는데, 이 부분은 선거 때 뉴스를 이해하는 데도 도움이 될 것 같아서 간단히 정리해본다.
평균에서 벗어난 정도는 양과 음이 존재하므로 제곱을 이용하여 분산을 나타내는데, 즉 벗어난 값의 제곱합의 평균이므로, 다시 제곱의 평균에 제곱근을 씌워 표준편차를 나타낸다. 표준편차는 원시 데이터 자체의 불규칙성을 나타낸다.
통계학도 범위가 커서, 어디까지 커버하느냐가 관건인데, 여기서는 앞에서 말한 통계의 가장 기본적인 검정방법부터 회귀분석과 인자분석까지를 다룬다. 특히 다양한 설명변수를 한꺼번에 분석해주는 다중회귀분석 로지스틱 회귀분석은 입문적인 일반 통계학에서는 배우지 않기 때문에 특별히 강의를 수강하지 않고는 이해하기가 다소 난해할 수 있는데, 이 책에서는 개념에셔부터 실제 투입과 산출까지 잘 설명하고 있다.