데이터의 행간을 읽자

데이터를 수집하고 분석하는 능력이 사업을 하기 위한 필수요건은 아니지만, 그런 능력을 가지고 있다면 도움이 되는 것임에는 틀림없습니다. 하지만, 데이터를 분석하고 이해하는 일이 쉽지 않다고 느껴지는 것은 아마도 “데이터 분석”이라는 말로 인해 지레 겁먹거나 “나는 숫자를 보고 읽는 것이 약하다”고 생각하여 처음부터 분석할 생각조차 하지 않는 것이지 않을까 합니다. 물론, 데이터 분석이 꼭 쉽다고 만은 할 수 없지만 생각보다는 어려운 일만은 아니니 데이터 분석을 쉽게 할 수 있는 사례를 소개해 보고자 합니다.

데이터 분석을 한다는 것은 다시 말해 데이터를 이해하고 데이터의 행간(데이터 속에 내재되어 있는 숨은 정보)을 읽는 것이라고 할 수 있습니다. 여기 한 장의 장표가 있습니다. 어떤 생각이 드시는지요?

43f9ff29864aa9cf6347a2b885062cb8

얼핏 보면 앱 다운로드 갯수는 증가 추세에 있고, 작년 대비 올해는 약 150%(= 102/66) 정도 성장을 하였으며, 2017년까지 약 4배 정도 성장한다는 것을 알 수 있습니다. 그런데, 매년 얼마나 성장하는지는 세부 정보가 없어 알기 어렵기에 장표에 제시된 정보가 조금 부족해 보입니다.

마침 출처가 표기되어 있어 관련 정보를 찾아보기로 합니다. 혹시나 작성자가 데이터를 옮기다가 잘못 인용할 수도 있고 2013년이라고 하더라도 연초나 연말이냐에 따라 데이터의 변화가 있기에 데이터의 출처를 찾아보는 것은 중요한 일입니다. 관련 정보를 인터넷을 통해 찾아보니 다음과 같은 정보를 찾을 수 있었습니다.

Gartner Says Mobile App Stores Will See Annual Downloads Reach 102 Billion in 2013

발표된 날짜가 2013.09.13일이니 최근 데이터라고 볼 수 있을 것 같습니다. 그런데, 해당 원문을 찾아보니 장표에서 이야기 하는 정보보다 더 상세한 정보를 담고 있는 테이블을 발견할 수 있었습니다.

a1ea5e60f9dd828eded65272db92dc9d

이를 옮겨서 엑셀에서 기본적으로 제공하는 추세선 분석을 해보니 다음과 같은 결과를 얻을 수 있었습니다.

5cfedc2a7eefb7d19a1314d5ef203fd6

다시 말해 해당 데이터는 과거 데이터를 근간으로 수요예측을 한 데이터이고, 결정계수(R^2)의 값이 0.99, 0.96으로 매우 높기에 해당 산식을 신뢰할 수 있다는 것을 알 수 있습니다. 산식을 구했으므로 만약 2020년까지의 앱 다운로드 갯수를 추정해보고 싶다면 심지어 계산해 볼 수도 있습니다. 물론, 기간을 늘리면 예측치의 신뢰도는 떨어집니다.

이와 같이 단순한 작업만으로도 원래의 데이터가 어떻게 만들어졌는지 분석할 수 있고 데이터 분석을 통해 의외의 소득을 얻는 경우도 많으니, 중요하다고 판단되는 정보를 구하시면 반드시 분석을 통해 데이터가 주는 행간의 의미를 파악해 보시길 권해드립니다.

글 : 데모데이(박성혁)
출처 : http://goo.gl/xT0Q5Q

%d bloggers like this: