빅데이터는 언제 나쁜 데이터로 변하나
김우용 기자 yong2@zdnet.co.kr
[2016.7.19.]
빅데이터는 여러 분야에서 혁신의 엔진으로 거론된다. 그러나 올바르게 분석될 때만 혁신을 이끈다. 최근 발표된 한 의학계 연구는 통계분석 SW를 사용한 헬스케어 연구가 잘못된 결과를 도출한다는 사실을 밝혀냈다.
최근 미국 지디넷 컬럼니스트 로빈 해리스는 기능적MRI(Functional MRI) 연구에 사용된 통계분석 소프트웨어가 잘못된 결과를 냈다는 연구보고서를 소개했다.
이 보고서는 분석 방법론 개발에 사용한 데이터가 현실과 다르기 때문에 최후에 잘못된 진단을 한다는 내용을 담았다.

<중략>
빅데이터 세계에서 통계 품질은 매우 중요한 문제다. 통계가 복잡할수록 고도로 숙련된 전문가라도 소프트웨어에 의존하게 된다. 그리고 소프트웨어로 도출된 결과를 신뢰한다.
앞서 소개된 논문은 의학계 연구방법에 대한 문제를 지적하지만, 빅데이터 세계 전반에 큰 시사점을 갖는다. 통계SW가 사용하는 방식 자체가 잘못됐을 수 있다는 것이다.
그 방식이 만들어질 때 가정과 시뮬레이션으로 만들어졌을 수 있다. 실제 데이터를 사용하지 않으므로 현실과 동떨어진 결과를 만들어낼 수 있다. 통계 방식이 실제 환경에서 검증되는 경우도 거의 없다.
<중략>
사용자는 빅데이터 분석을 하기 전 활용할 데이터 품질을 높이는 게 중요하다. 더불어 분석에 사용할 여러 방법론 자체를 면밀히 살펴봐야 한다. 빅데이터가 나쁜 데이터가 되는 시점은 아무렇지 않게 믿고 넘어가는 그 순간이다.
기사 상세 내용 보기_클릭