전문가들은 사람이 개입하지 않고 컴퓨터에 모든 것을 맡겨버리면 문제가 발생할 수 있다고 경고했다.
“많다고 꼭 좋은 것은 아니다.” 많은 전문가들이 수 없이 강조했듯, 아무런 노력도 없이 저절로 좋은 분석을 창출하는 빅 데이터는 그 어디에도 없다.
수집된 데이터가 불완전하거나 맥락에서 벗어난 것이라면, 또는 손상된 것이라면, 그 결과는 기업의 경쟁력 약화로, 그리고 개인 생활의 피해로도 이어질 수 있다.
맥락에서 벗어난 데이터가 어떻게 왜곡된 결과를 창출하는지 궁금하다면 하버드 대학의 교수이자 정량적 사회 과학 기구(Institute for Quantitative Social Science)의 디렉터인 게리 킹의 사례를 살펴보는 것이 도움이 될 것이다. 킹과 그의 팀원들은 트위터 피드를 비롯한 소셜 미디어 포스트들에 포함된 ‘직업', ‘실직', ‘구인' 등의 키워드를 분석함으로써 미국 내 실업률을 예측하는 빅 데이터 프로젝트를 진행했다.
킹의 팀은 정서 분석(sentiment analysis)이라는 분석 기술을 위의 키워드들이 포함된 트윗 등 소셜 미디어 포스트들의 증감이 월간 실업률 증감과 어떤 상관관계를 지니는지 분석하고자 했다.
모니터링 중 팀원들은 특정 기간에 ‘직업(Jobs)’라는 단어를 포함한 트윗이 갑자기 증가한 것을 확인할 수 있었다. 하지만 실업률에는 별다른 변화가 관측되지 않았다. 이후 원인을 조사해 본 결과, 해당 키워드의 발생 횟수 증가는 ‘스티브 잡스(Steve Jobs)’의 사망 때문인 것으로 확인됐다고 킹은 설명했다.
견고하게 설계된 분석 프로그램이 전혀 생각지도 못했던 ‘잡스'라는 이름으로 무용지물이 되어버린 것이다. 일면 우스운 이야기지만 오늘날 빅 데이터가 우리의 의사 결정 과정에 얼마나 큰 영향을 미치고 있는지를 고려한다면 단순히 웃어 넘길 수만은 없는 사례일 것이다.
킹은 “‘Jobs’ 사건은 시장의 여러 사고 사례 중 하나에 불과하다. 내 동료들 역시 왕왕 이런 난감한 경험들을 하곤 한다”라고 말했다.
그는 “분석은 컴퓨터가 하더라도 키워드 설정 자체는 인간의 몫이다. 단기적으로는 아무 문제 없이 결과물이 도출되더라도, 언제 재앙이 닥쳐올 지 모르는 것이 빅 데이터 분석이다. 위의 잡스 사건에 관해 누군가는 예외 사항을 설정하면 되지 않느냐고 이야기하지만, 어쨌거나 예외를 설정하는 것도 결국에는 사람이다. 언제던 실수는 있을 수 있다”라고 설명했다.
킹은 빙 소셜(Bing Social) 페이지에 하나의 키워드만 입력해봐도 이런 사실을 어렵지 않게 확인할 수 있을 것이라 덧붙였다.
그는 “검색 결과물 가운데 일부는 키워드와 충분한 연관성을 지니겠지만, 그렇지 않은 결과들도 상당할 것이다. 검색어를 변경하지 않고 지속적으로 페이지를 살펴보다 보면, 어느새 당신이 의도한 맥락에서 상당히 벗어나 있는 모습을 발견할 수도 있을 것이다. 물론 당신이 찾고자 한 콘텐츠들을 완벽하게 보여주기도 하지만, 꽤 차이가 나는, 혹은 완전히 다른 방향으로 흘러간 결과물을 접할 가능성 역시 꽤 된다”라고 설명했다.
물론 빅 데이터가 유용한 결과물을 창출하는 사례 역시 무수히 보고되고 있다. 그러나 오히려 킹은 “많은 실패 사례들이 성공 사례를 향한 환호에 묻혀버리고 만다”라고 지적했다.
반티브(Vantiv)의 CSO 겸 선임 부사장 킴 존스는 킹의 지적이 새로울 것 없는 문제라 이야기했다. 하지만 그 역시 대량의 데이터가 좋은 분석 결과물을 창출한다고 믿는 일반의 시선에는 우려의 목소리를 냈다.
존스는 “잡스 사건은 데이터 분석 과정에서 맥락이 부재할 때 발생할 수 있는 전형적인 문제다. 강조하지만 ‘데이터’와 ‘인텔리전스’는 동의어가 아니다”라고 말했다.
킹 역시 핵심은 맥락에 있다고 강조했다. 그는 자신이 공동 설립에 참여하고 현재도 최고 과학자로 재직 중인 빅 데이터 애널리틱스 기관 크림슨 핵사곤(Crimson Hexagon)의 마케팅 행정 부사장 웨인 생 아만드의 표현을 빌어 “빅 데이터 분석은 온라인 대화의 맥락과 의미, 구조를 해석하는 과정이다”라고 정의했다.
하지만 맥락이 부재하는 데이터가 의사 결정에 활용되는 사례는 여전히 적지 않게 목격되고 있는 것이 오늘날의 현실이다. 월 스트리트 저널(The Wall Street Journal)은 지난 2월 의료 보험사들의 빅 데이터를 활용한 회원 프로파일링 활동에 관해 논평을 기고한 바 있다. 기사에 따르면 보험사들은 대형 사이즈 의류를 구매한 기록이 있는 고객들을 추적해 그들에게 체중 감량 프로그램 참여를 유도했다고 한다.
고객들의 건강 증진을 지원하는 이 프로그램 자체에 불만을 제기하는 이는 몇 없을 것이다. 하지만 그 과정에서 고객의 프라이버시가 침해된 것은 분명 문제의 소지가 있는 사항이었다. 또한 빅 데이터 분석을 통한 의사 결정이 언제나 점잖은 방식으로만 이뤄지는 것은 아니라는 사실 역시 우려되는 부분이다. 2008년 블룸버그 비즈니스위크(Bloomberg BusinessWeek)의 보고서에 따르면 의료 보험사들이 전문의약품 구매 기록에 근거해 일부 환자들의 보험 가입을 거부한 사례 역시 발견된 바 있다. 보험 가입을 거부 당한 이들 가운데는 단순한 경도 정신 건강 질환으로 처방을 받은 경우도 있었다.
내셔널 퍼블릭 라디오(National Public Radio) 블로그의 기고가 아담 프랭크는 링크드인이나 페이스북에서의 활동 기록이 은행의 대출 신청 거부의 근거로 활용될 수도 있다고 지적했다. 프랭크는 “당신의 ‘친구' 가운데 신용 불량자가 있다는 사실이 당신의 신용도를 떨어뜨리는 근거가 될 수 있을 것이다”라고 말했다.
프랭크는 또 ACLU의 최고 정책 분석가 제이 스탠리가 ACLU 블로그에 기고한 포스트를 인용하며 “당신이 특정 상점에서 상품을 구매했는데, 분석 결과 해당 상점의 다른 구매 고객들의 상환 기록이 나쁘다면, 카드사는 당신의 신용 한도를 낮추기도 한다. 이러한 ‘행동 스코어링(behavioral scoring)’은 일종의 경제적 연좌제다. 시행자는 통계적 추론의 결과물이라 설명하지만 그 추론 과정에 개인이 미칠 수 있는 영향은 없다”라고 지적했다.
킴 존스 역시 심도 있는 해석 없이 연관 관계를 곧바로 결론으로 연결하는 경향이 개인에게 악영향을 미칠 수 있음을 우려했다. 그는 “80 년대 말에서 90 년대 초반에는 I-95 활주로에서 중고가 차량을 모는 20~27 세 흑인, 히스패닉 남성은 약물 복용자일 확률이 높다는 데이터가 존재했다. 정확히 내 얘기였다. 난 아프리카계 미국인이고, 당시 그 정도 20 대에 자동차도 어느 정도 가격이 나가는 모델을 몰았다. 덕분에 경찰들이 종종 내 차를 세우도록 하는 일을 겪었다. 중위 계급장이 달린 군복과 육군사관학교 졸업 반지를 보고는 곧바로 날 보내주곤 하진 했지만, 그것이 기분 좋은 대우라고 생각해본 적은 없었다. 핵심은, 데이터 분석에 과도하게 의존하는 것이 매우 위험한 행동일 수 있다는 사실이다. 분석 구조를 설계하는데 ‘인간적 요소'가 들어간다면, 오류의 가능성은 높아질 수 밖에 없다”라고 이야기했다.
존스는 “간단히 말해 빅 데이터는, 솔루션이 아닌, 하나의 도구다. 이는 광범위한 데이터를 좁은 범위로 한정해주는 역할을 할 뿐이다. 컴퓨터에게 보조 도구가 아닌 모든 작업을 처리하는 역할을 기대한다면, 분명 문제를 경험하게 될 것이다”라고 강조했다.