빅 데이터를 정의하고 구분하는 것은 쉽지 않다. 편의에 따라 정의하는 기준이 조금씩 다른데, 이와 같은 정의의 차이는 정의를 내리는 주체의 비즈니스와 연결되어 있는 것도 한가지 원인이 되고 있다. IBM은 규모, 다양성, 속도, 정확성을 빅데이터를 정의하는 기준점이 될 것이라고 밝혔다.
규모(Volume): 데이터 양. 빅 데이터 하면 가장 먼저 연상되는 규모는 기업들이 전반적인 의사 결정 능력을 향상시키기 위해 활용하려 노력하는 데이터의 양을 의미한다. 데이터의 규모는 전례 없는 속도로 급증하고 있다. 정말 ‘대규모’가 어느 정도의 규모인지는 산업별, 지역별로 차이가 많지만, 종종 언급되는 PT(petabytes)나 ZT(zetabytes)보다는 적은 규모이다. 절반을 약간 넘는 응답자들이 1TB에서 1PT 사이의 데이터 세트를 빅 데이터라고 생각한 반면, 30% 정도의 응답자들은 자신의 기업 수준에서 어느 정도가 ‘빅’ 데이터인지 아예 모르고 있다. 그러나 모든 사람이 동의할 만한 한 가지 사실은 ‘대량’이라고 여겨지는 규모가 오늘보다는 내일 더 커질 거라는 점이다.
다양성(variety): 데이터의 다양한 형태와 소스. 다양성은 정형, 반정형, 비정형 데이터를 전부 포함하는 복잡하고 다양한 형태의 데이터를 관리하는 것과 관련이 있다. 기업들은 기업 내부와 외부의 전통적 및 비전통적 소스에서 유입되는 복잡한 데이터를 취합하고 분석해야 한다. 센서와 스마트 기기, 소셜 협업(social collaboration) 기술의 폭발적 발전으로 인해 텍스트, 웹 데이터, 트위터 메시지, 센서 데이터, 오디오, 비디오, 클릭 스트림, 로그 파일 등 수많은 형태의 데이터가 생산되고 있다.
속도(velocity): 데이터의 이동. 데이터가 생산, 처리, 분석되는 속도도 지속적으로 증가하고 있다. 데이터가 실시간으로 생성된다는 점과 스트리밍 데이터를 비즈니스 프로세스와 의사 결정 과정에 도입해야 한다는 점이 속도를 높이는 데 기여하고 있습니다. 속도는 반응시간, 즉 데이터가 생산 혹은 수집되는 시간과 그 데이터에 접근할 수 있는 시간 사이의 격차에도 영향을 끼친다. 오늘날 데이터는 전통적인 시스템이 수집하고 저장, 분석하기 불가능한 속도로 끊임없이 생산되고 있다. 빅 데이터의실시간 사기 적발(fraud detection)이나 다채널 ‘실시간’ 마케팅 같이 시간에 민감한 프로세스들은 특정 유형의 데이터들을 실시간으로 분석할 수 있어야 효과적인 비즈니스 도구가 된다.
정확성(veracity): 데이터의 불확실성. 정확성은 일정 유형의 데이터에 부여할 수 있는 신뢰수준을 의미한다. 높은 데이터 품질을 유지하는 것은 빅 데이터의 중요한 요구사항이며 어려운 과제이지만, 최상의 데이터 정제(data cleansing) 기법을 사용해도 날씨나, 경제, 고객의 미래 구매 결정 같은 일부 데이터의 본질적인 불확실성은 제거할 수 없다. 불확실한 주변 상황을 더 잘 이해하고자 하는 경영진은 반드시 빅 데이터의 불확실성 또한 인식하고 대비해야 한다.
결국 빅 데이터란 디지털화된 오늘날의 마켓 플레이스에서 기업들이 경쟁 우위를 확보할 수 있는 기회를 제공하는 이런 특징들의 조합이라 할 수 있다. 빅 데이터는 기업들이 고객과 상호작용하며 서비스를 제공하는 방법을 변화시키는 것은 물론이고, 기업, 심지어 산업 전체를 스스로 변화시킨다. 모든 기업들이 똑같은 방법으로 데이터 활용 역량을 구축하지는 않을 것이다. 그러나 새로운 빅 데이터 기술 및 분석을 통해 의사결정과 실행 능력을 향상시킬 수 있는 기회는 모든 산업 분야에 공존하고 있다는 것이 IBM의 설명이다.