빅 데이터 물결이 몰려오고 있는 가운데 마이크로소프트 또한 수위를 높여가고 있다. SQL 서버 등의 제품은 물론, 애저 클라우드, 호톤웍스와의 제휴 등에 이르기까지 방대한 영역에서 대응하고 있다. 한국마이크로소프트 김재우 테크니컬 에반젤리스트와 마케팅&오퍼레이션 본부 최훈 프로덕트 매니저를 만나 빅 데이터를 고민하는 기업들의 현실과 마이크로소프트의 빅 데이터 전략에 대해 이야기를 나눴다.
한국마이크로소프트에서 김재우 에반젤리스트는 소프트웨어 기술을 기술 대중에게 전하는 업무를, 최훈 매니저는 빅 데이터/BI 등 애플리케이션 플랫폼에 대한 국내 비즈니스 관리와 마케팅 업무를 각각 담당하고 있다.
“데이터 통찰(Data Insight)의 중요성에 대한 공감대가 무척 커졌습니다. 문제는 내부에서 통찰을 획득한 이후라도 이를 제 때 쓸 수 있는 조직 내의 활용 체계가 없거나, 더 근본적으로는 통찰력을 얻기 위해 어떤 데이터를 어디서 가져올 것인지를 (그런 데이터가 어딘가 있기는 한 것인지를) 미리 논의하지 않은 채로 기술 도입을 섣불리 논하는 경우가빈번하다는 점입니다.”
김재우 에반젤리스트는 그간의 자문 경험을 토로하며 이야기를 시작했다. 일단 올해 업체들과의 미팅에 실감한 부분은 데이터 중요성에 대해 인지하는 정도가 예전보다 훨씬 뚜렷하다는 설명이다. 최훈 매니저는 특히 IT 부문 뿐 아니라 전사적 차원에서 이와 같은 경향이 나타나고 있다는 점에 주목할 만하다고 덧붙였다.
“하지만 막상 검토하고 도입하려고 하면 기대치와 내부의 역량, 예산이 충돌하는 기업이무척 많습니다. 외부의 사례들은 비정형 데이터를 통해 인사이트를 얻는다던데, 막상 확인해보면 외부 데이터는 고사하고 당장 있는 내부 데이터도 분석하지 못하는 현실이 드러납니다. 먼저 내부 데이터를 가지고 연구하자는 결론이 내려지는 경우가 많습니다.”
데이터 유통 구조에 대한 고민이 전혀 마련되지 않은 경우도 비일비재하다는 설명이다.실시간으로 시장을 빨리 감지하거나 제품에 대한 피드백을 확인하고 이를 현장에 빨리 전달할 수 있는 업무 체계와 조직 운영 방식을 확립하는 것이 선결 조건이다. 즉 조직 내외부의 데이터 유통 구조를 명확히 할 필요가 있다고 김재우 에반젤리스트는 강조했다.
“하지만 실정은 다른 경우가 많습니다. 내부 조직 구조는 그대로 두고 경영진 보고용으로 진행하는 경우입니다. 내부에서 쓸 수 있는 체계가 아직 안 되는 겁니다.”
더 심한 경우도 있다. 빅 데이터 프로젝트에 대해 한참 논의를 진행하다 어떤 데이터를분석할 것인지를 물으면 실제 어떤 특성의 데이터를 어떻게 어디서 가져 올 것인지가 명확하지 않은 경우다.
“데이터 유통구조, 달리 말해 데이터를 이용한 업무 흐름이 있는지, 그리고 데이터의 존재와 출처는 무엇인지에 대한 논의가 완결되어야 기술 논의를 시작할 수 있습니다. 이 순서가 바뀌어선 안 됩니다.”
기술적 난관에 대한 오해
김재우 에반젤리스트는 이어 기술과 관련해 말을 이어나갔다. 기술과 관련해 정작 어려운 부분은 따로 있다는 설명이었다.
“최근 많이 언급돼 마치 신기술처럼 보이지만 대용량 데이터 분석은 기술 그 자체로만 보면 매우 역사도 깊고 성숙한 기술입니다. 문제는 대부분 기업이 조직 내부에 대량의 내외부 실시간 데이터를 분석/관리/유통하는 인프라 관리를 감당해본 경험이 없다는 겁니다. 갑자기(가트너의 용어를 빌어) 웹-스케일의 데이터 유통 인프라를 내재한다는 것이 가능할까요? 이게 정말 어렵고 많은 경험을 필요로 하는 부분입니다. 경험이란 것이 거저 얻어지는 게 아니니까요.”
이를테면 공장에서 나온 데이터를 분석해 운영을 최적화하고자 할 수 있다. 외부로 노출되면 안 되는 데이터이기에 제 3자에게 맡길 수 없는 상황이다. 이를 위해서는 인프라를 내부에 구축해야 하는데 데이터 용량이 너무나 방대한데다 빠른 속도를 필요로 하는 것이라서 검색 포털 업체 수준의 인프라 운영 역량을 갖추어야 할 수도 있다.
“이런 어려움을 감안하지 않고 일단 구축해보자는 시도들이 있습니다. 내부 기술력 내재화라는 명분도 있죠. 그러나 이렇게 기술 내재화하다가 시간 다 보내는 사례가 빈번합니다. 기술 내재화가 목적이라면 민감도나 기술 난이도 낮은 데이터부터 작은 프로젝트라도해보면서 어떤 데이터가 어떻게 흘러가서 어떻게 안팎으로 영향을 미치는 지, 이를테면 마치 없던 강줄기를 만들기 위해서 실제로 물이 조직의 업무 굴곡을 가로질러 어떻게 흘러가지는 지켜보면서 조절하는 점진적 경험을 충분히 가지는 게 맞습니다.”
그렇다면 빅 데이터와 관련한 이러한 문제에 마이크로소프트의 대답은 무엇일까? 최훈매니저는 인프라와 최종사용자 측면 2가지로 나눠볼 수 있다고 전했다.
“인프라 면에서는 데이터 소스와 데이터 매니지먼트 등에 대해 선택 옵션을 제시합니다. 온프레미스나 클라우드를 선택할 수 있도록 하는 것이 대표적입니다. 기업별로 상황이 다른데다 실험적 프로젝트를 위해 인프라를 실제로 구축하기에 리스크가 너무 큽니다. 클라우드를 이용하는 것이 나을 수 있습니다.”
“아울러 하둡 같은 경우에는 오픈소스 기반이다보니 대기업이 채택하기에 미흡한 부분이 있습니다. 온프레미스와 관련해서도 호톤웍스의 기술에 더해 관리, 보안 기술을 접목한 HDInsight 서버 기술을 선보입니다. 이 밖에 값비싼 스토리지 공간을 점유하지 않고도 하둡에 있는 데이터와 데이터웨어 하우스에 있는 정형 데이터와 테이블에 있는 데이터 상에 그대로 쿼리를 날릴 수 있게 해주는 ‘폴리베이스’(PolyBase)라는 기술을 통해 비용 효율성을 높여주기도 합니다.”
최종 사용자와 관련해서는 엑셀을 거론했다. 결국 가장 친숙한 도구를 사용하는 것이 가장 효율적이라는 판단 아래, 데이터 시각화, 관리, 온라인 데이터 수집, 맵 데이터 결합 등의 기능을 엑셀에서 모두 수행할 수 있도록 애드온을 지속적으로 선보이고 있다고 최훈 매니저는 설명했다.
“사용자들이 가장 익숙하게 이용하는 도구입니다. 엑셀에 애드온된 파워뷰(PowerView)나 파워피벗(PowerPivot), 파워쿼리(PowerQuery)와 같은 데이터 분석 도구를 이용해 외부 마켓플레이스의 데이터를 가져오게 하거나 SQL 서버의 데이터 뿐만 아니라 오라클 서버의 데이터를 처리할 수 있도록 지원을 추가해가고 있습니다. 또 엑셀에 이미 있는 다양한 시각화 도구들을 그대로 이용할 수 있도록 하고 있습니다. 이중 작업하지 말자는 이야기입니다.”
그는 즉 예전 같으면 머리에 떠오른 생각을 IT 팀에 요청해 받아와야 했던 것을 이제 엑셀에 내장된 기능을 이용해 누구나 쉽게 접근하고 통찰을 얻을 수 있게 해주는 것이 마이크로소프트 빅 데이터 솔루션의 특징이라고 정리했다. 엑셀 뿐 아니라 다른 콤포넌트들과의 접목도 얼마든지 가능하다는 이야기도 덧붙여졌다.
“빅 데이터 엔진 기술 자체는 무르익은 기술입니다. 하지만 실제 사용성을 확보해 대중화되기까지는 가야 할 길이 아직 멉니다. 후면에 존재하는 데이터가 구조화된 것이건 반구조화된 것이건, 혹은 비정형의 것이건 중요한 것은 필요한 이라면 누구나 즉시 쿼리를 날려 데이터를 검색하고 이용할 수 있도록 하는 것이 중요합니다. 일부 사용자들만 전용으로활용하는 도구가 아닌, 전 직원이 통찰을 얻을 수 있게 하겠다는 것. 그것이 마이크로소프트 빅 데이터 솔루션의 비전입니다. 그리고 이는 앞으로 큰 변화를 초래할 것입니다. 결국엔 내부 구조에도 영향을 미칠 것이라고 봅니다.”