많은 하둡 업체가 모르는 진실··· "기업은 단순한 제품을 원한다"
Scott Carey | Computerworld UK ciokr@idg.co.kr
[2016.04.19]
최근 아일랜드 더블린에서 열린 하둡 서밋(Hadoop Summit) 행사에서 호튼웍스(Hortonworks)를 비롯한 업계 관계자들이 기업용 오픈소스 빅데이터 툴 관련해서 기업 고객이 가장 원하는 것에 대해 의미 있는 인사이트를 공유했다. 이들에 따르면 업체는 머신러닝, 실시간 예측 애널리틱스인 스파크(Spark)의 유연한 기능에 관해 이야기하고 싶어했지만, 정작 기업이 가장 원하는 것은 자신의 아이디어에서 가치를 끌어낼 수 있는 단순성이었다.
단순성
많은 기업이 현재 데이터 과학자 부족에 시달리고 있다. 그래서 이들은 빅데이터 전략에서 코딩과 프로그래밍에 대한 의존도를 낮추려고 하고 있다. 이는 단순하면서도 기업 환경에 적합한 하둡이 기업이 원하는 오픈소스 빅데이터 솔루션이라는 의미다.
실제로 호튼웍스의 기업 전략 부회장 숀 코놀리은 이 업체의 핵심 경쟁력으로 아파치 기술을 상용화된 기업 기술로 상품화하는 것을 꼽았다. EMC의 기술 마케팅 디렉터 스테판 보스도 “단순성은 우리가 기업 고객에게서 듣는 가장 중요한 트렌드"라며 "많은 기업이 멋지고 새로운 프로젝트를 추구하지만 결국 이를 기존 시스템과 통합하는 복잡함 때문에 어려움을 겪고 있다"고 말했다.
이 때문에 그는 자신의 기업고객에 통합된 기업용 솔루션을 추천한다. 많이 사용하지 않는 데이터에는 HDP(Hortonworks DataPlatform)을, 현재 사용하는 데이터에는 HDF(Hortonworks DataFlow)를 각각 제안한다. 그는 "이 제품은 데이터 과학자가 데이터 스트림에 기반해 어떤 툴이 필요한지 선택해 빠르게 배치할 수 있도록 지원한다"고 말했다.
데이터 방출
호튼웍스의 임원에 따르면, 일반적으로 기업 고객은 데이터 분석에 있어 두 가지 경향을 보인다. 바로 '개조'와 '혁신'이다. 전자는 다양한 사일로에 이질적으로 분산된 데이터를 단일 데이터 레이크로 모으는 것을 의미한다. HDP가 이 역할을 맡는다. 후자는 기업의 모든 데이터가 하둡 클러스터에 저장돼 있을 때 고급 애널리틱스, 머신러닝, 예측 모델링을 지원하는 것이다. 이는 HDF의 몫이다.
마이크로소프트의 데이터 CTO인 라구 라마크리쉬난은 현재 기업은 전용 데이터를 문맥적 정보와 결합해 통찰을 끌어내는 '개조' 단계에 있다고 평가했다. 그는 "지금은 기업 전반에 걸쳐 데이터-중심성이 더 커졌다. 이는 전통적인 관계형 데이터베이스를 적극적으로 활용하고 있다는 것을 의미한다. 하지만 기업은 점점 더 이 데이터를 관계형이 아닌 운영 데이터 소스의 다른 정보와 결합하고 싶어 한다. 이들 소스에는 트위터부터 사물인터넷 기기까지 다양하다"고 말했다.
오픈소스
마이크로소프트의 라마크리쉬난은 마이크로소프트가 오픈소스를 어떻게 수용하고 있는지에 대해 상세하게 설명했다. 그는 "기업이 특정 솔루션에 종속되지 않으려면 모든 데이터 분석 제품이 데이터가 위치한 동일 기기에서 실행돼야 한다"고 말했다.
그는 하둡 배포와 관련된 아키텍처 측면의 문제도 지적했다. 그는 "우리가 개발한 소켓을 개방한 것이 가장 중요하다. 마이크로소프트는 데이터 관리와 분석에 있어 레고 같은 아키텍처를 추구한다. 중요한 것은 데이터를 유지하고 관리하는 공간과, 가능한 데이터에 가깝게 컴퓨팅 자원을 배정할 수 있는 리소스 관리다"라고 말했다.
마이크로소프트는 이미 HD인사이트를 통해 하둡 기능을 자사의 클라우드 제품군에 통합했다. 마이크로소프트의 클라우드 제품은 애저 데이터 레이크, 파워 BI, 애저 머신러닝, 애저 액티브 디렉터리 등이 있다.
기사 상세 내용 보기_클릭