대규모의 다양한 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 품질을 높이고 방대한 데이터의 처리를 돕는 데이터 통합(Data Integration)의 중요성이 부각되고 있다.
데이터 통합(DI)은 데이터의 추출·변환·적재를 위한 ETL 솔루션이 핵심인데, ETL 솔루션을 활용하면 일일히 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되기 때문에 편리하다. 또한 이 과정에서 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있다.
현재 국내에서는 한국인포매티카와 한국IBM, 국산 기업인 데이터스트림즈가 경쟁하고 있다. 데이터스트림즈의 '테라스트림' 솔루션은 공공과 금융기관에서 강세를 보이고 있으며 그 나머지 시장에서 인포매티카의 '파워센터'와 IBM의 '데이터스테이지'가 각각 나름의 시장을 점유하고 있다.
전통적인 데이터 처리 과정에서 DI는 메인프레임이나 관계형 데이터베이스관리시스템(RDBMS)에서 데이터를 가져와 데이터웨어하우스(DW)에서 분석할 수 있는 형태로 변환하고 적재하는 솔루션이었다. DW에서 처리된 데이터는 시각화(visualization) 작업을 통해 비즈니스 리포트로 만들어진다.
따라서 DI 솔루션은 대규모의 정형 데이터를 처리하는 기업들에서만 찾는 제한적인 제품이었다. 데이터 규모가 그리 크지 않은 기업들은 실무자들이 수작업을 통해 데이터를 코딩했기 때문에 상용 제품을 구매하지 않았다.
하지만 최근에는 기존의 정형데이터 뿐만 아니라 비정형데이터가 기하급수적으로 늘어나면서 상황이 달라졌다. '하둡'과 같은 새로운 빅데이터 플랫폼이 등장하면서 여기에 맞는 데이터 형태로 변환하고 이를 DW로 전달하는 솔루션이 필요해진 것이다.
특히 다양한 창구로부터 쏟아지는 정형 및 비정형데이터를 각 기업의 조건에 맞게 데이터를 통합하고 적재해야 하기 때문에 DI는 빅데이터 시대 핵심 솔루션으로 평가받고 있다.
◆DI를 통한 빅데이터 프로젝트 어떻게?
실제로 온라인 지불 서비스를 제공하고 있는 페이팔은 기존 IT환경을 하둡 플랫폼 기반으로 재설계 하면서 DI 솔루션을 도입해 빅데이터 프로젝트에 성공했다.
페이팔은 기하급수적으로 증가하는 트랜잭션(Transaction) 데이터와 200테라바이트(TB)에 달하는 분석 데이터로 인해 시스템 성능이 감소하고 업무 보고서 조회 속도가 저하되는 현상을 경험했다.
이를 극복하기 위해 하둡 기반으로 아키텍처를 재설계했는데, DI를 도입하면서 운영계 엔터프라이즈 DW(EDW)에 100TB 이상의 데이터 공간을 확보했으며 25% 이상의 성능 향상을 이뤘다.
이와 함께 DI는 시스템 성능 향상 뿐만 아니라 다양한 이기종 데이터 소스로부터 각 조건에 맞는 데에터 통합과 적재 관리를 가능케하며, 비정형데이터를 통한 평판분석에도 활용될 수 있다.
또한 생산 관련 시스템의 실시간 로그데이터와 DB를 수집하고 하둡 기반의 파일시스템에 저장해 이를 다시 분석할 수 있도록 하기 때문에 DI는 수요 예측을 위한 분석 기반 시스템에서도 중요한 역할을 한다.
한국인포매티카 이철민 부장은 "데이터 통합 작업은 데이터를 형태에 맞게 넘기면 데이터가 목적에 맞게 잘 쓰여지고 있는지 필터링하고 정제하는 데이터 품질 제고 역할도 한다"면서 "빅데이터 프로젝트의 80% 이상이 데이터 통합과 품질 관련 업무기 때문에 빅데이터 활용 부분에서 DI 솔루션의 중요성은 커지고 있다"고 말했다.