오늘날 많은 기업들이 데이터 관리에 대해 DW를 중심으로 한 정보계에서 빅데이터를 중심으로 한 사물인터넷, 클라우드 등으로 옮겨가고 있다. 이 같은 트렌드는 경영혁신이라는 커다란 테두리 안에서 데이터를 효율적으로 저장, 처리, 분석하는 전략이 더욱 중요해 지고 있다는 것을 증명한다.
빅데이터 분석 시스템은 전통적인 방식의 분석 시스템보다 총소유비용(TCO)이나 투자자본수익률(ROI)측면에서 더 효율적인 시스템의 구축이 가능해진 것이 사실이다. 하지만 여전히 업무와 데이터를 기반으로 하는 다양한 각도에서 비용을 분석하는 것은 필수적이다.
이러한 상황에서 데이터를 담는 거대한 플랫폼을 어떤 방식으로 구축할 것인가는 오늘날 기업에게 주어진 중요한 과제이다.
기업의 IT 담당자는 리눅스와 하둡으로 x86서버의 병렬 처리 기술을 통해 하나의 파일 시스템을 중심으로 IT 인프라를 구축하고자 할 것이다. 이를 위해 다양한 생태계에 대한 분석이 이루어져야 하며, 이를 통해 서버의 CPU, 메모리, 디스크의 수량 등을 최적화해야 한다.
빅데이터와 관련된 각종 소프트웨어들은 오픈소스 기반을 채택하고 있고 다양한 기능이 있기 때문에 사전에 제품별, 기능별로 서버 선정을 하는 것이 필수적이다. 그렇기 때문에 분석 결과에 대한 신뢰도와 더불어 처리결과를 도출해 내기까지의 신속성이 매우 중요하다. 이러한 부분을 충족하기 위해 적재적소에 업무와 데이터에 따른 솔루션을 효율적으로 배치하는 것이 매우 중요하다.
[포럼] 효율적 빅데이터 구축하려면
문영상 숭실대 정보과학대학원 소프트웨어공학전공 겸임교수
빅데이터의 처리과정은 다양한 소스시스템에서 발생하는 비정형 데이터를 하둡 파일시스템에 저장하고 이를 분석 솔루션을 통해 분석을 하는 과정이다. 기업에서는 이를 통해 고객관계관리(CRM), 고객의 소리(VoC), 이상 거래 탐지 시스템(FDS), 보안침입 탐지, 데이터베이스와 각종 응용 프로그램에서 발생하는 비정형데이터 등을 전략적으로 활용할 수 있다.
이상거래탐지시스템(FDS)을 예로 들어보자. 비정형 FDS 시스템은 △네트워크 로그 비정형 분석 △인터넷뱅킹 △스마트뱅킹 △텔레뱅킹 비정형 분석 △단말 거래 비정형 분석 △자동화기기 등을 통해서 발생된 비정형 데이터 분석 △기타 업무에서 발생하는 비정형 분석 등 크게 다섯 가지 요소로 볼 수 있다.
다섯 가지 요소에서 발생한 비정형 데이터를 효율적으로 처리하기 위해서는 소프트웨어와 하드웨어적 요소가 필요하다. 소프트웨어 면에서는 하둡 파일 시스템에 대한 다이렉트 읽기·쓰기 기능과 함께, 완벽한 읽기·쓰기, NFS 기능, 온라인 업그레이드를 통한 업무 연속성 확보 등이 포함되어 있어야 한다.
이테크시스템은 이러한 소프트웨어를 사용해 다양한 빅데이터의 환경에서 효율적으로 분석업무를 수행하기 위해 레노버 x86 OEM 비즈니스 같은 파트너와의 협력으로 하둡 처리에 최적화된 특화된 기능을 제공한다. 빅데이터 시스템은 처음에는 작게 시작하지만 데이터가 쌓임에 따라서 무수히 많은 클러스터로 확장되는 특성이 있다. 이러한 특성에 맞게 도입에서부터 신뢰성이 있는 인프라를 구축한다면 성능과 확장이라는 두 가지 측면에서 올바른 선택이 될 것이다.