- 오는 8월 상용화 서비스, 주가지수 외에 적용 분야 늘릴 계획
코스콤이 최근 빅데이터를 활용한 주가 분석 및 예측 파일럿 시스템 개발을 완료했다.
빅데이터의 접목에 대해 금융권의 고심이 깊어지고 있는 가운데 자본시장 IT에 전문경험을 가진 코스콤의 구체적인 서비스가 나오면서 업계의 주목을 받고 있다.
그동안 금융권에선 빅데이터에 대해 일부 파일럿 프로젝트를 통해 현업에 접목하는 방법을 모색해 왔다. 하지만 코스콤은 주가예측이라는 자본시장의 핵심 요구사항에 정공법으로 다가갔다.
코스콤 자본시장 IT연구소 강태홍 소장<사진>은 “빅데이터를 로그 분석 등에 적용해보자는 의견도 있었는데 이왕 하는 거 어렵고 힘든 부분에 해보자는 의견이 나왔다”며 “주가 예측은 신의 영역인데 여기에 도전해보자는 내부 의견이 모아졌다”고 밝혔다.
방향성이 정해지자 20여명의 연구개발 인력이 개발에 나섰다. 코스콤 기술혁신단(단장 안일찬) 자본시장 IT연구소 주도로 진행된 이번 파일럿 시스템 구축에는 총 4개월이 걸렸다. 일차적인 목적은 주가지수를 예측할 수 있는 모델과 시스템을 구축하는 것이었다.
이미 시장에선 일부 증권사들이 자체적으로 주가지수 예측을 위한 시스템을 운영하고 있다. 이를 통해 ‘종목추천’ 등에 접목시키고 있지만 실제 신뢰도 측면에선 문제가 많다는 지적이다.
코스콤은 신뢰도 높은 주가지수를 예측하기 위해선 우선 데이터를 선별해야 한다고 판단했다. 이를 위해 통계청이 가지고 있는 8천여개의 데이터 항목을 일일이 분석해 주가 지표와 연관있다고 판단된 400여개 데이터를 시스템에 반영했다.
또 트위터 등 SNS와 일반 뉴스, 블로그, 인터넷 카페 등 100여개의 사이트를 선별해 데이터를 수집했다.
데이터가 확보됐지만 이를 분석할 수 있는 기술이 도입돼야 했다. 특히 소셜 데이터에 오고가는 단어의 의미를 분석하는 것이 과제였다. 이를 위해 코스콤은 25만개의 어절을 분석해 단어의 의미를 판단하는 ‘감성사전’을 개발했다.
강 소장은 “감성사전을 통해 증권사가 금융상품을 개발했을 때 이 상품에 대한 고객의 긍정/부정적인 반응을 분석할 수 있게 된다”고 설명했다.
코스콤이 빅데이터 분석 플랫폼을 개발하는 과정에서 가장 어려움을 겪었던 부분 중 하나가 감성사전 개발이다. 통계청에서 선별한 400여개의 데이터 중 각각의 데이터가 어떤 주가 지수, 어느 항목에 맞는지를 일일이 따져가며 서로 매칭을 시켜야 했기 때문이다.
하지만 이러한 어려움을 거쳐 완성된 감성사전의 경우 DB가 지속적으로 쌓이면 쌓일수록 신뢰도가 높아 질 것으로 보여 코스콤은 지속적인 보완을 통해 감성사전의 고도화를 추진한다는 계획이다.
한편 빅데이터 분석을 위한 전문 솔루션으로는 ‘레볼루션 R’을 선택했다. 레볼루션 R은 오픈소스 ‘R’의 상용화 버전으로 확장성과 가격 경쟁력을 갖추고 있다. 특히 강 소장은 “전세계적으로 빅데이터 분석에 R이 많이 사용되고 있는 만큼 신기술 습득 차원에서 레볼루션 R을 도입했다”고 전했다.
이밖에 파일럿 시스템 구성에는 EMC의 그린플럼 어플라이언스를 기반으로 분산병렬처리 플랫폼인 하둡(Hadoop) 등을 도입했다.
최종적으로 파일럿 시스템 구축이 완료되고 실제 분석에 나선 코스콤은 결과값에 고무된 상황이다. 강 소장은 “평균적으로 증권사의 주가지수 예측 적중률이 60%가 되면 성공했다고 평가하는데 파일럿 시스템을 통한 주가지수 적중률은 60% 이상을 상회하고 개별종목의 경우 다소 가변적인 상황”이라고 밝혔다.
이를 바탕으로 코스콤은 고도화 프로젝트를 통해 시스템의 정밀도와 신뢰성을 높여나간다는 계획이다.
강 소장은 “예측모델 향상의 여지가 있다. 데이터를 수집하는 외부 사이트의 수도 늘리는 한편 시스템의 정밀도 향상과 예측분야를 다변화해 상품성이 있는 시스템으로 만들어나갈 계획”이라고 밝혔다.
한편 코스콤은 오는 8월 상용 서비스를 오픈할 계획이다. 코스콤은 서비스 오픈 전에 먼저 시스템을 사용해보겠다고 제안한 증권사도 있다고 밝히고 있어 향후 서비스 오픈 후 자본시장업계를 대상으로 한 빅데이터 분석 사업이 궤도에 오를 지 관심이 집중될 것으로 보인다.