세가지 빅 데이터 : 사업지능화, 도시공학, 고객관계 최적화에서 빅 데이터의 역할

한빛미디어

2012-09-10

by HANBIT

페이스북 퍼가기 트위터 퍼가기

17,236

제공 : 한빛 네트워크
저자 : Alistair Croll
역자 : 정준영
원문 : Three kinds of big data

지난 몇 년 동안, 마케터나 여러 전문가들은 모든 것에 빅 데이터(big data)라는 이름을 붙이는데 많은 시간을 할애했다. 그들의 논리는 이러하다.

모든 것이 인터넷 상에 존재하고,
인터넷에는 많은 데이터가 존재한다.
따라서 모든 것이 빅 데이터다

만약 당신이 망치를 가지고 있다면 모든 것이 못으로 보이듯, 하둡(hadoop) 시스템을 가지고 있다면 모든 것이 빅 데이터로 보일 것이다. 그리고 여러분 회사에 급격히 성장하는 산업분야의 이미지를 심어주고 싶다면 빅 데이터는 괜찮은 방법이다. 하지만 모든 것이 빅 데이터라는 관점은 높은 기대의 꼭대기에서 환멸의 골짜기로 떨어지는 피할 수 없는 추락을 서두르는 것이다.

우리는 이것을 클라우드 컴퓨팅(cloud computing)과 같이 보고 있다. 초기에 이상주의자들은 오늘날 가상화나 인프라를 담당하는 실용주의자들에게 모든 것(데이터)들이 매혹적이고, 무제한인, 무료 데이터센터에 있게 될 것이라고 얘기했지만, 우리는 곧 장밋빛 안경을 벗고 실제로 무엇인가를 만들기 위해서는 용접용 고글을 써야 한다는 걸 알게 되었다.

그럼 빅 데이터는 어디에 있는 것일까?

나의 생각에는 사업용 BI^[1], 도시공학, 고객 관계 최적화라는 3가지 큰 카테고리가 있다. 우리는 몇 년 안에 이 분야에서 많은 IT비용 지출과 정부의 감시, 조기 채택을 보게 될 것이다.

사업용 BI 2.0

지난 수십 년 동안, 분석가들은 많은 데이터를 쪼개고 보고서 작성하는 것을 Hyperion, Microstrategy, Cognos 같은 BI제품에 의존했다. DW와 BI도구는 "이번 분기 Mary의 매출액이 얼마인가?" 같은 반복되는 질문을 잘 처리했다. 하지만 그것들은 기획이나 의사결정을 위한 탐험적인 문제, 만약이라는 가정의 문제, 예상할 수 없는 질문에는 그다지 좋지 않았다. 왜냐하면 구조화되지 않은 데이터에 대한 빠른 탐색을 필요로 하는 그런 질문은 처리하기 어렵고 비싸기 때문이다.

대부분의 레거시 BI도구들은 두 가지 제약을 가지고 있다.

첫 번째는 분석가가 무엇을 수집할지 결정한 후, 분석할 데이터 획득을 나중에 하는 방식이라는 것이다.
두 번째는 그것들은 Avinash Kaushik가 "known unknowns^[2]" 라고 언급했던 것을 보고하는데 초점을 두고 있다는 것이다.

이런 도구들은 특히 비용 통제와 계획 실행, 그것이 잘 실행되는지에 대한 보고서를 작성과 운영용으로 사용되었다.

내가 이것에 대해서 물었을 때 Strata 공동 의장인 Edd Dumbill은 다음과 같이 지적했다.

"오늘날 빅데이터 기술에서 가장 유력한 기능적 활용도는 ETL이다. 나는 하둡 사용의 약 80%가 log 파일이나 센서의 정보를 Vertica 같은 분석용 데이터베이스에 올리기 전에 길고 지루한 작업을 처리하는 것이라고 들었다."

오픈 소스 도구와 싸고, 빠른 컴퓨터와 저장공간은 먼저 (log 등을) 담아내고, 나중에 질문을 던지는 것을 가능하게 하였다. 이것은 우리가 데이터를 사용하는 방법을 변화시켰다. 왜냐하면 분석가들에게 데이터 수집이라는 첫번째 문제를 넘어 다른 것을 추측할 수 있도록 했기 때문이다. 게다가, 사람이 데이터에 직접 묻는 듯이 빠른 응답 속도로 대화식으로 데이터를 탐색할 수 있게 되었다. 상호작용과 추측의 조합은 BI를 "unknown unknowns^[3]"와 경쟁력있는 장점이나 발군의 차별성을 얻을 수 있는 통찰력으로 안내하였다.

클라우드 컴퓨팅은 약속에서 타협으로 변화를 겪고 있다. 초기의 큰, 공개 cloud 들은 신생 벤처업체들을 노렸다. 몇 년 후, 대규모 IT 벤더들은 전용 cloud를 소개하였다. 전용 cloud 들은 사촌인 공개 cloud의 장점 중 일부만 제공하지만 그럼에도 불구하고 피할 수 없이 공개 환경으로 이동하는 것을 지연시켜 사업(담당자)을 달랠 수 있는 특징들을 가지고 있다. 싫건 좋건 간에, IDC나 Gartner에 따르면 오늘날 대부분의 IT cloud 비용이 여기에 투입되고 있다.

빅 데이터 채택도 비슷한 과정을 겪고 있다. 몇 년 안에 기업들이 신뢰하는 BI 벤더들이 vaporware^[4]가 아닌- "big data lite" 버전 제품 소개를 보게 될 것이다. CEO의 골프 친구들을 만족시킬 만큼 혁신적이고 혼란스럽겠지만 사업 관련 IT 일자리가 위협받지는 않을 것이다. 이것이 변화가 큰 조직에 파고드는 방법이다.

궁극적으로는 우리는 전통적인 "known unknowns"에 관한 BI 보고서와 빅 데이터 기술을 이용한 데이터 가져오기와 정화 작업을 거친 대화형의 빠르고 탐색적인 "unknown unknown"에 대한 데이터를 보게 될 것이다.

도시공학

두 번째 빅데이터 사용처는 사회와 정부이다. 이미, 데이터마이닝이 질병 발생을 예상하거나 교통량 패턴을 이해하고, 교육을 개선하는데 사용되고 있다.

도시는 예산 부족이나 기반시설 문제, 지방도시민 유입으로 인한 인구 과밀의 문제가 있다. 이런 문제 해결이 급박하다면, 도시는 빅 데이터 계획을 위한 완벽한 연구실이다. New York 같은 대도시를 가정해 보자. Hackathons^[5]이나 개방된 공공 데이터의 제공, 물건을 사고, 출근하고, 아프고, 먹는 등의 일상 생활로 거대한 정보의 흐름을 생산하는 인구가 있다.

나는 다음과 같은 이유로 지방자치단체의 데이터가 big three 중 하나가 된다고 생각한다. 당파적인 문제에 대한 좋은 해결책이며, 모든 사람들이 쉽게 이해할 수 있는 접점이 있으며, 마지막으로 대부분 연결되어 있는 시민들이 있기 때문이다.

당파논쟁의 시기에는 논쟁을 해결할 수 있는 방법이 별로 없다. 그들은 좋은 정치꾼들일 뿐이지 좋은 정부가 아니다. 빅 데이터를 이런 사회적 이슈에 적용하는 것을 예상하면, 더 효과적으로 자금을 사용하고, 부족한 정부 자원을 효율적으로 사용하도록 도울 수 있다. (몇몇 공무원이나 로비스트들은 분통을 터뜨리겠지만)

이런 것이 가장 큰 도시에서 잘 동작한다면, 작은 도시나 주, 지방자치단체 전반으로 확대될 것이다. 시민들이 쉽게 정보를 볼 수 있도록 하는 것도 가능하다. Siri나 Google Now는 잠재적으로 개인화된 agent를 보이고 있다. Narrative Science 는 복잡한 데이터를 읽어 대중들이 쉽게 소비할 수 있는 언어로 변환한다. Watson과 Wolfram Alpha는 잘 정돈된 추론이나 추측으로 재치있는 답을 제공한다.

무엇보다, 스마트폰을 가진 시민들이 있다. Nielsen은 2011년에 스마트폰이 기존 피쳐폰을 넘어설 것으로 추정했고, 도심에 집중되어 있다. App Store는 버스 시간표나 출퇴근하는 사람, 지역정보, 또는 정부가 시민들과 접속하고 관료들을 관리할 수 있도록 하는 다른 도구들로 가득 차 있다.

물론 이런 것들의 결론은 더 많은 데이터이다. 일단 정부가 디지털화된다면, 정부와 시민들간의 상호작용은 쉽게 관리되고 낭비와 효율로 분석될 수 있다. 이것은 정말 조사나 책임을 좋아하지 않는 사람들의 저항을 유발할 수 도 있지만, 이것은 디지털화의 부작용일 뿐이다. 싫건 좋건 간에, 디지털화되는 모든 산업은 분석되고 최적화된다.

고객 관계 최적화

빅 데이터를 사용할 마지막은 마케팅 분야이다. 특별히 고객과의 관계를 개선하여, Sergio Zyman이 말했던 것처럼, 회사가 더 많이, 더 자주 팔아 더 많은 수입을 효율적으로 얻을 수 있도록 한다.

현재 가장 큰 데이터 시스템은 웹분석과 광고 최적화 같은 것에 초점을 두고 있다. 최근 인기있는 아키텍처 중 많은 수가 광고와 마케팅의 영향을 받았고 마케팅 기획에 뿌리를 두고 있다. 그들은 마케터들이 작업할 때 사용하는 비교적 무딘 도구에 집중한다.

한 회사의 접점의 수는 유의미하게 증가하고 있다. 한때는 전화번호와 주소만 있었지만, 현재는 웹페이지와 소셜 네트워크 계정 등이 있다. 이런 채널들을 통하여 사용자를 추적하는 것 - 모든 click과 좋아요, 공유, 친구, 또는 리트윗을 하나로 모아 수익으로 연결하는 것은 아주 큰 도전이다. Salesforce 같은 회사는 이런 것을 이해하고, 채팅이나 소셜 네트워크 모니터링 등에 투자하고 있다. 이것은 최근에 "전방위 사용자 정보"라고 불리는 것입니다. (업체가 실제로 사용자 정보를 가지고 처리하는지, 그것이 법을 준수하는 것인지는 불명확하지만) 빅 데이터가 이미 복잡하게 온라인 마케팅과 연관되어 있지만, 앞으로 두 가지 방향으로 전개될 것이다.

첫 번째는 온라인에서 오프라인으로 전개되는 것이다. 근거리 통신기능의 스마트폰으로 부지불식간에 체크인하는 것은 마케터들의 꿈이고, 이제 모든 사람들의 주머니에 들어와 있다. 대기열의 길이나 가게 내에서 고객들의 흐름 같은 것을 추적하는 것이 가능하고, 소매업자에게 그들의 판매에 대한 신선한 통찰력을 제공할 것이다. 궁극적으로 회사는 고객들이 추적가능해지면서 온라인 소매점들이 오프라인으로 진출할 것이다.

두 번째는 Wall Street(아니면 Madison Avenue나 Middlefield Road)에서 Main Street로 이동할 것이다. 도구들은 점차 사용하기 쉬워는 반면에 작업 사업체들은 BI 플랫폼을 가지지 않을 것이다. 그들은 사업장에 가지고 다닐 수 있는 태블릿이나 스마트폰을 가지게 될 것이다. Square 같은 모바일 결재 업체는 이미 계산대에서 계산 절차에 대해서 재고하고 있다. 휴대할 수 있는 고객 지능화 도구를 지역 업체의 도구에 추가하는 것은 우리가 마케팅 도구를 사용하는 방법을 확장하는 것이다.

결론

앞서 설명한 내용들은 우리가 다루어야 할 시장의 혼란과 벤더들의 약속, 비현실적인 예측 같은 보기 좋기만한 것들에서 얻은, 앞으로 3년간에 대한 저의 추측이다. 빅 데이터가 세상을 바꿀까? 확실히 그렇다. 모든 기술들이 반드시 거쳐야 하는, 신중한 채택, 참담한 실패, 그리고 마침내 다시 탄생하는 것으로 이어지는 순환을 참고 이겨낼 수 있을까? 이것은 아마도 어려울 것 같다.

용어 정리

[1] BI : Business Intelligence 기업들이 신속하고 정확한 비즈니스 의사 결정을 위해 사용하는 데이터의 접근, 수집, 보관, 분석 등의 애플리케이션과 기술의 집합. 비즈니스 인텔리전스(BI) 애플리케이션은 의사 결정 지원 시스템, 조회 및 응답, 올랩(OLAP), 통계 분석, 예측 및 데이터 마이닝 등이 기본이 되나, 필연적으로 기업의 데이터베이스와 데이터 웨어하우스(DW), 기업 자원 관리(ERP) 등과도 관련이 있으므로 넓은 의미로는 이 모든 분야를 포함하기도 한다. ? 네이버 지식백과
[2] known unknowns : "어떤 것에 대해서 우리가 모른다"는 것을 알고 있다. - 위키피디아
[3] unknown unknowns : "어떤 것에 대해서 우리가 모른다"는 사실 자체를 모른다. - 위키피디아
[4] Vaporware : 개발 중에 요란하게 선전하지만, 실제로는 완성될 가능성이 없는 소프트웨어 - 네이버 지식백과
[5] Hackathon : 마라톤을 하는 것처럼 정해진 시간 동안 해킹을 하는 프로그래밍 마라톤 - 네이버 지식백과

TAG :

이전 글 : 데이터 주짓수: 제품에서 활용되는 데이터의 미학

다음 글 : IPv6 시대와 네트워크 말단에 존재하는 장치의 상태

최신 콘텐츠

한빛출판네트워크

인기 검색어 (최근 1개월간)

책

강의/세미나

채널.H

IT/모바일

세가지 빅 데이터 : 사업지능화, 도시공학, 고객관계 최적화에서 빅 데이터의 역할

최근 본 상품0