[CEO의 서재] 빅데이터 인문학 : 진격의 서막

2010년 1월 27일 스티브 잡스가 아이패드를 선보일 때, 그의 뒤에는 교차로에서 흔히 볼 수 있는 안내판이 비쳤다. 서로 엇갈린 두개의 길 이름이 독특했다. ‘인문학(Liberal Arts)’과 ‘기술(Technology)’이라고 쓰여 있었다. 잡스는 인문학과 기술은 갈림길에 서 있는 것이 아니라 교차로에서 만나야 한다고 강조했고, 그때부터 세계적으로 인문학 선풍이 불어 닥쳤다.

그런데 잡스가 인문학을 강조하기 이전인 2007년의 어느 날, 하버드의 두 젊은 과학자가 인문학 혁명을 일으키기 위한 꿈을 꾸고 작업에 들어가 있었다. 그들은 클릭 한 번으로 800만권의 책을 검색하는 ‘구글 엔그램 뷰어(웹사이트 books.google.com/ngrams)’를 개발했다

<빅데이터 인문학 : 진격의 서막>(사계절, 2015년 1월)은 그 두 젊은 과학자 에레즈 에이든과 장바티스트 미셸이 직접 쓴 ‘빅데이터가 일으킬 인문학 혁명’에 관한 책이다. 이 책은 어렵고 낯선 세계를 이야기하고 있는 데도 <진격의 서막>이라는 부제처럼 박진감이 넘치고 술술 읽힌다. 두 과학자가 만들어낸 빅데이터의 인문학은 전 세계 인문학계를 발칵 뒤집어놓았다.

 그것은 검색창에 단어를 입력하고, 엔터키를 치면 순식간에 800만권의 책을 검색해서 지난 500년간 사용된 빈도의 추이를 그래프로 보여주기 때문이다. 가령 19세기 초 각종 책에서 가장 많이 언급되던 ‘신(God)’은 19세기 말부터 절반 이하로 떨어졌다. 심지어 1973년을 기점으로 신생 단어 ‘데이터(data)’보다 덜 쓰이는 것으로 집계됐다.

그래서 저자들은 “신은 죽지 않았다. 다만 데이터보다 덜 중요해졌을 뿐이다”라고 말한다. 지난 200년 동안 가장 큰 명성을 누린 인물은 누구일까? 1위를 차지한 인물은 아돌프 히틀러였다.

일찍이 구글은 ‘세상의 모든 책을 한 곳에 모아놓는 프로젝트’를 진행했다. 2010년 추산 전 세계에는 1억3000만권의 책이 있는데, 구글은 이미 3000만권 이상의 책을 스캔해서 디지털화했다. 구텐베르크 이후 출간된 책 네권 가운데 한 권 꼴이다. 이 놀라운 ‘바벨의 도서관’ 중에 클릭 한번으로 800만권의 책을 검색할 수 있는 프로그램이 ‘엔그램 뷰어’다. 아직까지 이 프로그램에 한계는 있다. 일단 한국어는 물론 일본어 검색도 되지 않는다. 영어, 프랑스어, 독일어, 스페인어, 중국어, 러시아어, 이탈리아어, 히브리어 등 8개 언어만이 검색되고 있다. 신문이나 잡지는 제외하고 책만 대상으로 한다는 것도 한계다.

가장 큰 한계는 엔그램 뷰어가 분석한 빅데이터는 상관관계를 암시할 뿐, 책 본문 전체를 그대로 노출하지 않는다는 점이다. 프라이버시, 저작권 문제, 학문 연구에서의 난제 때문에 3000만권이나 되는 빅데이터를 제대로 활용할 수 없다. 하지만 구글은 조만간 세계의 모든 책을 집어넣은 ‘바벨의 도서관’ 구축하고, 스티브 잡스가 음악 저작권의 문제를 풀어내고 아이튠즈로 세계 음악 시장을 점령했듯이 인문학의 성지를 좌지우지하게 될 것이다.

단 한번의 검색 언어를 치고 800만권의 책을 검색할 수 있다니! 생각해보라. 우리가 백년을 산다면 몇권이나 책을 읽을 수 있을까? 태어나는 날부터 평생 매일 한권을 읽는다고 쳐도 3만6500권을 읽을 수 있을 뿐이다. 그런데 800만권, 아니 그 이상의 책을 순식간에 검색할 수 있다니!

- 글 : 이채윤 / 삽화 이동규

저작권자 © 중소기업뉴스 무단전재 및 재배포 금지