문자와 언어 vs 숫자와 정보
문자와 언어, 숫자는 생겨날 때부터 서로 통하는 면이 있었다. 각자 다른 길을 가며 발전해왔지만 결국 한곳으로 모인다.
숫자와 문자, 자연어(natural language)는 모두 정보의 매개체다. 이들 사이에는 원래부터 선천적인 연계성이 있다. 언어와 수학은 정보 기록과 전달이라는 동일한 목적을 가지고 태어났다. 그러나 수학과 정보 시스템을 의식적으로 연계한 것은 약 반세기 전 클로드 섀넌(Claude Elwood Shannon)이 정보이론을 제기하면서부터다. 그 전까지 숫자의 발전은 대부분 천문학, 기하학, 공학, 경제학, 역학, 물리학, 생물학 등 자연에 대한 사람의 인식 및 일상 활동과 연계되어 이루어졌고, 수학과 언어는 공유되는 부분이 거의 없었다. 수학자가 물리학자 또는 천문학자를 겸업하는 경우는 많지만, 언어학자를 겸업하는 경우는 드물었다.
이 책의 내용은 거의 전부 최근 반세기 동안 일어난 일들이다. 여기서는 먼저 언어, 문자, 숫자가 만들어진 상고 시대로 거슬러 올라가 보겠다.
1. 인류 초기의 정보
우리 조상 호모 사피엔스는 현재 우리와 같은 모습이 되기 전부터 정보를 사용했다. 동물원의 동물들이 저마다 자신이 좋아하는 이상한 소리를 내는 것처럼, 초기 인류도 모호한 소리를 내기 좋아했다. 처음에는 그저 그런 소리 내는 것 자체를 좋아했을 테지만, 점차 그 소리로 정보를 전달하기 시작했다. 예를 들면 뭔가 특정한 소리로 ‘저쪽에 곰이 있다’라고 표현해 친구에게 조심하라고 일러주는 식이다. 친구는 ‘야야’ 같은 소리를 내어 알았다고 응답하거나 불분명한 다른 소리를 내서 ‘우리가 돌멩이로 쟤를 때렸어’라고 표시했을 것이다.
이때 정보의 생성, 전달, 수신 및 피드백은 오늘날의 최첨단 통신과 원리상 아무 차이도 없다. 정보 전달 모델에 관해서는 뒤에서 더 자세히 소개하겠다.
초기 인류는 이해하고 전달해야 하는 정보가 적었기 때문에 언어와 숫자가 필요하지 않았다. 점차 인류가 진보하고 문명화가 진행되면서 표현해야 하는 정보도 많아졌고, 몇 가지 소리만으로 감당할 수 없게 되면서 언어가 생겼다. 그 시대에는 인간이 생활하며 쌓은 경험이 특정한 정보가 되는 가장 소중한 재산이었고, 구술 언어로 후대에 전해졌다. 인류가 음식과 물건을 소유하기 시작하면서 많고 적음이라는 개념도 생겼다. 안타깝지만 당시의 인류는 아직 수를 세지는 못했다. 그럴 필요가 없었기 때문이다.
2. 문자와 숫자의 출현
우리 조상들은 새로운 사물을 신속히 학습했고 언어도 점점 풍부해지고 추상적이 되었다. 물체, 수량, 동작 등 언어로 묘사되는 공통의 요소들이 추상화되면서 현재 쓰는 어휘가 만들어졌다. 언어와 어휘가 어느 정도까지 많아지자 두뇌에만 의지해선 모든 어휘를 기억할 수 없게 되었다. 모든 지식을 기억해내는 사람이 없는 것처럼 말이다. 그래서 정보를 효율적으로 기록해야 할 필요성이 생겼고, 이것이 바로 문자의 기원이다.
숫자를 포함한 문자가 등장한 연대는 현재 고증이 가능하다. 나의 전작 《흐름의 정점》에 소개한 회사들이 왜 대부분 미국에 있느냐고 묻는 독자가 많은데, 최근 100년간 기술혁명이 대부분 미국에서 일어났기 때문이다. 하지만 5,000년 또는 1만 년 전의 정보혁명을 얘기하려면 인류의 조상이 출현한 대륙 아프리카로 돌아가야 한다. 아프리카는 인류 문명의 요람이다.
중국에서 (지금까지 발견된) 최초의 갑골문이 등장하기 수천 년 전, 나일유역에 수준 높은 문명이 나타났다. 고대 이집트인은 훌륭한 농부와 건축사였을 뿐 아니라 정보 보존의 최초 방식인 도형을 활용해 사물을 표현하는 방법을 발명했다. 이것이 최초의 상형문자(hieroglyphic)다. <그림 1.3>은 고대 이집트의 《사자의 서(Book of The Death)》로 대영박물관이 소장하고 있다. 20여 미터 길이의 파피루스 두루마리 《사자의 서》는 그림 이야기와 상형문자에 대한 설명 60개를 담고 있다. 3,300~3,400년 전의 이 문물은 당시 문명을 완벽하게 기록했다.
초기 상형문자의 수는 한 문명을 기록하는 데 필요한 정보량과 관련이 있을 것이다. 이집트 상형문자가 새겨진 최초의 문물은 BC 32세기의 것이며, 그 시기 상형문자는 약 500개가 전부였다. 그러다가 BC 5~7세기에 이르러(주로 그리스로마 시대) 5,000개로 늘어나 중국 상용한자 수와 비슷해졌다. 그러나 문명의 진보와 함께 정보량이 증가하면서 이집트 상형문자는 더 이상 문명의 발전과 맞물려 늘어나지는 않았다. 그렇게 많은 문자를 익히고 기억할 수 있는 사람이 없기 때문이다. 그래서 제1차 개념 요약과 분류가 시작됐다.
중국 상형문자에서 ‘日(날 일)’은 원래 태양이라는 뜻이지만 태양이 뜨고 지는 시간 주기, 즉 우리가 말하는 하루를 의미하기도 한다. 고대 이집트 상형문자에선 발음이 같은 단어는 같은 기호로 기록되었을 것이다. 이런 개념의 클러스터링(clustering)은 원리상 현재의 자연어 처리나 머신러닝의 클러스터링과 굉장히 유사하다. 상고 시대에는 이 과정을 완성하는 데 수천 년이 걸렸을 테지만 지금은 컴퓨터 속도와 수량에 따라 며칠 또는 몇 시간이면 끝난다.
문자를 의미별로 클러스터링하면 애매해지기도 한다. 다시 말해 다의어가 특정 환경에서 어떤 뜻을 나타내는지 불분명한 경우가 있다. 이 문제를 해결하는 방법은 과거의 선생님이든 현재의 학자든 똑같이 전후 문맥을 파악하는 것이다. 문장 앞뒤를 보면 대부분 다의어의 중의성을 해소할 수 있다. 물론 해결되지 않는 경우가 있기 마련이고, 그렇기 때문에 학자들은 어떤 말을 달리 이해한다. 중국 고대 학자가 유교 경전을 정의하고 주석을 다는 행위는 자신이 이해한 바에 따라 중의성을 해결하는 작업이었다. 지금도 상황은 비슷하다. 앞뒤 문장에 아무리 좋은 확률 모델을 적용해도 통하지 않는 경우가 있다. 이것은 언어가 만들어진 초기부터 지닌 고유 특징이다.
문자가 생긴 후 선인들의 생활 경험과 선대에 발생한 일들이 대대로 전해졌다. 문명이 지속되고 문자를 이해하는 사람이 있는 한 그 정보들은 끝까지 전승될 것이다. 중국 문명이 대표적 예다. 물론 문자를 이해하는 사람이 없게 되면 정보 해석이 어렵겠지만 그래도 방법은 있을 것이다.
여러 문명은 지역적 이유로 역사상 서로 단절되었고, 따라서 여러 문자가 생겼다. 문명이 융합하고 충돌하면서 다른 문명권 사람들과 교류 또는 통신을 할 필요가 생겼고, 그래서 번역의 필요성도 생겼다. 번역이란 일이 가능했던 것은 다른 문명 체계라도 정보 기록 능력은 등가(等價)였기 때문이다(아주 중요한 결론이다). 좀 더 자세히 얘기하면 문자는 정보 그 자체가 아니라 정보매개체에 불과하다. 그러면 문자 대신 다른 매개체(예를 들어 숫자)를 사용해 동일한 의미의 정보를 저장할 수 있을까? 답은 ‘그렇다’이다. 이것은 현대 통신의 기초이기도 하다. 물론 여러 문명이 교류할 때는 여러 문자로 같은 일을 기록할 것이다. 이는 아무도 이해할 수 없는 언어를 분석할 때 중요한 열쇠가 된다.
BC 7세기에 그리스인이 이집트 정권 다툼에 말려들면서 그리스 문화가 이집트 문화에 영향을 끼치기 시작했다. 특히 그리스인(마케도니아인 포함)과 로마인이 차례로 이집트의 주인이 되면서 이집트 언어도 점차 라틴어의 영향을 받았다. 상형문자는 역사 무대에서 퇴출되어 더 이상 통신 도구로 쓰이지 않았고, 그저 사당의 제사장들만 이해할 수 있는 정보의 매개체였다. AD 4세기쯤 로마 황제 테오도시우스 1세가 이집트에서 기독교 이외의 종교를 없애라고 명령하면서 이집트 상형문자는 전승되지 않게 되었다. 약 1,400년 후 1798년 나폴레옹 원정군이 이집트에 도착했고, 수백 명의 학자가 군대를 따라왔다. 하루는 피에르 프랑수아 부샤르(Pierre-Francois Bouchard)라는 중위가 로제타(Rosetta)라는 곳에서 깨진 고대 이집트 비석을 발견했고(<사진 1.1>), 비석에는 이집트 상형문자, 이집트 표음문자, 고대 그리스 문자 등 세 가지 언어가 쓰여 있었다.
부샤르는 비석이 고대 이집트의 비밀을 풀 중요한 물건임을 직감하고 수행한 과학자 장 조제프 마르셀(Jean-Joseph Marcel)에게 전달했다. 마르셀은 비석의 문자를 탁본해 프랑스로 가지고 갔다. 1801년 프랑스는 이집트 전쟁에서 패했고, 로제타 비석은 프랑스인에게서 영국인의 손으로 넘어갔다. 마르셀이 가져간 탁본을 프랑스와 다른 유럽 학자들이 돌려가며 봤고, 21년 후인 1822년 프랑스 언어학자 장프랑수아 샹폴리옹(Jean-Francois Champollion)이 고대 이집트 상형문자를 해석했다. 이처럼 돌이든 종이든 중요한 건 문자의 매개체가 아니라 그 안에 담긴 정보다.
로제타 비석이 해석되자 BC 32세기(초기 왕조 시대)부터 지금까지 이집트 전체 역사를 파악하게 되었고, 이는 역사학계와 언어학계를 가장 흥분시켰다. 현재 우리는 1,000년 전 마야 문명보다 5,000년 전 이집트에 대해 더 많이 알고 있다. 이는 이집트인이 그들 생활의 가장 중요한 정보를 문자로 기록해둔 덕분이다. 또 오랫동안 자연어 처리를 연구한 나 같은 학자에게 로제타 비석은 다음과 같이 두 가지 큰 의미를 준다.
1. 정보가 많으면 정보의 안전성이 확보된다. 로제타 비석의 내용을 보면 같은 정보가 3번 반복된다. 따라서 한 세트의 내용만 완벽하게 보존되면 처음 정보가 유실되지 않을 것이고, 이는 채널코딩(channel coding)에 중요하다(2,000여 년 전 로제타 비석에 프톨레마이오스 5세의 제위 등극 칙서를 세 가지 언어로 기록한 고대 이집트인에게 감사한다).
2. 코퍼스(corpus, 말뭉치)라고 하는 언어 데이터, 특히 두 언어나 여러 언어의 비교 코퍼스는 번역에 굉장히 중요하며, 기계번역 연구의 기초다. 이 방법에서 우리는 샹폴리옹보다 더 나아진 것이 없다. 유일한 차이점이라면 우리에겐 더 강력한 수학 툴과 컴퓨터가 생겨 샹폴리옹처럼 오랜 시간을 소비하지 않아도 된다는 것이다.
로제타 비석의 역사를 알고 나니 현재 많은 번역 소프트웨어와 서비스가 ‘로제타’를 표방하는 것이 이상하지 않다. 구글 기계번역과 세계 최대 매출을 자랑하는 PC 번역 소프트웨어도 로제타라는 이름을 사용했다.
문자는 상고 시대의 ‘정보 빅뱅’으로 사람들 머리에 그 정보를 담을 수 없게 된 때 등장한 반면, 숫자는 하나하나 세어야 재산이 얼마나 있는지 파악할 수 있을 만큼 사람들이 가진 게 많아진 때 등장했다 유명한 미국계 러시아인 물리학자 조지 가모브(George Gamow, 1904~1968)는 자신의 교양과학서 《1, 2, 3 그리고 무한(One Two Three… Infinity)》에 한 원시 부락의 이야기를 담았다. 두 추장은 누가 말한 숫자가 더 큰지 비교하는 시합을 했다. 한 추장이 고심 끝에 ‘3’을 말했더니 다른 추장이 한참 생각한 후 네가 이겼다고 했다. 원시 부락 시대에는 물질이 매우 부족했던 터라 3을 넘어서는 경우가 드물었고, 3 이상이 되면 사람들은 ‘많다’고 하거나 헤아릴 수 없다고 했다. 제대로 된 수체계(number system)가 등장할 수 없는 시대였다.
기록하려는 물건의 수가 3을 넘어서고 5와 8이 차이가 있음을 느꼈을 때 수체계가 생겼다. 숫자는 수체계의 기초다. 물론 초기의 숫자는 기록할 수 있는 형식이 없었고 손으로 꼽는 식이었다. 이것이 현재 십진법을 사용하는 이유다. 손가락이 12개라면 분명 십이진법을 사용했을 것이다. 초기 인류는 수를 잘 세기 위해 숫자를 하나하나 나무, 뼈 또는 휴대하기 편한 다른 물건에 새겼다. 1970년대 한 고고학자가 스와질란드와 남아프리카공화국 사이에 있는 르봄보(Lebombo)산에서 발견한 35,000년 전 개코원숭이 종아리뼈 몇 개에는 셈을 했던 조각 흔적이 있었다.
이를 과학자들은 지금까지 발견한 인류 최초의 셈 도구라고 보고 있다. 이를 통해 35,000년 전 인간에게 수체계가 생기기 시작했음을 알 수 있다.
기록할 수 있는 형태를 갖춘 숫자와 상형문자는 같은 시기에 탄생된 것이 분명하며, 지금으로부터 수천 년의 역사를 갖는다. 거의 모든 초기 문명은 숫자 1, 2, 3을 가로획(중국), 세로획(로마) 또는 쐐기 모양(<그림 1.4> 참조)으로 표기했고, 이것이 상형문자의 전형적 특징이다. 다른 문자와 마찬가지로 숫자도 초기에는 정보를 담는 도구에 불과했고, 추상적인 의미를 갖지 않았다.
인류의 조상은 손가락 10개로는 부족하다는 사실을 점점 깨달았다. 가장 간단한 방법은 발가락 10개도 사용하는 것이지만, 이것으론 문제를 근본적으로 해결할 수 없다. 사실 그들은 그렇게 하지 않았다. 물론 아프로·유라시아 대륙에 그런 방법을 사용하는 부락이 있었겠지만 일찌감치 사라졌다. 똑똑한 우리 조상은 진법을 발명했다. 즉 10개의 숫자를 한 묶음으로 하여 한 자리씩 올려가는 방법이다. 이것은 인류의 비약적 발전이었다. 수량을 코딩하는 방법, 즉 다른 숫자는 다른 양을 의미한다는 사실을 깨치기 시작했기 때문이다. 거의 모든 문명은 십진법을 채택했다. 그러면 이십진법을 채택한 문명은 없을까? 다시 말해 손가락 발가락을 다 센 후 진법을 시작한 문명이 있을까? 있다. 바로 마야 문명이다. 마야인은 한 세기를 태양기(太陽紀)라고 불렀고 400년이었다. 2012년은 태양기의 마지막 한 해였고, 2013년은 새로운 태양기가 시작되는 해였다. 이것은 내가 멕시코에서 마야 문화를 연구하는 교수로부터 알게 된 사실이다. 언제부터인지 모르지만 2012년이 속한 태양기의 마지막 1년은 세계 최후의 해로 와전됐다.
십진법에 비해 이십진법은 불편한 점이 많다. 과거 중국인은 글은 몇 자 몰라도 구구단은 외울 줄 알았다. 그런데 이십진법으로 바뀌면 외워야 할 것이 19×19 바둑판이 된다. 인류 문명 중기인 기원 전후 무렵에도 학자가 아니고서야 이것을 할 수 있는 사람이 거의 없었다. 나는 이것이 마야 문명의 발전이 매우 더뎠던 원인 중 하나라고 생각한다. 물론 마야 문자가 너무 복잡해서 한 부락에 문자를 깨칠 수 있는 사람이 몇 안 됐던 것이 더 중요한 원인이긴 하지만.
여러 자릿수의 숫자를 표기할 때 중국인과 로마인은 명확한 단위를 사용해 숫자 크기를 표시했다. 중국인은 일, 십, 백, 천, 만, 억, 조8를 사용했고 로마인은 문자 I로 1을, V로 5를, X로 10을, L로 100을, D로 500을, M으로 1,000을 표시했다. 그 이상은 없다. 두 표시법은 은연중에 소박하게나마 코딩 개념을 도입했다. 첫째, 둘 다 여러 기호로 여러 숫자 개념을 상징했고 둘째, 각각 디코딩 규칙을 마련했다. 중국의 경우 디코딩 규칙은 곱셈이다. 200만이라고 쓰면 2×100×10,000이란 의미가 담겨 있다. 로마의 경우 디코딩 규칙은 가감법이다. 작은 숫자가 큰 숫자 왼쪽에 오면 뺄셈이고 오른쪽에 오면 덧셈이다. IV는 5-1=4, VII는 5+2=7, IIXX는 20-2=18을 표시한다. 이 규칙은 복잡한 데다 큰 숫자나 분수는 표기하기 어렵다. 로마인이 100만을 표기하려면 MMMM……을 계속 써서 칠판을 가득 채워야 할 것이다. 로마인은 후에 M 위에 선을 그어 1,000배를 표시하는 방법을 발명하긴 했지만 10억을 표기하려면 역시 칠판 하나를 다 써야 한다. 따라서 코딩의 유효성 면에선 중국인의 방법이 로마인보다 뛰어나다.
숫자를 가장 효과적으로 설명한 이들은 고대 인도인이다. 인도인들은 0을 포함한 아라비아 숫자 10개를 발명했다. 이것이 현재 전 세계에서 통용되는 숫자다. 이 표기법은 중국이나 로마보다 훨씬 추상적이지만 사용하기에 편하다. 그래서 아라비아 숫자는 아랍인을 통해 유럽으로 전해진 후 바로 보급되었다. 유럽인은 이 숫자를 진짜 발명한 이들이 인도인인 줄 모르고, 그 공을 ‘브로커’인 아랍인에게 돌렸다. 아라비아 숫자 또는 인도 숫자는 그 간결함과 효율성뿐 아니라 숫자와 문자의 분리를 의미한다는 점에서도 혁명적이다. 인도 숫자는 객관적 측면에서 자연어 연구와 숫자가 수천 년 동안 각기 궤도에서 겹치지 않고 점점 멀어지게 했다.
(원문: 여기를 클릭하세요~)