日语和韩语同源,而且源头都来自中国东北?
泛亚欧语系的起源和扩散
在漫长的岁月里,人类与人类相遇、交流、分离,他们的语言也碰撞、融合、分化。最近,由语言学家、考古学家和遗传学家合作的一项研究,发现说日语、韩语、突厥语、蒙古语和通古斯语的人们有着共同的基因学和语言学上的祖先——他们曾于9000年前生活在今天中国东北部的西辽河流域。
撰文 | 王一苇
责编 | 陈晓雪
● ● ●
语言学家将世界上的语言按演化关系分为不同的语系。其中一种分类叫 “泛欧亚语系”,包括通古斯语族、蒙古语族、突厥语族、日本-琉球语(族)和朝韩语(族)。使用这些语言的居民分布在整个欧亚大陆,人口上亿。
近日,一项历时六年、集结11个国家学者的三学科交叉研究发现,泛欧亚语系的人群有一个共同的祖先:他们曾经居住在距今约9000年前——也就是新石器时代的中国东北部。
2021年11月11日,《自然》杂志发表了这项研究 [1]。该研究认为,青铜时代之后东北亚各地区间频繁的语言交流,掩盖了这些语言在本质上同源的事实。而实际上,新石器时代早期,就有中国东北的农民穿越东北亚大陆,进入日本、韩国所在的地域。他们带去了自身的基因和文化,也带去了原始的语言。
“我们的研究显示,说日语、韩语、突厥语、蒙古语和通古斯语的人们有共同的基因和语言学上的祖先,他们生活在中国东北部的西辽河流域。” 论文的通讯作者、德国马普人类历史科学研究所教授 martine robbeets 说。她和研究团队还通过语言学和考古学研究指出,农业在语言的扩散中发挥了重要作用。
图1 东北亚语言、农业和遗传扩张的融合。红色为阿穆尔血统,绿色为黄河血统,蓝色为绳文血统。红色箭头表示新石器时代种植粟的农民向东迁移,将朝鲜语和通古斯语带到指定地区。绿色箭头标志着新石器时代晚期和青铜时代稻作农业的融合,将日本语从韩国带到了日本 | 图源[1]
北京大学考古文博学院副教授张海认为,这是一项真正意义上的文理交叉的研究。“尤其是把语言学和考古学用量化的方法表述,采用跟古dna一样的分析方法,贝叶斯系统发生学方法,将语言学、考古学与古dna链接起来,讨论一个关键性的科学问题。”
“(这项研究)为统一的泛欧亚语系的存在提供了计算语言学的证据支持,”澳大利亚国立大学考古和人类学学院荣誉退休教授 peter bellwood 在随刊发布的论文述评中写道 [2]。长期以来,关于泛欧亚语系的源头争议颇多,他认为这项研究对厘清争议作出了 “可喜的贡献”。
古dna研究者们则对文章中提供的新基因证据感到兴奋。
“这篇研究新产生了来自韩国日本琉球群岛新石器时代及以后的古基因组,这些基因组的发表填补了目前朝鲜半岛琉球群岛等地古dna数据库的空白。” 德国马普人类历史科学研究所博士后王珂通过邮件告诉《知识分子》。
“韩国很有意思,” 中国科学院古脊椎动物与古人类研究所研究员付巧妹说,“相比日本,它很早的(基因组成)就已经不一样了,说明(东亚北部的)影响更早是在韩国,较晚的时候才到日本。”
“泛欧亚语系” 的起源之谜
martine robbeets 是 “泛欧亚语系” 概念的提出者之一,这一概念指的是指东起太平洋,西至波罗的海、黑海和地中海的地理上相邻的一批语言 [3]。但并非所有语言学家都认同这一概念。
泛欧亚语系的概念衍生于早在18世纪就出现的 “阿尔泰语系”(altaic languages)。阿尔泰语系将欧亚大陆的蒙古、突厥和通古斯等几个语族依照相近地理位置归类,认为它们来自同一个源头。后来的 “泛欧亚语系” 则在此基础上加入了日本-琉球语族和朝韩语族,认为这些语言的人群都有共同的祖先。robbeets说,这是因为语言学研究结果证实,这五个语族的语言存在共同的基本词汇。
图2 泛亚欧语系的起源和扩散 | 图源[2]
无论是 “阿尔泰语系” 的概念,还是 “泛欧亚语系” 的内涵,在语言学界均有反对声音。一些学者认为,这些语言(泛欧亚语系涉及的五个语族)并非同源,只是存在大量交流产生的相似词汇;另一些则认为,日韩语同源,而两者与其他几个语族并不同源。
“他们说的都很对,只是是在不同层面上看问题,” robbeets说。“我们之所以在这一问题上有这么大的争议,很大的原因是借用(borrowing)的现象非常普遍……但它们一定程度上掩盖了极少量的由继承(inherited)得到的词汇。” 她也认同日韩同源的说法,但认为应该将比较的视野扩大到泛欧亚语系。
robbeets认为,起源问题之所以难有定论,真正的问题是很难确定语言学者们提出的证据是否确凿。“问题并不是没有足够的证据,而是人们的设想,甚至是幻想太多,虚构多于事实。”
寻找语言的原型
图3 语言学者robbeets教授在比利时的家中与《知识分子》视频连线。她笑称自己是埋案工作“扶手椅学者”。欧洲正午耀眼的阳光下,她背后是满满一架子色彩斑斓的书。随便抽出一本,可能就记载着世界某个角落不为人知的当地语言。
martine robbeets 日常的工作就是伏在案头,从这些书籍记载的不同语言中抽取各种元素,分析、比对。
她自己精通或掌握近10种语言,包括比利时当地的三种方言、英语、日语、韩语,一些简单的俄语、突厥语和蒙古语。这些语言大多是在她赴日、韩、俄等地学习和研究过程中习得的。
robbeets说,语言中有一类词相对来说不具有文化含义,它们代表一些最简单的概念,比如house和food。她将之称为 “基本词汇”。由于借用词汇很多时候与文化相关,研究基本词汇在不同语言中的分布能够很好地避开借用词汇的影响。语言学家们在长时间的摸索中已经列出了一张由100个词组成的 “基本词汇” 清单,方便在比较不同语言时使用。
即便如此,比较不同语言的基本词汇并不简单。2003年写博士论文时,robbeets收集了语言学家们提出的10,000个认为是泛欧亚语系的词源,这些词源对应2000个词,也就是说,每个词都有5个左右可能的词源,究竟哪个才是真正的词源呢?
“当我收集了那么多证据,反而觉得这一切都很虚,所以我当时真正的目标是去证明泛欧亚语系的语族之间没有关联。” 她一个一个地检查词汇,用语言学的逻辑判断这个词是否能通用到真正算作词源,如果有一丝值得怀疑的地方就删掉。最终,她将10,000个词缩小到300个,“我尝试了所有方法,但没有办法再拒绝这些词了。”为了确认这一点,她又比对了这些词的发音,发现它们在发音上也遵循相应规律。
除了使用词源,她同时也通过词态和词缀等词语形态学的方法确认,发现这些词在形态上也互相关联。因此她确信,这些词是泛欧亚语系的同源词汇。
在此次发表的论文中,robbeets和同事们选取了泛欧亚语系的五个分支里的98种语言,在每种语言里寻找254个词源词,“有时候能在三个分支里找到,有时候四个,” 她说,“我们的数据库非常庞大。”
图4 robbeets举例说明了一个词源词“wood”(木)的比较过程。在2018年的论文中,她选取的词义更为宽泛,因而得出的语族间的正相关关系更强,而2021年的此次研究中,她对词语的选择更精细了,尽管正相关关系减弱,但她获得了更丰富的数据点。
然后,他们用统计学方法(贝叶斯系统发生学方法,bayesian phylogenetic analysis)来分析这些词的发展过程。分析结果指出,泛欧亚语系的 “原型语”(proto-transeurasian language)大约在距今9181年前开始分化,6811年前阿尔泰语系从中分出,5458年前日本语族和朝韩语族分出,4491年前蒙古语族和通古斯语族分出。
在语言学的边界之外
“人类的语言有10万年历史,而语言学能够研究的也只有1万年而已,” robbeets说。
在从新石器时代到现在的这一万年的时间里,不同语言的演化有快有慢,变化有大有小。传统语言学在假设变化匀速的基础上推算语言的分化,必然有种种不准确处。
“这就是为什么遗传学方法非常有用,” robbeets说。大约15年前,语言学家们开始将基因检测方法结合到语言学进化树的建立中,改进了预测。
在过去20年的研究经历中,robbeets逐渐意识到,语言学分析虽然告诉了她泛欧亚人群的起源,但无法提供更多信息:他们曾经居住在何处?什么时候开始迁移?如何迁移?为什么分散到东北亚各地?引入考古学和遗传学能帮助解决这些问题。
“语言学本身并不能最终解决人类历史科学中的重大问题,但结合遗传学和考古学,它可以增加某些情景的可信度和有效性。” 她说。
同时使用语言学、考古学和遗传学方法做研究并非这篇论文首创,但如此大规模的并行研究确实少见。robbeets表示,这次研究提出的跨学科合作模式仍然在探索阶段,她希望能延续这一模式,以考古学和遗传学方法扩展语言学研究的边界。
六年前,robbeets向欧盟申请了一项200万欧元的跨学科研究基金,并用自己曾经在日本、韩国求学建立的人脉关系组建了一个庞大的团队。2019年,她还到访中国,拜访了吉林大学生命科学学院的崔银秋教授。“非常有才华的学者”,她说,崔银秋建议合作,并让自己的学生宁超加入robbeets的团队,赴德国开展研究。
宁超目前已在北京大学考古文博学院任职。在德国马普人类历史科学研究所的日子里,他负责这项研究中大部分的古dna数据收集工作。他收集了东北亚所有已经发表的古代基因组数据。
“跨国多学科的团队组建是非常不容易的,首先我们要了解不同学科,包括考古、语言和dna,国际上都有哪些科学家在做与本课题相关的研究,其次是要确保哪些科学家对交叉学科研究话题感兴趣,而且还要尊重其它不同学科的研究成果。” 在给《知识分子》的邮件回复中,宁超说。
在六年时间里,研究团队多次举办线上以及线下的交叉学科会议,分别呈现不同学科的最新进展和发现,然后再进行综合性探讨。他们将这种研究方法称为 “triangulation”(三角测量法)。
robbeets强调,虽然团队从三个学科方向开展研究,但研究过程相对独立,数据的收集、分析和结果都单独进行,因此避免了 “内循环”,即互为逻辑结果的可能性。只有在研究的最后阶段,三个学科的推论才会通过不同变量相互映射,比较评估证据的融合程度,包括相关度、不一致性、不确定性和可能的偏见。
在比较三个学科结果后,文章得出结论,跨欧亚语言的起源可以追溯到新石器时代东北亚最早开始种植粟的人群。新石器时代早期到中期,种植粟的农民从西辽河扩散到邻近地区。而新石器时代晚期、青铜器和铁器时代,种植粟的农民逐渐与黄河、欧亚西部和绳纹人口混合,并在耕种中加入了水稻、欧亚西部农作物和畜牧业。
跨学科合作,语言学研究的未来?
张海认为,研究中泛欧亚语系人群起源于中国东北西辽河流域的早期旱作农业人群,泛欧亚草原的游牧为特征的人群起源于定居农业的扩散的结论,“颠覆了过去的认识。” peter bellwood 也在述评中表达了类似观点。
研究古dna的付巧妹认为,虽然从基因证据上得出了起源结论,但具体的迁移是如何发生的,农业可能只是其中一个因素,实际上的原因很可能更为复杂,尤其是越为晚近的年代,文化对迁移和语言的影响会越强。
robbeets对此回应称,她认为农业是一个重要因素,但并未排除其他因素。例如,其中一个她认为需要更多研究的因素是气候变化。在过往研究中,气候变化的时间似乎和语言分化的时间有不错的相关性。
而对于泛欧亚语系人群和其他语系,如同样活动在亚洲大地上的汉藏语系人群,是什么样的关系,仍然是个未解之谜。
“该文章提出的问题更重要,” 张海说,“第一,仍然有一处关键时段古dna样品的缺失,即距今8000年的西辽河流域的旱作农业人群。第二,泛欧亚语系与汉藏语系应该是两个不同的来源,如果泛欧亚语系与汉藏语系都是旱作农业基础,那么这两个语系有不同的起源吗?”
在问到有关泛欧亚语系和汉藏语系关系的问题时,robbeets说,她认为,两个语系有不同的起源,一个发源于西辽河流域,一个发源于黄河流域,但在史前时期有语言借用的现象,而研究这种借用是她下一步要做的事之一。“我认为了解这两个农民社群如何互相影响,以及这在远古时期传递的信号是什么,是非常必要的,” 她说。
她在一个月前刚刚招募了一位来自中国的博士生,在未来3-4年内将专门研究两个语系间语言借用的问题。
她希望在后续研究中继续交叉学科合作。在此次论文研究中,她说难度最大的就是将各种不同的证据整合到一起。
“ ‘三角测量法’ 这种方式仍然不够完备,还在发展中,” 她说,除了需要更多资金支持,她也计划举办更多的学术会议来探讨这一合作应该如何开展。
“目前我们还只揭开了一点点面纱,未来仍然有许多要做的,” 她说,“我也希望未来这个领域能扩展得很好。”
致 谢
感谢莫斯科大学生物系在读博士生郭林、复旦大学现代语言学研究院研究员张梦翰对本文的帮助。
参考文献:
[1]https://www.nature.com/articles/s41586-021-04108-8
[2]https://www.nature.com/articles/d41586-021-03037-w
[3]https://www.thepaper.cn/newsdetail_forward_10403243
制版编辑 | 卢卡斯