TL;DR
- 代词“老当益壮”。 第一、第二人称形式往往可以持续存在超过一万年,而且极少被借用。
- 非洲: 广泛分布的“鼻音-I / 唇音-you”格局,很可能反映的是远古的扩散,而不是单一的宏语系。
- 欧亚 vs 美洲: 欧亚大陆呈现出 m- / t- 带;太平洋一侧的美洲则是 n- / m-。这两大簇在地理上都过于连贯,不太可能是随机巧合。
- 超保守词汇 为深层亲缘关系提供了诱人的线索,但仅凭它本身,无法证明一个全球共同祖语。
引言#
如果你周游世界,可能会注意到一个颇为奇特的现象:在许多语言中,“我”或“我(宾格)”这个词听起来惊人地相似——往往以 m 或 n 音开头。例如英语 me,法语 moi,约鲁巴语 emi,祖鲁语 mina。这只是巧合吗?还是说,这可能是一个线索,表明相隔万里的语言之间存在某种深层历史联系?语言学家早就注意到,代词(如 I, you, we 之类的词)以及词汇中其他一些小词,往往可以在千年尺度上保持稳定1。事实上,这些封闭类词汇——代词、小数词、基本副词——极其保守。它们“像平原上坚硬的岩石,抵抗侵蚀,在其他大多数词早已被冲刷殆尽之后依然屹立不倒”1。与那些容易被邻语替换或借用的显眼名词、动词不同,基本代词和数词通常不会被借用2。这使得它们成为系统发育信号的富矿——即古老语言亲缘关系的线索,即便语言已经分化到难以辨认的程度,这些线索仍可能保存下来。
本文将探讨代词和少数超稳定词如何暗示世界诸语言之间隐藏的联系。我们将聚焦一个颇为耐人寻味的案例:撒哈拉以南非洲的语言,包括主要语系 亚非语系(Afroasiatic)、尼日尔-刚果语系(Niger-Congo)、尼罗-撒哈拉语系(Nilo-Saharan),以及所谓的“科伊桑”(Khoisan)吸气音语言(实际上是多个孤立语或小语系的集合)3。这些语言在常规意义上并未被证明彼此同源——事实上,非洲的大尺度“宏语系”划分仍然是推测性的、颇具争议的4。然而,它们在代词系统上却呈现出惊人的相似性,比如用鼻音表示“我”,而常用唇音(双唇音)表示“你”。我们还会拉远视角,从全球范围来看:为什么欧亚语言,从法语到印地语,常用 m/t 表示 I/you,而许多美洲原住民语言则用 n/m 表示 I/you?这些格局是远古继承(共同祖先)造成的,还是区域扩散(语言相互影响)的结果?我们会用通俗的语言澄清这些概念,并看看为什么一些语言学家认为,代词和其他功能词可能追溯到远古史前——潜在可达数万年前——即便我们目前还不能(也许永远不能)为全人类语言重建一棵完整的家谱树。
(在深入之前,先简单说明一下“宏语系”:这个术语指的是假设性的超级语系,用来连接多个已经确立的语言家族。例子包括 Joseph Greenberg 提出的Amerind(美洲语系)以及Eurasiatic(欧亚语系),后者试图把印欧语系、乌拉尔语系等联系起来。这些假说大多尚未被证实且饱受争议4,但它们为讨论超保守词汇提供了背景。)
代词:小词,大历史#
代词虽然短小,却承载着悠久的历史。想一想,每当你说“我”或“你”时,你可能在使用一个远远早于有文字记载历史的词。语言学研究发现,第一、第二人称代词(“我”和“你”)是任何语言核心词汇中最稳定的词之一1。20 世纪 60 年代,语言学家 Morris Swadesh 等人开始比较不同语言的基本词汇表,以估计词汇被替换的速度。他们发现,像 I 和 you 这样的词往往会长期保留。在一项研究中,第一人称单数代词被估算出具有约 166,000 年的“半衰期”——也就是说,需要这么长的时间,才会有一半的后代语言谱系把它替换掉1!(这个数字是外推值,不应被字面理解,但它凸显了代词的极端长寿。)另一位研究者 Sergei Dolgopolsky 发现,在比较分析中,I 和 you 分别是最长久的第 1 和第 3 个语义项目1。
为什么代词能在其他词逐渐消逝时依然长存?一个原因是它们被高频使用——我们每天要说上几百次——这似乎让它们对变化具有某种“免疫力”5。另一个原因是语言几乎从不借用外来代词2。说西班牙语的人可能会借用英语的 weekend,说日语的人可能会采用英语 computer,但几乎没人会借用表示“我”或“你”的词。正如语言学家 Joseph Greenberg 所指出的,“几乎没有任何被确证的第一、第二人称代词借用案例”2。这些小词与语法和身份高度紧密地交织在一起;它们不容易被外来形式取代。这使得它们成为语言谱系的可靠路标。
现代计算研究进一步强化了某些核心词汇超保守的观点。2013 年,Mark Pagel 及其同事通过统计分析,考察了七大语系(包括印欧、乌拉尔、阿尔泰、达罗毗荼等)的重建形式,识别出约 23 个在四个或更多语系中都出现同源词的词汇——远远超出随机预期6。这些超稳定词中包括代词(I, you, we)、数词(one, two, three)以及 not、who 等副词6。研究者认为,这些词在音形和意义上可能已经被保留了约 15,000 年甚至更久,跨越了上一个冰期结束的时期。这个主张颇具争议(我们稍后会谈到质疑意见),但也非常引人入胜:它暗示着一种深层的语言谱系,在其中 I 也许真的“到处都意味着同一件事”——因为许多现代语言从同一个远古源头继承了它。在论文中,Pagel 团队甚至推测,当今欧亚诸语言的祖先,都可以追溯到约 15,000 年前、冰川退却时的一种语言6。
当然,并非所有人都信服。要把词汇重建到那么久远的年代极其困难——语言变化之大,以至于 1 万年以上前的词在现代后代语言中往往已面目全非。批评者指出,人们很容易被偶然的相似性所欺骗。语言学家 Sally Thomason 打了个比方:在**“超出比较法适用范围”的谱系间找到一组相似发音的词,就像在火焰中看见“人脸”7——你也许会说服自己那是有意义的图案,但它也可能只是随机的跳动。Thomason 检查了 Pagel 等人的数据,发现了一些方法论问题(例如,数据集中允许多个可能的原始词形,而作者必须主观选择要比较哪一个)7。她和许多历史语言学家仍然对仅凭这些超稳定词就证明一个全球语言家族持怀疑态度7。不过,即便是怀疑者也承认其中的内核事实**:某些类型的词平均而言确实变化得更慢,而代词是其中的典型代表。
总而言之,代词就像语言的传家宝——在无数代说话人之间被忠实地传承下来。它们是语言谱系的指纹:如果两种语言拥有非常相似的代词,这强烈暗示(但并不等于证明)它们从共同祖先那里继承了这些形式。接下来,我们将更仔细地看看这一点在世界某一地区——撒哈拉以南非洲——是如何体现的。
非洲个案研究:鼻音 I,唇音 You?#
撒哈拉以南非洲是一个语言拼接的锦缎,由若干大型语系(“语族”/“语谱”)构成,而就主流学界目前所能证明的来看,它们具有各自独立的起源。这些语系包括 亚非语系(Afroasiatic)(如豪萨语 Hausa、阿姆哈拉语 Amharic、索马里语 Somali)、尼日尔–刚果语系(Niger–Congo)(如斯瓦希里语 Swahili、约鲁巴语 Yoruba、祖鲁语 Zulu、沃洛夫语 Wolof)、尼罗-撒哈拉语系(Nilo-Saharan)(如卢奥语 Luo、马赛语 Maasai、卡努里语 Kanuri),以及所谓的 “科伊桑”群体——南部非洲的吸气音语言,如 !Xóõ、Sandawe 和 Hadza,它们是孤立语或小语系,而非一个统一的语系3。表面上看,这些语言在词汇和语法上差异巨大。一句豪萨语的句子看起来、听起来都和祖鲁语截然不同,而带有吸气音的 !Xóõ 词汇更是与阿姆哈拉语毫无相似之处。因此,把这些语系合并成一个宏大的“非洲超级语系”的设想,至多只能算是推测。然而,耐人寻味的是,当我们把视角缩小到代词(以及少数其他基本词)时,却开始看到跨越非洲各语谱的共同线索。
一个显著的格局是,许多非洲语言在表示“我”的词中使用鼻音辅音(如 m、n、ŋ),而在表示“你”(单数)的词中则常用唇音辅音(用双唇发音的音,如 m、b 或 w)。来看几个例子:
| 语言 | 语系 | “我”(第一人称单数) | “你”(第二人称单数) |
|---|---|---|---|
| 斯瓦希里语(坦桑尼亚) | 尼日尔-刚果语系(班图支) | mími(我)5(也作前缀 ni-) | wéwe(你) |
| 祖鲁语(南非) | 尼日尔-刚果语系(班图支) | mina(我) | wena(你) |
| 约鲁巴语(尼日利亚) | 尼日尔-刚果语系(Yoruboid) | èmi(我) | ìwọ(你)(发音带 w) |
| 阿坎语(加纳) | 尼日尔-刚果语系(Kwa) | me(我) | wo(你) |
| 豪萨语(尼日利亚) | 亚非语系(乍得支) | ni(我,附着代词) | káĩ(你,阳性)/ kī(你,阴性) |
| 阿姆哈拉语(埃塞俄比亚) | 亚非语系(闪米特支) | ənē(እኔ,我) | anta(አንተ,你,阳性)/ anchi(你,阴性) |
| 卢奥语(肯尼亚) | 尼罗-撒哈拉语系(Nilotic) | aná(我) | ín(你) |
| Hadza 语(坦桑尼亚) | 孤立语(“科伊桑”) | tiʔe(我)8 | baʔe(你)8(大致形式) |
(发音为粗略转写;为简化起见,省略了声调和元音长短差异。)
从这些例子中,我们可以看到一个倾向:第一人称形式中频繁出现 m 或 n 音。在尼日尔-刚果语系的斯瓦希里语、祖鲁语、约鲁巴语和阿坎语中,“我”一词都以 m- 开头(斯瓦希里语 mimi,祖鲁语 mina,阿坎语 me)。豪萨语(亚非语系)用的是 n-(ni),卢奥语也是如此(ana 中间有 n)。甚至在亚非语系闪米特支的阿姆哈拉语中,ənē 虽然以短元音开头,但以 -n 收尾(有趣的是,更古老的吉兹语形式是 ʾaná——包含 n)。再看第二人称形式:约鲁巴语 iwọ 和祖鲁语 wena 用 w(唇音滑音)表示“你”。阿坎语 wo 也是同一个辅音。斯瓦希里语 wewe 则是双 w。豪萨语的 ka 不符合这一点(它是 k),但在许多与豪萨语同属乍得支的语言中,第二人称代词确实带有 b 或 w。以吸气音著称的孤立语 Hadza 用 baʔe 表示“你”(以 b 开头)8。因此,在彼此无关的非洲语言中,我们经常看到这样一对组合:“我”带鼻音(m/n),“你”带唇音(m/b/w)。语言学家把这视为一种潜在的深层标记——也许这些语言都从某个极其古老的原始语言那里保留了某些代词音形,或者它们在远古时期通过接触相互影响。
需要强调的是,并非所有非洲语言都严格遵循这一模式——存在不少变体。在阿姆哈拉语中,“你”是 anta(带 t 音),遵循的是亚非语系闪米特支以 t 表示第二人称的传统。在一些尼罗-撒哈拉语系语言如卡努里语中,代词则相当不同(卡努里语“我”为 ŋaye,“你”为 nyin——两者都是鼻音,没有唇音)。但“I = m ~ n”的格局在非洲范围内广泛到足以引人注目。对于尼日尔-刚果语系,人们实际上已经重建出**原始尼日尔-刚果语(Proto-Niger-Congo)**的第一人称单数代词为 mV…(m + 元音),第二人称也是 mV…,但元音不同5。语言学家 Tom Güldemann 的一个权威重建给出的原始尼日尔-刚果语 1sg 是 *mì/(m + 前元音),2sg 是 *mù/(m + 后元音)5。这意味着,数百种尼日尔-刚果语言很可能都是从这个共同源头继承了“我 = m-”这一形式。想一想,当祖鲁语使用者说 mina,富拉语(Fula)使用者说 mi,阿坎语使用者说 me 时,他们都在反映一个几千年前在非洲被使用的代词——那时还没有农业、没有冶铁,也没有我们所知的任何文明。
那么,“吸气音”语言(科伊桑)又如何呢?这些语言曾被 Greenberg 归为一个单一语系,但今天的语言学家认为,至少存在三个独立语系(Khoe-Kwadi、Tuu 和 Kx’a),外加一些孤立语(Hadza、Sandawe),它们恰好都具有吸气音3。它们之间的任何相似性都可能源于接触,或者只是共享的倾向。然而,即便在这里,代词也提供了一些耐人寻味的联系线索。例如,包含纳马语/达马拉语(Nama/Damara)的 Khoe 语族,其原始代词被重建为类似 *mi 表示“我”、*ni 表示“你”(或反之),而研究者注意到,坦桑尼亚的孤立语 Sandawe 具有非常相似的代词形式8。有研究展示了原始 Khoe 代词系统与 Sandawe 代词之间的结构平行性,暗示它们可能存在遥远的亲缘关系8。这当然谈不上定论——差得远——但这恰恰是如果所有这些非洲语谱在最深层上源自同一祖语时,我们所预期会看到的那种线索:一个远古代词范式的残片,在整个大陆上以碎片形式存留。
那么,这些非洲代词的共性是否意味着尼日尔-刚果、尼罗-撒哈拉、亚非语系和科伊桑都是一个“其乐融融”的“非洲语系(Africon)”大家庭成员呢?大多数语言学家会说:且慢。有可能其中一些相似性是偶然的(毕竟可用的简单音素如 m、n、w 等数量有限)。也有可能是区域扩散——长期处于接触区的语言在漫长时间中相互影响。例如,在西非,尼日尔-刚果语系和亚非语系(乍得支)语言共存了数千年;也许“第一人称用 m-”这一区域偏好在它们之间传播。然而,代词比语言的其他部分更不容易被借用,因此用扩散来解释会比较棘手。另一种可能是,这些基本代词音在某种意义上是**“自然的”——也就是说,人类也许天生倾向于用 [m] 音指称自己(婴儿往往很早就会说 mama 等)。有人从音义象征或发音难易度角度提出推测:[m] 和 [n] 是婴儿最容易发出的辅音之一,因此它们出现在许多语言的基本词(如代词)中也就不足为奇9。但我们要解释的不是单一语言,而是跨区域的格局。正如我们将在下一节看到的,这些代词格局是地理聚集的,而非普遍存在。这提示我们,起作用的并非只是人类生理,而是历史**。倾向于长距离比较的语言学家会认为,最简单的解释是继承:这些语言之所以共享这些代词,是因为它们最终都源自同一个最初具有这些代词的古老语言9。
在离开非洲之前,还值得一提的是,我们对代词的关注并非探寻深层关系的唯一角度。其他封闭类项目也表现出稳定性,例如基本数词。在尼日尔-刚果语系中,“二”这个词往往类似 ba、ɓa 或 va(原始尼日尔-刚果语被重建为 *ba-di 表示“2”)。“三”则常为 ta-t_(如约鲁巴语 tààtà “三”,以及原始尼日尔-刚果语 *tat)5。在亚非语系中,“一”这个词在各分支中著名地相似(例如阿拉伯语 waḥid,希伯来语 _ אחד_ eḥád,豪萨语(乍得支)daya——表面音形不太相似,但可以追溯到同一亚非语系词根)。这些小数词往往抗拒替换,因为计数是如此基本的功能;你不会轻易换掉“一、二、三”。事实上,“二”和“五”曾出现在欧亚地区早期的超保守词列表中。(有趣的是,Pagel 2013 年的研究发现,数词并未进入最终的 23 个超保守词集合6,但这可能与数据的复杂性有关——在各语系内部,数词仍然普遍非常保守,正如任何印欧语言都能证明的那样:two, duo, dvi, bi- 等都反映了同一个古老词根。)
非洲个案为我们展示了这一难题的一个侧面:在没有公认谱系联系的语言之间,小小的核心词汇却存在共性。现在,让我们把视角拉回到全球的代词格局,然后直面那个大问题:继承还是扩散?
全球代词格局:巧合还是远古亲缘?#
非洲的例子展示了一种区域格局(鼻音“我”、唇音“你”)。事实证明,语言学家在全球尺度上至少识别出了两种主要的跨语言代词格局,它们各自跨越多个语言家族,覆盖广阔的地理带。这些格局在一个多世纪前就已被注意到,此后被详细绘制9。它们是:
欧亚的 m–T 格局: 欧洲和亚洲的语言普遍具有以 m(或其他鼻音如 n)开头的第一人称代词,以及以 t(或其他舌尖音如 s)开头的第二人称代词。我把它称为**“M-T 代词带”。经典例子:在拉丁语中,ego 表示“我”,但其宾格形式 me(我)带有 m-,而 tu 表示“你”,带有 t-。印欧诸语言保留了这一点:西班牙语 me、tú;俄语 menya(“我(宾格)”)、ty(“你”);印地语 mujhe(“我(与/宾格)”)、tū(“你”);英语 me / you(you 现在不带 t,但古英语中有 þū,带 th 音,我们在法语 tu 的借词中仍见 te,如 *attire* 源自 tu es attire——当然,英语在“你”上有些特立独行)。在印欧语系之外,乌拉尔语系也常用 m 表示“我”(芬兰语 minä,匈牙利语 én——匈牙利语失去了 m,但芬兰语保留了),而“你”则常用 t 或 s(芬兰语 sinä,匈牙利语 te)。许多阿尔泰/突厥语言也类似:例如土耳其语 ben(“我”,历史上为 men)和 sen(“你”)。一些西伯利亚和高加索语言也符合这一格局。《世界语言结构地图集》(WALS)发现,第一人称中的 m 在欧亚几乎是“泛欧亚”的9——从欧洲一直到北亚普遍存在,只有东南亚的一些小片区例外。第二人称的 t 在这一地带也非常常见(“I = m, you = t” 这一范式出现在许多彼此并无近缘关系的语系中9)。Johanna Nichols 等语言学家指出,这条 m–T 带大致与历史上的“大丝绸之路”区域相吻合——一个古代迁徙与接触极为频繁的广阔地带9。它包括印欧、乌拉尔、阿尔泰、卡特维尔(Kartvelian)等语系。这可能是一个古老欧亚语系(Eurasiatic)宏语系的线索:也许这些多样的语言都源自一个原始语言(大约在 12–15,000 年前的冰期欧亚大陆上被使用),该语言使用 m- 和 t- 代词6。如果是这样,m–T 格局就是继承的结果。另一种可能是,它是一种区域特征**:也许这些代词音在史前时期通过语言接触,与其他文化交流一起传播。无论哪种解释,它都不是随机的。正如 Nichols 所指出的,这一格局的分布在地理上高度连贯,且不能用普遍的“婴儿语”之类解释——它必然有一个历史原因9。
(太平洋)美洲的 n–m 格局: 在北美和南美的大部分地区,尤其是太平洋沿岸及延伸至亚马孙流域,我们发现另一种代词范式:第一人称 n-,第二人称 m-。这在第二人称上本质上是欧亚格局的反转。语言学家称之为**“n-m 格局”。例如,在秘鲁的许多 Panoan 语族语言中,“我”是 noo,“你”是 moa。在 Uto-Aztecan 语系(美国西南部和墨西哥)中,一些语言的典型代词前缀是 ni- 表示“我”,mi- 表示“你”,另一些则是 ni- 和 ti-(纳瓦特尔语 Nahuatl 用 ni- 表示“我”,ti- 表示“你”,实际上是 n–t,但其近亲 Hopi 语则是 nuu 对 mum)。在 Chimakuan 及其他太平洋西北部语言中,也出现类似格局。20 世纪早期,Alfred Trombetti(1905)和 Edward Sapir(1910 年代)等语言学家注意到这种广泛的 n vs m 区分,并推测所有印第安语言最终可能是同源的10。Joseph Greenberg 在其颇具争议的 Amerind 假说中抓住了这一点,把 n/m 代词格局作为关键证据之一。他认为,美洲(不包括因纽特语和 Na-Dene 语系)存在一个宏语系(“Amerind”),其原始语言用 n 表示 I、m 表示 you——这一格局在几十个相距甚远的子语系中持续存在10。其主要论证逻辑大致是:*这么多美洲语言共享 n/m 代词,不太可能是巧合;而且可以排除借用(大多数群体之间接触有限);因此,最好的解释是共同祖先的继承。*批评者则反驳说,这一格局在美洲并非真正普遍——在西部很强,但在东部美洲则较弱或缺失——你看到的可能只是一个大规模的区域扩散**,甚至是偶然相似109。毕竟,在几十个语系、有限的代词音素(m、n、t、k 等)之下,某种程度的重合是不可避免的。如今专家的共识是,Greenberg 的 Amerind 语系未被证明,很可能是虚构的。不过,n–m 代词带仍然是一个诱人的现象。它暗示至少在区域尺度上,代词确实保留了较早的关系——可能把若干语系归并为中间层级的宏语群(例如,一些学者认为太平洋西北部的若干语系可能构成更大的聚合体,部分证据就来自共享的代词)。至少,它提示了远古的接触:也许美洲最早的居民共享一种共同的代词习惯,这一习惯在他们分化时传播或持续下来。
为了把这两种全球格局形象化,可以想象一张语言世界地图。你会看到旧大陆(欧洲、北/中亚)的一大片区域,其中“我/我(宾格)”一词往往带 m,“你”则常带 t。然后在新大陆,尤其是从阿拉斯加沿太平洋海岸一直到安第斯山脉的大片地区,许多语言在“我”上用 n,在“你”上用 m。其他地区,如澳大利亚和新几内亚,并不特别遵循这两种格局(值得注意的是,澳大利亚语言中完全没有用 m 表示“我”的情况9)。非洲,如前所述,在“我”上大量使用 m(尤其在南部和西部),但在“你”上使用 m 的情况则不多见,仅零星出现9。这些格局在地理上如此集中,以至于很难把它们归因于纯粹的巧合或某种普遍偏好。历史似乎是罪魁祸首——要么是深层的谱系联系,要么是远古的扩散圈。
为了更清楚地区分这两种可能性,可以考虑两种假想情景,说明语言如何会拥有相似的代词:
- 共同继承(系统发育): 很久很久以前,一个原始语言具有某种特定音形的代词(比如“我” = mi,“你” = ti)。这个语言分裂成若干子语言,子语言再继续分裂,就像树的分枝。每个子语言都保留了这些代词(也许伴随轻微的音变)。数千年后,我们得到一个完整的语系——甚至是“语系的语系”——其中“我”和“你”仍然类似 mi 和 ti。这就像拉丁语分裂成法语、西班牙语、意大利语等,而它们在表示“我(宾格)”的词中都保留了 m 音(法语 moi,西班牙语 me,意大利语 mi)。这种相似性源于共同祖先——这些语言是保留了祖母代词的“堂表兄弟”。我们可以用一个简单的树状图来说明:
(示意图:一个原始语言分裂为 A 和 B;两者都保留了第一人称代词“mi”。)
- 区域扩散(借用或趋同): 两种原本无关(或关系极其遥远)的语言碰巧成为邻居。经过数百年的贸易、通婚或双语现象,其中一种语言可能会从另一种语言中借用一个代词,或者它们彼此影响,最终采用一个相似发音的代词。比如,假设语言 X 原本用 “ga” 表示“我”,语言 Y 用 “na” 表示“我”。但其中一种语言在社会上更具支配性或威望,最终两种语言都用 “na” 表示第一人称。这种情况并不常见(同样地,代词很少被借用,但在强烈接触或克里奥尔语形成的情境下是可能发生的)。另一种可能是巧合性的保留:也许 X 和 Y 都从非常久远的时期(不同谱系)继承了一个表示“我”的 m,然后偶然又在历史上“重逢”。无论哪种情况,相似性是由于接触或巧合,而不是近期的共同起源。我们可以这样可视化借用过程:
(图示:语言 X 和语言 Y 原本不同,通过接触逐渐趋同,最终都用 “na” 表示“我”。)
在现实中,要区分这些情形极其困难。语言学家不会只依赖一两个词——他们会在几十个基础词汇项目中寻找系统的音对应,以建立遗传亲属关系。仅凭代词无法证明一个宏观语系;但它们可以提供强有力的线索。可以把它们看作路标:如果你在彼此相距甚远的语言中反复看到同一种奇特模式,就会指引你朝某个方向做进一步调查。
在欧亚语系(Eurasiatic)(一个假设的语系,包括印欧语系、乌拉尔语系、阿尔泰语系等)的案例中,代词证据(m–T 模式)是促成 Greenberg 和 Illič-Svityč 等人提出诺斯特拉语系(Nostratic)假说的因素之一。事实上,详细统计表明,在印欧语系中,表示“我/我(宾格)”的 m 和表示“你”的 t 这两个音几乎没有丢失。一项对近 500 种印欧语言和方言的调查发现,带有 m- 和 t- 的原始形式在第一、第二人称中在超过 98% 的语言中得以保留1!这种高度的延续性表明这并非偶然——这些音在该谱系中根深蒂固。乌拉尔语系同样使用 m- 表示“我/我(宾格)”(原始乌拉尔语的第一人称为 *me 或 *mi)。因此,如果印欧语系和乌拉尔语系共享这一特征,一些语言学家认为这强化了它们可能存在远缘关系的论据(因为两大完全无关的语系偶然拥有相同的代词范式,并且还有那么多其他可疑的对应,概率极低)。
对于**美洲语(Amerind)**这一设想,n–m 模式曾是核心证据之一,但不幸的是,其他证据不够扎实,而且时间深度极大(自最早的美洲人以来可能已有 13,000 年以上),使得验证变得困难。尽管大多数语言学家并不接受单一的“美洲语”语系,但关于中间层级分组的研究仍在进行中。代词仍然发挥作用——例如,一些被提议存在远缘联系的美洲原住民语系显示出相似的代词词缀,这为这些提案增添了分量。
关键点在于:代词以及类似的语法“功能词”(如疑问词 what/qui/que,指示词 this/that 等)有时可以比普通词汇存续得更久。它们类似于语言中的化石,保留着远古迁徙和接触的痕迹。正如古生物学家可以通过一个小化石来给岩层定年,语言学家有时也可以通过那个顽固不消失的表示“我”的小小 m,窥见一个失落的原始语言。
继承 vs. 扩散:寻找合适的平衡点#
那么,这些深层的代词相似性,是一个庞大全球语系的信号吗?还是仅仅因为人类在不同地方想出了相似的解决方案(再加上一点点借用)?诚实的答案是:我们并不完全确定——这仍是一个持续争论的问题。但我们可以通过用简单术语澄清**语言谱系(linguistic phylogeny)与区域扩散(areal diffusion)**的区别,从而更好地理解这一问题:
语言谱系(linguistic phylogeny)就像语言的家谱。如果两种语言存在谱系关系,就意味着其中一种从另一种演化而来,或者它们都从一个共同祖先演化而来。例如,西班牙语和意大利语具有谱系关系,因为它们都源自拉丁语。它们共享大量继承词汇(如表示“母亲”的 madre 与 madre,表示“二”的 dos 与 due 等)。在严格的谱系情境中,语言之间的相似性源于继承——通过世代传递,并伴随规则的音变。
区域扩散(areal diffusion)意味着语言通过接触相互影响。它们可能毫无亲缘关系(如当代的日语和英语),但如果共存,其中一种可以从另一种借用词汇,甚至借用语法特征。例如,英语从法语中借用了数百个词(如 table、government)——这并不是因为英语和法语有近期共同祖先(并没有;它们的共同祖先要追溯到远古的印欧语时代,那时这些词还不存在),而是因为诺曼法语统治了英格兰,两种语言发生了混合。在区域扩散中,相似性源于借用、趋同或在语言联盟(Sprachbund)中的平行发展。
通常,当我们在许多基础词汇中看到系统性的模式时,首要嫌疑是谱系关系。借用通常影响非核心词汇(如科技术语、文化项目),而不是核心代词或小数词。这就是为什么代词证据在深层关系研究中被认真对待——它恰恰是那种不太可能通过借用产生的数据。例如,如果语言 A 和语言 B 都用 “mana” 表示“我”,用 “wena” 表示“你”,并且我们知道它们之间没有过强烈接触,语言学家就会假设 A 和 B 可能追溯到一个共同的原始语言,在那里存在 *mana/*wena 这样的形式。如果我们能在其他稳定词汇(如“母亲”、“二”、“眼睛”、“名字”等)中找到更多对应,就可以开始构建一个语系的论证。
然而,在极其久远的比较中,我们必须保持谨慎。在约 5,000–7,000 年的时间尺度上,规则的音变就足以完全掩盖一个词的来源。普通话中表示“我”的词是 wǒ,听起来与 “I”、“me” 或 “yo” 完全不同——而且汉语确实与印欧语系无关。但有趣的是,有人曾将汉语 wǒ(上古汉语重构为 *ŋaʔ 或 *nga)与藏语 nga 等代词进行比较,甚至与印欧原始形式 *egō 联系起来(通过某个宏观语系假说)。这些联系高度推测性;在如此漫长的时间之后,人们很容易看到可能并不真实的模式。
我们还应考虑,有些相似性可能并非追溯到单一的“原始世界语(Proto-World)”母语,而是追溯到一波波古代迁徙和接触。例如,也许 5 万多年前走出非洲的第一批现代人已经有一个类似 ma 的词表示“我”——而今天所有语言都以不同方式反映了这个原始词。这就是原始世界语假说(Proto-World hypothesis)(所有语言最终同源)。但还有另一种观点:也许在人类扩散的过程中,出现了少数几种“常识性”的创新(比如用 m 音指示说话者,这种做法可以独立产生,也很容易传播)。一些宏观语系的支持者,如 Merritt Ruhlen,认为全球性的代词模式(以及像 tik 表示“手指/一”这类在全球分布的词)指向单一起源4。大多数语言学家认为,以目前证据来看,这并不令人信服。更保守的假设是:语言可能在若干条谱系中各自出现,并偶尔交换或偶然共享一些基础词汇。
在非洲,例如,有可能尼日尔-刚果语系和尼罗-撒哈拉语系确实是“兄弟”(有人提出“尼日尔-撒哈拉(Niger-Saharan)”语系)。如果这一点得到证明,那么代词相似性确实就是继承。也有可能它们本来是不同的,但在一万多年以前的萨赫勒地带发生了早期接触——也许某一群体借用了代词,或者只是影响了对方代词的音系模式(这是一种极其缓慢的接触效应)。我们在巴尔干地区看到类似情况:不相关的语言(阿尔巴尼亚语、罗马尼亚语、保加利亚语)因为数百年的邻接而共享某些语法特征。代词可能较不易受此影响,但并非不可能。
一些研究者采用的一种巧妙方法是统计类型学(statistical typology):他们不是只定性地说“m vs n”,而是收集大规模语言数据库,检验代词特征的共现是否超出偶然水平。Nichols 对 m–T 和 n–m 模式做了这样的研究,发现它们在各自区域中显著集中9。换言之,它们并非随机散布——历史上发生了某些事情。并且,由于这些聚集区与所提出的宏观语系(欧亚语系对应 m–T,美洲假设语系对应 n–m)相当吻合,这在解释上更偏向于深层遗传信号而非纯粹扩散。
归根结底,谨慎的立场是:代词暗示深层关系,但单凭它们无法最终定论。它们作为诊断标记很有价值。如果两种语言拥有非常相似的代词系统,就要检查其他核心词汇是否也能对应。例如,印欧语系和乌拉尔语系不仅都具有 m-/t- 代词;它们在一些基础词汇上也有看起来相似的形式(如印欧语 mater = 母亲,原始乌拉尔语 *mata = 父亲等),以及一些结构特征,这促使人们长期猜测诺斯特拉语系的存在4。相反,那些只是碰巧共享一个表示“我”的 m,但在其他方面毫无对应的语言,很可能只是独立想出了同样的解决方案。
所有人都同意的一点是:代词和小功能词的变化速度比大多数词汇更慢16。它们在不断变动的语言之海中充当锚点。这就是为什么会有这样的趣闻:英语中的 I、we、two、three、who 都可以直接追溯到大约 6,000 年前的原始印欧语词——它们的形式有所变化,但仍可辨认(可与梵语 aham = 我,dvé = 二,trí = 三,kʷo = 谁 对比)。其中一些甚至可能追溯得更远:2013 年提出的一份“超保守词汇”清单不仅包括 I 和 you,还包括 mother、not、what、man 等词6。如果这些研究者是正确的,那么如果你遇见一支 15,000 年前的部落,你可能会依稀听懂他们说的几个词,因为你今天仍在使用这些词的演化形式!这是一个令人震撼的想法——语言是一条延伸到冰河时代的连续链条。
结论#
代词很容易被忽视——它们很短,往往只有一个音节,我们使用它们时几乎不加思索。但如我们所见,这些小词对语言史有着重大的启示意义。mama、me、mi 在各大洲回响并非偶然;那是一个线索。无论它最终证明的是一个单一的全球语系,还是仅仅勾勒出古代交流路线,卑微的代词都是解锁史前语言的关键。
在如此深度上进行语言侦探工作既艰难又常常充满争议。我们必须在过于急切(仅凭几个音就到处看见遗传联系)与过于怀疑(把一切相似都视为巧合)之间谨慎拿捏。代词、数词以及其他超稳定词汇为我们提供了将语言家谱向更远古推进的机会。它们是幸存者——在我们现代词语中回响着祖先言语的低语。
所以下次你说 “I” 的时候,不妨想一想,你可能正在发出某种真正“永恒”的声音。从某种意义上说,I 在任何地方确实意味着同样的东西——而且它已经意味着同样的东西很久很久了。这种通过不可思议的世代,从一张舌头传到另一张舌头的连续性,是人类语言的奇迹之一。它暗示着,尽管世界上语言纷纭如巴别塔,仍有一些统一的线索将它们连接起来,而这些线索就藏在我们孩提时代最先学会的那些最简单的词中。语言学家将继续沿着这些线索,一词一词、一代词一代词地追索,去更深刻地理解我们的语言——以及我们自身——从何而来。
常见问题#
问 1:共享代词能证明一个全球语系吗?
答: 不能。它们是具有启示性的线索,但如果没有数百组规则的同源词和音律定律,它们无法建立遗传联系。
问 2:为什么代词很少被借用?
答: 因为它们深深嵌入语法和身份之中;替换它们会扰乱核心句法,所以即便在强烈接触下也很少发生代词置换。
问 3:还有什么可能造成类似的代词模式?
答: 古老的区域扩散带和普遍的语音倾向可以在没有共同祖先的情况下产生趋同形式。
参考文献#
Bancel, Pierre J. & de l’Etang, Alain M. (2010). “Where do personal pronouns come from?” Journal of Language Relationship 3: 127–152. 作者指出第一、第二人称代词在各语系中的惊人保留度,称它们为“硬岩……在大多数其他祖语词被冲刷殆尽后仍然抗拒侵蚀”。他们引用 Dolgopolsky (1964),后者发现第一、第二人称单数代词是持续时间最长的语义之一;并引用 Pagel (2000),后者估计第一人称单数代词的“半衰期”约为 166,000 年。他们还观察到,在印欧语系中,以 m- 和 t- 起首的代词词干在超过 98% 的语言中得以保留,反映出 8,000 多年的连续性。代词很可能只在复杂句法出现时(约 10 万年前)才出现,这或许解释了为何同样少数几个代词词干在全球范围内反复出现。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Greenberg, Joseph H. (1987). Language in the Americas.(据一篇评论概述:代词具有显著的稳定性,而且“几乎没有任何经证实的第一或第二人称代词借用案例。”Greenberg 以这种稳定性为前提,提出了美洲语言之间存在深层遗传联系的观点。) ↩︎ ↩︎ ↩︎
非洲吸气音孤立语言(Hadza、Sandawe)及 Khoe 语族的代词示例:Hadza 的独立代词包括 tiʔe “我”和 baʔe “你”(数据来自 Sands 1998,经个人通信)——显示出类似邻近班图语言的鼻音/塞音 vs 唇音对立。Sandawe 有 ŋú “我”和 bé “你”(据较早资料),同样是 ŋ(鼻音)vs b(唇音)。Vossen (1997) 重构的原始 Khoe 代词包括某一支的 *mi “我”、*ma “你”,以及另一支的 *ti “我”、*di “你”——略显不一致,但与 Sandawe 存在某些相似之处8。这些例子说明,即便在区域上相距较远的语言中,也可能出现类似的代词形式。无论是源于古老继承还是扩散,这都强化了本文主文所讨论的那种遍及整个大陆的模式印象(第一人称鼻音,第二人称唇音)。 ↩︎ ↩︎ ↩︎
Greenberg, Joseph (1963). The Languages of Africa. 在这部有影响力的著作中,Greenberg 将非洲语言划分为四大语系,并为吸气音语言创造了“科伊桑(Khoisan)”这一术语。现代研究(见 Güldemann 2014 的总结)表明,“科伊桑”并非有效的遗传分组——它只是至少三个独立语系加若干孤立语言的统称。共享的吸气音是一种区域特征,而非共同起源的证据。这是一个警示性案例:语言可以共享显著特征(如吸气音或代词),却并非密切相关。就我们的讨论而言,我们将科伊桑语言分开处理(Khoe、Tuu、Kx’a、Hadza、Sandawe)。有趣的是,Greenberg 的非洲分类并未将尼日尔-刚果语系与尼罗-撒哈拉语系或其他语系合并——他将它们视为独立语系。后来的某些语言学家曾推测更深层的联系(如将尼罗-撒哈拉语系与尼日尔-刚果语系联系起来),但这些仍属假说。代词相似性是这类推测性证据的一部分。总体而言,非洲宏观语系理论尚未得到证实,尽管代词模式提供了引人入胜的数据点。 ↩︎ ↩︎ ↩︎ ↩︎
Güldemann, Tom (2018). The Languages and Linguistics of Africa – Proto-Niger-Congo pronouns. 根据 Güldemann 引用的重构,原始尼日尔-刚果语(Niger-Congo)——这一庞大语系的祖语——第一、第二人称代词都以 m 开头。具体而言,第一人称单数为 mV́(前元音),第二人称单数为 mV́(后元音)。这意味着许多现代尼日尔-刚果语言保留了表示“我”的 m-(如 mí- 或 mɛ́-),以及表示“你”的 m- 或相关唇音(尽管往往通过元音或声调加以区分)。Babaev (2013) 提供了支持这些重构的详细综述。这种稳定性指向从原始语言的继承。(注:某些分支后来将第二人称转变为 w 或 b,仍然是唇音辅音。) ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Pagel, Mark; Atkinson, Q. D.; Calude, A. S.; Meade, A. (2013). “Ultraconserved words point to deep language ancestry across Eurasia.” PNAS 110(21): 8471–8476. 该研究发现,一组常用词——尤其是代词、数词和副词——具有显著更慢的替换率,其估计“半衰期”为 10,000–20,000 年。通过比较七个欧亚语系的原始词重构,作者识别出 23 个语义项目在四个或更多语系中可能存在同源词——远高于随机预期。这些超保守词包括 I, you, we, who, what, man, not, two, five, bark, ashes 等。代词在这组词中明显过度代表。研究团队的系统发育建模给出了约 ~15,000 年的共同祖先年龄(“欧亚语系”),与冰期结束时间相符。他们认为,高频使用赋予这些词高度稳定性,使得在超出传统比较法 5–8,000 年极限的时间深度上,仍可检测到谱系信号。许多历史语言学家对这些结论持怀疑态度(见注 7),但该论文为“代词和其他核心词汇可以保留深层谱系信号”这一观点提供了定量支持。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Wikipedia:“Eurasiatic languages.” 欧亚语系(Eurasiatic)是一个假设的宏观语系,包括印欧语系、乌拉尔-尤卡吉尔语系、阿尔泰语系(突厥语、蒙古语、通古斯语,有时还包括朝鲜语和日语)、楚科奇-堪察加语系、爱斯基摩-阿留申语系等。Greenberg 等人在 20 世纪 90 年代提出,这些语系共享共同起源。证据之一是代词范式和基础词汇的相似性。2013 年,Pagel 等声称为欧亚语系提供了统计支持,并将其年代定为约 15,000 年前。然而,这一概念被专业学者广泛否定。Wikipedia 页面指出,欧亚语系这一超语系的概念具有争议性,并未得到普遍接受。这反映了宏观语系研究的整体状况:像欧亚语系或诺斯特拉语系这样的提案颇具吸引力(且常使用代词证据),但在主流历史语言学界仍属未证实。 ↩︎ ↩︎ ↩︎
Güldemann, Tom & Elderkin, Edward (2010). 见 “Khoisan linguistic classification today”(载于 Brenzinger & König 编,2014)中关于 Khoe 与 Sandawe 代词相似性的讨论。文中表 8 将原始 Khoe-Kwadi 代词与 Sandawe 代词进行比较,发现可能指示远缘关系的相似性。例如,原始 Khoe 第一人称可重构为 *mi,第二人称为 *u 等,而 Sandawe 有类似形式(如某些语境下的 *ti 表示“我”、*ba 表示“你”)。作者称这些证据“颇有前景但尚不确凿”,用于支持深层联系。这表明,即便是非洲的“吸气音语言”(曾被统称为“科伊桑语”)在假定的语系边界之间也显示出代词相似性。这暗示其中一些孤立语言可能共享古老的祖先,或受到长期接触的影响。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Nichols, Johanna (2013). WALS Online – Chapter 137: “N–M Pronouns”(以及第 136 章:“M–T Pronouns”)。Nichols 绘制了两个大型代词范式区域聚集:一个是北欧亚的 m–T 聚集区,另一个是美洲的 n–m 聚集区。她指出,第一人称中的 m 几乎是“泛欧亚”的(在“大丝绸之路”区域无处不在),在非洲也很常见,而第二人称中的 m 在欧亚几乎不存在,却在美洲太平洋沿岸频繁出现。关键在于,这些分布并非全球普遍现象,而是地理上受限的,这表明其原因是历史性的(谱系或接触),而非先天倾向。Nichols 讨论了,既不能用音象征(儿童最先习得鼻音)也不能用纯粹偶然来解释这些聚集模式——相反,暗示了深层的历史起源。她还指出,尽管代词相似性暗示深层谱系,但单凭它们不足以证明;各区域内的语言属于多个语系,因此要证明共同起源还需要额外证据。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Wikipedia:“Amerind languages.” Greenberg 的美洲语(Amerind)假说(1987)提出,大多数美洲原住民语言属于一个宏观语系。一个关键证据是在许多美洲语言中广泛存在的第一人称 n-、第二人称 m- 的代词模式。这一模式最早由 Alfredo Trombetti 于 1905 年提出,Sapir 认为这一模式“颇具暗示性”,指向共同起源。然而,这一模式并非普遍存在(主要集中在北美和中美洲),而且“美洲语”分组并未被大多数语言学家接受。 ↩︎ ↩︎ ↩︎