摘自 Vectors of Mind —— 图片见原文。
“太初有道,道与心理学同在,道就是心理学。”——新向量译本
所有人格构念最初都是由词语描述的。从弗洛伊德在可卡因驱动下构建的模型,到一本正经的“大五人格”,它们在某个阶段都只是词语。大量学术心理学研究都在比较构念。要做到这一点,它们必须共享一个基础,通常是一组被试。被试会被给予一个工具(通常是问卷),用来近似他们在构念空间中的位置。基于被试反应的协变模式,研究者再对这些构念做出一般性论断。在这篇文章中,我们探索另一条路径。NLP 的进展允许我们在构念的自然栖息地——语言中,对构念进行定量比较。
路线图#
在上一篇文章中,我论证了大五人格就是词向量。这一篇对独立量表提出同样的主张,从而允许在不涉及被试的情况下比较构念。为展示这一点,我会引入一个广义人格模型,以及一种在词语空间中表征构念的方法。大纲如下:
在被试空间 vs 词语空间中比较构念
被试空间的问题
使用被试将亲属利他与互惠利他关联到大五人格
在词语空间中进行同样的比较
引入一个(暂时的)通过 NLP 识别出的五因素模型
将利他主义相关词投射到该空间中
代码在这里可用。
讨论、局限与未来工作
一条曲折的道路#
要将利他主义与大五人格进行比较,信号必须经历许多次转换:利他主义(理想)→ 被词语描述 → 开发出一个问卷(并希望已被验证)来近似这一构念 → 发给被试,被试解读这些词语并审视自己的内心 → 被试的利他主义得分 → 在被试空间中的相关性 ← 被试的大五人格量表(BFI)得分 ← 被试解读 BFI 条目并审视内心 ← 开发 BFI 以近似测量这一构念 ← 通过质性描述来定义/传达大五人格 ← 大五人格(由词语负荷定义)。随后,人们便对两个理想——利他主义与大五人格——做出论断。
笔直而狭窄的道路#
为什么不用词向量作为共享基础,而不是被试?路径会直接得多:利他主义(理想)→ 被词语描述 → 向量化到词语空间 → 在词语空间中比较 ← 大五人格,如上一篇文章所述,它已经存在于词语空间中。若要记账,这里是 4 次转换对比 10 次转换。(计分方式类似高尔夫,越少越好。)
[图片:原文中的可视化内容]统计现实造访心理学领域。这几年过得不太好。
启示者 Tal#
使用被试来对语言构念做出论断的困难并不是秘密。
“心理学中的大多数理论和假设本质上是语言性的,但对它们的评估却压倒性地依赖推断统计程序。从质性分析到量化分析的转变,其效度取决于假设的语言表述与统计表述高度一致——也就是说,这两者必须大致指向同一组假设观察。在此,我主张,心理学中许多统计推断的应用未能满足这一基本条件。”——Tal Yarkoni,《可推广性危机》
这里的效度指的是一个分数是否捕捉到其意图测量的构念。值得通读他的论证与例子。但对我们来说,关键在于:在这些现实条件下可以做什么。他提出:
做点别的(转去其他领域)。
拥抱质性研究
采用更好的标准(包括 7 条建议)。
“人们总是可以假装:从极其狭窄的统计操作化中获得的小 p 值,足以为关于复杂心理构念的宏大语言推论提供充分基础。但其他人——无论是同行、资助方、公众,还是长期的科学记录——都没有义务配合这场闹剧。”
即便你对心理学研究的看法没那么悲观,读者肯定也被那种“做了实验却只与其声称的结论勉强相关”的论文伤过心。所有现成的解决方案都很痛苦。这个领域也许不得不采纳更狭窄的视角,把大问题留给研究历史、文学和线性代数的人。我提出另一条前进道路。
转化到词语空间。4. 使用词向量作为共享基础#
构念本就共同栖居在词语空间中,但当我们进行比较时,却把它们拖进被试空间。这是一个巨大、损耗严重、又麻烦的过程。如果它们能安全地留在词语空间中会怎样?自然语言处理的基本设想是:词语是连续空间中的向量。对这些向量进行分析,在万亿美元产业中已经足够承重运,而且目前正被(重新)引入心理学。
以身作则#
这里我们会先看一项在被试空间中完成的传统研究,然后尝试通过转移到词语空间来改进它。为避免树立稻草人,我选择的对象是《亲属利他、互惠利他与大五人格因素》,该文已被引用数百次,其第一作者的 h 指数为 70。
被试通过三种工具测量:大五人格(通过形容词问卷)、共情/依恋与宽恕/不报复(短语问卷),以及在一个分钱游戏中的利他行为。由于作者假设宜人性与情绪稳定性(又名神经质)的“夹缝空间”可以区分两种利他,因此添加了一些词语以更好地测量该区域。同样地,他们设计了一份新问卷来测量共情/依恋与宽恕/不报复,理论上分别与亲属利他和互惠利他相关。对于这类研究而言,他们还额外使用了一个游戏来测量利他行为,可谓“超额完成任务”。
“在用于测量亲属利他的金钱分配任务版本中,另一方被描述为一位亲密朋友——与被试有长期友谊史、并且与被试有许多共同点的人。我们希望,通过将这段友谊描述为一段旧友谊,并将这位朋友描述为与被试非常相似的人,这段友谊会与人们和亲属的关系非常相似。我们之所以没有使用亲属作为潜在的利他对象,是为了避免因具体亲属的不同而引入反应差异;例如,许多人可能更愿意对某个兄弟姐妹而不是另一个兄弟姐妹表现出利他行为。”
换句话说,为了不让真实的亲属情感“玷污”数据,他们测量的是互惠利他。
“在用于测量互惠利他的金钱分配任务版本中,另一方被描述为一个不合作的人——对被试粗鲁、恶劣且不体贴。”
而为了测量互惠利他,他们测量的是……未被回报的利他?自然地,数据中出现了一些相关性,于是作者得出结论:
“本研究结果支持这样的观点:涉及共情和依恋的人格特质促进主要指向亲属的利他(即亲属利他);而涉及宽恕和不报复的人格特质促进主要指向非亲属的利他(即互惠利他)。”
但如果互惠利他从未被测量,结果又如何能支持这一主张?正如 Tal 所指出的,心理学论文中的统计往往只是修辞上的点缀。但我们没必要配合演出!让我们看看词语空间会怎么说。
流奶与蜜之地(欢迎来到词语空间)#
在传统研究中,由于将被试映射到人格空间的成本很高,研究者一次只能在少数人格区域中获得高分辨率数据。这就是为什么作者要重点探查共情与不报复,以及宜人性与情绪稳定性之间的空间。所有这些轴线在常规大五人格空间中都已存在,但被非常精细地测量。在词语空间中,我们可以将利他主义与完整的大五人格进行比较,享受它们的高清全貌。在我的 github 上,有 2819 个词向量被降维到五个主成分。出于方便,我们可以使用这些。首要任务是为每种利他主义选择一组描述性词语。对于亲属词,我选择了体现家庭角色的词:brotherly, sisterly, mothering, motherly, fatherly, grandmotherly, grandfatherly, wifely, maternal, paternal. 对于互惠利他,我遵循 Trivers 的定义。
“关于人类的互惠利他,本文表明,调节这种利他的心理系统的细节可以通过该模型来解释。具体而言,友谊、厌恶、道德攻击、感恩、同情、信任、怀疑、可信赖性、内疚的某些方面,以及某些形式的不诚实和虚伪,都可以被解释为调节利他系统的重要适应机制。每个个体人类都被视为同时具有利他与欺骗倾向,其表达对那些被选择出来、用以在当地社会与生态环境中设定适当平衡的发育变量十分敏感。”——Robert Trivers,《互惠利他的进化》(加粗为引用者所加)
考虑到这一点,我选择了:discriminating, unforgiving, vengeful, loyal, neighborly, cooperative, trustworthy, 和 fair. 这大致在偏向合作的同时,当事情出错时又会诉诸道德攻击。此外,它试图将这种利他主义刻画为作弊的对立面(例如 fair、trustworthy)。
(关于信任演化的精彩解释,见这个交互式演示。)
向您介绍未知的五因素模型?#
理论上,我们可以使用通过问卷得到的大五人格词语负荷,但其中大多数词语都太罕见,以至于不会被包含在内。这反而是好事,因为你不太可能通过心理学学生的自我报告,得到对 grandmotherly 的良好估计。因此,这里使用的是通过语言模型 RoBERTa 计算的词向量。基于一个大型且特征良好的人格词列表,得到的五个因素简述如下:
亲和(或社会化)。你有多想让这个人成为你队友?类似宜人性,但不包括“任人宰割”。例如,gullible 在亲和上负荷中性,但在宜人性上负荷为正。
活力。与外向性非常接近,但更多关乎冒险感,而较少关乎自信。
秩序。带点锋芒的尽责性。实现自我目标的能力。exacting vs mushy。
情感依恋。而神经质关注的是不稳定性,这个因素则关乎依恋;caring 和 spiteful 都在其上高度负荷。
超越性。该因素的特征词包括 unique, complicated, star-crossed, handicapped, mystical, heartbroken, other-worldly,与 unphilosophical, fancy-free, pigheaded, boorish, materialistic, self-centered, glib 相对。它涉及超越自我与世俗的凝视。而这一过程显然与痛苦纠缠在一起。事实上,“troubled”在超越性上的负荷高于在情感依恋上的负荷(后者与神经质相关)。
前三个因素的名称借用了 De Raad 的泛文化研究,因为在质性上,它们与该研究的匹配度高于与大五人格的匹配度。每个因素都值得单独写一篇文章。(对工业心理学从业者而言,我怀疑“秩序”与商业成功的相关性高于尽责性,因为它更偏向算计,而不是按时出现。)但提出模型并非我的强项,更精细的语言研究即将到来,可能会产生不同的结构。就目前而言,这些因素已足够使用。以下是它们与大五人格的相关性:
结果#
利他主义相关词在前四个因素上的负荷(超越性在本研究中不重要):
[图片:原文中的可视化内容]拥有牢固的家庭纽带(高亲和)是亲社会的,虽然有点无聊(活力中性到偏低)。所有词语都映射到相似的位置。
[图片:原文中的可视化内容]家庭相关词在情感依恋上负荷很高。注意,父母与祖父母关系高度性别化。男性的依恋程度较低,正如 Trivers 的父母投资理论所预测的那样,统计数据也支持这一点。然而,兄弟与姐妹的依恋程度相当,且低于父母。仔细想想,wifely 不该被纳入关于血缘亲属的利他主义中。与日间脱口秀一致,它在依恋上的负荷低于 motherly 或 grandmotherly。
[图片:原文中的可视化内容]互惠相关词试图捕捉在合作者合作或作弊时,理想的“以牙还牙”行为。因此,这些词分布得更分散,尽管仍大多为正向。即便是“discriminating”也是略微正向,这意味着我认为该词并未被编码为类似“种族歧视”的含义——有时这些语言模型会被语音相似性搞糊涂(例如 eccentric 与 ethnocentric)。
[图片:原文中的可视化内容]合作与邻里友好略微暗示了个人目标退居次要地位。不宽恕与善于区分则属于那些“认真做事”的人。
为了比较两种利他主义,我们希望将每组词语压缩为一个向量。(这里有讨论空间:鉴于互惠利他——在较小程度上还有亲属利他——在不同情境下需要不同反应,这样做是否有意义。)一种廉价粗糙的解决方案是将每个构念视为一个词袋,然后取平均值。平均负荷如下:
[图片:原文中的可视化内容]这些是相对于全部 2819 个词进行 z 标准化后的结果。平均而言,亲属词在亲和与情感依恋上都高出 1–1.5 个标准差。
[图片:原文中的可视化内容]互惠利他还涉及秩序,即实现自我目标。
[图片:原文中的可视化内容]差值:亲属减去互惠的负荷。由秩序主导。
讨论#
我认为,那篇在被试空间中的论文并未包含对亲属利他或互惠利他的有效测量,因此并未增进我们对它们与人格关系的理解。这种失败模式出奇地常见。词语空间为避免无效比较提供了一定保障。我们对一个词在词语空间中应处何处的直觉,要比对 112 号被试应如何回答问卷的直觉好得多。错误更容易被发现。
从贝叶斯视角来看,在被试空间与词语空间中发生的是不同的事情。包含被试的实验试图为问题带来新的信息,希望能更新读者的世界观。但研究者(以及普通人)拥有大量社会经验,对心理过程的感知也比一份问卷提供的快照更敏锐。要真正“拨动指针”很难。词语空间更像是在可视化我们的先验,而不是生产新知识。这一视角很有价值,因为语言可以说是“轮胎接触地面的地方”。正如 J. L. Austin 所说:
“我们共有的词汇储备,体现了许多世代以来,人们认为值得划分的所有区分,以及他们认为值得标记的所有联系:在所有普通而合理的实际事务中,这些区分与联系肯定比你我在某个下午坐在扶手椅上想出来的——那是最受欢迎的替代方法——要更多、更可靠(因为它们经受住了适者生存的长期考验)、也更微妙。”——《为借口辩护》
在词语空间中进行分析相对直观。与其摆出一堆相关系数与 p 值,不如直接将词语绘制在感兴趣的坐标轴上,然后做出视觉判断。亲属利他相关词在亲和与情感依恋这两个唯一具有显著负荷的因素上紧密聚类。父亲而非兄弟的依恋程度低于其女性对应者,这与 Trivers 的父母投资理论一致。兄弟与姐妹有同样的理由照顾自己的兄弟姐妹。然而,父亲照顾孩子的理由少于母亲。精子廉价,卵子与怀孕昂贵。
互惠相关词分布更分散,反映了在不同情境(伙伴合作或背叛)下理想反应所需的不同特质。最显著的差异是其在秩序——实现自我目标——上的平均负荷更高。互惠利他最初被称为“延迟回报利他”(delayed return altruism),它并不是为了陌生人牺牲自我,而是通过亲社会的方式投资自己的未来。另一方面,亲属利他指的是即便以自我为代价也要帮助家人,因为自私的基因在牵动你的心弦。这在亲属利他相关词在情感依恋上的更高负荷中显而易见,支持 Ashton 的假设。但主要的“动作”发生在秩序上,远离被试空间工具被设计用来探测的区域。被试空间中的抽样成本使得结果更依赖研究者的先验。
解读这些图表有点像读茶叶渣,但我对这里呈现的内容大约有 70% 的把握。有一点让我犹豫的是,两种利他主义被以不同方式表征。亲属词全部描述的是关系(如 mother, father, brother),而互惠词则混合了关系(如 neighbor)与适用于重复正和博弈的特质(如 vengeful, discriminating, cooperative)。撇开不确定性不谈,如果我能在一个下午运行一项实验,结合数百万人真实利他经验,那不是很酷吗?这些经验体现在:几代人对“paternal, sisterly, neighborly”意味着什么达成的共识。正如使用任何新信号源一样,人们一开始总是“凭感觉乱打枪”。最终,蛮荒西部会被驯服;方法与启发式会逐渐成形。改进空间巨大。读者可以调整词语集合,并使用这个colab 笔记本在几分钟内得到新结果。请务必试试!
词语空间的优势#
与词汇假说相连。扎根于去中心化的社会现实。
转换更少。每一步都是有损的,并引入偏差。
转换到词语空间之后,统计负担更轻。(进入门槛更低。)
有效样本量(通过在 reddit 评论、写书或 pubMed 文章中为语言模型贡献数据的人)远大于大多数研究,且更为多样。
掌握 NLP 的心理学博士有更好的就业前景。
更容易开展多语言/多文化研究。一些模型是同时在 100 种语言上训练的(这也是 Meta 如何在样本稀少的语言中训练仇恨言论过滤器的方式)。
开放科学。
劣势#
活动部件更多。一个语言模型里有数十亿参数!然而,即便是数十亿个神经元与几十个训练决策,也能产生稳定的表征。任何像样的语言模型都能完成这样的类比:“husband 之于 wife,如同 king 之于 ____”。
无法按人口统计特征细分结果。有时我们会对 25–30 岁的小学教师的人格感兴趣,或者想知道某个构念与犯罪记录的相关性。在词语空间中这是不可能的。
语言模型不是有偏见吗?嗯,不会比自我报告更有偏见。
将利他主义定义为一堆词向量之和(即词袋)有点“土法上马”。这里有大量改进空间。
[图片:原文中的可视化内容]心理学家们愉快地又在被试空间里徘徊了 40 年。
外邦之神#
“我认为卡夫卡是对的,他说,对现代人而言,国家官僚体制是与神圣维度唯一剩下的接触点。”——齐泽克,《意识形态的崇高客体》(A Pervert’s Guide to Ideology)
他在这里描述的,当然是向伦理审查委员会提出上诉时那种超越性的感受。我有一个预测。从信号处理的角度看,词语空间是正确且良善的选择,但它的采用将同样多地由“不受监管的便利性”所驱动。相应的推论是:伦理审查委员会将是第一个宣布语言模型具有感知能力的政府机构。
[Image: Visual content from original post]John spreading the good word space
Preparing the way#
我们希望从语言模型中提取构念之间的关系。要以增加信号而非增加噪音的方式来做到这一点,需要大量的验证工作。最初,这意味着要与已经非常成熟的问卷调查结果进行比较。它们能否通过词向量被“恢复”出来?它们在何处失效?一旦这一点得到确立,每一篇以“需要进一步研究”结尾的论文,都应该找到一种方式,在词语空间中提出同样的问题。
我花了一年多时间微调一种方法,用来从当时的最先进模型 RoBERTa 中提取人格关系。不久之后,GPT-3 发布了,而且开箱即用的表现就更好。计算能力胜过领域知识,是人工智能领域反复出现的苦涩教训。计算能力呈指数级增长。如果你能通过领域知识在通用机器学习方案之上获得 30% 的提升,你也可以选择等待算力追上来,然后用通用方法获得同样的结果。因此,找到将心理学问题与现成 NLP 模型关联起来的方式,是一条很好的前进道路。大约每六个月就会有一个性能显著更好的新模型公开发布。那些在验证词语空间的人,正在为更强大的智能——PaLM、GPT-7、OSCar(O ptimal S entience Car tography)——降下心理学真理做好铺路工作。
自然语言中充满了关于世界的共享理论。既然我们现在可以对它们进行量化,它们难道不能被用作证据吗?
如果你觉得这很有趣,请分享!
