摘自 Vectors of Mind —— 图片见原文。


[Image: Visual content from original post]蒸汽朋克良心(DALL·E)

你的良心与精神病性(psychosis)和进化有什么关系?为什么在人类这种社会性物种中,心理测量发现成功更依赖“书本聪明”(book smarts)而不是“人际聪明”(people smarts)?人格模型应该解释“我们是什么样的人”,还是“我们是如何走到今天的”?而这一切又与语言有什么关系?本系列试图回答这些问题。

感谢阅读 Vectors of Mind!免费订阅以接收新文章并支持我的工作。

α 与 β#

本博客的读者已经熟悉大五人格的起源。依托词汇假说(lexical hypothesis),勇敢的心理测量学家们着手绘制性格的语言版图。借助原始的词向量,他们将常见形容词的相关矩阵降维到少数几个维度。

[Image: Visual content from original post]早期“心理制图师”仰赖语言

在 1990 年代,领域逐渐围绕大五人格达成共识——它是此类数据前五个主成分的一种旋转。支持者的论点反映了当下关于该模型能完成什么的共识。

“[五因素模型] 并未提供,也从未打算提供人格动力学或人格发展模型。这并不意味着大五维度不能或不会在动力学和发展层面得到阐释,只是该模型的开发目的是解释特质描述之间经验上观察到的关系。” John and Robins (1994) Traits and Types, Dynamics and Development: No Doors Should Be Closed in the Study of Personality

人格是生活中理论最为丰富的领域之一。各地的人们——尤其是心理学家——都拥有关于特质如何关联与发展的因果模型。对于该领域的一般模型在这一话题上明确保持沉默,这是一种奇怪的状况。虽然也有一些基于大五的人格理论工作,但这通常涉及将这些因素再提炼为 1 或 2 个超因素(12345)。首个此类元特质的阐释出现在 1997 年,Digman 的论文 Higher-order factors of the Big Five。他的元分析是对 14 项不同大五研究中报告的 5×5 相关矩阵进行主成分分析(PCA)。前两个因素在各研究中表现出惊人的一致性,并与发展理论模型相契合。以下是他对第一个主成分的描述。

另一种可能性——一种将因素视为因果代理而非仅仅是相关变量集合的观点——是认为因素 α 代表了社会化过程本身。从弗洛伊德(1930)到 Kohut(1977),从华生(1929)到斯金纳(1971),不同立场的人格理论家一直关注于冲动抑制和良心的发展,以及敌意、攻击性和神经质防御的减少。从这一视角看,因素 α 就是人格发展的一切。因此,如果一切按社会的蓝图顺利进行,儿童会发展出超我,学会抑制或重定向本我冲动,并以社会认可的方式释放攻击性。社会化的失败则表现为神经症、超我缺失或过度攻击性。 ~John M. Digman, Higher-order factors of the Big Five

几十年后,这些因素的合法性仍在争论之中。一方面,有研究在多种语言中发现了这些相同的因素,并将它们与其他若干理论模型联系起来。在检验后者时,Saucier、Thalmayer 和 Payne 探索了其他文献中四种不同的理论推导系统是否是大二(Big Two)的旋转形式,并可归约为大二:

  1. 人际复合体(the interpersonal complex)

  2. 当前关于道德/温暖与能力的模型。

  3. 临床症状报告中最大的两个维度——内化与外化倾向——在正常范围人群中的表现。

  4. 接近与回避倾向,这是一种构建生物过程模型的突出理论路径。

另一方面,有人仍在争论这些因素与大五的关系。如果一开始就分析词汇数据而不是量表和构念,这个问题本可以解决。考虑这篇被广泛引用、对大二理论持批评态度的论文,它写于 Digman 发现之后十年:

[Image: Visual content from original post]Higher Order Factors of Personality: Do They Exist? 的摘要

图中文字摘自摘要。具有讽刺意味的是,正确的做法也在其中被提出:“因此,高阶因素和混合变量的假设只能用定义人格因素的低层次人格变量数据来检验。”

从条目层面看 α#

大五人格的基石之一是,它们是由在常见形容词上的词负荷所定义的。当我们对大五做 PCA 时会发生什么?我们必须回到“定义人格因素的变量”——词语。

[Image: Visual content from original post]心理学家重新发现词汇假说

再从另一个角度想象。假设你拥有词层面的问卷数据并进行 PCA,提取出五个因素。如果你报告的是 varimax 旋转后的结构(即大五),那么别人能多好地恢复未旋转的因素呢?

好消息是,我们有数据可以一探究竟。Saucier 和 Goldberg 发表了 435 个形容词的大五词负荷。他们也慷慨地公开了条目层面的问卷数据。每个词由 900 名学生对“该词描述自己程度”的评分来定义。基于此,我们可以计算这些词在未旋转因素上的负荷。我也对论文中报告的大五负荷做了 PCA。下图展示了两者的相关。按照 Digman 的做法,后者用希腊字母命名。我们预期可以恢复原始因素,但会有失真,因为部分方差会因 varimax 旋转而被重复计算。

[Image: Visual content from original post]x 轴:S&G1996 的未旋转主成分。y 轴:S&G 报告的大五词负荷的主成分

无论哪种计算方式,前两个主成分的对齐度分别为 0.8 和 0.91。即便只公布了旋转后的因素,人们仍能相当好地勾勒出未旋转因素的轮廓。如果我们“疯一点”,可以 通过设计一个量表来进一步远离词汇主成分,以逼近旋转后的因素(例如 BFI)。对这些因素做 PCA 将得到一个更加失真的第一主成分版本。这正是 Digman 所做的分析。由于对数据进行了如此远离源头的处理,他无法就大二与大五、语言或一般人格之间的关系做出有力论断。然而, 它们在构造上本就是词汇数据中前两个未旋转因素的失真版本。 Alpha 和 Beta 就是大五在不做 varimax 旋转时的前两个因素。

成千上万的论文引用了 Digman,其中许多是在反驳他的主张。据我所知,没有哪篇论文用这个简单的论证来解释大二。在文献中,它们通常被视为与大五存在_层级性_关系。

事实上,上面被做成 meme 的那篇代表性论文,分析的数据甚至比 BFI 更远离语言。作者手头有大量条目或词层面的数据,却没有使用,而是依赖于大五方面(Big Five Aspects),而这些又是从已经派生出的大五因素中再派生出来的。

与大五的关系#

在人格科学中,有一个鲜为人知的事实:在大五中,前几个因素远远压倒后面的小因素。考虑下图中 435 个形容词的特征值。它们代表了每个因素在问卷和 NLP 数据中解释的方差(人格信息)量。

[Image: Visual content from original post]

第一个因素是第五个因素的 8 倍之大;而“大五”这样的名称掩盖了这种差异。Varimax 旋转会导致人格信息的再分配。内容从第一个因素被移到其余因素上。如果没有这种“加持”,最后 2–3 个因素只是“跟班”。在增加方差后,它们被拉到同一水平,分别成为:尽责性(Conscientiousness)、神经质(Neuroticism)和开放性(Openness)。即便如此,开放性也并不总能被稳定地恢复,且常与智力等其他特质混在一起。这种旋转对第一主成分——α——是不利的,它被变成了宜人性(Agreeableness)。

[Image: Visual content from original post]

如上表所示,第一主成分被分配到每一个因素(除了神经质),而宜人性主要由前三个未旋转因素构成。从第二主成分中抽取了一些“反动力性”(anti-Dynamism),从第三主成分中抽取了一些“反秩序性”(anti-Order)。(关于未旋转因素的内容,详见这篇文章,其中包含从语言模型中推导它们的代码。)是否有人能像 Digman 描述 α 那样优雅地描写宜人性?原始构念的大部分内容都丢失了,两者相关仅为 0.64。这破坏了简单结构,导致了大量混乱,包括低估词汇数据的理论丰富性。萨鲁曼(Saruman)对类似过程有一段解释:“你可知道半兽人最初是如何产生的?他们曾经是精灵,被黑暗之力掳走,遭受折磨与残害。成了一种堕落而可怖的生命形态。”

[Image: Visual content from original post]宜人性在多年统计“拷打”后浮现

我们本可以几十年来一直测量 α,但最终却得到了宜人性,以及关于两者关系的混乱。(事实证明,是精灵→半兽人。)这个论点是我和 David 在《深度词汇假说》第一项研究中提出观点的更具画面感的版本:尚不清楚最后 2(或 3)个因素在统计上是否合理。显然,我_也_恰好是 α 的忠实拥趸,并认为再好的模型也无法弥补将其所含思想分散开来的损失。即便该模型包含了额外有用的因素。(顺带一提,我的合著者与这一“未授权版”论证毫无关联。)

既然我们能获取词层面的数据,不妨更仔细地看看 α。

α 是什么?#

通过回到语言数据,我们可以在不受 varimax 旋转和量表设计扭曲的情况下观察 α。当然,问卷本身存在问题。它们往往在 WEIRD(西方、受教育、工业化、富裕、民主)本科生中收集,这些人未必都清楚所有词的含义。问卷很无聊,准确填写对个人也没什么好处。自然语言处理通过在数量级更大的数据中、利用来自各行各业说话者的文本来发现词语关系,从而解决了这一问题。对于更熟悉问卷的人,请放心,两种方法在第一主成分上的相关为 0.93。使用与 Saucier 和 Goldberg 相同的 435 个词,以下是 α 两极上负荷最高的前 30 个词:

considerate, peaceful, respectful, kind, courteous, unaggressive, polite, agreeable, cordial, reasonable, pleasant, benevolent, compassionate, understanding, charitable, helpful, accommodating, cooperative, amiable, tolerant, humble, trustful, patient, genial, altruistic, easygoing, modest, unselfish, friendly, down-to-earth, generous, diplomatic, mannerly, relaxed, selfless, sincere, undemanding, warm, tactful, affectionate

对比

abusive, belligerent, disrespectful, quarrelsome, unkind, rude, bigoted, intolerant, inconsiderate, uncooperative, irritable, vindictive, impolite, prejudiced, antagonistic, ungracious, crabby, egotistical, cruel, surly, uncouth, cranky, scornful, impatient, selfish, egocentric, possessive, greedy, jealous, tactless, combative, callous, conceited, bitter, uncharitable, unsympathetic, unruly, unstable, bullheaded, unfriendly

Digman 对这一因素给出了不错的描述,只是用语对本世纪来说过于弗洛伊德式。如今的表述会是:社会性自我调节(social self-regulation)。 即一个人能多好地调节自己的欲望/信念/目标,使他人的生活变得愉快。语言是社会的视角;因此 α 代表了社会的认可。

Saucier 指出,大二与道德相关;而道德领域在两千年前就已被很好地概括。据说有一位潜在的犹太教皈依者,要求拉比希列(Hillel)在单脚站立的时间内解释律法和先知的教导。他回答说:“你所厌恶的,不要施加于他人:这就是全部的《托拉》,其余的都是注释。”上面的词表同样可以被归结为黄金法则(Golden Rule)。你是否体贴?你是否促成和平?你是否避免施加虐待?

GFP 登场#

事实证明,几乎任何人格问卷的第一主成分看起来都像 α。关于药物依赖、精神障碍,或你对狼人怎么看的问卷——都会返回一个可疑地相似的第一主成分。这被称为人格的_一般_因素(general factor of personality,GFP)。如果你在寻找超出“己所不欲,勿施于人”的_注释_,这里有一大堆相关文献可供阅读

尽管具有普遍性,人们仍在争论它究竟是什么。看看即便是支持者在总结现状时也采取的谨慎措辞。

“大量研究和元分析已经证实,人格特质往往彼此相关,从而出现一个人格的一般因素(GFP)。然而,关于这些相关以及因此而来的 GFP 所代表的含义,仍存在持续的争论。一种解释认为,GFP 反映了一个实质性因素,指示一般的社会效能或情绪智力。另一种解释则认为,GFP 仅仅是基于测量或反应偏差的伪影。” Van der Linden 等,Is there a Meaningful General Factor of Personality?

因此,α 现在更常被称为 GFP。除了关于它与大五关系的公开争论外,有人认为它是统计伪影。最后,正如该综述标题所提出的:它是否是一个_有意义的_一般因素?

GFP 在何种意义上是“一般”的?#

在什么意义上 GFP 是一般的?g 之所以是一般因素,是因为:1)它在每个智力分测验上都有显著负荷;2)它能解释测试数据的大部分方差;3)它在外部效度上高度可靠。GFP 满足第一点。几乎不可能测量任何构念而不“捎带”上一些 GFP。

在第二点上,Revelle 做了很好的工作,通过比较特征值来展示,GFP 解释的数据远不如 g 那么多。这实际上可以追溯到本博客名称的来源,《心灵的向量》(The Vectors of Mind)。智力研究在将测试数据降维到一个维度方面取得了巨大成功。Thurstone 意识到,要恰当地表征人格,需要更多维度。记住,我们有许多词来描述一个人是否聪明;智力是人格的子集。因此,我们预期人格模型必然更加复杂。NLP 使用的是词向量,而不是“词标量”。Thurstone 正是出于这个原因发明了多因素分析:需要不止一个因素!

此外,我想指出,智力测验中存在一种方法偏差,会夸大第一特征值。量表设计为题目非对即错。从心理测量角度看,这是一个好策略:易于计分。尽管难以测量,讲一个引人入胜的故事也需要智力。如果有人设计出一个量表,它很可能与智力的第二主成分——语言倾向(verbal tilt)——而非 g 相关更高。这并不是对智力研究的贬低,只是指出:易于计分的内容会强调那个巨大的单极第一主成分。也许这对“地图”来说是个好特性,只要不把它误认为“领土”本身。

这将我们引向第三点。依我之见,人格更难测量,因此将 g 与人格得分进行比较有些误导,因为后者更容易被噪音污染。我感兴趣的是特质本身,它们可以通过词向量来测量和描述,而无需引入基于人的量表。正如我之前所说,转换到词空间。即便有这些保留,Roberts 等人仍提出了一个有说服力的论证:在众多研究中,人格与社会经济地位(SES)和智力在预测人生结果方面不相上下。

综合这三点,我为 α/GFP 提出另一个名称:_人格的首要**因素(primary factor of personality,PFP)_。**Primary 的含义是:

  1. 最重要的;首要的。

  2. 时间或顺序上最早的。

这一人格因素同时符合这两点。GFP 这一名称具有误导性,因为它并不类似于 g;要构建一个_一般_模型,需要更多因素。

PFP 是统计伪影吗?#

一篇2013 年的论文开篇写道:“关于 GFP 的压倒性主流观点是,它代表了一种伪影,要么源于评价性偏差,要么源于以社会期许方式作答。”从词汇角度看,那是谁的反应?词向量?整个 reddit?如果它是伪影,为什么还要通过 varimax 旋转把它扩散到大五的其他部分?两边都要可不行。

结论#

心理测量学是一片没有“地面真相”的土地1。因此,只要有机会,我们就应该牢牢抓住词汇假说。

“……我们共同拥有的词汇储备,凝聚了人们在许多世代的生命历程中,所发现值得加以区分的一切差异,以及值得加以标记的一切联系:在所有普通而合理的实际事务中,这些区分和联系必然比你我在某个下午坐在扶手椅上凭空想出来的更为丰富、更为可靠(因为它们经受住了‘适者生存’的长期考验),也更为微妙——而那恰恰是最受欢迎的另一种方法。” J.L. Austin, A Plea for Excuses

正因如此,我更愿意用“黄金法则”来描述 PFP。许多学科更偏好构造不带“数百万人生命印记”的术语。人们认为,这样包袱更少,也能更精确地表达。但这往往会将知识困在象牙塔中,与日常——人类——现实脱节。下一篇文章将论证:沿着 PFP 的进化,将我们从野兽转变为拥有集体良心的物种。如果在心中把 PFP 存成更冷冰冰的“社会性自我调节”(social self-regulation),这一联系就更难看见。或许这有些浪漫化,但词语确实重要。

有点讽刺的是,John 在 No Doors Should Be Closed in the Study of Personality 一文中论点的成功,反而在实践中关上了词层面研究的大门。既然已经有了精简的一般因素,为什么还要研究难以驾驭的词汇表?本文从词汇视角审视了 α、β 和 GFP,使我们得以回答长期存在的问题:它们如何与大五相关,以及它们是否不仅仅是统计伪影。这些对领域内的人来说是否显而易见?对工业与组织心理学(IO psychology)有何启示?PFP 的量级能告诉我们关于进化和宗教的什么信息?

立即订阅

[Image: Visual content from original post]科学家发现人格的首要因素


  1. 在他那本内容晦涩的《Clocking the Mind》中,Jensen 指出,反应时是唯一具有物理意义单位的心理测量变量。其他一切都必须相对于某个人群进行常模化。词汇假说的价值在于,它为我们提供了一个与物理和社会世界相联系的参照框架。 ↩︎