形式与测量

摘自 Vectors of Mind —— 图片见原文。

IQ 一向被视为“硬核”的心理测量选项。那些愿意接受事实而非情绪的人，会承认它的至高地位。但这是一种“偷来的荣誉”！情绪智力对人类进化和“美好人生”是根本性的，但却难以良好测量。IQ 则恰恰相反。它被设计用来从我们最好的心理测量工具中提炼信息，但我们并不理解它与“智力”之间的关系。测量的容易程度不应与重要性混为一谈。尤其是在 IQ 与智力之间的关系尚未被理解的情况下——这一点连它最狂热的支持者也承认。

形式 vs. 测量#

特质存在于两个层面。第一个层面类似于它们的柏拉图式“形式”（Platonic form）。一种理想化的版本，作为抽象而存在。想想毕达哥拉斯定理：a^2 + b^2 = c^2。无论你如何摆放斜边（c），只要你测量两条直角边的长度，它们总是遵循这个公式。在几何学中，存在生成观测数据的规则，这并不令人惊讶。心理学中的情况要混乱得多，但仍然存在潜在的规则。小鸭在孵化后 36 小时内会对照料者产生印刻。你的外向性（Extroversion）程度可以预测你在派对上的表现以及你在公司 Slack 上的行为。弗洛伊德和马斯洛之流则试图为我们的行为寻找更深层的解释（例如本我、自我和超我）；他们是否正确识别了这些东西，在这里并不是重点。

心理测量学的自负之处在于：潜在特质也可以被测量。心理测量工具——通常是问卷或测试——可以把个体映射到某个理论化的轴上，比如外向性。当然，这个分数只是对“形式”的近似。但它让研究者可以在统计学的世界中操作，而不必仅仅在语言上与“形式”纠缠（尽管即便是定量研究，最终也必须在这个混乱的语言领域中被表达出来）。

测量过程极其“有损”。假设你想测量某人的“经验开放性”（Openness to Experience）。为此，你必须设计一份问卷，包含你认为相关的条目。这归根结底取决于人的判断。通过将经验开放性得分与其他潜在相关变量进行比较（例如大脑连通性，或一个人护照上的签证章数量），可以增强信心。但最终，这种近似的保真度是不可能真正知晓的。我们没有可以对照的“地面真相”（ground truth）。

关于测量工具的事实，可能会导致对“形式”的混淆。想象一下，如果我们所有关于金星的照片都来自伽利略的素描，而我们却有来自哈勃望远镜的火星照片。有人可能会说：“看看火星边缘多么清晰。看看那红色！这显然是最棒的行星。”但行星存在于我们的测量工具之外，智力亦然。考虑到这一点，让我们来定义 IQ 和 EQ。

人格的一般因子（GFP）#

与其谈论情绪智力，我将讨论 GFP。我希望你能原谅这种“诱饵与调包”；不过，这似乎是有理由的。在一项元分析中，Van der Linden 等人发现 GFP 与情绪智力的相关为 0.85，并称二者“非常相似，甚至可能是同义的”。此外，正如我们将看到的，GFP 和 IQ 的推导方式是类似的。

GFP 有几种定义。先从那些涉及其统计本质的定义说起。你可以施测任何广泛的人格测试，然后做降维分析，以找到数据中最重要的“潜在因子”（latent factor）。这就是 GFP。关于应使用何种最佳统计方法，学界有“圣战”般的争论，但基本思想是：问卷可能包含 100 个条目。这让你获得关于某人的 100 个信息维度，非常难以处理。降维分析会找到一种方式来给问卷打分，用一个数字最大化地概括某人对问卷中每个问题的回答。不同问题会被赋予不同权重，通过分析这些权重，你就可以描述这个潜在因子到底在讲什么。事实证明，如果你用任何一组问题、在任何一群人身上做这个练习，从质性上看，结果都非常相似。主导性的潜在因子总是类似于：“诚实、体贴、善良。一个你会想要他在你团队里的人。”¹ 对心理测量迷来说，同样的一致性（虽然弱一些）也出现在前五个潜在因子上，即大五人格。

从语言中可视化“形式”#

我开这个博客，是因为看到了用自然语言处理更直接地处理人格的柏拉图式“形式”的未被开发的潜力。大五人格的理论基础是“词汇假说”（Lexical Hypothesis）。它假定人格本质上是一种品格判断，而这样的判断每天会被做出数以百万计次。这些判断又通过语言被传达，因此，这些判断的轮廓应当反映在我们用来彼此评价的全部词汇之中。通过量化这个空间——大规模的“八卦轮廓”——我们可以找到人格的潜在因子（大五人格）。下面是 100 个人格形容词在两个最重要潜在因子上的投影。

[图片：原文中的可视化内容]因子 1 和因子 2 是用 PCA 得到的，这是一种将人格信息压缩到最少坐标轴的方法。关于如何从词向量中得到这些因子，详见我的论文 Deep Lexical Hypothesis。你也可以用我的代码复现这一结果（以及更多），该代码可在 Google Colab 上免费运行。

图中的这些词，是在数千年的八卦中锤炼出来的。现代语言模型吸收了互联网中的大量内容以及大部分曾经写就的书籍。抽取词与词之间隐含的关系，让我们得以在“形式的世界”前排就座。但这只是一个可视化。真正的奖品是理解上面因子 1 所代表的是什么——生成它的规则²。

乍一看，它似乎只是_好_ vs 坏，但我们必须思考这些数据是如何产生的。语言结构代表的是社会的视角，即他人喜欢与之打交道的那种人。因此，我的贡献是盯着这条轴，把它与“黄金法则”（Golden Rule）联系起来。你是否_体贴_、令人愉快、聪明？你是否避免_辱骂_、不宽容_或_不合作？在其核心，这表明一种践行黄金法则的倾向。至少这是我的主张。该领域内部对此存在相当大的争论。

另一种定义是社会效能。对我来说，这无法通过“希特勒检验”。元首显然是_高效_的，但一点也不友善。根据图中的词，这一特质涉及关心他人的福祉，因此它不可能_只是_与效能相关。其隐含目标是让他人变得更好，而不是只顾自己。

它也远不止“宜人”或“令人愉快”。注意到，聪明的（intelligent）和_有知识的_（knowledgeable）也都与这一因子相关。践行黄金法则实际上是一项微妙的操作，需要对自己的心智以及他人的心智进行建模。这样做能让个体达成双赢协议（人类社会正是建立在这种行为之上）。这并非简单任务，因此，轻信的（gullible）和_天真的_（naive）大致是中性的。（不过要注意，“天真”更容易被原谅。“骗我一次，是你的耻辱；骗我两次……”）负面词汇也很有信息量，其中很多是“不宽容”或“辱骂”的变体——要么未能考虑他人，要么以他人为施加痛苦的对象。

因此，接下来当我说 GFP 时，我指的是“人格的黄金因子”（Golden Factor of Personality）。一种稳健的人格特质，它要求对自己和他人的心智进行建模。你会为他人的成功而欣喜；是否“转过另一边脸”则是可选项³。

达尔文 🤝 耶稣#

由于 GFP 是由语言定义的，它已经在理论上与大五人格和八卦相联系。将其刻画为黄金法则，也把它与进化和道德联系起来。想想达尔文对语言在人类成为“人”的过程中所起作用的理解。引自《人类的由来》（The Descent of Man）：

在获得语言能力之后，群体的愿望可以被表达出来，关于每个成员应当如何为公共利益而行动的共同意见，自然会在极大程度上成为行动的指导。

他将这一过程与黄金法则联系起来：

道德感或许提供了人类与低等动物之间最好、最高的区别；但在这一点上我无需多言，因为我刚刚努力表明，社会本能——人类道德构造的首要原则（《马可·奥勒留沉思录》，第 139 页）——在积极的智力能力和习惯效应的帮助下，自然会导向黄金法则：“你们愿意人怎样待你们，你们也要怎样待人”；而这正是道德的基础。

一旦人类获得语言，就会产生对道德行为的选择压力（通过八卦来执行），这不可避免地导向黄金法则。由于 GFP 是从八卦（人格形容词）中推导出来的，因此如果它不是黄金法则形状的，那反而会令人惊讶⁴。达尔文，再一次被证明是正确的。

同样不足为奇的是，耶稣将旧约中的 613 条律法浓缩为“你们愿意人怎样待你们，你们也要怎样待人”。甚至可以把这看作对旧约的一次降维：生成所有其他律法的那一条潜在规则是什么？“不可杀人”或“不可奸淫”只是这一更高律法——黄金法则——在对象层面的具体实现。但对耶稣而言，重要的是，这比一条诫命更深刻；它是一条神圣的灵性真理。你的灵魂被锻造得如此：当你未能以你希望被对待的方式对待他人时，你就无法获得内心的平安。这就是他所提供的活水。而这与达尔文的主张惊人地接近：我们的心智必然是被这一道德基础原则所锻造的。

在这里，一个警告是必要的，因为达尔文和耶稣版本的黄金法则比我的更为极端。他们要求人“转过另一边脸”，并且“善待那些恶待你的人”。我很难把这一点与达尔文对英国文化优越性的信念协调起来——英国文化并不是凭借这一原则征服世界的。也很难与人类的时间线相协调。语言已经存在很久，并被用来执行道德；那么这种道德的博弈论基础是什么⁵？如果它类似于“以你希望被对待的方式对待他人”，那么这可以解释为何它似乎具有如此深刻的心理钩子，并且存在于大多数宗教传统中。它在适应度景观中存在了数千年，在被明确表述出来之前，就已经锻造了我们的心智。

无论如何，我确信所有这些“形式”之间有着深刻的关联，甚至可能是同一个东西。GFP 的特征是考虑他人，这一点被耶稣表述为灵性真理，被达尔文表述为进化力量。它是一条在许多领域中生成数据的公式。一条在人的本性、进化和语言的关节处整齐切开的规则。

关于 GFP 的另一种定义——社会智力（social intelligence）——最后再说一句。这同样通过 Dunbar 的社会大脑假说与人类进化相关。因此，即便采用 GFP 的另一种定义，它仍然是我们如何成为“人”的根本。（不过它与道德的联系就不那么清晰了。参见：马基雅维利。）

测量#

测量人格最常见的方式是自我报告。不出所料，人们并不擅长判断自己是不是一个“好人”⁶。另一种选择是把 EQ 刻画为一种可以被测试的能力，例如某人是否能根据面部表情（尤其是只截取眼睛的照片）识别情绪（如愤怒、悲伤）。前述 Van der Linden 的元分析发现，GFP 与 EQ_survey 的相关为 r = 0.85，但 GFP 与 EQ_ability 的相关只有 r = 0.28（甚至低于 GFP 与 IQ 之间 0.36 的相关）。如此巨大的鸿沟，揭示了分数在多大程度上反映的是测量工具本身，而我们对 EQ 或 GFP 的图像是多么嘈杂。尽管如此，这些分数与现实生活结果（比如是否入狱或是否能保住工作）仍有相当不错的相关。

智力的一般因子#

1904 年，Charles Spearman 提出存在一个单一的智力一般因子，称为 g 因子（g-factor），简称 g。也就是说，一个单一特质可以解释在许多不同类型任务上的大部分表现。或许出人意料的是，这一假设竟然成立，而且是心理学中被重复验证最多的发现之一。也就是说，一个人的词汇量大小与他的反应时相关，又与他在心中旋转图形的能力相关。要计算 g，只需对尽可能多的与智力相关的任务做降维分析。与 GFP 和人格问卷类似，g 是第一个潜在因子。不同之处在于，g 是从对错题（True/False）测试题中计算出来的，而 GFP 是从人格条目或形容词中计算出来的。通常，g 能解释略低于 50% 的数据方差（即个体差异），这与 GFP 大致相当⁷。

我之前的工作涉及对 VR 测试进行评分，以测量运动员脑震荡程度或老年人阿尔茨海默病的进展。这是两类非常不同的人群，问题也截然不同，但两者都包括 g 的显著下降。事实上，如果不知道某人的基线 IQ，很难做出临床决策。更一般地说，IQ 是一系列积极人生结果的单一最佳心理测量预测因子。就收入而言，其关系为 r = 0.3：

[图片：原文中的可视化内容]

斜率明显为正。不过，重要的是要对现实世界关系的性质保持正确视角；噪声仍然相当大。

但 IQ 究竟是什么？在这里我会把你引向 Arthur Jensen，他字面意义上写了那本书：《The g Factor: The Science of Mental Ability》。在书中，他主张 g 是一个真实、可测量的现象，是认知能力中最重要的单一因素。进一步，他认为 g 在很大程度上是遗传的，并不显著受成长环境或教育等环境因素的影响。十年后，他写了那本精彩⁸的《Clocking the Mind》。他这样解释自己对反应时（Reaction Time, RT）的兴趣：

“RT 与心理测量智力之间存在显著关系这一事实，对智力理论和研究至少有两个直接的启示。首先，它直接反驳了当代心理学中一种广泛的看法，即我们当前标准的智力测验只测量某一类特定知识和习得的认知技能或策略，用以处理某些通常被视为‘智力性’的问题……其次，如果 RT 的个体差异与智力之间存在相关，那么对这一更为简单的信息加工现象——RT——的研究，似乎比直接尝试对更为复杂的智力现象进行理论化，更容易导向对智力的充分理论解释。”

Jensen 或许是世上对 g 最了解、最虔诚的信徒。然而，他花了多年时间试图建立 g 与 RT 之间的联系，好让我们开始理解 g 的本质。我们对它在“形式的世界”中是什么，完全一无所知！

再看看该领域的另一位巨擘 Ian Deary。他可能是当今发表论文最多的心理测量学家。而且，和 Jensen 一样，他也是 IQ 的拥趸⁹。作为一名学习过精神病学、后来成为智力研究者的神经外科医生，没有人比他更适合解释 IQ 是什么。然而，在一次与 René Mõttus（《European Journal of Personality》主编）的访谈中，他说：

“如果我在《Looking Down on Human Intelligence》一书中对心理学理论的怀疑只是潜台词，那我就失败了。因为它本来应该是主旋律。甚至说‘怀疑’都可能太温和了。我只是对心理学中出现的理论非常批判，尤其是出现在个体差异领域，更具体地说，是在智力研究中的理论。现在，当人这么说时，[反对者]很容易说：‘天哪，他就是个无聊的灰尘团。’而我不是。我认为在科学的其他分支中——不仅是硬科学，在生物学中也是——存在成熟的理论。我对智力和人格的表型感兴趣，这当然涉及大量数据。我对它们预测后续事件变异的能力——即预测效度——感兴趣。我也花了很多时间研究机制。这就是我说的‘looking down on human intelligence’的意思。我真正感兴趣的是试图解释认知测验分数的个体差异。所以我对所有理论家声称他们感兴趣的东西都感兴趣：预测、表型清晰性、还原论，也就是理解事物。如果我们想想那些所谓的智力‘理论’的名字，我认为没有一个配得上‘理论’这个称号。 为什么？一个理论通常应当是一个构念网络，人们以一种原创的方式把这些构念联系起来，以试图通过机制来预测事物。我认为构念的表述有时是缺失的。我认为经验关联并不总在那里。或许最重要的是，把它们与真实事物联系起来——无论是 SI 单位还是生物学中的单位——这一点也常常缺失。人们在构建理论时，经常使用‘天上吊环’而不是‘起重机’……起重机是真正扎根于地面、可以用来吊起东西的东西，而天上吊环只是一个空头支票。我想说的是，你不能只是凭空捏造。它必须与真实事物相联系。”

Deary 要求的是某种存在于“形式世界”的东西，能够解释 g 的统计威力。是什么基本规则生成了这样一个主导性的潜在因子？是突触传导速度？大脑组织结构？还是通过抽象推理实现目标的能力？和 Jensen 一样，他认为目前没有令人满意的解释。

柏拉图？亚里士多德？苏格拉底？白痴！#

[图片：原文中的可视化内容]当性命攸关时，永远不要与西西里人对赌

在我看来，g 与真实事物相关的最佳证据，是它更多地与“天性”而非“教养”相关。反直觉的是，这反而是反对 g 作为智力“根本性”因素的证据。让我来解释。

如果某个特质是“适应的”（fit），那么它会按照育种者方程在每一代中增加，

其中 Δz 是表型的变化，h^2 是狭义遗传率（加性遗传贡献），β 是选择梯度。g 的 h^2 大约是 0.6¹⁰。现在来估计选择梯度。研究者 Linda Gottfredson 对智力有一个常见定义：“智力是一种非常一般的心智能力，它在许多方面体现出来，包括推理、计划、解决问题、抽象思维、理解复杂观念、快速学习以及从经验中学习的能力。”如果这些在很大程度上被 g 所捕捉，那么 g 应当与适应度相关。表面上看，发生性行为以及子女的存活，是智力帮助人实现的一些目标。

在过去的年代，一个 IQ 为 130 的男人，会比 IQ 为 100 的男人多多少存活的子女？作为一个直觉实验，假设我们的制度崩溃了，每个人都只能自谋生路。你认为幸存者会倾向于更聪明吗？会到一个显著的程度吗？古代生活在某种意义上就是朝这个方向迈出的一步。让我们保守一点，假设 g 与适应度的相关为 r = 0.1。从视觉上看，这与噪声无异，你在日常生活中不会注意到这种趋势：

[图片：原文中的可视化内容]

把这些数值代入，我们得到 Δz = 0.6 * 0.1 = 每代 0.06 个标准差。经过 2,000 年（80 代），群体平均值将增加 4.8 个标准差，即 72 个 IQ 点。或者反向推算，古希腊人的平均 IQ 应为 28。这是从 0.1 的估计推导出来的。也许真实值更低，但这似乎与将 g 描述为“普遍有用”相矛盾。你可以对模型做一些微调，但关键是：很难一边声称 IQ 显著“适应”，一边又认为柏拉图、亚里士多德和苏格拉底不是白痴（如同 Vizzini 所说）¹¹。

这让我和 Deary 一样感到失望。我觉得令人不安的是，g 是某种东西的一般因子……某种东西。也许是“考试能力”？看起来它必须不止于此，但目前并不清楚。至少就现在而言，它只是一个“天上吊环”，一个通过与其他相关变量（测试分数、收入、冲动性特质等）之间的统计关系来定义的构念。

对 GFP 的选择#

把同样的检验应用于 GFP 才算公平。GFP 的狭义遗传率略低，而且不同研究中的估计差异很大。例如，The genetics and evolution of the general factor of personality 将 GFP 的所有遗传贡献建模为非加性的（h^2 = 0）。这被解释为其近期受到自然选择的证据。无论如何，这绕开了“我们的祖先在 GFP 上严重不足”的含义。

其他研究发现 h^2 高达 0.5¹²。在那种情况下，GFP 极端主义者也必须咬牙承认：希腊人在（情绪）智力上严重不足。我大致愿意这么做。我曾论证，由于社会压力要求人们践行黄金法则，人类发现了内省。这产生了内在生活、递归思维，以及感知“形式世界”的能力。那是一场现象学上的相变，在此之前并不存在“智慧”（sapience）。

至于古希腊人，我并不认为他们是情感上的白痴。在估计选择梯度（β）时，人们并不会预期遵循“黄金法则”（或内省）在普遍意义上都是适应性的。从进化的角度看，成吉思汗是一个明星级的表现者。此外，狭义遗传率比智商（IQ）要低，因此减弱了每一代的变化。尽管如此，我猜在过去的 2,000 年里仍然存在选择。我们可能更倾向于向内看。

“情商（EQ）> 智商（IQ）”这一主张并不依赖于我这个堂吉诃德式理论的真伪。但我想展示的是，即便是极小的选择量，在千年尺度上会是什么样子。即使在有文字记载的历史中，这个世界也开始在认知上显得十分陌生¹³。任何一个意味着 IQ 有用的选择梯度设定，也同时意味着：如果把古希腊人抱来在当今社会抚养，他们在法律意义上会被视为智力低下。

结论#

GFP 和 g 的推导是类比的：分别是语言和测验中的主导潜在变量。由于语言对“何以为人”更加根本，我认为 GFP 比 g 更为根本。这一点与 g 在构念上更易测量这一事实是分开的。回到望远镜的类比，比较 g 和 GFP 的预测力，就像在比较火星和金星的模糊影像¹⁴。这些特质必须在理论基础上进行比较。

“黄金法则”在跨越千年的伟大思想家所描述的“形式世界”中翩然起舞。耶稣将其视为一种灵性真理，一条镌刻在每个人灵魂中的律法。两千年后，达尔文在思考语言对我们“寻求道德”的心智演化的影响时，又回到了同一抽象层面。在心理测量学中，它反复以人格测验中的潜在因子——GFP——的形式出现。语言通过数百万人的心智过滤无数社会互动。在那里，“黄金法则”作为品格评估的首要因子在全世界范围内浮现出来。“黄金法则”是一条支配我们的心智、进化与语言的公式。

另一方面，g 并无理论基础。它的定义是统计性的，由其对测验表现的良好捕捉以及与现实世界结果的相关性所支撑。这并不是说我们永远无法理解它，或它是虚假的、不重要的。除了临床应用之外，g 负荷较高的测验也是保持制度诚实的重要工具。作为一个不得不在生活中自己闯出路的人，我认为将测验从大学录取中移除的推动极其犬儒。类似地，我们赋予警察执行国家暴力垄断的任务。在我看来，他们至少应该能在旋转矩阵方面表现得不至于连鞋带都系不好¹⁵。

但 g 从根本上说并不是“智力”。我们并不知道二者之间的关系。更进一步说，我们在日常用语中使用“聪明（intelligent）”一词的方式，更接近 GFP，因为“intelligent”这个词在 GFP 上负荷很高。这又一次为“词汇假说”（Lexical Hypothesis）——即将判断权交给大众的智慧¹⁶——赢得一分。这也为民间直觉赢得一分：无论统计怎么说，EQ 至少与 IQ 同等重要¹⁷。用Scott Alexander 的话来说：

“我已经阅读偏差与启发式（biases and heuristics）文献十五年了，并形成了如下启发式：如果一位研究者发现普通人在一个被操纵的实验中，在该拿多少棉花糖的问题上存在偏差，那么这很可能是一条有趣且富有成果的研究路线。但如果一位研究者发现普通人在其最根本的现实生活信念上存在偏差，那么很可能这些普通人是完全理性的，而是研究者在试图把他们的推理硬塞进某种它从未被设计用来处理的模式中。”

IQ 的高遗传率，以及在较小程度上 GFP 的高遗传率，对我们遥远的祖先有着重要启示。他们在多早以前就已经像我们一样？我接受 GFP 上存在选择，即便其含义近乎奇幻。鉴于 g 最大化论者对其进化适应性的主张更为强烈，他们对过去的模型理应更加奇幻。

柏拉图同意荷马以及（对他而言的）古人：雅典娜代表“神圣的智慧”。他们一同呼喊：“这就是那位拥有上帝之心智的女神。”¹⁸ 那么，这一心智是什么？在《阿尔西比亚德二篇》（Alcibiades II）中，苏格拉底（被柏拉图作为人物使用）与雄心勃勃、急躁冲动的阿尔西比亚德对话，后者正准备进行一场公开祈祷。苏格拉底警告他要小心自己祈求的内容，以免无意中请求到有害之物。在他选择的隐喻中，可以听到夏娃带给亚当的知识——道德辨别——的回响——这正是 GFP 的关键所在。用柏拉图的话说：

“雅典娜为狄俄墨得斯（Diomede）拂去了眼中的迷雾，”“使他能清楚分辨神与人”，“同样，你也必须先让如今缠绕你灵魂的迷雾被驱散，然后你才可能获得区分善恶的手段。因为在目前的状态下，我并不认为你能做到这一点。”_

不论称之为 EQ、GFP、社会智力、智慧，甚至是“理智”（Nous），这些都比 IQ 更接近人类智力。它是一生的过程：理解自身内在的神圣火花，并学会为他人的成功而欣喜。许多高“解耦者”以能够接受这样一种统计证据为傲：智力可以通过一次考试被显著测量，而且这一特质在很大程度上由出生时就已决定。公平地说，这个世界是残酷的，这一观念也不能先验地被否定。但即便在统计层面，仍有许多未解之处。而且，这与数千年的传统以及常识背道而驰。至少，詹森（Jensen）、迪里（Deary）或苏格拉底那样的知识上的谦卑是必要的¹⁹。

[Image: Visual content from original post]赫尔墨斯与雅典娜，智慧女神

这一点在极端变异上也成立。事实上，这篇论文对三种非常不同的测验进行了降维处理。其中一个是常规人格问卷，另一个测量精神病态（psychopathy），还有一个测量人格障碍。前者让人们对自己有多喜欢炫耀、是否注意细节等进行自评。后两者则会问这个人是否相信自己的腿属于自己。GFP 与人格障碍的一般因子相关 r = -0.90，而后者又与精神病理的一般因子相关 r = 0.92。令人震惊的是，在同一人群中，这些构念竟如此相似。顾名思义，有些人将 GFP 视为“广义”的。这意味着其他所有人格因子都存在于它的伞盖之下，或许会增加新的方面，但始终是相对于 GFP 被定义的。因此，外向性可能是 GFP 与精力和开放性的结合。在《人格的首要因子》（The Primary Factor of Personality）中，我解释了为何我更偏好一种更为谦逊的说法，只是将其称为人格的首要（第一且最重要的）因子。这回避了诸如《人格的一般因子：一般性批评》（The general factor of personality: A general critique）中提出的统计学批评。 ↩︎
参见这篇文章，你可以在其中对两个神秘因子练习这一过程。 ↩︎
我认为“黄金法则”（至少在 GFP 中被识别出来的那个）并不要求“转过另一边脸颊”的一个原因，是我不认为数据适用于掠夺性（extractionary）关系。这一点从“abusive（虐待的）”等词的巨大负负荷中就可以看出，而且八卦的目的本身就是为了避免“输-赢”和“输-输”的关系。在我们的进化过去，尤其是在没有如此极端社会等级的时代，那些不是“双赢”的关系根本不太稳定。（可能存在诸如亲子关系这样的例外，但当然，那是一个特殊情形。） ↩︎
如果这个因子完全是统计假象——正如人格心理学家中普遍认为的那样——那就更令人惊讶了。 ↩︎
表面上看，这并不是达尔文意义上的“黄金法则”，因为他还说过：“原始的良心不太可能因为一个人伤害了他的敌人而责备他；相反，如果他没有报复，良心更可能责备他。以善报恶、爱你的敌人，是一种道德高度；仅凭社会本能本身是否能引导我们达到这一高度，尚且值得怀疑。必须是这些本能连同同情心，通过理性、教化以及对上帝的爱或畏惧而被高度培养和扩展之后，任何这样的黄金法则才会被想到并被遵守。”那么，语言在更早的时候究竟强化了什么规则？对我来说，并不清楚这一规则必须被明确表述出来才能成为一种力量。难道耶稣说出“黄金法则”的那一刻，就突然改变了适应度景观？这对此后基督徒的道德性是一个非常乐观的看法。不，我认为更有可能的是，我们进化出了体贴他人的倾向，而耶稣则表达了这一倾向的一个极端版本，在这个版本中，人根本不应考虑自身的福祉。 ↩︎
这实际上促成了一场关于这一因子是否不过是“被试偏差”的长期争论。我的立场是，词向量（word vectors）解决了这一论点。 ↩︎
我在这篇文章中绘制了通过自然语言处理（NLP）和传统问卷获得的 GFP 特征值，分别为 23% 和 35%。远低于 50%，但请注意，在不同的处理决策下（对原始数据而非题目相关矩阵进行降维），问卷数据可以得到 80%。同样地，如果在计算词向量的相关矩阵之前不对每个维度强制单位方差，NLP 数据也可以达到 80%，而我并不确定这种做法是否合理。《人格的一般因子：一般性批评》（The General Factor of Personality: A General Critique）回顾了不同数据集，并报告了人格的 29–50% 和认知能力的 34–56%（表 2，C1/N 列）。请注意，能力测验是按对/错计分，而许多人格问题并没有“正确答案”。在这一现实下，这两个数据集中第一因子竟如此相似，实属令人惊讶。《六个数据集中的人格一般因子》（General Factors of Personality in Six Datasets）报告的数值范围为 27% 至 63%。 ↩︎
当我在脑震荡项目中对测量和解释反应时（reaction time）有疑问时，我发现这本书最有帮助。结果发现，即便在同一个体内，不同的反应时之间的相关性也并不高。然而，一个人的平均反应时和反应时方差对其心理功能具有相当好的预测力（其中方差略胜一筹）。 ↩︎
请看他那本名副其实的《智力》（Intelligence）的摘要：“有些人比其他人更聪明。我认为，如果更多生物学家以这一观察作为研究的起点，那将是一件好事。为什么？因为这是人们彼此之间一种突出且一致的差异方式；因为我们对人们聪明程度的测量会产生与重要生活结果相关的分数；因为发现产生这些个体差异的机制是有趣的；而且，因为理解这些机制可能有助于改善那些认知功能低下或正在衰退的状态。” ↩︎
《智力的再生产》（The reproduction of intelligence）使用的是 0.5。《重新审视成年期智力的遗传率：将择偶同质性和文化传递纳入考量》（Reconsidering the Heritability of Intelligence in Adulthood: Taking Assortative Mating and Cultural Transmission into Account）发现其为 0.58。 ↩︎
如果你的 g 的定义类似于 Van der Linden 的，那这一点尤其成立：“如果 GFP 的确能影响广泛的行为，那么随之而来的问题是如何解释这样一个构念。在认知领域，对 g 的解释是直接的：个体解决复杂和新颖问题的能力。然而，GFP 的解释似乎不那么显而易见。”很难想象在过去 10,000 年中，“解决新颖问题”的能力不会在进化上具有实质性的适应性。在这一时期的生活是一连串复杂度不断增加的新问题的轰击。此外，有趣的是，Van der Linden 认为 g 是可以理解的，而 GFP 却是神秘的。当然，我在此主张的是相反的观点。 ↩︎
《人格一般因子、身心健康与生命史特质之间共享遗传显性证据》（Evidence for Shared Genetic Dominance Between the General Factor of Personality, Mental and Physical Health, and Life History Traits）
《来自多特质–多方法数据与跨国双生子的一个人格一般因子》（A General Factor of Personality From Multitrait–Multimethod Data and Cross–National Twins） ↩︎
就我所知，Gregory Cochran 在 IQ 领域对此做的工作最多。上文关于育种者方程（Breeder’s Equation）的链接是一篇 Gregory Cochran 的文章，他解释说：“当然，育种者方程也解释了为什么当今平均 IQ 潜力在下降，因为受过高等教育的女性生育率很低。”他认为这在政治上具有重要意义，因为这将显著降低能力。这源于对遗传率和选择梯度的高估计。在他的《一万年爆炸：文明如何加速人类进化》（The 10,000 Year Explosion: How Civilization Accelerated Human Evolution）一书中，他将这一原理应用于过去，提出一个颇具挑衅性的主张：在中世纪从事放贷工作提高了犹太人的平均 IQ，这解释了他们如今 15 分的优势。但如果这种提升可以在数百年的尺度上实现，那么在数千年尺度上又会如何？他对那些效应则更为谨慎：“我们怀疑智力的提高使农业成为可能，但路径可能是间接的。例如，更好的武器和狩猎技术的发明，加上其他让人类更好利用植物食物的技术，可能导致关键猎物数量的减少，甚至灭绝——这会消除一个有吸引力的替代方案，从而推动人们走向农耕。”如果对 Cochran 所说的“智力”还有任何疑问：“Daniel Goleman 写过‘情绪智力’和‘社会智力’，指出它们如何有助于预测工作成功和个人幸福。还有其他形式的智力被提出。在他 1993 年的书中，Howard Gardner 提出存在多种类型的智力。但数据几乎不支持这些复杂化认知测验的尝试。所谓特殊类型的智力并不能预测任何有用的东西，或者在它们确实能预测时，也只是因为它们与一般智力相关。”正如我所论证的，重要的是不要将“易于测量”与特质的相对重要性混为一谈。此外，我也对他所设想的选择压力的大小感兴趣，或者说 10,000 年前人类的平均 IQ 是多少。 ↩︎
尽管有时两者的结果会相等。例如，参见《重新审视人员选拔效度的元分析估计：解决对范围限制的系统性过度校正》（Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range）。这篇论文在比较不同预测工作绩效的方法时做了许多修正。IQ 和 EQ 与绩效的相关分别为 0.31 和 0.30。（相关表格被剪辑在这条推文中。） ↩︎
这也凸显了 GFP 在个体差异领域的局限性。表面上看，EQ 或践行“黄金法则”的倾向在执行国家暴力垄断方面应当比 g 更重要。但这些特质远不如 g 那样易于测量，尤其是在参与者可以在问卷中撒谎的对抗性情境中。此外，已有证据表明 g 与枪械熟练度相关。 ↩︎
“词汇假说”（Lexical Hypothesis）常常以这段引文作为动机：“……我们共有的词汇储备，体现了人们在许多代人的生命历程中，所发现值得加以区分的一切区别，以及值得加以标记的一切联系：在所有普通而合理的实际事务中，这些区分和联系无疑会比你我在某个下午坐在扶手椅上所能想出的那些更加多样、更加可靠（因为它们经受住了‘适者生存’的长期考验），也更加微妙。”——J.L. Austin，《为借口辩护》（A Plea for Excuses） ↩︎
一项对美国工人的调查发现，“73% 的人认为情绪商数（EQ）比智力商数（IQ）更重要。” ↩︎
“古人似乎对雅典娜抱有与荷马的诠释者如今相同的看法；因为他们中的大多数人在评论这位诗人时都说，他将雅典娜表现为心智与理性；而命名者似乎也对她有类似的构想，事实上，他赋予她一个更高的称号——‘神圣智慧’，似乎在说：这就是那位拥有上帝之心智的女神。” ↩︎
或者达尔文，他将语言（他将其与道德联系起来）视为人类在“种类上”而非“程度上”区别于动物的一条可能路径：“尽管人类与高等动物在心智上的差异是巨大的，但这一差异无疑是程度上的，而非种类上的。我们已经看到，人类所自夸的感官与直觉、各种情感与能力，如爱、记忆、注意力、好奇心、模仿、理性等，都可以在低等动物身上以萌芽状态，甚至有时以相当发达的状态被发现。它们也能够获得某种遗传性的改进，正如我们在家犬与狼或豺相比时所见。如果能够证明某些高级心智能力，如形成一般概念、自我意识等，是人类所独有的——这一点似乎极其可疑——那么这些品质很可能只是其他高度发达智力能力的附带结果；而这些能力又主要是持续使用一种完备语言的结果。” ↩︎