摘自 Vectors of Mind —— 图片见原文。


[图片:原文中的可视化内容]SenpAI,你的常驻 AI 导师

在未来十年内,将会有数百万人向个人聊天机器人征求人生建议,而这些机器人对他们的了解将超过他们对自己的了解。当前技术正在改变治疗的许多环节,从初诊评估、病人与医生的匹配、病历书写,到在精神科医生会谈之间为患者提供 24/7 的持续访问。在未来,我们可能会看到类似放射学的局面:AI 系统的表现将超过除世界上最顶尖医生之外的所有人类医生。这些硅基导师将以 1/1000 的成本、以所有语言、在任何时间可用。如果这个愿景让你感到兴奋,欢迎加入我们的 Discord,我们在那儿交流如何实现这一目标的想法和资源。

当前技术#

当我试用一个聊天机器人治疗师时,我的常用测试方式是:说上帝让我创立一个新宗教,但把它包装成一个关于自我表达和语码转换的问题。思想狭隘的老板不理解我的天命,而我的女朋友也不允许我做真实的自己(也就是基督的第二次降临)。任何不是昨天刚出生的人类都能嗅出其中的问题,但聊天机器人可能会顺着演下去,甚至支持在工作生活中注入这种自大妄想。

也就是说,当前技术存在问题。聊天机器人经常会“幻觉”(hallucinate),并且缺乏常识。然而,它们已经在自动化精神健康照护的一些方面。例如,Numa Notes 与远程医疗服务提供者合作,将就诊过程的录音转写成文字,并帮助完成文书工作,之后由治疗师审核。或者,只需稍加提示,chatGPT 就可以成为一个还算不错的认知行为治疗(Cognitive Behavioral Therapy)教练

在 Sama Therapeutics,我开发了一个用于评估抑郁的聊天机器人,可用于追踪症状或作为初诊流程的一部分1。在设计这个机器人时,它能捕捉到的各种线索一再让我印象深刻。对于心理测量学的“极客”来说,这令人兴奋,因为对心智的测量长期以来一直依赖封闭式问题。你是不是聚会的灵魂人物?你是否有入睡困难? 这种限制是因为评估传统上以易于评分的纸质问卷形式出现。聊天机器人可以对开放式问题进行评分,而开放式问题往往信息量更大。

圣杯#

然而,聊天机器人未来的主要用途不会是填写文书或做测量;它们真正的使命是进行干预。科技乐观主义者对此几乎视为不证自明。在一次近期访谈中,Tyler Cowen 问道德心理学家 Paul Bloom:在两三年内,有多少比例的治疗会由大语言模型(LLMs)完成:

“如果你把‘治疗’的定义包括为:某人定期与一个 LLM 谈论自己的问题,并从中获得一些建议和其他东西,那么我认为人类互动将只占互动的一小部分。”

这似乎显而易见。当前的大语言模型已经可以通过图灵测试。经过一些微调和长期记忆的加入,它们应该能够持续地给出不错的人生建议。与许多人从朋友那里得到的建议相比,这个门槛其实相当低。要把这一切都做好会很困难,但它终将发生。

我最近参加了数字心理健康学会(Society for Digital Mental Health)的年会,惊讶于许多人在 AI 问题上是多么保守。一场颇受欢迎的报告,将一个基于规则的聊天系统与(现已过时的)生成式 AI 进行了正面比较2。因此,如果你相信大语言模型会快速进步,并能够帮助人们理解自我、提供支持并给出良好建议,那么这里存在巨大的“阿尔法”(alpha,超额收益)。如果这让你感兴趣,欢迎加入我们的 Discord,我们会在那儿追踪最新进展。

最后一点,AI 能提供的服务类型无疑会有其局限性。人类在应对对抗性样本方面很擅长,比如试图欺骗医生的病人。AI 在一段时间内都无法真正“管理个案”,尤其是那些复杂或需要用药的个案。但 AI 能做的事情实在太多了,它能极大降低那些想要浅尝谈话治疗等方式的人所面临的进入门槛。一项最新研究发现,48% 的大学生存在显著的抑郁症状。我怀疑是否会有足够多受过训练的专业人士来满足如此需求。机器人可以提供帮助。


  1. 此处可进行演示,但需要注册。我在数字心理健康学会上展示了一项验证研究。需要注意,“评估”(assessment)不同于诊断(diagnosis),后者在很长一段时间内仍将是医生的职责范围。 ↩︎

  2. 重要的是,该公司的旗舰产品是一个基于规则的聊天系统,已经被调优了十多年。我很好奇,如果换成任何非 CBT(认知行为治疗)形式的治疗,或者如果生成式模型换成一个经过熟练调优/提示工程的 chatGPT 4 或 5,这项研究会是什么结果。这不仅仅是一场报告。许多其他报告都在讨论幻觉、偏见等问题。几乎没有科技乐观主义者。 ↩︎