From Vectors of Mind - изображения в оригинале.
[Изображение: Визуальный контент из оригинального поста]
“В начале было Слово, и Слово было с Психологией, и Слово было Психологией” ~Новый Векторный Перевод
Все конструкты личности сначала описываются словами. От моделей Фрейда, созданных под влиянием кокаина, до сдержанной Большой Пятерки, они все в какой-то момент являются словами. Большая часть академической психологии занимается сравнением конструктов. Для этого они должны иметь общую основу, обычно набор субъектов. Субъектам дается инструмент (обычно опрос), который приближает их местоположение в пространстве конструктов. На основе того, как ответы субъектов ковариируют, делаются общие утверждения о конструктах. В этом посте мы исследуем другой способ. Достижения в области NLP позволяют количественно сравнивать конструкты в их естественной среде обитания: языке.
Дорожная карта#
В предыдущем посте я утверждал, что Большая Пятерка — это векторные представления слов. Этот пост делает то же утверждение о самостоятельных шкалах, что позволяет сравнивать конструкты без участия субъектов. Чтобы продемонстрировать это, вводится широкая модель личности, а также метод представления конструктов в пространстве слов. План следующий:
Сравнить конструкты в пространстве субъектов и слов
Проблемы с пространством субъектов
Связать родственные и взаимные альтруизмы с Большой Пятеркой, используя субъектов
То же сравнение в пространстве слов
Ввести (временную) модель пяти факторов, идентифицированную с помощью NLP
Проецировать слова альтруизма в это пространство
Код доступен здесь.
Обсуждение, ограничения, будущая работа
Извилистый путь#
Чтобы сравнить альтруизм с Большой Пятеркой, сигнал должен пройти через множество преобразований: Альтруизм (идеал) → описан словами → разработан опрос (и, надеюсь, валидирован) для приближения этого конструкта → проведен с субъектом, который интерпретирует эти слова и ищет в своей душе → оценка альтруизма субъекта → корреляция в пространстве субъектов ← оценка субъекта по Инвентарю Большой Пятерки (BFI) ← субъект интерпретирует элементы BFI и ищет в своей душе ← разработать BFI для приблизительного измерения этого ← конструкт определен/передан с помощью качественного описания ← Большая Пятерка (определена по нагрузкам слов). Затем делаются утверждения о двух идеалах, Альтруизме и Большой Пятерке.
Прямой и узкий путь#
Почему бы не использовать векторные представления слов в качестве общей основы вместо субъектов? Путь гораздо более прямой: Альтруизм (идеал) → описан словами → векторизован в пространство слов → сравнение в пространстве слов ← Большая Пятерка, которая уже существует в пространстве слов, как обсуждалось в предыдущем посте. Для тех, кто ведет счет, это 4 против 10 преобразований. (Считается как в гольфе.)
[Изображение: Визуальный контент из оригинального поста]Статистические реалии, посещающие область психологии. Это были тяжелые несколько лет.
Тал Откровитель#
Сложность использования субъектов для утверждений о вербальных конструктах не является секретом.
“Большинство теорий и гипотез в психологии носят вербальный характер, однако их оценка в подавляющем большинстве случаев опирается на процедуры инференциальной статистики. Валидность перехода от качественного к количественному анализу зависит от того, насколько вербальные и статистические выражения гипотезы тесно связаны — то есть, что они должны относиться к примерно одному и тому же набору гипотетических наблюдений. Здесь я утверждаю, что многие применения статистического вывода в психологии не соответствуют этому базовому условию.” ~Тал Яркони, Кризис обобщаемости
Валидность здесь относится к оценке, захватывающей конструкт, который она предназначена измерять. Стоит прочитать аргументы и примеры полностью. Но для нас главное — что можно сделать, учитывая эти реалии. Он предлагает:
Заняться чем-то другим (перейти в другие области).
Принять качественные исследования
Принять лучшие стандарты (включая 7 предложений).
“Всегда можно притвориться, что маленькие p-значения, полученные из крайне узких статистических операционализаций, могут служить адекватной основой для широких вербальных выводов о сложных психологических конструктах. Но никто другой — ни коллеги, ни спонсоры, ни общественность, и уж тем более не долгосрочный научный архив — не обязан поддерживать этот фарс.”
Даже если ваше мнение о исследованиях в психологии не столь мрачно, наверняка читатели сталкивались с работами, которые делают утверждения, но проводят эксперименты, лишь слабо связанные с ними. Все доступные решения болезненны. Область может быть вынуждена принять более узкий взгляд и оставить большие вопросы тем, кто изучает историю, литературу и линейную алгебру. Я предлагаю другой путь вперед.
Переход в пространство слов. 4. Использовать векторные представления слов как общую основу#
Конструкты сосуществуют в пространстве слов, и все же, когда проводятся сравнения, мы перетаскиваем их в пространство субъектов. Это огромная, с потерями, хлопотная задача. Что если они могли бы оставаться в безопасности в пространстве слов? Претензия обработки естественного языка заключается в том, что слова — это векторы в непрерывном пространстве. Анализ этих векторов работает достаточно хорошо, чтобы быть нагрузкой несущим процессом в триллионных индустриях, и в настоящее время он (пере)вводится в психологию.
Практикуй то, что проповедуешь#
Здесь мы рассмотрим традиционное исследование, проведенное в пространстве субъектов, а затем попытаемся улучшить его, перейдя в пространство слов. Избегая соломенного человека, объектом является Родственный альтруизм, Взаимный альтруизм и Большая Пятерка факторов личности, который был процитирован сотни раз и чей первый автор имеет индекс Хирша 70.
Субъекты измеряются с помощью трех инструментов: Большая Пятерка (через опрос прилагательных), Эмпатия/Привязанность и Прощение/Невозмездие (опрос фраз), и альтруизм в игре с разделением денег. Поскольку авторы предполагают, что межстилевое пространство между Доброжелательностью и Эмоциональной стабильностью (также известной как Невротизм) различает два альтруизма, некоторые слова добавляются для лучшего измерения этой области. Аналогично, разрабатывается новый опросник для измерения Эмпатии/Привязанности и Прощения/Невозмездия, которые теоретически связаны с родственным и взаимным альтруизмом соответственно. В дополнение к этому, для измерения альтруизма используется игра.
“В версии задачи распределения денег, использованной для измерения родственного альтруизма, другой человек был описан как близкий друг — кто-то, с кем у участника была долгая история дружбы и с кем у участника было много общего. Мы надеялись, что, описывая дружбу как старую и друга как очень похожего на участника, дружба будет напоминать отношения с родственником. Причина, по которой мы не использовали родственника в качестве потенциального объекта альтруизма, заключалась в том, чтобы избежать введения вариативности в ответах из-за конкретного вовлеченного родственника; например, многие люди могут быть более склонны вести себя альтруистично по отношению к одному брату или сестре, чем к другому.”
Другими словами, чтобы не загрязнять данные реальными чувствами к родственникам, измеряется взаимный альтруизм.
“В версии задачи распределения денег, использованной для измерения взаимного альтруизма, другой человек был описан как некоператор — кто-то, кто был грубым, неприятным и невнимательным к участнику.”
И для измерения взаимного альтруизма они измеряют … невзаимный альтруизм? Естественно, существуют корреляции, и авторы заключают:
“Результаты этого исследования поддерживают предположение, что черты личности, связанные с эмпатией и привязанностью, способствуют альтруизму, который в первую очередь направлен на родственников (т.е. родственный альтруизм), и что черты личности, связанные с прощением и невозмездием, способствуют альтруизму, который в первую очередь направлен на неродственников (т.е. взаимный альтруизм).”
Но если взаимный альтруизм никогда не измерялся, как результаты могут поддерживать это утверждение? Статистика в психологических статьях, как указывает Тал, часто является риторическим украшением. Но мы не обязаны играть по этим правилам! Давайте посмотрим, что скажет пространство слов.
Земля молока и меда (добро пожаловать в пространство слов)#
В традиционных исследованиях из-за затрат на отображение субъектов в пространство личности разрешение может быть высоким только в нескольких областях личности одновременно. Именно поэтому авторы исследовали Эмпатию и Невозмездие и пространство между Доброжелательностью и Эмоциональной стабильностью. Все эти оси существуют в обычном пространстве Большой Пятерки, но измеряются довольно детально. В пространстве слов мы можем сравнить альтруизм с полной Большой Пятеркой во всей их высокой разрешающей способности. На моем github есть 2819 векторных представлений слов, факторизованных до пяти ПК. Мы можем использовать их для удобства. Первое дело — выбрать наборы слов, которые описывают каждый альтруизм. Для родственных слов я выбрал те, которые воплощают семейные роли: братский, сестринский, материнский, материнский, отцовский, бабушкин, дедушкин, супружеский, материнский, отцовский. Для взаимного альтруизма я следую определению Триверса.
_“Что касается человеческого взаимного альтруизма, показано, что детали психологической системы, регулирующей этот альтруизм, могут быть объяснены моделью. В частности, дружба, неприязнь, моралистическая агрессия, благодарность, сочувствие, доверие, подозрительность, надежность, аспекты вины и некоторые формы нечестности и лицемерия могут быть объяснены как важные адаптации для регулирования альтруистической системы. Каждый человек рассматривается как обладающий альтруистическими и обманными тенденциями, выражение которых чувствительно к переменным развития, которые были выбраны для установления тенденций на уровне, соответствующем местной социальной и экологической среде.” _Эволюция взаимного альтруизма, Роберт Триверс (выделено жирным)
Учитывая это, я выбрал: разборчивый, не прощающий, мстительный, лояльный, соседский, кооперативный, надежный, и справедливый. Это примерно равно ошибке в сторону сотрудничества, но с последующей моралистической агрессией, когда что-то идет не так. Кроме того, это пытается захватить этот альтруизм как антитезу обману (например, справедливый, надежный).
(Для отличного объяснения эволюции доверия, см. это интерактивное демо.)
Позвольте представить вам неизвестную Модель Пяти Факторов?#
Теоретически, мы могли бы использовать нагрузки слов Большой Пятерки, полученные через опросы, но большинство этих слов встречаются достаточно редко, чтобы не быть включенными. Это к лучшему, так как нельзя получить хорошую оценку бабушкиного по самоотчету среди студентов-психологов. Таким образом, векторные представления слов, вычисленные с использованием языковой модели RoBERTa. Полученные из большого и хорошо охарактеризованного списка слов личности, полученные пять факторов, вкратце:
Аффилиация (или Социализация). Насколько вы хотите, чтобы этот человек был в вашей команде? Похоже на Доброжелательность, но исключает быть подстилкой. Например, доверчивый нейтрально нагружен на Аффилиацию, но положительно на Доброжелательность.
Динамичность. Довольно близко к Экстраверсии, но больше о чувстве приключения и меньше о уверенности.
Порядок. Добросовестность с острием. Способность достигать собственных целей. Требовательный против мягкого.
Эмоциональная привязанность. В то время как Невротизм касается нестабильности, это о привязанности; как заботливый, так и злобный сильно нагружены.
Трансцендентность. Этот фактор характеризуется уникальный, сложный, обреченный, инвалид, мистический, разбитый сердцем, потусторонний против нефилософский, беззаботный, упрямый, грубый, материалистичный, эгоцентричный, поверхностный. Он включает в себя взгляд за пределы себя и обыденного. Этот процесс, по-видимому, связан с болью. На самом деле, “тревожный” больше нагружен на Трансцендентность, чем Эмоциональная привязанность (фактор, связанный с Невротизмом).
Названия для первых трех факторов взяты из панкультурной работы Де Раада, потому что, качественно, соответствие ближе, чем с Большой Пятеркой. Каждый фактор заслуживает отдельного поста. (Для тех, кто занимается промышленной психологией, я подозреваю, что Порядок более коррелирован с успехом в бизнесе, чем Добросовестность, так как он более расчетлив, чем просто приходить вовремя.) Но предложение моделей — не моя сильная сторона, и более тонкие языковые исследования в будущем могут привести к другой структуре. Пока эти факторы достаточны. Вот их корреляция с Большой Пятеркой:
[Изображение: Визуальный контент из оригинального поста]
Результаты#
Нагрузки слов альтруизма на первые четыре фактора (Трансцендентность не важна в этом исследовании):
[Изображение: Визуальный контент из оригинального поста]Быть социально активным — это иметь крепкие семейные связи (высокая Аффилиация), если это немного скучно (нейтрально к низкой Динамичности). Все слова отображаются в похожем месте.
[Изображение: Визуальный контент из оригинального поста]Семейные слова сильно нагружены на эмоциональную привязанность. Обратите внимание, что отношения между родителями и бабушками и дедушками довольно гендерно обусловлены. Мужчины менее привязаны, как предсказывает теория родительских инвестиций Триверса, и статистика подтверждает. Братья и сестры, однако, одинаково привязаны, и в меньшей степени, чем родители. Если подумать, супружеский не должен был быть включен в альтруизм о кровных родственниках. В соответствии с дневными ток-шоу, он меньше нагружен на привязанность, чем материнский или бабушкин.
[Изображение: Визуальный контент из оригинального поста]Взаимные слова пытаются захватить идеальное поведение “око за око”, когда партнер сотрудничает или обманывает. Таким образом, эти слова гораздо более разбросаны, хотя все еще в основном положительные. Даже ‘разборчивый’ слегка положительный, что означает, что я не думаю, что слово кодируется как что-то вроде ‘расово дискриминационный’ — иногда эти языки путаются с фонетическим сходством (например, эксцентричный и этноцентричный).
[Изображение: Визуальный контент из оригинального поста]Сотрудничество и соседство слегка подразумевают, что собственные цели отступают на второй план. Непрощающие и разборчивые — для тех, кто имеет дело.
Чтобы сравнить альтруизмы, мы хотели бы свести каждый из этих наборов слов к одному вектору. (Есть место для дискуссии, имеет ли это вообще смысл, учитывая, что взаимный — и в меньшей степени родственный — требует разных ответов на разные сценарии.) Дешевое и грязное решение — рассматривать каждый конструкт как мешок слов и взять среднее. Средние нагрузки:
[Изображение: Визуальный контент из оригинального поста]Это z-оценки по сравнению со всеми 2819 словами. В среднем, родственные слова на 1-1,5 SD выше по Аффилиации и Эмоциональной привязанности.
[Изображение: Визуальный контент из оригинального поста]Взаимный альтруизм также включает Порядок, достижение собственных целей.
[Изображение: Визуальный контент из оригинального поста]Разница: Родственные минус Взаимные нагрузки. Доминирует Порядок.
Обсуждение#
Я не думаю, что статья в пространстве субъектов включает в себя валидное измерение родственного или взаимного альтруизма и, следовательно, не добавляет к нашему пониманию того, как это связано с личностью. Это удивительно распространенный режим отказа. Пространство слов предоставляет некоторую страховку от недействительных сравнений. У нас лучшее интуитивное понимание того, где слово должно быть в пространстве слов, чем как субъект 112 должен ответить на опрос. Ошибки легче заметить.
С байесовской точки зрения, в пространстве субъектов и слов происходит что-то другое. Эксперименты, включающие субъектов, стремятся принести новую информацию на стол. Надежда заключается в том, что это обновит взгляд читателей на мир. Но исследователи (и обычные люди) имеют много социального опыта и более острое восприятие психологических процессов, чем снимок, предоставляемый опросом. Трудно сильно сдвинуть стрелку. Пространство слов больше похоже на визуализацию наших априорных знаний, чем на производство новых знаний. Этот взгляд ценен, потому что язык — это то место, где резина встречается с дорогой, так сказать. Как выразился Дж. Л. Остин:
“Наш общий запас слов воплощает все различия, которые люди сочли достойными выделения, и связи, которые они сочли достойными отметки, за всю жизнь многих поколений: Эти различия, безусловно, более многочисленны, более обоснованы, поскольку они выдержали долгий тест выживания наиболее приспособленных, и более тонки, по крайней мере во всех обычных и разумных практических вопросах, чем любые, которые вы или я, вероятно, придумаем в нашем кресле после обеда — самый любимый альтернативный метод."Пожалуйста, извините
Анализ в пространстве слов сравнительно прост. Вместо таблиц корреляций и p-значений слова просто отображаются на интересующих осях, и делаются визуальные суждения. Слова родственного альтруизма плотно группируются как по Аффилиации, так и по Эмоциональной привязанности, единственным двум факторам с значительными нагрузками. Отцы, но не братья, менее привязаны, в соответствии с теорией родительских инвестиций Триверса. Братья и сестры имеют столько же причин заботиться о своих братьях и сестрах. Однако у отцов меньше причин, чем у матерей. Сперма дешева. Яйца и беременность дороги.
Взаимные слова более разбросаны, отражая черты, идеальные для реагирования на разные сценарии: сотрудничество или дефект партнера. Наиболее заметное различие — более высокая средняя нагрузка на Порядок — достижение собственных целей. Первоначально называемый альтруизмом с отсроченным возвратом, взаимный альтруизм не о самопожертвовании ради незнакомца, а о вложении в собственное будущее через про-социальные средства. С другой стороны, родственный альтруизм относится к помощи семье даже за свой счет из-за эгоистичных генов, тянущих за сердечные струны. Это очевидно в более высоких нагрузках слов родственного альтруизма на Эмоциональную привязанность, поддерживая гипотезу Эштона. Но основное действие происходит на Порядке, далеко от того места, где были разработаны инструменты пространства субъектов для обнаружения. Затраты на выборку в пространстве субъектов делают результаты более зависимыми от предположений исследователей.
Интерпретация этих графиков может ощущаться как чтение чайных листьев, но я примерно на 70% уверен в том, что здесь есть. Одна вещь, которая меня беспокоит, это то, что два альтруизма представлены по-разному. Родственные слова все описывают отношения (например, мать, отец, брат), в то время как взаимные слова — это смесь отношений (например, сосед) и черт, подходящих для повторяющихся игр с положительной суммой (например, мстительный, разборчивый, кооперативный). Несмотря на неопределенность, не было бы круто, если бы за один день я провел эксперимент, который объединяет пережитый опыт альтруизма миллионов людей? Что поколения согласились, делает кого-то отцовским, сестринским или соседским. Как всегда с новым источником сигнала, начинают стрелять от бедра. В конце концов, Дикий Запад приручается; методы и эвристики появляются. Есть много места для улучшения. Читатели могут настроить наборы слов и получить новые результаты за считанные минуты, используя этот colab notebook. Пожалуйста, сделайте это!
Преимущества пространства слов#
Связано с Лексической гипотезой. Основано на децентрализованной социальной реальности.
Меньше преобразований. Каждый шаг с потерями и вводит предвзятость.
Менее статистически интенсивно после преобразования в пространство слов. (Низкий барьер для входа.)
Эффективный размер выборки (те, кто внес вклад в языковую модель через комментарии на reddit, написание книг или статьи pubMed) гораздо больше и разнообразнее, чем в большинстве исследований.
Лучшие перспективы трудоустройства для кандидатов наук по психологии, знающих NLP.
Легче проводить многоязычные/мультикультурные работы. Некоторые модели обучаются на 100 языках одновременно (что является способом, которым Meta обучает фильтры ненависти на языках с небольшим количеством примеров).
Языковые модели продолжают улучшаться лучше.
Открытая наука.
Недостатки#
Больше движущихся частей. В языковой модели миллиарды параметров! Однако даже миллиарды нейронов и десятки решений по обучению могут привести к стабильному представлению. Любая языковая модель, стоящая своей соли, может завершить аналогию “муж — это жена, как король — это ____”.
Нельзя разбить результаты по демографическим данным. Иногда интересно знать личность учителей начальной школы в возрасте от 25 до 30 лет. Или узнать, как какой-то конструкт коррелирует с арестами. Невозможно в пространстве слов.
Разве языковые модели не предвзяты? Ну, не больше, чем самоотчет.
Определение альтруизма как суммы множества векторных представлений слов (т.е. мешка слов) немного хакерское. Здесь есть значительное пространство для улучшения.
[Изображение: Визуальный контент из оригинального поста]Психологи довольны еще 40 годами блуждания по пространству субъектов.
Чужие боги#
“Я думаю, Кафка был прав, когда сказал, что для современного человека государственная бюрократия — это единственный оставшийся контакт с измерением божественного.” ~Жижек, Путеводитель извращенца по идеологии
Он описывает здесь, конечно, трансцендентное чувство подачи апелляции в IRB. У меня есть предсказание. Пространство слов — это хорошее и правильное дело с точки зрения обработки сигналов, но его принятие будет обусловлено не только удобством отсутствия регулирования. Следствие этого заключается в том, что IRB будет первым государственным органом, который объявит языковые модели разумными.
[Image: Visual content from original post]John spreading the good word space
Подготовка пути#
Мы хотим извлечь отношения между конструкциями из языковых моделей. Чтобы сделать это таким образом, который добавляет сигнал, а не больше шума, требуется много работы по валидации. Изначально это означает сравнение с хорошо установленными результатами опросов. Можно ли их восстановить, используя векторные представления слов? Где они терпят неудачу? Как только это будет установлено, каждая статья, заканчивающаяся словами “необходимо больше исследований”, должна найти способ задать вопрос в пространстве слов.
Я потратил более года на тонкую настройку метода для извлечения отношений личности из RoBERTa, модели, которая на тот момент была передовой. Вскоре после этого был выпущен GPT-3, и он показал лучшие результаты прямо “из коробки”. То, что вычислительная мощность превосходит знания в области, является повторяющимся горьким уроком в области ИИ. Вычислительная мощность увеличивается экспоненциально. Если вы можете получить 30% прироста по сравнению с общим решением машинного обучения, используя знания в области, вы также можете просто подождать, пока вычислительная мощность догонит, и получить те же результаты, используя общие методы. Поиск способов связать вопросы психологии с готовыми NLP моделями является, следовательно, хорошим путем вперед. Новая модель с заметно лучшей производительностью становится доступной каждые шесть месяцев или около того. Те, кто валидирует пространство слов, готовят путь для более великих интеллектов—PaLM, GPT-7, OSCar (O ptimal S entience Car tography)—чтобы пролить психологические истины.
Естественный язык изобилует общими теориями о мире. Теперь, когда мы можем их количественно оценить, разве они не могут быть использованы в качестве доказательства?
Если вам это интересно, пожалуйста, поделитесь!