From Vectors of Mind - images at original.
さて、少し知性の話から離れてみましょう。実は、意識の明確な呼びかけに引き込まれる前に、心理測定の話題をいくつか用意していました。目をそらすのが難しいのです。
[Image: Visual content from original post]Ulysses and the Sirens, painting by John William Waterhouse
このブログを始めたのは、機械学習の視点から語彙仮説を探求するためです。パーソナリティモデルは、言語で最も噂される特性を定義し、GPTの時代にはそれをはるかに良く測定できます。単語ベクトルや従来の調査から導き出されたパーソナリティモデルは、特にビッグツー(社会的自己調整とダイナミズム)に戻ってきます。これについての復習は、The Big Five are Word VectorsとThe Primary Factor of Personalityを参照してください。
ビッグファイブは多くの言語で独立して発見されていますが、言語間の比較は常に質的です。研究者はトルコ語やドイツ語でパーソナリティ形容詞の調査を行い、それを因子化し、因子が同じかどうかを目視で確認します。このデータを使って「外向性がドイツ語では英語に比べて誠実性から15度ずれている」と言うことはできません。これほど正確にするには、両言語が何らかの基盤を共有する必要があります。
複数の言語で質問を実施する場合、1) 両言語で回答できるバイリンガルの集団を見つけるか、2) 単語の翻訳が1:1であると仮定する(例:_fun_がスペイン語で_divertido_と完全に同等である)ことができます。前者の場合、強い選択効果があります。バイリンガルの人々は教育水準が高い傾向があるのではないでしょうか。後者は単に真実ではありません。実際、言語を一緒に因子化する理由は、パーソナリティ構造がどのように異なるかを理解するためです。単語が同じであると仮定することは目的を損ないます。
私の研究は、英語の言語モデルからパーソナリティ構造を抽出できることを示しました。自然な疑問は、他の言語を追加したときにそれがどのように変わるかです。 数十の言語で訓練されたモデルを使用すると、これを探るのは非常に簡単になります。任意の数の言語を同じ基盤にマッピングできます。
再びビッグツー#
私はXLM-RoBERTaを使用して、パーソナリティ形容詞間の類似性を割り当てました。奇妙なことに、このモデルはミャンマーでのジェノサイドの結果です。Metaは、理解が非常に少ない場所でコンテンツを削除する必要があるという厄介な立場にあります。技術的には、これは転移学習問題と呼ばれます。彼らは英語(または他の情報源が豊富な言語)でヘイトスピーチ分類器を訓練し、それを他の言語に適用したいと考えています。言語モデリングの暗黒時代(2018年)では、これは非常にうまく機能しませんでした。ビルマ語で「ゲイを集めて殺そう」という口語は、彼らの分類器には「虹が少ない方が良い」と見えました。これは当然、コンテンツモデレーションを通過しました。NYTはその結果を説明しました:A Genocide Incited on Facebook, With Posts From Myanmar’s Military
Metaの対応は、任意の言語(100言語)を同じ共有空間の単語ベクトルによりよくマッピングできる言語モデルを構築することでした。これにより、英語で訓練されたヘイトスピーチ分類器が他の言語によりよく拡張できるようになります。(微調整に必要なビルマ語が少なくなります。)このモデルを使用して、英語、スペイン語、フランス語、トルコ語の4つの言語でパーソナリティ単語を埋め込みました。以下は最初の2つの因子です:
[Image: Visual content from original post]
これらは異なる言語を分離するのに役立ちます。最初の因子はトルコ語をインド・ヨーロッパ語族から区別します。第二因子では、ロマンス諸語が隣接しています(ただし、トルコ語にも近いです)。
これは理にかなっています。モデルは文の次の単語を予測するように訓練されているため、自然に言語固有の情報を含むことになります。誰かがスペイン語で話している場合、トルコ語に切り替えることはあまりありません。ベクトル空間においてパーソナリティ情報に対応する方向もあることを期待しています。
言語がかなり独立している場合、4つの言語をそれぞれの非重複グループに分けるには少なくとも3次元が必要です。次の主成分を確認してみましょう。
[Image: Visual content from original post]
因子4は、言語を分離するために学習されなかった最初の因子であり、これはパーソナリティの一般因子です!英語では:domineering, ruthless, compulsive と selfish 対 generous, gentle, と thoughtful。私はこの因子がゴールデンルールを生きる傾向として最もよく理解されると主張しました。意識のイブ理論は、これが進化の歴史において何を選択するかを考えた結果でした。因子5もパーソナリティに関するもので、それらを一緒にプロットすると:
[Image: Visual content from original post]
ビッグツーが得られます!因子5(またはパーソナリティ因子の2つ目)はダイナミズムです:adventurous, imaginative, と enthusiastic 対 cautious, reserved, と cowardly。これが定期的に現れるのは驚くべきことです。ビッグツーの論文には2,500件の引用があります、それでも研究者たちはそれが一般的なパーソナリティの最初の2つの未回転因子に過ぎないことに気づいていません。 彼らがビッグファイブと階層的な関係にあると信じられているのは、ビッグファイブのインベントリを作成した直後に言語を直接扱うことを放棄した研究者たちによるものです。それ以来、基本的または一般的なパーソナリティを理解しようとする試みは、ビッグファイブを参照して行われなければなりません。しかし、言葉が先にあり、言語モデルは今やその基本的なレベルで言語を分析するのを容易にしています。
さらに深く進む必要があります#
ロシア語とペルシャ語を追加しても同じ因子が得られます:
[Image: Visual content from original post]To better see the words download the image and zoom in.
私の怠け者エンジニア基準では、これはかなり労力がかかります。各言語に適したプロンプトを見つける必要があるからです。Google翻訳とネイティブスピーカーと協力してこれを正確に行い、ペルシャ語の分布が因子4でまだずれているのがわかります。私の推測では、共有されていない因子を無視する方法が、この多くの言語にはあまりにも不十分です。因子4はおそらくGFPとして使用され、ペルシャ語を分離するためにも使用されます(少しだけ)。これらの因子を純粋に保つものは何もなく、分布がこれほどよく振る舞っているのは本当に幸運です。いくつかの前処理(各言語クラスターをゼロ平均化するなど)を行うことで解決するかもしれません。
私の知る限り、複数の言語が一緒に因子化されたのはこれが初めてです。これは英語とスペイン語だけの結果でも出版可能であり、ここでは6つの言語、しかも2つの非インド・ヨーロッパ語族を含んでいます。また、心理測定で最も人気があり、誤解されている構造の一つであるビッグツーの性質にも光を当てています。
欠点#
私はこの研究をほぼ最も愚かな方法で行いました。ESLガイドで100のパーソナリティ単語を見つけ、それをGoogle翻訳で他の言語に翻訳しました。重複があれば削除しました。これは見た目ほど悪くはありません。最初の2つの因子は、英語で100語を使用しても500語を使用してもほとんど変わりません。しかし、これが本当の論文であれば、当然各語彙で独立して単語セットを開発したいと思うでしょう。他にもいくつかの欠点があります:
言語が足りない! これを出版するなら、通常パーソナリティ科学で研究されていない言語をさらに12以上追加したいと思います。これが実際に私がそれを出版しなかった理由です。それは多くの作業であり、いくつかのアジアの言語のネイティブスピーカーが必要です。
訓練データによって歪められた多言語モデル。 言語モデルは文の次の単語を予測するように訓練されています。複数の言語で訓練すると、モデルは知識の一部を転移しようとします。しかし、より小さな言語では、その意味がより良く情報源が豊富な言語(英語、中国語、ロシア語など)内の類似性に強制されるように見えるかもしれません。
クエリは研究者の自由度です。 私が単語を埋め込むために使用する方法は「私のパーソナリティは
古い言語モデル。 この作業は2年以上前に行ったもので、GPT-4が登場するずっと前のことです。シンプルな時代。
結論#
もし私がまだ学界にいたら、これが私の研究課題になるでしょう。可能な限り多くの言語を追加し、方法がどのようにバイアスされる可能性があるかを理解しようとします。最終的には、ビッグファイブを超える普遍的なパーソナリティモデルを生み出すかもしれません。それは私たちが誰であるか、そしておそらくどこから来たのかをよりよく理解するのに役立つでしょう。なぜなら、今や私たちの種を定義するのは言語であり、過去に私たちの精神を鍛えたのも言語だからです。私たちは習慣的に社会的です。なぜなら、何千年も前に評判を管理できなければ死ぬことを意味したからです。パーソナリティモデルは言語の地図であり、それは私たちの心の進化のベクトルです。