From Vectors of Mind - images at original.


حسنًا، دعونا نأخذ استراحة صغيرة من موضوع الإدراك. في الواقع، كان لدي مجموعة من القياسات النفسية جاهزة قبل أن يجذبني نداء الوعي. من الصعب جدًا الابتعاد.

[صورة: محتوى بصري من المنشور الأصلي]يوليسيس والسيرينات، لوحة لـ جون ويليام ووترهاوس

بدأت هذه المدونة لاستكشاف الفرضية اللغوية من منظور تعلم الآلة. تحدد نماذج الشخصية السمات الأكثر تداولًا في اللغة، ويمكننا قياس ذلك بشكل أفضل بكثير في عصر GPT. تعود نماذج الشخصية المستمدة من إما متجهات الكلمات أو الاستطلاعات التقليدية إلى نفس السمات القليلة، خاصةً الاثنين الكبيرين: التنظيم الذاتي الاجتماعي، والديناميكية. للحصول على تذكير حول هذا، تحقق من الخمس الكبرى هي متجهات الكلمات والعامل الأساسي للشخصية.

تم العثور على الخمس الكبرى في العديد من اللغات بشكل مستقل، لكن المقارنة بين اللغات دائمًا ما تكون نوعية. يقوم الباحثون بإجراء استطلاع للصفات الشخصية في التركية أو الألمانية، ويقومون بتفكيكه، وينظرون إلى العوامل ليروا ما إذا كانت هي نفسها. لا يمكن استخدام هذه البيانات للقول “الانبساطية متحولة 15 درجة بعيدًا عن الضمير في الألمانية مقارنة بالإنجليزية.” لكي تكون دقيقًا، يجب أن تشترك كلتا اللغتين في بعض الأسس.

إذا قمت بإجراء أسئلة بلغات متعددة، يمكنك ربطها عن طريق 1) العثور على مجموعة ثنائية اللغة يمكنها الإجابة في كلتا اللغتين أو 2) افتراض أن الترجمات للكلمات هي 1:1 (مثلًا، fun مكافئة تمامًا لـ divertido في الإسبانية). في الحالة الأولى، هناك تأثير اختيار قوي. ماذا لو كان الأشخاص ثنائيو اللغة يميلون إلى أن يكونوا أكثر تعليمًا؟ والثاني ببساطة غير صحيح. في الواقع، السبب في تفكيك اللغات معًا هو فهم كيف يمكن أن يختلف هيكل الشخصية بينها. افتراض أن الكلمات هي نفسها يهزم الغرض.

أظهرت أبحاثي أنه يمكنك استخراج هيكل الشخصية من نماذج اللغة في الإنجليزية. السؤال الطبيعي هو كيف يتغير ذلك عندما تضيف لغات أخرى. مع النماذج المدربة على عشرات اللغات، يصبح هذا سهل الاستكشاف. يمكنك رسم أي عدد من اللغات على نفس الأساس.

الاثنين الكبيرين، مرة أخرى#

استخدمت XLM-RoBERTa لتعيين التشابه بين الصفات الشخصية. بشكل غريب، هذا النموذج هو نتيجة الإبادة الجماعية في ميانمار. تمتلك ميتا الموقف غير المحسود حيث يحتاجون إلى إزالة المحتوى في أماكن لديهم فهم قليل جدًا لها. تقنيًا، يُطلق على هذا مشكلة التعلم بالنقل. يرغبون في تدريب مصنف خطاب الكراهية في الإنجليزية (أو لغة أخرى ذات مصادر جيدة)، ثم تطبيق ذلك على لغات أخرى. في العصور المظلمة لنمذجة اللغة (2018) كان هذا يعمل بشكل سيء جدًا. كان الكلام العامي في البورمية لـ “دعونا نجمع المثليين ونقتلهم” يبدو لمصنفيهم مثل “يجب أن يكون هناك قوس قزح أقل”. بالطبع، انزلق هذا عبر مراقبة المحتوى الخاصة بهم. أوضحت NYT النتيجة: إبادة جماعية محرضة على فيسبوك، مع منشورات من جيش ميانمار

كان رد ميتا هو بناء نموذج لغة يمكنه بشكل أفضل رسم أي لغة (حسنًا، 100 لغة) إلى متجهات الكلمات في نفس الفضاء المشترك. بهذه الطريقة يمكن لمصنف خطاب الكراهية المدرب في الإنجليزية أن يمتد بشكل أفضل إلى لغات أخرى. (يحتاج إلى بورمية أقل لضبطه بدقة.) باستخدام هذا النموذج، قمت بتضمين كلمات الشخصية في أربع لغات: الإنجليزية، الإسبانية، الفرنسية، والتركية. فيما يلي العوامل الأولى:

[صورة: محتوى بصري من المنشور الأصلي]

تعمل هذه على فصل اللغات المختلفة. يميز العامل الأول التركية عن اللغات الهندو-أوروبية. في العامل الثاني، تكون اللغات الرومانسية متجاورة (على الرغم من أنها أيضًا قريبة من التركية).

هذا منطقي. يتم تدريب النموذج على توقع الكلمة التالية في الجملة، لذا سيشمل بشكل طبيعي معلومات خاصة باللغة. إذا كان شخص ما يتحدث بالإسبانية، فإنه لا يتحول غالبًا إلى التركية. الأمل هو أن هناك أيضًا اتجاهات في فضاء المتجهات تتوافق مع معلومات الشخصية.

إذا كانت اللغات مستقلة بشكل كبير، فأنت بحاجة إلى 3 أبعاد على الأقل لفصل 4 لغات في مجموعات غير متداخلة. دعونا نتحقق من المكونات الرئيسية التالية.

[صورة: محتوى بصري من المنشور الأصلي]

العامل 4 هو أول عامل لم يتم تعلمه لفصل اللغات، وهو العامل العام للشخصية! في الإنجليزية: مسيطر، قاسي، مهووس و_أناني_ مقابل كريم، لطيف، و_مفكر_. لقد جادلت بأن هذا العامل يُفهم بشكل أفضل على أنه الميل للعيش وفق القاعدة الذهبية. كانت نظرية حواء للوعي في الواقع نتيجة التساؤل عما سيختاره هذا في تاريخنا التطوري. العامل 5 يتعلق أيضًا بالشخصية، عند رسمهما معًا:

[صورة: محتوى بصري من المنشور الأصلي]

نحصل على الاثنين الكبيرين! العامل الخامس (أو الثاني، من عوامل الشخصية) هو الديناميكية: مغامر، خيالي، و_متحمس_ مقابل حذر، متحفظ، و_جبان._ من المدهش أن يظهر هذا بانتظام. هناك 2,500 استشهاد على ورقة الاثنين الكبيرين، وما زال الباحثون لا يدركون أنهم ببساطة أول عاملين غير مدورين للشخصية العامة. الاعتقاد الشائع بأنهم موجودون بطريقة ما في علاقة هرمية مع الخمس الكبرى يأتي من تخلي الباحثين عن التعامل مباشرة مع اللغة بعد فترة وجيزة من إنشاء قوائم الخمس الكبرى. منذ ذلك الحين، يجب أن يتم أي محاولة لفهم الشخصية الأساسية أو العامة بالإشارة إلى الخمس الكبرى. لكن الكلمات جاءت أولاً، ونماذج اللغة تجعل من السهل الآن تحليل اللغة على هذا المستوى الأساسي.

شارك

علينا أن نذهب أعمق#

إضافة الروسية والفارسية ينتج نفس العوامل:

[صورة: محتوى بصري من المنشور الأصلي] لرؤية الكلمات بشكل أفضل، قم بتنزيل الصورة وقم بالتكبير.

وفقًا لمعايير المهندس الكسول الخاصة بي، فإن هذا يتطلب جهدًا كبيرًا لأنه يتطلب العثور على موجه جيد لكل لغة. عملت مع ترجمة جوجل والمتحدثين الأصليين للحصول على هذا بشكل صحيح، ويمكنك رؤية توزيع الفارسية لا يزال بعيدًا عن العامل 4. تخميني هو أن طريقتي في تجاهل أي عامل غير مشترك غير دقيقة للغاية بالنسبة لهذا العدد الكبير من اللغات. ربما يُستخدم العامل 4 كعامل الشخصية العامة، وأيضًا لفصل الفارسية (قليلًا). لا يوجد شيء يحافظ على نقاء هذه العوامل، نحن محظوظون حقًا أن التوزيع منظم كما هو. قد يحل بعض المعالجة المسبقة (مثل جعل متوسط كل مجموعة لغوية صفرًا) هذا.

على حد علمي، هذه هي المرة الأولى التي يتم فيها تفكيك لغات متعددة معًا. سيكون هذا قابلاً للنشر مع النتائج على الإنجليزية والإسبانية فقط، وهنا وصلت إلى ست لغات، بما في ذلك لغتين غير هندوأوروبيتين. كما يلقي الضوء على طبيعة الاثنين الكبيرين، أحد أكثر البنى شيوعًا وسوء فهم في القياسات النفسية.

العيوب#

لقد قمت بهذا البحث بأغبى طريقة ممكنة. وجدت 100 كلمة شخصية في دليل ESL، ثم ترجمتها إلى لغات أخرى باستخدام ترجمة جوجل. إذا كانت هناك تكرارات، قمت بإزالتها. هذا ليس سيئًا كما يبدو. العوامل الأولى لا تتغير تقريبًا في الإنجليزية سواء استخدمت 100 أو 500 كلمة. لكن، إذا كانت هذه ورقة حقيقية، فستحتاج بالطبع إلى تطوير مجموعة من الكلمات في كل مفردات بشكل مستقل. هناك عدة عيوب أخرى:

ليس هناك ما يكفي من اللغات! إذا نشرت هذا، أود إضافة عشرات اللغات الأخرى التي لا تُدرس عادة في علم الشخصية. في الواقع، هذا هو السبب في أنني لم أتمكن من نشره. هذا عمل كثير وسيتطلب متحدثين أصليين لعدة لغات آسيوية.

النماذج متعددة اللغات مشوهة ببيانات التدريب. يتم تدريب نماذج اللغة على توقع الكلمة التالية في الجملة. إذا قمت بالتدريب بلغات متعددة، سيحاول النموذج نقل بعض المعرفة. ومع ذلك، بالنسبة للغات الأصغر، قد يبدو هذا أشبه بمعانيها التي يتم إجبارها على تشبيهات ضمن اللغات ذات المصادر الأفضل (الإنجليزية، الصينية، الروسية، إلخ).

الاستفسارات هي درجة حرية الباحث. الطريقة التي أستخدمها لتضمين الكلمات هي “يمكن وصف شخصيتي بأنها و [word]” حيث [word] هي واحدة من كلمات الشخصية. بسبب الطريقة التي تُكتب بها الجملة، يقوم النموذج بتحميل معلومات الشخصية النقية على رمز القناع ثم يضمنها. في أطروحتي، وجدت أن هذا يعمل بشكل أفضل. بالطبع، هناك تباينات لا نهائية لهذا، وعليك اختيار واحدة. نظريًا، يمكن للباحث أن يكون لديه نتيجة معينة في ذهنه، ثم يجد استفسارًا يدعم ذلك. في رأيي، ليس هناك الكثير من المخاطر، نظرًا لتشابه هذه النتيجة مع ما تنتجه طرق الاستطلاع. لدينا افتراض قوي حول هيكل الشخصية الذي نجده مع تحليل العوامل. تكرار هذه الطريقة له دليل على أن الطريقة تعمل.

نموذج لغة قديم. قمت بهذا العمل قبل أكثر من عامين، قبل وقت طويل من ظهور GPT-4. أوقات أبسط.

الخاتمة#

إذا كنت لا أزال في الأوساط الأكاديمية، لكان هذا هو جدول أعمالي البحثي. أضف أكبر عدد ممكن من اللغات، وحاول فهم جميع الطرق التي يمكن أن تكون الطريقة متحيزة. في النهاية، قد ينتج نموذجًا عالميًا للشخصية يتفوق على الخمس الكبرى. سيساعدنا على فهم من نحن بشكل أفضل، وربما حتى من أين أتينا. لأن اللغة هي التي تعرف نوعنا الآن، وكانت اللغة هي التي شكلت نفسيتنا في الماضي البعيد. نحن اجتماعيون بشكل معتاد لأن آلاف السنين الماضية كان الفشل في إدارة سمعتك يعني الموت. نماذج الشخصية هي خرائط للغة؛ هي متجهات في تطور عقلنا.

اشترك الآن

[صورة: محتوى بصري من المنشور الأصلي]