From Vectors of Mind - images at original.


تم تقديم الدراسات المعجمية في علم النفس وتحليل الدلالات الكامنة في علوم الحاسوب بفارق نصف قرن لحل مشاكل مختلفة ومع ذلك فهي متكافئة رياضيًا. هذا ليس استعارة تعمل على مستوى معين من التجريد ; الخمسة الكبار هي أبعاد متجهات الكلمات.

لكن أولاً، بعض الخلفية. تدعي الفرضية المعجمية أن هيكل الشخصية سيتم كتابته في اللغة حيث يجب على المتحدثين وصف السمات الأكثر بروزًا لمن حولهم. جمال هذه الفكرة هو أنه بدلاً من أن يقترح شخص واحد نموذجًا للشخصية، تسجل اللغة ما يتفق عليه الملايين من الناس ضمنيًا ليكون مفيدًا. وظيفة عالم القياس النفسي هي ببساطة تحديد هذا الهيكل. وقد تم تحقيق ذلك عادةً من خلال دعوة طلاب علم النفس لتقييم أنفسهم على قوائم الصفات وإجراء تحليل العوامل على مصفوفة الارتباط. في عام 1933، أجرى LL Thurstone استطلاعًا شمل 60 صفة على 1300 شخص. في عمله الرائد Vectors of Mind، يذكر أن “خمسة عوامل كافية” لشرح البيانات. في العقود اللاحقة، أسفرت مثل هذه الدراسات، إلى حد ما، عن خمسة مكونات رئيسية: التوافق، الانبساط، الضمير، العصابية، والانفتاح/الفكر. (للحصول على معالجة ممتازة للموضوع، انظر Lexical Foundations of the Big Five.)

تم تقديم تحليل الدلالات الكامنة كـ تقنية لاسترجاع المعلومات في عام 1988. يمكن تمثيل الكلمات كمتجهات ويمكن تمثيل الوثائق أو الجمل كمتوسط لمتجهات كلماتها. إذا كنت تريد البحث في قاعدة بيانات كبيرة (مثل ويكيبيديا)، فإن الكلمات المفتاحية لكل صفحة يمكن أن توصلك إلى حد معين. إحدى الطرق للتغلب على ذلك هي تمثيل كل من الوثائق (مقالات الويكي) والاستفسارات (مصطلحات البحث) كمتوسط لمتجهات كلماتها. يمكن الآن العثور على الوثائق ذات الصلة بعملية ضرب نقطية بسيطة. (في هذا المنشور، أتعامل مع LSA ومتجهات الكلمات كمرادفين. هناك طرق أخرى لتوجيه اللغة وبشكل أكثر تحديدًا لصنع متجهات الكلمات، لكن تلك تتجاوز النطاق في الوقت الحالي.)

على الرغم من استخداماتها وتاريخها المختلفين، فإن الخطوات هي نفسها:

  1. جمع مصفوفة عدد الكلمات x الوثيقة

  2. التحويل غير الخطي

  3. تحليل المصفوفة

  4. التدوير (اختياري)

النتيجة هي مجموعة من متجهات الكلمات التي تصف كل كلمة بشكل موجز. يمكن استخدامها لمجموعة من المهام اللاحقة، من تحليل المشاعر إلى التنبؤ بالنرجسية من مقالات الطلاب. في حالة الصفات الشخصية، تم تحليل أبعاد متجهات الكلمات وتسميتها ومناقشتها لعقود. ما يلي هو مناقشة للاختلافات في كل خطوة.

مصفوفة العد. عادةً ما يتضمن LSA عددًا كبيرًا من الوثائق المتنوعة (مثل ملايين مراجعات منتجات أمازون). يتم تحويل هذه إلى مصفوفة كلمة x وثيقة عن طريق حساب عدد مرات ظهور كل كلمة في كل وثيقة. في علم النفس، الوثيقة هي الكلمات التي يوافق الشخص على أنها تصفه. يمتد هذا إلى مقاييس ليكرت أيضًا. إذا قال شخص ما إن كلمة تصفه 5/7، فقم ببساطة بتكرار الكلمة خمس مرات في الوثيقة.

التحويل غير الخطي. غالبًا ما تقوم الدراسات المعجمية بتقييس البيانات (درجة z على طول محور الموضوع) ثم إجراء ارتباط بيرسون. استخدم Thurstone ارتباطًا رباعي الأطراف قديمًا في دراسته. في LSA، التحويل الأكثر شيوعًا هو TF-IDF، يليه اللوغاريتم. يضمن ذلك عدم هيمنة المصطلحات الشائعة على المصفوفة. غالبًا ما ينتج عن التحويل مصفوفة تقارب كلمة x كلمة (مثل مصفوفة الارتباط). هذه الخطوة مهمة عمليًا جدًا ولكنها ليست نظرية تمامًا. التحويل الذي تختاره هو الذي يمنحك نتيجة معقولة في النهاية.

تحليل المصفوفة. هناك العديد من طرق تحليل المصفوفة. بعضها، مثل PCA، يتطلب مصفوفة مربعة. البعض الآخر قوي في مواجهة البيانات المفقودة. مع بيانات الشخصية، لا يهم الاختيار كثيرًا؛ النتائج متشابهة جدًا. تتطلب متجهات الكلمات العامة حوالي 300 بُعد لتمثيل معنى الكلمة، جزء من الكلام، العامية، والعديد من الأشياء الأخرى التي تعطي اللغة نسيجها. نظرًا لأن الاستطلاعات مصممة للحفاظ على الكثير من ذلك ثابتًا، فإن حوالي 5 أبعاد فقط مطلوبة. برر Thurstone اختياره للخمسة من خلال النظر في خطأ إعادة البناء الذي يذكره كهيستوجرام. برر علماء النفس لاحقًا الخمسة من خلال خطأ إعادة البناء (المقاس بالقيم الذاتية)، بالإضافة إلى النظر في القابلية للتفسير وإمكانية التكرار.

[Image: Visual content from original post]خطأ إعادة البناء لمصفوفة ارتباط الكلمات. على الرغم من القيود الحسابية، فإن عينته أكبر بكثير من العديد من الدراسات الحديثة.

التدوير. هل سمعت يومًا عن استخراج المكونات الزائدة؟ إنها ليست قصة سيخبرك بها علماء النفس. إنها عندما يستخرج الباحث عددًا كبيرًا جدًا من المكونات الرئيسية ثم يدور التباين من المكونات الصحيحة المبكرة إلى المكونات الهامشية اللاحقة. هذا ما حدث مع الخمسة الكبار، صدق أو لا تصدق! ما هو الآن التوافق كان في السابق عامل “التنشئة الاجتماعية” الأكثر قوة وإرضاءً نظريًا، والذي تم توزيعه على المكونات 3-5 لتكوين الضمير، العصابية، والانفتاح. يمكن تبرير التدوير لإنتاج عوامل قابلة للتفسير. ولكن إذا وجدت نفسك تدور ثم تجادل حول العدد الصحيح للعوامل، فتحقق من نفسك!

الثلاثة الكبار من متجهات الكلمات

بدأت دراستي للدكتوراه بالتنبؤ بسمات الخمسة الكبار من حالات فيسبوك. بعد قراءة كيفية صنع “نقانق الشخصية”، أدركت أن المشروع استخدم متجهات الكلمات (لحالات فيسبوك) للتنبؤ بتقديرات تقريبية لمكان عيش الأفراد في فضاء الخمسة الكبار، والذي تم تعريفه في الأصل بواسطة متجهات الكلمات. بدا الأمر أكثر إثارة للاهتمام للوصول إلى النقطة وتعلم شيء أساسي عن الشخصية من متجهات الكلمات. (أيضًا، أصبحت مجموعة البيانات التي كنت أستخدمها سامة بعد كامبريدج أناليتيكا.) كان بقية دراستي للدكتوراه يعمل على تقييد متجهات الكلمات من أجل إعادة إنتاج الخمسة الكبار. تضمن ذلك استخدام المحولات بدلاً من LSA (المزيد عن ذلك في المشاركات المستقبلية). الارتباط الناتج بين العوامل من متجهات الكلمات (DeBERTa) مقابل الاستطلاعات موضح أدناه. كما ترى، هناك توافق وثيق جدًا للعوامل الثلاثة الأولى. حيث تتباعد النتائج، ليس من الواضح أي طريقة هي الخطأ. ربما تكون الاستطلاعات صحيحة، وستذهب جميع الارتباطات إلى 1 عندما نحصل على GPT-5. ربما تكون الاستطلاعات مجرد متحيزة وصاخبة، وتم استخراج عدد كبير جدًا من المكونات. ربما يقيسون أشياء مختلفة، ونحتاج إلى تحسين تفسيرنا لكليهما. على أي حال، ليس من الواضح لي أن الاستطلاعات يجب أن تعتبر المعيار الذهبي بين الاثنين. الفرضية المعجمية تتعلق ببنية اللغة، بعد كل شيء، وعلم النفس هو المجال الوحيد الذي يستخدم الاستطلاعات لتحليل اللغة الطبيعية.

[Image: Visual content from original post]المكونات الرئيسية غير المدورة من أحد الدراسات التي حددت الخمسة الكبار. يتم استخراج مكونات DeBERTa من متجهات الكلمات. اقرأ عن تلك العملية هنا.

الخاتمة

كان Thurstone رائدًا في طرق الإحصاء والجبر الخطي لاستكشاف الفرضية المعجمية في الثلاثينيات. من المدهش أنه طور طريقة لتمثيل الكلمات التي أعيد اكتشافها لاحقًا لاسترجاع المعلومات، والتي تشغل الآن عصر المعلومات. أجبرت الحسابات Thurstone على تسطيح المناظر الطبيعية الغنية للغة إلى استجابات الاستطلاع. في الثلاثين عامًا الماضية، شهدت معالجة اللغة الطبيعية ثورات متعددة. إذا اخترع Thurstone تلسكوبًا لرؤية بنية اللغة، فنحن الآن نمتلك هابل. العديد من الأفكار تنتظر!