De Vectors of Mind - imágenes en el original.


Bien, tomemos un pequeño respiro del tema de la sapiencia. En realidad, tenía un montón de psicometría preparada antes de ser atraído por el llamado clarion de la conciencia. Es simplemente tan difícil mirar hacia otro lado.

[Imagen: Contenido visual del post original]Ulises y las sirenas, pintura de John William Waterhouse

Comencé este blog para explorar la Hipótesis Léxica desde una perspectiva de aprendizaje automático. Los modelos de personalidad definen los rasgos más comentados en un idioma, y podemos medir eso mucho mejor en la era de GPT. Los modelos de personalidad derivados de vectores de palabras o encuestas tradicionales vuelven a los mismos pocos rasgos, especialmente los Dos Grandes: autorregulación social y dinamismo. Para refrescarte sobre esto, revisa Los Cinco Grandes son Vectores de Palabras y El Factor Primario de la Personalidad.

Los Cinco Grandes se han encontrado en muchos idiomas de manera independiente, pero la comparación entre idiomas siempre es cualitativa. Los investigadores administran una encuesta de adjetivos de personalidad en turco o alemán, la factorizan y más o menos observan los factores para ver si son los mismos. Estos datos no pueden usarse para decir “La extraversión está desplazada 15 grados de la conciencia en alemán comparado con el inglés”. Para ser tan preciso, ambos idiomas tendrían que compartir alguna base.

Si administras preguntas en múltiples idiomas, puedes relacionarlas 1) encontrando un grupo bilingüe que pueda responder en ambos idiomas o 2) asumiendo que las traducciones de palabras son 1:1 (por ejemplo, fun es perfectamente equivalente a divertido en español). En el primer caso, hay un fuerte efecto de selección. ¿Qué pasa si las personas bilingües tienden a estar mejor educadas? El segundo simplemente no es cierto. De hecho, la razón para factorizar idiomas juntos es entender cómo la estructura de la personalidad puede divergir entre ellos. Asumir que las palabras son las mismas derrota el propósito.

Mi investigación mostró que puedes extraer la estructura de la personalidad de los modelos de lenguaje en inglés. Una pregunta natural es cómo cambia eso cuando agregas otros idiomas. Con modelos entrenados en docenas de idiomas, esto se vuelve bastante sencillo de explorar. Puedes mapear cualquier número de idiomas a la misma base.

Los Dos Grandes, una vez más#

Usé XLM-RoBERTa para asignar similitud entre adjetivos de personalidad. Extrañamente, este modelo es un resultado del genocidio en Myanmar. Meta tiene la posición poco envidiable de necesitar eliminar contenido en lugares de los que tienen muy poco entendimiento. Técnicamente, esto es lo que se llama un problema de aprendizaje por transferencia. Les gustaría entrenar un clasificador de discurso de odio en inglés (u otro idioma bien documentado), y luego aplicarlo a otros idiomas. En la era oscura del modelado de lenguaje (2018), esto funcionaba muy mal. El habla coloquial en birmano para “vamos a reunir a los gays y matarlos” parecía a sus clasificadores como “debería haber menos arcoíris”. Esto, por supuesto, pasaba por alto su moderación de contenido. El NYT explicó la consecuencia: Un genocidio incitado en Facebook, con publicaciones del ejército de Myanmar

La respuesta de Meta fue construir un modelo de lenguaje que pudiera mapear mejor cualquier idioma (bueno, 100 idiomas) a vectores de palabras en el mismo espacio compartido. De esa manera, un clasificador de discurso de odio entrenado en inglés puede extenderse mejor a otros idiomas. (Se necesita menos birmano para ajustarlo). Usando este modelo, incrusté palabras de personalidad en cuatro idiomas: inglés, español, francés y turco. A continuación se muestran los dos primeros factores:

[Imagen: Contenido visual del post original]

Estos sirven para separar los diferentes idiomas. El primer factor distingue el turco de los idiomas indoeuropeos. En el segundo factor, los idiomas romances están adyacentes (aunque también cerca del turco).

Esto tiene sentido. El modelo está entrenado para predecir la siguiente palabra de una oración, por lo que naturalmente incluirá información específica del idioma. Si alguien está hablando en español, no suele cambiar a turco. La esperanza es que también haya direcciones en el espacio vectorial que correspondan a información de personalidad.

Si los idiomas son bastante independientes, necesitas al menos 3 dimensiones para separar 4 idiomas en sus propios grupos no superpuestos. Veamos los siguientes componentes principales.

[Imagen: Contenido visual del post original]

El Factor 4 es el primer factor que no se aprendió para separar los idiomas, ¡y es el Factor General de Personalidad! En inglés: dominante, despiadado, compulsivo y egoísta vs generoso, amable y considerado. He argumentado que este factor se entiende mejor como la tendencia a vivir la Regla de Oro. La Teoría de Eva de la Conciencia fue en realidad un resultado de preguntarse qué seleccionaría esto en nuestra historia evolutiva. El Factor 5 también trata sobre la personalidad, trazándolos juntos:

[Imagen: Contenido visual del post original]

¡Obtenemos los Dos Grandes! El Factor Cinco (o dos, de los factores de personalidad) es el Dinamismo: aventurero, imaginativo y entusiasta vs cauteloso, reservado y cobarde. Es sorprendente que esto surja tan regularmente. Hay 2,500 citas en el artículo de los Dos Grandes, y aún así los investigadores no se dan cuenta de que son simplemente los dos primeros factores no rotados de la personalidad general. La creencia común de que de alguna manera existen en una relación jerárquica con los Cinco Grandes proviene de que los investigadores abandonaron el trato directo con el lenguaje poco después de hacer los inventarios de los Cinco Grandes. Desde entonces, cualquier intento de entender la personalidad básica o general debe hacerse en referencia a los Cinco Grandes. Pero las palabras vinieron primero, y los modelos de lenguaje facilitan analizar el lenguaje en ese nivel fundamental ahora.

Compartir

Tenemos que ir más profundo#

Agregar ruso y farsi produce los mismos factores:

[Imagen: Contenido visual del post original]Para ver mejor las palabras, descarga la imagen y haz zoom.

Según mis estándares de ingeniero perezoso, esto es bastante laborioso porque requiere encontrar un buen prompt para cada idioma. Trabajé con Google Translate y hablantes nativos para hacerlo bien, y puedes ver que la distribución del farsi todavía está desfasada en el Factor 4. Mi suposición es que mi método de ignorar cualquier factor que no sea compartido es demasiado rudimentario para tantos idiomas. El Factor 4 probablemente se usa como el GFP, y también para separar el farsi (solo un poco). No hay nada que mantenga estos factores puros, realmente tenemos suerte de que la distribución sea tan bien comportada como es. Hacer algún preprocesamiento (como dar un significado cero a cada grupo de idiomas) podría resolver esto.

Hasta donde sé, esta es la primera vez que múltiples idiomas se han factorizado juntos. Esto sería publicable con resultados solo en inglés y español, y aquí llegué hasta seis, incluyendo dos idiomas no indoeuropeos. También arroja luz sobre la naturaleza de los Dos Grandes, uno de los constructos más populares—y mal entendidos—en psicometría.

Deficiencias#

Hice esta investigación de la manera más tonta posible. Encontré 100 palabras de personalidad en una guía de ESL, y luego las traduje a otros idiomas usando Google Translate. Si había duplicados, los eliminaba. Esto no es tan malo como parece. Los dos primeros factores son prácticamente inalterados en inglés, ya sea que uses 100 o 500 palabras. Pero, si esto fuera un artículo real, obviamente querrías desarrollar un conjunto de palabras en cada vocabulario de manera independiente. Hay varias otras deficiencias:

¡No hay suficientes idiomas! Si publicara esto, me gustaría agregar una docena más de idiomas que no suelen estudiarse en la ciencia de la personalidad. De hecho, por eso nunca llegué a publicarlo. Es mucho trabajo y requeriría hablantes nativos de varios idiomas asiáticos.

Modelos multilingües deformados por los datos de entrenamiento. Los modelos de lenguaje están entrenados para predecir la siguiente palabra de una oración. Si entrenas con múltiples idiomas, el modelo intentará transferir parte del conocimiento. Sin embargo, para los idiomas más pequeños esto podría parecer más como que sus significados son forzados a analogías dentro de los idiomas mejor documentados (inglés, chino, ruso, etc.).

Las consultas son un grado de libertad del investigador. El método que uso para incrustar palabras es “Mi personalidad puede describirse como y [palabra]” donde [palabra] es una de las palabras de personalidad. Debido a la forma en que está escrita la oración, el modelo carga información de personalidad pura en el token de máscara y luego lo incrusta. En mi disertación, encontré que esto funcionaba mejor. Por supuesto, hay infinitas variaciones a esto, y tienes que seleccionar una. Teóricamente, un investigador podría tener un resultado particular en mente, y luego encontrar una consulta que lo respalde. En mi opinión, no es demasiado arriesgado, dado lo similar que es este resultado a lo que producen los métodos de encuesta. Tenemos un precedente bastante fuerte sobre qué estructura de personalidad encontramos con el análisis factorial. Este método que lo recapitula es evidencia de que el método funciona.

Modelo de lenguaje desactualizado. Hice este trabajo hace más de 2 años, mucho antes de que saliera GPT-4. Tiempos más simples.

Conclusión#

Si todavía estuviera en la academia, este sería mi agenda de investigación. Agregar tantos idiomas como sea posible, y tratar de entender todas las formas en que el método puede estar sesgado. Al final, puede producir un modelo universal de personalidad superior a los Cinco Grandes. Nos ayudaría a entender mejor quiénes somos, y tal vez incluso de dónde venimos. Porque es el lenguaje lo que define a nuestra especie ahora, y fue el lenguaje lo que forjó nuestra psique en el pasado. Somos habitualmente sociales porque hace miles de años, fallar en manejar tu reputación era morir. Los modelos de personalidad son mapas del lenguaje; son vectores en la evolución de nuestra mente.

Suscríbete ahora

[Imagen: Contenido visual del post original]