El pensamiento es la figura lógica de los hechos.
Ludwig Wittgenstein
De acuerdo con Ludwig Wittgenstein el lenguaje expresa sensoperceptiblemente el pensamiento, el cual, a su vez, es una figura lógica del mundo. De esta forma, según el filósofo austríaco, el lenguaje y la realidad son isomórficos debido a que la estructura del lenguaje traduce la estructura de la realidad 1. Por ello, el estudio del lenguaje se constituye como condición necesaria del conocimiento del mundo. No es sólo una reflexión sobre las particularidades desu estructura formal, sino que supone una reflexión sobre la disposición metafísica del mundo; es,en última instancia,una reflexión sobre el ser 2.
Si bien dicha discusión se da en un contexto filosófico muy específico de principios del siglo pasado y sus causas e implicaciones distan del trabajo que aquí presentaremos es un buen preámbulo sobre las misteriosas relaciones que se dan entre el lenguaje, el pensamiento y el mundo. En nuestro caso, como se verá más adelante, entre la forma en cómo escribimos y nuestras características cognitivas individuales.
Comencemos por un ejemplo que precede el trabajo que expondremos: Personality Insights. Este es uno de los componentes analíticosde Watson, el cual es capaz de realizar la radiografía de personalidad de alguien a partir de un texto escrito por dicha persona. Utilizando un set de datos de decenas de miles de personas para las cuales se tiene los resultados de una prueba psicométrica de personalidad y textos abiertos escritos por ellos mismos, IBM realizó un modelo matemático de Machine Learning, el cual utiliza una serie de funciones que descomponen el texto en diferentes vectores para predecir las distintas facetas de personalidad dadas por el test psicológico.
Más allá de los detalles técnicos de cómo se construye dicho modelo, lo verdaderamente relevante de este componente analítico es que prueba que existe una correlación estadística contundente entre la forma que tiene una persona de escribir y su personalidad. Los resultados de precisión de los modelos, los cuales, en principio, no utilizan otras variables además de los vectorizadores del texto, son tan altos que es fácil suponer que no es una relación espuria.
Siguiendo esta línea de pensamiento, como parte de nuestros esfuerzos de innovación para el sector de educación, en Analytikus desarrollamos un proyecto para intentar encontrar una relación entre leguaje y habilidades cognitivas. Quisimos saber si existía alguna relación entre la forma de escribir de un estudiante y su posible éxito profesional en diferentes ramas del conocimiento.
Para ello decidimos intentar construir un algoritmo que fuera capaz de predecir el posible éxito, entendido como vocación, en una carrera universitaria en específico, a partir de la forma en que un estudiante escribe. Dicho esfuerzo debiera ser la base de una solución de orientación vocacional que pueda ser utilizada en las fases de reclutamiento de las universidades, utilizando insumos como los ensayos de admisión.
Para ello contamos con un set de datos conformado por observaciones de decenas de miles de estudiantes, el cual contiene para cada uno: texto libre obtenido de los chats y foros del LMS (el sistema que la universidad usa para los cursos on-line), la carrera universitaria que cursa y sus notas obtenidas.
Con base en dicha información seguimos una estrategia similar a la utilizada para construir el componente de personalidad de Watson. Se realizaron análisis de los textos obtenidos del LMS utilizando funciones de análisis de sentimiento, lematización, así como vectorizadores y tf-idf, los cuales fueron el insumo para entrenar un modelo de clasificación multivariado que tuvo como variable objetivo la carrera a la que pertenecía cada estudiante.
Filtramos el modelo para entrenarlo sólo con aquellos alumnos que presentaban notas altas para intentar identificar el posible éxito estudiantil en un área del conocimiento específica. Corrimos modelos de regresión, árboles de decisión y redes neuronales para elegir aquel con mejores resultados de precisión.
Los resultados fueron sorprendentes, había carreras para las cuales los porcentajes de precisión eran de hasta el 80%. Es decir, el modelo era capaz de predecir, para un set de validación, a qué carrera pertenecía el alumno solo con analizar su texto. Increíble pensar que exista una relación tan importante entre la forma en cómo escribimos y el área de conocimiento a la que somos afines.
Los retos por delante, sin embargo, todavía son importantes si queremos tener un modelo contundente. Por ejemplo, descubrimos que el set de entrenamiento tiene algo de sesgo pues, dado que los textos provienen del LMS son textos que están escritos en los contextos de las áreas del conocimiento que intentamos explicar. El vectorizador de palabras presenta un vocabulario técnico relacionado con el área de conocimiento en su top palabras, las cuales seguramente no serían palabras que alguien usa fuera de ese contexto.
Nuestros siguientes pasos estarán enfocados en entrenar los modelos de ML con textos que presenten menos sesgos de vocabulario, así como usando técnicas de análisis de texto que no dependan directamente del vocabulario técnico usado en el texto, sino de su estructura sintáctica.
Más allá del estatus de nuestra investigación, siempre es apasionante poder juntar conocimientos interdisciplinarios para intentar explicar el mundo que nos rodea. En este caso, las misteriosas relaciones entre el lenguaje y nuestra forma de conocer el mundo. Los mantendremos informados de nuestros avances.
Por: Armando Alvarez y Alberto Villa - Analytikus
1 -https://sites.google.com/site/lenguajeyantropomorfismo/services/el-lenguaje-segun-wittgenstein
2 -https://sites.google.com/site/lenguajeyantropomorfismo/services/el-lenguaje-segun-wittgenstein