Desde hace tiempo, cada vez que nos enfrentamos a un problema de predicción en el que vamos a utilizar algún modelo de clasificación tradicional probamos con múltiples técnicas estadísticas para comparar sus niveles de precisión y elegir aquella que mejores estimaciones hace.
Para ello, usamos conjuntos de validación, es decir, fuera del conjunto de entrenamiento y comparamos las medidas estándar de precisión aportadas por la matriz de confusión y las gráficas de deciles. Las técnicas que usualmente utilizamos para modelar son: Averaged Perceptron, Bayes Point Machine, Boosted Decision Tree, Decision Forest, Decision Jungle, Locally-Deep Support Vector Machine, Logistic Regression, Robust Regression y Support Vector Machine.
Hasta hace poco tiempo, habíamos utilizado aquella técnica estadística que resultara más precisa estadísticamente hablando, sin reparar mucho en las implicaciones de dicha decisión en el contexto específico de predicción del modelo. Una de nuestras últimas experiencias, sin embargo, nos ha hecho caer en cuenta de las implicaciones de utilizar una u otra técnica, dependiendo el grado de estabilidad del fenómeno a predecir y la cantidad de “experiencia” guardada en la información con la cual se entrena el modelo. Para ilustrar esta situación hablaremos de dos ejemplos concretos: un modelo de predicción de deserción de estudiantes y un modelo de predicción de la humedad de la caña.
Caso 1: Predicción de deserción de estudiantes
Foresight es una de nuestras principales soluciones para la vertical de educación, específicamente para universidades. Esta solución está conformada por una serie de motores estadísticos que se conectan a los principales sistemas de la universidad para extraer la información sobre la huella que dejan los estudiantes en su paso por la institución y proveer una serie de indicadores predictivos que permiten optimizar la gestión de su ciclo de vida.
Estos motores permiten predecir comportamientos tales como, qué estudiante va a desertar, que estudiante va a reprobar un curso, que estudiante no se va a presentar al inicio de clase, qué estudiante no se va a graduar, etc.
Desde hace años construimos los modelos estadísticos detrás de nuestra solución, utilizando la metodología que presentamos antes, a saber, poner a concursar distintas técnicas matemáticas para elegir la más precisa. Casi siempre la Regresión Logística y el Boosted Desition Tree son las técnicas ganadoras.
Estos modelos son calibrados cada seis meses y, normalmente, cuando hacemos estas revisiones podemos notar que no pierden mucha precisión con el paso del tiempo, independientemente de la técnica estadística que usemos. No habíamos reparado que esto se debe a que el comportamiento de la deserción es, relativamente, estable. Lo sabríamos después, cuando seguimos la misma estrategia en otro contexto, sin la misma suerte.
Caso 2: Predicción de Humedad de la caña al momento de su cosecha
Recientemente construimos un modelo para predecir parámetros óptimos en la cosecha de la caña de azúcar. Particularmente en la agricultura, el tratamiento que se le da a la cosecha es de vital importancia pues es, en buena medida, la razón de que un cultivo tenga o no la calidad deseada. Este tratamiento va desde la aplicación de productos en dosis específicas hasta la cantidad de riego de acuerdo con las condiciones de la temporada, entre otros.
En un esfuerzo para optimizar la elección de estos tratamientos, construimos un modelo que permitiera predecir la humedad de la caña de azúcar con los distintos tratamientos posibles, con el fin de elegir aquél que se acercara más a la humedad deseada para la cosecha. Este parámetro es de vital importancia en la cosecha de la caña para optimizar la producción.
En el proceso se incluyeron variables climáticas como precipitación, radiación, temperatura y humedad, estas métricas se consideraron en distintos intervalos de tiempo, así también se contemplaron variables como el tipo de riego, altitud, variedad de la caña de azúcar plantada, el número de riegos que se han aplicado, el índice de salud ponderado por área, el producto fertilizante y la dosis aplicada del mismo.
En la modelación seguimos la misma metodología de comparación de distintas técnicas estadísticas y la ganadora fue un árbol de decisión, así que, como usualmente hacemos, elegimos ese como el modelo ganador.
Una vez que se utilizó el modelo ganador para hacer la predicción de una nueva cosecha sucedió algo que nunca nos había sucedido en otros contextos. Los resultados que arrojó el modelo no hicieron ningún sentido. Incluso cuando habíamos probado el modelo para cosechas que estaban fuera de la data de entrenamiento y las predicciones habían sido precisas. Después de indagar con más profundidad nos dimos cuenta de que las variables predictoras para dicha cosecha se salían completamente de los rangos que teníamos en el set de entrenamiento. Para este período de tiempo en particular las variables climáticas se habían salido de los rangos de cualquier comportamiento observado en nuestro set de entrenamiento. Al correr la regresión, sin embargo, el modelo predecía mucho mejor.
¿Qué sucedió?
Lo que sucedió es algo que es bastante conocido en el mundo de la Ciencia de Datos, los árboles de decisión tienden a estar sobre ajustados a los datos de entrenamiento, es decir, le dan demasiada importancia a las distintas combinaciones de escenarios que se presentan en la data con la cual están construidos. Este es un buen ejemplo, mientras el escenario de predicción se pareciera a un escenario que se había dado en la data de entrenamiento el modelo era el mejor para predecir. En cuanto dicho contexto de predicción se salió de un escenario conocido para el modelo, éste no fue capaz de predecir lo que iba a suceder.
Hicimos pruebas con el modelo de regresión y los resultados fueron mucho mejores. Esto se debe a que los modelos de regresión intentan cuantificar una relación más genérica entre las variables predictoras y la variable a predecir y no una identificación específica del escenario de predicción en los escenarios conocidos del entrenamiento.
Conclusión
Para decidir qué técnica estadística se debe emplear en un contexto de predicción es importante tener un conocimiento profundo del fenómeno que se va a predecir y no sólo guiarse por parámetros estadísticos puros.
Lo primero que hay que conocer es si el fenómeno a modelar es relativamente estable, es decir, si el patrón de la relación entre las variables predictivas y la variable a predecir no cambia mucho. Un ejemplo de esto es, precisamente, la deserción estudiantil. Si bien éste es un fenómeno que puede cambiar en el tiempo, las relaciones entre las variables predictoras (calificaciones, finanzas, perfil sociodemográfico, etc.) y la variable a predecir (la deserción) no necesariamente va a cambiar muy rápidamente.
De hecho, incluso en el actual contexto de Covid19, nos hemos dado cuenta de que los modelos que construimos siguen funcionando, a pesar de que, evidentemente, el contexto de deserción estudiantil ha cambiado. Si el fenómeno a predecir es relativamente estable podemos ser más flexibles en cuanto a la técnica a utilizar, en particular con las técnicas de árbol de decisión, sin temor a que falle.
Lo segundo que debemos tomar en cuenta es la capacidad que tiene la información con que vamos a entrenar el modelo de predecir la mayor cantidad de escenarios posibles. Si es muy factible que, en un futuro, cuando queramos predecir el comportamiento en cuestión, vaya a haber un escenario que es muy distinto a los escenarios con los que hemos entrenado a los modelos, es muy probable que el modelo falle.
Esto es, precisamente, lo que sucedió en el caso de nuestra predicción de la humedad de la caña. Dado que parte de las variables predictivas son climáticas y este tipo de comportamientos tienden a ser muy volátiles no es buena idea usar técnicas como los árboles de decisión por el sobreajuste que ellas conllevan.
Por: Alberto Villa y Armando Alvarez Govela