Importancia de la selección de métricas de similitud de texto para modelos de Machine Learning

Presentado en Data Day 2020

Elegir una métrica de similitud de texto que nos ayude a obtener un buen modelo es crucial. Existen numerosas métricas y la elección puede ser confusa. En esta plática veremos ejemplos y sugerencias para su adecuada elección.

Cuando construimos un modelo de Machine Learning en el que tenemos texto como entrada es usual utilizar métricas de similitud. La adecuada selección de los elementos para construir nuestro modelo es vital para poder tener buenos resultados. Una mala decisión nos puede llevar a pensar que el algoritmo no funciona como esperamos pero hay muchos factores involucrados y debemos ser cuidadosos en como entrenamos nuestro modelo. Además, cuando usamos librerías es tentador dejarnos llevar por los parámetros por omisión pero no para todos los casos éstos son los mejores. Y como en todo ciclo de ciencia de datos lo importante es formularnos la pregunta inicial: ¿cuál es nuestro objetivo?

En esta plática veremos ejemplos de la aplicación de este tipo de métricas y sugerencias prácticas para su adecuada elección. ¿Queremos detectar plagio de una tarea hecha por un estudiante? ¿O tal vez identificar si un comentario de un cliente sobre un artículo es positivo o negativo? A partir de definir y cuestionarnos nuestro objetivo los siguientes pasos son más claros.