Github: https://github.com/xuxoramos/bias-variance-tradeoff-simulation
Ya sabemos que al desarrollar un modelo, debemos de seleccionar bien nuestros features para maximizar poder predictivo. También hemos escuchado que “más datos superan a un modelo muy sofisticado”. Igual hemos visto que muchos de nosotros tomamos todas nuestras variables y así se las aventamos al modelo, obteniendo relaciones e inferencias espurias.
El concepto del bias-variance tradeoff es lo que nos pone en el justo medio de estas 3 situaciones, y es el concepto más, más, más importante de Machine Learning, y al cual se le dedica poco tiempo en universidades, y nadita en bootcamps.
Vamos a ver como funciona este trade-off con una simulación en R.
Conoce las vacantes de ingeniería y ciencia de datos de Softtek en: https://www2.softtek.com/jobs Conoce las vacantes de ingeniería y ciencia de datos de Etsy en: https://sg1.run/vacantestsy
Acerca del ponente Ingeniero en Sistemas Computacionales por el ITESM y Maestro en Computational Finance por la Universidad de Nottingham.
+18 años de experiencia en el sector tecnológico de México y ha liderado sistemas de importancia nacional como el Sistema de Liquidación de Valores para Indeval y el MoNeT para índices de mercado para Bolsa Mexicana de Valores. Ha tenido posiciones de liderazgo en Ciencia de Datos y Analytics en empresas importantes del sector financiero y bursátil.
Fue cofundador y Director de Operaciones en Datank.ai, startup dedicada a automatizar decisiones operativas mediante Machine Learning. También es cofundador de The Data Pub, la comunidad de profesionales de ciencia e ingeniería de datos más grande de México con más de 2000 miembros. Es Vicepresidente de la Sociedad Mexicana de Ciencia de Datos, organización de la sociedad civil dedicada a la educación y sensibilización del mercado sobre Ciencia de Datos y Machine Learning para empresas, talento y academia. Es catedrático en arquitecturas de datos en la licenciatura de Ciencia de Datos del ITAM. Actualmente dirige el Centro ITAM para Datos + Algoritmos + Sociedad, el cual propone soluciones a problemas sociales desde la Ciencia de Datos para lograr decisiones más justas, equitativas y transparentes sobre recursos públicos limitados.