Synthdata: Una nueva librería de python para generación de datasets sintéticos

Presentado en Data Day 2022

En el presente trabajo se mostrará la librería de Python synthdata, la cual permite la generación de conjuntos de datos sintéticos a partir de los segmentos de una muestra.

Actualmente, existen 2 grandes problemas para los científicos de datos en materia de acceso a los datos. Los conjuntos más interesantes son cerrados, y los datos abiertos generalmente necesitan imputación o tratamiento para llegar a ser utilizables para entrenamiento, experimentación o en modelos predictivos.

Una de las soluciones que se han explorado es la generación de datos sintéticos. Estos conjuntos de datos se generan a partir de distribuciones conocidas o
estimadas de los datos reales, y pueden ser distribuidas libremente, analizadas, compartidas con colaboradores y consultores y utilizadas para entrenar modelos
sin riesgo a tener fugas de información.

En general, las librerías existentes para el proceso de generación de datos
sintéticos se enfocan más a la generación de una sola variable aleatoria para
pruebas de carga, o experimentos en bases de datos, nosotros, aprovechamos esas
librerías, pero, las empleamos para generar variables con distribuciones
definidas por el usuario. En este trabajo logramos crear un módulo de Python que genera datos sintéticos basados en segmentos, así como series de tiempo o modelos lineales con ruido.