El beneficio clave de la creación del flujo de modelos con machine learning radica en la automatización de los pasos del ciclo de vida del modelo. Cuando hay nuevos datos de entrenamiento disponibles, debemos activar un flujo de trabajo que incluya validación de datos, preprocesamiento, entrenamiento de modelos, análisis e implementación. Usualmente estos pasos se realizan manualmente, pero con la desventaja de que es es costoso y también una posible fuente de errores. Veamos algunos detalles de los beneficios de los flujos de modelos de machine learning:
Capacidad para centrarse en nuevos modelos, sin mantener los modelos existentes
El flujo de modelos con machine learning automatizado libera al científico de datos del mantenimiento de los modelos existentes. Usualmente, el científico de datos dedica sus días a mantener actualizados los modelos desarrollados previamente. Ejecuta scripts manualmente para preprocesar sus datos de entrenamiento, escriben scripts de implementación únicos o ajustan manualmente sus modelos. El flujo automatizado permite al científico de datos desarrollar nuevos modelos, que es la parte divertida de su trabajo. En última instancia, esto conducirá a una mayor satisfacción laboral.
Prevención de errores
El flujo de modelos con machine learning automatizado puede prevenir errores. Los modelos recién creados se vincularán a un conjunto de datos versionados y los pasos de preprocesamiento se vincularán al modelo desarrollado. Esto significa que si se recopilan nuevos datos, se generará un nuevo modelo. Si se actualizan los pasos de preprocesamiento, los datos de entrenamiento dejarán de ser válidos y se generará un nuevo modelo. En los flujos de trabajo manual de machine learning, una fuente común de errores es un cambio en el paso de preprocesamiento después de entrenar un modelo. En este caso, implementaríamos un modelo con instrucciones de procesamiento diferentes a las que usamos para entrenar el modelo. Estos errores pueden ser realmente difíciles de depurar ya que aún es posible una inferencia del modelo pero incorrecta. Con flujos de trabajo automatizados, estos errores se pueden prevenir.
Registro de versiones
El seguimiento del experimento y la gestión de la liberación del modelo generan un registro de los cambios del modelo. El experimento registrará los cambios en los hiperparámetros del modelo, los conjuntos de datos utilizados y las métricas del modelo resultante (por ejemplo pérdida o precisión). La gestión del paso en productivo de modelos hará un seguimiento de qué modelo se seleccionó e implementó finalmente. Este rastro de versiones es especialmente valioso si el equipo de ciencia de datos necesita volver a crear un modelo o realizar un seguimiento del rendimiento del modelo.
Estandarización
El flujo de modelos con machine learning estandarizado mejoran la experiencia de un equipo de ciencia de datos. Debido a las configuraciones estandarizadas, los científicos de datos pueden incorporarse rápidamente o moverse entre equipos y encontrar los mismos entornos de desarrollo. Esto mejora la eficiencia y reduce el tiempo dedicado a configurar un nuevo proyecto. La inversión de tiempo en la configuración del flujo de modelos con machine learning también puede conducir a una tasa de innovación alta.
Impacto en negocio del flujo de modelos
La implementación de un flujo de modelos automatizado conducirá a tres impactos clave:
- Más tiempo de desarrollo para modelos novedosos.
- Procesos más simples para actualizar los modelos existentes.
- Menos tiempo dedicado a reproducir modelos.
Todos estos aspectos reducirán los costes de los proyectos de ciencia de datos. Pero además, la automatización del flujo:
- Ayudar a detectar posibles sesgos en los conjuntos de datos o en los modelos entrenados. Detectar sesgos puede evitar daños a las personas que interactúan con el modelo. Por ejemplo, Amazon se descubrió que el filtro de currículum impulsado por el aprendizaje automático estaba sesgado en contra de candidatas.
- Se crea un registro de versiones (mediante el seguimiento de experimentos y la gestión de liberación de modelos) que ayudará si surgen preguntas sobre las leyes de protección de datos.
- Liberar tiempo de desarrollo para el científico de datos y aumentar su satisfacción laboral.
Pingback: Descripción general del flujo de modelos con machine learning -Yizinet
Pingback: Breve introducción a los tipos de datos -Yizinet
Pingback: Ganancia de información y entropía -Yizinet