Cuando se trabaja en el ámbito de la ciencia de los datos, hay varios aspectos importantes como la reproducibilidad, la explicabilidad, la experimentación, soporte a múltiples lenguajes de programación,…
Para intentar responder a este tema, han aparecido los notebooks (como Jupyter) que muchas de las más modernas plataformas o soluciones para ciencia de datos incluyen por defecto.
El objetivo es ayudar en la productividad del científico de datos. En defintiva, este tema está ligado al hecho de poder experimentar y compartir nuestros desarrollos en equipos.
¡Pero aún hay más!
El siguiente paso es la puesta en producción. Y aquí las cosas cambian, los ciclos que combinan el desarrollo y la puesta de producción de ML requieren estar orquestrados.
Respecto este tema Shengyu Chen ilustra en este artículo muy bien como evoluciona el ciclo de un algoritmo cuando pasamos del desarrollo a las operaciones.
De hecho del ciclo inicial:
Se pasa a:
Fuente: Towards Data Science
Puede parecer que hemos incorporado muchísima complicación, pero nada más lejos de la realidad. Aunque pueda parece mentira los algoritmos tienen fecha de caducidad (como los yogures y por múltiples motivos) y es necesario retirarlos y sustituirlos cuando dejan de tener validez (indicado por las métricas).
Así que la siguiente ve que pensemos en la aplicación de la ciencia de los datos debemos también ir mucho más allá de tan solo pensar en el algoritmo que nos proporcionará la respuesta adecuada.
Algunas de las opiniones expresadas en este artículo pueden ser las de un autor invitado y no necesariamente de Analytikus. Fuente: http://dataanalysis.blogs.uoc.edu/2018/05/18/el-resurgir-de-los-notebooks-en-la-ciencia-de-datos/