Linkedin. Facebook. Twitter. Instagram. Youtube.

En mi notebook funciona! Teoría versus práctica en Data Science

En mi notebook funciona! Teoría versus práctica en Data Science
·
4 minutos de lectura
Teoría vs Práctica en Data Science

Cuando comienzas a transitar el camino cara a una compañía Data Driven, comienzas a entender como utilizar las herramientas que el mercado actual ofrece tales como inteligencia artificial o Internet de las cosas. Para eso contratas científicos de datos que puedan resolver tus problemas de negocio sin antes preguntarte QUÉ necesitas para hacer inteligencia artificial y CÓMO piensas hacerlo.

La respuesta a la primera pregunta es simple, necesitamos datos. Ahora bien, la situación comienza a complicarse cuando tentamos contestar nuestro segundo interrogante.

Todo parece perfecto, pero estos datos donde los tengo?, qué formato tienen?, es simple acceder a ellos?, Con cuanta frecuencia puedo disponer? están completos, sin errores, sin registros nulos? Desde cuando tengo estos datos? Y suponiendo que todo esto está resuelto, qué tan fácil es desarrollar un modelo de Machine Learning e implementarlo?

Son muchas preguntas, pero también son muchas las respuestas dependiendo del problema que se quiere resolver.

Cuando hablamos de Ciencia de Datos, no hablamos de una herramienta, habilidad o método, sino que se parece más a un enfoque científico que utiliza la teoría estadística, matemática aplicada y herramientas informáticas para procesar grandes cantidades de datos. La ciencia de datos es un proceso detallado que implica principalmente el preprocesamiento, la análisis, la visualización e la predicción.

Todos sabemos que la Ciencia de Datos es un enfoque científico muy poderoso, con todo tipo de aplicaciones interesantes. Con todo, también es bien sabido que en la Ciencia de Datos hay una gran brecha entre la teoría e la práctica: cuando se trata de teoría, sabemos todo, pero no sabemos como aplicarlo en la vida real.

Por este motivo es importante ordenar las prioridades a la hora de trabajar con datos. Esta lista puede cambiar según la compañía, pero la mayoría coincide en muchos de estes puntos.

Paso 1 – Definir el problema de negocio

Este primer paso es fundamental, y requiere mucho más del factor humano para el entendimiento del problema para resolver, el acuerdo de criterios para la definición de los objetivos, el alcance y el plazo, que del propio sistema que se utilizará como medio para llegar a ellos.

Seguramente el científico de datos tenga muchas maneras de resolver un problema, pero quien debe marcar el rumbo de la solución tiene que ser quien conoce del negocio. Es imprescindible la interacción el trabajo en conjunto de equipos.

Paso 2 – Adquisición de datos

Este paso es quizás donde mayor diferencia encontramos entre la teoría y la práctica. En la teoría, cuando queremos hacer un modelo de machine learning basta con descargarse algún dataset en sitios como Kaggle o Github y dispondremos de información clara, prolija y bien descrita. En la práctica, a veces las fuentes pueden ser:

1. Muy variadas: lo cual llevaría un trabajo previo de ETL´s, modelados, etc.
2. Mal descritas o sin descripción: Sin tener una clara descripción con que variable estamos a trabajar no sabemos que es lo que tenemos y se nos puede ayudar a resolver nuestro problema.
3. Con datos erróneos / registros nulos: Tal como se suele decir en Data Science, Basura entra / Basura sale.
4. Desconocidas: En una compañía sectorizada donde los datos están dentro del área que trabajaba con los mismos se puede perder la oportunidad de combinarlos o utilizarlos con otros fins  de negocio.
5. Con accesos restringidos: Dependiendo de las normas de seguridad de datos dentro de la compañía, muchas veces acceder a los datos se vuelve una tarea titánica y conlleva un proceso burocrático difícil de medir en el tempo.

Estes y muchos problemas con las fuentes de datos pueden ser resueltos con un apropiado gobierno de los mismos y fundamentalmente una organización muy bien comunicada.

Paso 3 – Preparación de datos

Este paso implica la limpieza y transformación de datos, la limpieza de datos es la que más tiempo consume, ya que implica el manejo de muchos escenarios complejos, como tipos de datos inconsistentes, atributos mal escritos, valores faltantes y duplicados. Luego, en la transformación de datos, tenemos que modificar los datos en función de las regras de mapeo definidas.

Paso 4 – Análisis exploratorio de datos

Con ayuda de Análisis Exploratorio de Datos definimos y refinamos la selección de variables que se utilizarán para el desarrollo de nuestro modelo. Es importante tener siempre presente la solución a la cual queremos apuntar.

Paso 5 – Modelado de datos

La actividad principal de un proyecto de ciencia de datos se conoce como modelado de datos. En este paso, aplicamos repetidamente técnicas de aprendizaje automática de fuerza de tipo como KNN, árboles de decisión, Bayes Naive, etc. a los datos para que podamos identificar el modelo que mejor se adapte al requisito comercial. Adiestramos el modelo en el conjunto de datos de adiestramiento y lo probamos para seleccionar el modelo de mejor rendimiento.

Paso 6 – Visualización y comunicación

Este punto es quizás el más relevante de todos debido a que podemos tener el mejor proceso de extracción y transformación de datos, el mejor modelo de Machine Learning adiestrado, pero si no sabemos visualizarlo, explicarlo, comunicarlo y darle valor al negocio, poco importó todo el trabajo previo. Es imprescindible reforzar los soft skills en este punto para saber llegar a los stakeholders.

Paso 7 – Implementación y mantenimiento

Y finalmente, en este paso, el científico de datos implementa y mantiene el modelo, prueba el modelo seleccionado en un contorno de preprodución antes de implementarlo en el contorn de produción, que es la mejor práctica. Después de implementarlo, tenemos que obtener análisis en tempo real y monitorizar y mantener el rendimiento del proyecto.

Como verán, hay una enorme diferencia entre el que estudiamos (Teoría) que practicamente comienza y finaliza en una Notebook local versus lo que se necesita para llevar a cabo todo el proceso en la vida real (Práctica). Es por este motivo que suele ser agotador y a veces frustrante intentar trabajar con datos y generar resultados de valor.

Por eso desde Macrotest #DataLab te ayudamos en todo el camino con nuestra solución end-to-end para que tengas un entendimiento completo de las herramientas, metodologías y procesos.

Está recibiendo este correo electrónico porque ha visitado nuestro sitio o nos ha preguntado por el boletín periódico. Asegúrese de que nuestros mensajes llegan a su bandeja de entrada (y no a sus carpetas de correo masivo o basura).
Política de privacidad | Darse de baja