Big Data, Business Intelligence y Data Science… convirtiendo datos en información de valor

Big Data, Business Intelligence y Data Science


Es claro que en un mundo donde la transformación digital ha llegado para quedarse, toda organización debe contar con la capacidad para recopilar, seleccionar, organizar, analizar e interpretar un gran volumen de datos. En este sentido, el adecuado manejo y conocimiento de los datos resultan claves y estratégicos en cualquier sector de negocios. Por este motivo, son cada vez más las empresas que deciden invertir en
soluciones de analítica de datos basadas en la premisa de que la información es poder (y que los datos son la moneda de la economía digital).

En el contexto actual, existe una serie de metodologías que buscan de algún modo facilitar la toma de decisiones basadas en datos. Las compañías que asumen el reto de conocer e interpretar sus datos, se benefician de maneras muy variadas, ya sea ahorrando costes, ganando en rapidez, mejorando el servicio prestado a los clientes, anticipándose a la competencia, mejorando la gestión operativa del negocio, e identificando nuevas oportunidades de negocio. En definitiva, la obtención de estos beneficios dependerá de la elección correcta acerca de los procesos de análisis de datos más convenientes para la empresa. 

Conceptos como Big Data, Business Intelligence y Data Science tienen en común la intención de extraer valor de la información, aunque lo hacen de una forma distinta y complementaria. 

  • Big Data hace referencia al almacenamiento de grandes volúmenes de datos y a los procedimientos que se utilizan para encontrar patrones repetitivos dentro de estos datos. El Big Data se focaliza en la captura y procesamiento de los datos, trabajando con una gran cantidad de datos complejos (estructurados y no estructurados) que provienen de diversas fuentes, tales como sensores, dispositivos inteligentes, páginas web y redes sociales, entre otras. La cantidad y complejidad de estos datos dificultan su análisis y gestión si no se utilizan las herramientas apropiadas. 
  • Business Intelligence se encarga de la gestión de datos, organización de datos y producción de información a partir de datos. Se aplica en las organizaciones para mejorar fundamentalmente la capacidad de toma de decisiones, realizando tareas de minería de datos, analizando información empresarial, y generando informes. La inteligencia de negocios se utiliza predominantemente para el análisis de datos históricos almacenados, impactando en el rendimiento empresarial, pero sin poder predecir datos futuros. En este sentido, se encuentra orientada al pasado, estudiando la evolución histórica de la empresa para comprender su desarrollo al encontrar patrones analíticos. La inteligencia de negocios constituye el conjunto de aplicaciones, metodologías y tecnologías capaces de transformar los datos en información valiosa y estructurada para ser utilizada con fines empresariales. Se centra específicamente en datos internos de la compañía y del sector. Algunos ejemplos de datos analizados mediante Business Intelligence son aquellos relacionados al marketing, servicio al cliente, ventas, o datos de los recursos humanos de la empresa. Justamente a través del Business Intelligence puede llevarse a cabo el análisis de los datos que se obtienen del Big Data. 
  • Data Science o Ciencia de Datos podría ser considerada como una evolución del Business Intelligence. Su objetivo es la generación de valor a partir de la recopilación, clasificación, visualización y correspondiente interpretación de los datos. Este análisis de datos de mayor complejidad ayuda a la empresa a generar conocimientos novedosos al descubrir y responder a nuevas preguntas. Para ello, se utiliza una serie de técnicas que involucran estadísticas, ciencias de la computación, análisis predictivo, y aprendizaje automático. De este modo, la Ciencia de Datos permite analizar conjuntos de datos masivos, buscando soluciones a problemas que aún no se han pensado. Los datos que se analizan son tanto internos como externos, por ejemplo, los vídeos, correos electrónicos y contenido de redes sociales. Los expertos en Data Science pueden predecir potenciales tendencias al explorar fuentes de datos aparentemente desconectadas, encontrando mejores maneras de analizar la información. 

Este tipo de soluciones basadas en el análisis de los datos para tomar mejores decisiones empresariales, ya no son vistas como herramientas destinadas solo a las grandes empresas, sino que son cada vez más las PyMEs interesadas en estas tecnologías y metodologías, que trabajando de manera integrada permiten sacar el mayor provecho al creciente volumen de datos.

En Macrotest contamos con la división #DataLab, buscando ayudar a las empresas mediante soluciones integrales de gestión de datos, análisis de datos e implementación de inteligencia artificial para la predicción y personalización de servicios.

¡Estamos a disposición para resolver todas tus necesidades de análisis de datos!

¡En mi notebook funciona! Teoría versus práctica en Data Science

¡En mi notebook funciona! Teoría versus práctica en Data Science


Cuando comienzas a transitar el camino hacia una compañía
Data Driven, comienzas a entender cómo utilizar las herramientas que el mercado actual ofrece tales como inteligencia artificial o Internet de las cosas. Para ello contratas científicos de datos que puedan resolver tus problemas de negocio sin antes preguntarte QUÉ necesitas para hacer inteligencia artificial y CÓMO piensas hacerlo..

La respuesta a la primera pregunta es simple, necesitamos datos. Ahora bien, la situación comienza a complicarse cuando intentamos contestar nuestro segundo interrogante.

Todo parece perfecto, pero ¿estos datos donde los tengo?, ¿qué formato tienen?, ¿es simple acceder a ellos?, ¿Con cuánta frecuencia puedo disponer? ¿están completos, sin errores, sin registros nulos? ¿Desde cuándo tengo estos datos? Y suponiendo que todo esto está resuelto, ¿qué tan fácil es desarrollar un modelo de Machine Learning e implementarlo?

Son muchas preguntas, pero también son muchas las respuestas dependiendo del problema que se quiere resolver.

Cuando hablamos de Ciencia de Datos, no hablamos de una herramienta, habilidad o método, sino que se parece más a un enfoque científico que utiliza la teoría estadística, matemática aplicada y herramientas informáticas para procesar grandes cantidades de datos. La ciencia de datos es un proceso detallado que implica principalmente el preprocesamiento, el análisis, la visualización y la predicción.

Todos sabemos que la Ciencia de Datos es un enfoque científico muy poderoso, con todo tipo de aplicaciones interesantes. Sin embargo, también es bien sabido que en la Ciencia de Datos hay una gran brecha entre la teoría y la práctica: cuando se trata de teoría, sabemos todo, pero no sabemos cómo aplicarlo en la vida real.

Por este motivo es importante ordenar las prioridades a la hora de trabajar con datos. Este listado puede cambiar según la compañía, pero la mayoría coincide en muchos de estos puntos.

Paso 1 – Definir el problema de negocio

Este primer paso es fundamental, y requiere mucho más del factor humano para el entendimiento del problema a resolver, el acuerdo de criterios para la definición de los objetivos, el alcance y el plazo, que del propio sistema que se utilizará como medio para llegar a ellos.

Seguramente el científico de datos tenga muchas maneras de resolver un problema, pero quien debe marcar el rumbo de la solución tiene que ser quien conoce del negocio. Es imprescindible la interacción y trabajo en conjunto de equipos.

Paso 2 – Adquisición de datos

Este paso es quizás en donde mayor diferencia encontramos entre la teoría y la práctica. En la teoría, cuando queremos hacer un modelo de machine learning basta con descargarse algún dataset en sitios como Kaggle o Github y dispondremos de información clara, prolija y bien descripta. En la práctica, a veces las fuentes pueden ser:

  1. Muy variadas: lo cual llevaría un trabajo previo de ETL´s, modelados, etc.
  2. Mal descritas o sin descripción: Sin tener una clara descripción con qué variable estamos trabajando no sabemos qué es lo que tenemos y si nos puede ayudar a resolver nuestro problema.
  3. Con datos erróneos / registros nulos: Tal como se suele decir en Data Science, Basura entra / Basura sale.
  4. Desconocidas: En una compañía sectorizada donde los datos están dentro del área que trabajaba con los mismos se puede perder la oportunidad de combinarlos o utilizarlos con otros fines de negocio.
  5. Con accesos restringidos: Dependiendo de las normas de seguridad de datos dentro de la compañía, muchas veces acceder a los datos se vuelve una tarea titánica y conlleva un proceso burocrático difícil de medir en el tiempo.

Estos y muchos problemas con las fuentes de datos pueden ser resueltos con un apropiado gobierno de los mismos y fundamentalmente una organización muy bien comunicada.

Paso 3 – Preparación de datos

Este paso implica la limpieza y transformación de datos, la limpieza de datos es la que más tiempo consume, ya que implica el manejo de muchos escenarios complejos, como tipos de datos inconsistentes, atributos mal escritos, valores faltantes y duplicados. Luego, en la transformación de datos, tenemos que modificar los datos en función de las reglas de mapeo definidas.

Paso 4 – Análisis exploratorio de datos

Con la ayuda del Análisis Exploratorio de Datos definimos y refinamos la selección de variables que se utilizarán para el desarrollo de nuestro modelo. Es importante tener siempre presente la solución a la cual queremos apuntar.

Paso 5 – Modelado de datos

La actividad principal de un proyecto de ciencia de datos se conoce como modelado de datos. En este paso, aplicamos repetidamente técnicas de aprendizaje automático de fuerza de tipo como KNN, árboles de decisión, Bayes Naive, etc. a los datos para que podamos identificar el modelo que mejor se adapte al requisito comercial. Entrenamos el modelo en el conjunto de datos de entrenamiento y los probamos para seleccionar el modelo de mejor rendimiento.

Paso 6 – Visualización y comunicación

Este punto es quizás el más relevante de todos debido a que podemos tener el mejor proceso de extracción y transformación de datos, el mejor modelo de Machine Learning entrenado, pero si no sabemos visualizarlo, explicarlo, comunicarlo y darle valor al negocio, poco importó todo el trabajo previo. Es imprescindible reforzar los soft skills en este punto para saber llegar a los stakeholders.

Paso 7 – Implementación y mantenimiento

Y finalmente, en este paso, el científico de datos implementa y mantiene el modelo, prueba el modelo seleccionado en un entorno de preproducción antes de implementarlo en el entorno de producción, que es la mejor práctica. Después de implementarlo, tenemos que obtener análisis en tiempo real y monitorear y mantener el rendimiento del proyecto.

Como verán, hay una enorme diferencia entre lo que estudiamos (Teoría) que prácticamente comienza y finaliza en una Notebook local versus lo que se necesitamos para llevar a cabo todo el proceso en la vida real (Práctica). Es por dicho motivo que suele ser abrumador y a veces frustrante intentar trabajar con datos y generar resultados de valor. 

Por eso desde Macrotest #DataLab te ayudamos en todo el camino con nuestra solución end-to-end para que tengas un entendimiento completo de las herramientas, metodologías y procesos.