Big Data, Business Intelligence e Data Science… convertendo datos en información de valor

Big Data, Business Intelligence e Data Science

 

É claro que nun mundo onde a transformación dixital ha chegado para quedar, toda organización debe contar coa capacidade para recompilar, seleccionar, organizar, analizar e interpretar un gran volume de datos. Neste sentido, o adecuado manexo e coñecemento dos datos resultan claves e estratéxicos en calquera sector de negocios. Por este motivo, son cada vez máis as empresas que deciden investir en solucións de analítica de datos baseadas na premisa de que a información é poder (e que os datos son a moeda da economía dixital).

No contexto actual, existe unha serie de metodoloxías que buscan dalgún modo facilitar a toma de decisións baseadas en datos. As compañías que asumen o reto de coñecer e interpretar os seus datos, benefícianse de maneiras moi variadas, xa sexa aforrando custos, gañando en rapidez, mellorando o servizo prestado aos clientes, anticipándose á competencia, mellorando a xestión operativa do negocio, e identificando novas oportunidades de negocio. En definitiva, a obtención destes beneficios dependerá da elección correcta acerca dos procesos de análises de datos máis convenientes para a empresa.

Conceptos como Big Data, Business Intelligence e Data Science teñen en común a intención de extraer valor da información, aínda que o fan dunha forma distinta e complementaria.

  • Big Data fai referencia ao almacenamento de grandes volumes de datos e aos procedementos que se utilizan para atopar patróns repetitivos dentro destes datos. O Big Data focalízase na captura e procesamento dos datos, traballando cunha gran cantidade de datos complexos (estruturados e non estruturados) que proveñen de diversas fontes, tales como sensores, dispositivos intelixentes, páxinas web e redes sociais, entre outras. A cantidade e complexidade destes datos dificultan a súa análise e xestión se non se utilizan as ferramentas apropiadas.
  • Business Intelligence encárgase da xestión de datos, organización de datos e produción de información a partir de datos. Aplícase nas organizacións para mellorar fundamentalmente a capacidade de toma de decisións, realizando tarefas de minería de datos, analizando información empresarial, e xerando informes. A intelixencia de negocios utilízase predominantemente para a análise de datos históricos almacenados, impactando no rendemento empresarial, pero sen poder predicir datos futuros. Neste sentido, atópase orientada ao pasado, estudando a evolución histórica da empresa para comprender o seu desenvolvemento ao atopar patróns analíticos. A intelixencia de negocios constitúe o conxunto de aplicacións, metodoloxías e tecnoloxías capaces de transformar os datos en información valiosa e estruturada para ser utilizada con fins empresariais. Céntrase especificamente en datos internos da compañía e do sector. Algúns exemplos de datos analizados mediante Business Intelligence son aqueles relacionados ao márketing, servizo ao cliente, vendas, ou datos dos recursos humanos da empresa. Xustamente a través do Business Intelligence pode levar a cabo a análise dos datos que se obteñen do Big Data.
  • Data Science ou Ciencia de Datos podería ser considerada como unha evolución do Business Intelligence. O seu obxectivo é a xeración de valor a partir da recompilación, clasificación, visualización e correspondente interpretación dos datos. Esta análise de datos de maior complexidade axuda á empresa para xerar coñecementos novos ao descubrir e responder a novas preguntas. Para iso, utilízase unha serie de técnicas que involucran estatísticas, ciencias da computación, análise preditiva, e aprendizaxe automática. Deste xeito, a Ciencia de Datos permite analizar conxuntos de datos masivos, buscando solucións a problemas que aínda non se pensaron. Os datos que se analizan son tanto internos como externos, por exemplo, os vídeos, correos electrónicos e contido de redes sociais. Os expertos en Data Science poden predicir potenciais tendencias ao explorar fontes de datos aparentemente desconectadas, atopando mellores maneiras de analizar a información.

Este tipo de solucións baseadas na análise dos datos para tomar mellores decisións empresariais, xa non son vistas como ferramentas destinadas só ás grandes empresas, senón que son cada vez máis as Pemes interesadas nestas tecnoloxías e metodoloxías, que traballando de maneira integrada permiten sacar o maior proveito ao crecente volume de datos.

En Macrotest contamos coa división #DataLab, buscando axudar ás empresas mediante solucións integrais de xestión de datos, análises de datos e implementación de intelixencia artificial para a predición e personalización de servizos.

Estamos a disposición para resolver todas as túas necesidades de análises de datos!

No meu notebook funciona! Teoría versus práctica en Data Science

¡En mi notebook funciona! Teoría versus práctica en Data Science

 

Cando comezas a transitar o camiño cara a unha compañía Data Driven, comezas a entender como utilizar as ferramentas que o mercado actual ofrece tales como intelixencia artificial ou Internet das cousas. Para iso contratas científicos de datos que poidan resolver os teus problemas de negocio sen antes preguntarche QUE necesitas para facer intelixencia artificial e COMO pensas facelo.

A resposta á primeira pregunta é simple, necesitamos datos. Agora ben, a situación comeza a complicarse cando tentamos contestar o noso segundo interrogante.

Todo parece perfecto, pero estes datos onde os teño?, que formato teñen?, é simple acceder a eles?, Con canta frecuencia podo dispoñer? están completos, sen erros, sen rexistros nulos? Desde cando teño estes datos? E supoñendo que todo isto está resolvido, que tan fácil é desenvolver un modelo de Machine Learning e implementalo?

Son moitas preguntas, pero tamén son moitas as respostas dependendo do problema que se quere resolver.

Cando falamos de Ciencia de Datos, non falamos dunha ferramenta, habilidade ou método, senón que se parece máis a un enfoque científico que utiliza a teoría estatística, matemática aplicada e ferramentas informáticas para procesar grandes cantidades de datos. A ciencia de datos é un proceso detallado que implica principalmente o preprocesamiento, a análise, a visualización e a predición.

Todos sabemos que a Ciencia de Datos é un enfoque científico moi poderoso, con todo tipo de aplicacións interesantes. Con todo, tamén é ben sabido que na Ciencia de Datos hai unha gran brecha entre a teoría e a práctica: cando se trata de teoría, sabemos todo, pero non sabemos como aplicalo na vida real.

Por este motivo é importante ordenar as prioridades á hora de traballar con datos. Esta listaxe pode cambiar segundo a compañía, pero a maioría coincide en moitos destes puntos.

Paso 1 – Definir o problema de negocio

Este primeiro paso é fundamental, e require moito máis do factor humano para o entendemento do problema para resolver, o acordo de criterios para a definición dos obxectivos, o alcance e o prazo, que do propio sistema que se utilizará como medio para chegar a eles.

Seguramente o científico de datos teña moitas maneiras de resolver un problema, pero quen debe marcar o rumbo da solución ten que ser quen coñece do negocio. É imprescindible a interacción e traballo en conxunto de equipos.

Paso 2 – Adquisición de datos

Este paso é quizais onde maior diferenza atopamos entre a teoría e a práctica. Na teoría, cando queremos facer un modelo de machine learning basta con descargarse algún dataset en sitios como Kaggle ou Github e dispoñeremos de información clara, prolija e ben descrita. Na práctica, ás veces as fontes poden ser:

1. Moi variadas: o cal levaría un traballo previo de ETL´s, modelados, etc.
2. Mal descritas ou sen descrición: Sen ter unha clara descrición con que variable estamos a traballar non sabemos que é o que temos e se nos pode axudar a resolver o noso problema.
3. Con datos erróneos / rexistros nulos: Tal como adóitase dicir en Data Science, Lixo entra / Lixo sae.
4. Descoñecidas: Nunha compañía sectorizada onde os datos están dentro da área que traballaba cos mesmos pódese perder a oportunidade de combinalos ou utilizalos con outros fins     de negocio.
5. Con accesos restrinxidos: Dependendo das normas de seguridade de datos dentro da compañía, moitas veces acceder aos datos vólvese unha tarefa titánica e conleva un proceso burocrático difícil de medir no tempo.

Estes e moitos problemas coas fontes de datos poden ser resoltos cun apropiado goberno dos mesmos e fundamentalmente unha organización moi ben comunicada.

Paso 3 – Preparación de datos

Este paso implica a limpeza e transformación de datos, a limpeza de datos é a que máis tempo consome, xa que implica o manexo de moitos escenarios complexos, como tipos de datos inconsistentes, atributos mal escritos, valores faltantes e duplicados. Logo, na transformación de datos, temos que modificar os datos en función das regras de mapeo definidas.

Paso 4 – Análise exploratorio de datos

Coa axuda da Análise Exploratorio de Datos definimos e refinamos a selección de variables que se utilizarán para o desenvolvemento do noso modelo. É importante ter sempre presente a solución á cal queremos apuntar.

Paso 5 – Modelado de datos

A actividade principal dun proxecto de ciencia de datos coñécese como modelado de datos. Neste paso, aplicamos repetidamente técnicas de aprendizaxe automática de forza de tipo como KNN, árbores de decisión, Bayes Naive, etc. aos datos para que podamos identificar o modelo que mellor se adapte ao requisito comercial. Adestramos o modelo no conxunto de datos de adestramento e probámolos para seleccionar o modelo de mellor rendemento.

Paso 6 – Visualización e comunicación

Este punto é quizais o máis relevante de todos debido a que podemos ter o mellor proceso de extracción e transformación de datos, o mellor modelo de Machine Learning adestrado, pero se non sabemos visualizalo, explicalo, comunicalo e darlle valor ao negocio, pouco importou todo o traballo previo. É imprescindible reforzar os soft skills neste punto para saber chegar aos stakeholders.

Paso 7 – Implementación e mantemento

E finalmente, neste paso, o científico de datos implementa e mantén o modelo, proba o modelo seleccionado nunha contorna de preprodución antes de implementalo na contorna de produción, que é a mellor práctica. Despois de implementalo, temos que obter análise en tempo real e monitorear e manter o rendemento do proxecto.

Como verán, hai unha enorme diferenza entre o que estudamos (Teoría) que practicamente comeza e finaliza nunha Notebook local versus o que se necesitamos para levar a cabo todo o proceso na vida real (Práctica). É por devandito motivo que adoita ser abafador e ás veces frustrante tentar traballar con datos e xerar resultados de valor.

Por iso desde Macrotest #DataLab axudámosche en todo o camiño coa nosa solución end-to-end para que teñas un entendemento completo das ferramentas, metodoloxías e procesos.