Cando comezas a transitar o camiño cara a unha compañía Data Driven, comezas a entender como utilizar as ferramentas que o mercado actual ofrece tales como intelixencia artificial ou Internet das cousas. Para iso contratas científicos de datos que poidan resolver os teus problemas de negocio sen antes preguntarche QUE necesitas para facer intelixencia artificial e COMO pensas facelo.
A resposta á primeira pregunta é simple, necesitamos datos. Agora ben, a situación comeza a complicarse cando tentamos contestar o noso segundo interrogante.
Todo parece perfecto, pero estes datos onde os teño?, que formato teñen?, é simple acceder a eles?, Con canta frecuencia podo dispoñer? están completos, sen erros, sen rexistros nulos? Desde cando teño estes datos? E supoñendo que todo isto está resolvido, que tan fácil é desenvolver un modelo de Machine Learning e implementalo?
Son moitas preguntas, pero tamén son moitas as respostas dependendo do problema que se quere resolver.
Cando falamos de Ciencia de Datos, non falamos dunha ferramenta, habilidade ou método, senón que se parece máis a un enfoque científico que utiliza a teoría estatística, matemática aplicada e ferramentas informáticas para procesar grandes cantidades de datos. A ciencia de datos é un proceso detallado que implica principalmente o preprocesamiento, a análise, a visualización e a predición.
Todos sabemos que a Ciencia de Datos é un enfoque científico moi poderoso, con todo tipo de aplicacións interesantes. Con todo, tamén é ben sabido que na Ciencia de Datos hai unha gran brecha entre a teoría e a práctica: cando se trata de teoría, sabemos todo, pero non sabemos como aplicalo na vida real.
Por este motivo é importante ordenar as prioridades á hora de traballar con datos. Esta listaxe pode cambiar segundo a compañía, pero a maioría coincide en moitos destes puntos.
Paso 1 – Definir o problema de negocio
Este primeiro paso é fundamental, e require moito máis do factor humano para o entendemento do problema para resolver, o acordo de criterios para a definición dos obxectivos, o alcance e o prazo, que do propio sistema que se utilizará como medio para chegar a eles.
Seguramente o científico de datos teña moitas maneiras de resolver un problema, pero quen debe marcar o rumbo da solución ten que ser quen coñece do negocio. É imprescindible a interacción e traballo en conxunto de equipos.
Paso 2 – Adquisición de datos
Este paso é quizais onde maior diferenza atopamos entre a teoría e a práctica. Na teoría, cando queremos facer un modelo de machine learning basta con descargarse algún dataset en sitios como Kaggle ou Github e dispoñeremos de información clara, prolija e ben descrita. Na práctica, ás veces as fontes poden ser:
1. Moi variadas: o cal levaría un traballo previo de ETL´s, modelados, etc.
2. Mal descritas ou sen descrición: Sen ter unha clara descrición con que variable estamos a traballar non sabemos que é o que temos e se nos pode axudar a resolver o noso problema.
3. Con datos erróneos / rexistros nulos: Tal como adóitase dicir en Data Science, Lixo entra / Lixo sae.
4. Descoñecidas: Nunha compañía sectorizada onde os datos están dentro da área que traballaba cos mesmos pódese perder a oportunidade de combinalos ou utilizalos con outros fins de negocio.
5. Con accesos restrinxidos: Dependendo das normas de seguridade de datos dentro da compañía, moitas veces acceder aos datos vólvese unha tarefa titánica e conleva un proceso burocrático difícil de medir no tempo.
Estes e moitos problemas coas fontes de datos poden ser resoltos cun apropiado goberno dos mesmos e fundamentalmente unha organización moi ben comunicada.
Paso 3 – Preparación de datos
Este paso implica a limpeza e transformación de datos, a limpeza de datos é a que máis tempo consome, xa que implica o manexo de moitos escenarios complexos, como tipos de datos inconsistentes, atributos mal escritos, valores faltantes e duplicados. Logo, na transformación de datos, temos que modificar os datos en función das regras de mapeo definidas.
Paso 4 – Análise exploratorio de datos
Coa axuda da Análise Exploratorio de Datos definimos e refinamos a selección de variables que se utilizarán para o desenvolvemento do noso modelo. É importante ter sempre presente a solución á cal queremos apuntar.
Paso 5 – Modelado de datos
A actividade principal dun proxecto de ciencia de datos coñécese como modelado de datos. Neste paso, aplicamos repetidamente técnicas de aprendizaxe automática de forza de tipo como KNN, árbores de decisión, Bayes Naive, etc. aos datos para que podamos identificar o modelo que mellor se adapte ao requisito comercial. Adestramos o modelo no conxunto de datos de adestramento e probámolos para seleccionar o modelo de mellor rendemento.
Paso 6 – Visualización e comunicación
Este punto é quizais o máis relevante de todos debido a que podemos ter o mellor proceso de extracción e transformación de datos, o mellor modelo de Machine Learning adestrado, pero se non sabemos visualizalo, explicalo, comunicalo e darlle valor ao negocio, pouco importou todo o traballo previo. É imprescindible reforzar os soft skills neste punto para saber chegar aos stakeholders.
Paso 7 – Implementación e mantemento
E finalmente, neste paso, o científico de datos implementa e mantén o modelo, proba o modelo seleccionado nunha contorna de preprodución antes de implementalo na contorna de produción, que é a mellor práctica. Despois de implementalo, temos que obter análise en tempo real e monitorear e manter o rendemento do proxecto.
Como verán, hai unha enorme diferenza entre o que estudamos (Teoría) que practicamente comeza e finaliza nunha Notebook local versus o que se necesitamos para levar a cabo todo o proceso na vida real (Práctica). É por devandito motivo que adoita ser abafador e ás veces frustrante tentar traballar con datos e xerar resultados de valor.
Por iso desde Macrotest #DataLab axudámosche en todo o camiño coa nosa solución end-to-end para que teñas un entendemento completo das ferramentas, metodoloxías e procesos.