Linkedin. Facebook. Twitter. Instagram. Youtube.

En el meu notebook funciona! Teoria versus pràctica en Data Science

En el meu notebook funciona! Teoria versus pràctica en Data Science
·
4 minuts de lectura
Teoría vs Práctica en Data Science

Quan comences a recórrer el camí cap a una empresa Data Driven, comença a entendre com utilitzar les eines que ofereix el mercat actual com la intel·ligència artificial o l'Internet de les coses. És per això que contracteu científics de dades que puguin resoldre els vostres problemes empresarials sense abans preguntar-vosQUÈ necessites per fer intel·ligència artificial i COM ho penses fer.

La resposta a la primera pregunta és senzilla, necessitem dades. Ara, la situació es comença a complicar quan intentem respondre la nostra segona pregunta.

Tot sembla perfecte, però on tinc aquestes dades?, en quin format estan?, és fàcil accedir-hi?, amb quina freqüència les puc tenir?, estan complets, sense errors, sense registres nuls? Des de quan tinc aquestes dades? I suposant que tot això estigui resolt, que tan fàcil és desenvolupar un model d'aprenentatge automàtic i desplegar-lo?

Hi ha moltes preguntes, però també hi ha moltes respostes segons el problema a resoldre.

Quan parlem de Data Science, no estem parlant d'una eina, habilitat o mètode, sinó que s'assembla més a un enfocament científic que utilitza la teoria estadística, les matemàtiques aplicades i les eines informàtiques per processar grans quantitats de dades. La ciència de dades és un procés detallat que implica principalment el preprocessament, l'anàlisi, la visualització i la predicció.

Tots sabem que Data Science és un enfocament científic molt potent, amb tota mena d'aplicacions interessants. Tanmateix, també és sabut que en Data Science hi ha una gran bretxa entre la teoria i la pràctica: quan es tracta de teoria, ho sabem tot, però no sabem com aplicar-ho a la vida real.

Per aquest motiu és important prioritzar quan es treballa amb dades. Aquesta llista pot canviar segons l'empresa, però la majoria estan d'acord en molts d'aquests punts.

Pas 1 – Definiu el problema empresarial

Aquest primer pas és fonamental, i requereix molt més del factor humà per a la comprensió del problema a resoldre, l'acord de criteris per a la definició dels objectius, l'abast i el termini, que el mateix sistema que s'utilitzarà com a un mitjà per arribar-hi.

Segurament el científic de dades té moltes maneres de resoldre un problema, però qui ha de marcar el rumb de la solució ha de ser qui coneix el negoci. La interacció i el treball en equip és fonamental.

Pas 2 – Adquisició de dades

Aquest pas és potser on trobem la diferència més gran entre la teoria i la pràctica. En teoria, quan volem fer un model d'aprenentatge automàtic, només hem de descarregar un conjunt de dades en llocs com Kaggle o Github i tindrem informació clara, concisa i ben descrita. A la pràctica, les fonts de vegades poden ser:

1. Molt variat: que requeriria un treball previ sobre ETL, modelatge, etc.
2. Mal descrit o sense descripció: sense una descripció clara de quina variable estem treballant, no sabem què tenim i si ens pot ajudar a resoldre el nostre problema.
3. Amb dades incorrectes / registres nuls: Com es diu sovint a Data Science, Garbage in / Garbage out.
4. Desconegut: en una empresa sectoritzada on les dades es troben dins de l'àrea que va treballar amb elles, es pot perdre l'oportunitat de combinar-les o utilitzar-les per a altres finalitats empresarials.
5. Amb accés restringit: En funció de les normes de seguretat de les dades dins de l'empresa, sovint l'accés a les dades es converteix en una tasca titànica i implica un procés burocràtic difícil de mesurar en el temps.

Aquests i molts problemes amb les fonts de dades es poden resoldre amb un govern adequat de les mateixes i, fonamentalment, amb una organització molt ben comunicada.

Pas 3 – Preparació de les dades

Aquest pas implica la neteja i transformació de dades, la neteja de dades és la que consumeix més temps, ja que implica la gestió de molts escenaris complexos, com ara tipus de dades inconsistents, atributs escrits malament, valors que falten i duplicats. Aleshores, en la transformació de dades, hem de modificar les dades en funció de les regles de mapatge definides.

Pas 4 – Anàlisi exploratòria de dades

Amb l'ajuda de l'anàlisi exploratòria de dades definim i perfeccionem la selecció de variables que s'utilitzaran per al desenvolupament del nostre model. És important tenir sempre present la solució que volem apuntar.

Pas 5 – Modelització de dades

L'activitat principal d'un projecte de ciència de dades es coneix com a modelització de dades. En aquest pas, apliquem repetidament tècniques d'aprenentatge automàtic de força tipus com ara KNN, arbres de decisió, Naive Bayes, etc. a les dades per tal que puguem identificar el model que millor s'adapti a les necessitats del negoci. Entrenem el model en el conjunt de dades d'entrenament i les provem per seleccionar el model de millor rendiment.

Paso 6 – Visualització i comunicació

Aquest punt és potser el més rellevant de tots perquè podem tenir el millor procés d'extracció i transformació de dades, el model d'aprenentatge automàtic millor entrenat, però si no sabem visualitzar-lo, explicar-ho, comunicar-ho i donar-li valor al negoci, no importava el treball anterior. És essencial enfortir les habilitats blanques en aquest punt per saber com arribar als grups d'interès.

Pas 7 – Implementació i manteniment

I finalment, en aquest pas, el científic de dades implementa i manté el model, prova el model seleccionat en un entorn de preproducció abans de desplegar-lo a l'entorn de producció, que és una bona pràctica. Després d'implementar-lo, hem d'analitzar en temps real i supervisar i mantenir el rendiment del projecte.

Com veureu, hi ha una gran diferència entre el que estudiem (Teoria) que pràcticament comença i acaba en un quadern local versus el qual necessitem per dur a terme tot el procés a la vida real (Pràctica). És per aquest motiu que sovint resulta aclaparador i de vegades frustrant intentar treballar amb dades i generar resultats valuosos.

És per això que a Macrotest #DataLab t'ajudem amb la nostra solució d'extrem a extrem perquè tinguis una comprensió completa de les eines, metodologies i processos.

Está recibiendo este correo electrónico porque ha visitado nuestro sitio o nos ha preguntado por el boletín periódico. Asegúrese de que nuestros mensajes llegan a su bandeja de entrada (y no a sus carpetas de correo masivo o basura).
Política de privacidad | Darse de baja