La gran mayoría de proyectos de Inteligencia Artificial fallan por la misma razón: la calidad de los datos. Muchos proyectos son abandonados antes de tiempo sin tener tiempo para demostrar el retorno de la inversión dando pie a frases como “esto de la IA no funciona” o “demasiado bombo sobre la IA”. Pero lo cierto es que la razón del fracaso pocas veces tiene que ver con la IA en sí misma.

Saber la razón por la que falla un proyecto es una forma magnífica de aprender.

Como dice el refrán “basura que entra, basura que sale”. Si tienes malos datos en el inicio del proyecto no vas a tener éxito con tus proyectos de IA. El corazón de la IA es la calidad de los datos. La gran mayoría de proyectos de IA son en realidad proyectos de ingeniería de datos y aunque la selección de algoritmos y la construcción de modelos es un paso muy importante, primero hay que asegurarse de que se tienen datos de buena calidad. Si estos datos no son de buena calidad, hemos de conseguir que lo sean, y se trata de un trabajo muy tedioso: limpiar los datos, prepararlos, aumentarlos y etiquetarlos.

Todo lo que os hemos comentado hasta ahora parece increíblemente obvio, pero en la gran mayoría de proyectos no nos damos cuenta de que no tenemos datos de buena calidad hasta vemos que nuestros modelos no obtienen los resultados esperados.

El principal desafío nos lo encontramos por tanto en la adquisición y el tratamiento de los datos, ya sean públicos o privados. Una vez que disponemos de ellos hay que modificarlos de forma que tengan sentido, ya que provienen de fuentes muy diferentes. Y es que los datos, por desgracia, la mayoría de las veces no nos vienen tal y como nos gustaría que estuviesen presentados. Primero tenemos que limpiar la base de datos y eliminar todos los que no necesitamos y que no son útiles para nuestro proyecto. También tenemos que asegurarnos que disponemos de la suficiente cantidad de datos para poder llevarlo a cabo.

En todos los proyectos hay una serie de pasos a seguir para asegurarnos de que tenemos datos de calidad que van a garantizar que nuestros modelos sean un éxito. Todo esto es ingeniería de datos.

Por lo general, los datos de transacciones de pago con clientes tienden a tener los datos más actualizados y por contra, los datos recogidos en formulario web acostumbran a ser los de peor calidad. Hemos de conseguir que estos datos provenientes de diferentes fuentes se fusionen cuando se trata del mismo cliente, y la gran mayoría de veces, este reto se convierte en una tarea titánica.

Por eso es tan importante tener una metodología de trabajo donde se aborde de forma metódica la calidad de los datos lo antes posible. Si algunas fuentes de datos no nos funcionan quizás hay que evaluar el cambiar esta fuente o eliminarla para que nuestros modelos den resultados lo más cercanos posibles a los esperados. Cuanto antes lo averigüemos, más soluciones podremos aportar.

Etiquetar los datos es muy importante para los proyectos de supervised learning ya que los modelos necesitan ser alimentados con datos buenos, limpios y bien etiquetados para que puedan aprender del ejemplo, ya que básicamente el aprendizaje supervisado es eso: aprender a través del ejemplo.

Es necesario abordar cómo se deben transformar los datos para cumplir con los requisitos específicos que requiere cada proyecto.

Siempre hay una serie de preguntas que nos tendremos que hacer:

    • ¿Qué hacemos para implementar la limpieza de datos, la transformación de datos, la manipulación de datos?
    • ¿Cuál va a ser nuestra ingeniería de datos?
    • ¿Cuáles son los medios por los que la calidad de los datos puede ser continuamente monitoreada y evaluada?  
    • ¿Cómo se van a supervisar y evaluar estos datos para asegurarnos de que la calidad se mantiene en el nivel necesario en todo momento?  
    • ¿Se van a utilizar todos los datos internos o se van a ampliar los datos de los que disponemos con datos de terceros? 
    • ¿Cómo podemos obtener esos datos de los que aún no disponemos?  
    • ¿Realizaremos ese proceso internamente o externamente? 
    • ¿Es necesario para el proyecto utilizar un etiquetador de datos de terceros?  
    • ¿Cómo se va a controlar todo ese proceso de etiquetaje?

Ninguna de estas preguntas debe ser subestimada porque los datos de baja calidad pueden hundir un proyecto, incluso para los profesionales más experimentados. 

Nennisiwok AI Lab Blog

Descubre cómo la Inteligencia Artificial puede liberar el poder de tus ideas.