Dirty Data: Un problema para el Big Data

¿Qué es el Dirty Data?

El llamado Dirty Data consiste en los errores, inconsistencias, falta rigor y actualización de los datos que se generan diariamente en las bases de datos de todo el planeta. En 2007 la consultora Gartner alerto que el 25% de los datos críticos de negocio de las 1.000 empresas de la lista Forbes eran incorrectos. Este porcentaje es mucho mayor en la actualidad, simplemente por el incremento exponencial de la generación de datos a almacenar. Cuantos más datos generemos más suciedad se crea con ellos.

El costoso y desafortunado Dirty Data existe unido inexorablemente al Big Data, los datos en su propia síntesis de generación van unidos a índices, logs de control, datos temporales, duplicidades de registro, etc. Estos no son datos sucios realmente, ya que tienen su razón de ser, en los datos mismos y sus sistemas de creación. Los verdaderos datos sucios son los datos inexactos introducidos por los usuarios, los datos duplicados por falta de control o de diseños efectivos en las BBDD de almacenamiento, las grandes cantidades de datos mal grabados por diferentes razones (cortes en la red, cuelgues, bloqueos, formatos erróneos, falta de control en la entrada de datos, etc.).

¿Tiene solución el Dirty Data?

Como podemos deducir los problemas que genera el Dirty Data son enormes: falta de credibilidad en los resultados analíticos y predicciones, errores de gran cuantía, imposibilidad de uso de fuentes importantes de información, etc. Los análisis de datos no estructurados realizados mediante herramientas Big data, pueden verse menos afectados, pero los datos estructurados que se mezclan en esas mismas analíticas y algoritmos van dañados en un gran cantidad. Esta afectado en gran medida el Big Data, operacional y analítico por los datos sucios… la respuesta es: SI.

Si no se establecen sistemas de control de la calidad de los datos en el momento mismo de su grabación, si no concienciamos a los usuarios de la importancia que tiene una buena grabación en calidad y cuantía de datos de nuestras bases de datos. Y por último, si no desarrollamos sistemas maestros de modelos de datos eficientes y optimizados para dar consistencia, así como integridad en la gestión de la información, el Big Data y su desarrollo futuro quedarán hipotecados a la presunción de falta de seguridad, en sus resultados y predicciones ya que sus nutrientes, los datos serán en mayor medida los Dirty Data.

About
Latest Posts

Francisco Aliseda

Latest posts by Francisco Aliseda (see all)

Lo bueno, lo feo y lo malo del Big Data en Facebook - 23 marzo, 2018
OPEN DATA: Conocimiento abierto - 13 diciembre, 2016
Dirty Data: Un problema para el Big Data - 29 noviembre, 2016

¿Qué es el Dirty Data?

¿Tiene solución el Dirty Data?

Francisco Aliseda

Latest posts by Francisco Aliseda (see all)

Deja un comentario Cancelar respuesta