Inicio
 > Informes e investigaciones > Blog de TEC > Destilando información: La importancia de inform...

Destilando información: La importancia de información de calidad en la inteligencia empresarial

Escrito por: Anna Mallikarjunan
Publicado: diciembre 17 2008

<

El afán de generar el máximo de información en el menor tiempo posible, frecuentemente prevalece por encima del establecimiento de procesos que controlen la calidad de la misma. La baja calidad en la información puede conducir a tomar decisiones erróneas y a perder oportunidades de negocios. Incluso con un proceso de almacenamiento de datos bien diseñado y equipado con las mejores herramientas de inteligencia empresarial (BI), los usuarios se enfrentarán a la ineficiencia y la frustración si se compromete la calidad de la información. Cuando se esta en un proyecto de almacenamiento de información o de inteligencia empresarial, es esencial para las organizaciones enfatizar en la calidad de información que se utiliza para realizar el análisis y las subsecuentes decisiones.

En la medida en que la información viaja hacia su almacenamiento, o data marts, un marco de trabajo para su calidad crea un proceso de filtro para medir su pureza y corrige las inconsistencias que encuentra. Este artículo lleva al lector a través de una estrategia de calidad de información típica, ilustrándolo con ejemplos, indicándole como y donde se dan los problemas de calidad, y las aproximaciones disponibles para evitar la proliferación de este tipo de problemas. Miraremos también un grupo de vendedores de software que proveen soluciones poderosas y ricas en la protección de la calidad de la información.

Empezando desde el principio

El problema con la información desactualizada empieza con frecuencia en los sistemas de aplicaciones (las fuentes de datos). Existen mejores prácticas simples que pueden ayudar a controlar la propagación de datos desactualizados.

  1. Adjuntando tipos de datos a entidades empresariales: Los tipos de datos deben con precisión describir las entidades empresariales que ellos representan. Por ejemplo, entidades numéricas no deben ser almacenadas en columnas con tipos de datos no numéricos. Cuando se entra accidentalmente un dato no numérico en una columna numérica, se da lugar a que más adelante se den problemas de integridad.

  2. Entradas inválidas por defecto: Los valores por defecto deben estar especificados de forma que los valores inválidos de todas las entradas sean explicables. No poder lograrlo lleva a que los sistemas de almacenamiento tengan que adivinar la representación correcta de los valores inválidos.

  3. Aplique integridad referencial: las relaciones entre entidades identificadas deben ser aplicadas por medio de integridad referencial. Por ejemplo, la ciudad de un cliente debe estar contenida en una lista de ciudades predefinidas.

  4. Respetar las reglas empresariales: los sistemas de bases de datos proveen restricciones, con las cuales se pueden aplicar ciertas reglas empresariales a valores que entran en la base de datos. Por ejemplo, una columna de salario puede tener un rango predefinido. Adicionalmente, los sistemas de interfase deben proveer campos restringidos para simplificar la captura de datos para el usuario, así como reforzar las reglas empresariales. Por ejemplo: los números telefónicos norte americanos deben estar limitados a 10 dígitos, el género es entrado por medio de una interfase restringida, y así sucesivamente.

  5. Consistencia a través de todos los sistemas empresariales: Una aproximación unificada para construir varios sistemas de aplicaciones es fundamental a la hora de asegurar que las entidades están consistentemente descritas a través de los múltiples sistemas en una organización. La gestión maestra de información esta creciendo en importancia y relevancia. A pesar de que este articulo no ahonda en el tema, es importante que las organizaciones establezcan las herramientas y procesos necesarios para la administración de los datos maestros.

Datos a través del espejo retrovisor

Los problemas de calidad de información pueden ser minimizados en las fuentes de datos. Sin embargo, los almacenes de información son conglomeraciones de varias fuentes de datos, que con frecuencia combinan información estructurada y no estructurada, e incluye información externa a la empresa. Mientras cada sistema de aplicación sea auto consistente, es importante homogeneizar la información de las diferentes fuentes. Adicionalmente, restringiendo simplemente la información para seguir las reglas empresariales es el primer paso para el control de la precisión. Los patrones que salen de grandes muestras de datos, apuntan con frecuencia hacia problemas que son imposibles de detectar ya que la información es capturada de valores individuales. Las soluciones para calidad de información han sido parte de las plataformas de integración desde hace ya algunos años, y aún si los productos varían en amplitud y profundidad de sus funcionalidades, ha emergido un paradigma general de calidad de la información.

La calidad de la información cae dentro de 3 categorías: perfil de la información, para analizar e identificar problemas de calidad; limpieza de información, para corregir y estandarizar la información como preparación para su uso; y por último, el monitoreo de la información aplicado al control de la calidad a largo plazo.

Diagnostico por medio del perfil de la información

Creando perfiles para la información, las organizaciones pueden comprender los problemas de calidad que los distancia de su propia información corporativa. Las métricas se crean basadas en campos seleccionados para medir la calidad de la información representada en esos campos. Ejemplos de métricas para perfilar incluyen:

  • Número de valores distintivos: Provee información sobre como se mantiene la singularidad

  • Porcentaje de valores en serie: Valores numéricos en entidades alfanuméricas o viceversa pueden generar violaciones básicas de tipos de información.

  • Porcentaje de valores perdidos: Un gran porcentaje de valores perdidos pueden apuntar hacia problemas en la fuente de información.

  • Valores mínimos y máximos: Mirar los grupos de información mínimos y máximos con frecuencia puede rápidamente señalar información que sale del rango establecido. Si los 3 valores mínimos de las edades de estudiantes universitarios en la base de datos son 6, 17 y 18 y los máximos son 24, 42 y 52, es muy posible que el 6 halla sido un error al tratar de entrar el número 16, y que 42 y 52 se hallan dado al tratar de escribir 24 y 25.

Reglas más avanzadas pueden ser aplicadas a la información para encontrar desviaciones que no son obvias. La minería de datos (data mining) es el proceso de descubrir información empresarial que de cualquier otra forma permanecería oculta. Por ejemplo, una librería en línea le sugiere libros adicionales basándose en los libros que el cliente había añadido a su carrito y en la evidencia de compradores compatibles. Esto se lleva a cabo por medio del uso de reglas de asociación aplicadas a datos históricos de ventas. A pesar de que el propósito principal de la minería de información es el de lograr comprensión empresarial, se puede además aplicar para encontrar elementos anormales en la información. Considere un sistema basado en la Web que infiere el lugar del protocolo Internet (IP). Si en un día particular el sistema muestra a todos sus usuarios como si vinieran de California, ello puede indicar que en ese día en particular la inferencia basada en IP no funcionó correctamente y todos los usuarios fueron conectados con el lugar establecido por defecto, en este caso California.

En pocas palabras, el perfil de los datos provee información organizacional. Los problemas clave de la calidad deben ser arreglados antes de continuar. Cualquier información anormal que revele problemas más adelante debe ser arreglada inmediatamente corrigiendo el o los componentes que han causado la anormalidad. Nótese que perfilar la información no elimina todos los problemas de calidad; los obstáculos se deben eliminar para obtener un buen marco de trabajo para la administración de la calidad de la información.

Corrija limpiando la información

Si el perfilamiento observa los datos con lupa, la limpieza involucra el uso de un microscopio de electrones. Los procesos de extracción, transformación y carga en un sistema de almacenamiento de información, extrae registros de la fuente de datos, los transforma usando reglas para convertir los datos en un formato con el cual se puedan hacer reportes y análisis, y finalmente los carga[1] a su destino (normalmente un almacén de información o un subalmacen[2] ). La limpieza de la información es una parte integral del proceso de transformación y refuerza las reglas empresariales y sus esquemas en cada registro de la fuente. El resultado de la violación de las reglas empresariales puede incluir:

  • Su corrección inmediata usando reglas que han sido especificadas en la lógica de limpieza de la aplicación.

  • Registrar el error y continuar el proceso con el próximo dato.

  • Terminar el proceso.

La acción más apropiada depende de la naturaleza y severidad de cada problema. Si un registro para direcciones, no contiene el estado o provincia, pero tiene la ciudad y el país, la acción deberá ser corregir el archivo deduciendo la información faltante, en lugar de eliminar o ignorar el error.

Las funcionalidades de limpieza de información han avanzado considerablemente y la mayoría de las plataformas de integración ofrecen una variedad de características para la gran mayoría de escenarios empresariales.

  • Validación: verifica si cada dato sigue normas empresariales específicas. Si, por ejemplo, el formato del campo para el número de seguridad social es incorrecto, o un campo de información no existe, el procedimiento de validación alerta e incluso limpia o corrige el campo. Se pueden crear igualmente complejas reglas empresariles especificas de un ambiente empresarial para validar valores de datos permisibles.

  • Supresión de duplicados [3]: es una de las más importantes técnicas de limpieza, en la cual se fisionan los duplicados. La duplicación de la información se puede dar en un solo campo, pero normalmente se da en una combinación de ellos. Por ejemplo: "A.A.Milne|Writer|Hampstead, England" y "Alan Alexander Milne|Author|Hampstead, London, England, representan la misma entidad. Sin embargo, cotejar el texto no resuelve el problema. El cotejo o comparación basado en una lógica difusa puede ser aplicado para resolver este problema. El cotejo difuso estándar ayuda a eliminar duplicados generados por errores ortográficos, igualmente puede por medio de las funciones de similaridad, realizar comparaciones aproximadas. La función de similaridad genera como resultado un puntaje que representa el grado de similaridad entre dos valores. Un sistema que incluya el cotejo difuso tiene generalmente un glosario que provee información para discernir datos, que por simple similaridad no se podría llevar a cabo. Por ejemplo: los títulos de desarrollador y programador deben ser considerados como una misma función, independientemente de sus diferencias a nivel de escritura. La mayoría de las herramientas incluyen la posibilidad de adaptar las reglas de cotejo e incluir normas más complejas ajustadas a cierto ambiente empresarial.

  • Householding: es un método por el cual récords individuales pueden ser agrupados basados en propiedades comunes. Agregados basados en los nombres de los clientes de la organización pueden ser organizados agrupando primero todos los récords por empresa (usando el cotejo difuso para eliminar duplicados por errores de ortografía) y calculando luego, los agregados para cada grupo.

Mantenimiento por medio de monitoreo de información

Para mantener la confiabilidad de los datos, es imperativo construir controles que constantemente evalúen la calidad de la información y disparen alertas cuando los niveles de calidad de la información no sean los óptimos. Con la instalación de un marco para la limpieza de información, las organizaciones construyen su propio perfil de problemas de calidad de la información, y sus soluciones para cada ocasión. El monitoreo de la información provee información sobre cuantas veces se encontraron y resolvieron duplicados, cuantos campos vacíos fueron arreglados por semana y que tipo de solución se les dio. Se pueden crear reglas que rastreen niveles de tolerancia para varios tipos de problemas de calidad de la información; donde se disparen alertas cada que el nivel de tolerancia de problemas excedan los umbrales permitidos. La debilidad de las aplicaciones y los procesos se pueden detectar por medio del monitoreo de la información a través del tiempo. La información hallada en el monitoreo constante puede ser usada para consolidar los procesos empresariales. Este mecanismo de retroalimentación mantiene en su lugar la calidad.

En la tierra de los vendedores

La tecnología de control de la calidad de la información esta creciendo rápidamente ya que las organizaciones reconocen y enfatizan la necesidad de generar información de alta calidad a sus usuarios. Existen soluciones disponibles bien sea como herramientas de control de información o como parte de los paquetes de integración de información/ETL.

DataFlux (parte de la empresa SAS) ofrece dfPowerStudio, una plataforma integrada para el control de la calidad de la información al igual que su integración. Uno de los componentes de dicho producto es dfPower® Profile, un extensivo modulo de perfilamiento de la información. Incluye el análisis de metadatos que ayudan a organizar datos a través de múltiples fuentes. El componente para descubrir relaciones ayuda a revelar relaciones entre fuentes de información y granularidad. En adición a la verificación de la información de relaciones de metadatos definidos, dfPower® Profile posibilita el descubrimiento de información que no esta definida por los metadatos.

Data Quality Workbench de Informatica se integra totalmente con PowerCenter para crear una plataforma única para la integración de información y la calidad de la misma. Los usuarios pueden apoyarse en la opción de división basada en procesos paralelos de Informatica para correr procesos de calidad e integración de información en paralelo para un alto rendimiento. El Data Explorer de Informatica perfila columnas individuales, relaciones dentro de tablas y entre ellas, para identificar problemas de calidad.

dn:Director de Datanomic provee una familia de procesadores, los cuales constituyen un grupo completo de funciones de calidad. Ello incluye: perfilar y analizar para lograr la comprensión de los datos, transformar para limpiar y enriquecer la información, perfilar y el analizar gramaticalmente las frases para estructurar la información e identificar datos importantes que se pueden esconder en grandes grupos, y cotejar para la identificación de duplicados. Además de la arquitectura por lotes, la solución soporta la arquitectura de tiempo real en la cual los procesos desarrollados usando dn:Director pueden ser aplicados a las transacciones Java Messaging Service (JMS) para validar información en tiempo real.

Todo tiene una moraleja, solo si se puede hallar

El objetivo principal de las soluciones BI es el de proveer a las empresas con la información necesaria para apoyar la toma de decisiones. Ello requiere de la integración de información dentro o fuera de una empresa. Una amplia estrategia de calidad en la información, protege las empresas de inconsistencias y anomalías que salen de la complejidad en la integración de múltiples sistemas y de problemas escondidos que se pueden revelar por medio de sofisticadas técnicas de análisis. Las soluciones de calidad de información proveen a las empresas con una mejor comprensión de su información por medio del perfilamiento, con la solución a problemas de calidad por medio de la limpieza, y con el establecimiento de de procesos para monitorear la calidad de la información a través del tiempo.

Sobre el autor

Anna Mallikarjunan es miembro del grupo de investigación y desarrollo de TEC. Es la responsable del análisis y desarrollo del software de apoyo en las decisiones de TEC así como las herramientas de inteligencia de negocios, BI. Con mas de cuatro años de experiencia en análisis empresarial, diseño y desarrollo de BI, incluyendo almacenamiento de datos; extracción, transformación y carga (ETL); procesamiento analítico en línea (OLAP); reportes; y desarrollo de aplicaciones personalizadas.

Mallikarjunan ha tenido posiciones tales como, directora de desarrollo de aplicaciones de un grupo de .NET, almacenamiento de datos, y profesional de BI para una empresa de menudeo de ropa. En este trabajo, fue responsable del mantenimiento, desarrollo y soporte de aplicaciones Windows y Web-based, así como almacenamiento operacional de datos, data marts y aplicaciones BI.

Mallikarjunan tiene un BSc en ciencias de la computación de la universidad de Madras (India) y un MSc en ciencias de la computación de la universidad de Anna in Madras, India.


1 ETL, extract, transform and load.
2 Data mart
3 Deduplication

 
comments powered by Disqus