¿Olvidó su contraseña?
|
|
|
|
No pudimos identificarle.
Verifique por favor su nombre de usuario y contraseña, e inténtelo de nuevo. Si no tiene usted una cuenta en TEC, regístrese ahora
Read Comments <

El afán de generar el máximo de información en el menor tiempo posible, frecuentemente prevalece por encima del establecimiento de procesos que controlen la calidad de la misma. La baja calidad en la información puede conducir a tomar decisiones erróneas y a perder oportunidades de negocios. Incluso con un proceso de almacenamiento de datos bien diseñado y equipado con las mejores herramientas de inteligencia empresarial (BI), los usuarios se enfrentarán a la ineficiencia y la frustración si se compromete la calidad de la información. Cuando se esta en un proyecto de almacenamiento de información o de inteligencia empresarial, es esencial para las organizaciones enfatizar en la calidad de información que se utiliza para realizar el análisis y las subsecuentes decisiones.

En la medida en que la información viaja hacia su almacenamiento, o data marts, un marco de trabajo para su calidad crea un proceso de filtro para medir su pureza y corrige las inconsistencias que encuentra. Este artículo lleva al lector a través de una estrategia de calidad de información típica, ilustrándolo con ejemplos, indicándole como y donde se dan los problemas de calidad, y las aproximaciones disponibles para evitar la proliferación de este tipo de problemas. Miraremos también un grupo de vendedores de software que proveen soluciones poderosas y ricas en la protección de la calidad de la información.

Empezando desde el principio

El problema con la información desactualizada empieza con frecuencia en los sistemas de aplicaciones (las fuentes de datos). Existen mejores prácticas simples que pueden ayudar a controlar la propagación de datos desactualizados.

  1. Adjuntando tipos de datos a entidades empresariales: Los tipos de datos deben con precisión describir las entidades empresariales que ellos representan. Por ejemplo, entidades numéricas no deben ser almacenadas en columnas con tipos de datos no numéricos. Cuando se entra accidentalmente un dato no numérico en una columna numérica, se da lugar a que más adelante se den problemas de integridad.

  2. Entradas inválidas por defecto: Los valores por defecto deben estar especificados de forma que los valores inválidos de todas las entradas sean explicables. No poder lograrlo lleva a que los sistemas de almacenamiento tengan que adivinar la representación correcta de los valores inválidos.

  3. Aplique integridad referencial: las relaciones entre entidades identificadas deben ser aplicadas por medio de integridad referencial. Por ejemplo, la ciudad de un cliente debe estar contenida en una lista de ciudades predefinidas.

  4. Respetar las reglas empresariales: los sistemas de bases de datos proveen restricciones, con las cuales se pueden aplicar ciertas reglas empresariales a valores que entran en la base de datos. Por ejemplo, una columna de salario puede tener un rango predefinido. Adicionalmente, los sistemas de interfase deben proveer campos restringidos para simplificar la captura de datos para el usuario, así como reforzar las reglas empresariales. Por ejemplo: los números telefónicos norte americanos deben estar limitados a 10 dígitos, el género es entrado por medio de una interfase restringida, y así sucesivamente.

  5. Consistencia a través de todos los sistemas empresariales: Una aproximación unificada para construir varios sistemas de aplicaciones es fundamental a la hora de asegurar que las entidades están consistentemente descritas a través de los múltiples sistemas en una organización. La gestión maestra de información esta creciendo en importancia y relevancia. A pesar de que este articulo no ahonda en el tema, es importante que las organizaciones establezcan las herramientas y procesos necesarios para la administración de los datos maestros.

Datos a través del espejo retrovisor

Los problemas de calidad de información pueden ser minimizados en las fuentes de datos. Sin embargo, los almacenes de información son conglomeraciones de varias fuentes de datos, que con frecuencia combinan información estructurada y no estructurada, e incluye información externa a la empresa. Mientras cada sistema de aplicación sea auto consistente, es importante homogeneizar la información de las diferentes fuentes. Adicionalmente, restringiendo simplemente la información para seguir las reglas empresariales es el primer paso para el control de la precisión. Los patrones que salen de grandes muestras de datos, apuntan con frecuencia hacia problemas que son imposibles de detectar ya que la información es capturada de valores individuales. Las soluciones para calidad de información han sido parte de las plataformas de integración desde hace ya algunos años, y aún si los productos varían en amplitud y profundidad de sus funcionalidades, ha emergido un paradigma general de calidad de la información.

La calidad de la información cae dentro de 3 categorías: perfil de la información, para analizar e identificar problemas de calidad; limpieza de información, para corregir y estandarizar la información como preparación para su uso; y por último, el monitoreo de la información aplicado al control de la calidad a largo plazo.

Diagnostico por medio del perfil de la información

Creando perfiles para la información, las organizaciones pueden comprender los problemas de calidad que los distancia de su propia información corporativa. Las métricas se crean basadas en campos seleccionados para medir la calidad de la información representada en esos campos. Ejemplos de métricas para perfilar incluyen:

  • Número de valores distintivos: Provee información sobre como se mantiene la singularidad

  • Porcentaje de valores en serie: Valores numéricos en entidades alfanuméricas o viceversa pueden generar violaciones básicas de tipos de información.

  • Porcentaje de valores perdidos: Un gran porcentaje de valores perdidos pueden apuntar hacia problemas en la fuente de información.

  • Valores mínimos y máximos: Mirar los grupos de información mínimos y máximos con frecuencia puede rápidamente señalar información que sale del rango establecido. Si los 3 valores mínimos de las edades de estudiantes universitarios en la base de datos son 6, 17 y 18 y los máximos son 24, 42 y 52, es muy posible que el 6 halla sido un error al tratar de entrar el número 16, y que 42 y 52 se hallan dado al tratar de escribir 24 y 25.

Reglas más avanzadas pueden ser aplicadas a la información para encontrar desviaciones que no son obvias. La minería de datos (data mining) es el proceso de descubrir información empresarial que de cualquier otra forma permanecería oculta. Por ejemplo, una librería en línea le sugiere libros adicionales basándose en los libros que el cliente había añadido a su carrito y en la evidencia de compradores compatibles. Esto se lleva a cabo por medio del uso de reglas de asociación aplicadas a datos históricos de ventas. A pesar de que el propósito principal de la minería de información es el de lograr comprensión empresarial, se puede además aplicar para encontrar elementos anormales en la información. Considere un sistema basado en la Web que infiere el lugar del protocolo Internet (IP). Si en un día particular el sistema muestra a todos sus usuarios como si vinieran de California, ello puede indicar que en ese día en particular la inferencia basada en IP no funcionó correctamente y todos los usuarios fueron conectados con el lugar establecido por defecto, en este caso California.

En pocas palabras, el perfil de los datos provee información organizacional. Los problemas clave de la calidad deben ser arreglados antes de continuar. Cualquier información anormal que revele problemas más adelante debe ser arreglada inmediatamente corrigiendo el o los componentes que han causado la anormalidad. Nótese que perfilar la información no elimina todos los problemas de calidad; los obstáculos se deben eliminar para obtener un buen marco de trabajo para la administración de la calidad de la información.

Corrija limpiando la información

Si el perfilamiento observa los datos con lupa, la limpieza involucra el uso de un microscopio de electrones. Los procesos de extracción, transformación y carga en un sistema de almacenamiento de información, extrae registros de la fuente de datos, los transforma usando reglas para convertir los datos en un formato con el cual se puedan hacer reportes y análisis, y finalmente los carga[1] a su destino (normalmente un almacén de información o un subalmacen[2] ). La limpieza de la información es una parte integral del proceso de transformación y refuerza las reglas empresariales y sus esquemas en cada registro de la fuente. El resultado de la violación de las reglas empresariales puede incluir:

  • Su corrección inmediata usando reglas que han sido especificadas en la lógica de limpieza de la aplicación.

  • Registrar el error y continuar el proceso con el próximo dato.

  • Terminar el proceso.

La acción más apropiada depende de la naturaleza y severidad de cada problema. Si un registro para direcciones, no contiene el estado o provincia, pero tiene la ciudad y el país, la acción deberá ser corregir el archivo deduciendo la información faltante, en lugar de eliminar o ignorar el error.

Las funcionalidades de limpieza de información han avanzado considerablemente y la mayoría de las plataformas de integración ofrecen una variedad de características para la gran mayoría de escenarios empresariales.

  • Validación: verifica si cada dato sigue normas empresariales específicas. Si, por ejemplo, el formato del campo para el número de seguridad social es incorrecto, o un campo de información no existe, el procedimiento de validación alerta e incluso limpia o corrige el campo. Se pueden crear igualmente complejas reglas empresariles especificas de un ambiente empresarial para validar valores de datos permisibles.

  • Supresión de duplicados [3]: es una de las más importantes técnicas de limpieza, en la cual se fisionan los duplicados. La duplicación de la información se puede dar en un solo campo, pero normalmente se da en una combinación de ellos. Por ejemplo: "A.A.Milne|Writer|Hampstead, England" y "Alan Alexander Milne|Author|Hampstead, London, England, representan la misma entidad. Sin embargo, cotejar el texto no resuelve el problema. El cotejo o comparación basado en una lógica difusa puede ser aplicado para resolver este problema. El cotejo difuso estándar ayuda a eliminar duplicados generados por errores ortográficos, igualmente puede por medio de las funciones de similaridad, realizar comparaciones aproximadas. La función de similaridad genera como resultado un puntaje que representa el grado de similaridad entre dos valores. Un sistema que incluya el cotejo difuso tiene generalmente un glosario que provee información para discernir datos, que por simple similaridad no se podría llevar a cabo. Por ejemplo: los títulos de desarrollador y programador deben ser considerados como una misma función, independientemente de sus diferencias a nivel de escritura. La mayoría de las herramientas incluyen la posibilidad de adaptar las reglas de cotejo e incluir normas más complejas ajustadas a cierto ambiente empresarial.

  • Householding: es un método por el cual récords individuales pueden ser agrupados basados en propiedades comunes. Agregados basados en los nombres de los clientes de la organización pueden ser organizados agrupando primero todos los récords por empresa (usando el cotejo difuso para eliminar duplicados por errores de ortografía) y calculando luego, los agregados para cada grupo.

Mantenimiento por medio de monitoreo de información

Para mantener la confiabilidad de los datos, es imperativo construir controles que constantemente evalúen la calidad de la información y disparen alertas cuando los niveles de calidad de la información no sean los óptimos. Con la instalación de un marco para la limpieza de información, las organizaciones construyen su propio perfil de problemas de calidad de la información, y sus soluciones para cada ocasión. El monitoreo de la información provee información sobre cuantas veces se encontraron y resolvieron duplicados, cuantos campos vacíos fueron arreglados por semana y que tipo de solución se les dio. Se pueden crear reglas que rastreen niveles de tolerancia para varios tipos de problemas de calidad de la información; donde se disparen alertas cada que el nivel de tolerancia de problemas excedan los umbrales permitidos. La debilidad de las aplicaciones y los procesos se pueden detectar por medio del monitoreo de la información a través del tiempo. La información hallada en el monitoreo constante puede ser usada para consolidar los procesos empresariales. Este mecanismo de retroalimentación mantiene en su lugar la calidad.

En la tierra de los vendedores

La tecnología de control de la calidad de la información esta creciendo rápidamente ya que las organizaciones reconocen y enfatizan la necesidad de generar información de alta calidad a sus usuarios. Existen soluciones disponibles bien sea como herramientas de control de información o como parte de los paquetes de integración de información/ETL.

DataFlux (parte de la empresa SAS) ofrece dfPowerStudio, una plataforma integrada para el control de la calidad de la información al igual que su integración. Uno de los componentes de dicho producto es dfPower® Profile, un extensivo modulo de perfilamiento de la información. Incluye el análisis de metadatos que ayudan a organizar datos a través de múltiples fuentes. El componente para descubrir relaciones ayuda a revelar relaciones entre fuentes de información y granularidad. En adición a la verificación de la información de relaciones de metadatos definidos, dfPower® Profile posibilita el descubrimiento de información que no esta definida por los metadatos.

Data Quality Workbench de Informatica se integra totalmente con PowerCenter para crear una plataforma única para la integración de información y la calidad de la misma. Los usuarios pueden apoyarse en la opción de división basada en procesos paralelos de Informatica para correr procesos de calidad e integración de información en paralelo para un alto rendimiento. El Data Explorer de Informatica perfila columnas individuales, relaciones dentro de tablas y entre ellas, para identificar problemas de calidad.

dn:Director de Datanomic provee una familia de procesadores, los cuales constituyen un grupo completo de funciones de calidad. Ello incluye: perfilar y analizar para lograr la comprensión de los datos, transformar para limpiar y enriquecer la información, perfilar y el analizar gramaticalmente las frases para estructurar la información e identificar datos importantes que se pueden esconder en grandes grupos, y cotejar para la identificación de duplicados. Además de la arquitectura por lotes, la solución soporta la arquitectura de tiempo real en la cual los procesos desarrollados usando dn:Director pueden ser aplicados a las transacciones Java Messaging Service (JMS) para validar información en tiempo real.

Todo tiene una moraleja, solo si se puede hallar

El objetivo principal de las soluciones BI es el de proveer a las empresas con la información necesaria para apoyar la toma de decisiones. Ello requiere de la integración de información dentro o fuera de una empresa. Una amplia estrategia de calidad en la información, protege las empresas de inconsistencias y anomalías que salen de la complejidad en la integración de múltiples sistemas y de problemas escondidos que se pueden revelar por medio de sofisticadas técnicas de análisis. Las soluciones de calidad de información proveen a las empresas con una mejor comprensión de su información por medio del perfilamiento, con la solución a problemas de calidad por medio de la limpieza, y con el establecimiento de de procesos para monitorear la calidad de la información a través del tiempo.

Sobre el autor

Anna Mallikarjunan es miembro del grupo de investigación y desarrollo de TEC. Es la responsable del análisis y desarrollo del software de apoyo en las decisiones de TEC así como las herramientas de inteligencia de negocios, BI. Con mas de cuatro años de experiencia en análisis empresarial, diseño y desarrollo de BI, incluyendo almacenamiento de datos; extracción, transformación y carga (ETL); procesamiento analítico en línea (OLAP); reportes; y desarrollo de aplicaciones personalizadas.

Mallikarjunan ha tenido posiciones tales como, directora de desarrollo de aplicaciones de un grupo de .NET, almacenamiento de datos, y profesional de BI para una empresa de menudeo de ropa. En este trabajo, fue responsable del mantenimiento, desarrollo y soporte de aplicaciones Windows y Web-based, así como almacenamiento operacional de datos, data marts y aplicaciones BI.

Mallikarjunan tiene un BSc en ciencias de la computación de la universidad de Madras (India) y un MSc en ciencias de la computación de la universidad de Anna in Madras, India.


1 ETL, extract, transform and load.
2 Data mart
3 Deduplication


 
comments powered by Disqus


Informes financieros ¿quién los necesita? | Quiero mi nube privada | Revisión de producto BPM: SAP BusinessObjects Planning and Consolidation | Recogiendo datos útiles de la Web: lo que antes era imposible es ahora un hecho | Los datos masivos requieren medidas masivas | Análisis en-memoria: un estudio multi-dimensional | Excursión por las nubes | Nota de producto: Jaspersoft, ¿es realmente para las grandes empresas? | Every Angel para SAP: una nota de producto | Los elementos básicos del almacenamiento de datos en tiempo real | Llevando el soporte lingüístico al próximo nivel | Inteligencia empresarial de código abierto: la evolución silenciosa | El costo de una solución de Business Intelligence | ¿Cómo NO debemos seleccionar una herramienta de Business Intelligence? | Innovaciones en inteligencia |
Radiografía de un sistema de planeación de ventas y operaciones | Controle la información más importante de su organización | Recursos humanos y tecnología | Radiografía de la inteligencia de negocios contemporánea | Inteligencia de negocios en la pequeña y mediana empresa | Una solución para sourcing basada en la experiencia | Un proveedor que se adentra en el sourcing global | Mejore sus resultados netos con gestión de los datos maestros | Alicia en el país de los dispositivos móviles | La relación intrínseca entre CRM y la lógica analítica | Podcast: Guía para gerentes de proyecto sobre gestión del desempeño empresarial, entrevista con Lyndsay Wise, analista de investigación de TEC | Cinco pasos para lograr un proyecto de business intelligence exitoso | Consejos para optimizar la cadena de suministro y aumentar el nivel de satisfacción de los clientes: Entrevista con Robert Abate de RCG Information Technology | Por qué los fabricantes deben aprovechar la promesa de business intelligence | La opinión de dos proveedores incondicionales | Factores que inhiben la adopción de BPM | Una solución flexible de integración de datos de los clientes | Cómo simplificar la visualización de los datos | Un proveedor de ERP aborda el software como servicio | ERP completo como SaaS | El aspecto funcional del software como servicio | Business intelligence y reconocimiento de identidades | Estudio de caso de la implementación de un sistema de reportes financieros | Estudio de caso práctico: los retos de una implementación de business intelligence | ¿Existe una diferenciación en el mercado de CPM? Un mapa de la percepción le da la respuesta | Un evento centralizado para business intelligence y almacenamiento de datos | La amargura del vencimiento: la propuesta de valor y la estrategia para un proveedor de sistemas empresariales ágiles | Integración de los datos del cliente: Una premisa | Gestión de desempeño comercial e inteligencia comercial operacional: Diferenciadores clave | Microsoft se aventura en el mercado de la inteligencia comercial | El uso de análisis predictivos dentro de la inteligencia comercial | Inteligencia comercial contemporánea y sus componentes principales | ¿Dónde dejé mi buscador? | Una rápida solución de gestión de desempeño comercial para abarcar la complejidad | Un pequeño vendedor de planificación de los recursos de la empresa: La visión y los retos | La fórmula para el éxito del producto es: Enfocarse en flexibilidad y cooperación | Lo básico de la gestión del desempeño comercial: una revisión de la gestión del desempeño comercial y de sus beneficios a la organización | Utilizar la infraestructura de inteligencia comercial para asegurar el cumplimiento del Principio de Sarbanes-Oxley | Comparación de las soluciones de carga y transformación de extracto de los vendedores de excelencia de integración de datos e inteligencia comercial | La prueba para su estrategia de posicionamiento | Obtenga más de sus proyectos IT | Analítica predictiva: el futuro de la inteligencia de negocios | Los principales vendedores se asocian para fortalecer la relación de CRM y BI | Relaciones con los clientes y business intelligence | Procesos del negocio orientados a las acciones: Alianzas, sociedades y adquisiciones | La lucha por mantener el liderazgo | Retos competitivos para Vanguard | Un enfoque en BI controlado por la demanda | Integración y consolidación de business intelligence con la gestión del desempeño del negocio | Reporte de estado de business intelligence: recomendaciones | Los almacenes de datos y el acceso a business intelligence | Los vendedores de business intelligence | El mercado de la gestión del desempeño de la empresa con business intelligence | Las herramientas contemporáneas de business intelligence | Reporte del estado de business intelligence | Business intelligence para las PyME | Excel y el mercado de business intelligence | La orden perfecta | Las ventajas y las desventajas de business intelligence | ¿Por qué funciona business intelligence? |


Use this index to search for white papers related to commonly used search terms A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others 
Búsquedas recientes
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others
A: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
B: 1 2 3 4 5 6 7 8 9
D: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
E: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
F: 1 2 3 4 5 6 7 8 9 10
G: 1 2 3 4 5 6 7 8 9
H: 1 2 3 4 5 6 7 8 9
I: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
J: 1 2 3 4
K: 1 2
L: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
M: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
N: 1 2 3 4 5 6 7 8 9
O: 1 2 3 4 5 6 7 8 9 10 11 12
P: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Q: 1 2 3
R: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
T: 1 2 3 4 5 6 7 8 9 10
U: 1 2 3
V: 1 2 3 4 5
W: 1 2 3
X: 1
Y: 1
Z: 1
Others: 1 2 3


©2013 Technology Evaluation Centers Inc. Todos los derechos reservados. Búsqueda provista por Google