Forgot password?
|
|
|
|
We were unable to sign you in.
Please verify your user name and password and try again. If you do not have a TEC account, register now.
  • E-mail Article
Rate this article
Average Reader Rating 0,00
You may also be interested in:


Featured Author
Comments: 
0
Read Comments <

Wiele firm z niezwykłą gorliwością dąży do zapewnienia klientom jak największej ilości danych biznesowych, zaniedbując niekiedy kwestię stworzenia odpowiednich praktyk kontrolujących ich jakość. Utrzymanie niskich standardów jakości danych może niekorzystnie wpływać na podejmowanie ważkich decyzji biznesowych oraz doprowadzić do znacznych strat firmy czy też niewykorzystania nadarzających się sposobności biznesowych. Niezależnie od tego, czy hurtownia danych jest właściwie zaprojektowana i wyposażona w odpowiednie narzędzia dla business intelligence (BI), użytkownicy mogą spotkać się zarówno z jej nieefektywnością, jak i swoją frustracją, jeśli kwestia jakości danych jest zaniedbana. Istotnym aspektem dotyczącym realizacji projektu magazynowania danych czy też projektu związanego stricte z business intelligence jest upewnienie się co do jakości danych wykorzystywanych przy analizie i następującym po niej procesie podejmowania decyzji.

Dane gromadzone z wielu źródeł są następnie transferowane do hurtowni danych lub tematycznych hurtowni danych. Dzięki ramie zarządzania jakością danych realizowany jest proces szczegółowej analizy szacującej czystość danych oraz klaryfikujący ich nieścisłości. W przedstawionym artykule zaprezentowano typową strategię zarządzania jakością danych, ilustrując na przykładach sposób i miejsce występowania problemów związanych z ich jakością oraz ukazano możliwe sposoby na zredukowanie mnożenia się liczby potencjalnych problemów. W artykule rozpatrywana jest także grupa dostawców oferujących zaawansowane technologie gwarantujące jakość danych przedsiębiorstwa.

Zacznij od początku – odparł z powagą Król. *

Problem nieścisłości pojawia się dosyć często już w systemach operacyjnych, będących źródłami danych. Poniżej znajduje się lista kilku prostych metod na zredukowanie pojawiania się niedokładnych danych.

  1. Powiązywanie typów danych z jednostkami biznesowymi. Określone typy danych w źródłowych bazach danych powinny dokładnie opisywać jednostki biznesowe, które reprezentują. Na przykład, jednostki numeryczne (w postaci wartości liczbowej) nie powinny być przechowywane w formie kolumn z typem danych w formie ciągu znaków. Jeśli nienumeryczne dane są przypadkowo przechowywane we wspomnianych kolumnach, należy spodziewać się występowania problemów z utrzymaniem ich jednolitości.

  2. Domyślne wartości NULL. Wartości domyślne powinny być sprecyzowane dla wszystkich kolumn, aby wartości null (puste) były wytłumaczalne względem wszystkich jednostek. Niestosowanie się do danej reguły może nieść za sobą ryzyko niepoprawnej reprezentacji wartości NULL przez systemy magazynujące dane.

  3. Utrzymanie integralności referencyjnej. Ważne, aby zależności pomiędzy zidentyfikowanymi jednostkami były utrzymane poprzez mechanizm integralności referencyjnej. Na przykład, lokalizacja klienta powinna być przypisana do uprzednio zdefiniowanego zestawu lokalizacji.

  4. Stosowanie zasad biznesowych. Systemy bazodanowe zawierają ograniczenia, dzięki którym określone reguły biznesowe mogą być stosowane do wartości wprowadzanych do baz wiedzy. Na przykład, kolumna z wynagrodzeniami pracowników może obejmować ich uprzednio zdefiniowany zakres. Interfejsy aplikacji powinny zapewnić ograniczone pola wprowadzania tekstu w celu symplifikacji gromadzenia danych dla użytkownika oraz stosowania się do reguł biznesowych. Na przykład, numery telefonów w Ameryce Północnej są ograniczone do 10 cyfr.

  5. Spójność w systemach biznesowych. Koherentne podejście do tworzenia systemów operacyjnych funkcjonujących na poziomie całego przedsiębiorstwa jest równoznaczne z zapewnieniem jednolitego definiowania jednostek w kilku systemach wykorzystywanych przez przedsiębiorstwo. Należy zauważyć, że Master data management (zarządzanie danymi podstawowymi) jest aspektem uważanym już dzisiaj za niezwykle istotny element prawidłowego funkcjonowania przedsiębiorstw.

Dane pod lupą

Problemy jakości danych mogą być redukowane już w źródłach danych, jednakże nie należy zapominać o tym, że hurtownie danych są konglomeracjami kilku źródeł danych, obejmującymi często zarówno ustrukturalizowane, jak i nieustrukturalizowane dane oraz dane pochodzące spoza przedziałów przedsiębiorstwa. Niezależnie od tego, czy indywidualne aplikacje systemowe są homogeniczne, ważne, aby pamiętać o ujednoliceniu danych pochodzących z różnych źródeł. Należy zauważyć, iż samo ograniczanie danych w celu stosowania się do reguł biznesowych jest jedynie pierwszym krokiem do zapewnienia ich dokładności i spójności. Modele danych powstające z większych sampli danych wskazują często na problemy, które nie mogą być zidentyfikowane, ponieważ dane są gromadzone z pojedynczych wartości. Rozwiązania dla zarządzania jakością danych od kilku lat stanowią część składową platform interacji danych. Niezależnie od istniejącej różnorodności produktów pod względem ich możliwości funkcjonalnych, istnieje już ogólnie przyjęty sposób rozpatrywania (paradygmat) jakości danych.

Funkcjonalność zarządzania jakością danych jest rozpatrywana w trzech kategoriach: profilowanie danych – dla analizy i identyfikacji problemów jakości, czyszczenie danych – dla korygowania i standaryzacji danych wykorzystywanych przez użytkowników oraz monitoring danych – dla kontrolowania jakości danych w długofalowej perspektywie.

Postawienie diagnozy dzięki profilowaniu danych

Tworzenie profili danych może pomóc przedsiębiorstwom w zrozumieniu istoty problemów związanych z jakością danych biznesowych. W oparciu o określone pola tworzone są miary szacujące jakość danych w nich przedstawionych. Przykłady miar profilujących dane:

  • Liczba odmiennych wartości (funkcja eliminująca duplikaty) zapewnia zrozumienie sposobu, w jakim utrzymywana jest spójność danych.

  • Procentowość wartości wyrażonych w postaci łańcucha danych. Wartości numeryczne w jednostkach alfanumerycznych (lub odwrotnie) mogą wykryć niegroźne naruszenia spójności typów danych.

  • Procentowość brakujących danych. Znaczna część brakujących wartości może pomóc we wskazaniu błędów w systemie źródłowym.

  • Minimalne i maksymalne wartości. Rozpatrywanie zestawu minimalnych i maksymalnych wartości z wykorzystaniem FC (metoda zliczania odwołań) danych wartości może pomóc we wskazaniu danych znajdujących się poza oczekiwanym zakresem wartości. Na przykład, jeśli trzy minimalne i maksymalne wartości względem wieku studentów uczelni wyższych to: 6, 17, 18 oraz 24, 42, 52 – najprawdopodobniej liczba 6 została nieprawidłowo wprowadzona w miejsce 16, a 42 i 52 w miejsce 24 i 25.

W celu zlokalizowania mniej oczywistych nieprawidłowości istnieje również możliwość zastosowania bardziej zaawansowanych metod. W sukurs w takich przypadkach przychodzi eksploracja danych – proces odnajdywania ukrytych informacji i danych przedsiębiorstwa. Na przykład, księgarnia online sugeruje indywidualnym klientom zakup dodatkowych pozycji książkowych w oparciu o podobny wybór innych klientów zainteresowanych w zakupie tej samej pozycji. Są to przykłady często stosowanych metod wzorowanych na praktyce i zasadach asocjacji względem danych z historii sprzedaży. Kluczowym celem eksploracji danych jest pełniejsze zrozumienie specyfiki procesów biznesowych, chociaż dana technika może być również wykorzystana przy wykrywaniu anomalii danych. Rozważmy daną kwestię na następującym przykładzie systemu webowego (dostęp do programu przez przeglądarkę internetową), który wnioskuje lokalizację na podstawie protokołu IP (Internet Protocol) użytkownika. Jeśli wszyscy użytkownicy w określonym dniu są zlokalizowani w Kalifornii, można przypuszczać, że w danym dniu przedstawiony wniosek IP nie był prawidłowy, przez co wszyscy użytkownicy zostali przypisani do domyślnej lokalizacji, w tym przypadku do Kalifornii.

Rekapitulując, technika profilowania danych zapewnia informacje o danych organizacji. Kluczowe problemy jakości powinny być identyfikowane i rozwiązywane w możliwie szybki sposób. Wszelkie odbiegające od normy dane ujawniające nieścisłości powinny inicjować natychmiastowe działania korygujące w celu rektyfikacji komponentu (lub komponentów) powodujących dane anomalie. Należy przy tym zauważyć, iż metoda profilowania danych nie gwarantuje wyeliminowania wszystkich problemów względem jakości. Eliminowane są tzw. showstoppery oraz rektyfikowana jest rama zarządzania danymi.

Dokonanie korekty dzięki czyszczeniu danych

Jeśli proces profilowania może być porównany z badaniem struktury danych z użyciem szkła powiększającego, to można zaryzykować twierdzenie, iż proces czyszczenia danych wykorzystuje w tym celu mikroskop elektronowy. Proces ETL w systemie magazynującym dane polega na ekstrakcji rekordów ze źródeł danych, przekształcaniu z wykorzystaniem zasad konwertowania danych w formy odpowiednie do raportowania i przeprowadzania analiz oraz ładowaniu przekształcanych rekordów w miejsca docelowe (zwykle do [tematycznych] hurtowni danych). Proces czyszczenia danych jest integralnym elementem procesu przekształcania (transformacji), który służy do stosowania reguł biznesowych i schematycznych według każdego rekordu i pola. Proces czyszczenia danych obejmuje również tzw. ekrany jakości (quality screens) monitorujące rekordy źródeł. Naruszenie reguł biznesowych może nieść za sobą ewentualność:

  • naniesienia ntychmiastowej korekty z wykorzystaniem zasad właściwych logice czyszczenia danych;

  • logowania błędu oraz kontynuację do następnej wartości danych;

  • przerwania procesu.

Najodpowiedniejsze działanie zależy od natury i powagi problemu. Jeśli rekord zawierający adres nie zawiera informacji o regione/prowincji/województwie, ale zawiera informację o miejscowości lub kraju, najwłaściwszym działaniem korygującym w danym wypadku nie byłoby zignorowanie błędu, lecz wywnioskowanie regionu/prowincji/województwa na podstawie dwóch pozostałych jednostek danych.

Funkcjonalność czyszczenia danych stanowi już dzisiaj zaawansowaną, znaczącą część platform integracyjnych, oferującą wiele możliwości funkcjonalnych specyficznych dla większości scenariuszy biznesowych.

  • Funkcja walidacji pomaga w śledzeniu zastosowania wartości danych względem określonych reguł biznesowych. Jeśli np. format danych PIN nie jest prawidłowy lub wartość obowiązkowych danych nie jest wprowadzona, procedura walidacji może zaalarmować, skorygować lub anulować istniejącą wartość danych. Złożone reguły biznesowe specyficzne dla określonego środowiska biznesowego mogą być tworzone w celu stosownej walidacji dozwolonych wartości danych.

  • Deduplikacja stanowi jedną z kluczowych technik czyszczenia danych, w której zduplikowane jednostki są łączone. Duplikacja danych może zaistnieć zarówno w granicach jednego pola, jak i kombinacji pól. Na przykład, “A.A.Milne|Pisarz|Hampstead, Anglia” oraz “Alan Alexander Milne|Autor|Hampstead, Londyn, Anglia” reprezentują tę samą jednostkę. Technika identyfikacji w oparciu o logikę rozmytą (fuzzy logic) może być wykorzystana do rozwiązania tego typu rekordów. Standardowa identyfikacja rozmyta umożliwia eliminowanie duplikatów spowodowanych błędami otrograficznymi lub niesprecyzowanymi algorytmami z wykorzystaniem funkcji podobieństwa. Funkcje podobieństwa zwracają zwykle wyniki reprezentujące stopień podobieństwa pomiędzy dwoma zestawami wartości danych. Systemy obejmujące możliwości identyfikacji rozmytej zawierają często ukryte biblioteki zapewniające wiedzę, która nie może być dostrzeżona jedynie na podstawie podobieństwa tekstu (fonetyki). Na przykład, informacja o tym, że stanowiska „deweloper” oraz „programista” są uważane za jednakowe jest potrzebna do skutecznej identyfikacji opisów stanowisk, które nie charakteryzują się (lub charakteryzują się niewielkim) podobieństwem z punktu widzenia tekstu. Wiele narzędzi zapewnia również możliwość kastomizacji reguł identyfikacji oraz stworzenia bardziej złożonych reguł dostosowanych do specyfiki określonego środowiska biznesowego.

  • Wszukiwanie gospodarstw domowych (householding) to metoda, w której pojedyncze rekordy mogą być grupowane w oparciu o podobne charakterystyki pomiędzy nimi. Agregaty oparte o nazwy przedsiębiorstw klientów mogą być generowane poprzez grupowanie wszystkich rekordów wg przedsiębiorstwa (z wykorzystaniem techniki identyfikacji rozmytej, aby okreslić przybliżone algorytmy porównania tekstu), a następnie obliczanie agregatów dla każdej z grup.

Utrzymanie jakości dzięki monitorowaniu danych

Niezmiernie ważnym aspektem utrzymania spójności danych jest stworzenie mechanizmów kontrolnych i oceniających jakość danych oraz alarmujących naruszenie poziomu ich jakości. Dzięki sprawnie funkcjonującej ramie czyszczenia danych przedsiębiorstwa systematycznie tworzą własny profil kwestii związanych z jakością danych oraz sposobem, w jaki dane kwestie zostały rozwiązane. Proces monitorowania danych pomaga w śledzeniu występowania duplikatów, ich wnioskowaniu, znajdywaniu informacji o liczbie brakujących wartości, które zostały wywnioskowane w każdym tygodniu oraz sposobach ich wnioskowania. Istnieje możliwość stworzenia zestawu reguł monitorujących progi poziomów tolerancji względem problemów związanych z jakością danych oraz alarmowania przypadków przekroczenia dopuszczalnych limitów. Nieścisłości danych w procesach i aplikacjach są identyfikowane z wykorzystaniem technik długofalowego monitoringu jakości. Systematyczne monitorowanie statusu danych pozwala na optymalizację procesów biznesowych przedsiębiorstwa. Dany mechanizm reakcji zwrotnych umożliwia regularne kontrolowanie jakości danych.

W krainie dostawców

Technologie zarządzania jakością danych zyskują coraz większą popularność dzięki zwiększonej świadomości oraz pełniejszemu zrozumieniu istotności danej kwestii. Dane rozwiązania są dostępne w formie narzędzi zarządzania jakością danych lub jako element ETL – pakietów integracji danych.

Firma DataFlux (wchodząca w skład SAS) ma w swojej ofercie zintegrowaną platformę dla zarządzania jakością oraz integracji danych – dfPowerStudio. Jednym z komponentów platformy jest dfPower® Profile – zaawansowany moduł profilowania danych, obejmujący analizę metadanych pozwalającą przedsiębiorstwom na organizowanie danych w granicach kilku źródeł. Komponent odnajdywania relacji służy z kolei odkrywaniu relacji w granicach źródeł danych oraz ziarnistości. dfPower® Profile weryfikuje zależności zdefiniowane na podstawie metadanych oraz umożliwia odkrywanie relacji niezdefiniowanych przez metadane.

Data Quality Workbench oferowana przez firmę Informatica to aplikacja w pełni zintegrowana z aplikacją PowerCenter, tworząc autonomiczną platformę dla zarządzania jakością oraz integracji danych. Przedsiębiorstwa mogą wykorzystać opcję równoległego partycjonowania opartego na przetwarzaniu w celu przeprowadzania procesów zarządzania jakością danych oraz integracji, a co za tym idzie zwiększenia efektywności funkcjonowania. Narzędzie Data Explorer profiluje pojedyncze kolumny, zależności na przestrzeni tabel w celu zidentyfikowania problemów związanych z jakością danych.

Aplikacja dn:Director oferowana przez firmę Datanomic przedstawia rodzinę procesorów składających się na kompletny zestaw funkcjonalności zarządzania jakością danych. Obejmuje to profilowanie oraz przeprowadzanie analiz w celu pełniejszego zrozumienia aspektu danych, transformacji zapewniającej czyszczenie i wzbogacanie danych, profilowanie fraz, parsowanie umożliwiające strukturyzację nieustrukturalizowanych danych, a także identyfikację istotnych informacji znajdujących się w obszernych zestawach danych oraz identyfikację (znajdowanie duplikatów) wykorzystywaną przy deduplikacji. Dane rozwiązanie wspiera architekturę wsadową (batch architecture) oraz architekturę w czasie rzeczywistym, w której procesy przeprowadzane z wykorzystaniem narzędzia dn:Director mogą być stosowane z transakcjami Java Messaging Service (JMS) w celu walidacji danych w czasie rzeczywistym.

Wszystko ma swój morał, tylko skąd płynie?

Zasadniczy cel rozwiązań klasy BI stanowi zapewnienie niezbędnych informacji dla procesów optymalizacji podejmowania decyzji biznesowych. Wymaga to jednak integracji danych zarówno w przedziałach przedsiębiorstwa, jak i poza nimi. Inteligentna strategia zarządzania jakością danych ma na celu zabezpieczenie przedsiębiorstwa przed nieścisłościami oraz anomaliami pojawiającymi się wskutek wieloaspektowości związanej z integracją kilku systemów oraz nieujawnionych problemów, które są odkrywane jedynie dzięki zaawansowanym technikom analitycznym. Rozwiązania dla zarządzania jakością danych umożliwiają przedsiębiorstwom zrozumienie własnych danych dzięki procesom profilowania, rozwiązywanie problemów jakości danych dzięki procesom czyszczenia oraz stworzenie procesów długofalowo kontrolujących ich jakość.

tłum. Izabela Zdun


* Alicja w krainie czarów, tłum. A. Marianowicz




 

Comments:




Recent Searches

Use this index to search for white papers related to commonly used search terms A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others 
Home  |   Careers  |   Contact Us  |   Glossary  |   Special Offers  |   Software Features Functions  |   Software Selection Shortcuts  |   Feedback  |   Terms of Use  |   Privacy Policy

©2012 Technology Evaluation Centers Inc. All rights reserved. Search powered by Google