Statystycznie rzecz biorąc - profesjonalna analiza danych

Czyszczenie zbioru danych

czyszczenie zbioru danych

Czyszczenie zbioru danych

Weryfikacja zbioru danych

Aby dobrze przeanalizować wyniki zebranych danych należy, po ich wprowadzeniu, sprawdzić poprawność zebranych danych czyli przeprowadzić tzw. czyszczenie zbioru danych.

W jakim celu przeprowadza się czyszczenie zbioru danych?

Czyszczenie danych pozwala na zidentyfikowanie i korektę błędów. Innymi słowy pozwala na uzyskanie dobrej jakości danych.

Czyszczenie danych pozwala uniknąć sytuacji, w której błędy związane z danymi będą wykrywane przypadkowo podczas analizy danych. Efektywniejsze jest wykrywanie błędów poprzez aktywne poszukiwanie ich w zaplanowany sposób.

Błędy w danych mogą być powodowane m.in. poprzez:

  1. Braki danych
  2. Nieprawidłowo wprowadzone dane
  3. Pominięte dane podczas przenoszenia z kwestionariusza
  4. Zdublowane lub kilkukrotnie powtórzone rekordy (obserwacje)
  5. Dane wprowadzone do niewłaściwego miejsca w zbiorze danych
  6. Nieprawidłowe zakodowanie wartości zmiennej

Co należy zrobić, aby sprawdzić czy dane w naszym zbiorze są poprawne?

Przede wszystkim szukamy danych, które są logicznie niemożliwe, np. może się zdarzyć, że osoba, która wskazała w badaniu, że ma 20 lat i ma jednocześnie 15-letni staż pracy oraz wykrywamy dane odstające.

W tym celu należy przede wszystkim wygenerować tabele częstości. Taka tabela ma nam pokazać, czy w zbiorze znajdują się wartości zmiennych, których nie powinno być, np. w pytaniu mamy 4 kategorie zmiennej, a po wykonaniu tabeli częstości okazuje się, że jest 5 kategorii. Oznacza to, że w danych jest błąd, który należy odszukać i przeanalizować czego on dotyczy.

Po wprowadzeniu zmian należy ponownie wykonać tabelę częstości.

W kolejnym kroku generujemy tabele krzyżowe (kontyngencji) i sprawdzamy nasze dane czy nie pojawiły się błędy logiczne.

Musimy też kierować się naszym doświadczeniem i wcześniejszymi badaniami danego problemu. Może się okazać, że otrzymamy w wyniku analiz nieoczekiwane wyniki czyli takie, które wydają nam się nieprawdopodobne. W takim przypadku należy sprawdzić dane, czy nie znajdują się w nich jakieś błędy. Może nieprawidłowo została zakodowane jakaś zmienna? Może zamiast kobiet, z 1 wprowadzono mężczyzn i odwrotnie? Może dane zostały zważone przez niewłaściwą zmienną, np powiaty zostały zważona przez zmienną dla całego kraju?

Następnie trzeba sprawdzić czy są błędy logiczne w danych, np. może się zdarzyć, że osoba, która wskazała w badaniu, że ma 20 lat i ma jednocześnie 15-letni staż pracy.

Jak postępować z błędnymi danymi?

Błędy w danych należy usunąć, poprzeć, uzupełnić (np. w przypadku braków danych) przyjętym algorytmem.

W danych mogą znaleźć się też wartości odstające, i jeżeli po sprawdzeniu okaże się, że rzeczywiście wystąpiła w badaniu i nie są wynikiem błędu, od osoby analizujący dane zależy czy będzie uwzględniała takie wartości w swoich analizach czy też je pominie.

Gdy już wiemy, jaki charakter mają nasze dane, będziemy pamiętali podczas analizy danych, w jaki sposób je analizować.

Po wykonaniu czyszczenia danych warto przygotować raport, zawierający opis wszystkich działań, jakich dokonaliśmy na danych. Unikniemy w ten sposób zarzutu manipulacji danymi.