Czyszczenie zbioru danych
Weryfikacja zbioru danych
Aby dobrze przeanalizować wyniki zebranych danych należy, po ich wprowadzeniu, sprawdzić poprawność zebranych danych czyli przeprowadzić tzw. czyszczenie zbioru danych.
W jakim celu przeprowadza się czyszczenie zbioru danych?
Czyszczenie danych pozwala na zidentyfikowanie i korektę błędów. Innymi słowy pozwala na uzyskanie dobrej jakości danych.
Czyszczenie danych pozwala uniknąć sytuacji, w której błędy związane z danymi będą wykrywane przypadkowo podczas analizy danych. Efektywniejsze jest wykrywanie błędów poprzez aktywne poszukiwanie ich w zaplanowany sposób.
Błędy w danych mogą być powodowane m.in. poprzez:
- Braki danych
- Nieprawidłowo wprowadzone dane
- Pominięte dane podczas przenoszenia z kwestionariusza
- Zdublowane lub kilkukrotnie powtórzone rekordy (obserwacje)
- Dane wprowadzone do niewłaściwego miejsca w zbiorze danych
- Nieprawidłowe zakodowanie wartości zmiennej
Co należy zrobić, aby sprawdzić czy dane w naszym zbiorze są poprawne?
Przede wszystkim szukamy danych, które są logicznie niemożliwe, np. może się zdarzyć, że osoba, która wskazała w badaniu, że ma 20 lat i ma jednocześnie 15-letni staż pracy oraz wykrywamy dane odstające.
W tym celu należy przede wszystkim wygenerować tabele częstości. Taka tabela ma nam pokazać, czy w zbiorze znajdują się wartości zmiennych, których nie powinno być, np. w pytaniu mamy 4 kategorie zmiennej, a po wykonaniu tabeli częstości okazuje się, że jest 5 kategorii. Oznacza to, że w danych jest błąd, który należy odszukać i przeanalizować czego on dotyczy.
Po wprowadzeniu zmian należy ponownie wykonać tabelę częstości.
W kolejnym kroku generujemy tabele krzyżowe (kontyngencji) i sprawdzamy nasze dane czy nie pojawiły się błędy logiczne.
Musimy też kierować się naszym doświadczeniem i wcześniejszymi badaniami danego problemu. Może się okazać, że otrzymamy w wyniku analiz nieoczekiwane wyniki czyli takie, które wydają nam się nieprawdopodobne. W takim przypadku należy sprawdzić dane, czy nie znajdują się w nich jakieś błędy. Może nieprawidłowo została zakodowane jakaś zmienna? Może zamiast kobiet, z 1 wprowadzono mężczyzn i odwrotnie? Może dane zostały zważone przez niewłaściwą zmienną, np powiaty zostały zważona przez zmienną dla całego kraju?
Następnie trzeba sprawdzić czy są błędy logiczne w danych, np. może się zdarzyć, że osoba, która wskazała w badaniu, że ma 20 lat i ma jednocześnie 15-letni staż pracy.
Jak postępować z błędnymi danymi?
Błędy w danych należy usunąć, poprzeć, uzupełnić (np. w przypadku braków danych) przyjętym algorytmem.
W danych mogą znaleźć się też wartości odstające, i jeżeli po sprawdzeniu okaże się, że rzeczywiście wystąpiła w badaniu i nie są wynikiem błędu, od osoby analizujący dane zależy czy będzie uwzględniała takie wartości w swoich analizach czy też je pominie.
Gdy już wiemy, jaki charakter mają nasze dane, będziemy pamiętali podczas analizy danych, w jaki sposób je analizować.
Po wykonaniu czyszczenia danych warto przygotować raport, zawierający opis wszystkich działań, jakich dokonaliśmy na danych. Unikniemy w ten sposób zarzutu manipulacji danymi.
