bevor man mit einer datenanalyse beginnt, sollte man den datensatz bereinigen. eine unterschätzte fehlerquelle beim umgang mit großen datensätzen ist das doppelte lottchen - datenzeilen mit identischen inhalt. insbesondere bei quantitativen analysen können sie das ergebnis der auswertung verzerren. daher ist es ratsam diese vorher zu identifizieren und gegebenenfalls zu entfernen. in google refine (aka. open refine) lässt sich das wie folgt realisieren.
das beispiel: mein datensatz enthält drei doppler – die doppler weisen dabei unterschiede in der schreibweise (groß- / kleinschreibung) auf. inhaltlich sind die doppler jedoch identisch. diese will ich nun entfernt. dazu geh ich wie folgt vor:

die einzelnen schritte: ich werde zunächst die daten sortieren. dazu wähle ich aus dem dropdown menü der spalte “Daten” die option sort aus.

eine neue eingabemaske erscheint. hier definiere ich den sortiermodus für den inhalt. da der datensatz überwiegend textbausteine enthält, wähle ich die option text aus. wenn der datensatz nur zahlen enthalten würde, wäre die option numbers geeigneter. abschließend wähle ich die reihenfolge der sortierung a-z und bestätige meine auswahl mit ok.

nach der transformation befinden sich die doppler untereinander. diese reihenfolge übernehme ich und verwerfe somit die alte. hierzu wähle ich aus dem dropdown menü die option “Sort” und anschließend die auswahl reorder rows permanently aus.

im nächsten schritt werde ich ich die datenzeilen mit identischen inhalt leeren. dazu wähle ich aus dem dropdown menü der spalte “Daten” die option edit cells und dann die funktion blank down cells aus.

das ergebnis ist mehr als unbefriedigend. lediglich ein doppler wurde erfolgreich entfernt. offenbar genügt bereits eine abweichung in der schreibweise (groß- / kleinschreibung), um die erkennung von dopplern zunichte zu machen. aus semiotischer sicht mag das korrekt sein – aus semantischer sicht allerdings unbrauchbar. somit muss ich nun tricksen, um das gewünschte ergebnis zu erhalten.

ich klicke in der menüleiste auf “Undo/Redo“, um meine letzte transformation rückgängig zu machen. dafür wähle ich aus dem log die auswahl reorder rows.

danach wähle ich aus dem dropdown menü der spalte “Daten” die option edit cells, common transforms und anschließend die option to uppercase aus. der befehl transformiert den gesamten inhalt aller zellen in großbuchstaben. inhaltlich gehen dabei keine informationen verloren.
das ergebnis der transformation sieht nun so aus.

nun werde ich erneut die zeilen mit den identischen einträgen leeren. dazu wähle ich aus dem dropdown menü der spalte “Daten” die option edit cells und anschließend den befehl blank down cells aus.

das ergebnis der neuen transformation kann sich sehen lassen. die doppler wurden entfernt. dafür verunreinigen nun mehrere leere datenzeilen meinen datensatz.

diese werde ich im nächsten schritt gezielt entfernen. hierfür wähle ich aus dem dropdown menü der spalte “Daten” die option facet, customized facets und dann den befehl facet by blank aus.
in der erweiterten menüleiste – links – sehe ich das ergebnis der prozedur. es wurden fünf leere datenzeilen gefunden. durch klicken auf true aktiviere ich diese auswahl, die ich jetzt gezielt in der datenansicht betrachten kann.
und so löscht man die leeren datenzeilen – hierzu wähle ich aus dem dropdown menü der spalte “All” die option edit rows und dann die funktion remove all matching rows aus. somit werden die aktiven datenzeilen gezielt aus dem datensatz entfernt.

das finale ergebnis der datenbereinigung sieht nun so aus. keine doppler oder leere datenzeilen. und so sieht die vollständige datenbereinigung in echtzeit aus.
