#ddj twitter gossip

#ddj twitter gossip – top 10 links °februar 2013

wie setzt sich diese übersicht zusammen?

die übersicht resultiert aus einer kontinuierlichen sammlung und auswertung von tweets, in denen das hashtag #ddj vorkommt. alle links, die in den gesammelten tweets vorkommen, werden isoliert und anschließend ausgezählt. die tweets werden ausschließlich für die erstellung der rangliste verwendet. da diese rangliste nur tweets berücksichtigt, die das hashtag #ddj nutzen, erhebt sie keinen anspruch auf vollständigtkeit.

1. La carte interactive du patrimoine historique d’Ille-et-Vilaine

2. What the Tesla Affair Tells us About Data Journalism

3. Teach Data Science

4. 10 Tools for Creating Infographics and Visualizations

5. Datenjournalismus im Januar 2013

6. EU Commission Launches Open Data Portal

7. Seven dirty secrets of data visualisation

8. OKFN: Labs Projects

9. New digital tools for journalists: 10 to learn

10. Opendata + Wikipédia + Github = datajournalisme local

google refine tutorials

google refine tutorial: doppelte zeileneinträge in spalten löschen

bevor man mit einer datenanalyse beginnt, sollte man den datensatz bereinigen. eine unterschätzte fehlerquelle beim umgang mit großen datensätzen ist das doppelte lottchen - datenzeilen mit identischen inhalt. insbesondere bei quantitativen analysen können sie das ergebnis der auswertung verzerren. daher ist es ratsam diese vorher zu identifizieren und gegebenenfalls zu entfernen. in google refine (aka. open refine) lässt sich das wie folgt realisieren.

das beispiel:
mein datensatz enthält drei doppler – die doppler weisen dabei unterschiede in der schreibweise (groß- / kleinschreibung) auf. inhaltlich sind die doppler jedoch identisch. diese will ich nun entfernt. dazu geh ich wie folgt vor:

google refine doppelte zeilen loeschen

die einzelnen schritte: ich werde zunächst die daten sortieren. dazu wähle ich aus dem dropdown menü der spalte “Daten” die option sort aus.

google refine doppelte zeilen loeschen 02
eine neue eingabemaske erscheint. hier definiere ich den sortiermodus für den inhalt. da der datensatz überwiegend textbausteine enthält, wähle ich die option text aus. wenn der datensatz nur zahlen enthalten würde, wäre die option numbers geeigneter. abschließend wähle ich die reihenfolge der sortierung a-z und bestätige meine auswahl mit ok.

google refine doppelte zeilen loeschen 03
nach der transformation befinden sich die doppler untereinander. diese reihenfolge übernehme ich und verwerfe somit die alte. hierzu wähle ich aus dem dropdown menü die option “Sort” und anschließend die auswahl reorder rows permanently aus.

google refine doppelte zeilen loeschen 04

im nächsten schritt werde ich ich die datenzeilen mit identischen inhalt leeren. dazu wähle ich aus dem dropdown menü der spalte “Daten” die option edit cells und dann die funktion blank down cells aus.

google refine doppelte zeilen loeschen 05

das ergebnis ist mehr als unbefriedigend. lediglich ein doppler wurde erfolgreich entfernt. offenbar genügt bereits eine abweichung in der schreibweise (groß- / kleinschreibung), um die erkennung von dopplern zunichte zu machen. aus semiotischer sicht mag das korrekt sein – aus semantischer sicht allerdings unbrauchbar. somit muss ich nun tricksen, um das gewünschte ergebnis zu erhalten.

google refine doppelte zeilen loeschen
ich klicke in der menüleiste auf “Undo/Redo“, um meine letzte transformation rückgängig zu machen. dafür wähle ich aus dem log die auswahl  reorder rows.

google refine doppelte zeilen loeschen 07
danach wähle ich aus dem dropdown menü der spalte “Daten” die option edit  cells, common transforms und anschließend die option to uppercase aus. der befehl transformiert den gesamten inhalt aller zellen in großbuchstaben. inhaltlich gehen dabei keine informationen verloren.
google refine doppelte zeilen loeschen 08 das ergebnis der transformation sieht nun so aus.

google refine doppelte zeilen loeschen 09

nun werde ich erneut die zeilen mit den identischen einträgen leeren. dazu wähle ich aus dem dropdown menü der spalte “Daten” die option edit cells und anschließend den befehl blank down cells aus.

google refine doppelte zeilen loeschen 05
das ergebnis der neuen transformation kann sich sehen lassen. die doppler wurden entfernt. dafür verunreinigen nun mehrere leere datenzeilen meinen datensatz.

google refine doppelte zeilen loeschen 10
diese werde ich im nächsten schritt gezielt entfernen. hierfür wähle ich aus dem dropdown menü der spalte “Daten” die option facet, customized facets und dann den befehl facet by blank aus.

google refine doppelte zeilen loeschen 11in der erweiterten menüleiste – links – sehe ich das ergebnis der prozedur. es wurden fünf leere datenzeilen gefunden. durch klicken auf true aktiviere ich diese auswahl, die ich jetzt gezielt in der datenansicht betrachten kann.

google refine doppelte zeilen loeschen 12und so löscht man die leeren datenzeilen – hierzu wähle ich aus dem dropdown menü der spalte “All” die option edit rows und dann die funktion remove all matching rows aus. somit werden die aktiven datenzeilen gezielt aus dem datensatz entfernt.

google refine doppelte zeilen loeschen 13

das finale ergebnis der datenbereinigung sieht nun so aus. keine doppler oder leere datenzeilen. und so sieht die vollständige datenbereinigung in echtzeit aus.

google refine doppelte zeilen loeschen 14

 

#ddj twitter gossip

#ddj twitter gossip – top 10 links °januar 2013

wie setzt sich diese übersicht zusammen?

die übersicht resultiert aus einer kontinuierlichen sammlung und auswertung von tweets, in denen das hashtag #ddj vorkommt. alle links, die in den gesammelten tweets vorkommen, werden isoliert und anschließend ausgezählt. die tweets werden ausschließlich für die erstellung der rangliste verwendet. da diese rangliste nur tweets berücksichtigt, die das hashtag #ddj nutzen, erhebt sie keinen anspruch auf vollständigtkeit.

1. Guardian Dataset – the complete index

2. Four keys to building successful data-journalism teams

3. Lessons learned from building a data journalism team

4. The 2013 Data Journalism Awards

5. GEMA versus YouTubes Top 1.000

6. 2012 In Data Visualizations

7. “Carbon dioxide data is not on the world’s dashboard” says Hans Rosling

8. Datavisualization: A Carefully Selected List of Recommended Tools

9. Journalism++ welcomes Stockholm team

10. BUDGET.gov.ro

grafiken heimatdaten

heimatdaten: eheschließungen vs. scheidungen in deutschland

1950 trauten sich noch über 750.452 paare den bund der ehe einzugehen. 60 jahre später ist die begeisterung für die ehe merklich zurückgegangen. 2011 wagten gerade noch 377.816 paare den gang zum standesamt. eine ehe ist heute keine voraussetung mehr für die existenzsicherung oder gar die familiengründung.

#ddj twitter gossip

#ddj twitter gossip – top 10 links °dezember 2012

wie setzt sich diese übersicht zusammen?

die übersicht resultiert aus einer kontinuierlichen sammlung und auswertung von tweets, in denen das hashtag #ddj vorkommt. alle links, die in den gesammelten tweets vorkommen, werden isoliert und anschließend ausgezählt. die tweets werden ausschließlich für die erstellung der rangliste verwendet. da diese rangliste nur tweets berücksichtigt, die das hashtag #ddj nutzen, erhebt sie keinen anspruch auf vollständigtkeit.

1.  Six ways data journalism is making sense of the world, around the world

2. The 2013 Data Journalism Awards

3. Datajournalisme et presse locale : 7 exemples made in USA

4. Cuánto gastó el municipio en medios digitales en 2012

5. 83.000 dépenses de la Commission européennes cartographiées avec GFT

6. Les dépenses de la Commission européenne

7. From sensor journalism to lean government to preemptive health care, 2013 will be interesting

8. Eine Weltkarte der Amokläufe an Schulen

9. 67 journalists killed in 2012 while reporting the news

10.  MA in Politikwissenschaft: Politischer Datenjournalismus

grafiken

jesus noch vor peer steinbrück aber hinter horst seehofer

beim experimentieren mit der zeit online api kann man auch mal vom pfad abkommen. ich bin bei den 11.570 keywords versackt, die zur verschlagwortung der artikel genutzt werden und theoretisch auch als externe annotations-quelle einsetzbar wären. diese gliedern sich in vier kategorien auf: location (1.176), person (5.747), organization (1.002) und subject (3.645). je häufiger ein keyword zur verschlagwortung genutzt wird, umso höher der score (api dokumentation: “Keywords are weighted by their overall frequency with a score from 0 to 100.”).
die vorderen pläze sind keine überraschung. irriert hat mich die position 18 – jesus. knapp hinter horst seehofer (position 17) aber deutlich vor peer steinbrück (position 58), der vermutlich bis zur wahl sein ranking deutlich verbessern wird.

grafiken

seit 1977 wurden 1.320 menschen in den usa hingerichtet

seit 1977 wurden 1.320 menschen in den USA hingerichtet