Fallstudie – 60 Jahre kantonale Schweizer Wahldaten aus Papierarchiven befreien

Herausforderung

In einem Land wie der Schweiz, wo seit Jahrhunderten auf allen Verwaltungsebenen mit Herzblut Bürokratie betrieben wird, liegen systematisch gesammelte Daten aller Art brach. Daten, welche für die Wissenschaft von einzigartiger Bedeutung sein können, da vergleichbare Informationen in den wenigstens Regionen der Welt so akribisch gesammelt wurden.

Wir Psychologen sind an solchen Daten bisher wenig interessiert. Für Ökonomen und Politwissenschaftler sind diese aber Gold wert. Der Haken an der Sache ist nur, dass der ganz grosse Teil davon vor dem Computer-Zeitalter gesammelt wurde und daher nur auf Papier gespeichert ist.

Wie schafft man sich eine qualitativ einwandfreie digitale Datenbasis auf Grund von Daten, die in grossen Büchern in Archiven liegen und darüber hinaus in jedem Kanton der Schweiz anders aussehen?
Genau dieser Herausforderung stellten sich Prof. Dr. Mark Schelker und Dr. Lukas Schmid, deren Ziel es war, die Resultate der kantonalen Parlamentswahlen der letzten 60 Jahre zu digitalisieren. Cloud solutions konnte die Forscher bei der Entwicklung und Umsetzung einer optimalen technischen Lösung unterstützen.

Ansätze

Selbstverständlich ist die automatische Texterkennung (OCR) relativ weit fortgeschritten. Für die Herausforderung der kantonalen Wahldaten kam OCR aber aus verschiedenen Gründen nicht in Frage:

  • Beim Scannen von dicken Büchern werden die Inhalte in Bundnähe oft verzerrt, bleicher oder sogar leicht abgeschnitten. OCR Softwares können damit nicht umgehen.
  • Tabellen mit vielen Trennlinien sind ebenfalls ein Problem für OCR.
  • Ältere Schriftstile haben eine schlechtere Erkennungsrate.

Das Nachkorrigieren von schlechten OCR Daten wäre eine Möglichkeit gewesen. Dies wird aber schnell aufwändiger, als die direkte Eingabe der Daten aus einem einfachen Scan und führt mit hoher Wahrscheinlichkeit dazu, dass falsch erkannter Text als Fehler in die Datenmatrix gelangt.
Es blieb also nur die manuelle Erfassung. Dazu würde man traditionellerweise wohl Excel benutzen, was aber verschiedene Probleme mit sich bringt:

  • Arbeit dieser Art ist durch ihre repetitive Natur eher fehleranfällig, Excel bietet keine Unterstützung dabei, verschiedene Fehlerquellen wie Zeilenverschiebungen, falsche Eingaben, falsche Zuordnung, etc. zu vermeiden.
  • Das manuelle Zusammenführen vieler einzelner Excel Dateien stellt eine weitere Fehlerquelle dar.
  • Bei vielen auf mehrere Erfasser verteilten Excel-Dateien ist keine laufende Kontrolle über den Stand der Erfassung und die Qualität der Daten möglich.

Umgesetzte Lösung

Die mit dem Kunden in gemeinsamer Denkarbeit entwickelte und durch CS programmierte Lösung hatte zum Ziel, die jeweiligen Stärken von Technik und Mensch zu vereinen, um so die Qualität der Daten zu maximieren. Das entwickelte System hatte folgende Merkmale:

  • Klar strukturierte, software-geführte Erfassung der Daten.
  • Vermeidung von redundanter Erfassung durch Auftrennen in mehrere Erfassungsebenen (Kanton, Bezirkswahljahr, Kandidaten).
  • Gewisse vorerfasste Daten, die bereits korrekt zur Auswahl gestellt werden konnten.
  • Datenvalidierung bei Eingabe.
  • Eingebaute Qualitätschecks (Vergleich von perfekten, vorerfassten Datensätzen mit den eingegebenen Daten).
  • Sorgfältige Instruktion und Support der ErfasserInnen.
  • Zusätzliche manuelle Stichprobenkontrollen durch das Forscherteam.

Auf diese Weise wurden Ende 2014 / Anfang 2015 durch 30 ErfasserInnen in höchst zufrieden stellender Qualität an die 190’000 Kandidierende erfasst, verteilt auf 60 Jahre, 4000 Wahlbezirke und 15’000 Listen.

 

How the internet changes us and our science

In recent years web-based scientific research is expanding and reinventing itself constantly. Publications and research articles in the Journal of Personality and Social Psychology conducted via web-based tools have relatively increased by about 543% from 2008 to 2009 (Denissen, Neumann, van Zalk, 2010).

With almost near-universal internet access in most of the developed world (e.g. 90 % of Sweden’s population has daily access to the internet as the Internet World Stats report 2001 to 2009 shows), the newest technology does not only affect us on a daily basis, but also shapes our daily social interactions and the way in which we conduct research. In addition to psychological offline data collection via questionnaires and experiments for instance, web-based research through online surveys, apps and special web applications is able to facilitate and amplify our scientific data collection.

Therefore, making use of these new technological opportunities, research in psychology and other humanity sciences has become more virtual and online based. We collect data about us and the world around us online, answer questionnaires on our phones while traveling home or participate in diary studies before going to bed.

Online web-based data collection offers many advantages to scientific research. Most importantly:

  1. Data can be collected more easily and economically.
  2. Entered data can be validated in real time and the user can be prompted for correction.
  3. Data anonymity can be guaranteed if researchers assure the anonymous and separate storage of participants’ answers and their ID codes.
  4. Researchers can reach a more representative sample much easier, especially if distributing their surveys via various social media platforms.

In their brilliant article on “How the internet is changing the implementation of traditional research methods, people’s daily lives, and the way in which developmental scientists conduct research” Denissen, Neumann and van Zalk (2010) explain chances and challenges the new generation of online research provides. They explain why web-based research has risen to such popularity in the past decade and what is needed to conduct it.

The authors do not avoid the challenges of these new possibilities either. Challenges that range from secure storage of participants’ data, secure data transmission, online communication and the need for extensive testing and debugging of online tools.

Hand in hand with these opportunities comes a change. A change in how we interact with other people in our offline world. The frequent use of technology and internet does shape our interpersonal communication and interactions as many researchers of the field of cyberpsychology underline. The massive wealth of data individuals leave on the internet, particularly on social media platforms, such as Facebook or Google+ are used to investigate personality factors and their impact on various outcomes. The existence of this data enables scientists to investigate all kinds of hypotheses, ranging from how personality affects consumer behavior to how the use of social media is associated with depression and loneliness.

For those interested in more information on the advantages and pitfalls of online data collection, we highly recommend reading Dennissen, Neumann and van Zalk’s (2010) article.