Forschungsdaten

Von Patrick Brookshire und Marjam Trautmann

01 Was sind Daten?

  • unstrukturierte Daten
  • semi-strukturierte Daten
  • strukturierte Daten

Metadaten: Daten über Daten

  • Normdaten
  • Objektmetadaten (administrativ, strukturell, technisch, deskriptiv)
  • Das Metadaten-Universum
Aus dem Metadaten-Universum
  • METS/MODS: administrative und strukturelle Eigenschaften, bibliografische Beschreibung
  • Dublin Core: Empfehlung zur Beschreibung von Objekten
  • OAI-PMH: Schnittstellenstandard zum Austausch von Metadaten
  • MEI/TEI: Richtlinien zur standardisierten Strukturierung von Musik/Text-Objekten

02 Wie nutze ich Daten?

Wofür sammle ich Daten?

  • Literatur- und Quellenrecherche im OPAC
  • Erfassung von Literatur in Zotero oder Citavi
  • Exzerpieren unstrukturierter Daten in Tabellen
  • Statistische Verfahren
  • Netzwerkanalysen
  • u.v.m.

Datensammlungen

  • curation-driven
  • research-driven

Wie erstelle ich eine forschungsgeleitete Datensammlung?

  • Was ist Gegenstand der Datensammlung?
  • Welche Informationen zu dem gesamten Gegenstandsbereich gibt es?
  • Welche Datensätze wähle ich nach welcher Strategie für meine Datensammlung aus?
  • Sammeln, Zusammenführen und Säubern der Datensätze
  • Erheben und Hinzufügen von Informationen über die Daten
  • Publikation der Datensammlung

Eine Datensammlung ist eine mögliche Repräsentation des untersuchten Gegenstands/Phänomens! Datenkritik ist ein zentraler und stetig begleitender Aspekt in der datengeleiteten Forschung.

Wo finde ich digitale Daten?

Reguläre Ausdrücke (‘Regular Expressions’, ‘RegEx’)

  • sind eine formale Sprache zum Auffinden (komplexer) Zeichenfolgen
  • werden von allen Programmiersprachen, den meisten Texteditoren und auch gängigen Textverarbeitungsprogrammen unterstützt (und es gibt auch Onlinetester wie regex101.com)

RegEx-Cheatsheet

Basiselemente
Bezeichnung Beispiel Erläuterung
Character a Das Zeichen a
Escaped Character \. Das Zeichen . (Die Zeichen \ . ^ $ | + * ? ( ) [ ] { } müssen escaped werden)
Wildcard . ein beliebiges Zeichen
Character Classes und Logische Ausdrücke
Bezeichnung Beispiel Erläuterung
Character Class [ab-] Das Zeichen a, b oder -
Character Range [a-z] Das Zeichen a, b, c, … oder z (Kurzschreibweise für eine Character Class aus Zeichen, die in der ASCII-Tabelle aufeinanderfolgen.)
logisches Oder `a b
logisches Nicht [^ab] ein beliebiges Zeichen außer a und b

Hinweise:

  • Character Classes und Character Ranges lassen sich kombinieren (z.B. [A-ZÄÖÜa-zäöüß]). Daher sollte das Zeichen - stets am Anfang oder Ende stehen ([-ab] und [ab-] finden a, b und -, [a-b] jedoch nur a und b) .
  • Innerhalb von Character Classes muss nicht escaped werden (d.h. [.,;:()] findet die entsprechenden Satzzeichen)
Quantifiers
Bezeichnung Beispiel Erläuterung
“Exact Quantifier” a{2} zweimal das Zeichen a
“Min Quantifier” a{2,} mindestens zweimal das Zeichen a
“Min/Max Quantifier” a{2,3} zwei- bis dreimal das Zeichen a
? Quantifier a? ein- oder keinmal das Zeichen a (Kurzschreibweise von a{0,1})
+ Quantifier a+ mindestens einmal das Zeichen a (Kurzschreibweise von a{1,})
* Quantifier a* keinmal oder beliebig oft das Zeichen a (Kurzschreibweise von a{0,})

Hinweis: Jeder Quantifier-Ausdruck wird durch angehängtes ? lazy (d.h. findet die kürzeste passende Zeichenfolge). So findet etwa a+ im Text aaa genau einmal aaa, während a+? dreimal a findet.

Groups und Backreferences
Bezeichnung Beispiel Erläuterung
Group (ab) die Zeichenfolge ab
Backreference $1 bzw. \1 der Inhalt der ersten Gruppe (je nach Programmiersprache/Tool wird entweder $ oder __ verwendet)

Hinweis: Groups ermöglichen auch logische oder Quantifier-Ausdrücke, die mehrere Zeichen umfassen (z.B. C(ä|ae)sar oder ([Mm]a){2}).