Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

07.10.2020 | International Summer School 2020, ADW Mainz

Daten in den Geistes- und Kulturwissenschaften

https://studiengang-digitale-methodik.pages.gitlab.rlp.net/modul-5/5c/slides/daten

Patrick D. Brookshire, Marjam Trautmann
Documentation | GitLab

Table of Contents

  1. Was sind Daten?
  2. Wie arbeitet man mit Daten?
  3. Daten Hands-on

01

Was sind Daten?

Kleine Aktivierungsrunde: Was fällt euch zum Begriff Daten ein?

Schreibt es (anonym) hier auf.

UmllZCwgMTAuIFZJSSAxNS4KTGllYmVyIFdhbGRlbiwKCmljaCBoYWJlIGthdW0gamUgc28gc29uZGVyYmFyZSBUYWdlIGVybGVidCBhbHMgZGllc2VuIFVybGF1Yi4gQWxsZXMgc2NoZWludCBtaXIgbmV1IHUuIGfDpG56bGljaCB1bndhaHJzY2hlaW5saWNoLCB1bmQgZG9jaCBzbyBzY2jDtm4hIEFtIDE3LiBiaW4gaWNoIHdpZWRlciBiZWkgZGVyIFRydXBwZS4g4oCTIFdhcyBpc3QgZWlnZW50bGljaCBtaXQgZGVyIEp1bGlyYXRlIGRlcyBLdWhiaWxkZXM/IFdpciB3YXJ0ZW4gdW5nZWR1bGRpZyBkYXJhdWYsIGRhIHdpciBtaXQgZGVtIEdlbGQgYmVzdGltbXQgcmVjaG5lbiB1LiBpbiBWZXJsZWdlbmhlaXQga29tbWVuLiBBbHNvIGxhc3NlbiBTaWUgbWVpbmUgRnJhdSBkYW1pdCB1bSBHb3R0ZXN3aWxsZW4gbmljaHQgaW0gU3RpY2guIOKAkyBEaWUgRGVsYWNyb2l4IERydWNrZSBnZWhlbiBpbiBkaWVzZW4gVGFnZW4gYW4gU2llIHNpZ25pcnQgdS4gbnVtZXJpcnQgYWIuIEhvZmZlbnRsaWNoIGdlbGluZ2VuIGF1Y2ggd2llZGVyIGVpbm1hbCBEcnVja3ZlcmvDpHVmZS4KCkhyemwuIEdyw7zDn2UgSWhuZW4gYmVpZGVuIElociBGei4gTWFyYw==

Decode here

Ried, 10. VII 15.
Lieber Walden, ich habe kaum je so sonderbare Tage erlebt als diesen Urlaub. Alles scheint mir neu u. gänzlich unwahrscheinlich, und doch so schön! Am 17. bin ich wieder bei der Truppe. – Was ist eigentlich mit der Julirate des Kuhbildes? Wir warten ungeduldig darauf, da wir mit dem Geld bestimmt rechnen u. in Verlegenheit kommen. Also lassen Sie meine Frau damit um Gotteswillen nicht im Stich. – Die Delacroix Drucke gehen in diesen Tagen an Sie signirt u. numerirt ab. Hoffentlich gelingen auch wieder einmal Druckverkäufe.
Hrzl. Grüße Ihnen beiden Ihr Fz. Marc

Ried, 10. VII 15.
Lieber Walden, ich habe kaum je so sonderbare Tage erlebt als diesen Urlaub. Alles scheint mir neu u. gänzlich unwahrscheinlich, und doch so schön! Am 17. bin ich wieder bei der Truppe. – Was ist eigentlich mit der Julirate des Kuhbildes? Wir warten ungeduldig darauf, da wir mit dem Geld bestimmt rechnen u. in Verlegenheit kommen. Also lassen Sie meine Frau damit um Gotteswillen nicht im Stich. – Die Delacroix Drucke gehen in diesen Tagen an Sie signirt u. numerirt ab. Hoffentlich gelingen auch wieder einmal Druckverkäufe.
Hrzl. Grüße Ihnen beiden Ihr Fz. Marc

Named Entity Typ
Ried Ort
10. VII 15. Datum
Walden Person
17. Datum
Kuhbildes Werk
Frau Person
Delacroix Drucke Werk
Fz. Marc Person

Die Personen im STURM

Metadaten: Daten über Daten

Aus dem Metadaten-Universum

02

Wie benutze ich Daten?

Wofür sammle ich Daten?

Datensammlungen

curation-driven

research-driven

15 Minuten PAUSE

Wie erstelle ich eine forschungsgeleitete Datensammlung?

  1. Was ist Gegenstand der Datensammlung? „Ich interessiere dafür, mit wem die Dichterin Else Lasker-Schüler in Kontakt stand“
  2. Welche Informationen zu dem gesamten Gegenstandsbereich gibt es? → u.a. archivalische Überlieferungen, Editionen, Monografien
  3. Welche Datensätze wähle ich für meine Datensammlung aus? → Strategie: frei verfügbar, selber Standard, strukturiert und mit Informationen zu Personenkontakten Else Lasker-Schülers
  4. Sammeln, Zusammenführen und Säubern der Datensätze
  5. Erheben und Hinzufügen von Informationen über die Daten (z.B. über Normdaten)
  6. Publikation der Datensammlung

Ganz wichtig:

Eine Datensammlung ist eine mögliche Repräsentation des untersuchten Gegenstands/Phänomens!

Datenkritik ist ein zentraler und stetig begleitender Aspekt in der datengeleiteten Forschung.

Wo finde ich digitale Daten?

03

Praxisübung

Inhalt Praxisübung

Suche nach Else Lasker-Schüler über die Kalliope-Schnittstelle

Reguläre Ausdrücke ("RegEx")

von unbekannt bis (.+), (.+) (\([0-9]{4}.*)

Regex-Cheatsheet

Basiselemente

Bezeichnung Beispiel Erläuterung
Character a das Zeichen a
Escaped Character* \. das Zeichen .
Wildcard . ein beliebiges Zeichen

*Hinweis: \ . ^ $ | + * ? ( ) [ ] { } müssen mit \ escaped werden!

Regex-Cheatsheet

Character Classes und Logische Ausdrücke

Bezeichnung Beispiel Erläuterung
Character Class* [ab-] a, b oder -
Character Range [a-z], [0-9] ein Kleinbuchstabe (ohne Sonderzeichen) bzw. eine Zahl
logisches Oder a|b|- a, b oder -
logisches Nicht [^ab] ein beliebiges Zeichen außer a und b

*Hinweis: In Klassen muss nicht escaped werden (z.B. [.,;]), dafür darf - nur an erster oder letzter Stelle stehen!

Regex-Cheatsheet

Quantifiers

Beispiel Erläuterung
a{2} genau zweimal a
a{2,} mindestens zweimal a
a{2,3} mindestens zwei- und höchstens dreimal mal a
a? entspricht a{0,1}
a+ entspricht a{1,}
a* entspricht a{0,}

Hinweis: Quantifier werden durch angehängtes ? lazy (d.h. finden die kürzeste passende Zeichenfolge)

RegEx-Übungen

Suchen

... im Onlinetool mit den Daten

Regex-Cheatsheet

Groups und Backreferences

Bezeichnung Beispiel Erläuterung
Group (ab) Die Zeichenfolge ab als Gruppe
Backreference* $1 bzw. \1 Inhalt der ersten Gruppe

*Hinweis: Einige Programmiersprachen und Tools verwenden $, andere \

RegEx-Übungen

Suchen und Ersetzen

... im Onlinetool mit den Daten

  1. Normalisiere die Bezeichnung aller unbekannten Personen
    RegEx [uU]nbekannt.* und Substitution unbekannt
  2. Entferne den Hinweis [mutmaßlich]
    RegEx \[mutmaßlich\] und Substitution leer lassen
  3. Entferne Datierungen
    RegEx \([0-9]{4}-([0-9]{4})?\) und Substitution leer lassen
  4. Tausche Vor- und Nachnamen
    RegEx (.+), (.+) und Substitution $2 $1 (bzw. \2 \1)

RegEx-Übungen für zuhause (1)

... im Onlinetool mit den Daten

RegEx-Übungen für zuhause (2)

... im Onlinetool mit den Daten

Weiterführende Links

  • https://www.openarchives.org/pmh/
  • https://regex101.com/
  • https://programminghistorian.org/en/lessons/understanding-regular-expressions

THE END

Vielen Dank für Ihre Aufmerksamkeit