Forschungsdaten - International Summer School - Studiengang Digitale Methodik Mainz

Bearbeite diese Seite

Forschungsdaten

Von Patrick Brookshire und Marjam Trautmann

Präsentationsfolien zu diesem Thema

https://studiengang-digitale-methodik.pages.gitlab.rlp.net/modul-5/5c/slides/daten/

01 Was sind Daten?

unstrukturierte Daten
semi-strukturierte Daten
strukturierte Daten

Metadaten: Daten über Daten

Normdaten
Objektmetadaten (administrativ, strukturell, technisch, deskriptiv)
Das Metadaten-Universum

Aus dem Metadaten-Universum

METS/MODS: administrative und strukturelle Eigenschaften, bibliografische Beschreibung
Dublin Core: Empfehlung zur Beschreibung von Objekten
OAI-PMH: Schnittstellenstandard zum Austausch von Metadaten
MEI/TEI: Richtlinien zur standardisierten Strukturierung von Musik/Text-Objekten

02 Wie nutze ich Daten?

Wofür sammle ich Daten?

Literatur- und Quellenrecherche im OPAC
Erfassung von Literatur in Zotero oder Citavi
Exzerpieren unstrukturierter Daten in Tabellen
Statistische Verfahren
Netzwerkanalysen
u.v.m.

Datensammlungen

curation-driven
research-driven

Wie erstelle ich eine forschungsgeleitete Datensammlung?

Was ist Gegenstand der Datensammlung?
Welche Informationen zu dem gesamten Gegenstandsbereich gibt es?
Welche Datensätze wähle ich nach welcher Strategie für meine Datensammlung aus?
Sammeln, Zusammenführen und Säubern der Datensätze
Erheben und Hinzufügen von Informationen über die Daten
Publikation der Datensammlung

Eine Datensammlung ist eine mögliche Repräsentation des untersuchten Gegenstands/Phänomens! Datenkritik ist ein zentraler und stetig begleitender Aspekt in der datengeleiteten Forschung.

Wo finde ich digitale Daten?

Digitale Editionen, CorrespSearch, Wikidata, GND
Digitale Sammlungen wie Europeana und einzelner Bibiliotheken
Kalliope-Verbundkatalog für Nachlässe

Reguläre Ausdrücke (‘Regular Expressions’, ‘RegEx’)

sind eine formale Sprache zum Auffinden (komplexer) Zeichenfolgen
werden von allen Programmiersprachen, den meisten Texteditoren und auch gängigen Textverarbeitungsprogrammen unterstützt (und es gibt auch Onlinetester wie regex101.com)

RegEx-Cheatsheet

Basiselemente

Bezeichnung	Beispiel	Erläuterung
Character	`a`	Das Zeichen a
Escaped Character	`\.`	Das Zeichen `.` (Die Zeichen \ . ^ $ \| + ? ( ) [ ] { }* müssen escaped werden)
Wildcard	`.`	ein beliebiges Zeichen

Character Classes und Logische Ausdrücke

Bezeichnung	Beispiel	Erläuterung
Character Class	`[ab-]`	Das Zeichen a, b oder -
Character Range	`[a-z]`	Das Zeichen a, b, c, … oder z (Kurzschreibweise für eine Character Class aus Zeichen, die in der ASCII-Tabelle aufeinanderfolgen.)
logisches Oder	`a	b
logisches Nicht	`[^ab]`	ein beliebiges Zeichen außer a und b

Hinweise:

Character Classes und Character Ranges lassen sich kombinieren (z.B. [A-ZÄÖÜa-zäöüß]). Daher sollte das Zeichen - stets am Anfang oder Ende stehen ([-ab] und [ab-] finden a, b und -, [a-b] jedoch nur a und b) .
Innerhalb von Character Classes muss nicht escaped werden (d.h. [.,;:()] findet die entsprechenden Satzzeichen)

Quantifiers

Bezeichnung	Beispiel	Erläuterung
“Exact Quantifier”	`a{2}`	zweimal das Zeichen a
“Min Quantifier”	`a{2,}`	mindestens zweimal das Zeichen a
“Min/Max Quantifier”	`a{2,3}`	zwei- bis dreimal das Zeichen a
? Quantifier	`a?`	ein- oder keinmal das Zeichen a (Kurzschreibweise von `a{0,1}`)
+ Quantifier	`a+`	mindestens einmal das Zeichen a (Kurzschreibweise von `a{1,}`)
* Quantifier	`a*`	keinmal oder beliebig oft das Zeichen a (Kurzschreibweise von `a{0,}`)

Hinweis: Jeder Quantifier-Ausdruck wird durch angehängtes ? lazy (d.h. findet die kürzeste passende Zeichenfolge). So findet etwa a+ im Text aaa genau einmal aaa, während a+? dreimal a findet.

Groups und Backreferences

Bezeichnung	Beispiel	Erläuterung
Group	`(ab)`	die Zeichenfolge ab
Backreference	`$1` bzw. `\1`	der Inhalt der ersten Gruppe (je nach Programmiersprache/Tool wird entweder $ oder __ verwendet)

Hinweis: Groups ermöglichen auch logische oder Quantifier-Ausdrücke, die mehrere Zeichen umfassen (z.B. C(ä|ae)sar oder ([Mm]a){2}).