Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

12.10.2022 | Akademie der Wissenschaten und der Literatur | Mainz

ISS 2022

Stimmungen im Metaversum

Sentimentanalyse historischer Daten

Slides: https://studiengang-digitale-methodik.pages.gitlab.rlp.net/modul-5/5c/slides/sentimentanalyse/2022/

Patrick D. Brookshire | @digicademy | Twitter digicademy | CC-BY 4.0

Inhalt

  1. Sentimentanalyse | Allgemein
  2. Sentimentanalyse historischer Daten

1.

Sentimentanalyse | Allgemein

Sentimentanalyse | Allgemein

Definition

the computational study of people’s opinions, appraisals, attitudes, and emotions toward entities, individuals, issues, events, topics, and their attributes.

Liu (2010)

Sentimentanalyse | Allgemein

Beispiele

  • Ich liebe Sonnenuntergänge.
  • Ich hasse Aspest.
  • Heute ist Mittwoch.
  • 🙂
  • 🙁

Sentimentanalyse | Allgemein

Analyseziele

WAS soll untersucht/verglichen werden?

Lemmata/Entitäten/Topics

Nalisnick & Baird (2013)

Textverläufe/Zeitreihen

Marcec & Likić (2021)

Sentimentanalyse | Allgemein

Datentypen

WIE soll annotiert/bewertet werden?

Polaritätswerte

  • binär:
    👎 vs. 👍
  • skaliert:
    🙁 🙂

Vektorräume

Buechel et al. (2016)

Sentimentanalyse | Allgemein

Einschub: Terminologie

Sentimentanalyse

  • untersucht Polarität von Meinungen
    • binär:
      👎 vs. 👍
    • skaliert:
      🙁 🙂

Emotionsanalyse

  • operationalisiert psychologische Modelle
  • Klinger & Oberländer (2020)

Sentimentanalyse | Allgemein

Analyseebenen

WAS soll annotiert/bewertet werden?

ganze Dokumente

  • v. a. bei Tweets, Rezensionen etc.
  • zur groben Clusterung

Sätze

  • v.a. bei längeren Texten
  • Segmentierungsproblem

feste Spans

  • Sliding Windows bei längeren Texten
  • Keyword in Context (KWIC):
  • weil kleine Katzen einfach süß

Sentimentanalyse | Allgemein

Operationalisierungsmöglichkeiten

WER annotiert/bewertet?

manuelle Annotation

  • hohe Qualität (Goldstandard)
  • hoher Arbeitsaufwand
  • Inter-Annotator-Agreement

Lexikon (+ Regeln)

  • seit späten 90ern
  • hohe Interpretierbarkeit
  • Out-of-Vocabulary
  • Domänenadaption

Sprachmodell

  • seit Pang et al. (2002)
  • kann alles annotieren
  • Interpretierbarkeit
  • Domänenadaption

Sentimentanalyse | Allgemein

Operationalisierungsmöglichkeiten

WER annotiert/bewertet?

Lexikon

eigene Darstellung

Sprachmodell

eigene Darstellung

Kombinierter Ansatz

Hamilton et al. (2016)

Sentimentanalyse | Allgemein

Problemfälle

  • (doppelte) Negationen: gar nicht mal so uncool
  • Quantoren: etwas schlechter
  • Ironie: Ich liebe ja Regentage
  • Euphemismen: ist gestern eingeschlafen

2.

Sentimentanalyse historischer Daten

Sentimentanalyse historischer Daten

zusätzliche Problemfälle

  • nicht normierte Orthographie: anmuthig
  • Domänen-spezifischer Sprachgebrauch: seliger Bruder
  • Bedeutungswandel:

    Hamilton et al. (2016)

  • Satzsegmentierung: 1726. wurde ich mit einigen Leuten bekannt, die erweckt waren und wurde von meinem schlechten Leben und Gang überzeugt, suchte auch mich von dem Sünden Dienst und dem spielen loszumachen, da entstund einen große Wiedrigkeit bey meinen Eltern gegen mich, weil ich nicht mehr so viel Geld verdiente, sie meynten ich könnte ohne von der Welt loszureissen doch fromm seyn und mich für Sünden hüten.

Sentimentanalyse historischer Daten

Lexikon-Coverage

Bsp. Deutschschweizer Prosa (1850-1930)

    Herrmann & Grisot (2022)

Bsp. 87 Herrnhuter Lebensläufe (1750-1850)

    eigene Darstellung

Sentimentanalyse historischer Daten

Datengrundlange gängiger Operationalisierungen

Name Publikation Typ Umfang Datengrundlage
BAWL-R Võ et al. (2009) Lexikon 2.902 Lemmata Psychologiestudenten
SentiWS Remus et al. (2010) Lexikon 34.603 Wortformen Kundenbewertungen
+ englisches Lexikon
+ Finanzwortschatz
(über Kollokationen vergrößert)
Stanza Qi et al. (2020) Sprachmodell 10.000 Tweets Tweets
gbert-large Chan et al. (2020) Sprachmodell 163,4 GB Webseiten Wikipedia, Untertitel, Parlamentsreden, Gerichtsurteile, ...

Sentimentanalyse historischer Daten

Accuracies gängiger Operationalisierungen

Bsp. 5 deutsche Dramen (1767-1807)

Modell Sentiment Emotionen
Random-Baseline 50,0% 16,7%
SentiWS 44,5% -
gbert-large 82,1% 54,5%
bert-base-historical-german-rw-cased 81,3% 52,5%
German BERT (nachtrainiert) 80,9% 50,5%

vgl. Schmidt et al. (2022)

Wrap-up

Sentimentanalyse historischer Daten

Wrap-up

F I N I S

Thank you

Literatur