Einfuhrung - Heidelberg University

3y ago
19 Views
2 Downloads
877.09 KB
42 Pages
Last View : 11d ago
Last Download : 3m ago
Upload by : Aliana Wahl
Transcription

EinführungKatja MarkertInstitut für ComputerlinguistikUni Heidelbergmarkert@cl.uni-heidelberg.demit Folien von Yannick Versley und Anette FrankOctober 24, 2019

Übersicht21Was ist Computerlinguistik?2Anwendungsbeispiele3CL Fragen und Teilgebiete4Was passiert in diesem Kurs?

Übersicht31Was ist Computerlinguistik?2Anwendungsbeispiele3CL Fragen und Teilgebiete4Was passiert in diesem Kurs?

Allgemeine DefinitionComputerlinguistik beschäftigt sich mit der maschinellenVerarbeitung natürlicher Sprache.Strukturelle Eigenschaften und Verarbeitungsmechanismennatürlicher Sprache.4

CL ZieleStudium der formalen Eigenschaften von Sprache: Wiefunktioniert Sprache? Wie kann ich dies formal repräsentierenund modellieren?Beispielfrage: Welche Ausdrücke sind korrektesDeutsch/Englisch?Erklärung / Simulation von Beispielfrage: Was sagen Menschen? Welche Muster imSprachgebrauch gibt es?5

Übersicht61Was ist Computerlinguistik?2Anwendungsbeispiele3CL Fragen und Teilgebiete4Was passiert in diesem Kurs?

Beispiel I: Opinion MiningExtraktion von Meinungen und Emotionen aus TextenTypisch: Vorhersage von Verkäufen oder Filmerfolgen oderVerfolgung von MarkenreputationSocial Media MonitoringDemos:Lexalytics Demo https://www.lexalytics.com/demo(braucht account)Sentiment Treebank Demo ml (auch Teil der LP/index.html)7

Lexalytics Input8

Lexalytics Output9

Stanford sentiment treebank10

Beispiel II: Question Answering11

Beispiel II: Question AnsweringDemo: Wolfram Alpha http://www.wolframalpha.com/ (accessed14.10.2019)When was Leonardo da Vinci born? Saturday, April 15, 1452How old was Leonardo da Vinci when Michelangelo was born? Result: 22 years 10 months 18 daysHas Elvis died YesHas Elvis kicked the bucket? YesHas Elvis given up the ghost? Interpreting as “color ghost”.When did Shakespeare die? Tuesday, April 23, 1616Shakepeare wrote many plays. When did he die? Inputinterpretation “wrote” (English word).12

Multilinguale Anwendungen: Maschinelle ÜbersetzungSicher eine der bekanntesten und wichtigsten AnwendungenUnterschiedliche linguistische Eigenschaften verschiedenerSprachenInterpretation, Wissen und ÜbersetzungVarianten: Vollübersetzung (wissensbasiert beispielbasiertstatistisch (SMT)), Unterstützte Systeme (HAMT) human-aidedMT, Unterstützende Systeme (MAHT) machine-aided HT13

MT: VollautomatischGoogle Translate (14.10.2019)Im Wesentlichen handelt Star Wars vom ständig andauerndenKampf zwischen Gut und Bse. Essentially, Star Wars is aboutconstant struggle between good and evil.Die Kaffeemaschine ist kaputt. Ich lasse sie reparieren. Thecoffee maker is broken. I have her repaired.DeepL (14.10.2019)Die Kaffeemaschine ist kaputt. Ich lasse sie reparieren. Thecoffee machine is broken. I have it repaired.The coffee machine is broken. I will have it repaired. DieKaffeemaschine ist kaputt. Ich werde es reparieren lassen.14

Übersicht151Was ist Computerlinguistik?2Anwendungsbeispiele3CL Fragen und Teilgebiete4Was passiert in diesem Kurs?

Beispielfragen I1Welchem deutschen Wort entspricht[ra:t]2Wie wird das Wort rasten ausgesprochen?3Wie verstehen Sie die folgende Sprachsequenz:[hasm mo’mEn’tsaIt]16

Beschreibungsebene: Phonetik und PhonologiePhonetik und PhonologieArtikulatorische Merkmale und LautstrukturWortsegmentierung, Aussprache, ProsodiePhonem: Kleinste Spracheinheit, die BedeutungsunterschiedeausmachtHomophone: verschiedene Worte mit gleicher AusspracheVariation in Aussprachelexikalisch: durch Ambiguität; oft soziolinguistischallophonisch: meist kontextuelle Variation17

Spracherkennung und SprachsyntheseSpracherkennung: Übersetzung von gesprochener Sprache in TextSprachsynthese/Text-to-Speech: künstliche Erzeugung dermenschlichen Sprechstimme18

Beispielfragen II191Ist riche ein deutsches Wort? Wie ist es mit freche?2Is un ein Wort? Hat es eine Bedeutung?3Wie viele “Bedeutungseinheiten” hat Frechheiten? Wie ist es mitStaubecken?

Beschreibungsebene: MorphologieMorphologie: Beschreibung von Bildung und Struktur vonWörternMorpheme: kleinste bedeutungstragende EinheitSystematische Beziehungen zwischen Wörtern und Wortform:Flexion, Derivation, Komposition (frech - Frechheit - Frechdachs)Prozesse/Regeln zur Erzeugung von WortformenMorphologisches Parsing: Finde die Morpheme eines Wortes endliche Automaten, formale Sprachen20

Beispielfragen III211Welche Worte folgen wahrscheinlich der (englischen) Sequenz“white .” ?2Welche Worte folgen wahrscheinlich der englischen Sequenz“drink white .” ?

Ngram Modellingngram modelling: Ordne Wortsequenzen Wahrscheinlichkeiten zu Wahrscheinlichkeitstheorie und Schätzung13/19drink white wine1/19drink white19drink1293drink white with./9drink more.P (wi w1 . . . wi 1 ) P (w1 . . . wi )P (w1 . . . wi 1 ) f (w1 . . . wi )f (w1 . . . wi 1 )Alternativ: ngram modelling mit neuronalen Netzen22

Beispielfragen IVIst “Ich sehe einen Mann mit meinem Fernglas” ein grammatikalischrichtiger Satz? Hat der Mann mein Fernglas oder sehe ich ihn? Wiesteht es mit “Ich sehe einen Mann mit einem Bart”?SVPNPNPIch VVFINsehePPNPARTNNeinen MannAPPRmitNPARTNNeinem Bart23

Beschreibungsebene: SyntaxSyntax: beschreibt strukturelle Beziehung zwischen WörternTypische Fragen: Grammatikalität?Syntaktische Regeln: Prozesse, die Sätze generieren könnenVPVP VVFIN NPVP PPParsing: Zähle die syntaktischen Strukturen (parses) von Sätzenauf und entscheide Dich für eine präferierte Struktur; benutztsyntaktische RegelnPräferenzen: oft auch wieder statistischVP VVFIN NP 0.7VP VP PP0.324

Beispielfragen V251Kann grün in ein grüner Junge durch unerfahren ersetzt werden?Wie steht es bei ein grüner Baum? Wieviele Bedeutungen vongrün gibt es?2Welches Wort fällt Ihnen als erstes ein, wenn Sie hören: Apfel3Was bedeutet Jeder Holländer besitzt einen Wohnwagen?

Bereiche: SemantikSemantik: Wissenschaft der BedeutungLexikalische Semantik: WortbedeutungDistributionelle Semantik: Worte, die in gleichen Kontextenauftauchen teilen, semantische BedeutungVektorsemantik, lineare Algebra, neuronale NetzeBild von Dan Jurafsky, Stanford University26

Bereiche: SemantikSatzsemantik und das Kompositionalitätsprinzip: Bedeutungeines Satzes ergibt sich aus der Bedeutung seiner Teile.Ausnahmen?Semantische Analyse: Bilde linguistischen Input auf formaleBedeutungsrepräsentationen ab. Semantische Relationen.Prädikatenlogik, Lambda-Kalkül (siehe Einführung in die Logik)27

Beispielfragen VI281Shakespeare war einer der produktivsten Schrifsteller desElisabethanischen Zeitalters und unter König James immer nochbeliebt. Er schrieb 38 Stücke. Auf wen referiert er ?.2Wie sind die folgenden Satzteile relationiert? Anna arbeitete anihren ECL Übungen während sie Musik hörte.3Wie sind die folgenden Satzteile relationiert? Anna arbeitete anihren ECL Übungen während Mia auf eine Party ging.

Beschreibungsebene: DiskursDiskurs: Linguistik über die Satzgrenze hinaus.Hauptfrage: was macht einen Text kohärent?Referenzresolution: Welche Entitäten in einem Text sindkoreferent?Rhetorische Relationen/Diskursrelationen: Diskursrelationenzwischen Sätzen (z.B. temporal, Kausal etc).29

Ambiguität: ein abschreckendes BeispielFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mitBlumenmotiven her, die ihre Männer an den folgenden Montagen aufdem Markt im Zentrum der Hauptinsel verkauften.Wieviele Lesarten besitzt dieser Satz?2 · 2 · 2 · 3 · 3 · 2 · 4 · 2 · 4 · 2 · 2 · 7 · 2 258.048Quelle: Hans Uszkoreit30

Ambiguität: ein abschreckendes BeispielFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mitBlumenmotiven her, die ihre Männer an den folgenden Montagen aufdem Markt im Zentrum der Hauptinsel verkauften.Früher kann eigenständiges Adverb oder Komparativ von früh sein (2);die Verbform stellten ist ambig zwischen Präteritum und Konjunktiv (2)die Nominalphrase die Frauen kann Subjekt oder Objekt des Satzessein (2)am Wochenende kann die Insel, die Frauen oder das Verb modifizieren(3);mit Blumenmotiven kann sich auf die Kopftcher beziehen, einInstrument der Herstellung sein oder ein Adjunkt im Sinne vongemeinsam mit Blumenmotiven(3);Her hat auch eine direktionale Bedeutung (2)Quelle: Hans Uszkoreit31

Ambiguität: ein abschreckendes BeispielFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mitBlumenmotiven her, die ihre Männer an den folgenden Montagen aufdem Markt im Zentrum der Hauptinsel verkauften.der Relativsatz könnte jede der vier Nominalphrasen im Pluralmodifizieren (4);die als auch ihre Männer kann Subjekt des Relativsatzes sein (2);das Possessivpronomen ihre kann auf jede der Nominalphrasenreferieren (4);Montagen hat eine zweite Lesart als Nominalisierung von montieren (2);Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oderim Dativ die Käuferin bezeichnen (2);die drei Präpositionalphrasen des Relativsatzes knnen sich ininsgesamt sieben Kombinationen mit den jeweils vorhergehenden NPsoder mit dem Verb verbinden (7);Verkauften zeigt wieder die Ambiguität zwischen Präteritum undKonjunktiv auf (2).32Quelle: Hans Uszkoreit

Übersicht331Was ist Computerlinguistik?2Anwendungsbeispiele3CL Fragen und Teilgebiete4Was passiert in diesem Kurs?

Lineare Architektur34

Teil 0: Kognitive Grundlagen (nächstes Mal)Was macht Sprache als Kommunikationssystem besonders?Vergleich mit tierischer KommunikationBeste Behandlung von sprachlichen Phänomenen:Mustererkennung oder regelbasiert?35

Teil I: Suchen in Texten, Normalisierung, StringvergleichText (und einzelne Worte) als Sequenz von ZeichenReguläre Ausdrücke: Muster für Text, nach denen man (mitjeder Programmiersprache) suchen kannBeispiel: Baa ! Baa!, Baaa! . . .Endliche Automaten als formaler Mechanismus hinter regulärenAusdrückenTokenisierung: wo fangen Wörter und Sätze an, wo hören sieauf?Effiziente Algorithmen für Stringvergleich; dynamic programming36

Teil II: Sequenzmodellierung, WortverteilungenWie sehen Wortverteilungen in Texten aus?Plausibilität von Wort- oder Buchstabenfolgen: drink white . . .Smoothing: Was mache ich mit ungesehenen Wortfolgen?Anwendung: Language IdentificationHintergrund: Wiederholung Wahrscheinlichkeitstheorie sowieEinführung in Informationstheorie)37

Teil III: TextklassifikationWas kann man schon mit nur Worten und ein paar Wortfolgentun? Textklassifikation!Klassifiziere Texte nach Inhalt, Genre, Autor, MeinungHintergrund: maschinelles LernenJust came out of the theater andI’m literally blowing away! As amoviegoer and movie lover lookingfor a good entertaining is simplyirresistible not to like this movieeven just a little.38i love james bond,I’ve seen all thefilms, and i can say this is the worstone, dull , meandering script, attimes i had no idea what the plotwas. lots of confusiion

Teil IV: SyntaxIn welche Klassen (z.B. Nomen, Verben, Adjektive) kann ichWörter einteilen? Wie kann ich diese Klassen bei Worten ineinem Text automatisch zuordnen?Wie kreiiere ich Syntaxbäume, automatisch und manuell?Wie behandle ich syntaktische Ambiguitäten?Methoden: formale Sprachen, Grammatiken, Suchalgorithmen,Hidden-Markov-Modelle, probabilistische Grammatiken,dynamische Programmierung39

Teil V: SemantikDistributionelle lexikalische Semantik: Kann ich dieVorkommen eines Wortes in einem Textkorpus nutzen, um etwasüber dessen Bedeutung zu erfahren? Um Ähnlichkeiten zwischenWorten zu berechnen?Wahrscheinlich nicht: Satzsemantik: Wie komme ich von derWortsemantik zur Satzsemantik? Semantische Rollen.Hintergrund: lineare Algebra, sparse and dense wordembeddings, clustering40

Teil VI: Diskurs sowie AnwendungsüberblickKoreferenzresolution: Peter’s car is in the garage. It is red.Hintergrund: linguistische Constraints, Suchalgorithmen, GraphenÜberblick über einige Anwendungen (z.B. IR) als Vorschau aufweitere Semester41

AufgabenMindestens eine der Anwendungen oder Demos ausprobierenKapitel 1 in Jurafsky und Martin (2nd edition) lesen42

When did Shakespeare die?! Tuesday, April 23, 1616 Shakepeare wrote many plays. . Hat der Mann mein Fernglas oder sehe ich ihn? Wie steht es mit “Ich sehe einen Mann mit einem Bart”? S VP NP PP NP NN Bart ART einem APPR mit NP NN Mann ART einen VVFIN sehe NP Ich 23. Beschreibungsebene: Syntax

Related Documents:

Heidelberg College 310 East Market Street Tiffin, Ohio 44883-2462 1.800.Heidelberg www.heidelberg.edu Non-Profit Org. U.S. Postage PAID Heidelberg College Heidelberg CATALOG 2004 - 2005 2004-2005 Heidelberg College Catalog. Introduction 1 Academic Year Calendar ' Semester I 2004-2005 Sun. Aug. 29 First-year students and transfers arrive Mon .

1.2 Einführung in die Steuerungs- und Digitaltechnik 1.3 Einführung in die Elektronik 1.4 Einführung in Schutzmaßnahmen 1.5 Einführung in die Meßtechnik 1.6 Einführen in das technische Zeichnen 1.7 Einführung in die Werkstof

3 Jens O. Meissner Einführung in das systemische Innovationsmanagement 2011 JM_Innovation Einführung 1 11.indd 3 27.01.11 15:52

4.) (b) Einführung in die Informationstechnik für Ingenieure (EDV 1) bei Sesterhenn C oder Fortran95 Oder 5.) (c) Einführung in die Informationstechnik für Ingenieure bei Stark (Kollision mit AC) C Oder 6. ) (d) Einführung in die Informationstechnik für Ingenieure bei Karow Fortran95 oder C, Grundkenntnisse in Linux, MATLAB, LATEX

Einfuhrung In Die Schachtaktik David Abend (2011) Repository Id: #6038f75c96372 Einfuhrung In Die Schachtaktik Vol. III - No. XV Page 1/3 4234128. Investigation launched after man dies following struggle with Antioch police By Steve Rubenstein A 33-year-old man having an apparent emotional crisis died after being subdued by an

die Theorie der Geschichte, Paderborn u.a. 2007. 12) Geschichtswissenschaften. Eine Einführung, hrsg. von Christoph Cornelißen, Frankfurt am Main 2009. 1.2 Einführungen in die mittelalterliche Geschichte 13) Hartmut Boockmann: Einführung in die Geschichte des Mittelalters, 7. Aufl., München 2001.

- Chemie und Werkstofftechnik V/Ü P 1,5/0,5 TG/1 Einführung in die Technischen Gebäudeanlagen V/Ü P 3,5/0,5 5 I/1 Einführung in die Informatik V/Ü P 2/2 5 FM/1 Einführung in das Facility Management V P 4 5 FS/1 Erstes Frem

University, Malibu, California, has overseen the basic organization, hosting, and publication of papers of seven conferences on rhetorical interpretation of the Bible. 3. At the seventh conference, the byword was "From Heidelberg 1992 to 2002." The seven . 1. Duane F. Watson, "Preface