tm
[[tm]] last edit on
Feb 14, 2010
6:45 PM
by Anonymous
Am 29.01. wurden in der Vorlesung einige "Testfragen" erläutert. Leider nicht alle
und zum Teil auch nur sehr kurz. Die Fragen finden sich im Skript 11. Falls jemand
Lösungen und Lösungsansätze hat, ist das Ziel, diese hier zu sammeln.
Seite 2:
Wie viel Text ist elektronisch verfügbar?
10^4 * 10^10 = 10^14 Byte = 10^8 MB = 10^2 TB
10^4: Größe einer durchschnittlichen Internetseite in Byte ( nur der Text )
10^10: Anzahl der Seiten
Wo ist viel Text zu einem Thema verfügbar?
Seite 3:
In welchem Sinne lässt sich Text als Wissensrohstoff wiederverwenden?
Was lässt sich extrahieren?
Seite 4:
Wieso sind Eigennamen wichtig?
Welche Sorten Eigennamen gibt es?
Durch welche Strukturen zeichnen sie sich aus?
Seite 5:
Wieso ist Fachterminologie wichtig?
Welche Sorten Fachterminologie gibt es?
Durch welche Strukturen zeichnet sie sich aus?
Seite 6:
Wann sind Dokumente ähnlich?
Welche verschiedenen Grade von Ähnlichkeit gibt es?
Wie kann diese Ähnlichkeit bestimmt werden?
Wer ist daran interessiert, ähnliche Dokumente anzuzeigen oder zu ignorieren?
Wie ist die Beziehung zu Dokumentenclustering?
Seite 7:
Was sind Wort-Kookkurrenzen?
Welche Wörter sind typischerweise Kookkurrenzen?
Wozu sind sie nützlich?
Seite 8:
Welche Eigenschaften haben Kookkurrenznetze?
Wie funktioniert die graphische Darstellung der Kookkurrenznetze?
Seite 9:
Was sagt das Zipfsche Gesetz?
Das Zipfsche Gesetz ist ein mathematisches Gesetz in der Linguistik, welches besagt,
dass die Häufigkeit eines Wortes indirekt proportional zu seiner Rangstelle ist.
Quelle: http://lexikon.calsky.com/de/txt/z/zi/zipfsches_gesetz.php
Grafische Darstellung?
Anwendungen
Seite 10:
Wie viele deutsche Wörter gibt es?
Welchen Zusammenhang gibt es mit der Wortlänge?
Seite 11:
Was wird bei den Wörtern des Tages angezeigt?
Wie werden sie berechnet?
Wie lässt sich der Grund für das plötzliche Ansteigen der Häufigkeit eines Wortes ermitteln?
Seite 12:
Was sind Neologismen?
Wie lassen sie sich finden?
Wie lässt sich das erste Auftreten feststellen?
Seite 13:
Wie lassen sich zukünftige Häufigkeiten vorhersagen?
Wie sicher sind die solche Aussagen?
Seite 14:
Warum sind Markov-Modelle in der Sprachverarbeitung wichtig?
Zweck: Beschreibung einer Sequenz(Sprache=lineare Sequenz von Symbolen) von Zufallsvariablen(Wörter, Buchstaben),
- die nicht unabhängig von einander sind
- deren Wert von den vorherigen Elementen der Sequenz abhängt
Was kann man mit Übergangswahrscheinlichkeiten beschreiben, was nicht?
Worin besteht das "Nullenproblem"?
Folie 9 Vorlesung 3:
Zustände entsprechen den letzten beiden Symbolen in der Kette. Dies ist für beliebige (endliche) Horizonte erweiterbar,
in der Praxis fehlen für lange Horizonte die statistischen Daten ("Nullenproblem")
Nennen Sie Anwendungen von Markov-Modellen!
Wichtige Anwendungsgebiete sind neben der Spracherkennung (und allgemein Computerlinguistik)
und der Bioinformatik unter Anderem Spamfilter (insbesondere Markow-Filter), Gestenerkennung in der
Mensch-Maschine-Kommunikation (Robotik), Schrifterkennung und Psychologie.
Seite 15:
Was ist POS-Tagging?
Wie funktioniert es?
Wie gut sind die Ergebnisse üblicherweise?
Für welche Wörter kann die Wortart nicht einfach im Wörterbuch nachgeschlagen werden?
Seite 16:
Wie kann das Ergebnis von Unsupervised POS-Tagging für eine unbekannte Sprache aussehen?
Wie werden die "Wortarten" unterschieden?
Seite 17:
Wofür braucht man Grundformreduktion?
Welche Unregelmäßigkeiten gibt es im Deutschen?
Totale Ausnahmen:
Wie lassen sich Regeln zur Grundformreduktion beschreiben?
Seite 18:
Wofür braucht man Kompositazerlegung?
Welche Schwierigkeiten gibt es im Deutschen?
Wie lassen sich Regeln zur Kompositazerlegung beschreiben?
Seite 19:
Woran erkennt man Konstituenten?
Warum ist die Zerlegung von Sätzen in Konstituenten sinnvoll?
für die ermittlung struktureller zusammenhänge.
Wie lassen sich Konstituentengrenzen automatisch ermitteln?
betrachtet werden zwei wörter a undb sowie das satzende ^ undsatzanfang $.
nun kann man die signifikanzen A = sig(a,^), B = sig($,b) und C = sig(a,b) betrachten. tritt a signifikant mit ^ auf, als auch b mit $,
spricht dies für eine konstituentengrenze. sig(a,b) muss demnach eher schwach signifikant sein. Gegen eine Konstituentengrenze
spricht ein hohes sig(a,b).
Berechne Trennwert: (A*B)/C²
Trennwert <1 spricht gegen Grenze, Trennwert >= 1 spricht für Grenze
Seite 20:
Nennen Sie Arten von Mehrdeutigkeiten!
Wie lassen sich Mehrdeutigkeiten auflösen?
Wie lässt sich der Kookkurrenzgraph zu einem mehrdeutigen Wort in Teile zerlegen?
hierzu kann man das clustering von Bordag nutzen.
Seite 21:
Welche rechtlichen Probleme sind bei der Speicherung und Anzeige von Texten / Sätzen zu beachten?
Seite 22:
In welchen Schritten erfolgt die Datenreduktion bei der Spracherkennung vom Audiosignal bis zum Text?
Reduktionsschritte
· Der Frequenzbereich wird in 8-20 Intervalle geteilt. Innerhalb der Intervalle erfolgt
keine Unterscheidung mehr.
· Der Energiebereich wird (möglicherweise in Abhängigkeit vom Frequenzbereich) in
wenige Intervalle geteilt.
· Insgesamt wird meist mit 256 Möglichkeiten gearbeitet.
· Die Abtastung erfolgt alle 20-30 ms.
Seite 23:
Welche Mehrdeutigkeiten machen Spracherkennung schwierig?
Phonemebene: Miene - Mine (Homophone)
Mehrdeutigkeiten können einserseits lexikalisch auftreten (mehrdeutige wörter), aber auch vom Sprechverhalten.
Ein Wort mehrmals ausgesprochen besitzt (mehr oder weniger, oder konkreter: fast) nie das gleiche Frequenzspektrum,
wodurch sich 'Mehrdeutigkeiten' ergeben. Diese sind insb. von folgenden Faktoren abhängig:
· Zeitverlauf (Sprechgeschwindigkeit, Betonung)
· Tonhöhe (Satzmelodie, Betonung)
· Spektrum (Veränderung der Stimme im Tagesverlauf, wegen Heiserkeit
Seite 24:
Nennen Sie typische Fehler von Spracherkennern!
Fehler bei der Reduktion
· Abtastrate von 20-30 ms kann Explosiv-Laute (t,k,p) verschlucken.
Bei segmentiertem Text: Fehlerhafte Wortgrenzen
· Keine Erkennung einer Wortgrenze wegen zu kurzer oder fehlender
Sprechpause.
· Zusätzliche Wortgrenze z.B. wegen Pause in Kompositum (z.B. Bilder-
Rahmen).
Bei Word Spotting: Verwechseln von Störgeräuschen mit Wörtern
· Auslassungen: Verstanden wird 1-2-4 statt 1-2-3-4;
· Substitution: Verstanden wird 3 statt 2;
· Einfügung: Verstanden wird 1-2-3-8-4 statt 1-2-3-4.
· André Haucke wird nicht erkannt
Seite 25:
Was kann bei reduzierter Sprache alles reduziert werden?
Seite 26:
Welche Aufgaben der automatischen Sprachverarbeitung lassen sich mit reduzierter Sprache einfacher lösen?
Seite 27:
Wo findet man reduzierte Sprache im täglichen Leben?
und zum Teil auch nur sehr kurz. Die Fragen finden sich im Skript 11. Falls jemand
Lösungen und Lösungsansätze hat, ist das Ziel, diese hier zu sammeln.
Seite 2:
Wie viel Text ist elektronisch verfügbar?
10^4 * 10^10 = 10^14 Byte = 10^8 MB = 10^2 TB
10^4: Größe einer durchschnittlichen Internetseite in Byte ( nur der Text )
10^10: Anzahl der Seiten
Wo ist viel Text zu einem Thema verfügbar?
- Intranet
- Internet
Seite 3:
In welchem Sinne lässt sich Text als Wissensrohstoff wiederverwenden?
- Informationen gewinnen, die einen Mehrwert haben
- Codierung von Wissen
Was lässt sich extrahieren?
- semantische Relationen zwischen Entitäten
- sprachliche Informationen ( z.B. für Linguisten )
- Eigennamen
- Fachterminologien
- Kookurrenzen
Seite 4:
Wieso sind Eigennamen wichtig?
- juristische Thematik
Welche Sorten Eigennamen gibt es?
- Orte ( geographische Sachen )
- Personen
- Unternehmen
- Ereignisse
Durch welche Strukturen zeichnen sie sich aus?
- Muster(Anrede, ggf. Titel, Vor- und Nachname)
- werden am Anfang groß geschrieben
- Kontext, z.B. vor Namen die Berufsbezeichnung
- Syntax, z.B. die . bei .
- Gegentest mit Wörterbuch
Seite 5:
Wieso ist Fachterminologie wichtig?
- Klassifikation
- Informationen zu einem Themengebiet herausfinden
Welche Sorten Fachterminologie gibt es?
- taucht nur in Fachtexten auf
- taucht auch in der Alltagssprache auf ( selbe Bedeutung und nicht dieselbe Bedeutung )
Durch welche Strukturen zeichnet sie sich aus?
- im Durchschnitt längere Wörter
- können seltene Buchstabenkombinationen enthalten, z.B. oxy, xy
- Wortgraphen, Fremdwörter
Seite 6:
Wann sind Dokumente ähnlich?
- Abstand zwischen zwei Dokumenten, errechnet über das Vorkommen gemeinsamer Terme
- DEFINTION Ähnlichkeit?
Welche verschiedenen Grade von Ähnlichkeit gibt es?
- Semantik ( Fachgebiet )
- identische Dokumente
- Syntax
Wie kann diese Ähnlichkeit bestimmt werden?
- Dokumentenähnlichkeit kann nur dann von Null verschieden sein, wenn beide Dokumente wenigstens einen relevanten Term gemeinsam haben
- mittels Cluster Analyse
(1) Identifikation der charakteristischen Merkmale (die relevanten Terme)
(2) Erzeugen der Dokumentenvektoren
(3) Auswahl eines Ähnlichkeitsmaßes (Euklidische Distanz, Skalarprodukt, Cosinus-Maß)
(4) Erzeugen der Ähnlichkeitsmatrix
(5) Cluster Analyse
Wer ist daran interessiert, ähnliche Dokumente anzuzeigen oder zu ignorieren?
- Urheberrechtsschutz
- Schutz vor Plagiaten
- Informationen zum gleichen/ähnlichen Fachgebiet
- Nutzer von Portalen, CMS oder CRM
Wie ist die Beziehung zu Dokumentenclustering?
- Gruppen von Objekten bilden, die sich durch gemeinsame Attribute auszeichen
- mit gemeinsame Attribute ist Grad/Art von Ähnlichkeit/Übereinstimmung gemeint
- z.B. Archivierung und Workflow-Optimierung
Seite 7:
Was sind Wort-Kookkurrenzen?
- das gemeinsame Auftreten zwei Wortformen in einem lokalen Kontext wird als Kookkurenz bezeichnet
- verschieden Arten ( Nachbarschafts~, Satz~, Dokument~ )
- Wörter, die je nach Art der Kookkurrenz gemeinsam häufig auftreten ( nach statistischer Auffälligkeit )
Welche Wörter sind typischerweise Kookkurrenzen?
- Nomen Eigennamen (z.B. Stadt Leipzig, Stadt Köln, Stadt Rostock, Ostseestadt Rostock)
- Nomen Nomen (z.B. Hektoliter Bier, Hektoliter Wasser, Hektoliter Trinkwasser, Kubikmeter Trinkwasser)
- Nomen Verb (z.B. Bier trinken, Wein trinken, Bier saufen, Bier ausgeben)
- Adjektiv Nomen ( z.B. rotes Ampellicht, grünes Ampellicht, rotes Tuch, rotes Schlusslicht)
- Eigennamen
- Fachgebiete
- Aufzählungen, z.B. heiß und kalt
- Redewendungen, z.B. Sodom und Gomorrha
Wozu sind sie nützlich?
- Ähnlichkeit von Fachgebieten ( Einordnung )
- Kookkurrenznetze ( Graphen )
- Bedeutungsunterscheidung
Seite 8:
Welche Eigenschaften haben Kookkurrenznetze?
- Bedeutungszusammenhang
Wie funktioniert die graphische Darstellung der Kookkurrenznetze?
- Simulated Annealing:
- zunächst zufällige Verteilung der Knoten
- benachbarte Knoten ziehen sich an ( entsprechend der Kookkurrenzstärke )
- nicht benachbarte Knoten stoßen einander ab
- lässt man nun Bewegung zu, so ordnen sich Knoten zu einer stabilen Anordnung
- benachbarte Knoten ziehen sich an ( entsprechend der Kookkurrenzstärke )
- zunächst zufällige Verteilung der Knoten
Seite 9:
Was sagt das Zipfsche Gesetz?
- Wortformen eines Textes absteigend nach Häufigkeit ordnen
- r * n = konstant
Das Zipfsche Gesetz ist ein mathematisches Gesetz in der Linguistik, welches besagt,
dass die Häufigkeit eines Wortes indirekt proportional zu seiner Rangstelle ist.
Quelle: http://lexikon.calsky.com/de/txt/z/zi/zipfsches_gesetz.php
Grafische Darstellung?
- Hyperbel
- Achsen logarithmieren → Gerade mit negativem Anstieg ( annähernd )
Anwendungen
- Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen
- Abschätzung des Umfangs des Vokabulars
- Abschätzung des Zuwachses des Vokabulars, wenn sich Textmenge erhöht
Seite 10:
Wie viele deutsche Wörter gibt es?
- Wörter: laut Wikipedia 300000 bis 500000
- Wortformen: wenn das Zipfsche Gesetz stimmt → r1 = k = Anzahl der Wortformen
Welchen Zusammenhang gibt es mit der Wortlänge?
- mittlere Wortlänge wächst mit dem Rang ( so ungefähr )
Seite 11:
Was wird bei den Wörtern des Tages angezeigt?
- Ziel: Herausfinden der wichtigen Begriffe (Kriterium: Vergleich zu Befragung)
- geordnet nach Kategorien
- absolute Frequenz heute
- relative Übergewichtung heute verglichen mit dem Wortschatz
- absolute Frequenz im Wortschatz (am ehesten als "Wichtigkeit" wahrgenommen)
- verschiedene Sachen wie z.B. Bestenliste, erstes Auftreten
Wie werden sie berechnet?
- absolute Frequenz im Wortschatz
- bestimmte Untergrenze
Wie lässt sich der Grund für das plötzliche Ansteigen der Häufigkeit eines Wortes ermitteln?
- Ereignisse
Seite 12:
Was sind Neologismen?
- neue Wörter ( komplett neu oder neue Bedeutung )
Wie lassen sie sich finden?
- Anstieg der mittleren Häufigkeit des Wortes beginnend bei fast 0
Wie lässt sich das erste Auftreten feststellen?
- erstes Auftreten auf den Korpus beschränkt
- ein Wort kann vor den Aufzeichnungen, in nicht elektronischer Form oder nur mündlich vorgekommen sein
Seite 13:
Wie lassen sich zukünftige Häufigkeiten vorhersagen?
- Erwartungswert saisonal, zyklisch
- Trends: Lineare Regression
- Analyse über die Zeit → Muster → Vorhersage
Wie sicher sind die solche Aussagen?
- kommt auf die Aussage an
- z.B. morgen werden die Artikel "die", "der" und "das" immer noch verwendet
- saisonal, zyklisch Ereignisse lassen sich relativ sicher vorhersagen
- Wahlergebnisse sehr unsicher
Seite 14:
Warum sind Markov-Modelle in der Sprachverarbeitung wichtig?
Zweck: Beschreibung einer Sequenz(Sprache=lineare Sequenz von Symbolen) von Zufallsvariablen(Wörter, Buchstaben),
- die nicht unabhängig von einander sind
- deren Wert von den vorherigen Elementen der Sequenz abhängt
Was kann man mit Übergangswahrscheinlichkeiten beschreiben, was nicht?
- begrenzter Horizont (Wert hängt nur von Vorgängerzustand ab
- Zeitinvarianz (Wert des Folgesmbols hängt nicht von t ab)
Worin besteht das "Nullenproblem"?
Folie 9 Vorlesung 3:
Zustände entsprechen den letzten beiden Symbolen in der Kette. Dies ist für beliebige (endliche) Horizonte erweiterbar,
in der Praxis fehlen für lange Horizonte die statistischen Daten ("Nullenproblem")
Nennen Sie Anwendungen von Markov-Modellen!
Wichtige Anwendungsgebiete sind neben der Spracherkennung (und allgemein Computerlinguistik)
und der Bioinformatik unter Anderem Spamfilter (insbesondere Markow-Filter), Gestenerkennung in der
Mensch-Maschine-Kommunikation (Robotik), Schrifterkennung und Psychologie.
Seite 15:
Was ist POS-Tagging?
- Wortarten von Wörtern bestimmen
Wie funktioniert es?
- über Hidden Markov Modell wird wahrscheinlichkeit für Wortform ermittelt und diese getaggt
- wahrscheinlichster Pfad wird ermittelt -> die Folge der dabei durchlaufenen Zustände gibt die Folge der Tags des Satzes an
- Training über manuell annotierte Korpora
Wie gut sind die Ergebnisse üblicherweise?
- gute Tagger arbeiten mit Wahrscheinlichkeit von 97%
- im Durchschnitt bei jeder 30igsten Wortform ein Fehler
- in zwei von drei Sätzen ist Fehler zu erwarten
Für welche Wörter kann die Wortart nicht einfach im Wörterbuch nachgeschlagen werden?
- für Wörter, die mehrere Tags haben können (Bsp. Baum: Nomen: der Baum steht im Wald. Eigenname: Herr Baum geht einkaufen.
Seite 16:
Wie kann das Ergebnis von Unsupervised POS-Tagging für eine unbekannte Sprache aussehen?
- Abhängig von der Korpusgröße (Je größer, desto besser)
Wie werden die "Wortarten" unterschieden?
- Stellung im Satz/Syntax
- "Lernen" aus manuell getaggten Textpassagen
Seite 17:
Wofür braucht man Grundformreduktion?
- nützlich für IR, auch sonst eine der Standardaufgaben der Computerlinguistik
Welche Unregelmäßigkeiten gibt es im Deutschen?
- N: Umlaute: Häuser - Haus
- N: unregelmäßige Flexion: Extrema - Extremum, Bronchitiden - Bronchitis
- A: Umlaute: jünger - jung
- V: unregelmäßige Flexion: singen, sang, gesungen
- ge- und zu-: gesoffen - saufen, gelaufen - laufen, fortgelaufen - fortlaufen,
Totale Ausnahmen:
- N: Säle - Saal, Feuerwehrleute - Feuerwehrmann
- Nicht existierende Grundformen für Wörter wie Eltern oder allerschönste.
- Mehrere alternative Möglichkeiten für einzelne flektierte Formen wie Dativ Tisch(e) oder Plural von Klima.
- männliche und weibliche Grundform(z.B. Angestellte)
Wie lassen sich Regeln zur Grundformreduktion beschreiben?
- CPTs
- Reduktionsregel besteht aus Zahl N und evtl. String x.
- lies: Schneide N Characters von hinten ab und füge x an.
Seite 18:
Wofür braucht man Kompositazerlegung?
- Disambiguierung
Welche Schwierigkeiten gibt es im Deutschen?
- oft nicht wie im Englischen durch einfache Aneinanderreihung
- mehrere Möglichkeiten (z.B. "gelbrot" - "gel", "brot" - "gelb", "rot")
Wie lassen sich Regeln zur Kompositazerlegung beschreiben?
- 2 CPTs, Schnittstellen von vorn und hinten
Seite 19:
Woran erkennt man Konstituenten?
- Verschiebetest: Das Buch liegt im Wohnzimmer auf dem Tisch. Auf dem Tisch im Wohnzimmer liegt das Buch.
- Ersetzungstest: Die Zeitung liegt auf dem Tisch im Wohnzimmer. Das Buch liegt auf dem Tisch im Arbeitszimmer.
- Pronominalisierungstest: Es liegt auf dem Tisch im Wohnzimmer.
- Fragetest: Wo liegt das Buch? Auf welchem Tisch liegt das Buch?
- Weglasstest: Das Buch liegt im Wohnzimmer. Das Buch liegt auf dem Tisch.
- Ergebnis: Konstituenten sind: das Buch / auf dem Tisch / im Wohnzimmer.
Warum ist die Zerlegung von Sätzen in Konstituenten sinnvoll?
für die ermittlung struktureller zusammenhänge.
Wie lassen sich Konstituentengrenzen automatisch ermitteln?
betrachtet werden zwei wörter a undb sowie das satzende ^ undsatzanfang $.
nun kann man die signifikanzen A = sig(a,^), B = sig($,b) und C = sig(a,b) betrachten. tritt a signifikant mit ^ auf, als auch b mit $,
spricht dies für eine konstituentengrenze. sig(a,b) muss demnach eher schwach signifikant sein. Gegen eine Konstituentengrenze
spricht ein hohes sig(a,b).
Berechne Trennwert: (A*B)/C²
Trennwert <1 spricht gegen Grenze, Trennwert >= 1 spricht für Grenze
Seite 20:
Nennen Sie Arten von Mehrdeutigkeiten!
- lexikalische Ebene: Ball - Ball
- semantische Ebene (oder auch Strukturelle oder auch
- syntaktische Ebene: Mann mit dem Fernrohr sehen
- Phonemebene: Miene - Mine
- morphologische Ebene: Staubecken - Staubecken
Wie lassen sich Mehrdeutigkeiten auflösen?
- Paraphrasierung
- Durch Redundanz in Sprache und Kontext
- Grammatische Analyse
- Außersprachlicher Kontext
Wie lässt sich der Kookkurrenzgraph zu einem mehrdeutigen Wort in Teile zerlegen?
hierzu kann man das clustering von Bordag nutzen.
Seite 21:
Welche rechtlichen Probleme sind bei der Speicherung und Anzeige von Texten / Sätzen zu beachten?
Seite 22:
In welchen Schritten erfolgt die Datenreduktion bei der Spracherkennung vom Audiosignal bis zum Text?
Reduktionsschritte
· Der Frequenzbereich wird in 8-20 Intervalle geteilt. Innerhalb der Intervalle erfolgt
keine Unterscheidung mehr.
· Der Energiebereich wird (möglicherweise in Abhängigkeit vom Frequenzbereich) in
wenige Intervalle geteilt.
· Insgesamt wird meist mit 256 Möglichkeiten gearbeitet.
· Die Abtastung erfolgt alle 20-30 ms.
Seite 23:
Welche Mehrdeutigkeiten machen Spracherkennung schwierig?
Phonemebene: Miene - Mine (Homophone)
Mehrdeutigkeiten können einserseits lexikalisch auftreten (mehrdeutige wörter), aber auch vom Sprechverhalten.
Ein Wort mehrmals ausgesprochen besitzt (mehr oder weniger, oder konkreter: fast) nie das gleiche Frequenzspektrum,
wodurch sich 'Mehrdeutigkeiten' ergeben. Diese sind insb. von folgenden Faktoren abhängig:
· Zeitverlauf (Sprechgeschwindigkeit, Betonung)
· Tonhöhe (Satzmelodie, Betonung)
· Spektrum (Veränderung der Stimme im Tagesverlauf, wegen Heiserkeit
oder über einen längeren Zeitraum)
Seite 24:
Nennen Sie typische Fehler von Spracherkennern!
Fehler bei der Reduktion
· Abtastrate von 20-30 ms kann Explosiv-Laute (t,k,p) verschlucken.
Bei segmentiertem Text: Fehlerhafte Wortgrenzen
· Keine Erkennung einer Wortgrenze wegen zu kurzer oder fehlender
Sprechpause.
· Zusätzliche Wortgrenze z.B. wegen Pause in Kompositum (z.B. Bilder-
Rahmen).
Bei Word Spotting: Verwechseln von Störgeräuschen mit Wörtern
· Auslassungen: Verstanden wird 1-2-4 statt 1-2-3-4;
· Substitution: Verstanden wird 3 statt 2;
· Einfügung: Verstanden wird 1-2-3-8-4 statt 1-2-3-4.
· André Haucke wird nicht erkannt
Seite 25:
Was kann bei reduzierter Sprache alles reduziert werden?
- Wortschatzumfang
- Grammatik
- +2
Seite 26:
Welche Aufgaben der automatischen Sprachverarbeitung lassen sich mit reduzierter Sprache einfacher lösen?
- Korrekte Erkennung der Worte (Denn alles andere wäre ja Schwachsinn!)
- Bessere Verständlichkeit (z.B. gegenüber Fremdsprachlern)
- Größere Eindeutigkeit für Autoren
Seite 27:
Wo findet man reduzierte Sprache im täglichen Leben?
- Beim Sprechen in der Fremdsprache
- Beim Sprechen in engen Fachgebieten (z.B. Wetterbericht)
- Militär
- Telefonservice (Kundenservice 1&1 "Sagen sie Bedienung oder Technik!" "STFU KACKBITCH"
- In der Vorlesung verteilte Programmierung an der Uni Leipzig (korrekte Erkennung der Worte hier jedoch erschwert)
- hmm, is' schwer