Sprachsignal, Grundfrequenzkurve und TextGrid in Praat visualisie

Transcription

Sprachsignal, Grundfrequenzkurve und TextGrid in Praat visualisie
Sprachsignal, Grundfrequenzkurve und TextGrid in Praat visualisieren und als Grafik ausgeben
Wilfried Schütte, Bearbeitungsstand: 29.10.2010
Die folgende Schritt-für-Schritt-Anleitung richtet sich an AnwenderInnen ohne Praat-Vorkenntnisse.
Sie zeigt eine der häufigsten gesprächsanalytischen Anwendungen für das Programm Praat: Ein Ausschnitt aus dem Sprachsignal (d.h. der Audiodatei mit der Gesprächsaufnahme) soll als Oszillogramm
und als Grundfrequenzkurve (f0, „pitch“)
•
•
•
•
angezeigt,
wortweise „gelabelt“ (d.h. ansatzweise transkribiert),
grafisch ausgegeben und
in dieser Form für Präsentationszwecke multimedial aufgeladen werden.
Nähere Hinweise zu weiteren Verfahren für eine gesprächsanalytische Nutzung von Praat finden sich
im GAIS Tutorium „Praat für die Gesprächsanalyse“ (http://prowiki.ids-mannheim.de/bin/view/GAIS/
TutoRials).
Diese Anleitung geht davon aus, dass die WAV-Audiodatei klein genug ist, um in Praat als Sound- und
nicht als LongSound geladen zu werden. Wenn die Audiodatei zu groß ist, um als „Sound“ vollständig
in den Arbeitsspeicher (RAM) geladen zu werden, stehen die unten beschriebenen Befehle „File/Draw visible sound and TextGrid…” und „Draw visible pitch contour and TextGrid” auch zur Verfügung, wenn in einem TextGrid-Editor ein LongSound geladen ist.
Die Anleitung wird mit Bildschirmfotos unter Windows XP illustriert. Praat läuft aber ebenso unter
neueren Windows-Versionen, es gibt auch Versionen für Mac OS X und Linux.
Zum Programm Praat: Unter Windows wird Praat nicht installiert; die heruntergeladene Datei (von
http://www.fon.hum.uva.nl/praat/download_win.html, z.B. aktuell praat5145_winsit.exe) wird beim
Ausführen lediglich zu praat.exe entpackt. Praat kann daher auch von einem USB-Stick aus gestartet
werden, z.B. auf einem PC, auf dem man kein Benutzerkonto mit Administratorrechten hat. Für Macintosh-Rechner wird Praat von http://www.fon.hum.uva.nl/praat/download_mac.html heruntergeladen (z.B. praat5145_mac.dmg). Das sich automatisch oder nach Doppelklick auf die heruntergeladene Datei öffnende Disc-Icon enthält das Programm „Praat“ oder „Praat.app“, das in das Programme-Verzeichnis gezogen werden kann.
Ablauf:
1) Praat starten.
2) Im „Praat Objects“-Fenster mit „Read/Read from file…“ WAV-Datei öffnen: Sie erscheint als „1.
Sound <Dateiname>“ (ohne WAV-Extension) in der Liste der Objekte:
2
3) Dieses Objekt kann man im dynamischen Menü 1 mit „Play“ abspielen, um sich vom Inhalt zu
überzeugen und u.a. festzustellen, ob es einen Monolog oder ein Gespräch mit mehreren Beteiligten enthält. Bei einem Monolog erzeugt man im dynamischen Menü mit „Annotate -/To
TextGrid…“ ein TextGrid mit einem IntervalTier, trägt dazu im Fenster „Sound: To TextGrid“ im
Feld „All Tier Names“ z.B. „Transkript“ ein und lässt das Feld „Which of these are point tiers?“
leer (der einzige erwünschte „tier“ soll nämlich ein „IntervalTier“ werden, mit dem nicht Punkte,
sondern Segmente im Sprachsignal gelabelt werden):
0F
4) Wenn das zu analysierende Beispiel einen Dialog enthält, können die beiden SprecherInnen auch
auf 2 getrennten IntervalTiers notiert werden; dazu im Fenster „Sound: To TextGrid“ im Feld „All
Tier Names“ nur durch Leerzeichen getrennt zwei „tier names“ als Sprechersiglen angeben,
z.B.“A B“. Im folgenden Beispiel wird eine monologische Passage dargestellt.
5) Ein zweites Objekt „TextGrid <Dateiname>“ erscheint:
1
Das dynamische Menü befindet sich rechts im „Praat Objects“-Fenster. „Dynamisch“ heißt, dass sich
das Menü ändert, je nachem, von welchem Typ das Objekt oder die Objekte sind, die aktuell ausgewählt und markiert wurden.
3
6) Beide Objekte markieren (die Auswahl erweitern mit Shift-/Umschalttaste und Mausklick) und
mit „Edit“ (im dynamischen Menü) in einem TextGrid-Editor öffnen.
7) In diesem TextGrid-Editorfenster sollte über „Pitch/Show Pitch“ ein Bereich zur Darstellung der
Grundfrequenzkurve zwischen Oszillogramm und gelbem Label-Bereich („IntervalTier“) angewählt werden. 2 Da hier bei einem längeren Sprachsignal zunächst die ersten 30 Sekunden im
TextGrid-Editor gezeigt werden, wird die Grundfrequenz noch nicht angezeigt, da Praat standardmäßig für die Anzeige einen Schwellwert von 20 Sekunden vorsieht:
1F
8) Unter „Pitch/Pitch settings…“ sind bei „Pitch range (Hz)“ die Standardwerte 75 und 500 Hz. Diese
sollten passend zur Stimme im Beispiel verändert werden, z.B. auf 50-300 Hz bei einer Männerstimme. Wenn ein Dialog mit einer Männer- und einer Frauenstimme vorliegt, muss die obere
2
Andere Analysekurven wie „Spectrum“, „Intensity“ oder „Formant“ sollten nicht dargestellt werden,
ebenso sollten im Oszillogramm keine „Pulses“ gezeigt werden
4
Grenzfrequenz höher gewählt werden, z.B. bei 400 Hz. Die Einstellung darf nicht dazu führen,
dass die Pitchkurve den unteren oder oberen Rand des Analysefensters berührt oder dass sogar
offensichtlich Teile der Grundfrequenzkurve nicht dargestellt werden, weil sie außerhalb des eingestellten Bereiches liegen:
9) Unter „Pitch/Advanced pitch settings…“ die Checkbox „Very accurate“ aktivieren, alle anderen
Parameter unter „Pitch settings…“ und „Advanced pitch settings…“ unverändert lassen:
10) Die erste relevante Stelle grob durch Abhören identifizieren und durch Überstreichen der
Waveform mit gedrückter linker Maustaste auswählen, dabei vorerst mit Zugaben am Anfang
und Ende arbeiten. Ob die Auswahl passt, kann man durch Abhören überprüfen. Die Auswahl, im
folgenden Screenshot ca. 3,92 Sek. lang, wird abgespielt entweder mit Tab-Taste oder mit Mausklick wahlweise auf das Rechteck oberhalb der rosa markierten Auswahl im Oszillogramm oder
auf das entsprechende Rechteck unterhalb des gelben Annotationsbereichs – beide Rechtecke
zeigen die Länge der Auswahl an:
5
11) Diese Auswahl durch Klicken auf den „sel“-Button unten links fensterfüllend zoomen, so dass ein
wortweises Labeln möglich ist (in der Regel sollte das Fenster dann nicht mehr als 5 Sekunden
des Sprachsignals zeigen – hier sind es die vorab ausgewählten ca. 3,92 Sek.):
12) Ausschnitt wortweise labeln:
6
a) die Auswahl für das erste Wort anhand des Oszillogramms und nach Abhören treffen, Auswahlgrenzen bei Bedarf mit Shift+Klick versetzen oder mit Tastenkombinationen verschieben:
• linke Auswahlgrenze nach links = Shift+Cursor oben,
• linke Auswahlgrenzenach rechts = Shift +Cursor unten,
• rechte Auswahlgrenze nach links = Strg+Cursor oben,
• rechte Auswahlgrenze nach rechts = Strg+Cursor unten.
Bei korrekter Auswahl mit „Interval/Add interval on tier 1“ oder dem Tastaturkommando
Strg+1 Auswahl als Intervall definieren und im Textfeld oberhalb des Oszillogramms labeln –
der Text erscheint dann auch im IntervalTier im gelb markierten Intervall 3:
2F
3
Falls derText im IntervalTier unerwünscht klein oder groß dargestellt wird, kann man die Textgröße im
TextGrid-Fenster mit „File / Preferences… / Font size (points)“ verändern. Diese Darstellung ist unabhängig von der späteren Ausgabe im „Praat picture“-Fenster (vgl. Punkt 17b).
7
b) Falls die Auswahlgrenzen (rot für den aktuell ausgewählten Zeitpunkt, ansonsten blau) doch
noch nicht stimmen, können sie in Höhe des IntervalTier mit gedrückter linker Maustaste
verschoben werden; dabei erscheint ein „flimmernder“ senkrechter grüner Strich.
c) Für alle folgenden Label, die man kontinuierlich setzen möchte, markiert man nicht erneut
eine rosa Auswahl im Oszillogramm, sondern bereitet eine „Boundary“ für das Ende des
nächsten zu labelnden Wortes vor. Dazu im Pitch-Bereich oder im Oszillogramm an das vermutete Ende dieses Wortes klicken – im IntervalTier erscheint eine senkrechte graue Linie,
darüber ein kleiner Kreis:
8
13) Durch Klicken in den Kreis „Boundary“ setzen, nach Abhören gegebenenfalls mit gedrückter linker Maustaste (auch dabei erscheint ein „flimmernder“ senkrechter grüner Strich) passend verschieben…
…und neues Intervall labeln:
9
14) Ebenso den Rest des relevanten Segments wortweise labeln – dabei kann man sich bei Bedarf an
den GAT-2-Transkriptionskonventionen 4 für das Basis- oder Feintranskript orientieren und Fokusoder Nebenakzente durch Großschreibung notieren (vgl. hier den Nebenakzent „prEIslage“) 5:
3F
4F
4
5
Selting, Margret / Auer Peter et al. (2009): Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). In:
Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion, Ausgabe 10 (2009), S. 353-402
(http://www.gespraechsforschung-ozs.de/heft2009/px-gat2.pdf).
Andere Formen der Hervorhebung, etwa farbig, kursiv oder unterstrichen, sind nicht möglich.
10
15) Das fertige TextGrid kann im TextGrid-Fenster mit „File/Write TextGrid to text file…“ oder der
Tastenkombination Strg+S bei Bedarf (z.B. für weitere Arbeitssitzungen) gespeichert werden. Alternativ ist das Speichern auch möglich im Fenster „Praat Objects“ mit „Write/Write to text file…“.
16) Im Praat-TextGrid-Fenster gelabelten Abschnitt markieren (wenn das letzte gelabelte Wort noch
ausgewählt ist, mit Shift+Mausklick auf die erste Boundary, im oberen Fall also auf die links von
„nein“) und mit „sel“ auf Fensterbreite spreizen:
17) Grafische Ausgabe: Im Fenster „Praat Picture“ werden nun nacheinander das Oszillogramm
(„Waveform“) und darunter die Grundfrequenzkurve, jeweils mit den wortweisen Labels, grafisch
dargestellt. Die Schritte dazu im Einzelnen:
a) Im Fenster „Praat Picture“ mit gedrückter linker Maustaste ausgehend von der linken oberen
Ecke einen „viewport“ von 7“ Breite 6 und 2“ Höhe bestimmen, dazu bei Bedarf das Fenster
verbreitern. Alternativ können diese Werte über „Select/Select outer viewport…“ in den Feldern „Horizontal range (inches)“ und „Vertical range (inches)“ eingegeben werden:
5F
6
Bei Beispielen, die länger als ca. 5 Sekunden sind, sollte entweder die Breite des „viewport“ vergrößert
oder das Beispiel auf zwei Grafiken verteilt werden, da ansonsten der wortweise gelabelte Text teilweise überlappend und damit unlesbar dargestellt wird.
11
b) Im „Praat picture“-Fenster unter „Font“ über „Font size…“ als Schriftgröße (in „points“) „8“
und als Schriftart „Helvetica“ angeben (die Schriftgröße muss eventuell auf einen Wert unter
8 verringert werden, wenn bei der nachfolgenden Ausgabe Label-Wörter sich überlappen –
dann muss diese Ausgabe zunächst im „Praat picture“-Fenster mit „Edit / Undo“ bzw. Strg+Z
rückgängig gemacht werden):
c) Im „TextGrid“-Fenster mit „File/Draw visible sound and TextGrid…” Oszillogramm und Label
zeichnen lassen, dabei im Fenster “Draw visible sound and TextGrid“ alle Checkboxen bis auf
„Draw selection times“ aktivieren bzw. aktiviert lassen und im Ausklappmenü unter „Write
name at top“ „far“ angeben (der Name der Audiodatei erscheint dann oberhalb der
Waveform in einem gewissen Abstand):
12
d) Das Ergebnis sieht im Fenster „Praat picture“ so aus:
e) Nun im Fenster „Praat picture“ den „viewport“ auf links oben 0“/2“, rechts unten 7“/4“ bestimmen:
f)
Im „TextGrid“-Fenster mit „Pitch/Draw visible pitch contour and TextGrid” Grundfrequenzkurve und Label zeichnen lassen; dabei im Fenster „Draw TextGrid and Pitch separately“
Checkbox bei „Erase first“ deaktivieren (wichtig, sonst werden die bisherigen Zeichnungsteile
13
unabhängig vom „viewport“ auch gelöscht!) und bei „Write name at top:“ im Ausklappmenü
„no“ angeben (eine doppelte Nennung des Names der Audiodatei ist redundant und störend). Eine Darstellung der Grundfrequenz als Folge von Punkten („Speckle“) ist meist ansprechender als eine dünne Linie:
g) Das Ergebnis sieht im „Praat picture“-Fenster so aus:
h) Im „Praat picture“-Fenster mit „Margins / One mark left…” wiederholt für jeden in der linken
Skala angezeigten Wert außer den beiden Grenzwerten (im folgenden Screenshot „50“ und
„300“) eine horizontale gestrichelte Linie einfügen, damit die Grundfrequenzwerte besser
abgelesen werden können. Dabei im Fenster „Praat picture: One mark left…“ jeweils bei „Position“ einen der Zahlenwerte (im folgenden Screenshot „100.0“) angeben und die Checkboxen bei „Write number“ und „Draw tick“ deaktivieren (die Zahl und der Skalenstrich links sind
schon vorhanden!):
14
i)
Das Ergebnis sieht so aus:
j)
Damit alle Zeichnungsteile bei der Ausgabe berücksichtigt werden, jetzt in diesem Fenster
den „viewport auf links oben 0“/0“, rechts unten 7“/4“ erweitert bestimmen:
15
18) Die Grafik kann nun entweder über die Zwischenablage („Edit/Copy to clipboard“ oder Strg+C)
z.B. in ein Word-Dokument eingefügt werden oder über „File/Write to Windows metafile…“ als
EMF-Datei gespeichert werden; dabei sollte der voreingestellte Dateiname „praat.emf“ durch einen passenden (z.B. „preislage.emf“) ersetzt werden:
19) Diese Datei kann ebenfalls in Word als Grafikdatei eingefügt werden.
20) Das Ergebnis sieht über die Zwischenablage wie über das Einfügen einer Grafikdatei in Word in
gleicher Weise so aus 7:
6F
7
Der kurze Text vor und nach der Grafik dient hier nur zur Veranschaulichung, wie die Grafik eingebettet aussieht.
16
21) Um eine Praat-Grafik ohne weitere Links und Einbettungen auf einer Webseite zu zeigen, muss
die EMF-Datei außerhalb von Praat in das JPEG-, GIF- oder PNG-Format konvertiert werden. Empfehlenswert ist das PNG-Format („Portable Networks Graphics“). Eine Konvertierung ist u.a. möglich mit dem „Microsoft Office Picture Manager“.
22) Eine Praat-Grafik kann auch als PDF-Datei mit eingebetteten Audios für den Sound und eine
summende Resynthese der Grundfrequenz ausgegeben werden. Das folgende Verfahren dazu
setzt voraus, dass die Programme Adobe Acrobat Pro (Version 9 und höher, vgl.
http://www.adobe.com/de/products/acrobat.html) und Audacity (vgl. http://www.audacity.de/)
installiert sind. Einfache, frei verfügbare PDF-Konverter wie FreePDF (vgl. http://freepdfxp.de/)
bieten nicht die Möglichkeit, Audiodateien einzubetten. Im Audioeditor Audacity muss zudem
der
LAME-MP3-Encoder
installiert
sein;
das
Verfahren
dazu
wird
unter
http://audacity.sourceforge.net/help/faq?s=install&i=lame-mp3) beschrieben.- Zur Erzeugung
einer multimedialen Praat-Grafik im PDF-Format sind folgende Teilschritte notwendig:
a) Speichern der Praat-Grafik als EPS-Datei („Encapsulated Postscript“) im Praat-Picture-Fenster
mit „File/Write to EPS file…“, dabei am unteren Rand den „viewport“ um einen halben Zoll
vergrößern (auf 4,5“):
17
b) Umwandeln der EPS-Datei in eine PDF-Datei mit Adobe Acrobat Distiller – beim Öffnen der
Datei Dateityp von „PostScript-Dateien (*.ps)“ auf „EPS-Dateien (*.eps)“ umstellen:
18
c) Sound-Auswahl als separate Audiodatei abspeichern im Praat-TextGrid-Fenster mit „File/Write selected sound to WAV file…“.
d) Grundfrequenz-Objekt im TextGrid-Fenster erzeugen mit „Pitch/Extract visible pitch
contour“, dann im Fenster „Praat Objects“ Markieren des neuen Objekts „Pitch untitled“ (bei
Bedarf mit „Rename…“ umbenennen, um Verwechslungen zu vermeiden, z.B. zu „preislage“)
und im dynamischen Menü mit „Synthesize/To Sound (hum)…“ Erzeugen einer summenden
Resynthese der Grundfrequenz und Abspeichern des neuen Sound-Objekts mit „Write/Write
to WAV file…“.
e) Konvertieren beider WAV-Dateien (Sound-Auswahl und darauf bezogene gesummte Grundfrequenz) mit Audacity in MP3-Dateien (Grund: MP3-Dateien können in Adobe Acrobat direkt wiedergegeben werden, benötigen nicht einen externen Player):
f)
Öffnen der PDF-Datei mit Adobe Acrobat 9 Pro, Einfügen der Sound-Auswahl und der gesummten Grundfrequenz mit „Werkzeuge/Multimedia/Audio-Werkzeug“ in einem Rechteck
jeweils unter der Darstellung des gelabelten Oszillogramms und der gelabelten Grundfrequenz. Darstellung der PDF-Datei in Adobe Acrobat 9 Pro…
19
…und als fertige Datei: