Algorithmen zur Erkennung arttypischer Lautäußerungen von Vögeln

Transcription

Algorithmen zur Erkennung arttypischer Lautäußerungen von Vögeln
Algorithmen zur Erkennung arttypischer
Lautäußerungen von Vögeln
Studienarbeit
im Rahmen des Diplomstudiengangs Informatik
eingereicht am Institut für Informatik
der Humboldt-Universität zu Berlin
von . . . . . . . . . . . . . Daniel Kosellek
geb. am . . . . . . . . . . . . . .19.11.1977
in . . . . . . . . . . . . . . . . . . . . Leningrad
Betreuer:
eingereicht am:
Dr.-Ing. Olaf Hochmuth
Dr. Karl-Heinz Frommolt
................
Inhaltsverzeichnis
1 Einleitung
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Gesangsstruktur des Buchfinken . . . . . . . . . . . . . . . . . .
1.3 Bisherige Arbeiten zur bioakustischen Artenerkennung . . . . .
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
2.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . .
2.2 Vorverarbeitung . . . . . . . . . . . . . . . . . . . . .
2.2.1 Zerlegung der Aufnahmen . . . . . . . . . . .
2.2.2 Die Stichproben . . . . . . . . . . . . . . . . .
2.2.3 Gesangsbereinigung . . . . . . . . . . . . . . .
2.3 Segmentierung . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Silbengewinnung . . . . . . . . . . . . . . . .
2.3.2 Silbenbereinigung . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
9
10
10
11
11
12
13
14
14
16
3 Merkmalsgewinnung und -reduktion
19
3.1 Merkmale des Spektrums . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Merkmale des Zeitsignals . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Merkmalsreduktion mit SAS . . . . . . . . . . . . . . . . . . . . 23
4 Klassifikation und Ergebnisse
4.1 Maximum-Likelihood-Klassifikator mit SAS
4.2 kNN-Klassifikator mit SAS . . . . . . . . . .
4.3 Ergebnisse . . . . . . . . . . . . . . . . . . .
4.4 Umsetzung des Klassifikators in Matlab . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
27
28
31
Inhaltsverzeichnis
5 Zusammenfassung und Ausblick
37
A Inhaltsverzeichnis der CD
39
B Literaturverzeichnis
40
4
Abbildungsverzeichnis
1.1
1.2
Zeitsignal eines Buchfinkengesangs . . . . . . . . . . . . . . . .
Spektrogramm eines Buchfinkengesangs . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Signalausschnitt mit Triggerschwelle .
Betragsspektrum . . . . . . . . . . .
gefensterte Episode . . . . . . . . . .
Episodensignal . . . . . . . . . . . .
Episodensignal mit 2 Schwellwerten .
Vorläufige Silbenkandidaten . . . . .
Segmentierungsergebnis . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
13
15
16
17
17
18
4.1
4.2
4.3
4.4
4.5
Plot der Lernstichprobe mit CANDISC . . . . . . . . . . .
Klassifikation einer Teststichprobe mit DISCRIM . . . . .
Klassifikation mit Rückweisung mit Matlab - Buchfink .
Klassifikation mit Rückweisung mit Matlab - Zaunkönig .
Klassifikation mit Rückweisung mit Matlab - Baumpieper
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
31
34
35
36
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
1 Einleitung
1.1 Motivation
Weltweit gibt es ca. 9 800 Vogelarten. Europa kann nur einen Bruchteil der
Artenvielfalt bieten und doch fällt es dem Laien schwer, die häufigsten Vogelarten anhand ihres Gesangs bei einem Spaziergang im Park zu erkennen.
Ornithologen dagegen können sehr ähnlich singende Vogelarten aufgrund jahrelanger Erfahrungen und Beobachtungen sehr wohl unterscheiden, aber auch
sie sind nicht immer dort, wo gerade ein Vogel singt. Viele Eigenheiten der Vögel und Gegebenheiten der Umwelt erschweren zusätzlich ihre Arbeit. So gibt
es Zugvögel, die nicht ganzjährig in unseren Breiten zu finden sind, Durchzügler, welche nur in einem sehr engen Zeitrahmen in Deutschland anzutreffen
sind, Vogelarten, die nicht zu jeder Tageszeit singen, Arten, die sich vorwiegend in unwegsamem Gelände aufhalten und nicht zuletzt der Gesangschor
eines Waldes, der das Heraushören einer Art noch schwieriger macht. Einige Arten, besonders seltenere Arten fallen nicht minder selten durch dieses
Beobachtungsnetz, was eine Bestandsaufnahme der Vögel mitunter gar nicht
ermöglicht.
Ziel dieser Arbeit ist es, den Schritt hin zu einer automatisierten Erkennung
von Vogelarten anhand ihres Gesangs zu erleichtern. Im Vordergrund steht dabei die Frage nach der Vogelart, welche zu hören ist. Exemplarisch soll dies an
einer sehr häufigen und markant singenden Vogelart, dem Buchfinken gezeigt
werden. Zur Klassifikation des Buchfinkengesangs wird eine zweite Klasse (Vogelart) benötigt. Diese wird in dieser Arbeit der Zaunkönig sein. Entsprechend
6
1 Einleitung
der klassischen Mustererkennungskette werden nach einer kurzen strukturellen
Analyse des Buchfinkengesangs, dieser segmentiert, Merkmale gewonnen und
auf ihre Signifikanz bezüglich der Klassentrennfähigkeit untersucht und ausgewählt. Anschließend werden mit Hilfe von SAS verschiedene Klassifikatoren
untersucht und deren Ergebnisse erläutert.
1.2 Gesangsstruktur des Buchfinken
Der Buchfink (Fringilla coelebs) gehört in Europa zu den häufigsten Vogelarten und übertrifft dabei in seinem Bestand mit 5,6 bis 12,6 Millionen Brutpaaren [4] allein in Deutschland sogar die Zahl der noch bekannteren Haussperlinge. Sein Lebensraum erstreckt sich vom Wald bis in die Gärten und Parks
von Siedlungen und Großstädten. Durch den großen Bestand, deren Nähe zum
Menschen und wegen seines markanten Gesangs ist der Buchfink für Untersuchungen zur automatischen Gesangserkennung ideal geeignet, da Gesangsmaterial somit in großen Mengen vorhanden und auch leicht zu beschaffen ist. Im
Laufe der Arbeit wird neben der Bezeichnung Buchfink auch des öfteren der
lateinische Name Fringilla coelebs verwendet und an diesen Stellen mit FC abgekürzt. Insbesondere bei der Katalogisierung der Einzelgesänge zur Bildung
der Stichproben, sowie als Kürzel der Artenbezeichnung für SAS wird darauf
zurückgegriffen. Selbiges gilt für den Zaunkönig (Troglodytes troglodytes)1 .
Grob kann man Lautäußerungen von Vögeln in Gesänge und Rufe unterteilen, wobei Rufe hier nicht weiter untersucht werden. Im Gegensatz zu Rufen,
die meist sehr kurz und eine einfache Struktur aufweisen, sind Gesänge komplexer und variabler. Abbildung 1.1 und 1.2 zeigen jeweils das Zeitsignal und
das dazugehörige Spektrogramm eines Buchfinkengesangs mit ca. 3 Sekunden
Dauer. Man erkennt einzelne sich ähnelnde Abschnitte, die durch kurze Pausen getrennt sind. Im Spektrogramm wird diese Ähnlichkeit sogar noch etwas
deutlicher. Diese kurzen Abschnitte werden als Silben bezeichnet, ganze Blöcke
1
TT
7
1 Einleitung
aus sich wiederholenden Silben als Phrasen und die Gesamtheit aller Phrasen
als Gesang [1]. Die Wahl der Silben, die Reihenfolge, sowie die Anzahl der
Wiederholungen ist von Buchfink zu Buchfink unterschiedlich, das Spektrum
an möglichen Silben selbst innerhalb einer Art sehr groß. Mitunter wird der
Vogel auch im Gesang durch äußere Einflüsse gestört, so dass auch die Dauer
und die Anzahl der Phrasen beeinträchtigt sein kann. Im Allgemeinen singt
allerdings jeder Buchfink grob nach dieser Grundstruktur. Sehr markant ist
die letzte einsilbige Phrase des Buchfinkengesangs und hat deshalb sogar einen
eigenen Namen erhalten, der Finkenschlag. Ein typischer Buchfinkengesang
besteht in der Regel aus 4 Phrasen mit jeweils 4 bis 6 Silbenwiederholungen
pro Phrase und dauert in etwa 3 bis 3,5 Sekunden. Dabei beginnt der Vogel
etwas verhalten und wird erst zur Mitte lauter.
Abbildung 1.1: Zeitsignal eines Buchfinkengesangs
Abbildung 1.2: Spektrogramm eines Buchfinkengesangs
8
1 Einleitung
1.3 Bisherige Arbeiten zur bioakustischen
Artenerkennung
Bisher gibt es nur wenige Studien zur bioakustischen Artenerkennung. In Finnland wurde von der Academy of Finland ein Forschungsprojekt namens Avesound 2 gegründet, dessen Schwerpunkt in der Entwicklung von Algorithmen
zur automatischen Erkennung von Vogelarten über deren Gesänge liegt3 . Langfristig soll ein System entwickelt werden, das in der Lage ist, den Großteil der
finnischen Vogelarten zu erkennen. A. Härmä untersuchte im Rahmen dieses
Projektes, wie gut Vogelarten anhand einer Repräsentation der Silben über
kurze frequenz- und amplitudenmodulierte Sinusimpulse klassifiziert werden
können. Tests an 14 Vogelarten ergaben gute Klassifikationsergebnisse und
zeigten, dass bereits auf Silbenbasis viele Arten identifiziert werden können [8].
Viele Vogelgesänge sind nicht rein sinusförmig, weisen allerdings klare harmonische Spektren auf. In einer späteren Arbeit von A. Härmä werden Wege
erläutert, um Vogelgesänge anhand ihrer harmonischen Struktur zu klassifizieren [9]. S. Fagerlund segmentierte unharmonische Vogelgesänge und benutzte
zur Klassifikation akustische Merkmale der segmentierten Silben. Die Ergebnisse zeigten, dass spektrale und temporale Merkmale gute diskriminative Stärken
aufwiesen [5]. Ebenfalls im Rahmen dieses Projektes untersuchten A. Selin,
J. Turunen und J. Tanttu die Erkennung und Klassifikation von Vogelgesängen mittels einer Signalanalyse durch Wavelets. Zur Klassifikation nutzten sie
neuronale Netzwerke, ein überwachtes Multilayer-Perceptron (MLP) und eine
unüberwachte self-organizing Map (SOM) und erreichten damit gute Ergebnisse [15].
Es existieren auch bereits kommerzielle Systeme zur bioakustischen Artenerkennung von Vögeln, wie das mobile Gerät Song Sleuth der amerikanischen Firma Wildlife Acoustics, Inc.4 oder das Softwareprodukt Vogelstimmen-Experte
der Firma Sejona Software 5 .
2
Aves - lat. Vögel
http://www.acoustics.hut.fi/research/avesound/avesound.html
4
http://www.wildlifeacoustics.com
5
http://www.sejona.com
3
9
2 Aufbereitung der Aufnahmen
zur Merkmalsgewinnung
2.1 Datengrundlage
Wie bereits angedeutet, ist der Buchfink aufgrund der Häufigkeit seiner Art
geradezu ideal für Studien der automatischen Artenerkennung. Entsprechend
große Datenmengen konnten somit bereits angelegt werden. Dieser Arbeit stehen 1 GB mit mehr als 3 Stunden Gesangsmaterial des Buchfinken des Tierstimmenarchivs des Biologischen Instituts der Humboldt-Universität zu Berlin
zur Verfügung. Die Aufnahmen liegen in digitalisierter Form als Monosignal
mit einer Abtastfrequenz von 48 000 Hz mit 16-Bit-Messwerten im Intervall von
-1 bis 1 vor. Nach dem Abtasttheorem von Shannon benötigt man eine Abtastfrequenz, die mehr als dem Doppelten der höchsten im Signal vorkommenden
Frequenzkomponente entspricht, um dieses rekonstruieren zu können [10]. Aus
dem Spektrogramm des Buchfinken in Abbildung 1.2 kann man bereits ablesen, dass der Gesang in einem Frequenzband von 2 000 bis 8 000 Hz liegt, ohne
Berücksichtigung der Obertöne. Die Qualität der Aufnahmen ist also ausreichend, da das Spektrum der Aufnahmen so Frequenzen von 0 bis 24 000 Hz
enthalten kann.
Sämtliche Audiodateien sind Langzeitaufnahmen mit mehreren aufeinanderfolgenden Gesängen, was eine Zerlegung in Einzelgesänge erforderlich macht.
Auch das Gesangsmaterial des Zaunkönigs liegt in Form von Langzeitaufnahmen vor. Allerdings ist das Zaunkönigmaterial nicht sehr umfangreich, was
leider den Umfang der Stichproben beschränkt.
10
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
2.2 Vorverarbeitung
Unter Vorverarbeitung versteht man Transformationen, die ein Muster in ein
für die weitere Verarbeitung geeigneteres Muster überführen [12]. Dazu gehören
die Zerlegung der Langzeitaufnahmen in Einzelgesänge, was die eigentlichen
Muster erst bereitstellt, und die Entfernung von Störgeräuschen.
2.2.1 Zerlegung der Aufnahmen
Um die Aufnahmen erfolgreich zerlegen zu können, bedarf es eines geeigneten
Kriteriums zur Identifikation der wichtigen Signalabschnitte. Da die Hintergrundgeräusche und entfernte Vogelgesänge in der Regel leiser sind und somit
kleinere Signalamplituden erzeugen als der interessierende Buchfinkengesang,
bietet sich eine Segmentierung mittels eines Schwellwertes an. Ein Gesang beginnt, wenn ein Schwellwert Θ mit ansteigender Signalamplitude überschritten
wird. Aufgrund der Silbenstruktur des Gesangs wird ein Zeitfenster der Dauer
τ benötigt, in welchem mindestens ein Messwert den Schwellwert überschreiten muss, anderenfalls endet der Gesang. Der Buchfinkengesang beginnt meist
sehr schwach und erreicht die stärksten Signalamplituden erst mit der 2. oder 3.
Phrase. Des Weiteren benötigt der Gesang eine kleine Abklingzeit. Dem könnte man mit einem empfindlicheren Schwellwert entgegenwirken. Dabei besteht
allerdings die Gefahr, dass Hintergrundgesänge mitsegmentiert werden. Besser
ist es, den Gesang um die Dauer eines Zeitfensters τ früher beginnen bzw.
später enden zu lassen (Abbildung 2.1). Einkling- und Abklingvorgänge werden somit berücksichtigt und ebenso leisere Gesangsabschnitte, wie die ersten
Silben des Buchfinkengesangs. Der Schwellwert wird auf Θ = 0.1 festgesetzt
und die Dauer des Zeitfensters auf τ = 1 s.
Der sich so ergebende Signalausschnitt enthält den eigentlichen Gesang und
bildet die Grundlage der weiteren Verarbeitung.
Um eine Zuordnung von Ergebnissen zu einem späteren Zeitpunkt zur entsprechenden Aufnahme zu ermöglichen, ist es sinnvoll, das Zerlegungsergeb-
11
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
Abbildung 2.1: Ausschnitt einer Aufnahme mit Triggerschwelle. Der Schwellwert
Θ = 0.1 erfasst den Zeitabschnitt zwischen den gepunkteten Linien. Das Gesangsintervall wird um τ = ±1 s vergrößert.
nis in einer Markerdatei aufzubewahren. Diese Datei enthält den Dateinamen
der Aufnahme, sowie die Katalognummern der Gesänge und die begrenzenden
Abtastwerte, an denen die Aufnahme geschnitten wurde. Die Katalognummer
besteht aus einem zweistelligen Artenkürzel (FC), der fortlaufenden Nummer
einer Aufnahme bei 00 beginnend und der fortlaufenden Nummer eines gewonnenen Gesangs, z. B. FC0432 → Buchfink, 4. Aufnahme, 32. Gesang.
2.2.2 Die Stichproben
Mit der Zerlegung der Aufnahmen liegen nur noch einzelne Gesänge vor. Um
einen geeigneten Klassifikator entwerfen zu können, wird eine befundete Stichprobe benötigt, also eine Stichprobe mit Gesängen, deren Klassenzugehörigkeit
schon bekannt ist. Die Gesänge der Lernstichprobe bestimmen die Lage der
Klasse im späteren Merkmalsraum. Um die Güte der Klassifikation auf Basis
der befundeten Lernstichprobe zu ermitteln, ist eine weitere Stichprobe notwendig. Da möglichst alle Varianten eines Gesangs einer Art berücksichtigt
werden sollten, darf die Variabilität der Gesänge aufgrund eines großen Silbenspektrums keine Rolle spielen. Dennoch muss auf vollständige, möglichst
klare und saubere Gesänge Wert gelegt werden, was oft nur subjektiv, durch
12
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
einfaches Anhören, entschieden werden kann. Die Gesamtstichprobe wird anschließend zufällig in eine Lern- und eine Teststichprobe geteilt.
2.2.3 Gesangsbereinigung
Der Gesang des Buchfinken nimmt im Spektrum Frequenzen zwischen 2 000
und 8 000 Hz ein (Abbildung 2.2). Darunter sind keine Frequenzen aktiv, darüber nur die schwächeren Obertöne. Es genügt daher, den Frequenzbereich
zwischen 2 000 und 8 000 Hz zu betrachten und andere Frequenzen einfach
auszublenden. Vor allem Straßengeräusche, die in immer zunehmendem Maße
Aufnahmen verunreinigen, können somit leicht entfernt werden.
Abbildung 2.2: Betragsspektrum eines Buchfinkengesangs
13
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
2.3 Segmentierung
Die Aufgabe der Segmentierung besteht darin, zusammenhängende Regionen
in einem Signal zu identifizieren und zusammen zu fassen. So ist auch die
vorangegangene Zerlegung der Aufnahmen eine Segmentierung, bei der Einzelgesänge zusammengefasst wurden. Durch die Silbenstruktur der Gesänge
können diese allerdings noch weiter untergliedert werden in einzelne Silben. So
könnte man später Fremdsilben erkennen und verwerfen, einzelne Silben untersuchen, Wiederholungen von Silben oder sogar syntaktische Regeln einer Art
erkennen. Das setzt allerdings eine recht genaue und zuverlässige Segmentierung voraus, da sonst die segmentierten Silben trotz ihrer Ähnlichkeit mitunter
unterschiedliche parametrische Repräsentationen ergeben [5].
2.3.1 Silbengewinnung
Zuerst müssen die Silbengrenzen detektiert werden. Dazu wird das Signal in
sich überlappende Episoden1 unterteilt und diese anschließend in ein Spektrum
mittels einer FFT überführt. Die Episodendauer δ beträgt in dieser Arbeit 6
ms (288 Abtastwerte) und die einzelnen Episoden überlappen sich zu 75%. Die
Überlappung ist wichtig, weil sonst Signalabschnitte an den Episodengrenzen
nicht in ihrer Umgebung untersucht werden können, da diese zum Teil in benachbarten Episoden liegen. Durch das einfache „Heraustrennen“ der Episoden
aus dem Signal treten künstliche Diskontinuitäten im Spektrum auf, was sich
in hohen Frequenzanteilen bemerkbar macht. Dem wird durch Fensterung der
Episoden mit einem Von-Hann-Fenster entgegengewirkt [10].
Der zeitliche Verlauf der dominanten Amplituden aller Episodenspektren liefert ein neues Signal, anhand dessen die Segmentierung vorgenommen werden
kann. Das neue Episodensignal wird in dB und auf 0 normiert dargestellt. In
Abbildung 2.4 ist ein solches Episodensignal abgebildet. Die wichtigen Abschnitte sind bereits gut erkennbar.
1
kurze Beobachtungsintervalle gleicher Dauer
14
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
Abbildung 2.3: Signalabschnitt (Episode) nach der Fensterung mit einem VonHann-Fenster.
Zur eigentlichen Segmentierung kann wieder ein konstanter Schwellwert Θc
benutzt werden. Die sorgfältige Wahl des Schwellwertes hat entscheidenden
Einfluss auf das spätere Segmentierungsergebnis. Bei Θc = −70 dB werden
zwar die ersten Silben recht gut segmentiert, spätere Silben hingegen nur sehr
ungenau, wenn sie nicht sogar zu einer Silbe zusammengefasst werden. Mit
Θc = −50 dB werden die mittleren Silbengrenzen gut herausgebildet, aber die
ersten Silben werden nicht erkannt. Der Grund findet sich in der zeitlichen Entwicklung der Signalamplituden des Buchfinkengesangs. Wie bereits erwähnt,
beginnen Buchfinken meist recht schwach, um erst zur Mitte ihres Gesangs hin
das Maximum zu erreichen.
Als günstig erweist sich die Wahl des Schwellwertes mit Θc = −60 dB, um eine
gute Segmentierung schwächerer Silben zu erreichen. Zur Segmentierung der
lauteren Gesangsabschnitte ist ein adaptiver Schwellwert Θa sinnvoll, der sich
dem Signalverlauf anpasst. Dazu wird das Episodensignal mit einem gleitenden
Mittelwertsfilter (moving average filter) geglättet. In die Berechnung des adaptiven Schwellwertes Θa gehen 400 Episodenwerte ein. Die Ordnung des Filters
ist demnach 399 [10]. Abbildung 2.5 zeigt das Episodensignal mit den beiden
Schwellwerten und verdeutlicht bereits die Vorgehensweise der Segmentierung.
Episodenwerte gn bilden Silben, wenn sie beide Schwellwerte überschreiten.
Wurde noch keine Silbe segmentiert, so beginnt der Algorithmus mit einer
15
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
Abbildung 2.4: Das untere Diagramm zeigt ein Episodensignal als zeitlichen Verlauf der dominanten Amplituden der Episodenspektren. Im oberen
Diagramm ist das dazugehörige Zeitsignal des Gesangs dargestellt.
Silbe, sobald der erste Episodenwert beide Schwellwerte übersteigt. Befindet
sich der Algorithmus bereits in einer Silbe endet diese, wenn ein Wert diese
Bedingung nicht mehr erfüllt. Abbildung 2.6 zeigt das Ergebnis dieser Segmentierung.
2.3.2 Silbenbereinigung
Während der Segmentierung kann es oft passieren, dass Episodenwerte in der
Nähe der Schwellwerte schwanken und somit zu fehlerhaften Silben führen.
Dieser Effekt tritt häufig an Silbengrenzen auf. Um dennoch klare Silbengrenzen zu finden, bedarf es eines Algorithmus, der benachbarte Silbenkandidaten
zusammenfasst. Liegen sie dicht beieinander, werden Silben verbunden, wenn
16
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
Abbildung 2.5: Das Episodensignal, sowie der konstante Schwellwert Θc und der
adaptive Schwellwert Θa sind abgebildet. Silbenbildende Episodenwerte gn erfüllen die Bedingungen gn > Θc und gn > Θa . Zur Verdeutlichung des Prinzips wurden Episodenwerte entfernt, welche
die Bedingung nicht erfüllen.
nicht, handelt es sich auch tatsächlich um 2 Silben. Das Entscheidungskriterium ist also ein Zeitintervall, was in etwa der Dauer einer Pause zwischen
2 Silben entspricht. Wird das Intervall zu klein gewählt, verbessert sich das
Ergebnis kaum. Ist es dagegen zu groß, werden mehrere echte Silben zusammengefasst. Gerade bei sehr schneller Silbenfolge, wie man es in Abbildung 2.4
zwischen den Episodenwerten 1 100 und 1 300 sehen kann, passiert das recht
häufig. In dieser Arbeit hat ein Zeitintervall mit 14 Episodenwerten, das entspricht 21 ms, ein gutes Segmentierungsergebnis geliefert [5]. Abbildung 2.7
Abbildung 2.6: Vorläufige Silbenkandidaten
17
2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung
zeigt die bereinigten Silbengrenzen.
Abbildung 2.7: Das endgültige Segmentierungsergebnis und die ermittelten Silbengrenzen
Im Bereich sehr schneller Silbenfolgen kann eine Silbentrennung oft nicht erfolgen. Die Pausen zwischen den Silben schwanken daher im Bereich der erwähnten 21 ms. Im Vergleich zum restlichen Gesang ist die Zahl der „Triller“ recht
hoch, weshalb sich das Segmentierungsergebnis sehr stark auf die Gesamtsilbenzahl eines Gesangs auswirkt. Silben mit weniger als 512 Abtastwerten
(≈ 11 ms) müssen daher entfernt werden.
Das Verwerfen dieser Silben hat zusätzlich einen weiteren positiven Effekt.
Oft singen andere Vögel im Hintergrund und auch wenn sie nur schwach zu
vernehmen sind, kann es passieren, dass ihre Gesänge kurzzeitig einen Pegel
erreichen, der eine Segmentierung ermöglicht. Oft sind diese Silbenkandidaten
sehr kurz und können problemlos aussortiert werden.
18
3 Merkmalsgewinnung und
-reduktion
Eine direkte Klassifikation der Gesänge über deren Abtastwerte, also jeder
Abtastwert stellt ein Merkmal dar, ist aufgrund der Datenmenge und des Rechenaufwandes nicht sinnvoll. Der Buchfinkengesang dauert ca. 3,5 Sekunden,
was bei einer Abtastfrequenz von 48 000 Hz bereits 168 000 Abtastwerte sind.
Der Schritt der Merkmalsgewinnung dient daher vor allem der Datenreduktion. Es wird vorausgesetzt, dass ein Muster Merkmale besitzt, welche charakteristisch für das Muster und somit der späteren Klasse sind [12]. Die richtige
Parametrisierung der Muster durch Merkmale soll später eine Klassentrennung
ermöglichen. Da vorab noch nicht absehbar ist, wie signifikant die berechneten Merkmale für die Gesamtheit der Muster einer Klasse sind, werden diese anschließend auf die Fähigkeit zur Klassentrennung untersucht. Merkmale,
welche nicht oder nur kaum in der Lage wären, die Entscheidung der Klassenzuordnung zu beeinflussen, werden verworfen. Damit wird erreicht, dass zur
Klassifikation nur noch trennfähige Merkmale herangezogen und redundante
Merkmale aussortiert werden.
3.1 Merkmale des Spektrums
Die spektralen Merkmale werden aus dem Frequenzspektrum des Gesamtgesangs gewonnen. Dazu wird das Signal mittels einer FFT der Ordnung 48 000
(entspricht der Abtastfrequenz fa ) in ein Betragsspektrum überführt und das
19
3 Merkmalsgewinnung und -reduktion
sich ergebende Linienspektrum |X(fn )| in den Grenzen von 2 000 bis 8 000 Hz
entsprechend der Maximalamplitude auf 1 normiert. Somit ergibt sich eine
erste Reduktion der Datenmenge des Spektrums auf 48 000 Spektrallinien und
eine weitere Reduktion durch die Bandbegrenzung.
dominante Frequenz fD
Hierbei handelt es sich um die stärkste im Signal enthaltene Frequenz.
fD = f (max {|X(fn )|})
(3.1)
spektrale Energie Ef
Das Betragsquadrat des Spektrums |X(fn )|2 wird als spektrale Energiedichte
gedeutet. Dementsprechend ergibt sich die spektrale Energie aus der Summe
aller Frequenzamplituden. Um diese Energie vergleichbar zu machen, wird sie
auf die Anzahl der eingehenden Werte, in diesem Fall Frequenzen, normiert.
N −1
1 X
|X(fn )|2
Ef =
N − 1 n=0
(3.2)
mittlere Frequenz fx
Die mittlere Frequenz fx ist hier als erstes gewöhnliches Moment1 der normierten spektralen Energiedichtefunktion definiert. Sie gibt Auskunft darüber,
in welchem Frequenzbereich die Energie des Spektrums konzentriert ist. Man
kann die mittlere Frequenz fx auch als spektralen Schwerpunkt bezeichnen.
Der Mensch nimmt dies oft als Helligkeit eines Lautes wahr. Je höher eine
mittlere Frequenz ist, desto heller wirkt ein Laut [5].
N −1
1 X
fx =
|X(fn )|2 fn
Ef n=0
1
auch arithmetisches Mittel
20
(3.3)
3 Merkmalsgewinnung und -reduktion
Bandbreite ∆f
Die Bandbreite ∆f ist hier als zweites zentrales Moment der spektralen Energiedichte definiert und beschreibt die Kompaktheit des Spektrums eines Signals. Eine kleine Bandbreite beschreibt daher schmalbandige Signale, größere
Bandbreiten entsprechend breitere Spektren.
∆2f
N −1
1 X
=
|X(fn )|2 (fn − fx )2
Ef n=0
(3.4)
3.2 Merkmale des Zeitsignals
Die Merkmale des Zeitbereichs werden aus dem Intervall des Gesangs berechnet, welches durch die Silbengrenzen der ersten und letzten Silbe gebildet wird.
Erfordert das Merkmal eine Maßeinheit, dann wird dies im Folgenden immer
ms sein.
Silbenanzahl
Die durch die vorangegangene Segmentierung ermittelten Silben werden gezählt. Fehlerhafte Kandidaten werden durch die Silbenbereinigung im Anschluss der Segmentierung entfernt. Mitunter kann es vorkommen, dass dabei
auch echte, aber zu kurze Silben verworfen werden. Allerdings kann es dadurch
auch zu einer Varianzverringerung der Silbenzahl innerhalb einer Art kommen.
Sehr schnelle „Triller“-folgen werden oft als eine Silbe interpretiert, aber ab und
zu auch korrekt segmentiert. Dies würde das Merkmal Silbenanzahl stark variieren lassen, weshalb diese Schwellwertkandidaten entfernt werden.
Gesangsdauer
Dieses Merkmal bezeichnet das Gesangsintervall zwischen den äußeren Silbengrenzen.
durchschnittliche Silbendauer
Die durchschnittliche Silbendauer ist als arithmetisches Mittel über alle Silbenintervalle definiert.
21
3 Merkmalsgewinnung und -reduktion
maximale Silbendauer
Dieses Merkmal begründet sich über das Vorhandensein von ausgeprägten längeren Gesangsabschnitten, wie dem Finkenschlag. Das ist die Dauer der längsten Silbe.
Signalenergie E
Das Betragsquadrat |x(tn )|2 eines Energiesignals entspricht einer zeitlichen
Energiedichtefunktion. Die Signalenergie E ist dann die Summe aller quadrierten Abtastwerte eines Signals. Da die Signalenergie von der Signaldauer
abhängig ist, wird sie auf die Menge aller Abtastwerte normiert.
N −1
1 X
E=
|x(tn )|2
N − 1 n=0
(3.5)
mittlere Zeit tx
Analog zur mittleren Frequenz fx gibt die mittlere Zeit tx an, in welchem
Zeitbereich eine Energiekonzentration auftritt. Sie ist hier ebenfalls als erstes
gewöhnliches Moment definiert.
N −1
1 X
|x(tn )|2 tn
tx =
E n=0
(3.6)
Zeitdauer ∆t
Ebenfalls analog zur Bandbreite ∆f beschreibt die Zeitdauer ∆t die Kompaktheit des Signals im Zeitbereich. Sie entspricht dem zweiten zentralen Moment.
∆2t
N −1
1 X
=
|x(tn )|2 (tn − tx )2
E n=0
22
(3.7)
3 Merkmalsgewinnung und -reduktion
Zero Crossing Rate ZCR
Die Zero Crossing Rate ZCR bezeichnet die Anzahl der Nulldurchgänge eines
Signals, also den Vorzeichenwechsel benachbarter Abtastwerte, entsprechend
der Signaldauer T . Die ZCR ist der mittleren Frequenz fx sehr ähnlich, da
mit höherem fx auch die Zahl der Nulldurchgänge steigt.
N −1
1 X
I {x(tn ) x(tn−1 ) < 0}
ZCR =
T n=0
(
mit
I {A} =
1, wenn A = wahr
0, sonst
(3.8)
(3.9)
3.3 Merkmalsreduktion mit SAS
Diese 12 Merkmale werden für jeden Gesang der Lernstichprobe berechnet. Um
Merkmale hinsichtlich ihrer diskriminativen Stärke untersuchen zu können, befinden sich in der Lernstichprobe Gesänge einer weiteren Vogelart, welche die
2. Klasse bilden soll. Diese wird hier der Zaunkönig sein. Nicht jedes Merkmal ist geeignet, um einen Gesang einer dieser beiden Klassen zuordnen zu
können. Daher muss im Schritt der Merkmalsreduktion jedes einzelne Merkmal hinsichtlich der Signifikanz für eine Klassentrennung untersucht werden.
Es kann dabei durchaus passieren, dass keines der Merkmale die wichtigen
trennfähigen Informationen enthält. In diesem Fall müssen andere Merkmale
gefunden werden.
Das Statistikprogramm SAS bietet eine Funktion, welche die Aufgabe der
Merkmalsreduktion übernehmen kann, die Prozedur STEPDISC. Die Prozedur setzt multivariate Normalverteilung innerhalb der Gruppen und gleiche
Kovarianzmatrizen voraus. In das Modell werden Merkmale entsprechend eines Signifikanzniveaus eines F-Tests aus einer Kovarianzanalyse aufgenommen
23
3 Merkmalsgewinnung und -reduktion
oder entfernt. Dabei werden die bereits ausgewählten Merkmale als Kovariante für die Beurteilung nachfolgender Merkmale betrachtet [13]. Die einzelnen
Klassenzugehörigkeiten müssen dazu bekannt sein. Dementsprechend muss der
SAS-Datensatz nicht nur die Katalognummer des Gesangs und die jeweiligen
Merkmalsvektoren enthalten, sondern auch einen Hinweis auf die zugehörige
Vogelart. Eine Merkmalsreduktion einer Teststichprobe ist später nicht mehr
notwendig, da verworfene Merkmale gar nicht erst berechnet werden müssen.
Die Angabe Method spezifiziert hierbei die Selektionsmethode (Vorwärtsselektion) und Slentry das Signifikanzniveau 0 < p < 1 für die Hinzunahme von
Merkmalen zum Modell. Die Voreinstellung ist p = 0.15 und kann übernommen werden. Je größer p gewählt wird, desto schwächere Merkmale, hinsichtlich
der Signifikanz, werden aufgenommen. Die Anweisung CLASS muss angegeben
werden, da sie die Klassenzugehörigkeit der einzelnen Observationen angibt.
Die Anweisung VAR beinhaltet alle möglichen Merkmale, die für das Modell
zur Verfügung stehen, hier also alle 12 berechneten Merkmale.
Proc STEPDISC Data=Lern Method=Forward Slentry=0.15 Simple;
CLASS ART;
VAR COUNT LENGTH FPEAK ZCR E SE TX FX DT DF AVGL MAXL;
run;
Folgende 8 der 12 ursprünglichen Merkmale werden in das Modell aufgenommen, welches anschließend weiter untersucht wird:
• FX = die mittlere Frequenz fx
• DT = die Zeitdauer ∆t
• COUNT = die Silbenanzahl
• ZCR = die ZCR2
• TX = die mittlere Zeit tx
• SE = die spektrale Energie Ef
2
Zero Crossing Rate (Anzahl der Nulldurchgänge)
24
3 Merkmalsgewinnung und -reduktion
• E = die Signalenergie E
• FPEAK = die dominante Frequenz fD
4 Merkmale haben das Signifikanzniveau nicht erreicht und werden aus dem
Modell entfernt: die Gesangsdauer (LENGTH), die Bandbreite ∆f (DF), die durchschnittliche Silbendauer (AVGL), sowie die Dauer der längsten Silbe (MAXL).
25
4 Klassifikation und Ergebnisse
Unter Klassifikation versteht man die Zuordnung von Objekten zu einer Klasse
anhand ihrer Merkmale in Abhängigkeit zur Lage dieser Klasse.
Nachdem die Merkmale hinsichtlich ihrer Relevanz zur Klassentrennung geprüft wurden und ein geeignetes Modell entworfen wurde, kann dieses nun
weiter untersucht werden, um eine Diskriminanzfunktion zu finden. Mit Hilfe
dieser Diskriminanzfunktion können dann Objekte unbekannter Klassenzugehörigkeit klassifiziert, also den Klassen zugeordnet werden. Das Statistikprogramm SAS stellt für solche Aufgaben die Prozedur DISCRIM zur Verfügung,
mit der parametrische, wie auch nicht-parametrische Diskriminanzanalysen
durchgeführt werden können.
4.1 Maximum-Likelihood-Klassifikator mit
SAS
Die Maximum-Likelihood-Diskriminanzanalyse gehört zu den parametrischen
Klassifikationsverfahren und beruht somit auf parametrischen Wahrscheinlichkeitsdichten. Somit setzt dieses Verfahren multivariat normalverteilte Gesamtheiten voraus. Zur Klassifikation verwendet die Prozedur DISCRIM eine Diskriminanzfunktion, die der Diskriminanzanalyse nach Fisher [2] entspricht. So
wird eine kanonische Diskriminanzanalyse durch die SAS-Prozedur CANDISC
benutzt, welche allerdings nur die kanonischen Koeffizienten berechnet. Folgende Codefragmente berechnen jeweils 2 kanonische Merkmale aus den zuvor
26
4 Klassifikation und Ergebnisse
ermittelten relevanten Merkmalen der Lernstichprobe. Anschließend wird mit
der SAS-Prozedur DISCRIM die Lernstichprobe reklassifiziert, sowie eine Teststichprobe mit „unbekannten“ Objekten klassifiziert.
Proc CANDISC Data=Lern Out=Cdsc;
Stdmean Tcorr Tcov Ncan=2 Distance Simple All;
CLASS ART;
VAR FX DT COUNT ZCR TX SE E FPEAK;
run;
Proc GPLOT Data=Cdsc;
PLOT CAN2 * CAN1 = ART;
run;
Proc DISCRIM Data=Lern Testdata=Eval Method=normal;
canonical manova list testlist;
CLASS ART;
VAR FX DT COUNT ZCR TX SE E FPEAK;
run;
4.2 kNN-Klassifikator mit SAS
Kann man nicht von einer multivariat normalverteilten Gesamtheit ausgehen,
so kann man auch nicht auf parametrische Wahrscheinlichkeitsdichten zurückgreifen. Nicht-parametrische Klassifikationsverfahren schätzen daher die Dichten aus einer Stichprobe. Der Nächster-Nachbar-Klassifikator (kNN) ist ein
solches Verfahren. Dabei wird ein Objekt x der Klasse zugeordnet, deren k
Nachbarn dem Objekt am nächsten sind [6]. Folgender DISCRIM-Aufruf klassifiziert eine Stichprobe nach einem kNN-Verfahren mit k = 3 Nachbarn.
27
4 Klassifikation und Ergebnisse
Proc DISCRIM Data=Lern Testdata=Eval Method=npar k=3;
list testlist;
CLASS ART;
VAR FX DT COUNT ZCR TX SE E FPEAK;
run;
4.3 Ergebnisse
Die Prozedur CANDISC führt eine kanonische Diskriminanzanalyse nach Fisher
durch. Es werden 2 kanonische Variablen Can1 und Can2 berechnet, wobei das
diskriminative Gewicht auf Can1 liegt. Die Klassifizierung geschieht auf Basis
der Mahalanobis-Distanzfunktion zwischen Can1 und den zentrierten Klassenmittelpunkten. Die zweite Variable Can2 diskriminiert Klassenmittel, wenn
diese mit Can1 unkorreliert sind [14]. Da es hier nur um 2 Klassen geht, trägt
Can2 nichts zur Klassifikation bei und ist folglich bei beiden Klassenmittelpunkten Null (Tabelle 4.1).
FC
TT
Can1
-4.346945393
5.464731351
Can2
0.000000000
0.000000000
Tabelle 4.1: Klassenmittelwerte der Klassen Buchfink (FC) und Zaunkönig (TT)
mit Can1 und Can2.
Weiterhin gibt CANDISC die kanonischen Koeffizienten für Can1 und Can2 in
Rohform aus (Tabelle 4.2). Die kanonische Variable Can1 ergibt sich somit als
Linearkombination der ursprünglichen Merkmale gewichtet mit den berechneten Koeffizienten.
Es ist dabei zu beachten, dass die Klassenmittelpunkte von CANDISC zentriert
werden. Demzufolge muss der Linearkombination eine Konstante b0 hinzuaddiert werden, um die klassifizierten Objekte zu zentrieren. So wird eine kanonische Variable can1 mit den Merkmalen einer Untersuchung xn und den
entsprechenden kanonischen Koeffizienten bn wie folgt berechnet:
28
4 Klassifikation und Ergebnisse
FX
DT
COUNT
ZCR
TX
SE
E
FPEAK
Can1
0.0022709
0.0057652
-0.1239897
22.8414995
0.0010736
-120.1772201
-5.1764485
-0.0003910
Can2
-0.0011289
0.0024026
0.0886566
-34.9714092
-0.0006518
-139.9003803
-3.7005546
0.0009740
Tabelle 4.2: Die kanonischen Koeffizienten zur Ermittlung von Can1 und Can2 aus
den ursprünglichen Merkmalen.
can1 = b0 + b1 x1 + · · · + bn xn
(4.1)
In Abbildung 4.1 ist das Ergebnis von CANDISC dargestellt. Man sieht, dass
die diskriminative Stärke einzig und allein in der ersten kanonischen Variablen
Can1 zu finden ist.
Die Prozedur DISCRIM ist nun in der Lage, die Lernstichprobe zu reklassifizieren und zusätzlich auch unbefundete Stichproben mit dem von CANDISC
gelieferten Modell zu klassifizieren [14]. Wie man in Abbildung 4.1 leicht sieht,
ist die Reklassifizierung der Lernstichprobe wenig überraschend. Die Varianz
zwischen den Klassen ist groß und eine Überschneidung findet nicht statt.
Von 44 Buchfinken- und 35 Zaunköniggesängen werden alle auch den richtigen
Klassen zugeordnet. Interessanter ist allerdings die Klassifizierung befundeter
Teststichproben. In der Teststichprobe befinden sich 148 Buchfinkengesänge,
welche auch alle der Klasse „Buchfink“ zugeordnet werden. Die Korrektklassifikationsrate liegt also bei 100% (Abbildung 4.2). Man kann auch gut sehen,
dass die Klasse „Buchfink“ im Merkmalsraum sehr kompakt ist.
Eine weitere Teststichprobe enthält nur Zaunköniggesänge. Von 52 Zaunköniggesängen werden nur 42 auch der Klasse Zaunkönig zugeordnet. Tabelle 4.3
zeigt die Konfusionsmatrix K beider Teststichproben. Daraus ergibt sich die
Korrektklassifikationsrate κ = 95%.
29
4 Klassifikation und Ergebnisse
Abbildung 4.1: Merkmalsraum aus den kanonischen Merkmalen Can1 und Can2.
Die Klasse Buchfink (FC) ist schwarz und die Klasse Zaunkönig
(TT) rot dargestellt.
Die Klassifikation mit dem kNN-Klassifikator mit k = 3 liefert leicht bessere
Ergebnisse. Auch hier werden alle 148 Buchfinken korrekt klassifiziert. Von
den 52 Zaunkönigen werden nur 6 falsch klassifiziert (vorher 10). Die Korrektklassifikationsrate für diesen Klassifikator liegt bei 97%. Die besten Ergebnisse
liefert der Klassifikator mit k = 2 Nachbarn. Damit werden wieder alle Buchfinken korrekt klassifiziert, allerdings nur 4 Zaunkönige falsch. Die Rate liegt
bei 98%.
30
4 Klassifikation und Ergebnisse
Abbildung 4.2: Klassifikation einer befundeten Teststichprobe mit DISCRIM. Die
Objekte der Klasse Buchfink (FC) sind rot, die Objekte der Klasse
Zaunkönig (TT) grün und die Objekte der Teststichprobe schwarz
dargestellt.
4.4 Umsetzung des Klassifikators in Matlab
Die von CANDISC ermittelten kanonischen Koeffizienten (Tabelle 4.2), sowie die
zentrierten Klassenmittelpunkte der Klassen „Buchfink“ und „Zaunkönig“ m
~ FC
und m
~ T T (Tabelle 4.1) werden nach Matlab exportiert. Aus der Berechnung der
kanonischen Variablen jedes Objekts der Lernstichprobe mit Matlab ergeben
sich die nichtzentrierten Klassenmittel m
~ 0F C und m
~ 0T T . Der konstante Verschiebungsvektor zur Translation der Objekte im Merkmalsraum in Richtung der
zentrierten Klassenmittel ergibt sich aus:
31
4 Klassifikation und Ergebnisse
Aus
FC
TT
Total
nach FC
148
100.00
10
19.23
158
79.00
nach TT
0
0.00
42
80.77
42
21.00
Total
148
100.00
52
100.00
200
100.00
Tabelle 4.3: Konfusionsmatrix K mit 148 Buchfinken- und 52 Zaunköniggesängen
(unbefundet).
b~0 = m
~ FC − m
~ 0F C
(4.2)
Sind ~bi die kanonischen Koeffizienten des Merkmals xi , so errechnet sich der
neue Merkmalsvektor ~c eines Objekts nach:
~c = ~b0 +
N
X
xi ~bi
(4.3)
i=1
Die Klassifikation neuer Objekte basiert auf der euklidischen Distanzfunktion1
zwischen dem Objekt ~c und dem Klassenrepräsentanten2 m.
~ Das Objekt ~c wird
der Klasse zugeordnet, deren Klassenrepräsentant den geringsten Abstand zum
Objekt besitzt.
d(~c, m)
~ = |~c − m|
~ =
p
(c1 − m1 )2 + (c2 − m2 )2
(4.4)
Abschließend werden die unbefundeten Stichproben mit Matlab klassifiziert.
Das Ergebnis stimmt mit der Klassifikation durch SAS überein (Tabelle 4.3).
Auch wenn der Klassifikator und die zugrunde liegende Diskriminanzfunktion
problemabhängig sind, so können durchaus auch andere Vogelarten untersucht
1
2
Satz des Pythagoras
Klassenmittelpunkt
32
4 Klassifikation und Ergebnisse
werden. Es bietet sich an, die Klassifikationsvorschrift anzupassen, wenn Gesänge nicht mehr 2 Klassen zugeordnet werden sollen, sondern nur noch zur
Klasse „Buchfink“. Anderenfalls wird das Objekt zurückgewiesen. Die Klasse
der Buchfinken liegt im Merkmalsraum der beiden kanonischen Variablen sehr
kompakt, die innere Varianz der Klasse ist sehr gering. Eine weitere Klassifikationsvorschrift könnte lauten: Objekt ~c wird der Klasse „Buchfink“ zugeordnet,
wenn es eine Maximaldistanz von dmax = r zum Klassenmittelpunkt m
~ F C nicht
überschreitet. Der Radius der Klasse ist hier empirisch mit r = 2.5 angegeben.
Abbildung 4.3 und 4.4 zeigen das Klassifikationsergebnis der bereits erwähnten
Teststichproben mit Buchfinken- und Zaunköniggesängen, Abbildung 4.5 die
Klassifikation einer 3. Vogelart, des Baumpiepers (Anthus trivialis). Insgesamt
werden von 232 Gesängen nur 7 falsch klassifiziert. Die Korrektklassifikationsrate liegt bei 97%.
33
4 Klassifikation und Ergebnisse
Abbildung 4.3: Die Klasse „Buchfink“ ist mit einem Kreis mit dem Radius r = 2.5
dargestellt, rot die Klasse Zaunkönig. Die schwarzen Kreise zeigen die Testkandidaten (Buchfink). Von insgesamt 148 Gesängen
werden 5 nicht der Klasse zugeordnet.
34
4 Klassifikation und Ergebnisse
Abbildung 4.4: Die Testkandidaten (Zaunkönig) werden aufgrund der neuen Klassifikationsvorschrift nicht mehr als Buchfinken klassifiziert.
35
4 Klassifikation und Ergebnisse
Abbildung 4.5: Die schwarzen Kreise markieren eine fremde Vogelart, den Baumpieper. Mit dem euklidischen Abstandsklassifikator würden fast
alle Kandidaten der Buchfinkengruppe zugeordnet werden. Die
Baumpieper nehmen nur einen kleinen Bereich im Merkmalsraum
ein und überschneiden sich kaum mit den Buchfinken. Die Klassifikation über den Radius ordnet nur 2 der 32 Testkandidaten den
Buchfinken zu.
36
5 Zusammenfassung und
Ausblick
Unter der Voraussetzung klarer und störungsfreier Aufnahmen können Buchfinken und Zaunkönige anhand ihrer Gesänge mit guten Ergebnissen mittels
eines Klassifikators auf Basis der euklidischen Distanzfunktion klassifiziert werden. Mit einer Modifikation des Klassifikators durch Festlegung eines Distanzmaximums kann sogar eine fremde Vogelart, trotz problemabhängiger Diskriminanzanalyse von der Klasse „Buchfink“ ausgeschlossen werden. So wurden
mit dem ersten Klassifikator von 148 unbefundeten Buchfinkengesängen alle
der Klasse „Buchfink“ zugeordnet, von 52 unbefundeten Zaunkönigen immerhin
42 zur Klasse „Zaunkönig“. Die Korrektklassifikationsrate liegt hier bei 95%.
Mit dem 2. Klassifikator wurden zwar nur 143 der 148 Buchfinken korrekt klassifiziert, allerdings auch alle 52 Zaunkönige. Die Korrektklassifikationsrate liegt
hier bei 97,5%. Zur Klassifikation weniger Vogelarten unter der Voraussetzung
idealer Aufnahmen ist das System gut geeignet. Nachteilig ist allerdings, dass
die kanonische Diskriminanzanalyse problemabhängig ist. Weiterhin hat die
Größe der befundeten Trainingsdaten erheblichen Einfluss auf die ermittelten
Koeffizienten. Die Lernstichproben hatten einen Umfang von 44 Buchfinkenund 35 Zaunköniggesängen. Dennoch war das Klassifikationsergebnis erstaunlich gut.
Die Segmentierung der Gesänge in Silben liefert sehr gute Ergebnisse. Je
schmalbandiger die Gesänge werden, desto sicherer kann über die dominanten Amplituden der Episodenspektren segmentiert werden. Die Segmentierung
37
5 Zusammenfassung und Ausblick
bedarf größter Sorgfalt, da die anschließende Merkmalsgewinnung sehr sensibel auf schlechte Silbenergebnisse reagiert. Werden zu kurze Silbenkandidaten
nicht entfernt, kann es passieren, dass das Merkmal Silbenanzahl die diskriminative Wirkung verliert. Von 12 Merkmalen wurden 4 aufgrund fehlender
Signifikanz entfernt. Der Grund könnte ebenfalls in der vorausgegangenen Segmentierung zu finden sein. Liegen nämlich schnelle Silbenfolgen so dicht beieinander, dass sie zusammengefasst werden, dann hat das zwar nur geringe
Auswirkungen auf das Merkmal Silbenanzahl, aber Merkmale wie die Maximaldauer werden dadurch nicht mehr interpretierbar und variieren innerhalb
einer Art sehr stark. Das Merkmal durchschnittliche Silbendauer hingegen wird
tatsächlich aufgrund fehlender diskriminativer Information ausgeschlossen, da
Buchfinken- und Zaunkönigsilben im Mittel gleich lang sind.
Die Segmentierung bietet eine Basis für weitere Untersuchungen. So könnte
man Silbenwiederholungen finden oder einzelne Silben klassifizieren. So wäre
es sicher möglich, auch Fremdsilben auszusortieren und Vogelarten anhand von
Syntaxregeln ihres Gesangs zu identifizieren. Des Weiteren wäre eine Klassifikation über Silben robuster, wenn man zumindest Teile eines Gesangs findet.
Ein weiterer Nachteil der Klassifikation über globale Gesangsmerkmale ist, dass
strophensingende Vogelarten (Nachtigall ) so variabel singen, dass zum einen
die Gesangsabschnitte unterschiedlich lang sind und zum anderen immer wieder andere Silben auftauchen. Es ist zwar möglich den Gesang einer Nachtigall
zu segmentieren, aber sinnvolle arteigene Merkmale lassen sich daraus nicht
gewinnen. Hier wäre eine Analyse der einzelnen Silben ebenfalls empfehlenswert.
38
A Inhaltsverzeichnis der CD
\Matlab Matlab-Skripte zur Klassifikation unbefundeter Stichproben
\Lernstichprobe\FC befundete Gesänge des Buchfinken
\Lernstichprobe\TT befundete Gesänge des Zaunkönigs
\Teststichprobe\FC unbefundete Gesänge des Buchfinken
\Teststichprobe\TT unbefundete Gesänge des Zaunkönigs
\Teststichprobe\AT unbefundete Gesänge des Baumpiepers
\SAS SAS-Hauptprogramm und SAS-Dateien der Stichproben
\Studienarbeit die Studienarbeit im PDF-Format
Die Klassifikation wird mit den beiden Matlab-Skripten diskrim1.m oder diskrim2.m gestartet. Dabei können einzelne Gesänge im WAV-Format verarbeitet werden, wie auch ganze Verzeichnisse. Der Aufruf in Matlab ist wie folgt:
diskrim1 ’f’ ’C:\Gesang.wav’ ein einzelner Gesang
diskrim1 ’d’ ’C:\Stichprobe\’ ein Verzeichnis mit Gesängen
39
B Literaturverzeichnis
[1] Catchpole, C. K.: Bird song : Biological themes and variations. Cambridge University Press, 1995
[2] Duda, R. O.: Pattern Classification. 2. Auflage. John Wiley & Sons,
Inc., 2001
[3] Dufner, J.: Statistik mit SAS. B. G. Teubner Stuttgart, 1992
[4] Dunkel, V.: Wer singt denn da? In: NABU NATURSCHUTZ heute
(2006), 2
[5] Fagerlund, S.: Automatic Recognition of Bird Species by Their Sounds,
Helsinki University of Technology, Diplomarbeit, 2004
[6] Friedman, M.: Introduction to Pattern Recognition. World Scientific,
1999
[7] Graf, A.: Effektives Arbeiten mit SAS. B.I.-Wissenschaftsverlag, 1993
[8] Härmä, A.: Automatic identification of bird species based on sinusoidal modeling of syllables. In: IEEE Int. Conf. Acoustics, Speech, Signal
Processing (ICASSP 2003) (2003)
[9] Härmä, A.: Classification of the harmonic structure in bird vocalization.
In: IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP 2004)
(2004)
[10] Meffert, B.: Werkzeuge der Signalverarbeitung. Pearson Studium, 2004
[11] Naturschutz, Bundesamt für. Bioakustische Mustererkennung - Heft
16. 2005
40
B Literaturverzeichnis
[12] Niemann, H.: Klassifikation von Mustern. Springer Verlag, 1983
[13] Rudolph, P. E.: Diskriminanzanalyse mit SAS. – http://www.fbndummerstorf.de/de/forschung/fbs/fb2/rudolph/webda/inhalt/inhalt.htm
[14] SAS Institute Inc.: SAS/STAT User’s Guide, Version 8. SAS Institute
Inc., 1999
[15] Selin, A.: Bird sound recognition and classification using wavelets. In:
XX. International Bioacoustics Congress (2005)
41