Algorithmen zur Erkennung arttypischer Lautäußerungen von Vögeln
Transcription
Algorithmen zur Erkennung arttypischer Lautäußerungen von Vögeln
Algorithmen zur Erkennung arttypischer Lautäußerungen von Vögeln Studienarbeit im Rahmen des Diplomstudiengangs Informatik eingereicht am Institut für Informatik der Humboldt-Universität zu Berlin von . . . . . . . . . . . . . Daniel Kosellek geb. am . . . . . . . . . . . . . .19.11.1977 in . . . . . . . . . . . . . . . . . . . . Leningrad Betreuer: eingereicht am: Dr.-Ing. Olaf Hochmuth Dr. Karl-Heinz Frommolt ................ Inhaltsverzeichnis 1 Einleitung 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Gesangsstruktur des Buchfinken . . . . . . . . . . . . . . . . . . 1.3 Bisherige Arbeiten zur bioakustischen Artenerkennung . . . . . 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung 2.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . 2.2 Vorverarbeitung . . . . . . . . . . . . . . . . . . . . . 2.2.1 Zerlegung der Aufnahmen . . . . . . . . . . . 2.2.2 Die Stichproben . . . . . . . . . . . . . . . . . 2.2.3 Gesangsbereinigung . . . . . . . . . . . . . . . 2.3 Segmentierung . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Silbengewinnung . . . . . . . . . . . . . . . . 2.3.2 Silbenbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 9 10 10 11 11 12 13 14 14 16 3 Merkmalsgewinnung und -reduktion 19 3.1 Merkmale des Spektrums . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Merkmale des Zeitsignals . . . . . . . . . . . . . . . . . . . . . . 21 3.3 Merkmalsreduktion mit SAS . . . . . . . . . . . . . . . . . . . . 23 4 Klassifikation und Ergebnisse 4.1 Maximum-Likelihood-Klassifikator mit SAS 4.2 kNN-Klassifikator mit SAS . . . . . . . . . . 4.3 Ergebnisse . . . . . . . . . . . . . . . . . . . 4.4 Umsetzung des Klassifikators in Matlab . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 27 28 31 Inhaltsverzeichnis 5 Zusammenfassung und Ausblick 37 A Inhaltsverzeichnis der CD 39 B Literaturverzeichnis 40 4 Abbildungsverzeichnis 1.1 1.2 Zeitsignal eines Buchfinkengesangs . . . . . . . . . . . . . . . . Spektrogramm eines Buchfinkengesangs . . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 2.5 2.6 2.7 Signalausschnitt mit Triggerschwelle . Betragsspektrum . . . . . . . . . . . gefensterte Episode . . . . . . . . . . Episodensignal . . . . . . . . . . . . Episodensignal mit 2 Schwellwerten . Vorläufige Silbenkandidaten . . . . . Segmentierungsergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 15 16 17 17 18 4.1 4.2 4.3 4.4 4.5 Plot der Lernstichprobe mit CANDISC . . . . . . . . . . . Klassifikation einer Teststichprobe mit DISCRIM . . . . . Klassifikation mit Rückweisung mit Matlab - Buchfink . Klassifikation mit Rückweisung mit Matlab - Zaunkönig . Klassifikation mit Rückweisung mit Matlab - Baumpieper . . . . . . . . . . . . . . . . . . . . 30 31 34 35 36 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 1 Einleitung 1.1 Motivation Weltweit gibt es ca. 9 800 Vogelarten. Europa kann nur einen Bruchteil der Artenvielfalt bieten und doch fällt es dem Laien schwer, die häufigsten Vogelarten anhand ihres Gesangs bei einem Spaziergang im Park zu erkennen. Ornithologen dagegen können sehr ähnlich singende Vogelarten aufgrund jahrelanger Erfahrungen und Beobachtungen sehr wohl unterscheiden, aber auch sie sind nicht immer dort, wo gerade ein Vogel singt. Viele Eigenheiten der Vögel und Gegebenheiten der Umwelt erschweren zusätzlich ihre Arbeit. So gibt es Zugvögel, die nicht ganzjährig in unseren Breiten zu finden sind, Durchzügler, welche nur in einem sehr engen Zeitrahmen in Deutschland anzutreffen sind, Vogelarten, die nicht zu jeder Tageszeit singen, Arten, die sich vorwiegend in unwegsamem Gelände aufhalten und nicht zuletzt der Gesangschor eines Waldes, der das Heraushören einer Art noch schwieriger macht. Einige Arten, besonders seltenere Arten fallen nicht minder selten durch dieses Beobachtungsnetz, was eine Bestandsaufnahme der Vögel mitunter gar nicht ermöglicht. Ziel dieser Arbeit ist es, den Schritt hin zu einer automatisierten Erkennung von Vogelarten anhand ihres Gesangs zu erleichtern. Im Vordergrund steht dabei die Frage nach der Vogelart, welche zu hören ist. Exemplarisch soll dies an einer sehr häufigen und markant singenden Vogelart, dem Buchfinken gezeigt werden. Zur Klassifikation des Buchfinkengesangs wird eine zweite Klasse (Vogelart) benötigt. Diese wird in dieser Arbeit der Zaunkönig sein. Entsprechend 6 1 Einleitung der klassischen Mustererkennungskette werden nach einer kurzen strukturellen Analyse des Buchfinkengesangs, dieser segmentiert, Merkmale gewonnen und auf ihre Signifikanz bezüglich der Klassentrennfähigkeit untersucht und ausgewählt. Anschließend werden mit Hilfe von SAS verschiedene Klassifikatoren untersucht und deren Ergebnisse erläutert. 1.2 Gesangsstruktur des Buchfinken Der Buchfink (Fringilla coelebs) gehört in Europa zu den häufigsten Vogelarten und übertrifft dabei in seinem Bestand mit 5,6 bis 12,6 Millionen Brutpaaren [4] allein in Deutschland sogar die Zahl der noch bekannteren Haussperlinge. Sein Lebensraum erstreckt sich vom Wald bis in die Gärten und Parks von Siedlungen und Großstädten. Durch den großen Bestand, deren Nähe zum Menschen und wegen seines markanten Gesangs ist der Buchfink für Untersuchungen zur automatischen Gesangserkennung ideal geeignet, da Gesangsmaterial somit in großen Mengen vorhanden und auch leicht zu beschaffen ist. Im Laufe der Arbeit wird neben der Bezeichnung Buchfink auch des öfteren der lateinische Name Fringilla coelebs verwendet und an diesen Stellen mit FC abgekürzt. Insbesondere bei der Katalogisierung der Einzelgesänge zur Bildung der Stichproben, sowie als Kürzel der Artenbezeichnung für SAS wird darauf zurückgegriffen. Selbiges gilt für den Zaunkönig (Troglodytes troglodytes)1 . Grob kann man Lautäußerungen von Vögeln in Gesänge und Rufe unterteilen, wobei Rufe hier nicht weiter untersucht werden. Im Gegensatz zu Rufen, die meist sehr kurz und eine einfache Struktur aufweisen, sind Gesänge komplexer und variabler. Abbildung 1.1 und 1.2 zeigen jeweils das Zeitsignal und das dazugehörige Spektrogramm eines Buchfinkengesangs mit ca. 3 Sekunden Dauer. Man erkennt einzelne sich ähnelnde Abschnitte, die durch kurze Pausen getrennt sind. Im Spektrogramm wird diese Ähnlichkeit sogar noch etwas deutlicher. Diese kurzen Abschnitte werden als Silben bezeichnet, ganze Blöcke 1 TT 7 1 Einleitung aus sich wiederholenden Silben als Phrasen und die Gesamtheit aller Phrasen als Gesang [1]. Die Wahl der Silben, die Reihenfolge, sowie die Anzahl der Wiederholungen ist von Buchfink zu Buchfink unterschiedlich, das Spektrum an möglichen Silben selbst innerhalb einer Art sehr groß. Mitunter wird der Vogel auch im Gesang durch äußere Einflüsse gestört, so dass auch die Dauer und die Anzahl der Phrasen beeinträchtigt sein kann. Im Allgemeinen singt allerdings jeder Buchfink grob nach dieser Grundstruktur. Sehr markant ist die letzte einsilbige Phrase des Buchfinkengesangs und hat deshalb sogar einen eigenen Namen erhalten, der Finkenschlag. Ein typischer Buchfinkengesang besteht in der Regel aus 4 Phrasen mit jeweils 4 bis 6 Silbenwiederholungen pro Phrase und dauert in etwa 3 bis 3,5 Sekunden. Dabei beginnt der Vogel etwas verhalten und wird erst zur Mitte lauter. Abbildung 1.1: Zeitsignal eines Buchfinkengesangs Abbildung 1.2: Spektrogramm eines Buchfinkengesangs 8 1 Einleitung 1.3 Bisherige Arbeiten zur bioakustischen Artenerkennung Bisher gibt es nur wenige Studien zur bioakustischen Artenerkennung. In Finnland wurde von der Academy of Finland ein Forschungsprojekt namens Avesound 2 gegründet, dessen Schwerpunkt in der Entwicklung von Algorithmen zur automatischen Erkennung von Vogelarten über deren Gesänge liegt3 . Langfristig soll ein System entwickelt werden, das in der Lage ist, den Großteil der finnischen Vogelarten zu erkennen. A. Härmä untersuchte im Rahmen dieses Projektes, wie gut Vogelarten anhand einer Repräsentation der Silben über kurze frequenz- und amplitudenmodulierte Sinusimpulse klassifiziert werden können. Tests an 14 Vogelarten ergaben gute Klassifikationsergebnisse und zeigten, dass bereits auf Silbenbasis viele Arten identifiziert werden können [8]. Viele Vogelgesänge sind nicht rein sinusförmig, weisen allerdings klare harmonische Spektren auf. In einer späteren Arbeit von A. Härmä werden Wege erläutert, um Vogelgesänge anhand ihrer harmonischen Struktur zu klassifizieren [9]. S. Fagerlund segmentierte unharmonische Vogelgesänge und benutzte zur Klassifikation akustische Merkmale der segmentierten Silben. Die Ergebnisse zeigten, dass spektrale und temporale Merkmale gute diskriminative Stärken aufwiesen [5]. Ebenfalls im Rahmen dieses Projektes untersuchten A. Selin, J. Turunen und J. Tanttu die Erkennung und Klassifikation von Vogelgesängen mittels einer Signalanalyse durch Wavelets. Zur Klassifikation nutzten sie neuronale Netzwerke, ein überwachtes Multilayer-Perceptron (MLP) und eine unüberwachte self-organizing Map (SOM) und erreichten damit gute Ergebnisse [15]. Es existieren auch bereits kommerzielle Systeme zur bioakustischen Artenerkennung von Vögeln, wie das mobile Gerät Song Sleuth der amerikanischen Firma Wildlife Acoustics, Inc.4 oder das Softwareprodukt Vogelstimmen-Experte der Firma Sejona Software 5 . 2 Aves - lat. Vögel http://www.acoustics.hut.fi/research/avesound/avesound.html 4 http://www.wildlifeacoustics.com 5 http://www.sejona.com 3 9 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung 2.1 Datengrundlage Wie bereits angedeutet, ist der Buchfink aufgrund der Häufigkeit seiner Art geradezu ideal für Studien der automatischen Artenerkennung. Entsprechend große Datenmengen konnten somit bereits angelegt werden. Dieser Arbeit stehen 1 GB mit mehr als 3 Stunden Gesangsmaterial des Buchfinken des Tierstimmenarchivs des Biologischen Instituts der Humboldt-Universität zu Berlin zur Verfügung. Die Aufnahmen liegen in digitalisierter Form als Monosignal mit einer Abtastfrequenz von 48 000 Hz mit 16-Bit-Messwerten im Intervall von -1 bis 1 vor. Nach dem Abtasttheorem von Shannon benötigt man eine Abtastfrequenz, die mehr als dem Doppelten der höchsten im Signal vorkommenden Frequenzkomponente entspricht, um dieses rekonstruieren zu können [10]. Aus dem Spektrogramm des Buchfinken in Abbildung 1.2 kann man bereits ablesen, dass der Gesang in einem Frequenzband von 2 000 bis 8 000 Hz liegt, ohne Berücksichtigung der Obertöne. Die Qualität der Aufnahmen ist also ausreichend, da das Spektrum der Aufnahmen so Frequenzen von 0 bis 24 000 Hz enthalten kann. Sämtliche Audiodateien sind Langzeitaufnahmen mit mehreren aufeinanderfolgenden Gesängen, was eine Zerlegung in Einzelgesänge erforderlich macht. Auch das Gesangsmaterial des Zaunkönigs liegt in Form von Langzeitaufnahmen vor. Allerdings ist das Zaunkönigmaterial nicht sehr umfangreich, was leider den Umfang der Stichproben beschränkt. 10 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung 2.2 Vorverarbeitung Unter Vorverarbeitung versteht man Transformationen, die ein Muster in ein für die weitere Verarbeitung geeigneteres Muster überführen [12]. Dazu gehören die Zerlegung der Langzeitaufnahmen in Einzelgesänge, was die eigentlichen Muster erst bereitstellt, und die Entfernung von Störgeräuschen. 2.2.1 Zerlegung der Aufnahmen Um die Aufnahmen erfolgreich zerlegen zu können, bedarf es eines geeigneten Kriteriums zur Identifikation der wichtigen Signalabschnitte. Da die Hintergrundgeräusche und entfernte Vogelgesänge in der Regel leiser sind und somit kleinere Signalamplituden erzeugen als der interessierende Buchfinkengesang, bietet sich eine Segmentierung mittels eines Schwellwertes an. Ein Gesang beginnt, wenn ein Schwellwert Θ mit ansteigender Signalamplitude überschritten wird. Aufgrund der Silbenstruktur des Gesangs wird ein Zeitfenster der Dauer τ benötigt, in welchem mindestens ein Messwert den Schwellwert überschreiten muss, anderenfalls endet der Gesang. Der Buchfinkengesang beginnt meist sehr schwach und erreicht die stärksten Signalamplituden erst mit der 2. oder 3. Phrase. Des Weiteren benötigt der Gesang eine kleine Abklingzeit. Dem könnte man mit einem empfindlicheren Schwellwert entgegenwirken. Dabei besteht allerdings die Gefahr, dass Hintergrundgesänge mitsegmentiert werden. Besser ist es, den Gesang um die Dauer eines Zeitfensters τ früher beginnen bzw. später enden zu lassen (Abbildung 2.1). Einkling- und Abklingvorgänge werden somit berücksichtigt und ebenso leisere Gesangsabschnitte, wie die ersten Silben des Buchfinkengesangs. Der Schwellwert wird auf Θ = 0.1 festgesetzt und die Dauer des Zeitfensters auf τ = 1 s. Der sich so ergebende Signalausschnitt enthält den eigentlichen Gesang und bildet die Grundlage der weiteren Verarbeitung. Um eine Zuordnung von Ergebnissen zu einem späteren Zeitpunkt zur entsprechenden Aufnahme zu ermöglichen, ist es sinnvoll, das Zerlegungsergeb- 11 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung Abbildung 2.1: Ausschnitt einer Aufnahme mit Triggerschwelle. Der Schwellwert Θ = 0.1 erfasst den Zeitabschnitt zwischen den gepunkteten Linien. Das Gesangsintervall wird um τ = ±1 s vergrößert. nis in einer Markerdatei aufzubewahren. Diese Datei enthält den Dateinamen der Aufnahme, sowie die Katalognummern der Gesänge und die begrenzenden Abtastwerte, an denen die Aufnahme geschnitten wurde. Die Katalognummer besteht aus einem zweistelligen Artenkürzel (FC), der fortlaufenden Nummer einer Aufnahme bei 00 beginnend und der fortlaufenden Nummer eines gewonnenen Gesangs, z. B. FC0432 → Buchfink, 4. Aufnahme, 32. Gesang. 2.2.2 Die Stichproben Mit der Zerlegung der Aufnahmen liegen nur noch einzelne Gesänge vor. Um einen geeigneten Klassifikator entwerfen zu können, wird eine befundete Stichprobe benötigt, also eine Stichprobe mit Gesängen, deren Klassenzugehörigkeit schon bekannt ist. Die Gesänge der Lernstichprobe bestimmen die Lage der Klasse im späteren Merkmalsraum. Um die Güte der Klassifikation auf Basis der befundeten Lernstichprobe zu ermitteln, ist eine weitere Stichprobe notwendig. Da möglichst alle Varianten eines Gesangs einer Art berücksichtigt werden sollten, darf die Variabilität der Gesänge aufgrund eines großen Silbenspektrums keine Rolle spielen. Dennoch muss auf vollständige, möglichst klare und saubere Gesänge Wert gelegt werden, was oft nur subjektiv, durch 12 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung einfaches Anhören, entschieden werden kann. Die Gesamtstichprobe wird anschließend zufällig in eine Lern- und eine Teststichprobe geteilt. 2.2.3 Gesangsbereinigung Der Gesang des Buchfinken nimmt im Spektrum Frequenzen zwischen 2 000 und 8 000 Hz ein (Abbildung 2.2). Darunter sind keine Frequenzen aktiv, darüber nur die schwächeren Obertöne. Es genügt daher, den Frequenzbereich zwischen 2 000 und 8 000 Hz zu betrachten und andere Frequenzen einfach auszublenden. Vor allem Straßengeräusche, die in immer zunehmendem Maße Aufnahmen verunreinigen, können somit leicht entfernt werden. Abbildung 2.2: Betragsspektrum eines Buchfinkengesangs 13 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung 2.3 Segmentierung Die Aufgabe der Segmentierung besteht darin, zusammenhängende Regionen in einem Signal zu identifizieren und zusammen zu fassen. So ist auch die vorangegangene Zerlegung der Aufnahmen eine Segmentierung, bei der Einzelgesänge zusammengefasst wurden. Durch die Silbenstruktur der Gesänge können diese allerdings noch weiter untergliedert werden in einzelne Silben. So könnte man später Fremdsilben erkennen und verwerfen, einzelne Silben untersuchen, Wiederholungen von Silben oder sogar syntaktische Regeln einer Art erkennen. Das setzt allerdings eine recht genaue und zuverlässige Segmentierung voraus, da sonst die segmentierten Silben trotz ihrer Ähnlichkeit mitunter unterschiedliche parametrische Repräsentationen ergeben [5]. 2.3.1 Silbengewinnung Zuerst müssen die Silbengrenzen detektiert werden. Dazu wird das Signal in sich überlappende Episoden1 unterteilt und diese anschließend in ein Spektrum mittels einer FFT überführt. Die Episodendauer δ beträgt in dieser Arbeit 6 ms (288 Abtastwerte) und die einzelnen Episoden überlappen sich zu 75%. Die Überlappung ist wichtig, weil sonst Signalabschnitte an den Episodengrenzen nicht in ihrer Umgebung untersucht werden können, da diese zum Teil in benachbarten Episoden liegen. Durch das einfache „Heraustrennen“ der Episoden aus dem Signal treten künstliche Diskontinuitäten im Spektrum auf, was sich in hohen Frequenzanteilen bemerkbar macht. Dem wird durch Fensterung der Episoden mit einem Von-Hann-Fenster entgegengewirkt [10]. Der zeitliche Verlauf der dominanten Amplituden aller Episodenspektren liefert ein neues Signal, anhand dessen die Segmentierung vorgenommen werden kann. Das neue Episodensignal wird in dB und auf 0 normiert dargestellt. In Abbildung 2.4 ist ein solches Episodensignal abgebildet. Die wichtigen Abschnitte sind bereits gut erkennbar. 1 kurze Beobachtungsintervalle gleicher Dauer 14 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung Abbildung 2.3: Signalabschnitt (Episode) nach der Fensterung mit einem VonHann-Fenster. Zur eigentlichen Segmentierung kann wieder ein konstanter Schwellwert Θc benutzt werden. Die sorgfältige Wahl des Schwellwertes hat entscheidenden Einfluss auf das spätere Segmentierungsergebnis. Bei Θc = −70 dB werden zwar die ersten Silben recht gut segmentiert, spätere Silben hingegen nur sehr ungenau, wenn sie nicht sogar zu einer Silbe zusammengefasst werden. Mit Θc = −50 dB werden die mittleren Silbengrenzen gut herausgebildet, aber die ersten Silben werden nicht erkannt. Der Grund findet sich in der zeitlichen Entwicklung der Signalamplituden des Buchfinkengesangs. Wie bereits erwähnt, beginnen Buchfinken meist recht schwach, um erst zur Mitte ihres Gesangs hin das Maximum zu erreichen. Als günstig erweist sich die Wahl des Schwellwertes mit Θc = −60 dB, um eine gute Segmentierung schwächerer Silben zu erreichen. Zur Segmentierung der lauteren Gesangsabschnitte ist ein adaptiver Schwellwert Θa sinnvoll, der sich dem Signalverlauf anpasst. Dazu wird das Episodensignal mit einem gleitenden Mittelwertsfilter (moving average filter) geglättet. In die Berechnung des adaptiven Schwellwertes Θa gehen 400 Episodenwerte ein. Die Ordnung des Filters ist demnach 399 [10]. Abbildung 2.5 zeigt das Episodensignal mit den beiden Schwellwerten und verdeutlicht bereits die Vorgehensweise der Segmentierung. Episodenwerte gn bilden Silben, wenn sie beide Schwellwerte überschreiten. Wurde noch keine Silbe segmentiert, so beginnt der Algorithmus mit einer 15 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung Abbildung 2.4: Das untere Diagramm zeigt ein Episodensignal als zeitlichen Verlauf der dominanten Amplituden der Episodenspektren. Im oberen Diagramm ist das dazugehörige Zeitsignal des Gesangs dargestellt. Silbe, sobald der erste Episodenwert beide Schwellwerte übersteigt. Befindet sich der Algorithmus bereits in einer Silbe endet diese, wenn ein Wert diese Bedingung nicht mehr erfüllt. Abbildung 2.6 zeigt das Ergebnis dieser Segmentierung. 2.3.2 Silbenbereinigung Während der Segmentierung kann es oft passieren, dass Episodenwerte in der Nähe der Schwellwerte schwanken und somit zu fehlerhaften Silben führen. Dieser Effekt tritt häufig an Silbengrenzen auf. Um dennoch klare Silbengrenzen zu finden, bedarf es eines Algorithmus, der benachbarte Silbenkandidaten zusammenfasst. Liegen sie dicht beieinander, werden Silben verbunden, wenn 16 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung Abbildung 2.5: Das Episodensignal, sowie der konstante Schwellwert Θc und der adaptive Schwellwert Θa sind abgebildet. Silbenbildende Episodenwerte gn erfüllen die Bedingungen gn > Θc und gn > Θa . Zur Verdeutlichung des Prinzips wurden Episodenwerte entfernt, welche die Bedingung nicht erfüllen. nicht, handelt es sich auch tatsächlich um 2 Silben. Das Entscheidungskriterium ist also ein Zeitintervall, was in etwa der Dauer einer Pause zwischen 2 Silben entspricht. Wird das Intervall zu klein gewählt, verbessert sich das Ergebnis kaum. Ist es dagegen zu groß, werden mehrere echte Silben zusammengefasst. Gerade bei sehr schneller Silbenfolge, wie man es in Abbildung 2.4 zwischen den Episodenwerten 1 100 und 1 300 sehen kann, passiert das recht häufig. In dieser Arbeit hat ein Zeitintervall mit 14 Episodenwerten, das entspricht 21 ms, ein gutes Segmentierungsergebnis geliefert [5]. Abbildung 2.7 Abbildung 2.6: Vorläufige Silbenkandidaten 17 2 Aufbereitung der Aufnahmen zur Merkmalsgewinnung zeigt die bereinigten Silbengrenzen. Abbildung 2.7: Das endgültige Segmentierungsergebnis und die ermittelten Silbengrenzen Im Bereich sehr schneller Silbenfolgen kann eine Silbentrennung oft nicht erfolgen. Die Pausen zwischen den Silben schwanken daher im Bereich der erwähnten 21 ms. Im Vergleich zum restlichen Gesang ist die Zahl der „Triller“ recht hoch, weshalb sich das Segmentierungsergebnis sehr stark auf die Gesamtsilbenzahl eines Gesangs auswirkt. Silben mit weniger als 512 Abtastwerten (≈ 11 ms) müssen daher entfernt werden. Das Verwerfen dieser Silben hat zusätzlich einen weiteren positiven Effekt. Oft singen andere Vögel im Hintergrund und auch wenn sie nur schwach zu vernehmen sind, kann es passieren, dass ihre Gesänge kurzzeitig einen Pegel erreichen, der eine Segmentierung ermöglicht. Oft sind diese Silbenkandidaten sehr kurz und können problemlos aussortiert werden. 18 3 Merkmalsgewinnung und -reduktion Eine direkte Klassifikation der Gesänge über deren Abtastwerte, also jeder Abtastwert stellt ein Merkmal dar, ist aufgrund der Datenmenge und des Rechenaufwandes nicht sinnvoll. Der Buchfinkengesang dauert ca. 3,5 Sekunden, was bei einer Abtastfrequenz von 48 000 Hz bereits 168 000 Abtastwerte sind. Der Schritt der Merkmalsgewinnung dient daher vor allem der Datenreduktion. Es wird vorausgesetzt, dass ein Muster Merkmale besitzt, welche charakteristisch für das Muster und somit der späteren Klasse sind [12]. Die richtige Parametrisierung der Muster durch Merkmale soll später eine Klassentrennung ermöglichen. Da vorab noch nicht absehbar ist, wie signifikant die berechneten Merkmale für die Gesamtheit der Muster einer Klasse sind, werden diese anschließend auf die Fähigkeit zur Klassentrennung untersucht. Merkmale, welche nicht oder nur kaum in der Lage wären, die Entscheidung der Klassenzuordnung zu beeinflussen, werden verworfen. Damit wird erreicht, dass zur Klassifikation nur noch trennfähige Merkmale herangezogen und redundante Merkmale aussortiert werden. 3.1 Merkmale des Spektrums Die spektralen Merkmale werden aus dem Frequenzspektrum des Gesamtgesangs gewonnen. Dazu wird das Signal mittels einer FFT der Ordnung 48 000 (entspricht der Abtastfrequenz fa ) in ein Betragsspektrum überführt und das 19 3 Merkmalsgewinnung und -reduktion sich ergebende Linienspektrum |X(fn )| in den Grenzen von 2 000 bis 8 000 Hz entsprechend der Maximalamplitude auf 1 normiert. Somit ergibt sich eine erste Reduktion der Datenmenge des Spektrums auf 48 000 Spektrallinien und eine weitere Reduktion durch die Bandbegrenzung. dominante Frequenz fD Hierbei handelt es sich um die stärkste im Signal enthaltene Frequenz. fD = f (max {|X(fn )|}) (3.1) spektrale Energie Ef Das Betragsquadrat des Spektrums |X(fn )|2 wird als spektrale Energiedichte gedeutet. Dementsprechend ergibt sich die spektrale Energie aus der Summe aller Frequenzamplituden. Um diese Energie vergleichbar zu machen, wird sie auf die Anzahl der eingehenden Werte, in diesem Fall Frequenzen, normiert. N −1 1 X |X(fn )|2 Ef = N − 1 n=0 (3.2) mittlere Frequenz fx Die mittlere Frequenz fx ist hier als erstes gewöhnliches Moment1 der normierten spektralen Energiedichtefunktion definiert. Sie gibt Auskunft darüber, in welchem Frequenzbereich die Energie des Spektrums konzentriert ist. Man kann die mittlere Frequenz fx auch als spektralen Schwerpunkt bezeichnen. Der Mensch nimmt dies oft als Helligkeit eines Lautes wahr. Je höher eine mittlere Frequenz ist, desto heller wirkt ein Laut [5]. N −1 1 X fx = |X(fn )|2 fn Ef n=0 1 auch arithmetisches Mittel 20 (3.3) 3 Merkmalsgewinnung und -reduktion Bandbreite ∆f Die Bandbreite ∆f ist hier als zweites zentrales Moment der spektralen Energiedichte definiert und beschreibt die Kompaktheit des Spektrums eines Signals. Eine kleine Bandbreite beschreibt daher schmalbandige Signale, größere Bandbreiten entsprechend breitere Spektren. ∆2f N −1 1 X = |X(fn )|2 (fn − fx )2 Ef n=0 (3.4) 3.2 Merkmale des Zeitsignals Die Merkmale des Zeitbereichs werden aus dem Intervall des Gesangs berechnet, welches durch die Silbengrenzen der ersten und letzten Silbe gebildet wird. Erfordert das Merkmal eine Maßeinheit, dann wird dies im Folgenden immer ms sein. Silbenanzahl Die durch die vorangegangene Segmentierung ermittelten Silben werden gezählt. Fehlerhafte Kandidaten werden durch die Silbenbereinigung im Anschluss der Segmentierung entfernt. Mitunter kann es vorkommen, dass dabei auch echte, aber zu kurze Silben verworfen werden. Allerdings kann es dadurch auch zu einer Varianzverringerung der Silbenzahl innerhalb einer Art kommen. Sehr schnelle „Triller“-folgen werden oft als eine Silbe interpretiert, aber ab und zu auch korrekt segmentiert. Dies würde das Merkmal Silbenanzahl stark variieren lassen, weshalb diese Schwellwertkandidaten entfernt werden. Gesangsdauer Dieses Merkmal bezeichnet das Gesangsintervall zwischen den äußeren Silbengrenzen. durchschnittliche Silbendauer Die durchschnittliche Silbendauer ist als arithmetisches Mittel über alle Silbenintervalle definiert. 21 3 Merkmalsgewinnung und -reduktion maximale Silbendauer Dieses Merkmal begründet sich über das Vorhandensein von ausgeprägten längeren Gesangsabschnitten, wie dem Finkenschlag. Das ist die Dauer der längsten Silbe. Signalenergie E Das Betragsquadrat |x(tn )|2 eines Energiesignals entspricht einer zeitlichen Energiedichtefunktion. Die Signalenergie E ist dann die Summe aller quadrierten Abtastwerte eines Signals. Da die Signalenergie von der Signaldauer abhängig ist, wird sie auf die Menge aller Abtastwerte normiert. N −1 1 X E= |x(tn )|2 N − 1 n=0 (3.5) mittlere Zeit tx Analog zur mittleren Frequenz fx gibt die mittlere Zeit tx an, in welchem Zeitbereich eine Energiekonzentration auftritt. Sie ist hier ebenfalls als erstes gewöhnliches Moment definiert. N −1 1 X |x(tn )|2 tn tx = E n=0 (3.6) Zeitdauer ∆t Ebenfalls analog zur Bandbreite ∆f beschreibt die Zeitdauer ∆t die Kompaktheit des Signals im Zeitbereich. Sie entspricht dem zweiten zentralen Moment. ∆2t N −1 1 X = |x(tn )|2 (tn − tx )2 E n=0 22 (3.7) 3 Merkmalsgewinnung und -reduktion Zero Crossing Rate ZCR Die Zero Crossing Rate ZCR bezeichnet die Anzahl der Nulldurchgänge eines Signals, also den Vorzeichenwechsel benachbarter Abtastwerte, entsprechend der Signaldauer T . Die ZCR ist der mittleren Frequenz fx sehr ähnlich, da mit höherem fx auch die Zahl der Nulldurchgänge steigt. N −1 1 X I {x(tn ) x(tn−1 ) < 0} ZCR = T n=0 ( mit I {A} = 1, wenn A = wahr 0, sonst (3.8) (3.9) 3.3 Merkmalsreduktion mit SAS Diese 12 Merkmale werden für jeden Gesang der Lernstichprobe berechnet. Um Merkmale hinsichtlich ihrer diskriminativen Stärke untersuchen zu können, befinden sich in der Lernstichprobe Gesänge einer weiteren Vogelart, welche die 2. Klasse bilden soll. Diese wird hier der Zaunkönig sein. Nicht jedes Merkmal ist geeignet, um einen Gesang einer dieser beiden Klassen zuordnen zu können. Daher muss im Schritt der Merkmalsreduktion jedes einzelne Merkmal hinsichtlich der Signifikanz für eine Klassentrennung untersucht werden. Es kann dabei durchaus passieren, dass keines der Merkmale die wichtigen trennfähigen Informationen enthält. In diesem Fall müssen andere Merkmale gefunden werden. Das Statistikprogramm SAS bietet eine Funktion, welche die Aufgabe der Merkmalsreduktion übernehmen kann, die Prozedur STEPDISC. Die Prozedur setzt multivariate Normalverteilung innerhalb der Gruppen und gleiche Kovarianzmatrizen voraus. In das Modell werden Merkmale entsprechend eines Signifikanzniveaus eines F-Tests aus einer Kovarianzanalyse aufgenommen 23 3 Merkmalsgewinnung und -reduktion oder entfernt. Dabei werden die bereits ausgewählten Merkmale als Kovariante für die Beurteilung nachfolgender Merkmale betrachtet [13]. Die einzelnen Klassenzugehörigkeiten müssen dazu bekannt sein. Dementsprechend muss der SAS-Datensatz nicht nur die Katalognummer des Gesangs und die jeweiligen Merkmalsvektoren enthalten, sondern auch einen Hinweis auf die zugehörige Vogelart. Eine Merkmalsreduktion einer Teststichprobe ist später nicht mehr notwendig, da verworfene Merkmale gar nicht erst berechnet werden müssen. Die Angabe Method spezifiziert hierbei die Selektionsmethode (Vorwärtsselektion) und Slentry das Signifikanzniveau 0 < p < 1 für die Hinzunahme von Merkmalen zum Modell. Die Voreinstellung ist p = 0.15 und kann übernommen werden. Je größer p gewählt wird, desto schwächere Merkmale, hinsichtlich der Signifikanz, werden aufgenommen. Die Anweisung CLASS muss angegeben werden, da sie die Klassenzugehörigkeit der einzelnen Observationen angibt. Die Anweisung VAR beinhaltet alle möglichen Merkmale, die für das Modell zur Verfügung stehen, hier also alle 12 berechneten Merkmale. Proc STEPDISC Data=Lern Method=Forward Slentry=0.15 Simple; CLASS ART; VAR COUNT LENGTH FPEAK ZCR E SE TX FX DT DF AVGL MAXL; run; Folgende 8 der 12 ursprünglichen Merkmale werden in das Modell aufgenommen, welches anschließend weiter untersucht wird: • FX = die mittlere Frequenz fx • DT = die Zeitdauer ∆t • COUNT = die Silbenanzahl • ZCR = die ZCR2 • TX = die mittlere Zeit tx • SE = die spektrale Energie Ef 2 Zero Crossing Rate (Anzahl der Nulldurchgänge) 24 3 Merkmalsgewinnung und -reduktion • E = die Signalenergie E • FPEAK = die dominante Frequenz fD 4 Merkmale haben das Signifikanzniveau nicht erreicht und werden aus dem Modell entfernt: die Gesangsdauer (LENGTH), die Bandbreite ∆f (DF), die durchschnittliche Silbendauer (AVGL), sowie die Dauer der längsten Silbe (MAXL). 25 4 Klassifikation und Ergebnisse Unter Klassifikation versteht man die Zuordnung von Objekten zu einer Klasse anhand ihrer Merkmale in Abhängigkeit zur Lage dieser Klasse. Nachdem die Merkmale hinsichtlich ihrer Relevanz zur Klassentrennung geprüft wurden und ein geeignetes Modell entworfen wurde, kann dieses nun weiter untersucht werden, um eine Diskriminanzfunktion zu finden. Mit Hilfe dieser Diskriminanzfunktion können dann Objekte unbekannter Klassenzugehörigkeit klassifiziert, also den Klassen zugeordnet werden. Das Statistikprogramm SAS stellt für solche Aufgaben die Prozedur DISCRIM zur Verfügung, mit der parametrische, wie auch nicht-parametrische Diskriminanzanalysen durchgeführt werden können. 4.1 Maximum-Likelihood-Klassifikator mit SAS Die Maximum-Likelihood-Diskriminanzanalyse gehört zu den parametrischen Klassifikationsverfahren und beruht somit auf parametrischen Wahrscheinlichkeitsdichten. Somit setzt dieses Verfahren multivariat normalverteilte Gesamtheiten voraus. Zur Klassifikation verwendet die Prozedur DISCRIM eine Diskriminanzfunktion, die der Diskriminanzanalyse nach Fisher [2] entspricht. So wird eine kanonische Diskriminanzanalyse durch die SAS-Prozedur CANDISC benutzt, welche allerdings nur die kanonischen Koeffizienten berechnet. Folgende Codefragmente berechnen jeweils 2 kanonische Merkmale aus den zuvor 26 4 Klassifikation und Ergebnisse ermittelten relevanten Merkmalen der Lernstichprobe. Anschließend wird mit der SAS-Prozedur DISCRIM die Lernstichprobe reklassifiziert, sowie eine Teststichprobe mit „unbekannten“ Objekten klassifiziert. Proc CANDISC Data=Lern Out=Cdsc; Stdmean Tcorr Tcov Ncan=2 Distance Simple All; CLASS ART; VAR FX DT COUNT ZCR TX SE E FPEAK; run; Proc GPLOT Data=Cdsc; PLOT CAN2 * CAN1 = ART; run; Proc DISCRIM Data=Lern Testdata=Eval Method=normal; canonical manova list testlist; CLASS ART; VAR FX DT COUNT ZCR TX SE E FPEAK; run; 4.2 kNN-Klassifikator mit SAS Kann man nicht von einer multivariat normalverteilten Gesamtheit ausgehen, so kann man auch nicht auf parametrische Wahrscheinlichkeitsdichten zurückgreifen. Nicht-parametrische Klassifikationsverfahren schätzen daher die Dichten aus einer Stichprobe. Der Nächster-Nachbar-Klassifikator (kNN) ist ein solches Verfahren. Dabei wird ein Objekt x der Klasse zugeordnet, deren k Nachbarn dem Objekt am nächsten sind [6]. Folgender DISCRIM-Aufruf klassifiziert eine Stichprobe nach einem kNN-Verfahren mit k = 3 Nachbarn. 27 4 Klassifikation und Ergebnisse Proc DISCRIM Data=Lern Testdata=Eval Method=npar k=3; list testlist; CLASS ART; VAR FX DT COUNT ZCR TX SE E FPEAK; run; 4.3 Ergebnisse Die Prozedur CANDISC führt eine kanonische Diskriminanzanalyse nach Fisher durch. Es werden 2 kanonische Variablen Can1 und Can2 berechnet, wobei das diskriminative Gewicht auf Can1 liegt. Die Klassifizierung geschieht auf Basis der Mahalanobis-Distanzfunktion zwischen Can1 und den zentrierten Klassenmittelpunkten. Die zweite Variable Can2 diskriminiert Klassenmittel, wenn diese mit Can1 unkorreliert sind [14]. Da es hier nur um 2 Klassen geht, trägt Can2 nichts zur Klassifikation bei und ist folglich bei beiden Klassenmittelpunkten Null (Tabelle 4.1). FC TT Can1 -4.346945393 5.464731351 Can2 0.000000000 0.000000000 Tabelle 4.1: Klassenmittelwerte der Klassen Buchfink (FC) und Zaunkönig (TT) mit Can1 und Can2. Weiterhin gibt CANDISC die kanonischen Koeffizienten für Can1 und Can2 in Rohform aus (Tabelle 4.2). Die kanonische Variable Can1 ergibt sich somit als Linearkombination der ursprünglichen Merkmale gewichtet mit den berechneten Koeffizienten. Es ist dabei zu beachten, dass die Klassenmittelpunkte von CANDISC zentriert werden. Demzufolge muss der Linearkombination eine Konstante b0 hinzuaddiert werden, um die klassifizierten Objekte zu zentrieren. So wird eine kanonische Variable can1 mit den Merkmalen einer Untersuchung xn und den entsprechenden kanonischen Koeffizienten bn wie folgt berechnet: 28 4 Klassifikation und Ergebnisse FX DT COUNT ZCR TX SE E FPEAK Can1 0.0022709 0.0057652 -0.1239897 22.8414995 0.0010736 -120.1772201 -5.1764485 -0.0003910 Can2 -0.0011289 0.0024026 0.0886566 -34.9714092 -0.0006518 -139.9003803 -3.7005546 0.0009740 Tabelle 4.2: Die kanonischen Koeffizienten zur Ermittlung von Can1 und Can2 aus den ursprünglichen Merkmalen. can1 = b0 + b1 x1 + · · · + bn xn (4.1) In Abbildung 4.1 ist das Ergebnis von CANDISC dargestellt. Man sieht, dass die diskriminative Stärke einzig und allein in der ersten kanonischen Variablen Can1 zu finden ist. Die Prozedur DISCRIM ist nun in der Lage, die Lernstichprobe zu reklassifizieren und zusätzlich auch unbefundete Stichproben mit dem von CANDISC gelieferten Modell zu klassifizieren [14]. Wie man in Abbildung 4.1 leicht sieht, ist die Reklassifizierung der Lernstichprobe wenig überraschend. Die Varianz zwischen den Klassen ist groß und eine Überschneidung findet nicht statt. Von 44 Buchfinken- und 35 Zaunköniggesängen werden alle auch den richtigen Klassen zugeordnet. Interessanter ist allerdings die Klassifizierung befundeter Teststichproben. In der Teststichprobe befinden sich 148 Buchfinkengesänge, welche auch alle der Klasse „Buchfink“ zugeordnet werden. Die Korrektklassifikationsrate liegt also bei 100% (Abbildung 4.2). Man kann auch gut sehen, dass die Klasse „Buchfink“ im Merkmalsraum sehr kompakt ist. Eine weitere Teststichprobe enthält nur Zaunköniggesänge. Von 52 Zaunköniggesängen werden nur 42 auch der Klasse Zaunkönig zugeordnet. Tabelle 4.3 zeigt die Konfusionsmatrix K beider Teststichproben. Daraus ergibt sich die Korrektklassifikationsrate κ = 95%. 29 4 Klassifikation und Ergebnisse Abbildung 4.1: Merkmalsraum aus den kanonischen Merkmalen Can1 und Can2. Die Klasse Buchfink (FC) ist schwarz und die Klasse Zaunkönig (TT) rot dargestellt. Die Klassifikation mit dem kNN-Klassifikator mit k = 3 liefert leicht bessere Ergebnisse. Auch hier werden alle 148 Buchfinken korrekt klassifiziert. Von den 52 Zaunkönigen werden nur 6 falsch klassifiziert (vorher 10). Die Korrektklassifikationsrate für diesen Klassifikator liegt bei 97%. Die besten Ergebnisse liefert der Klassifikator mit k = 2 Nachbarn. Damit werden wieder alle Buchfinken korrekt klassifiziert, allerdings nur 4 Zaunkönige falsch. Die Rate liegt bei 98%. 30 4 Klassifikation und Ergebnisse Abbildung 4.2: Klassifikation einer befundeten Teststichprobe mit DISCRIM. Die Objekte der Klasse Buchfink (FC) sind rot, die Objekte der Klasse Zaunkönig (TT) grün und die Objekte der Teststichprobe schwarz dargestellt. 4.4 Umsetzung des Klassifikators in Matlab Die von CANDISC ermittelten kanonischen Koeffizienten (Tabelle 4.2), sowie die zentrierten Klassenmittelpunkte der Klassen „Buchfink“ und „Zaunkönig“ m ~ FC und m ~ T T (Tabelle 4.1) werden nach Matlab exportiert. Aus der Berechnung der kanonischen Variablen jedes Objekts der Lernstichprobe mit Matlab ergeben sich die nichtzentrierten Klassenmittel m ~ 0F C und m ~ 0T T . Der konstante Verschiebungsvektor zur Translation der Objekte im Merkmalsraum in Richtung der zentrierten Klassenmittel ergibt sich aus: 31 4 Klassifikation und Ergebnisse Aus FC TT Total nach FC 148 100.00 10 19.23 158 79.00 nach TT 0 0.00 42 80.77 42 21.00 Total 148 100.00 52 100.00 200 100.00 Tabelle 4.3: Konfusionsmatrix K mit 148 Buchfinken- und 52 Zaunköniggesängen (unbefundet). b~0 = m ~ FC − m ~ 0F C (4.2) Sind ~bi die kanonischen Koeffizienten des Merkmals xi , so errechnet sich der neue Merkmalsvektor ~c eines Objekts nach: ~c = ~b0 + N X xi ~bi (4.3) i=1 Die Klassifikation neuer Objekte basiert auf der euklidischen Distanzfunktion1 zwischen dem Objekt ~c und dem Klassenrepräsentanten2 m. ~ Das Objekt ~c wird der Klasse zugeordnet, deren Klassenrepräsentant den geringsten Abstand zum Objekt besitzt. d(~c, m) ~ = |~c − m| ~ = p (c1 − m1 )2 + (c2 − m2 )2 (4.4) Abschließend werden die unbefundeten Stichproben mit Matlab klassifiziert. Das Ergebnis stimmt mit der Klassifikation durch SAS überein (Tabelle 4.3). Auch wenn der Klassifikator und die zugrunde liegende Diskriminanzfunktion problemabhängig sind, so können durchaus auch andere Vogelarten untersucht 1 2 Satz des Pythagoras Klassenmittelpunkt 32 4 Klassifikation und Ergebnisse werden. Es bietet sich an, die Klassifikationsvorschrift anzupassen, wenn Gesänge nicht mehr 2 Klassen zugeordnet werden sollen, sondern nur noch zur Klasse „Buchfink“. Anderenfalls wird das Objekt zurückgewiesen. Die Klasse der Buchfinken liegt im Merkmalsraum der beiden kanonischen Variablen sehr kompakt, die innere Varianz der Klasse ist sehr gering. Eine weitere Klassifikationsvorschrift könnte lauten: Objekt ~c wird der Klasse „Buchfink“ zugeordnet, wenn es eine Maximaldistanz von dmax = r zum Klassenmittelpunkt m ~ F C nicht überschreitet. Der Radius der Klasse ist hier empirisch mit r = 2.5 angegeben. Abbildung 4.3 und 4.4 zeigen das Klassifikationsergebnis der bereits erwähnten Teststichproben mit Buchfinken- und Zaunköniggesängen, Abbildung 4.5 die Klassifikation einer 3. Vogelart, des Baumpiepers (Anthus trivialis). Insgesamt werden von 232 Gesängen nur 7 falsch klassifiziert. Die Korrektklassifikationsrate liegt bei 97%. 33 4 Klassifikation und Ergebnisse Abbildung 4.3: Die Klasse „Buchfink“ ist mit einem Kreis mit dem Radius r = 2.5 dargestellt, rot die Klasse Zaunkönig. Die schwarzen Kreise zeigen die Testkandidaten (Buchfink). Von insgesamt 148 Gesängen werden 5 nicht der Klasse zugeordnet. 34 4 Klassifikation und Ergebnisse Abbildung 4.4: Die Testkandidaten (Zaunkönig) werden aufgrund der neuen Klassifikationsvorschrift nicht mehr als Buchfinken klassifiziert. 35 4 Klassifikation und Ergebnisse Abbildung 4.5: Die schwarzen Kreise markieren eine fremde Vogelart, den Baumpieper. Mit dem euklidischen Abstandsklassifikator würden fast alle Kandidaten der Buchfinkengruppe zugeordnet werden. Die Baumpieper nehmen nur einen kleinen Bereich im Merkmalsraum ein und überschneiden sich kaum mit den Buchfinken. Die Klassifikation über den Radius ordnet nur 2 der 32 Testkandidaten den Buchfinken zu. 36 5 Zusammenfassung und Ausblick Unter der Voraussetzung klarer und störungsfreier Aufnahmen können Buchfinken und Zaunkönige anhand ihrer Gesänge mit guten Ergebnissen mittels eines Klassifikators auf Basis der euklidischen Distanzfunktion klassifiziert werden. Mit einer Modifikation des Klassifikators durch Festlegung eines Distanzmaximums kann sogar eine fremde Vogelart, trotz problemabhängiger Diskriminanzanalyse von der Klasse „Buchfink“ ausgeschlossen werden. So wurden mit dem ersten Klassifikator von 148 unbefundeten Buchfinkengesängen alle der Klasse „Buchfink“ zugeordnet, von 52 unbefundeten Zaunkönigen immerhin 42 zur Klasse „Zaunkönig“. Die Korrektklassifikationsrate liegt hier bei 95%. Mit dem 2. Klassifikator wurden zwar nur 143 der 148 Buchfinken korrekt klassifiziert, allerdings auch alle 52 Zaunkönige. Die Korrektklassifikationsrate liegt hier bei 97,5%. Zur Klassifikation weniger Vogelarten unter der Voraussetzung idealer Aufnahmen ist das System gut geeignet. Nachteilig ist allerdings, dass die kanonische Diskriminanzanalyse problemabhängig ist. Weiterhin hat die Größe der befundeten Trainingsdaten erheblichen Einfluss auf die ermittelten Koeffizienten. Die Lernstichproben hatten einen Umfang von 44 Buchfinkenund 35 Zaunköniggesängen. Dennoch war das Klassifikationsergebnis erstaunlich gut. Die Segmentierung der Gesänge in Silben liefert sehr gute Ergebnisse. Je schmalbandiger die Gesänge werden, desto sicherer kann über die dominanten Amplituden der Episodenspektren segmentiert werden. Die Segmentierung 37 5 Zusammenfassung und Ausblick bedarf größter Sorgfalt, da die anschließende Merkmalsgewinnung sehr sensibel auf schlechte Silbenergebnisse reagiert. Werden zu kurze Silbenkandidaten nicht entfernt, kann es passieren, dass das Merkmal Silbenanzahl die diskriminative Wirkung verliert. Von 12 Merkmalen wurden 4 aufgrund fehlender Signifikanz entfernt. Der Grund könnte ebenfalls in der vorausgegangenen Segmentierung zu finden sein. Liegen nämlich schnelle Silbenfolgen so dicht beieinander, dass sie zusammengefasst werden, dann hat das zwar nur geringe Auswirkungen auf das Merkmal Silbenanzahl, aber Merkmale wie die Maximaldauer werden dadurch nicht mehr interpretierbar und variieren innerhalb einer Art sehr stark. Das Merkmal durchschnittliche Silbendauer hingegen wird tatsächlich aufgrund fehlender diskriminativer Information ausgeschlossen, da Buchfinken- und Zaunkönigsilben im Mittel gleich lang sind. Die Segmentierung bietet eine Basis für weitere Untersuchungen. So könnte man Silbenwiederholungen finden oder einzelne Silben klassifizieren. So wäre es sicher möglich, auch Fremdsilben auszusortieren und Vogelarten anhand von Syntaxregeln ihres Gesangs zu identifizieren. Des Weiteren wäre eine Klassifikation über Silben robuster, wenn man zumindest Teile eines Gesangs findet. Ein weiterer Nachteil der Klassifikation über globale Gesangsmerkmale ist, dass strophensingende Vogelarten (Nachtigall ) so variabel singen, dass zum einen die Gesangsabschnitte unterschiedlich lang sind und zum anderen immer wieder andere Silben auftauchen. Es ist zwar möglich den Gesang einer Nachtigall zu segmentieren, aber sinnvolle arteigene Merkmale lassen sich daraus nicht gewinnen. Hier wäre eine Analyse der einzelnen Silben ebenfalls empfehlenswert. 38 A Inhaltsverzeichnis der CD \Matlab Matlab-Skripte zur Klassifikation unbefundeter Stichproben \Lernstichprobe\FC befundete Gesänge des Buchfinken \Lernstichprobe\TT befundete Gesänge des Zaunkönigs \Teststichprobe\FC unbefundete Gesänge des Buchfinken \Teststichprobe\TT unbefundete Gesänge des Zaunkönigs \Teststichprobe\AT unbefundete Gesänge des Baumpiepers \SAS SAS-Hauptprogramm und SAS-Dateien der Stichproben \Studienarbeit die Studienarbeit im PDF-Format Die Klassifikation wird mit den beiden Matlab-Skripten diskrim1.m oder diskrim2.m gestartet. Dabei können einzelne Gesänge im WAV-Format verarbeitet werden, wie auch ganze Verzeichnisse. Der Aufruf in Matlab ist wie folgt: diskrim1 ’f’ ’C:\Gesang.wav’ ein einzelner Gesang diskrim1 ’d’ ’C:\Stichprobe\’ ein Verzeichnis mit Gesängen 39 B Literaturverzeichnis [1] Catchpole, C. K.: Bird song : Biological themes and variations. Cambridge University Press, 1995 [2] Duda, R. O.: Pattern Classification. 2. Auflage. John Wiley & Sons, Inc., 2001 [3] Dufner, J.: Statistik mit SAS. B. G. Teubner Stuttgart, 1992 [4] Dunkel, V.: Wer singt denn da? In: NABU NATURSCHUTZ heute (2006), 2 [5] Fagerlund, S.: Automatic Recognition of Bird Species by Their Sounds, Helsinki University of Technology, Diplomarbeit, 2004 [6] Friedman, M.: Introduction to Pattern Recognition. World Scientific, 1999 [7] Graf, A.: Effektives Arbeiten mit SAS. B.I.-Wissenschaftsverlag, 1993 [8] Härmä, A.: Automatic identification of bird species based on sinusoidal modeling of syllables. In: IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP 2003) (2003) [9] Härmä, A.: Classification of the harmonic structure in bird vocalization. In: IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP 2004) (2004) [10] Meffert, B.: Werkzeuge der Signalverarbeitung. Pearson Studium, 2004 [11] Naturschutz, Bundesamt für. Bioakustische Mustererkennung - Heft 16. 2005 40 B Literaturverzeichnis [12] Niemann, H.: Klassifikation von Mustern. Springer Verlag, 1983 [13] Rudolph, P. E.: Diskriminanzanalyse mit SAS. – http://www.fbndummerstorf.de/de/forschung/fbs/fb2/rudolph/webda/inhalt/inhalt.htm [14] SAS Institute Inc.: SAS/STAT User’s Guide, Version 8. SAS Institute Inc., 1999 [15] Selin, A.: Bird sound recognition and classification using wavelets. In: XX. International Bioacoustics Congress (2005) 41