trimble s8 total station - Technische Universität Braunschweig

Transcription

trimble s8 total station - Technische Universität Braunschweig
Theorie und Anwendung lernender Algorithmen
in den Ingenieurs- und Naturwissenschaften
an der TU Braunschweig
MICHAEL HEINERT & BJÖRN RIEDEL (Herausgeber)
Geodätische Schriftenreihe Nr. 25
Institut für Geodäsie und Photogrammetrie
Technische Universität Carolo-Wilhelmina zu Braunschweig
Dr.-Ing. Michael Heinert
Dr.-Ing. Björn Riedel, Akad. OR
Institut für Geodäsie und Photogrammetrie
Gaußstraße 22
38106 Braunschweig
1. Auflage
Druckerei
Beyrich DigitalService GmbH & Co. KG
Bültenweg 73
38106 Braunschweig
ISBN-10
3-926146-20-6
ISBN-13
978-3-926146-20-5
Tagungsband anlässlich des Workshops zur
Theorie und Anwendung lernender Algorithmen
für Ingenieure und Naturwissenschaftler
der TU Braunschweig
(AI TUBS)
Organisation der Veranstaltung
Michael Heinert
Christa Homann
Wolfgang Schellin
Björn Riedel
Anja Heck
Mit freundlicher Unterstützung durch
Vorwort
Vor etwa einem dreiviertel Jahr titelte ein namhaftes deutsches Wochenjournal in der
Wissenschaftsrubrik: Tod den Tagungsbänden und man konnte ferner lesen:
Tagungsbände sind - neben Festschriften - der größte Gräuel der Wissenschaftsliteratur. Zunächst einmal verderben sie die Atmosphäre bei der
Tagung. Denn natürlich wird nun keiner mehr frei referieren wollen.
Was machen wir? Wir legen einen Tagungsband für einen neuen Workshop auf: Mit
Absicht und trotz der nicht völlig unberechtigten Kritik an den Tagungsbänden im
Allgemeinen.
Ja, die beteiligten Autoren – allesamt Angehörige verschiedener Fachbereiche unserer
altehrwürdigen Technischen Universität Carolo-Wilhelmina zu Braunschweig – haben
sich gemüht und sie haben den Stand ihres jeweiligen Forschungsprojektes, ihrer aktuellen Forschungsarbeit zu ihren Fragen, Problemen und Lösungsansätzen in der
künstlichen Intelligenz hierin zu Papier gebracht.
Denn heute haben in viele Arbeitsbereiche der Ingenieur- und Naturwissenschaften
lernende Algorithmen, Expertensysteme sowie nicht- oder semiparametrische Modellbildungen Einzug gehalten. Die Anwendung dieser Algorithmen ist fast immer nur ein
Nebenaspekt des jeweiligen Fachgebietes und einzelne Anwender oder auch kleine
Arbeitsgruppen stehen mit ihren spezifischen Fragen und Problemen oft allein. Diese
Veranstaltung – dokumentiert durch die in diesem Tagungsband befindlichen Beiträge – soll an unserer Universität eine Plattform bilden, um den interdisziplinären Austausch der Mitarbeiter über die Fakultätsgrenzen hinweg zu initiieren.
Damit spiegelt dieser Tagungsband das Bemühen aller Teilnehmer um eine gemeinsame (deutsche) Sprache für die fachübergreifenden Lösungen ähnlicher Probleme.
M. Heinert
B. Riedel
Braunschweig, den 15.06.2010
Inhalt
NIEMEIER, W. & HEINERT, M.
Anwendungen Künstlicher Intelligenz in der Geodäsie.................................................................
7
REICHEL, M. & BOTSCH, M.
Bestimmung eines geeigneten Merkmalsraums mittels lernender Algorithmen............................. 11
FLETLING, R.
Fuzzyclusterverfahren zur Datenanalyse....................................................................................... 13
BOLLMANN, S.
Anwendung von Support Vector Machines in der Fahrzeugnavigation........................................ 23
JENTSCH, C.
Hybride Bootstrapverfahren für Zeitreihendaten.......................................................................... 27
FIEBIG, S.
Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteil..................................... 33
MEISEL, ST.
Approximative Dynamische Programmierung für Vehicle Routing Probleme.............................. 38
POLACK, M., ZAGREBELSKY, M. & KORTE, M.
Zelluläre Grundlagen von Lernvorgängen im Gehirn.................................................................... 39
HEINERT, M.
Einblick in die Black Box neuronaler Netze................................................................................. 41
DEPPE, B. & KURRAT, M.
Künstliche Intelligenz in der Energieversorgung – Anwendung und Grenzen –............................ 54
KRÜGER, TH., KUHN, A., AXMANN, J. & VÖRSMANN, P.
Ein Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters.............. 61
MÜLLER, T.C.
Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen............. 71
Anwendungen Künstlicher Intelligenz in der Geodäsie
– Projekte und Trends –
Wolfgang Niemeier∗ , Michael Heinert∗
∗
Institut für Geodäsie und Photogrammetrie, Gaußstraße 22, 38106 Braunschweig
Zusammenfassung
the measurement process as well. On the other hand,
geodesists are asked for giving more information about
their results instead of only handing them out.
To understand the measurement results, analysis techniques and modelling are needed. The latter is not to
manage without the knowledge of other experts. Accordingly, the non-parametrical methods of artificial
intelligence offer the possibility of own solutions.
Within this presentation, a brief overview of successful
projects and further suitable developments will be given.
Seit etwas mehr als einem Jahrzehnt haben neue Ideen
in die mathematischen Anwendungen der Geodäsie gehalten. Verstanden sich die Vermesser früherer Zeiten
einzig als diejenigen, die Geometrien erfassen und anderen Fachdisziplinen diese Ergebnisse zur Verfügung
stellten, so gewinnt die Bewertung und Beurteilung
der Daten heute eine zunehmende Rolle. Einerseits
ist diese Beurteilung notwendig, um die Ergebnisse an
den zu beobachtenden Objekten besser verstehen zu
können. Denn hiermit kann die Qualität der Messergebnisse maßgeblich gesteigert werden, weil die Sensoren zielgerichteter eingesetzt werden können. Andererseits ist der Geodät heute zunehmend gefordert,
den beteiligten Fachleuten zusätzliche Informationen
zu seinen Ergebnissen zu übergeben.
Zur Beurteilung der Messergebnisse sind Analysen
und Modelle erforderlich. Letztere benötigen aber
oft detailliertes fremdes Fachwissen. Dieser Umstand
lässt sich mit nichtparametrischen Modellbildungen
der künstlichen Intelligenz umgehen.
Hier soll ein kurzer Überlick über bereits erfolgreiche Anwendungen der künstlichen Intelligenz gegeben
werden und auf zukünftige Anwendungsfelder hingewiesen werden.
1 Einleitung
In der geodätischen Praxis bestehen typische Ergebnisse aus Strecken, Richtungen und Winkeln
in der Natur, die den Genauigkeitsanforderungen
entsprechend in ausgeglichene Koordinaten überführt werden müssen. Dabei kommt eine Vielzahl von Sensoren zum Einsatz: klassischerweise
die Totalstation zur automatisierten Richtungsund Streckenmessung, aber erdgebunden auch
Laserscanner und neuerdings auch terrestrische
Radarinterferenztechniken. Daneben gibt es die
große Bandbreite von flugzeug- und satellitengestützten Systemen: klassischerweise die BildflugPhotogrammetrie, später Satellitenaltimeter und
Dopplersysteme, heutzutage natürlich diverse globale Navigationssatellitensysteme wie GPS und
Glonass sowie zukünftig auch Galileo und Compass.
Die Verschiedenheit dieser Systeme verlangt neben
dem handwerklichen Können ein breites Wissen
über atmosphärische Signalausbreitung, Bodenverhältnisse, Gründungsprobleme, Meeres- und Erdge-
Summary
Since more than decade, new ideas of mathematical
adaptations are introduced into geodesy. While surveyors in ancient times were only focussed on the determination of the Earth’s geometry and to hand out
their results to other experts, nowadays, the interpretion of the results becomes much more important.
On one hand, the interpretion of the results helps to
improve both the quality of the results directly and
7
8
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Eine neue Betrachtung in der Geodäsie ist, dass
beispielsweise das zu beobachtende Bauwerk ein
System ist [Heine 1999] und unsere Messergebnisse
nicht mehr und nicht weniger als die Realisierung
des Systemausgangs darstellen. Die Verformung geschieht nicht aus sich selbst heraus, sie ist vielmehr die Folge von Umwelteinflüssen und wirkenden Kräften. Zum Verständnis der Zeitreihen von
Messergebnissen sind also Systembeschreibungen
nötig. Diese bedingen wiederum die Erfassung eben
jener Umwelteinflüsse und wirkenden Kräfte. Gelingt dieses und gelingt eine nachhaltige Beschreibung der Eingangs-/Ausgangsbeziehung, so können
vertrauenswürdige Prädiktionen getroffen werden.
Weicht nun eine Vorhersage eines bislang erfolgreichen Vorhersagemodells von der realen Messung ab,
so ist das ein wichtiges Indiz für die Veränderung
des Systems, welche die Geodäten den jeweils anderen Experten mitteilen können.
System eingang
x1(t )
?
unbekannt
x2(t)
bekannte
SystemProzesse
S ystem ausgang
y1(t)
y2(t)
System
xm( t)
bek annt
...
2 Das Modell als Abbildung des Systems
Parametrische Modelle
...
zeiten und noch viele andere natürliche Phänome
der Umwelt, in welcher diese Sensoren zum Einsatz
kommen müssen.
Die reine Erfassung der Geometrie spielt zunehmend eine nachgeordnete Rolle. Sie weicht der Frage nach der Änderung der Geometrie. Hier beginnt die Schwierigkeit: Objekte, die es zu beobachten gilt, wie Gebäude, rutschungsgefährdete Hänge oder tektonisch aktive Zonen der Erdoberfläche,
benötigen zur Beurteilung der Resultate oft das
spezifische Fachwissen beispielsweise eines Bauingenieurs, Geologen oder Geophysikers. Schon das
Finden einer gemeinsamen Sprache zu der jeweiligen Nachbardisziplin ist eine Herausforderung. So
führen die Begriffe wie Genauigkeit, Zuverlässigkeit
oder Toleranz regelmäßig zu Misverständnissen. An
eine Übernahme des jeweiligen notwendigen Fachwissens zur Modellierung der Daten, um nötigenfalls auch aus dem Datenbestand Vorhersagen über
das beobachtete Objekt treffen zu können, ist kaum
zu denken. Das kann nur im Einzelfall gelingen.
Aus diesem Grunde sind nicht-parametrische Modelle auf der Grundlage künstlicher Intelligenz
zur Zustandsbeschreibung und Vorhersage außerordentlich attraktiv.
unbekannte
SystemProzesse
y m( t)
bek annt
?
unbekannt
Nicht-parametrische Modelle
-- -
0
+ ++
Abb. 1: Modellbildung zum Zweck der Überwachung
eines Systems: Es stehen parametrische und nichtparametrische Modelle zur Auswahl die entweder einzeln oder in Kombination zum Einsatz kommen können.
3 Anwendungsbeispiele
Einige Überwachungen sind bereits erfolgreich mit
Methoden der künstlichen Intelligenz unterstützt
worden. Das Mittel der Wahl sind neuronale Netze,
sowohl mehrschichtige feed-forward Netze als auch
Netze mit radialen Basisfunktionen, aber FuzzyRegelsysteme und Support Vector Regressionen
bieten für uns ein weites Anwendungsspektrum.
3.1 Brücke am Fallersleber Tor
Im Zeitraum von 1999 bis 2009 wurde durch unser
Institut die Brücke am Fallersleber Tor in Braunschweig dreimal täglich durch geodätische Messung
zu 180 Punkten überwacht. Für diese Punkte wurde nach jeder Messung ihre Position im örtlichen
Koordinatensystem errechnet, um lokale Veränderungen am Bauwerk nachweisen und bei deren Ausbleiben eine Grundlage für die Standsicherheitsbewertung des Bauwerkes erbringen zu können. Zur
Bewertung dieser Bewegungen ist exemplarisch für
einige Punkte ein neuronales Netz generiert worden, dass die Umwelteinflüsse (Temperatur, Luftdruck, Luftfeuchte) in kurzfristige Bewegungsanteile umsetzt. Die remantente Bauwerksbewegung ist
hier als Trendfunktion geschätzt worden. Im Bereich weniger Millimeter konnten hiermit Vorhersagen über die jeweiligen Punktbewegungen getrof-
Wolfgang Niemeier& Michael Heinert: Anwendungen Künstlicher Intelligenz in der Geodäsie
0,3
Bewegung [cm]
0,2
gemessen
9
modelliert
0,1
0
-0,1
-0,2
-0,3
2000
2001
2002
Trainingsintervall
2003
2004
Pradiktion
Abb. 2: Exemplarische Modellierung der Brückenbewegung: Modellbewegungen resultierend aus dem Einfluss von Temperatur, Luftdruck und Luftfeuchte (rosa) ergänzen die Trendschätzung (braun).
fen werden. Durch diese Untersuchung konnten wir
das Messrauschen auf den verschiedenen Punkten
am Bauwerk zum Großteil der Wettereinwirkung
zuordnen und andererseits die Trendschätzung von
Hebelwerten befreien [Miima 2002; Heinert &
Niemeier 2007].
3.2 Hangrutschung Baota
Eine komplexere Fragestellung ist die Modellierung des Geschwindigkeitsfeldes einer Hangrutschung. Hier ist exemplarisch die SV-Regression
an der Hangrutschung Baota im Einzugsgebiet des
Dreischluchten-Staubeckens am Jangtsekiang nahe
Yun Yang in China getestet worden (Abb. 3, links).
Mit dem Aufstauen des Dreischluchten-Stausees
hat sich der Wasserhaushalt im Hang bereits verändert und wird sich weiter verändern: Mehr Wasser
wird in den verschiedenen Schichten zurückgestaut
Abb. 3: Digitales Höhenmodell des Hanges Baota
[Riedel & Heinert 2008] und das gewählte Untersuchungsgebiet (magenta) am Jangtsekiang (weiß)
Abb. 4: Geschwindigkeitsfeld aus zwölf GPS-Stationen
(weiße Punkte) im rutschungsgefährdeten Hang Boata am Drei-Schluchten-Stausee: geringe bis schwach
negative Bewegung (blau–dunkelblau) bis zu einer maximalen gemessenen Bewegung von 25 mm/a
(rot).
werden und den Hang zunehmend und nachhaltig
destabilisieren.
Die Ausgangshypothese ist, dass das Geschwindigkeitsfeld auf dem Hang mit der Topographie, dem
Wasserhaushalt und der Oberflächenbeschaffenheit
des Hanges korreliert sein wird.
Als Eingangsdaten für diese Untersuchung standen aus ASTER-Satellitenmissionen eine Vielzahl
von Informationen zur Verfügung. Für das Gebiet stehen in einem etwa 50 m×50 m Raster Eingangsinformationen bereit. Zum einen sind Topografie, Hangneigungen und verschiedene Geländekrümmungen bekannt. An zwölf Punkten in der
rutschungsgefährdeten Zone sind GPS-Messungen
durchgeführt worden (Abb. 4, weiße Punkte). Daraus lassen sich über einen Epochenvergleich die Geschwindigkeiten an diesen diskreten Punkten errechnen.
Aus der SV-Modellierung hat sich ein durchaus
plausibles Geschwindigkeitsfeld für den Hang ergeben. Die höchsten Geschwindigkeiten treten unterhalb der Abrisszone auf (Abb. 4, rot – gelb). Die
Gebiete der höchsten Geschwindigkeit sind stark
zergliedert. Sie zeigen an, dass es verschiedene kleine Einzelabbrüche, Blöcke und Schollen gibt, was
den tatsächlichen örtlichen Gegebenheiten durchaus entspricht [Riedel & Heinert 2008].
10
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
4 Zukünftige Anwendungen
Eine breites Feld zur Modellierung bieten die sogenannten Geschwindigkeitsfelder, also die flächenhafte Information über Bewegungen. Es gibt aber
in aller Regel keine flächenhaften geometrischen Informationen. Hier können insbesondere RBF-Netze
nützliche Dienste zur Interpolation leisten. Denn
als weitere Eingangsdaten stehen beispielsweise die
Topographie – wo schon ein Berg ist, ist auch Hebung, sonst wäre er der Erosion schon zu Opfer
gefallen – aber auch Informationen zu Salzlagerstätten als Ursache für Salztektonik, Bodenarten,
tektonische Bruchkanten und vieles mehr flächenhaft zur Verfügung, um den Lernprozess zu stützen.
Ein neues Feld kann die Immobilienwertermittlung
im Vergleichswertverfahren sein. Diese geschieht in
Niedersachsen derzeit noch auf der Basis der multiplen Regression. Es gibt hierfür in der Zukunft aber
durchaus ein großes Potenzial zum Einsatz der Support Vector Machines.
Literatur
Heine, K. (1999): Beschreibung von Deformationsprozessen
durch Volterra- und Fuzzy-Modelle sowie Neuronale Netze. Dissertation. Deut. Geod. Kommission Reihe C 516,
München.
Heinert, M. & Niemeier, W. (2007): From fully automated observations to a neural network model inference: The
Bridge Fallersleben Gateïn Brunswick, Germany, 1999 –
2006. J. Appl. Geodesy 1: 71–80.
Miima, J. B. (2002): Artificial Neural Networks and Fuzzy
Logic Techniques for the Reconstruction of Structural Deformations. Dissertation. Geod. Schriftenr. Techn. Univ.
Braunschweig 18.
Riedel, B. & Heinert, M. (2008): An adapted support
vector machine for velocity field interpolation at Baota
landslide. In: Reiterer, A. & Egly, U.: Application
of Artificial Intelligence in Engineering Geodesy. Vienna:
101–116. ISBN 3-9501492-4-1.
Bestimmung eines geeigneten Merkmalsraums
mittels lernender Algorithmen
Michael Reichel∗ & Michael Botsch†
∗
Institut für Regelungstechnik (IfR)
†
AUDI AG, Ingolstadt
Zusammenfassung
onssystems auf neuen Daten zu bestimmen. Zweitens
braucht man einen Klassifikations- oder Regressionsalgorithmus, der selbst in hohen Dimensionen gut generalisiert. Drittens muss ein sequentielles Verfahren
angewendet werden, bei dem die Relevanz eines Merkmals – auch im Zusammenspiel mit anderen Merkmalen – quantifiziert wird. Die Merkmale, die ein
Klassifikations- oder Regressionsalgorithmus, im Folgenden mit f bezeichnet, als Eingang verwendet, werden in der Zufallsvariablen x zusammengefasst. Der
Ausgang wird mit der Zufallsvariablen y bezeichnet,
wobei bei Klassifikationsaufgaben der Wertebereich
von y eine endliche Menge von Klassen ist und bei Regressionsaufgaben die reellen Zahlen. Damit lässt sich
die Performance des Algorithmus f in dem Risikofunktional R(f ) darstellen: R(f ) = E {x, y} L(f (x, y),
wobei E {x, y} den Erwartungswert bezüglich der Zufallsvariablen x und y und L die sogenannte LossFunktion oder Straffunktion bezeichnen. Um die erste
Säule der Merkmalsselektion zu realisieren, ist also ein
Verfahren notwendig, dass R(f ) beruhend auf einer
begrenzten Anzahl an Beispielen (xm , ym ) schätzt.
Die am häufigsten verwendete Methode zur Schätzung von R(f ) ist das sogenannte Kreuzvalidierungsverfahren. Hier wird ein andere Methode, das sogenannte Bootstrap-Verfahren verwendet, da es sich im
Zusammenhang mit der Realisierung des Algorithmus
f als Ensemble Verfahren als besonders geeignet erweist. Die zweite Säule zur Umsetzung der Merkmalsselektion ist die Wahl eines Algorithmus der selbst
in hohen Dimensionen gut verallgemeinert. Ensemble Verfahren eignen sich hier besonders gut. Ein geeigneter Zugang um dieses Sachverhalt zu beleuchten, ist die sogenannte Bias-Variance Zerlegung des
Die Güte von lernenden Algorithmen, die zum Lösen von Klassifikations- oder Regressionsaufgaben verwendet werden, hängt maßgeblich von dem verwendeten Merkmalsraum ab. Es ist zum Beispiel möglich,
dass in einem geeigneten Merkmalsraum eine Aufgabe mit einem einfachen Entscheidungsbaum zu lösen
ist, während in einem ungünstig gewählten Merkmalsraum komplexere Lernalgorithmen wie Support Vector
Maschinen, neuronale Netze, etc. die Aufgabe nicht
mit gewünschter Güte lösen können. Das Finden eines geeigneten Merkmalsraums ist eine problemspezifische Aufgabe und aus diesem Grund stark an Expertenwissen gebunden. Unabhängig davon, ob für eine Aufgabe viel oder wenig Expertenwissen vorhanden ist, stellt sich jedoch immer die Frage, welche
der möglichen Merkmale zum Lösen des vorliegenden Problems relevant sind. Dieser Frage wird in diesem Beitrag nachgegangen und eine Methode vorgestellt, wie die Relevanz der einzelnen Merkmale quantifiziert werden kann. Abhängig von der ermittelten
Relevanz können Merkmale entfernt und damit die
Dimensionalitat des Merkmalsraums verkleinert werden. Diese im Folgenden als Merkmalsselektion bezeichnete Reduzierung führt im Allgemeinen zu einer
besseren Performance, da die Auswirkungen des „curse of dimensionality“ verringert werden. Im Vortrag
wird die Merkmalsselektion zunächst theoretisch beleuchtet, um in Anschluss anhand eines Praxisbeispiels
auf die Prozesskette und die gewonnenen Erfahrungen einzugehen. Die grundlegende Idee der hier vorgestellten Merkmalsselektion beruht auf drei Saulen.
Erstens muss es möglich sein, einen guten Schätzwert
der Performance des Klassifikations- oder Regressi-
11
12
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Risikofunktionals R(f ). Das Ensemble Verfahren das
hier vorgestellt wird, ist der Random Forest Algorithmus, ein Ensemble von „voll ausgewachsenen“ Entscheidungsbaumen.
Die letzte Säule in der Merkmalsselektion ist das selektive Verfahren zur Quantifizierung der Wichtigkeit der
einzelnen Merkmale. Folgende Vorgehensweise wird
hier angewendet: in einem ersten Schritt wird das Risikofunktional R(f ) geschätzt, man erhält den Wert
R′ f (f ). Anschließend wird in allen zur Verfügung stehenden Beispielen xm die Information aus dem i-ten
Merkmal, das ist der i-te Eintrag in den Vektoren xm ,
entfernt. Damit wird erneut mittels dem Algorithmus
f das Risikofunktional geschätzt und man erhält den
Wert R′ fi (f ). Die Differenz ∆i = R′ fi (f ) − R′ f (f )
ist ein Maß für die Wichtigkeit des i-ten Merkmals.
Je größer ∆i umso wichtiger ist das Merkmal.
Die Ergebnisse des an dieser Stelle präsentierten Beispiels entstanden im Rahmen der Forschung an Fahrerassistenzsystemen am Institut fur Regelungstechnik
in Zusammenarbeit mit der AUDI AG in Ingolstadt. Es
handelt sich dabei um die Aufgabe einer Klassifikation, die zum Ziel hat, eine Einfädelsituation im Stau
aus Sicht des eigenen Fahrzeuges zu detektieren.
Mit diesem Wissen ist es einem intelligenten Geschwindigkeitsregler (Adaptive Cruise Control ACC)
möglich, das Reißverschlussverfahren in seinem Verhalten zu berücksichtigen.
Anhand des Praxisbeispiels soll kurz die Prozesskette der gesamten Merkmalsselektion aufgezeigt werden. Hierzu gehören neben der im theoretischen Teil
beschriebenen automatisierten Merkmalsselektion die
initiale Merkmalsfindung sowie die Merkmalsbewertung durch einen Experten. Im Anschluss wird auf
die im Theorieteil aufgestellten drei Säulen der Merkmalsselektion eingegangen. Als Grundlage der Ermittlung der Klassifikatorgüte werden verschiedene LossFunktionen vorgestellt, die im Umfeld der Fahrerassistenzsysteme sinnvoll sind und auch als Anregung für
artfremde Themenfelder dienen sollen. Anhand dessen wird die Güte des Ensemble Verfahren Random
Forrest gegen weitere, einfache Verfahren sowohl auf
Test- als auch Trainingsdaten evaluiert. Anschließend
wird auf die Auswirkungen von Over- und Downsampling Strategien eingegangen, da diese die Klassifikatorgüte und damit die Merkmalsselektion ebenfalls beeinflussen. Die Ergebnisse der automatisierten Selektion
und die gemachten Erfahrungen bilden den Abschluss
des Vortrages.
Fuzzy-Clusterverfahren zur Datenanalyse
Rainer Fletling
Institut für Geodäsie und Photogrammetrie, Gaußstraße 22, 38106 Braunschweig
Zusammenfassung
ticular importance for the issue of interest are called features. From the mathematical viewpoint, these
features span a feature space, in which actual classification takes place. The similarity of the objects is
thus crucial for their class membership and has to be
computed by a suitable distance function. Since most
features are real-valued (or can be transformed into
such), the Eucleadian metric is normaly used.
Clusterverfahren sind automatische Klassifizierungsverfahren, die Objekte aufgrund formaler Ähnlichkeitskriterien in Klassen (sog. Cluster) zusammenfassen. Die Objekte werden dazu durch für die Aufgabenstellung besonders interessierende Eigenschaften (die
sog. Merkmale) repräsentiert. Mathematisch gesehen, spannen diese p Merkmale einen p-dimensionalen
Merkmalsraum auf und durch eine zu wählende Distanzfunktion, in der Regel die euklidische Distanz,
wird die Ähnlichkeit der Objekte im Merkmalsraum
bestimmt.
„Hard“ clustering methods assign an object to exactly
one particular class. However, such a strict classification is not appropriate in many cases. Consider, for instance, a situation in which only uncertain or imprecise
knowledge about the objects is available. Also, objects
that are located in the immediate surroundings of a
class boundary can often be assigned similarly well to
both classes on either side of the boundary. Fuzzy clustering methods assign an object not to exactly one
cluster but compute gradual degree of membership
values for each class. Objects whose features exhibit
a high similarity with the features of a particular cluster centre yield a high degree of membership for this
cluster, while objects with a low similarity correspondingly are assigned a low value. If c clusters are present
at the end of the clustering process, the clustering result for every object will be a vector of c degrees of
membership, as opposed to a unique assignment.
Die überwiegend verwendeten Clusterverfahren ordnen ein Objekt eindeutig einem oder manchmal auch
mehreren Clustern zu. Das heißt, das Objekt gehört
oder gehört nicht zu einem Cluster. Solch eine scharfe Zuordnung ist aber oftmals aufgrund ungenauem
oder unsicherem Wissen über das Objekt nicht sachgerecht. Ein Objekt welches dicht an einer Clustergrenze liegt, könnte oftmals genauso gut dem einen,
wie auch dem anderen Cluster zugeordnet werden.
Zur Lösung dieses Problems bieten sich die FuzzyClusterverfahren an, die graduelle Zugehörigkeiten der
Objekte in der Regel zu allen Clustern berechnen. Im
Gegensatz zu den scharfen Clusterverfahren gehört
hier jedes Objekt zu jedem Cluster, allerdings mit unterschiedlich hohen Zugehörigkeitswerten.
Summary
1 Prozess der Datenalayse
Clustering methods belong to the group of classification methods. Such methods classify data into homogeneous groups or classes by using formal criteria
and procedures. Here, data within a particular class
should be as similar as possible with respect to the
issue of interest, while data in different classes should
be distinct from each other. Objects (represented by
data) to be classified usually possesses a number of
distinct properties. Those properties that are of par-
In vielen Bereichen der Datenanalyse ist der in der
Abbildung 1 dargestellte Prozess zur Vorbereitung
effizienter Entscheidungen gängige Praxis. Dabei
geht es zum Einen darum, in großen Datenmengen
(unbekannte) Strukturen zu finden und damit deren Komplexität zu reduzieren oder zum Anderen
Daten bekannten Strukturen auf Grund von Erfahrungswissen zuzuordnen [Zimmermann 1993].
13
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
14
Wenn p die Anzahl der für die Betrachtung eines Objektes ausgewählten Merkmale ist, dann
spannen mathematisch gesehen diese Merkmale
einen p-dimensionalen Merkmalsraum auf, der als
p-dimensionaler euklidischer Raum verstanden werden kann. Ein Objekt lässt sich durch die Lage in
diesem Merkmalsraum beschreiben (siehe Abb. 2).
Problemanalyse
Merkmalsauswahl
Merkmal x2
Klassenbildung
5
7
6
10
3
9
Klassifizierung
11
2
Abb. 1: Prozess der Datenanalyse. [Zimmermann
1993]
Die zu analysierenden physikalischen Objekte oder
Vorgänge besitzen üblicherweise eine ganze Reihe
von Eigenschaften. Zur Untersuchung eines interessierenden Sachverhalts sind einige dieser Eigenschaften besonders typisch und diese typischen Eigenschaften nennt man Merkmale. Diese sind entweder direkt mit Hilfe von Sensoren beobachtet
oder aus der Beobachtung anderer Größen abgeleitet worden. Zur weiteren Datenanalyse fasst man
sie in einer Merkmals- oder Datenmatrix X zusammen [Bock 1974].

x1,1 · · ·
 ..
..
X = .
.
(p,n)
xp,1 · · ·
:
:
8
Merkmal x1
Abb. 2: Objekte in einem zweidimensionalen Merkmalsraum.
1.1 Merkmale
n
p
4
1

x1,n

..

.
xp,n
(1)
Anzahl der Objekte
Anzahl der Merkmale
Ein ausgewähltes Objekt i wird durch den Spaltenvektor:


x1,i


xi =  ... 
xp,i
Die Auswahl der richtigen Merkmale zur Untersuchung des interessierenden Sachverhaltes ist ein
sehr wichtiger und oftmals auch komplizierter Abschnitt innerhalb des Gesamtprozesses der Datenanalyse. Eine falsche Merkmalsauswahl kann unter
Umständen zu völlig falschen Analyseergebnissen
führen.
Um bestimmte Strukturen der Daten im Merkmalsraum zu erkennen, sind oftmals bestimmte Vorbehandlungen notwendig. Das können zum Beispiel
Korrektionen und Reduktionen an den Originalmesswerten sein, es können Mittelbildungen und
Transformationen oder auch Berechnungen abgeleiteter Größen stattfinden. Weiterhin können hier
auch noch Schwellwertoperationen, Normierungen
oder Abbildungen in einen gewünschten Wertebereich durchgeführt werden. Oft ergeben sich diese
Vorbehandlungen aus dem Kontext der Aufgabenstellung. Als Anwender sollte man sich aber immer
über die Sinnhaftigkeit und über die praktische Interpretierbarkeit der Ergebnisse Gedanken machen
[Bandemer 1997].
1.2 Klassifikation
(2)
beschrieben. Die Ausprägungen des Merkmals j für
alle Objekte sind in der j-ten Zeile von X enthalten.
Die Klassifikation bezeichnet einen Vorgang oder
eine Methode zur Einteilung von Objekten in Klassen. Eine Klasse bildet dabei eine Menge von Objekten, die möglichst ähnliche oder gleiche Ausprägungen ihrer Merkmale aufweisen. Objekte ver-
Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse
schiedener Klassen sollten möglichst unterschiedliche Ausprägungen ihrer Merkmale haben. Unter
dem Begriff Klassifikation versteht man nach Bock
[1974] sowohl das Einordnen eines Objektes in eine bereits bestehende Klassenstruktur als auch den
strukturbildenden Prozess der Entdeckung und Lokalisierung von Klassen.
Die Parameter der Klassengebiete (Klassenzentren
und Klassengrenzen) können je nach Anwendungsfall unterschiedlich bestimmt oder vorgegeben werden:
1. Liegen gänzlich unbekannte Strukturen vor,
können die Parameter im Klassifizierungsprozess automatisch als Unbekannte mit geschätzt
werden.
2. Liegen wiederkehrende Klassifizierungsaufgaben vergleichbarer Aufgabenstellungen vor,
werden die Parameter in der Regel anhand einer repräsentativen Stichprobe von Daten vorab geschätzt. Man spricht hier auch von „Lernen“ oder „Training“ [Duda et al. 2000] des
Klassifikators. Im späteren Klassifizierungsprozess werden diese Parameter dann konstant
gehalten.
3. Gibt es bereits zu Beginn der Klassifikationsaufgabe Expertenwissen über die Lage und
Form der zu erwartenden Klassen, so können
die Parameter auch direkt vorgegeben werden.
Ist unter 2. die Struktur der Stichprobe bekannt
und wird der Klassifikator in einem iterativen Prozess angelernt, bei dem die Ergebnisse mit den bekannten Strukturen der Stichprobe verglichen werden, so spricht man von „supervised learning“. Im
anderen Fall spricht man von „unsupervised learning“ [Duda et al. 2000].
Eine Klassifikation kann:
a) durch eine Expertenvorgabe oder
b) durch ein automatisches Klassenbildungsverfahren erfolgen.
Bei der Klassifikation durch eine Expertenvorgabe
erfolgt die gesamte Klassifizierung in der Regel anhand von inhaltlichen Kriterien. Es entstehen so genannte semantische Klassen, das heißt, dass die Objekte nach ihrem Sinn oder ihrer Bedeutung zusammengefasst werden. Diese Klassen sind direkt fachkundig interpretierbar. Zu dieser Kategorie zählen
15
auch die Verfahren, bei denen die Klassifizierung
anhand einer Regel- oder Wissensbasis erfolgt, in
der ein Expertenwissen abgelegt ist. Man spricht
hier auch von „Expertensystemen“ [Zimmermann
1993].
Bei den automatischen Klassenbildungsverfahren1
erfolgt die Klassifizierung dagegen aufgrund formaler Ähnlichkeitskriterien. Es entstehen sogenannte
natürliche Klassen, die nicht immer fachkundig interpretierbar sind und oftmals auch erst zur Hypothesenbildung genutzt werden.
Die automatischen Klassenbildungsverfahren werden auch als Clusterverfahren, die dabei entstehenden Klassen als Cluster bezeichnet. Diese Cluster
repräsentieren idealerweise relativ dichte Punktwolken von Objekten im p-dimensionalen Merkmalsraum, die durch Regionen mit einer geringeren Dichte voneinander getrennt sind. Sind diese
Grundvoraussetzungen nicht erfüllt, macht es wenig Sinn, eine Clusterung durchzuführen [Bacher
1996].
Wie bereits erwähnt, sollen Objekte innerhalb einer
Klasse möglichst ähnlich und in unterschiedlichen
Klassen möglichst verschieden sein. Die Ähnlichkeit
ist also ausschlaggebend für die Klasseneinteilung.
Sie wird bei metrischen Merkmalen oft über eine zu
wählende Distanzfunktion di,k im p-dimensionalen
Merkmalsraum berechnet. Je kleiner die Distanzen
der Merkmale, umso ähnlicher sind die Objekte.
Aufgrund der guten geometrischen Anschaulichkeit
findet in der Praxis überwiegend die Euklidische
Distanz Verwendung.
Die Anzahl der in der Literatur veröffentlichten Algorithmen zur Clusterung von Daten ist nahezu unüberschaubar [Jain et al. 2004]. Die größte Bedeutung haben die Gruppen der hierarchischen und der
partitionierenden Verfahren.
Der Name „Hierarchische Verfahren“ kommt dadurch zustande, dass bei diesen Verfahren Folgen
von Clustern auf unterschiedlichen Distanz- oder
Ähnlichkeitsebenen gebildet werden, die anschaulich in einer Hierarchie darstellbar sind. Es werden
fortgesetzt durch Vergrößerung oder Verkleinerung
des Distanzniveaus bereits bestehende Cluster fusioniert oder zerlegt. Der Prozess der Klassenbildung kann dabei nach zwei unterschiedlichen Konstruktionsprinzipien erfolgen:
1
Der Begriff „automatische Klassenbildungsverfahren“
schließt nicht aus, dass einige Parameter dieser Verfahren im Einzelfall auch durch Expertenvorgabe festgesetzt
werden können.
16
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
a) Agglomeratives Verfahren: Jedes Objekt xi
stellt zunächst ein eigenes Cluster dar. Diese Cluster werden anschließend durch schrittweise Vergrößerung des Distanzniveaus so lange miteinander fusioniert, bis eine vorgegebene Grenzdistanz zwischen zwei benachbarten
Clustern überschritten wird.
m
b) Divisives Verfahren: Hierbei bilden alle Objekte x1 . . . xn zunächst ein gemeinsames Cluster,
welches anschließend durch schrittweise Verkleinerung des Distanzniveaus so lange zerlegt
wird, bis die maximale Distanz von zwei Objekten innerhalb eines Clusters kleiner ist als
eine vorgegebene Grenzdistanz.
0
Bei den partitionierenden Verfahren werden eine feste Clusteranzahl und eine genäherte Zuordnung
der Objekte zu den Clustern vorgegeben. Ausgehend von dieser Startpartition wird durch schrittweises Umgruppieren der Objekte von einem Cluster zu einem anderen versucht, ein vorzugebendes Gütemaß oder eine Zielfunktion zu optimieren.
In einigen Literaturquellen (zum Beispiel [Bock
1974]) werden diese Verfahren deshalb auch als
„Iterative Verfahren“ bezeichnet.
2 Fuzzy-Clusterung
Nach der klassischen Cantorschen Mengentheorie
ist eindeutig entscheidbar, ob ein Objekt zu einer
Menge gehört oder nicht. Es gibt nur die zwei Zugehörigkeitswerte: es gehört zu einer Menge oder es
gehört nicht zu einer Menge. Dagegen können nach
der von [Zadeh 1965] eingeführten Fuzzy Theorie Objekte auch graduelle Zugehörigkeiten zu einer oder zu mehreren Mengen haben. Der Übergang
von Zugehörigkeit zu Nichtzugehörigkeit findet dabei nicht abrupt statt, sondern in einem allmählichen Übergang (siehe Abbildung 3). Man spricht
bei einer Zuordnung nach der Cantorschen Mengentheorie auch von einer scharfen Zuordnung und
bei der Fuzzy Theorie von einer unscharfen.
Die bisher beschriebenen (scharfen) Clusterverfahren ordnen ein Objekt entsprechend der Cantorschen Mengenlehre genau einem bestimmten Cluster zu. So eine strenge Zuordnung ist aber aus verschiedenen Gründen in vielen Fällen nicht sachgerecht, da z.B. nur unscharfes und/oder unsicheres
Wissen über das Objekt vorliegt. Man denke nur
an Objekte, die in direkter Nähe einer Clustergrenze liegen. Diese Objekte könnten oftmals genauso
scharf
1
unscharf
M
x
Abb. 3: Scharfe und unscharfe Zugehörigkeitsfunktionen zu einer Menge M.
gut dem einen wie auch dem anderen Cluster zugeordnet werden. Die unscharfen (fuzzy) Clusterverfahren ordnen dagegen ein Objekt nicht genau einem Cluster zu, sondern es werden für jedes Objekt
Zugehörigkeitswerte zu jedem Cluster berechnet.
Der Zugehörigkeitswert wird in der Literatur mit
dem griechischen Buchstaben µ bezeichnet. Objekte, deren Merkmale eine große Ähnlichkeit mit
den Merkmalen eines Clusterzentrums aufweisen,
bekommen einen relativ hohen Zugehörigkeitswert
zu diesem Cluster, Objekte deren Merkmale eine
geringere Ähnlichkeit aufweisen, bekommen einen
relativ niedrigen Zugehörigkeitswert. Das Ergebnis
der Clusterung ist für jedes Objekt keine eindeutige Zuordnung, sondern bei c Clustern ein Vektor von c Zugehörigkeitswerten. Bei mehreren zu
klassifizierenden Objekten erhält man eine Zugehörigkeitsmatrix wie sie beispielhaft in der Tabelle
1 zu sehen ist. Die Abbildung 4 zeigt beispielhaft
die Zugehörigkeitsfunktionen von drei unscharfen
Clustern über einem zweidimensionalen Merkmalsraum.
x1
x2
x3
x4
x5
x6
C1
C2
C3
C4
0,1
0,3
0,1
0,2
0,1
0,1
0,7
0,2
0,4
0,6
0,1
0,2
0,1
0,1
0,4
0,1
0,2
0,4
0,1
0,4
0,1
0,1
0,6
0,3
Tab. 1: Beispiel einer Zugehörigkeitsmatrix von 6 Objekten zu 4 Clustern.
Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse
17
Teilen jedem Cluster zugeordnet. In der Praxis wird
in der Regel der Wert w = 2 gewählt [Tilli 1993].
m
Für die Berechnung der Distanz di,k verwendet man
üblicherweise die Euklidische Distanz.
Die Anzahl der Cluster ist vorzugeben. Zur Bestimmung einer „optimalen“ Anzahl können bei niedrigdimensionalen Merkmalsräumen (≤ 3 Dimensionen) Visualisierungshilfsmittel nützlich sein, bei
höheren Dimensionen werden Lösungen mit unterschiedlichen Clusteranzahlen berechnet, die anschließend nach verschiedenen Kriterien bewertet
werden können. Hinweise hierzu sind in Höppner
et al. [1997] zu finden.
Mer
kma
l1
M
l2
ma
k
r
e
Abb. 4: Die Zugehörigkeitsfunktionen von drei unscharfen Clustern über einem zweidimensionalen
Merkmalsraum [Burmeister 1997].
2.1 Der Fuzzy-c-Means Algorithmus
Der Fuzzy-c-Means (FCM) Algorithmus [Bezdek
1973] ist sicherlich der am weitesten verbreitete Algorithmus zur unscharfen Clusterung von Objekten. In praktisch jeder Literaturquelle zu diesem
Thema wird er vorgestellt. In vielen Quellen sogar
als der einzige Vertreter. Er hat sich in der Praxis bei einer Vielzahl von Aufgabenstellungen als
ein sehr robustes und stabiles Clusterungsverfahren bewährt [Timm 2002].
Beim Fuzzy-c-Means wird eine Zielfunktion JF CM
unter Vorgabe einer Clusteranzahl und∑unter Beachtung der beiden Nebenbedingungen ci=1 µi,k =
1 und µi,k ∈ [0, 1] minimiert:
JF CM =
n ∑
c
∑
2
(µi,k )w · di,k
(ν i , xk )
(3)
k=1 i=1
w
di,k
νi
xk
:
:
:
:
Grad der Unschärfe („Fuzzyfier“)
(Euklidische) Distanz
Schwerpunkt des i-ten Clusters
k-tes Objekt
Der „Fuzzyfier“ w ∈ [1, ∞[ bestimmt den Grad der
Unschärfe des Clusterbildungsprozesses. Je größer
w ist, desto unschärfer fallen die Ergebnisse aus.
Für w → 1 ergibt sich eine scharfe Clustereinteilung und für w → ∞ wird jedes Objekt zu gleichen
Eine direkte analytische Lösung des Minimierungsproblems für die Zielfunktion gibt es nicht. Sie erfolgt daher in einem iterativen Prozess, in dem
abwechselnd die Zugehörigkeitswerte µi,k und die
Klassenschwerpunkte ν i optimiert werden.
Ablauf des Fuzzy-c-Means Algorithmus:
1. Schritt:
Ausgehend von Näherungswerten für die
Clusterschwerpunkte werden zunächst die
Zugehörigkeitswerte µi,k der einzelnen
Objekte zu den Clusterschwerpunkten νi
berechnet.
µi,k =
∑c
j=1
(
1
d2i,k (ν i ,xk )
d2j,k (ν j ,xk )
)
1
w−1
(4)
∀ i = 1, . . . , c ; ∀ k = 1, . . . , n
2. Schritt:
Aus den aktuellen Zugehörigkeitwerten
µi,k werden neue Clusterschwerpunkte
ν neu
berechnet.
i
ν neu
i
∑n
w
k=1 (µi,k ) · xk
= ∑
n
w
k=1 (µi,k )
(5)
∀ i = 1, . . . , c
Die Gleichung (5) ist eine gewichtete Mittelbildung der n Objekte xk . Die Zugehörigkeitswerte fungieren hier als Gewichte.
Dadurch wird bewirkt, dass Objekte mit
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
18
hohen Zugehörigkeitswerten zu dem entsprechenden unscharfen Cluster einen größeren Einfluss auf die Lage des zugehörigen Schwerpunktes haben als solche mit
niedrigen Zugehörigkeitswerten.
3. Schritt:
Es wird geprüft, ob die Summe der komponentenweisen Distanzen zweier aufeinander folgender Clusterschwerpunktsmatrizen N kleiner ist als eine Konvergenzschwelle ϵ.
Falls ∥N neu − N ∥ > ϵ, setze N = N neu
und fahre fort mit Schritt 1. Andernfalls
beende die Iteration.
Für den Fall, dass ein Objekt mit einem Clusterschwerpunkt identisch ist, ergibt sich eine entartete
Lösung. In diesem Fall wird das Objekt dem entsprechenden Cluster scharf zugewiesen.
Es ist bewiesen, dass die Iterationsfolge des Algorithmus konvergiert. Es ist aber nicht bewiesen,
dass das globale Minimum gefunden wird. Abhängig von den Näherungswerten können eventuell nur
lokale Minima gefunden werden. Daher kann es
sinnvoll sein, den Algorithmus mit unterschiedlichen Initialisierungen auszuführen und die Ergebnisse zu bewerten.
Der größte Nachteil dieses Algorithmus ist, dass er
unabhängig von der tatsächlichen Verteilung der
Objekte im Merkmalsraum, bei Verwendung des
euklidischen Abstandes hyperkugelförmige Cluster
bildet, die alle die gleiche Größe haben.
„Die Grenzen seiner Leistungsfähigkeit erreicht der Fuzzy-c-Means bei Clustern unterschiedlicher Form, Größe und Dichte.“
[Höppner et al. 1997]
Um den Nachteil des Fuzzy-c-Means Algorithmus
bezüglich der Bildung von hyperkugelförmigen Clustern auszugleichen, wurden im Laufe der Zeit
Modifikationen entwickelt. Als Beispiele werden
der Gustafson-Kessel Algorithmus und der GathGeva Algorithmus vorgestellt. Der iterative Berechnungsablauf in dem abwechselnd die Zugehörigkeitswerte µi,k und die Klassenschwerpunkte ν i
optimiert werden, wird bei beiden Algorithmen
beibehalten. Es werden allerdings gegenüber dem
Fuzzy-c-Means Algorithmus andere Distanzfunktionen verwendet.
2.2 Der Gustafson-Kessel Algorithmus
Durch die Verwendung einer modifizierten Mahalanobisdistanz bildet der Gustafson-Kessel Algorithmus [Gustafson und Kessel 1979] hyperellipsoidische Cluster gleicher Größe im Merkmalsraum. Während beim Fuzzy-c-Means Algorithmus der Schwerpunkt ν i als Prototyp des jeweiligen Clusters i angesehen werden kann, gehört bei Verwendung des Gustafson-Kessel Algorithmus die Angabe der von Gustafson und
Kessel Fuzzy-Kovarianzmatrix genannten Matrix
Cov i nach Gleichung (7) mit dazu. Der Schwerpunkt beschreibt dabei die Lage im Merkmalsraum und die Fuzzy-Kovarianzmatrix die Form
des Clusters. Analog zu dem Fuzzy-c-Means Algorithmus wird angenommen, dass alle Cluster
die gleiche Größe haben. Das erreicht man dadurch, dass man die Determinante der FuzzyKovarianzmatrizen für alle Cluster gleich setzt. Üblicherweise wird det(Cov i ) = 1 gewählt [Timm
2002].
Die modifizierte Mahalanobisdistanz sieht beim
Gustafson-Kessel Algorithmus daher wie folgt aus:
√
di,k =
det(Cov i ) c (xk − ν i )T Cov −1
i (xk − ν i )
(6)
1
Ablauf des Gustafson-Kessel Algorithmus:
1. Schritt:
Ausgehend von Näherungswerten für die
Clusterschwerpunkte ν i werden zunächst
nach Gleichung (4) die Zugehörigkeitswerte µi,k der einzelnen Objekte zu den
Clustern berechnet. Hierzu wird im ersten Iterationsschritt die euklidische Distanz verwendet. In den weiteren Iterationsschritten wird die modifizierte Mahalanobisdistanz nach Gleichung (6) benutzt.
2. Schritt:
Aus den aktuellen Zugehörigkeitwerten
µi,k werden neue Clusterschwerpunkte
ν neu
nach Gleichung (5) berechnet.
i
3. Schritt:
Berechnung
der
aktuellen
neu
Fuzzy-Kovarianzmatrizen Cov i :
Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse
∑n
Cov neu
=
i
(
k − ν i )(xk
n
w
k=1 (µi,k )
)w (x
k=1 (µi,k∑
− νi
)T
di,k =
19
p
(2π) 2
(7)
∀ i = 1, . . . , c
4. Schritt:
Es wird geprüft, ob die Summe der komponentenweisen Distanzen zweier aufeinander folgender Clusterschwerpunktsmatrizen N kleiner ist als eine Konvergenzschwelle ϵ.
Falls ∥N neu − N ∥ > ϵ, setze N = N neu
und fahre fort mit Schritt 1. Andernfalls
beende die Iteration.
Nach Gustafson und Kessel [1979] ist auch eine
Berechnung unterschiedlicher Clustergrößen möglich, in dem für jede Fuzzy-Kovarianzmatrix Cov i
eine individuelle Konstante ϱi eingeführt wird. In
dem Fall wird det(Cov i ) = ϱi gesetzt. Die Wahl
der Konstanten setzt jedoch Vorwissen über die
Cluster voraus, da sie in dem iterativen Algorithmus nicht als Unbekannte mit bestimmt werden
können [Höppner et al. 1997].
2.3 Der Gath-Geva Algorithmus
Der Gath-Geva Algorithmus bildet hyperellipsoidische Cluster unterschiedlicher Größe im Merkmalsraum [Gath und Geva 1989]. Für jedes Cluster
wird die Form und Größe individuell bestimmt.
Die Berechnung der Distanz basiert bei diesem Algorithmus auf einem wahrscheinlichkeitstheoretischen Ansatz. Die Objekte xk werden als Realisierungen p-dimensionaler normalverteilter Zufallsvariablen Ni betrachtet (p: Dimension des Merkmalsraumes). Gath und Geva gehen davon aus, dass
eine Normalverteilung Ni mit dem Erwartungswert
ν i , der Fuzzy-Kovarianzmatrix Cov i und einer apriori Wahrscheinlichkeit Pi zur Erzeugung eines
Objektes xk verwendet wurde. Als Distanzfunktion
di,k wird hierbei jetzt die Wurzel aus der reziproken
a-posteriori Wahrscheinlichkeit, mit der ein Objekt
zu einem Cluster gehört, verwendet.
exp
√
det(Cov i )
Pi
(1
2
)
(xk − ν i )T Cov −1 (xk − ν i )
) 1 (8)
2
Die a-priori Wahrscheinlichkeit Pi für das Auftreten eines Objektes xk in einem Cluster i berechnet sich aus den Zugehörigkeitswerten nach dem
Prinzip: Summe der Zugehörigkeitswerte im Cluster i geteilt durch die Gesamtsumme aller Zugehörigkeitswerte in allen Clustern.
∑n
(µ )w
∑c i,k
Pi = ∑n k=1
, ∀ i = 1, . . . , c
w
k=1
i=1 (µi,k )
(9)
Die Fuzzy-Kovarianzmatrizen Cov neu
werden in
i
gleicher Weise wie beim Gustafson-Kessel Algorithmus nach Gleichung (7) berechnet.
Ablauf des Gath-Geva Algorithmus:
1. Schritt:
Ausgehend von Näherungswerten für die
Clusterschwerpunkte ν i werden zunächst
nach Gleichung (4) die Zugehörigkeitswerte µi,k der einzelnen Objekte zu den
Clustern berechnet. Hierzu wird im ersten Iterationsschritt die euklidische Distanz verwendet. In den weiteren Iterationsschritten wird die Distanzfunktion
nach Gleichung (8) benutzt.
2. Schritt:
Aus den aktuellen Zugehörigkeitwerten
µi,k werden neue Clusterschwerpunkte
ν neu
nach Gleichung (5) berechnet.
i
3. Schritt:
Berechnung der aktuellen Fuzzy-Kovarianzmatrizen Cov neu
nach Gleichung (7).
i
4. Schritt:
Berechnung der a-priori Wahrscheinlichkeit Pi für das Auftreten eines Objektes
xk in einem Cluster i nach Gleichung (9).
5. Schritt:
Es wird geprüft, ob die Summe der komponentenweisen Distanzen zweier aufein-
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
20
ander folgender Clusterschwerpunktsmatrizen N kleiner ist als eine Konvergenzschwelle ϵ.
Falls ∥N neu − N ∥ > ϵ, setze N = N neu
und fahre fort mit Schritt 1. Andernfalls
beende die Iteration.
Durch die Exponentialfunktion in der Distanzfunktion wachsen ab einer bestimmten Entfernung die
Distanzen sehr stark an. Das hat zur Folge, dass
beim Übergang von einem Cluster zum anderen die
Zugehörigkeitswerte sehr schnell von 0 auf 1 oder
umgekehrt wechseln und dadurch relativ scharfe
Clustereinteilungen erfolgen [Höppner et al. 1997].
Die Konvergenzeigenschaft der iterativen Algorithmen wird mit zunehmender Komplexität schlechter. Die Gefahr ein lokales Minimum zu finden, ist
beim Gustavson-Kessel Algorithmus höher als beim
Fuzzy-c-Means und beim Gath-Geva Algorithmus
höher als beim Gustavson Kessel. Um eine gute
Clustereinteilung zu erreichen, müssen insbesondere beim Gath-Geva Algorithmus die Clusterschwerpunkte in der Nähe ihrer endgültigen Lage initialisiert werden. Das erreicht man dadurch, dass man
als Startwerte keine zufälligen Näherungswerte verwendet, sondern die Ergebnisse einer Clusterung
durch den Fuzzy-c-Means bzw. Gustafson-Kessel
Algorithmus benutzt [Höppner et al. 1997]. Eigene Erfahrungen zeigen, dass der Fuzzy-c-Means
Algorithmus mit nahezu beliebigen Initialisierungen immer gut interpretierbare Clusterlösungen findet. Die Gustavson-Kessel und Gath-Geva Algorithmen reagierten dagegen sehr empfindlich auf die
Initialisierungen und konvergierten trotz vermeintlich guter Initialisierung durch den Fuzzy-c-Means
sehr häufig zu Clusterlösungen, die von der menschlichen Vorstellung her als unbrauchbar angesehen
wurden.
2.4 Possibilistische Varianten des Fuzzy-cMeans und Gustafson-Kessel Algorithmus
∑c
Durch die Nebenbedingung
= 1
i=1 µi,k
bei den bisher vorgestellten Fuzzy-Clusterverfahren erinnern die Zugehörigkeitswerte stark
an eine Wahrscheinlichkeitsverteilung. Die FuzzyClusterverfahren, für die diese Restriktion gilt,
bezeichnet man deshalb auch als probabilistisch
[Höppner et al. 1997]. Die Zugehörigkeitswerte
µi,k sind allerdings nicht als Werte einer Wahrscheinlichkeitsverteilung zu interpretieren, sondern
sie geben nur an, wie die Variablenausprägungen
des k-ten Objektes mit den Charakteristika des iten unscharfen Clusters (in Relation zu den anderen Clustern) übereinstimmen [Deimer 1986].
Bei den possibilistischen Fuzzy-Clusterverfahren wird auf die bei den probabilistischen
Fuzzy-Clusterverfahren
eingeführte Nebenbedin∑
gung ci=1 µi,k = 1 verzichtet.
Bei den bisher betrachteten probabilistischen
Fuzzy-Clusterverfahren hängt der Zugehörigkeitswert zu einem Cluster aufgrund der Nebenbedingung auch mit von der Lage und Anzahl der anderen Cluster ab. Er drückt nicht aus, wie typisch
das Objekt für das entsprechende Cluster ist. Das
kann in der Praxis bei Objekten zu Interpretationsproblemen führen, die eine relativ große Distanz
zu allen Clusterzentren aufweisen. Diese Ausreißer
oder Stördaten können hohe Zugehörigkeitswerte
bekommen, obwohl die Objekte nicht typisch für
das Cluster sind und man intuitiv einen geringeren Zugehörigkeitswert erwarten würde. Bei einer
großen Distanz eines Objektes zu allen Clusterzentren streben alle Zugehörigkeitswerte des Objektes
gegen µi,k = 1/c.
∑
Der Verzicht auf die Nebenbedingung ci=1 µi,k =
1 bei den possibilistischen Verfahren führt bei der
Minimierung der Zielfunktion JF CM des Fuzzy-CMeans Algorithmus, siehe Gleichung (3)
JF CM =
n ∑
c
∑
2
(µi,k )w · di,k
(ν i , xk )
k=1 i=1
zu der trivialen Lösung:
µi,k = 0
∀ i = 1, . . . , c
∀ k = 1, . . . , n.
(10)
Krishnapuram und Keller haben daher 1993
vorgeschlagen, die Zielfunktion um einen Summanden zu erweitern, durch den diese triviale Lösung
verhindert wird. Die Zielfunktion des possibilistischen Fuzzy-c-Means Algorithmus (PCM) sieht danach wie folgt aus:
JP CM =
n ∑
c
∑
k=1 i=1
c
∑
+
ηi
i=1
ηi
:
2
(µi,k )w · di,k
(ν i , xk )
n
∑
(11)
(1 − µi,k )
w
k=1
Wichtungs- oder Abstandsparameter,
ηi ∈ >0
R
Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse
21
µ
Bei der Minimierung der Zielfunktion sorgt der erste Term dafür, dass die Distanz zwischen den Objekten und den Clusterzentren minimal wird. Der
zweite Term sorgt dafür, dass die Zugehörigkeitswerte möglichst groß werden, um die triviale Lösung zu verhindern. Der Parameter ηi gewichtet
den zweiten Term in Gleichung (11) gegenüber dem
ersten Term. Weiterhin gibt er die Distanz vom
Clusterzentrum an, an dem der Zugehörigkeitswert
eines Objektes zu diesem Cluster µi,k = 0, 5 beträgt. Zu seiner Berechnung haben Krishnapuram und Keller [1993] unter anderen die folgende
Formel vorgeschlagen:
∑n
ηi =
w
2
k=1 (µi,k ) · di,k (ν i , xk )
∑n
w
k=1 (µi,k )
1
µ1
ν1
1+
d2i,k (ν i ,xk )
ηi
x
Abb. 5: Drei typische Zugehörigkeitsfunktionen µ1 , µ2
und µ3 , wie sie sich durch Verwendung des probabilistischen Fuzzy-c-Means Algorithmus ergeben.
(12)
µ1
)
ν3
µ
Die Zugehörigkeitswerte berechnen sich dabei nach:
1
ν2
1
Die Minimierung der Zielfunktion erfolgt wie
beim probabilistischen Fuzzy-c-Means Algorithmus
durch die alternierende Optimierung der Clusterzentren und der Zugehörigkeitswerte in einem iterativen Verfahren.
(
µ3
0
∀ i = 1, . . . , c
µi,k =
µ2
µ2
µ3
ν2
ν3
0
ν1
x
Abb. 6: Drei typische Zugehörigkeitsfunktionen µ1 , µ2
und µ3 , wie sie sich durch Verwendung des possibilistischen Fuzzy-c-Means Algorithmus ergeben.
1
w−1
(13)
∀ i = 1, . . . , c ; ∀ k = 1, . . . , n
Man sieht, dass hier im Gegensatz zu Gleichung
(4) des probabilistischen Fuzzy-c-Means, die Zugehörigkeitswerte nur vom Abstand zum dazugehörenden Clusterzentrum abhängen und nicht auch
von den andern Clusterzentren.
Die Berechnung der Clusterzentren erfolgt in gleicher Weise wie beim probabilistischen Fuzzy-cMeans nach Gleichung (5).
Die Abbildungen 5 und 6 zeigen für eine eindimensionale Anwendung mit drei Clustern typische Verläufe von Zugehörigkeitsfunktionen, wie sie sich bei
dem Einsatz des probabilistischen und des possibilistischen Fuzzy-c-Means Algorithmus ergeben. In
der Abbildung 5 ist deutlich zu erkennen, wie die
Zugehörigkeitsfunktionen von der Lage aller Clusterzentren ν i abhängen. Die Funktionen besitzen
an den Stellen der jeweils anderen Clusterzentren
ein lokales Minimum mit dem Funktionswert µi = 0
und steigen mit zunehmender Distanz wieder an. In
den Randbereichen ist ansatzweise zu sehen, dass
bei einer großen Distanz eines Objektes zu allen
Clusterzentren alle Zugehörigkeitswerte des Objektes gegen µi,k = 1/c streben. In der Abbildung 6 ist
dagegen deutlich zu sehen, dass die Zugehörigkeitsfunktionen von den jeweils anderen Clusterzentren
nicht beeinflusst werden.
Den possibilistischen Gustafson-Kessel Algorithmus erhält man, indem man die modifizierte Mahalanobisdistanz nach Gleichung (6) verwendet und
in jedem Itedie Fuzzy-Kovarianzmatrizen Cov neu
i
rationsschritt nach Gleichung (7) neu berechnet.
Für den Parameter ηi schlagen Krishnapuram
und Keller hier ηi = |Cov i |(1/p) vor, wobei p die
22
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Dimension des Merkmalsraumes ist.
Beim Gath-Geva Algorithmus macht aufgrund des
wahrscheinlichkeitstheoretischen Ansatzes für die
Distanzfunktion eine possibilistische Clusterung
keinen Sinn.
Die possibilistischen Clusterverfahren erhöhen die
Robustheit des Clusterungsprozesses. Ihre Ergebnisse werden in wesentlich geringerem Maße von
Ausreißern oder Stördaten beeinflusst.
∑c Durch den
Verzicht auf die Nebenbedingung
i=1 µi,k = 1
kann bei Objekten, die zu mehreren Clustern gehören, die Summe der Zugehörigkeitswerte zu verschiedenen Clustern größer als 1 und bei Objekten, die einen großen Abstand von allen Clusterzentren haben, kleiner als 1 sein. Allerdings ist das
Konvergenzverhalten der possibilistischen Clusterverfahren deutlich schlechter als das der probabilistischen. Es empfiehlt sich daher zum Beispiel zunächst eine Initialisierung mithilfe der probabilistischen Verfahren durchzuführen [Rumpler 1999].
Literatur
Bacher, J. (1996): Clusteranalyse. Oldenbourg Verlag,
München, 1996.
Bandemer, H. (1997): Ratschläge zum mathematischen
Umgang mit Ungewissheit - Reasonable Computing. B.G.
Teubner Verlag, Leipzig, 1997.
Bezdek, J. C. (1973): Fuzzy Mathematics in Pattern Classification. Cornell University, Ph.D. Thesis, Ann Arbor,
1973.
Bock, H. H. (1974): Automatische Klassifikation. Vandenhoeck und Ruprecht Verlag, Göttingen.
Burmeister, J. (1997): Tutorial Grundlagen der FuzzyPattern-Klassifikation. TAT Transfer von Automatisierungstechnologien GmbH, Chemnitz, Berlin.
Deimer, R. (1986): Unscharfe Clusteranalysemethoden.
Schulz-Kirchner Verlag, Idstein.
Duda, R. O., Hart, P. E., Stork, D. G. (2000): Pattern
Classification. 2nd Ed., Wiley Interscience, New York.
Gath, I., Geva, A. B. (1989): Unsupervised Optimal Fuzzy
Clustering. IEEE Transactions on Pattern Analysis and
Machine Intelligence 11, 1989.
Gustafson, E. E., Kessel, W. C. (1979): Fuzzy Clustering
with a Fuzzy Covariance Matrix. IEEE CDC, San Diego,
Kalifornien.
Höppner, F., Klawonn, F., Kruse, R. (1997): FuzzyClusteranalyse. Vieweg Verlag, Braunschweig.
Jain, A. K., Topchy, A., Law, M. H. C., Buhmann,
J. M. (2004): Landscape of Clustering Algorithms. Proceedings of the 17th International Conference on Pattern
Recognition, Cambridge UK: 49–56.
Krishnapuram, R., Keller, J. M. (1993): A possibilistic
approach to clustering. IEEE Transactions on Fuzzy Systems. 1 (2):98–110.
Rumpler, T. A. (1999): Probabilistische und Fuzzy Methoden für die Clusteranalyse. In: Seising, R. (Hrsg.): Fuzzy
Theorie und Stochastik. Vieweg Verlag, Braunschweig.
Tilli, T. (1993): Mustererkennung mit Fuzzy-Logik. Franzis
Verlag, München, 1993.
Timm, H. (2002): Fuzzy-Clusteranalyse: Methoden zur Exploration von Daten mit fehlenden Werten sowie klassifizierten Daten. Magdeburg, 2002.
Zadeh, L. (1965): Fuzzy Sets. Information and Control 8:
338–353 (Reprint in: Bezdek, J. C., Pal, S. K.(1992)).
Zimmermann, H.-J. (Hrsg., 1993): Fuzzy Technologien.
VDI Verlag, Düsseldorf.
Anwendung von Support Vector Machines in der
Flugnavigation
Sven Bollmann∗
∗
Institut für Flugführung, Hermann-Blenk-Straße 27, 38108 Braunschweig
Zusammenfassung
A promising Applicationen of SVM’s is the processing
of the raw sensor data of an inertial measurement unit
(IMU) which represents the core of any modern inertial navigation system. Strategies for system design and
the generation of suitable training data are presented
in this paper.
Die noch recht jungen Support Vector Machines
(SVM’s) erfreuen sich auf dem Gebiet des maschinellen Lernens wachsender Beliebtheit. Besonders
bei Klassifikations- und Regressionsproblemen sind
sie klassischen Neuronalen Netzen wie z. B. dem
Multilayer-Perceptron wegen ihrer sehr guten Fähigkeit zu generalisieren deutlich überlegen.
1 Einleitung
Motiviert durch die stetige Verbesserung des zugrunde liegenden SVM-Algorithmus in den letzten Jahren
hinsichtlich Geschwindigkeit und Komplexität der Aufgaben, die inzwischen gelöst werden können, soll nun
untersucht werden, inwieweit SVM’s in der Flugnavigation, insbesondere im Bereich der Trägheitsnavigation eingesetzt werden können.
Die Hauptaufgabe einer IMU ist die Messung der
in einem Flugzeug auftretenden Beschleunigungen
und Drehraten. Sie ist starr mit dem Flugzeug verbunden und besteht typischerweise aus drei orthogonal zueinander angeordneten Beschleunigungssensoren zur Messung der linearen Beschleunigung
des Flugzeugs in Längs-, Quer- und in vertikaler
Richtung. Drei in den identischen Achsen liegende
Drehratensensoren messen die Drehgeschwindigkeit
um die entsprechenden Achsen. Aus diesen Messungen können mit Hilfe der Strapdown-Rechnung
Position, Lage und Geschwindigkeit des Flugzeugs
ermittelt werden [Titterton & Weston 1998].
Eine vielversprechende Anwendung für SVM’s ist die
Auswertung der Sensor-Rohdaten einer Inertial Measurement Unit (IMU), die den Kern eines modernen
Trägheitsnavigationssystems darstellt. Strategien zum
Systemaufbau und zur Gewinnung geeigneter Trainingsdaten werden in diesem Beitrag entwickelt.
Summary
Entscheidenden Einfluss auf die Genauigkeit eines
solchen Strapdown-Systems hat die möglichst exakte mathematische Modellierung der IMU und ihrer Fehler. Diese reichen von abweichender Ausrichtung der Sensor-Sensitivitätsachsen (AchsenMisalignment), Kreuzkopplungen (Sensitivität von
Beschleunigungs-Sensoren in Richtungen senkrecht
zu ihrer Sensitivitätsachse) über Sensorfehler (Bias, Skalenfaktor, Welligkeiten, Unstetigkeiten, etc.)
bis hin zu Temperaturabhängigkeiten, Hysterese
und anderen unerwünschten Effekten, wie z. B. der
Beschleunigungs-Abhängigkeit von Drehratensensoren. Viele dieser Einflüsse sind nur schwer oder
The relatively young support vector machines have become more and more attractive in the field of machine learning. Especially in classification and regression
problems they usually outperform classical neural networks such as e. g. the multilayer-perceptron because
of their very good capability to generalize.
Motivated by the continuous improvment of the underlying SVM algorithm in recent years regarding its
speed and the complexity of problems that can be solved it shall now be investigated to what extend SVM’s
can be applied to flight navigation and inertial navigation in particular.
23
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
24
fast gar nicht modellierbar. Zwangsläufig gemachte Vereinfachungen können wiederum zu einer Verschlechterung der Genauigkeit des Gesamtsystems
führen.
Ein möglicher Ausweg aus diesem Dilemma könnte der Einsatz von Support Vector Machines sein.
Diese werden heute überwiegend zur Lösung von
Klassifikations- und Regressionsproblemen eingesetzt [Vapnik 1998]. Im zweiten Fall, der Support
Vector Regression, wird eine SVM dahingehend
trainiert, den unbekannten funktionalen Zusammenhang zwischen einer oder mehreren Eingangsgrößen und einer Ausgangsgröße anhand von Trainingsbeispielen zu erlernen. Diese Fähigkeit kann
dazu genutzt werden, das Übertragungs- und Fehlerverhalten einer IMU nachzubilden, ohne diese
mathematisch exakt modellieren zu müssen. Ein so
trainiertes System aus SVM’s soll dahingehend untersucht werden, ob es in der Lage ist, die fehlerbehafteten Messungen einer IMU in genaue Werte für
Beschleunigungen und Drehraten zu übersetzen.
2 Support Vector Regression
Das Ziel der Support Vector Regression ist es, zu
einem gegebenen Trainingsdatensatz aus Eingangsvektoren x ∈ Rn und skalaren Ausgangsgrößen
d eine Funktion f zu finden, die den in der Regel nichtlinearen funktionalen Zusammenhang zwischen Ein- und Ausgangsgrößen am besten approximiert. Bekannt ist dabei lediglich ein Trainingsdatensatz {(xi , di )}li=1 mit l Trainingsvektoren, wobei xi die Repräsentation eines Eingangsvektors
ist, und di der dazugehörige vorgegebene Funktionswert. Die Grundidee bei der Support Vector
Regression ist nun, den gesuchten Zusammenhang
durch eine Funktion
Minimiere die Kostenfunktion
′
Φ(w, ξ, ξ ) = C
( l
∑
)
(ξi +
i=1
ξi′ )
1
+ wT w
2
unter den Bedingungen
di − wT Φ(xi ) ≤ ϵ + ξi ,
i = 1, 2, ..., l
ξi′ ,
i = 1, 2, ..., l
ξi ≥ 0,
i = 1, 2, ..., l
ξi′
i = 1, 2, ..., l
w Φ(xi ) − di ≤ ϵ +
T
≥ 0,
Man kann dieses Optimierungsproblem wie folgt interpretieren: Es wird eine Funktion f gesucht, die
einerseits so flach wie möglich ist, bei der aber anderseits von den vorgegebenen Funktionswerten di
aus dem Trainingsdatensatz so viele wie möglich
maximal um den Betrag ϵ von f abweichen. Abweichungen größer als ϵ nach oben oder unten werden mit Strafkosten ξi bzw. ξi′ belegt. Über C läßt
sich der trade off zwischen Flachheit von f und den
Abweichungen aus der Epsilon-Umgebung (engl.:
margin) von f steuern. Sowohl C als auch ϵ müssen vom Anwender vorgegeben werden. Eine genaue Darstellung, wie dieses Optimierungsproblem
gelöst werden kann, findet sich in Schölkopf &
Smola [1998]. Vorteilhaft ist, daß am Ende die Regressionsfunktion f nur noch aus den Eingangsvektoren x∗i gebildet wird, deren Funktionswerte di genau um den Betrag ϵ oder mehr von f abweichen,
den sogenannten Support-Vektoren. Alle Vektoren
innerhalb der margin haben keinen Einfluß auf die
Gestalt von f und brauchen bei der Funktionsauswertung nicht berücksichtigt werden.
3 Systemaufbau
f (x) =
l
∑
wi Φi (x) + b
i=1
auszudrücken. Dabei ist Φ : Rn → H eine nichtlineare Transformation der Eingangsvektoren xi in
einen höherdimensionalen Merkmalsraum H. Mit
den Koeffizienten wi werden die transformierten
Eingangsvektoren gewichtet und eine Basis b dazu
addiert. Durch die Transformation Φ entsteht ein
neuer Datensatz {(Φ(xi ), di )}li=1 , für den im Raum
H eine lineare Regression durchgeführt wird. Daraus lässt sich das folgende beschränkte quadratische Optimierungsproblem ableiten:
Ein System aus SVM’s für Verarbeitung von
Sensor-Rohdaten einer IMU hat die Aufgabe, die
sechs von einer IMU gemessenen und mit Fehlern
behafteten Größen (drei Beschleunigungen und drei
Drehraten) in sechs fehlerfreie Größen umzuwandeln. Da eine einzelne SVM zwar viele Eingangsgrößen verarbeiten, daraus aber nur eine Ausgangsgröße errechnen kann, ist offensichtlich, daß für diese
Aufgabe insgesamt sechs SVM’s eingesetzt werden
müssen. Auf der Eingangsseite hingegen werden jeder SVM alle sechs von der IMU gemessenen Größen zugeführt. Auf diese Weise ist sichergestellt,
Sven Bollmann: Anwendung von Support Vector Machines in der Flugnavigation
25
Abb. 1: Einem System aus sechs SVM’s wird die Fehlercharakteristik einer IMU antrainiert.
Abb. 2: Nach ausreichendem Training sind die SVM’s
in der Lage die Fehler der IMU zu korrigieren.
daß auch gegenseitige Abhängigkeiten der Messungen untereinander berücksichtigt werden können,
wie z. B. die Beschleunigungs-Abhängigkeit von
Drehratenmessungen.
Da der Zusammenhang zwischen den Messungen
der IMU und den tatsächlichen Beschleunigungen
und Drehraten auschließlich aus Trainingsbeispielen gelernt wird, müssen möglichst viele Kombinationen aus Linearbeschleunigungen und Drehraten
erzeugt, und die Messungen der IMU aufgezeichnet
werden. Dies ist zwar prinzipiell unter Verwendung
von Drehtischen und Beschleunigungsbänken möglich aber in der Durchführung sehr aufwendig und
zeitintensiv.
Da das System kein Modell der IMU kennt, muß es
den Zusammenhang zwischen Sensor-Rohdaten der
IMU und den tatsächlichen Größen erlernen. Hierzu
müssen Trainingsvektoren erzeugt werden, die zum
einen aus den von der IMU gemessenen Beschleunigungen und Drehraten bestehen, zum anderen aus
Referenzdaten, also dem, was die IMU hätte messen sollen. In der Trainingsphase fungieren die von
der IMU gemessenen Größen als Eingangsgrößen
und die Referenzdaten als vorgegebene Ausgangsgrößen. Entscheidend ist, dass bei der Erzeugung
der Trainingsdaten das tatsächliche Verhalten der
IMU zugrunde liegt, das heißt, dass auch nicht oder
nur schwer modellierbare Effekte „mitgelernt“ werden. Die Trainingsphase des Systems ist in Abb. 1
dargestellt. Nach ausreichendem Training hat das
System den wie auch immer gearteten funktionalen Zusammenhang zwischen Sensor-Rohdaten und
tatsächlichen Größen gelernt. Es ist nun in der Lage
die von der IMU kommenden Messungen in genaue
Werte für Beschleunigungen und Drehraten umzuwandeln, so wie es in Abb. 2 dargestellt ist.
4 Erzeugung von Trainingsdaten im
Flugversuch
Das obige System aus SVM’s soll nach ausreichendem Training in der Lage sein, fehlerbehaftete Messungen der IMU in genaue Werte zu übersetzen.
Aus diesem Grund wurde der Ansatz verfolgt, die
Trainingsdaten im Flugversuch zu erzeugen. Hierzu wurde die zu untersuchende IMU zusammen mit
einer hochgenauen Referenz-IMU in die Dornier Do
128-6 des Instituts für Flugführung (Abb. 3) eingebaut. Während des Fluges wurden die gemessenen
Beschleunigungen und Drehraten beider IMU’s aufgezeichnet und hieraus Trainingsvektoren gebildet.
Die Messungen der zu untersuchenden IMU fungierten dabei als Eingangsgrößen, die der ReferenzIMU als Zielgrößen.
Anders als bei klassischen neuronalen Netzen hat
die Reihenfolge der Trainingsvektoren keinen Einfluß auf den Lernprozeß, da der SVM-Algorithmus
ohnehin alle Trainingsvektoren gleichzeitig verarbeitet. Ein systematisches Erfliegen von bestimmten Flugzuständen ist daher nicht nötig. Wichtig
ist vielmehr, daß ausreichend viele Kombinationen
aus Linearbeschleunigungen und Drehraten erflogen werden. Um dies zu gewährleisten, wurde ein
Flugmanöver entwickelt, bei dem normale Flugmanöver wie Geradeausflug, Kurvenflug, Slip, etc. mit
deutlichen und möglichst „zufälligen“ Rudereingaben des Piloten überlagert werden.
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
26
Abb. 3: Das Forschungsflugzeug Do 128-6, D-IBUF der TU Braunschweig
Der Flugversuch bietet zwei Vorteile. Zum einen
können die Traningsvektoren sehr schnell erzeugt
werden, zum anderen werden nur die Kombinationen aus Linearbeschleunigungen und Drehraten
zum Training der SVM’s herangezogen, die in einem Flugzeug auch tatsächlich auftreten können.
5 Zusammenfassung und Ausblick
In diesem Beitrag wurde eine Strategie entwickelt,
wie mit Hilfe von Support Vector Machines die
Sensor-Rohdaten einer Inertial Measurement Unit
verarbeitet werden können. Es wurde ein System
aus sechs SVM’s vorgestellt, das in der Lage ist, die
Fehlercharakteristik einer IMU anhand von Trainingsbeispielen zu erlernen und deren Messungen
entsprechend zu korrigieren. Darauf aufbauend soll
in Kürze gezeigt werden, wie das System um statistische Informationen zu den gemessenen Größen
erweitert werden kann, wie sie in Bayesschen Filtern verarbeitet werden.
Ein Flugversuch zur Gewinnung von Trainingsdaten wurde geplant und bereits durchgeführt.
Zur Zeit erfolgt die Auswertung der aufgezeichneten Daten sowie die Optimierung des SVM-
Lernprozesses hinsichtlich der Parameter C und ϵ
und des verwendeten Kernels.
Gegenstand weiterer Forschung wird es sein, das
Konzept auf andere IMU-Bauarten wie z. B. kreiselfreie IMU’s zu übertragen. Bisher noch unberücksichtigt sind IMU-Fehler, die sich mit der Zeit
oder von Einschaltvorgang zu Einschaltvorgang ändern. Auch hier soll das bestehende Verfahren weiterentwickelt werden.
Literatur
Schölkopf, B. & Smola, A. J. (1998): A Tutorial on Support Vector Regression. NeuroCOLT2 Technical Report
Series NC-TR-1998-030.
Titterton D. H. & Weston, J. L. (2004): Strapdown Inertial Navigation Technology - 2nd Edition. The Institution of Electrical Engineers. ISBN 0 86341 358 7.
Vapnik, V. N. (1998): Statistical Learning Theory. In Haykin, S. (Ed.): Adaptive and Learning Systems for Signal Processing, Communications and Control. John Wiley & Sons, New York, Chichester, Weinheim, Brisbane,
Singapore, Toronto.
(Hybride) Bootstrapverfahren für Zeitreihendaten
– Wie konstruiert man „gute“ Konfidenzintervalle? –
Carsten Jentsch∗
∗
Institut für Mathematische Stochastik, TU Braunschweig, Pockelsstraße 14, 38106 Braunschweig
Zusammenfassung
und Brockwell & Davis [1991]).
Zunächst wird einleitend behandelt, wie man insbesondere im Zeitreihenkontext typischerweise Konfidenzintervalle für statistische Kenngrößen konstruiert und welche Probleme dabei auftreten können.
Als alternative Möglichkeit werden verschiedene Bootstrapverfahren angesprochen und am Beispiel autoregressiver Zeitreihenmodelle wird die Konstruktion von
Konfidenzintervallen mit Hilfe des Residuenbootstraps
ausführlicher diskutiert. Schließlich wird ein hybrides
Verfahren vorgestellt, dass im Vergleich zum Residuenbootstrap auch unter allgemeineren Voraussetzungen anwendbar ist.
Basierend auf den Daten interessiert man sich typischerweise für statistische Kenngrößen, wie etwa Erwartungswert, Autokorrelation und Spektraldichte. Aber auch die Koeffizienten eines angepassten (autoregressiven) Modells sind von Bedeutung.
Alle diese Größen sind in der Regel unbekannt, können aber aus den Daten geschätzt werden. Berechnet man beispielsweise die empirische Autokorrelation, um die lineare Abhängigkeit in den Daten
zu schätzen, so stellt sich immer die Frage, wie gut
bzw. wie verlässlich diese Schätzung tatsächlich ist.
Da man die tatsächliche Verteilung dieser Größen
nicht kennt, benutzt man hier standardmäßig einen
zentralen Grenzwertsatz (d.h. der geeignet zentrierte und normierte Schätzer konvergiert gegen eine
Standardnormalverteilung, vgl. (2)), um ein Konfidenzintervall zu vorgegebenem Niveau α ∈ (0, 1) zu
konstruieren. Der tatsächliche (unbekannte) Wert
liegt dann (approximativ) mit Wahrscheinlichkeit
1 − α in diesem Intervall. Dieses Vorgehen hat im
Wesentlichen zwei Nachteile:
1 Einleitung
In vielen wissenschaftlichen Bereichen werden häufig Daten in Form von Zeitreihen (Aktienkurse,
Niederschlagsmengen, Pegelaufzeichnungen, u.v.a.)
aufgenommen. Dieses sind in der Regel keine unabhängigen Beobachtungen mehr, sondern enthalten
über die Zeit gesehen eine gewisse, möglicherweise
sehr komplexe Abhängigkeitsstruktur. In der Regel
wird hier (evtl. nach einer geeigneten Transformation) vereinfachend die Annahme getroffen, dass der
datenerzeugende Prozess zu einer bestimmten stationären Modellklasse gehört, wobei sich die Klasse
der autoregressiven Modelle, siehe Gleichung (1),
als sehr beliebt und gut handhabbar erwiesen hat.
Autoregressive Modelle besitzen eine recht einfache Struktur und die unbekannten Parameter des
Modells können stabil aus den Beobachtungen geschätzt werden (für eine Einführung in die Zeitreihenanalyse vgl. etwa Kreiß & Neuhaus [2006]
• Man benutzt ein asymptotisches Resultat, d.h.
nur für großen Stichprobenumfang ist die Approximation gut.
• Man erzwingt die Symmetrie des Konfidenzintervalls, d.h. eine mögliche Schiefe der Verteilung des Schätzers wird aufgrund der symmetrischen Normalverteilung nicht berücksichtigt.
Zur Konstruktion verbesserter Konfidenzintervalle haben sich algorithmisch basierte, sogenannte
27
2 Bootstrap für autoregressive Modelle
Zur Modellierung von Abhängigkeiten werden oft
autoregressive Modelle verwendet. Man bezeichnet einen stochastischen Prozess, d.h. eine Familie
von Zufallsvariablen (Xt , t ∈ Z) als autoregressiven
Prozess der Ordnung p (auch AR(p)-Modell), falls
er eine Modellgleichung
Xt =
p
∑
ak Xt−k + et ,
t∈Z
(1)
0
x
−2
−4
Bootstrapverfahren etabliert. Die Idee des Bootstraps geht zurück auf Bradley Efron [Efron
1979], der seine Methode auf unabhängig und identisch verteilte Zufallsvariablen anwendete. Dabei
werden durch mehrmaliges n-faches Ziehen mit Zurücklegen aus der gegebenen Stichprobe (der Länge
n) künstlich neue Datensätze erzeugt, die hinreichend der unbekannten Verteilung des Ursprungsdatensatzes folgen. Für Zeitreihen, die in der Regel
aus abhängigen Zufallsvariabeln bestehen, ist die
Situation deutlich komplizierter. In den letzten etwa 30 Jahren wurden dennoch zahlreiche Ansätze
hierfür entwickelt. Allen voran sind hier der (autoregressive) Residuen-Bootstrap, aber auch BlockBootstrapmethoden sowie frequenzbasierte Bootstraptechniken zu nennen, die alle gewisse Vorzüge, jedoch auch Mankos haben. Eine allgemeine Übersicht zu Bootstrapverfahren für Zeitreihen
findet man in Härdle & Horowitz & Kreiß
[2003] und Lahiri [2003]. Frequenzbasierte Techniken werden in Paparoditis [2002], Kreiß & Paparoditis [2003] und Jentsch & Kreiß [2009]
besprochen. Alle diese Ansätze, ob für unabhängige oder abhängige Zufallsvariablen, haben aber
gemein, dass sie auf eine gewisse Art und Weise
künstlich neue Datensätze aus dem einen gegebenen Datensatz erzeugen.
2
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
28
0
10
20
30
40
50
Time
Abb. 1: Realisation einer AR(1)-Zeitreihe mit Parameter a1 = 0.95 und standardnormalverteiltem weißen Rauschen (et , t ∈ Z).
zu approximieren. Dabei passt man an die Beobachtungen ein autoregressives Modell an, indem
man aus den Daten die Koeffizienten a1 , . . . , ap
schätzt. Die Kenntnis dieser (geschätzten) Parameter ermöglicht es etwa Vorhersagen zu treffen oder
die zeitliche Abhängigkeitsstruktur in den Daten
besser zu verstehen. Bei solchen Aussagen spielt es
natürlich eine entscheidende Rolle, wie sicher oder
eben wie unsicher die Schätzungen der Modellkoeffizienten tatsächlich sind.
Im folgenden Unterabschnitt soll beispielhaft aufgezeigt werden, wie Bootstrapverfahren im Vergleich
zur Normalapproximation helfen können, verbesserte Konfidenzintervalle zu konstruieren.
2.1 Beispiel: Konstruktion eines Konfidenzintervalls für a1 im AR(1)-Modell
k=1
erfüllt, wobei (et , t ∈ Z) unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert
E(et ) = 0 und Varianz V ar(et ) < ∞ sind. Man
nennt (et , t ∈ Z) auch weißes Rauschen. Die Koeffizienten a1 , . . . , ap sind reelle Zahlen und die ganzen Zahlen sind hier mit Z bezeichnet. Anschaulich
ergibt sich bei diesen Modelle der Wert der Zeitreihe zu einem gewissen Zeitpunkt als eine gewichtete
Summe der zeitlichen Vorgänger plus Fehler.
In Anwendungen wird oft versucht die Abhängigkeitstruktur gegebener Zeitreihendaten mit Hilfe eines autoregressiven Prozesses zu modellieren bzw.
Angenommen, es liegen Beobachtungen X1 , . . . , Xn
vor, die aus einem AR(1)-Modell mit unbekanntem
Parameter a1 = 0.95 stammen (vgl. Abb. 1). Aus
diesen Daten kann man a1 über die Yule-WalkerGleichungen schätzen [Kreiß & Neuhaus 2006,
vgl. etwa Kap. 11]. Der geschätzte Wert sei mit b
a1
bezeichnet. Für diesen gilt ein zentraler Grenzwertsatz (ZGWS), d.h.
√
n(b
a1 − a1 ) → N (0, σ 2 )
(2)
für Stichprobenumfang n → ∞, wobei N (0, σ 2 ) eine Normalverteilung mit Erwartungswert 0 und Va-
Carsten Jentsch: (Hybride) Bootstrapverfahren für Zeitreihendaten
29
(I) Schätze aus den Beobachtungen X1 , . . . , Xn
ein AR(1)-Modell, d.h. berechne b
a1 .
5
(II) Berechne die Residuen eb2 , . . . , ebn gemäß
4
ebt = Xt − b
a1 Xt−1 ,
t = 2, . . . , n.
(4)
2
3
(III) Erzeuge einen neuen Bootstrap-Datensatz
X1+ , . . . , Xn+ gemäß
t = 1, . . . , n,
(5)
0
1
+
Xt+ = b
a1 Xt−1
+ e+
t ,
0.2
0.4
0.6
0.8
1.0
Abb. 2: Simulierte Wahrscheinlichkeitsdichte des YuleWalker-Schätzers b
a1 im AR(1)-Modell mit tatsächlichem Parameter a1 = 0.95 und standardnormalverteilte weißen Rauschen (et , t ∈ Z).
rianz σ 2 bezeichnet. Die asymptotische Varianz σ 2
lässt sich aus den Daten schätzen und der Schätzer
hierfür sei mit S 2 bezeichnet.
Wenn man a1 mit b
a1 aus den Daten geschätzt hat,
dann kommt natürlich die Frage auf, wie gut, d.h.
wie verlässlich, der geschätzte Wert tatsächlich ist.
Mit Hilfe des ZGWS’es (2) kann man (approximativ) ein (1 − α)-Konfidenzintervall für a1 angeben:
[
]
S
S
b
a1 − √ u1− α2 , b
a1 + √ u1− α2 ,
(3)
n
n
wobei u1− α2 das (1 − α2 )-Quantil der Standardnormalverteilung ist. Ergeben sich etwa die Werte
b
a1 = 0.94, S 2 = 1.2 für n = 50 bei vorgegebenem
Niveau α = 0.05, so kann man sagen, dass der tatsächliche, aber unbekannte Wert a1 näherungsweise
mit Wahrscheinlichkeit 1 − 0.05 = 0.95 im Intervall
[0.64, 1.24] liegt.
Diese Konstruktion berücksichtigt jedoch nicht,
dass für den Yule-Walker-Schätzer immer b
a1 ∈
(−1, 1) gilt, weshalb auch die (tatsächliche) Verteilung von b
a1 als Schätzer für a1 = 0.95 sehr linksschief ist (vgl. Abbildung 2).
Bei zugrundeliegendem AR(1)-Modell kann man
für die Konstruktion eines „besseren“ Konfidenzintervalls für a1 beispielsweise den Residuenbootstrap benutzen. Dieses Verfahren funktioniert wie
folgt:
wobei man e+
t durch unabhängiges Ziehen mit
Zurücklegen aus den (zentrierten) Residuen
eb2 , . . . , ebn erhält.
Aus dem neuen Bootstrapdatensatz X1+ , . . . , Xn+
schätzt man nun erneut ein AR(1)-Modell, d.h.
man berechnet b
a+
1 . Dann wiederholt man die
Schritte (I)-(III) und das Berechnen von b
a+
1 insgesamt B mal und erhält b
a1,1 , . . . , b
a1,B . Schließlich sortiert man diese Werte aufsteigend der Größe
nach und wählt den ( α2 )B-ten Wert als linke und
den (1− α2 )B-ten als rechte Konfidenzintervallgrenze. Für B = 1000 und α = 0.05 nimmt man etwa
den 25. und den 975. Wert der aufsteigend sortierten Größen b
a1,1 , . . . , b
a1,B . Dieses Vorgehen ist ähnlich zur Ermittlung des Medians einer Stichprobe,
wo man ebenfalls die geordnete Stichprobe betrachtet und den mittleren Wert als Median definiert.
2.2 Simulationsbeispiel
Für Abbildung 3 wurden T = 1000 AR(1)Zeitreihen der Länge n = 50 mit Parameter
a1 = 0.95 und standardnormalverteilten Fehlern
(et , t ∈ Z) simuliert und für jede Zeitreihe wurde mittels Normalapproximation ein Konfidenzintervall (gemäß Gleichung (3)) konstruiert. Ebenso wurde der Residuenbootstrap (vgl. Schritte (I)(III) und darunter) auf dieselben Zeitreihendaten
angewendet und jeweils ein zweites (Bootstrap)Konfidenzintervall konstruiert, wobei B = 1000 gewählt wurde. Somit ergeben sich für beide Verfahren jeweils T = 1000 linke und T = 1000 rechte
Intervallgrenzen, die mit Hilfe von Boxplots in Abbildung 3 dargestellt sind. Die horizontalen Linien
stellen die (simulierten) optimalen Konfidenzintervallgrenzen dar.
Auf beiden Seiten 3a) und 3b) von Abbildung 3
kann man deutlich erkennen, dass der Residuenbootstrap (grün) im Mittel die optimalen Konfidenzintervallgrenzen wesentlich besser trifft als die
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
1.0
0.5
0.0
0.0
0.5
1.0
30
3a)
3b)
Abb. 3: Boxplots der simulierten Konfidenzintervallgrenzen im AR(1)-Modell mit tatsächlichem Parameter
a1 = 0.95 und standardnormalverteiltem weißen Rauschen (et , t ∈ Z). Von links nach rechts zeigen 3a) und
3b) jeweils Boxplots für linke und rechte Konfidenzintervallgrenze konstruiert mit Residuenbootstrap (grün)
und für linke und rechte Konfidenzintervallgrenze konstruiert mit Normalapproximation (gelb). Die optimalen
Grenzen sind durch die gestrichelten roten Linien gekennzeichnet. Die Konfidenzintervalle sind zum Niveau
α = 0.05 in 3a) und α = 0.005 in 3b).
Normalapproximation (gelb). Insbesondere sind jeweils linke sowie rechte Intervallgrenze bei der Normalapproximation (gelb) fälschlich nach oben verschoben. Dieses Phänomen ist damit zu erklären,
dass die in (3) benutzten Quantile der Standardnormalverteilung ein symmetrisches Intervall erzwingen, auch wenn die tatsächliche Verteilung eine
deutliche Schiefe aufweist (vgl. Abb. 2). Dieser Effekt verstärkt sich, wenn das vorgegebene Niveau
α kleiner wird, wie beim Übergang von α = 0.05 in
3a) zu α = 0.005 in 3b) von Abbildung 3 zu sehen
ist.
2.3 Diskussion des Residuenbootstraps
Der Residuenbootstrap kann bei der Konstruktion von Konfidenzintervallen helfen, verbesserte Intervallgrenzen zu erhalten. Insbesondere bei einem
kleinen Stichprobenumfang n sind die Ergebnisse in
der Regel besser als bei der Normalapproximation
des ZGWS’es, welche approximativ nur für einen
großen Stichprobenumfang n Sinn macht. Ebenso erzwingt man mit dem Residuenbootstrap keine
Symmetrie des Konfidenzintervalls, was zu einem
erheblichen Fehler führen kann, wenn die tatsächliche Verteilung eine deutliche Schiefe aufweist.
Allerdings kann ein autoregressiver Residuenbootstrap nur dann funktionieren und zu vernünftigen
Resultaten führen, wenn der zugrundeliegende Prozess (Xt , t ∈ Z) tatsächlich zur Klasse der autoregressiven Prozesse in Gleichung (1) gehört und
wenn man die Ordnung p des Residuenbootstrap
(vgl. die Schritte (I)-(III) für p = 1) so wählt, dass
sie mindestens so groß ist, wie die des tatsächlichen Modells. In diesem Fall funktioniert das Verfahren aber für eine Vielzahl statistischer Kenngrößen wie beispielsweise Erwartungswert oder Autokorrelationfunktion.
Um die Benutzung des Residuenbootstrap zu rechtfertigen, muss man daher die parametrische Annahme treffen, dass der beobachtete Prozess zur Klasse
der autoregressiven Modelle gehört.
3 Bootstrap für lineare Zeitreihen
In der Zeitreihenanalyse interessiert man sich oftmals nicht für die Modellparameter, sondern vielmehr für andere statistische Größen. Und da mit
der Anwendung bzw. mit der Rechtfertigung eines Residuenbootstraps immer die Annahme eines
zugrundeliegenden autoregressiven Modells einhergeht, kommt die Frage auf, ob man Bootstrapver-
Carsten Jentsch: (Hybride) Bootstrapverfahren für Zeitreihendaten
fahren konstruieren kann, die auch in allgemeineren
Situationen Gültigkeit besitzen. Die autoregressiven Prozesse bilden beispielsweise eine Teilklasse
der linearen Prozesse, für welche der Residuenbootstrap im Allgemeinen nicht mehr oder nur noch approximativ funktioniert. Man bezeichnet einen stochastischen Prozess (Xt , t ∈ Z) als linearen Prozess,
falls er eine Darstellung
∞
∑
31
ein AR(1)-Modell, d.h. berechne b
a1 .
(II) Berechne die Residuen eb2 , . . . , ebn gemäß
ebt = Xt − b
a1 Xt−1 ,
t = 2, . . . , n.
(7)
(III) Erzeuge einen neuen Datensatz X1+ , . . . , Xn+
gemäß
+
Xt+ = b
a1 Xt−1
+ e+
t ,
t = 1, . . . , n,
(8)
e+
t
(6)
wobei man
durch unabhängiges Ziehen mit
Zurücklegen aus den (zentrierten) Residuen
eb2 , . . . , ebn erhält.
besitzt, wobei (et , t ∈ Z) ein unabhängiges weißes
Rauschen und (bk , k ∈ Z) eine absolut summierbare Folge reeller Zahlen ist.
(IV) Berechne die diskrete Fouriertransformation
(DFT) Jn+ (ω) gemäß
Xt =
bk et−k ,
t∈Z
k=−∞
Neben dem parametrischen Residuenbootstrap,
wurden in den letzten Jahren vor allem BlockBootstrapmethoden und frequenzbasierte Techniken vorgeschlagen, um Zeitreihendaten zu bootstrappen. Dabei haben die beiden zuletzt genannten Methoden auch unter der Annahme eines linearen Modells Gültigkeit. Blockbootstrap funktioniert sogar unter viel allgemeineren Voraussetzungen, zeigt aber oft in Simulationen keine besonders guten Ergebnisse. Verfahren, die im Spektralbereich (Frequenzbereich) ansetzen, zeigen bei
Simulationen in der Regel gute Resultate, ihre Anwendbarkeit ist aber auf statistische Größen im Frequenzbereich beschränkt.
In Kreiß & Paparoditis [2003] wurde die Idee
verfolgt, durch einen parametrischen Residuenbootstrap die wesentlichen Merkmale der Daten
einzufangen und anschließend mit einer Korrektur im Frequenzbereich die restliche Abhängigkeitsstruktur nachzumachen. Diese Verfahren wird als
autoregressive-aided periodogram bootstrap bezeichnet, ist jedoch auch auf frequenzbasierte Statistiken
beschränkt.
Erst kürzlich wurde dieses Verfahren in Jentsch
& Kreiß [2009] so modifiziert, dass es nun auch
auf Statistiken im Zeitbereich (z.B. Mittelwert) anwendbar ist. Ebenso wurde dort der Fall mehrdimensionaler linearer Prozesse untersucht. Dieses
verbesserte Verfahren heißt hybrides Bootstrap, da
es sowohl im Zeitbereich (Residuenbootstrap) als
auch im Frequenzbereich (Korrektur der diskreten
Fouriertransformation) ansetzt. Aus einem gegebenem Datensatz erzeugt man dabei wie folgt einen
neuen Bootstrap-Datensatz:
(I) Schätze aus den Beobachtungen X1 , . . . , Xn
1 ∑ + −itω
Xt e
2πn t=1
n
Jn+ (ω) = √
(9)
und einen Korrekturterm qe(ω) an den Fourierfrequenzen ωj = 2π nj .
(V) Berechne die inverse DFT der korrigierten
DFT qe(ω1 )Jn+ (ω1 ), . . . , qe(ωn )Jn+ (ωn ) um einen
Bootstrap-Datensatz X1∗ , . . . , Xn∗ gemäß
√
n
2π ∑
∗
Xt =
qe(ωj )Jn+ (ωj )eitωj
(10)
n
j=1
zu erhalten.
Beachte, dass die Schritte (I)-(III) des hybriden Bootstraps mit denen des Residuenbootstraps
übereinstimmen und in Schritt (IV) durch Fouriertransformation in den Frequenzbereich gewechselt
wird, wo diese dann mit qe(ω) multipliziert und somit korrigiert wird.
Eine detaillierte Darstellung des hybriden Bootstrap findet man in Jentsch & Kreiß [2009],
wo auch gezeigt wurde, dass dieses Verfahren unter der recht allgemeinen Annahme eines zugrundeliegenden linearen Prozesses zumindest für Mittelwert, empirische Autokorrelation und Spektraldichteschätzer funktioniert sowie für empirische Autokovarianz unter Zusatzannahmen.
4 Ausblick
In einem zukünftigen Forschungsprojekt soll die
Übertragbarkeit dieser Technik auf die räumliche
Situation, d.h. für Daten, die in der Ebene oder im
Raum aufgenommen werden, untersucht werden.
Ein erfolgreicher Transfer dieses Verfahrens könnte
Anwendungen beispielsweise in der Geologie haben,
wo solche Daten vermehrt auftreten.
32
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Literatur
Brockwell, P.J. & Davis, R.A. (1991): Time Series:
Theory and Methods. Springer, New York.
Efron, B. (1979): Bootstrap Methods: Another Look at the
Jackknife. Ann. Statist. 7: 1–26.
Härdle, W., Horowitz, J. & Kreiss, J.-P. (2003):
Bootstrap Methods for Time Series. Int. Statist. Rev. 71:
435–459.
Jentsch, C. & Kreiß, J.-P. (2009): The multiple Hybrid Bootstrap - Resampling multivariate linear processes. Submitted.
Kreiß, J.-P. & Neuhaus, G. (2006): Einführung in die
Zeitreihenanalyse. Springer, Berlin.
Kreiß, J.-P. & Paparoditis, E. (2003): Autoregressiveaided periodogram bootstrap for time series. Ann. Statist.
31: 1923–1955.
Lahiri, S.N. (2003): Resampling Methods for Dependent
Data. Springer, New York.
Paparoditis, E. (2002): Frequency Domain Bootstrap for
Time Series. In: Dehling, T., Mikosch, T., Sørensen,
M. (2002): Empirical Process Techniques for Dependent
Data. Birkhäuser, Boston: 365–381.
Einsatz von nichtlinearer Optimierung
für mechanisch belastete Bauteile
SIERK FIEBIG*
*
HFE 1/2 Vorderachsentwicklung, Volkswagen Braunschweig, Gifhorner Straße 180, 38112 Braunschweig
Zusammenfassung
Die Auslegung und Entwicklung mechanischer Bauteile spielt innerhalb des Maschinenbaus bzw. des Fahrzeugbaus bei steigender Elektrifizierung eine wesentliche Rolle. Ziel ist es, einen möglichst kosteneffizienten
Leichtbau umzusetzen. Der konventionelle Weg zum
Leichtbau war die Substitution von Werkstoffen durch
meist teureres Material, z.B. Stahl durch Aluminium.
Alternativ werden heutzutage computergestützte Verfahren genutzt, um eine belastungsgerechte, gewichtsarme Materialanordnung zu finden.
Summary
The development of mechanical parts is traditionally
an important field in mechanical engineering. Also in
times of electrification in the automobile industry it
keeps its role. In light construction it is further important to find cost-effective solutions. In general, the
traditional way of light constructions is the substitution of material by normally more expensive materials, e.g. steel by aluminium. Today, computer-based
methods are alternatively used to find a construction
with a minimum weight and optimum distribution of
material to the mechanical loads.
dung die benötigte Dauer der Optimierung zusätzlich durch hohen Zeitdruck im Vordergrund. Durch
die Einbindung von FEM-Lösern, die auch nichtlineare Analysen beherrschen, haben einige kommerzielle Anbieter teilweise Optimierungslösungen für
nichtlineare Einflüsse geschaffen. So können heute
nichtlineare Gummikennlinien und bedingt auch
der Einfluss von nichtlinearem Materialverhalten
abgebildet werden.
Allerdings treten in der Praxis auch Nichtlinearitäten auf, die nicht zufrieden stellend gelöst werden
können. Zusätzlich sind Problemstellungen zu finden, in denen für das Gradientenverfahren zwischen
Designbereich und Zielbereich keine ausreichenden
Sensitivitäten entstehen, z.B. wenn lokale Spannungsspitzen durch eine Veränderung des Kraftflusses verringert werden sollen. Die dritte Motivation
für leistungsstärkere, aber auch zeitaufwendigere
Optimierungsalgorithmen ist die Verbesserung der
Ergebnisse über die Möglichkeiten von gradientenbasierenden Algorithmen hinaus.
2
1
Diskrete Topologieoptimierung
Einleitung
In den letzten Jahren haben sich Verfahren zur Optimierung von mechanischen Bauteilen in der industriellen Praxis durchgesetzt, die mathematisch auf
Gradientenverfahren (z.B. Methode der zulässigen
Richtungen bzw. Methode der beweglichen Asymptoten) basieren. Diese Gradientenverfahren werden
mit einer Optimierungsmodellbildung gekoppelt, die
innerhalb eines Finite-Elemente-Netzes die mechanischen Eigenschaften, in der Regel die Dichte und den
E-Modul, verändern [BENDSOE & SIGMUND 2004,
HARZHEIM 2008, SCHUMACHER 2005].
Für lineare FEM-Probleme sind diese Verfahren für
industrielle Ansprüche bezüglich der zu erreichenden
Optimierungsergebnisse zufriedenstellend und ausreichend. Hier steht häufig in der industriellen Anwen33
Für das Lösen von Spannungsproblemen bzw. von
plastischem Materialverhalten bieten sich Methoden an, die das Material als diskret betrachten.
Verfälschungen der Materialeigenschaften treten
hier nicht auf, da das Material immer seine vollen
mechanischen Eigenschaften besitzt oder eben gar
keine, da es nicht vorhanden ist. Praktisch nicht
umsetzbare Lösungsvorschläge, die ein Optimum
durch eine Vielzahl von Elementen mit halber
Dichte bzw. halbem E-Modul darstellen, sind damit von vorne herein ausgeschlossen.
2.1
Grundlagen
Für die Anwendung diskreten Materials bietet sich
ein zweistufiges Verfahren an. Im ersten Schritt
AITUBS – Künstliche Intelligenz an der TU Braunschweig
34
werden sehr niedrig mit Spannungen belastete Bereiche entfernt, im zweiten Schritt werden Bereiche
mit hohen Spannungen verstärkt, siehe hierzu
MATTHECK [1996].
Bisherige Verfahren verändern dabei den E-Modul
über die Dichte, wie beim SIMP-Ansatz1 [BENDSOE
& SIGMUND 2004], beziehungsweise über Knotentemperatur als Hilfsgröße beim SKO-Verfahren2
[HARZHEIM 2008].
Bei dem hier beschriebenen Verfahren wird dagegen
zum Entfernen von Material lediglich die relative
Spannung in Verbindung mit einer Schrittweitenregelung verwendet. Die Schrittweitenregelung gibt
vor, wie viele Elemente bzw. wieviel Material zu
entfernen sind.
Durch die Startkonfiguration des Optimierungsproblems bzw. vor allem durch das laufende Entfernen von Material treten im Bauteil Spannungen
auf. Die Spannungen im Inneren des Bauteils können dabei nicht direkt beeinflusst werden. Schließlich kann hier kein weiteres Material hinzugefügt
werden. Deshalb zielt die hier vorgestellte Methode
nur auf die Randbereiche des Materials ab. Bereiche, die in Randbereichen hohe relative Spannungen aufweisen, sollen durch Materialanlagerung
wieder „normalisiert“ werden. Da keine Gradienten
berechnet werden sollen, werden alle Grenzfelder
bzw. Grenzelemente von „nicht vorhanden“ auf
„vorhanden“ gesetzt. In der nächsten Iteration wird
anschließend anhand der Spannungen überprüft, ob
die Felder über mehrere Iterationen vorhanden sein
sollten oder gleich wieder entfernt werden müssten.
In der Technik werden einzelne, hoch belastete Bereiche häufig Hotspot genannt. Daher soll dieser
Teil der Methode mit Hotspot-Korrektur bzw. Hotspot-Correction (HSC) bezeichnet werden. Die Reduzierung der niedrigsten Spannungen soll mit LSR
(für Lowest Stress Reduction) abgekürzt werden.
2.2
Schrittweitensteuerung
Die wesentliche Herausforderung dieser Methode ist
die Steuerung der Schrittweite für die Reduzierung
der niedrigsten Spannungen (LSR) und HotspotKorrektur (HSC). Es muss festgelegt werden, wie
viele Elemente zu entfernen sind bzw. wie viele
Elemente hinzuzufügen sind. Aktuell werden zwei
Ansätze kombiniert.
Übergeordnet
arbeitet
eine
SchrittweitenSteuerung, die eine maximale und eine minimale
Schrittweite relativ zur Bauteilgröße mit Szenarien
zur Reduzierung und Erhöhung der Schrittweite
kombiniert.
Da mit einem maximalen Bauraum begonnen
wird, startet die Optimierung mit der maximalen
Schrittweite. Sollte zwischen zwei Iterationen die
Randbedingung zu einem definierten Vorgabewert
zu stark steigen, wird die Schrittweite reduziert.
Zusätzlich wird eine Reduzierung vorgenommen,
wenn bei einem Bauteil die Lagerungen nicht
mehr mit den Krafteinleitungen verbunden sind
bzw. eine Iteration die maximal zulässige Randbedingung überschreitet.
Steigen nach einer Reduzierung die Randbedingung nur sehr gering an oder fallen diese sogar,
wird die Schrittweite wieder erhöht.
Zusätzlich werden LSR und HSC durch einen
Mechanismus gesteuert, der im Wesentlichen auf
der Tatsache beruht, das ein Bauteil dann optimal
ist, wenn alle Bauteilbereiche möglichst mit gleichmäßigen Spannungen belastet sind [BENDSOE &
SIGMUND 2004].
Für alle Grenzelemente werden die Spannungen
herangezogen und der Durchschnitt der Spannungen berechnet. In der Praxis hat es sich bewährt,
jeweils 50% des Durchschnitts für die Grenze nach
oben und unten zu verwenden. Elemente oberhalb
des 1,5 fachen Spannungsdurchschnitts bestimmen
die Schrittweite für die HSC, Elemente unterhalb
der Hälfte des Durchschnittes ergeben die Reduktionsweite aus der Spannungsanalyse für LSR.
Beide Schrittweiten (LSR Spannungsanalyse und
HSC) werden mit dem Faktor Aktuelle Schrittweite/Maximale Schrittweite normiert. Für die LSR
wird zusätzlich die Schrittweite aus der Schrittweitensteuerung mit der normierten Schrittweite
aus der Spannungsanalyse kombiniert. Die HSC
basiert dagegen nur auf der normierten Schrittweite aus der Spannungsanalyse.
2.3
1
2
Solid Isotropic Material with Penalization: Das E-Modul ist bei
diesem Ansatz abhängig von der Dichte normiert auf die Eingangsdichte. Dieser Faktor wird potenziert mit dem PenaltyFaktor. Dadurch werden unerwünschte Zwischenwerte abhängig vom Penalty-Faktor bestraft.
Das SKO-Verfahren (Soft Kill Option) basiert auf Wachstumsregeln von biologischen Vorbildern. Ziel ist es die Spannungen
zu harmonisieren. Abhängig von einer Referenzspannung wird
das E-Modul entweder erhöht oder reduziert, bis ein stabiler
Zustand eintritt. Zur kontinuierlichen Modellierung des Materials wird die Knotentemperatur verwendet.
Anwendungsbeispiel
Das LSR-HSC-Verfahren soll an einer Referenzstruktur, die häufig für Vergleiche herangezogen
wird, beurteilt werden. Bei der Mitchellstruktur
[SCHUMACHER 2005] wird auf einem 2-dimensionalen Bauteil mittig eine Kraft aufgebracht. Ebenfalls mittig wird das Bauteil in allen Freiheitsgraden gelagert.
SIERK FIEBIG : Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteile
Im Optimierungsverlauf bis Iteration 14 erkennt
man zu Beginn die Findung einer groben Struktur
(Abb. 1). Es bilden sich oben und unten zwei massive Strebenverläufe aus. Zwischen den Streben
entwickelt sich krafteinleitungsseitig ein dominierender Freiraum aus, während an der Lagerstelle
eine starke Materialanhäufung vorherrscht. Charakteristisch für das Verfahren ist, dass Fachwerksstreben innerhalb der Struktur auch ganz aufgelöst
werden. In der Abbildung 1 erkennt man diesen
Vorgang sehr gut. Zuerst wird die Strebe unterbrochen und anschließend werden alle Elemente der
Strebe auf Grund der sehr niedrigen Spannungen
(Nullstab) entfernt.
35
Abb. 2: Harmonisierung Spannung nach Entfernen
von Fachwerk
2.4
Arbeitsweise
In Abbildung 3 ist für die Iteration 21 im Detail
dargestellt, welche Elemente durch die Lowest
Stress Reduction entfernt werden. Für die Hotspot
Correction sind in der Abbildung ebenso die auslösenden Elemente und die angelagerten Elemente
dargestellt. Bei den beiden senkrechten Fachwerkstreben in der Mitte des Fachwerkes ist zu erkennen, dass hochbelastete Bereiche verstärkt werden.
Durch die Anlagerung an einer Seite können die
Streben auch „wandern“ und sich dem Kraftfluss
anpassen.
Abb. 1: Harmonisierung Spannung nach Entfernen von
Fachwerk
In der Abbildung 2 erkennt man, wie nach dem
Entfernen einer Fachwerkstruktur zum einen durch
den Prozess der Elementumlagerung die Spannungen wieder harmonisieren, aber zum anderen auch
die Optimierung in der Lage ist, die verbleibenden
Fachwerkstreben so zu verschieben, dass wieder ein
kraftflussoptimaler Zustand hergestellt wird. Diese
Eigenschaften sorgen trotz des diskreten und somit
unstetigen Antwortverhaltens der Randbedingung
dafür, dass die Optimierung eine hinreichende Robustheit hat. Gerade durch die sehr geringe Materialverteilung, die für die Einhaltung der Randbedingung nötig ist, kann der verwendete Algorithmus
seine Anwendbarkeit unterstreichen.
Abb. 3: Arbeitsweise LSR und HSC
Vergleichbare Prozesse gibt es z.B. in der Natur
bei der Anlagerung von Sedimenten an einer Insel
in Bereichen ohne starke Strömungen, während in
Bereichen mit starker Strömung Material in der
Regel entfernt wird. In der nächsten Iteration
würden niedrig belastete Bereiche wieder entfernt,
angelagerte Elemente, die entsprechend höher als
das für die Entfernung notwendige Referenzniveau
liegen, bleiben erhalten.
2.5
Umgang mit auftretenden
während der Optimierung
Problemen
In späten Optimierungsphasen tritt das Phänomen
auf, dass die massiven Bereiche nicht mehr beeinflusst werden, da im wesentlichen durch zuvor
angelagerte, aber nicht ausreichend hoher Spannungen zum Verbleib gekennzeichneter Elemente
wieder entfernt werden. Man erkennt, dass die
Stellen zwar an den Streben stetig wechseln, aber
kein Optimierungsfortschritt mehr erzielt werden
kann (siehe Abb. 4).
AITUBS – Künstliche Intelligenz an der TU Braunschweig
36
Abb. 6: Optimierungsverlauf
Abb. 4: Umlagerung von Feldern ohne Strukturveränderung
Eine weitere Herausforderung ist es, das unstetige
Systemverhalten zu verarbeiten. Durch die stetige
Reduktion von Material kann beim Wegfall eines
tragenden Fachwerkes die Randbedingung, in diesem Beispiel die Verschiebung am Knoten der
Krafteinleitung, deutlich ansteigen. In diesem Fall
wird 3-stufig die Reduktionsweite verkleinert.
Die kommerziellen Programme Optistruct und
Tosca liegen von der Anzahl der benötigten Iterationen in einer ähnlichen Größenordnung. Da die
Anzahl der Iterationen von Benutzereinstellungen
und Konvergenzverhalten der Optimierung abhängig ist, sind in der Praxis 15 bis 70 Iterationen
üblich.
2.7
Ergebnisdiskussion
Bei der Diskussion des Ergebnisses fällt auf, dass
bei der LSR-HSC-Methode deutlich weniger
Fachwerksstrukturen in der Lösung vorhanden
sind als bei den kommerziellen Programmen. Im
massiven Bereich der Lagerung besteht noch weiteres Potenzial zur Gewichtsreduzierung
Abb. 5: Umgang bei Wegfall tragender Strukturen
Bei den kommerziellen Verfahren (SIMP und
Gradientenverfahren) ergeben sich mehr Fachwerkstreben, da die Verfahren das Material in
Bereichen von hoher Formänderungsarbeit anordnet. Der aktuelle Stand der LSR-HSC-Methode
ergibt eine um 2,2% leichtere Lösung. Die Verschiebung liegt sogar um 22% besser.
In Abbildung 5 tritt der Fall auf, dass die tragende
Struktur des oberen Fachwerks durch die LSR unterbrochen wird. Im ersten Schritt wird daher die
Reduktionsweite halbiert, im zweiten Schritt (falls
ein erneutes Versagen der Struktur mit der Schrittweite aus Schritt 1 auftritt) auf ein Viertel gesetzt,
im dritten Schritt findet nur eine Anlagerung vom
Material statt, um die Struktur wieder zu stabilisieren.
2.6
Optimierungsverlauf
Neben den technischen Eigenschaften ist die Anzahl
der benötigten Iterationen interessant. Die LSRHSC-Methode findet in dieser Anwendung nach 46
Iterationen ihr Optimum. Ab ca. der 20igsten Iteration bildet sich dabei die finale Struktur aus. Ab
diesem Zeitpunkt tritt die Optimierung in die Ausgestaltung von Feinheiten an der Kontur ein.
Abb. 7: Ergebnisvergleich mit kommerziellen Programmen
SIERK FIEBIG : Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteile
3
Einsatz Evolutionärer Algorithmen für
mechanische Strukturoptimierung
Für diskrete Aufgabenstellungen werden in der
Regel Genetische Algorithmen eingesetzt. Diese
Algorithmen zeichnen sich durch eine hohe Robustheit aus, können lokale Optima verlassen und decken in der Regel einen größeren Suchraum als
Gradientenverfahren ab.
Im Vergleich zu Gradientenverfahren sind Gründe
für den Einsatz von EAs zum einen das mögliche
Ausnutzen von weiteren Gewichtseinsparungspotenzialen, zum anderen aber auch die Anwendbarkeit auf hochkomplexe, nichtlineare Optimierungsprobleme, wie das Ausknickverhalten von Bauteilen. Bei mehrzieliger Optimierung ist die Möglichkeit des Auffindens von Paretofronten3 ein weiterer
Vorteil. So muss eine Abwägung zwischen mehreren
Designzielen nicht im Vorfeld vorgenommen werden. Im Anschluss an die Optimierung können die
besten Kombinationen aus Sicht des Anwenders
ausgewählt und tiefer beurteilt werden. Aus diesen
Kombinationen wird anschließend die Variante
bestimmt, die umgesetzt wird.
Das Hauptproblem bei der Verwendung von Evolutionären Algorithmen, wie Evolutionsstrategien und
Genetischen Algorithmen, ist der hohe Bedarf an
Analysen. Während bei zeitunkritischen Antwortfunktionen, wie z.B. Traveling Salesman Probleme
oder Testfunktionen aus dem mathematischen Umfeld mehrere tausend Berechnungen innerhalb einer
Sekunde durchgeführt werden können, stehen aufgrund der langen Dauer einer FEM-Analyse nur ca.
1000 bis 2000 Berechnungen über die ganze Optimierung zur Verfügung. Hier bieten sich erneut auf
Ingenieurwissen basierende Heuristiken an. Auf
diesem Weg können bereits im Vorfeld als nicht
sinnvoll erachtete Berechnungen ausgeschlossen
und somit Rechenzeit gespart werden.
Für die Anwendung von Genetischen Algorithmen
innerhalb der Strukturoptimierung mechanischer
Bauteile sind allerdings noch einige Probleme zu
lösen. Im Wesentlichen muss ein hoher Selektionsdruck auf Grund der geringen Anzahl an möglichen
Berechnungen mit der Erhaltung einer hinreichenden Diversität zwischen den Individuen in der Population in Einklang gebracht werden. Dadurch
tritt bei den aktuellen Untersuchungen mit Evolutionären Algorithmen bzw. Genetischen Algorithmen das Problem auf, dass vielversprechende Berei-
37
che des Suchraums nicht ausreichend untersucht
werden bzw. zu schnell verlassen werden.
Heuristiken zur Steigerung der Effizienz und eine
intelligente Steuerung der Population sind der
Schlüssel zur erfolgreichen Verwendung von auf
Evolutionsstrategien basierenden Algorithmen.
4
Zusammenfassung
Drei Gesichtspunkte sind zur Weiterentwicklung
aktuell besonders interessant: Die genaue Berücksichtung von Spannungen und plastischem Materialverhalten, das Lösen von Problemen mit geringen oder nicht vorhandenen Sensitivitäten zwischen Eingangsgrößen und Ausgangsgrößen und
die Verbesserung der Ergebnisse. Dieses triviale
Ziel relativiert sich, wenn man z.B. eine Gewichtsverbesserung von 5% bei im Automobilbau durchaus üblichen Stückzahlen von 200.000 bis 1 Million
und einem Bauteil von ca. 10 kg Gewicht betrachtet. Hier besteht ein deutliches Potenzial zur Kosteneinsparung bzw. CO2-Minderung.
Für die genaue Berücksichtigung von Spannungen
und plastischem Materialverhalten bietet sich eine
diskrete Materialmodellierung (nur „vorhanden/nicht vorhanden“, ohne Zwischenwerte) an.
Zur Optimierung mit diskretem Materialverhalten
sind in diesem Beitrag die Methoden Lowest Stress
Reduction und Hotspot-Correction, zusammen mit
einer entsprechenden Schrittweitensteuerung, beschrieben worden. Es wurde an einem Beispiel
gezeigt, dass dieses Verfahren in der Lage ist,
bessere Lösungen als kommerzielle Programme mit
kontinuierlicher Materialmodellierung und Gradientenverfahren zu finden.
Bestehender Nachteil ist, dass auch bei diesem
Verfahren weiterhin Sensitivitäten direkt für Veränderung der Eingangsgrößen aus den Ausgangsgrößen benötigt werden.
Hier bietet es sich an, auf Evolutionäre Algorithmen bzw. Genetische Algorithmen zurückzugreifen. Ein weiterer Vorteil ist, dass sich LSR/HSC
mit diesen Algorithmen kombinieren lässt.
Literatur
BENDSOE, M.P & SIGMUND, O. (2004): Topology Optimization:
Theory, Methods and Applications. Springer.
HARZHEIM, L. (2008): Strukturoptimierung, Grundlagen und
Anwendungen. 1. Aufl., Verlag Harri Deutsch.
MATTHECK, C. (1996): Design in der Natur: Der Baum als
Lehrmeister. 3. Aufl., Rombach Druck- und Verlagshaus.
SCHUMACHER A. (2005): Optimierung mechanischer Strukturen: Grundlagen industrielle Anwendungen. Springer.
3
Die Paretofront besteht aus den Ergebnissen, bei denen eine
Eigenschaft nur verbessert werden kann, indem eine weitere
Eigenschaft sich verschlechtert.
Approximative Dynamische Programmierung
für Vehicle Routing Probleme
Stephan Meisel∗
∗
Institut für Wirtschaftsinformatik, Mühlenpfordtstr. 23, 5.OG, TU Braunschweig
Zusammenfassung
licht die Streckenplanung zur Güterabholung für ein
Fahrzeug. Kundenanfragen treffen zufällig über einen
bestimmten Zeithorizont verteilt ein und müssen nach
dem Bekanntwerden entweder angenommen oder abgelehnt werden. Das Planungsziel besteht in der Maximierung der Gesamtanzahl bedienter Kunden im Verlaufe der gegebenen Zeitspanne (etwa der gesetzlich
vorgeschriebenen maximalen Lenkzeit des Fahrers).
Einem Kunden werden jeweils eine Nachfragewahrscheinlichkeit sowie eines von mehreren geographischen Ballungszentren zugeordnet. Diese Problemstellung spiegelt so eine typische Situation eines Logistikdienstleisters wider, der mit einem Fahrzeug etwa eine
ländliche Region mit mehreren Kleinstädten bedient.
Die Approximative Dynamische Programmierung wird
genutzt um eine Politik zu lernen, die möglichst gewinnoptimale Entscheidungen über Ablehnung und
Annahme neu nachfragender Kunden sowie über den
nächsten anzufahrenden Ort ermöglicht.
Approximative dynamische Programmierung [Sutton & Barto 1998; Bertsekas & Tsitsiklis
1996; Powel 2007] ist eine Erweiterung der simulationsbasierten Methoden der stochastischen dynamischen Programmierung. Letztere sind lernende Verfahren, die dem Auffinden einer exakten Lösung für die
Optimalitatsgleichungen dynamischer Systeme dienen. Die Optimalitatsgleichungen sind auch unter den
Namen „Bellman-Gleichungen“ oder „HamiltonJacobi-Gleichungen“ bekannt. Typische Methoden
der stochastischen dynamischen Programmierung folgen dem Prinzip der grundlegenden Lernverfahren „Value Iteration“ und „Policy Iteration“. Sie sind zudem
sehr eng verwandt mit dem Bereich des „Reinforcement Learning“ in der künstlichen Intelligenz und dem
Bereich des „Model- Predictive-Control“ in der Kontrolltheorie.
Für zahlreiche Anwendungen erfordern die Methoden
zur exakten Lösung der Optimalitatsgleichungen jedoch einen prohibitiven Rechenaufwand und sind deswegen praktisch kaum anwendbar. Eine Alternative
besteht in den Methoden der approximativen dynamischen Programmierung. Diese bilden eine Erweiterung
der stochastischen dynamischen Programmierung und
zielen auf eine näherungsweise Lösung der Optimalitätsgleichungen. Zu diesem Zweck wird eine Regressionsfunktion eingeführt, deren Parameter aus den Daten simulierter Systemtrajektorien bestimmt werden.
Die Wahl der Regressionsfunktion ist dabei frei und
reicht von einfachen linearen Funktionen bis zu komplexen Neuronalen Netzen.
Genauer betrachtet wird ein Ansatz der Approximativen Dynamischen Programmierung für ein dynamisches Vehicle Routing Problem. Der Ansatz ermög-
Literatur
Sutton, R. S. & Barto, A. G. (1998): Reinforcement
Learning: An Introduction – Adaptive Computation and
Machine Learning. MIT Press (Cambridge, MA). ISBN
0-262-19398-1.
Bertsekas, D. P. & Tsitsiklis, J. N. (1998): NeuroDynamic Programming – Optimization and Neural Computation Series 3, Athena Scientific. ISBN 1-886529-10-8.
Powel W. B. (2007): Approximate Dynamic Programming:
Solving the Curses of Dimensionality. John Wiley & Sons.
ISBN 978-0-470-17155-4.
38
Zelluläre Grundlagen von Lernvorgängen im Gehirn
Martin Polack∗ , Marta Zagrebelsky∗ & Martin Korte∗
∗
Zoologisches Institut, Abt. Zelluläre Neurobiologie, TU Braunschweig
Zusammenfassung
ist der Nervenwachstumsfaktor BDNF (brain-derivedneurotrophic factor) und Neurotrophin-Rezeptoren,
wie der TrkB- und der p75-Rezeptor. Eine weitere
wichtige Erkenntnis der letzten Jahre besteht darin,
dass auf molekularer Ebene die Proteine, die für neuronale Plastizität essentiell sind, auch zwischen ganz
verschiedenen Tierarten konserviert wurden. Außerdem sind bei aktivitätsabhängiger synaptischer Plastizität zum Teil die gleichen Moleküle von Bedeutung,
die bei der postnatalen Entwicklung in der Organisation des Nervengewebes eine Rolle spielen.
Mit Hilfe von elektrophysiologischen Methoden und
modernen Imaging Verfahren untersuchen wir die Mechanismen struktureller und funktioneller Plastizität
im Säugetiergehirn.
Unser Gehirn muss eine ungeheuer komplizierte Aufgabe erfüllen: Es muss einen kontinuierlichen Fluss an
Sinnesinformationen verarbeiten und zur gleichen Zeit
Erinnerungen, zum Teil für ein Leben lang, speichern
und abrufen. Die Transmission von chemischen Botenstoffen zwischen Nervenzellen erfolgt dabei ebenso
an den Synapsen wie das Generieren und Speichern
neuer Informationscodes.
Die Abteilung „Zelluläre Neurobiologie“ unter Leitung
von Prof. Dr. Martin Korte, geht der Frage nach, welche Mechanismen und welche biochemischen Prozesse diese Lern- und Gedächtnisvorgänge ermöglichen.
Man weiß, dass Lernprozesse an identifizierbaren synaptischen Punkten ablaufen. Vor allem konnte nachgewiesen werden, dass bei der Aufrechterhaltung der
Langzeitpotenzierung (LTP) auch neue Synapsen entstehen können und so funktionelle in strukturelle Veränderungen übersetzt werden.
Ein herausragendes Merkmal von Säugetierneuronen
ist die Komplexität dendritischer Verzweigungen. Es
sind die Dendriten eines Neurons, an dem normalerweise Informationen von anderen Neuronen empfangen, integriert und prozessiert werden. Zusätzlich
zu den komplexen dendritischen Verästelungen zeigen
viele Neuronen, darunter Pyramidenzellen im Hippocampus und im Cortex, dendritische Spezialisierungen, die als Spines (Dornen) bezeichnet werden und
die die postsynaptische Seite exzitatorischer Eingänge darstellen. Die Form und der Umfang des Dendritenbaumes beeinflusst maßgeblich die dendritische
Informationsverarbeitung und die Integration von synaptischer Aktivität.
Ein interessanter molekularer Kandidat, der daran beteiligt ist, diese Veränderung in der Funktion (Verstärkung der Synapse) in eine Strukturveränderung
(Neubildung von Spines/Synapsen) zu übersetzen,
Literatur
Rauskolb, S., Zagrebelsky, M., Dreznjak, A., Deogracias, R., Matsumoto, T., Wiese, St., Erne, B.,
Sendtner, M., Schaeren-Wiemers, N., Korte, M.
& Barde Y.-A. (2010): Global deprivation of brainderived neurotrophic factor in the CNS reveals an areaspecific requirement for dendritic growth. Journal of Neuroscience 30: 1739–1749.
Korte, M. (2009): Bridging the gap and staying local.
Science 324(5934): 1527–1528.
Korte, M. (2009): A protoplasmic kiss to remember.
Science 319(5870): 1627–1628.
Matsumoto, T., Rauskolb, S., Polack, M., Klose,
J., Kolbeck, R., Korte, M. & Barde Y.-A. (2008):
Biosynthesis and processing of endogenous BDNF: CNS
neurons store and secrete BDNF, not pro-BDNF. Nature
Neuroscience 11: 131–133.
39
40
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Roth-Alpermann, C., Morris, R. G. M., Korte, M.,
Bonhoeffer, T. (2006): Homeostatic shutdown of longterm potentiation in the adult hippocampus. PNAS 103:
11039–11044.
Gärtner, A., Polnau, D. G., Staiger, V., Sciarretta,
C., Minichiello, L., Thoenen, H., Bonhoeffer, T.
& Korte, M. (2006): Hippocampal long-term potentiation is supported by presynaptic and postsynaptic tyrosine
receptor kinase B-mediated phospholipase Cγ signaling.
Journal of Neuroscience 26: 3496–3504.
Rösch, H., Schweigreiter, R., Bonhoeffer, T., Barde Y.-A. & Korte, M. (2005): The neurotrophin receptor p75NTR modulates long-term depression and regulates
the expression of AMPA receptor subunits in the hippocampus. PNAS 102: 7362–7367.
Zagrebelsky, M., Holz, A., Dechant, G., Barde Y.A., Bonhoeffer, T. & Korte, M. (2005): The p75
Neurotrophin Receptor Negatively Modulates Dendrite
Complexity and Spine Density in Hippocampal Neurons.
Journal of Neuroscience 25: 9989–9999.
Künstliche Neuronale Netze
– Ein Blick in die Black Box –
Michael Heinert∗
∗
Institut für Geodäsie und Photogrammetrie, Gaußstraße 22, 38106 Braunschweig
Zusammenfassung
The black box character that was firstly the big advance in the use of ANN – the supervisor must not
think about the model set up – becomes the crucial
disadvantage. Finally, there seems to be no possibility
to improve the networks by using simple rules up to
now.
Accordingly it is necessary to understand how an ANN
projects the behaviour of a system into its weight matrix.
Eine Abfolge einfacher Maßnahmen erlaubt die Analyse eines trainierten künstlichen neuronalen Netzes
und damit die Möglichkeit dieses zu verbessern. Auf
diese Weise gelingt es die Black Box eines künstlichen neuronalen Netzes (KNN) zu öffnen. KNNs sind
einfach aufzustellen und zu trainieren, dabei liefern sie
auch noch schnell gut approximierende Modellresultate. Mit zunehmender Komplexizität des abzubildenden
Systems wachsen die Probleme. Zwar kann der Trainingsdatensatz mit einer entsprechend hohen Anzahl
von Neuronen bestmöglich angepasst werden, doch
eine Prädiktion, die eine Generalisierung voraussetzt,
kann nicht mehr erfolgreich durchgeführt werden.
Der Black Box -Charakter, der zunächst ein durchaus
wünschenswerter Vorteil – ein Benutzer musste sich
über physikalische Modellansätze keine Gedanken machen – gewesen ist, wird nun der größtmögliche Nachteil. Es scheint derzeit kaum geeignete Möglichkeiten
zu geben, KNNs nachhaltig zu verbessern.
Demzufolge ist es notwendig zu verstehen, wie das
KNN ein Systemverhalten in seine Gewichtsmatrix abbildet.
1 Einführung
Die künstlichen neuronalen Netze (KNN) wurden
ursprünglich für Aufgaben in der Mustererkennung entwickelt [Turing 1948; Farley & Clark
1954; Rosenblatt 1958]. Dennoch hat sich der
Nutzungsumfang längst auf die mehrdimensionale nichtlineare Regression ausgedehnt. Betrachten
wir die Zeitreihen aus geodätischen Messungen als
realisierten Prozessausgang eines Systems – ein System kann beispielsweise ein Bauwerk oder auch ein
Fahrzeug sein – und stehen gleichermaßen gemessene Umweltdaten, wie Temperatur, Luftfeuchte;
aber auch wirkende Kräfte wie Wasserstände oder
Verkehrsauflasten als Prozesseingänge zur Verfügung, dann werden die KNN für eine Modellbildung
überaus interessant [Heine 1999].
Einerseits besitzt ein KNN den entscheidenden Vorteil, dass keine physikalisch-mathematischen Beziehungen zwischen Ein- und Ausgangsgrößen verwendet, um ein Modellverhalten eines Systems zu generieren. Das hat zur Folge, dass die Systemfunktion
durch eine Gewichtsmatrix abgebildet wird, deren
Elemente zunächst frei von jeder physikalischen Bedeutung sind.
Summary
A combination of several simple measures enables the
analysis of a trained neural network and thus the possibility for an improvement of it. Such way it is possible
to open the black box of an artificial neural network
(ANN). These are simple in set up, easy to train and
deliver quickly well-fitted model results. But an ANN
faces increasing problems with the complexity of the
systems it has to model. While the fit of the training
data can be infinitely improved by adding more neurons, the quality of the prediction becomes worse.
41
42
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Andererseits stellt genau dieser zunächst angenehme Black Box -Charakter ein schwerwiegendes Problem dar: Mit einer wachsenden Komplexizität des
zu überwachenden Objektes werden mehr Parameter bzw. Gewichte benötigt und es wächst damit
auch die notwendige Kapazität des Modells. Das
Modell als Abbildung des Systems wird seinerseits
komplex und sehr schnell unüberschaubar. Ein typisches Anzeichen hierfür ist das Phänomen, dass
während der Optimierungs-, Trainings- oder Lernphase des Modells die Differenzen zwischen Systemausgang und Modellausgang minimal werden, also
das Modell auf den ersten Blick als Optimal erscheint, aber keineswegs zu einer noch so kleinen
Prädiktion oder Extrapolation in der Lage ist. Dieses Problem ist keineswegs auf einfachem Wege lösbar, denn die Gewichte des neuronalen Modells entziehen sich einer physikalisch-mathematischen Interpretation. Der anfängliche Vorteil verkehrt sich
also sehr schnell ins Gegenteil.
Im Rahmen der folgenden Erörterungen soll der
Fokus speziell auf die Eigenschaften und Möglichkeiten der überwachten und mehrschichtigen Feed-Forward Netze (MLFF) gelegt werden.
Unüberwachte Lernstrategien, Assoziative Netze,
Kohonen-Netze oder Agenten, welche allesamt
auch unter die Neuronalen Netze gerechnet werden
[Haykin 1999, Kap. 9], sind hingegen kein Gegenstand dieser Betrachtungen.
2 Wie bildet ein künstliches neuronales
Netz ein System ab?
Zellkern
Dentrit
Axon
Synapse
x1
x2
Neuron
Synapsen
Gewichtete
Summation
Σ
y1
Aktivierungsfunktion
xm
Abb. 1: Das biologische Neuron [Sitter 2001] als
Vorbild für ein künstliches mathematisches Neuron
[Heinert 2008].
All jene Synapsen, also Zellverbindungen, deren kumuliertes Signal das Feuern unserer einzelnen Zelle ausgelöst haben, werden gestärkt. Alle inaktiven Verbindungen hingegen werden geschwächt und
können schließlich auch vollständig verschwinden.
Die Zelle hat gelernt. Auf diese Weise werden nur
wirklich benötigte Verbindungen erstellt.
In der mathematische Kopie dieses Prozesses wird
die Stärke einer jeden i-ten Synapse durch das Gewicht wi repräsentiert. Mit diesem Gewicht werden
die eintreffenden Signale xi multipliziert [Spitzer
2002, S. 55f]. Man erhält damit den kumulierten
Stimulus
2.1 Herleitung aus der Biologie
ȳ¯(t) =
Auch wenn es oft geschildert worden ist: Ein künstliches neuronales Netz ist der Versuch, die Arbeitsweise eines biologischen Gehirns zu imitieren. Wie
aber funktioniert in etwa ein biologisches Gehirn?
Zunächst einmal ist es aus Zellen zusammen gesetzt
– den sogenannten Neuronen. An ihren Synapsen
empfangen die Neuronen chemo-elektrische Signale
ihrer Nachbarn [Haykin 1999, S. 9f]. Überschreitet
in einer Zelle die Spannung der eingehenden Sigale einen zelltypischen Schwellwert, so beginnt diese
Zelle selbst ein chemo-elektrisches Signal an seine
Nachbarn auszusenden, oder wie es eben heißt, es
„feuert“ (Abb. 1). Die Signale, die unsere einzelne
Zelle empfangen hat stammen aber nicht unbedingt
von der gleichen Gruppe Zellen, die jetzt ein Signal
erhält.
Postsynaptisches
Neuron
n
∑
wi · xi (t) = wT · x(t)
(1)
i=1
∀ x ∈ X ⊂ IRn , t ∈ T ⊂ IR, w ∈ W ⊂ IRn .
Die zelltypische Reaktion beschreibt nun eine Aktivierungsfunktion. Durchaus ähnlich zum biologischen Vorbild ist die Heaviside-Funktion
∫ ∞
1
1
Θ(υ) = lim −
e−iυτ dτ
(2)
ε→0 2πi −∞ τ + iε
aus der die Schwellwert-Aktivierungsfunktion
1
φΘ (υ) =
2
(
υ
+1
|υ|
)
(3)
abgeleitet werden kann. Die Individualität der Reaktion einer jeden einzelnen Zelle auf die verschie-
Michael Heinert et al.: Künstliche Neuronale Netze
43
Tab. 1: Gängige Aktivierungsfunktionen: Die ersten drei eignen sich vornehmlich für MLFF-Netze, die letzte
eher für RBF-Netze.
SchwellwertAktivierung
(Heaviside)
beschränkt
lineare
Aktivierung
φΘ (υ) =
(
1
2
υ
|υ|
φ(υ)
1
)
+1
-4 -2


1
0 ∀ υ ≤ 2m
1
1
mυ + 2 ∀ − 2m < υ ≤
φ[/] (υ) =

1
1 ∀ υ > 2m
0
2
4
υ
2
4
υ
2
4
υ
2
4
υ
φ(υ)
1
1
2m
-4 -2
0
φ(υ)
1
sigmoidale
Aktivierung
φΣ (υ) =
1
1+e−aυ
-4 -2
0
φ(υ)
1
υ 2
Gausssche
Aktivierung
φN (υ) = e−( σ )
-4 -2
denen Stimuli durch die Eingänge xi
ȳ(t) = φΘ (ȳ¯(t))
(
= φΘ
N+
∑
)
wi · xi (t)
i
(
)
= φΘ N + wT · x(t) .
(4)
wird zusätzlich noch durch den Bias N gesteuert,
der jedem Neuron ein anderes Intervall der Aktivierungsfunktion φ[ · ] zuweist.
Ein weiterer unabhängiger Netztyp ist das sogenannte RBF-Netz. Mehrere aktivierte radiale Basisfunktionen (RBF)
Φi (w) = φ (∥xi − χk ∥) + N
0
erst später entdeckt worden ist. So dokumentieren
Wilson & McNaughton [1993] wie Ratten mittels Ortsneuronen im Hippocampus sich durch ihre
Umwelt bewegen. Eine Gruppe von Ortsneuronen
speichert dabei eine besondere Wegmarke. Nähert
sich die Ratte diesem Ort, wird diese Gruppe von
Neuronen aktiv und „feuert“. Befindet sich die Ratte aber auch in der Nähe anderer derart gespeicherter Orte, so sind auch deren Repräsentanten
aktiv. Die über die reziproke Entfernung gewichtete Summe der Signale beschreibt der Ratte somit
ihre genaue Position [Spitzer 2002, S. 24f]. Nicht
von ungefähr sind RBFs und die daraus abgeleiteten RBF-Netze also für nichtlineare Interpolationsund Regressionsalgorithmen überaus nützlich.
(5)
sind in einer einzelnen versteckten Schicht angeordnet [Patterson 1996, Abschn. 7.2.1]. Die Grundlage für diesen Netztyp bildet das Theorem von
Cover [1965]. Während es sich hierbei zunächst
um einen reinen mathematischen Ansatz handelt,
existiert auch hier ein biologisches Vorbild, das aber
2.2 Herleitung aus der Algorithmik
Jedes einzelne künstliche Neuron verfügt über eine nicht zu unterschätzende Modellkapazität. Das
wird insbesondere dann deutlich, wenn wir ein einzelnes Neuron unter mathematisch gleichartigen
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
44
Algorithmen betrachten. Dazu vernachlässigen wir
für einen Augenblick den biologischen Ursprung.
Ein rekursiver Algorithmus ist in der Lage aus einer Zeitreihe heraus das jeweils aktuelle Element
aus seinen Vorgängern mittels des wohlbekannten
autoregressiven Modells AR[p]:
yt =
p
∑
(6)
uτ yt−τ
τ =1
mit den p Parametern u zu bestimmen (Abb. 2a).
Dieses Modell basiert auf der Autokorrelation
der Elemente, was sich aus der Yule-WalkerGleichung eindrücklich zeigen lässt. Nun stören äußere Einflüsse in aller Regel diese Autokorrelation,
womit die Autoregressivität versagt. Daher erweitert man dieses Modell um exogene Eingänge x.
Diese gemessenen Systemeingänge – in aller Regel
handelt es sich um Umwelteinflüsse oder einwirkende Kräfte – werden mit Gewichten w multipliziert und in die Summation des AR-Modells mit
aufgenommen (Fig. 4b). Dieses erweiterte Modell
wird als ARX-Modell bezeichnet. Eine genaue Betrachtung des Aufbaus eines nichtlinear aktivierten
rekursiven Neurons führt mit dem vorangestellten
Wissen zum unweigerlichen Schluss, dass es mit einem nichtlinearen autoregressiven Modell mit exogenen Eingang (NARX) identisch ist [Bunke 1997;
Heinert & Niemeier 2004]. Demzufolge können
wir vergleichen:
• unverzerrtes rekursives Neuron mit unbeschränkter linearer Aktivierung
p
e
∑
∑
⇐⇒ yt =
uτ yt−τ +
wθ xt−θ ⇐⇒
τ =1
• nicht-rekursives Neuron mit nichtlinearer Aktivierung
(
)
e
∑
⇐⇒ yt = φ N +
wθ xt−θ ⇐⇒
θ=0
verzerrtes nichtlineares triviales autoregressives Modell mit exogenem Eingang (ARX[0, e]).
Dieser detaillierte Vergleich der Algorithmen und
ihren Eigenschaften eröffnet neue Erkenntnisse,
denn mit diesem Wissen können die Resultate von
Untersuchungen in anderen Fachgebieten zu Rate
gezogen werden. Denn nicht wenige Autoren betonen die große Modellkapazität der verschiedenen
autoregressiven Modelle [Ghosh & Maka 2008;
Mellit & Kalogirou 2008; Menezes & Barreto 2008, et al.]. Nun sind in einem neuronalen
Netz mehr als einer dieser mächtigen Algorithmen
kombiniert, was ihre Modellkapazität eben nicht
summiert sondern eher multipliziert.
x
uτ·yt-τ
x
τ =1
θ=0
• rekursives Neuron mit nichtlinearer Aktivierung
⇐⇒ (
)
p
e
∑
∑
yt = φ
wθ xt−θ
uτ yt−τ + N +
τ =1
θ=0
⇐⇒
verzerrtes nichtlineares autoregressives Modell
mit exogenem Eingang (NARX[p, e]),
wτ·xt-τ-θ
τ
b
uτ·yt-τ
x
y
t
t
y
θ=0
autoregressives Modell mit verzerrtem exogenem Eingang,
t
y
autoregressives Modell mit exogenem Eingang
(ARX[p, e]),
• rekursives Neuron mit unbeschränkter lineare
Aktivierung
p
e
∑
∑
wθ xt−θ ⇐⇒
⇐⇒ yt =
uτ yt−τ + N +
a
wτ·xt-τ-θ
c
t
t
t
Abb. 2: Vergleich verschiedener Algorithmen: a) das
autoregressive Modell, b) das autoregressive Modell mit einem exogenen Eingang und c) das nichtrekursive Neuron mit unbeschränkt linearer Aktivierung.
Michael Heinert et al.: Künstliche Neuronale Netze
a
b
c
45
d
e
f
?
Abb. 4: Die XOR-Dichotomie a) im zweidimensionalen Zustandsraum, b) im dreidimensionalen Objektraum
mit den Normalenvektoren der Abbildungen, c) in einen orthogonalen Zustandsraum, d) die Abbildung der
klassifizierenden Ebene in den Zustandsraum, e) die theoretische Klassifizierung durch drei Neuronen (grau)
und zwei RBF-Neuronen (schwarz) im Vergleich und f) praktische Lösung.
2.3 Herleitung aus der Lerntheorie
Eine völlig andere Erklärung der hohen Modellkapazität eines neuronalen Netzes ist ebenfalls überraschend. Stellen wir uns hierzu vor, dass alle Muster bestehend aus Eingangs- und Ausgangsdaten
in einen n-dimensionalen Merkmalsraum H transformiert und abgebildet werden. Dessen Dimension
n sei signifikant höher als die Anzahl m der ein- und
Ausgangskanäle. In diesem Merkmalsraum existiere ferner eine n − 1 dimensionale Hyperebene, welche – für eine Mustererkennung – die Muster in zwei
Klassen separiert oder welche – für eine Regression
– die Muster ideal linear annähert. Eine solche Abbildung der Daten würde sehr viel Rechenzeit benötigen. Man stelle sich also vor, man würde statt
dessen diese Hyperebene aus dem Merkmalsraum
in den ursprünglichen Datenraum abbilden. Für ei-
data space IR²
feature spaceH³
?
Abb. 3: Eine Menge von Mustern befindet sich
auf einer Ebene im dreidimensionalen Merkmalsraum
(links). Nach der Abbildung der Muster in die z.B.
x-z-Ebene des Koordinatensystems ist eine lineare Regression unmöglich (rechts).
ne Reihe von neuronalen Netzen mit einer verdeckten Schicht lässt sich der mathematische Nachweis
erbringen, dass sie gerade eine solche Rücktransformation einer Hyperebene im Merkmalsraum darstellen1 [Haykin 1999, S. 333].
1
Die Support Vector Machines (SVM) mit ihren Kernfunktionen lassen sich ebenfalls auf diese Grundidee zurückfüh-
1. Beispiel:
Um diesen thereotischen Entwurf verstehen
zu können, stellen wir uns vor, unsere Muster seien auf einer schiefen Ebene in einem dreidimensionalen Merkmalsraum angeordnet (Abb. 3, links). Eine dreidimensionale lineare Regression würde unmittelbar in
der Lage sein, diese Punkte zu modellieren. Stellen wir uns weiterhin vor, die Muster würden in eine Ebene abgebildet, die
durch zwei beliebige Koordinatenachsen aufgespannt wird, dann würde die lineare Regression dieser scheinbar zufällig angeordneten Muster mit großer Wahrscheinlichkeit völlig versagen (Abb. 3, rechts). In dieser Situation befinden wir uns aber häufig mit unseren
Daten im Ursprungsraum: eine oder mehrere
wichtige Merkmale sind nicht explizit bekannt
oder fehlen völlig.
2. Beispiel:
Eine klassische Darstellung dieses Problems
ist das sogenannte XOR-Problem [Haykin
1999, S. 175f und S. 259f]. Die Ergebnisse der
Booleschen Funktion des ausschließenden
Oders, eben XOR, sollen linear separiert werden. Dazu werden die wahren Aussagen mit
einer 1 und die falschen mit einer -1 gekennzeichnet. Eine lineare Separierung der Ergebnisse bezüglich dieser Kennzeichnung in zwei
Klassen ist unmöglich (Abb. 4a). Wird jedes
Muster x = {[0, 0] ; [0, 1] ; [1, 0] ; [1, 1]} um seinen jeweiligen Funktionswert y = {1; −1} ergänzt, so ordnen wir jedes Muster im Merkmalsraum H3 an (Abb. 4b). Hier existiert sehr
wohl eine linear Fläche, welche die Muster
in zwei Klassen separiert. Es wird aber auch
deutlich, dass ein orthogonaler Datenraum
existieren muss, in dem diese Trennung unmittelbar gelingt (Abb. 4b, Pfeil von rechts;
ren [Mercer 1909; Vapnik 1998; Haykin 1999; Schölkopf & Smola 2001; Riedel & Heinert 2008]
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
46
Abb. 4c). Würde der ganze Merkmalsraum
mit der Hyperebene in den ursprünglichen
zweidimensionalen Datenraum abgebildet –
wobei der Charakter einer Fläche natürlich
verloren ginge (Abb. 4d), aber als Gedankenexperiment ist es dennoch hilfreich – so erhielte man unter anderem die Lösungen verschiedener neuronaler Netze [Haykin 1999,
S. 333].
2.4 Herleitung aus praktischen Betrachtungen
Abseits der Theorie ist die Arbeitsweise eines
Neurons innerhalb eines neuronalen Netzes recht
einfach. Diese Arbeitsweise wird besonders einfach verständlich, wenn wir im Folgenden eine beschränkte lineare Aktivierungsfunktion

1
0 ∀ υ ≤ 2m

1
1
1
mυ + 2 ∀ − 2m < υ ≤ 2m
(7)
φ[/] (υ) =

1
1 ∀ υ > 2m
verwenden. Diese Funktion habe die Steigung m
sowie ihre obere Schranke bei 1 und ihre untere
bei 0 (Tab. 1). Man findet als alternative Beschränkungen gelegentlich auch −1 und 1 [Haykin 1999,
Abb. 14.22].
3. Beispiel:
In einem neuronalen Netz mit einer verdeckten Schicht, verwendet jedes Neuron seine
Gewichte w und den Bias N , um eine optimale Sekante durch die reale Systemfunktion zu legen. Um dieses zu zeigen, stellen
wir uns vor ein System generiere einen Systemausgang y(t), dessen deterministischer Anteil gerade der quadrierte Systemeingang x(t)
sei (Abb. 5). Eine optimale angepasstes Netz
mit zwei verdeckten Neuronen modellierte die
Systemfunktion mit einer trogförmigen stetigen Funktion (Abb. 6a). Die Symmetrie dieser
Funktion und die jeweiligen Steigungen sind
dabei abhängig von der Verteilung der verfügbaren Muster (Abb. 6b). Betrachten wir den
Fall für nur vier Muster, so wird dieses Netz
die Muster ohne Residuen modellieren können
(Abb. 6c). Allerdings ist dieses eine Ergebnis
nicht festgelegt. Es können auch andere Lösungen mit unterschiedlichen Steigungen dieser linearen Segmente auftreten. Insbesondere
der rechte Arm der Modellfunktion ist hier für
zu schwach bestimmt.
Verwendet man in diesem Beispiel statt der
beschränkten linearen Aktivierung vielmehr
eine nichtlineare, so verschwinden zunächst
1,0
input x
0,5
output y
model y
0,0
-0,5
-1,0
0,0
0,2
0,4
time t
0,6
0,8
1,0
Abb. 5: Ein KNN mit zwei Neuronen in der verdeckten Schicht modelliert eine Zeitreihe. Der beobachtete
Systemausgang y (Punkte) ist der quadrierte Eingang
x (Striche). Der Modellausgang ȳ (graue Linie) liefert
eine gute Approximation.
die typischen Ecken der Modellfunktion. Üblicherweise kommt hier der Tangens hyperbolicus als Aktivierung
φΣ (υ) =
1
.
1 + e−aυ
(8)
zum Einsatz. Damit dürfen wir im Wertebereich der Muster eine sehr glatte und zuverlässige Anpassung erwarten (Abb. 6d).
2.5 Wieso ist ein künstliches neuronales Netz eine Black Box?
Das Kernproblem eines künstlichen neuronalen
Netzes ist sein Black Box -Charakter. Dieser erschwert maßgeblich die Analyse der Modellfunktion hinsichtlich ihrer Glaubwürdigkeit und Plausibilität. Somit werden Untersuchungen hinsichtlich
dieser Faktoren auch gern unterlassen. Ein typisches Phänomen lässt sich bei bereits konvergierten Lösungen beobachten: jeder Trainingslauf liefert eine neue, mit den anderen Lösungen nicht vergleichbare Gewichtsmatrix [Miima 2002]. Dennoch
sind die Ausgaben y überraschend ähnlich, wenn
nicht sogar gleich. Schuldig hieran sind die Startwerte der Gewichtsmatrix, die in aller Regel aus
kleinen Zufallszahlen bestehen. Diese sind – so sind
die meisten Programmroutinen definiert – natürlich mit jedem neuen Trainingslauf unterschiedlich.
Demzufolge sind auch die opimalen Gewichtsmatrizen jeweils unterschiedlich. Die Unterschiede finden sich sowohl in den Werten für die Gewicht w
als auch in den Positionen der homologen Neuronen im Netz. Dieses Phänomen hat seine Ursache
aber nicht in den Startwerten – diese offenbaren nur
das Phänomen – sondern in der Unterbestimmtheit
des Netzes [Vapnik 1998; Haykin 1999]. Das bedeutet die Modellkapazität des gewählten Netzes
Michael Heinert et al.: Künstliche Neuronale Netze
a
b
y
c
y
x
47
d
y
x
y
x
x
Abb. 6: Gleiches KNN wie in Abb. 5, Aber der Ausgang ȳ ist aufgetragen über x: a) zwei beschränkt linear aktivierte Neuronen mit symmetrischem Eingangsintervall (grauer Hintergrund), b) mit asymmetrischem
Eingangsintervall, c) unter Verwendung von nur vier Mustern und d) zwei sigmoidal aktivierte Neuronen mit
symmetrischem Eingangsintervall.
ist viel zu hoch bezüglich der Anzahl und Qualität
der Muster. Diese Unterbestimmtheit ist wesentlich weiter gefasst als beispielsweise die fehlende
Redundanz eines Ausgleichungsproblems [Niemeier 2008]: selbst wenn die Anzahl der Freiheitsgerade bereits hoch ist, kann das Modell –hier eben ein
neuronales Netz – bei weitem unterbestimmt sein.
Es ist für die Frage nach dem Black Box -Charakter
von größter Wichtigkeit zu verstehen, was in einem
unterbestimmten Netz passiert: Ein und dieselbe Eingangs- und Ausgangsbeziehung der Systemfunktion kann durch getrennte Gruppen von Neuronen modelliert werden. Angenehmerweise wird
dieses Netz schnell konvergieren. Entscheidend ist
aber, dass ein Teil der Modellfunktion über unterschiedliche Gruppen verteilt worden ist. Würde
man die homologen Neuronen dieser Gruppen identifizieren und deren Gewichte addieren, anschließend die redundanten bzw. jetzt überflüssigen Neuronen beseitigen, wäre das Ausgaberesultat exakt
dasselbe. Dieses neu entstandene Netz wäre natürlich erheblich kleiner.
4. Beispiel:
Wir stellen uns folgendes vor: der Prozess y
lasse sich auf der Grundlage von vier Eingangsgrößen xi modellieren. Im Netz befänden sich fünf Neuronen in der verdeckten Schicht (Abb. 7). Weiterhin treffen wir
die Annahme: die Eingangs-/ Ausgangsbeziehung der ersten drei Eingänge sei gleich, beispielsweise müssten diese quadriert werden,
um den Systemausgang zu modellieren. Wir
erinnern uns: Zwei Neuronen sind für diese Aufgabe vollständig hinreichend (Abb. 6).
Theoretisch vorstellbar ist nun, dass die ersten drei Eingänge xi , i = 1 . . . 3 durch ein
implizites Weight Sharing verarbeitet werden, also sich die ersten beiden Neuronen
teilen, um zu einer quadratischen Eingangs/Ausgangsbeziehung zu kommen. In diesem
Falle sind noch drei Neuronen ohne jede Aufgabe und können sich auf Verarbeitung des
vierten Eingangs x4 konzentrieren. Unter der
Proportionalitätsannahme x4 ∼ y wären die
letzen zwei Neuronen ohne jede Aufgabe. Sie
würden unmittelbar beginnen, nichtdeterministische Anteile des Systemausgangs – also
Rauschen oder schlimmer noch Ausreißer –
zu modellieren.
3 Vorbehandlung der Muster
3.1 Wozu müssen die Eingänge und Ausgänge
semi-parametrisiert werden?
Künstliche neuronale Netze müssen nicht zwingend
mit dem originären Eingang „gefüttert“ werden.
Es ist weit verbreitet, sie auch quadriert, deren
Wurzeln, deren Ableitungen oder andere funktionale Ausgaben dem Netz und damit dem Training
zur Verfügung zu stellen. Das Netzwerk entschei-
x1
x2
y
x3
x4
Abb. 7: Ein unterbestimmtes Netz: ein implizites
Weight Sharing verursache, dass drei Eingänge mit
nur zwei Neuronen modelliert werden können (schwarze Linien) und der verbleibende Eingang habe drei
Neuronen zur Verfügung. Die anderen Synapsen seien
bedeutungslos (grau).
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
48
Φu nonlinear
x
Vielfaches des Erwartungswertes zweiter Ordnung
E(X2 ) = σx und E(Y2 ) = σy . Diese Art der Begrenzung der Werte
y
n ∗
xi (t)
x
f(x)
y*
Φu quasilinear
y
Abb. 8: Ein nicht-parametrisches Modell überführe
einen linearen Eingang in einen quadratischen Ausgang und benötige hierzu viele Neuronen. Die Eingangsdaten in einem semi-parametrischen Modell sind
bereits aufgrund von bekannten Funktionalitäten vorbehandelt. Das notwendige Netz benötigt weniger
Neuronen [Heinert 2008].
det nun darüber, welcher der Eingänge geeignet im
Sinne der Modellierung ist. Diese bereits erfolgreiche Methode kann natürlich noch erweitert werden:
Nicht selten sind grundlegende physikalische Beziehungen zwischen den Systemein- und -ausgängen
bereits bekannt. In so einem Fall ist es zweckmäßig,
von vornherein mit dem Ergebnis des vereinfachten
phsikalischen Gesetzes
x∗i (t) = f (xi (t))
(9)
zu versorgen (Abb. 8). Umgekehrt kann auch eine
Ableitung des Systemausgangs
yi∗ (t) = f (yi (t))
(10)
nötig und zweckmäßig sein, um die Modellierung zu
erleichtern. Netze, die mit solchen vorbehandelten
Mustern trainiert werden sind nicht mehr vollstängig nicht-parametrisch. Daher wird in diesem Aufsatz im Folgenden der Begriff semi-parametrisch
verwendet.
3.2 Wozu müssen die Eingänge und Ausgänge
normiert werden?
Ein unumgänglicher Schritt vor der Verwendung eines künstlichen neuronalen Netzes ist die Normierung der Muster, also ihrer Eingangs- und Ausgangsdaten. Zunächst werden sie um ihren jeweiligen Erwartungswert E(X) = µx und E(Y) = µy
verkürzt. Danach müssen die resultierenden Werte auf das Intervall −1 und 1 beschränkt werden.
Der Normierungsfaktor ki ist hierbei ein geeignetes
=
x∗i (t) − µx∗i
,
ki σx∗i
n
y(t) =
y(t) − µy
k ′ σy
(11)
hat den praktischen Nutzen, das alle Neuronen mit
einer beschränkten Aktivierungsfunktion nicht unmittelbar nach dem Start des Trainings bereits gesättigt und für jede weitere Modellierung verloren
sind. Man stelle sich vor: um die Netzausgabe für
y = 5 zu erhalten, wären bereits mindestens fünf
vollständig gesättigte Neuronen nötig. Andererseits
bleiben die Werte der Gewichtsmatrix gut zu händeln, wenn der Eingang nur Werte von −1 bis 1
aufweist.
4 Welche Größe eines neuronalen Netzes
ist geeignet?
Was bedeutet es von unterbestimmten Netzen zu
sprechen, wie es bereits in Abschnitt 2.5 versucht
wurde? Was ist das Wesen der Unterbestimmtheit? Wie bereits in Abschnitt 2.2 dargelegt verfügt
ein neuronales Netz über Neuronen, die, jedes für
sich genommen, eine beeindruckende Modellkapazität besitzen. Werden diese kombiniert wächst diese
Kapazität rapide an (Tab. 2). Die Modellkapazität
wird dann unsinnig groß, wenn der Algorithmus beginnt, einzelne Muster ohne jede Form der Generalisierung zu erlernen und schließlich zu memorisieren. Demzufolg ist es nicht unzweckmäßig, ein neuronales Netz mit der kleinstmöglichen Anzahl von
Neuronen zu konzipieren, um damit „Intelligenz“ zu
kreieren anstelle von „Merkfähigkeit“.
Umgekehrt wird ein Modell als überbestimmt bezeichnet, wenn die Anzahl von Neuronen entschieden zu klein ist. Das neuronale Netz verliert seine
„intelektuellen“ Fähigkeiten und ist bestenfalls imstande, einfache korrelative Beziehungen zwischen
den Ein- und Ausgängen abzubilden.
Es wird hier ersichtlich, dass ein numerisches Maß
für die Modellkapazität vonnöten ist. Ein mittlerweile übliches Maß ist der Koeffizient h. Dieser beschreibt diese Modellkapazität einer Schar
von Funktionen mit logarithmisch beschränkten
Wachstumsfunktionen [Vapnik & Chervonenkis 1974; Vapnik 1998]. Zu Ehren ihrer Entwickler heißt dieses Maß Vapnik-ChervonenkisDimension oder kurz VC dim [Haykin 1999, S. 95].
Michael Heinert et al.: Künstliche Neuronale Netze
49
Tab. 2: Obere und untere Schranke der Vapnik-Chervonenkis-Dimension für verschiedene Aktivierungsfunktionen in Abhängigkeit von der Anzahl aller ihrer Gewichte n oder aber Neuronen H innerhalb einer verdeckten
Schicht. Dieser Vergleich findet sich in Heinert [2008].
Aktivierung
linear
beschränkt
linear
Schwellwert
φH (υ)
kombiniert
φH (υ) ⊕ φ/ (υ)
sigmoidal
φΣ (υ)
RBF
φN (∥υ∥)
φ(υ)
φ/ (υ)
φ[/] (υ)
1. Definition:
The VC-dimension of an ensemble of dichotomies F = {Φw (x) : w ∈ W, Φ : Rm W → 0, 1}
is the cardinality h = |L| of the largest set L
that is shattered by F.
Vapnik entwarf seinerseits 1998 eine verständlichere Beschribung dieser kurzen Definition (S. 147).
Θ(n)
Θ(n)
Θ(n)
Θ(n)
Θ(n)
R(h) = Remp + ϵ1 (N, h, α, Remp )
(12)
über das empirischen Risiko Remp und die Konfidenzschranke
√
4
In dieser Definition beschreibt eine Schar von Indikatorfunktionen Φw (x) die spezielle Schar aus der
heraus die Modellfunktion Φw∗ (x) stammt. Sie ist
durch die optimalen Gewichte w = w∗ eindeutig
festgelegt.
Dieses Konzept muss nochmal weniger theoretisch
beschrieben werden.
Hmax
O(n2 )
O(nlb(n))
O(n2 )
O(nlb(n))
O(nlb(n))
O(n2 )
O(n2 )
O(nlb(n))
O(nlb(H))
Das zugrunde liegende Prinzip zur Bestimmung
einer geeigneten Modellgröße mit einer optimalen VC-Dimension ist, nach der minimalen oberen Schranke des Generalisierungsfehlers (der Risikoschranke) zu suchen (Abb. 10). Dazu müssen
zwei Schätzfehler kombiniert werden: der schwindende Trainingsfehler mit zunehmender Modellkapazität einerseits und die sich – zur gleichen Zeit –
vergrößernde Konfidenzschranke. Die Summation
2. Definition:
The VC-dimension of a set of indicator functions Φw (y), w ∈ W is equal to the largest
number h of vectors that can be separated
into two different classes in all the 2h possible
ways using this set of functions.
Hmin
Θ(n)
υ
∀υ
1
|v| > 2m
1
|v| < 2m
∀υ
1
|v| > 2m
1
|v| < 2m
|v| < a1
|v| > a1
∀υ
h
N
(
(
log
ϵ1 (N, h, α, Remp ) =
)
)
2N
1
+1 −
log α
h
N
(13)
ergibt die obere Schranke des Generalisierungsfehlers bezüglich der VC-Dimension h des gewählten
5. Beispiel:
Erinnern wir uns an das Beispiel des XORProblems, jetzt aber mit nur drei Mustern im
zweidimensionalen Raum. Insgesamt nur drei
Geraden sind in der Lage diese drei Muster in
allen 23 möglichen Anordnungen zu separieren (Abb. 9). Demzufolge ist die größte Anzahl von Mustervektoren h = 3. Weiterhin
existeren 23 Permutationen dieser Muster, so
dass wir festhalten dürfen: VC dim(Φ(x)) =
3. Eine solche Gerade ist im übrigen genau das Resultat eines einzigen Schwellwertaktivierten Neurons.
Abb. 9: Ein Beispiel für eine VC dim(Φ(x)) = 3: Die
Muster können von h = 3 Linien fehlerfrei separiert
werden bei 23 möglichen Permutationen der Muster.
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
50
richtig
determiniert
uberdeterminiert
unterdeterminiert
betrage. Die Größe Nmin ist eine allgemeine Erfahrungsgröße aus der Statistik für unkorrelierte Beobachtungen. Zieht man das Resultat der maximalen partiellen Autokorrelation (pACF) eines ι-ten
Elementes des Eingangsvektors Xp [Schlittgen
& Streitberg 1997, 194ff] mit zu Rate, so kann
Nmax auch angegeben werden als
√
Nmax = ⌈ pmax · Nmin ⌉
(17)
Fehler
Risikoschranke
Empirisches
Risiko
Konfidenzintervall
mit
pmax = max(pι ) ∀ pACF(Xp,ι ) >> 0.
hmin
hmax
VC-Dimension
h Damit ergibt sich eine Abschätzung für eine opti-
Abb. 10: Beziehung zwischen der VC-Dimension und
der oberen Schranke der Risikoschranke.
Modells [Haykin 1999, S. 99f]. Die Wahrscheinlichkeit
(
)
2eN h −η2 N
α=
e
(14)
h
ist hierin gegeben durch die Genauigkeit der Approximation η.
Inzwischen existieren etwas handlichere Formeln
anstelle dieser theoretischen Betrachtungen [Elisseeff & Paugam-Moisy 1997]: Demzufolge ist
die maximal notwendige Anzahl von Netzknoten H
in einem mehrschichtigen Feed-Forward Perceptron
definiert als
(15)
S < Hmax < 2S
⌈
mit
S=
⌉
P dim(y)
.
dim(x) + dim(y)
Der Begriff Knoten subsummiert sowohl MLFFNeuronen (4) als auch RBF-Neuronen (5). In dieser Formel steht P für die Anzahl aller Mustervektoren, dim(x) für die Dimension eines einzelnen
Eingangsvektors und dim(y) für die Dimension eines einzelnen Ausgangsvektors. Ist diese maximale
Anzahl Hmax erreicht, werden alle Muster fehlerfrei, also eben auch ohne Generalisierung, erlernt.
Da dies hinsichtlich eines intelligenten und prädiktionsfähigen Netzes kein erstrebenswerter Zustand
ist, sei an dieser Stelle empfohlen, dass die optimale
Knotenanzahl
Hopt = N −1 Hmax
mit
Nmin = 30, Nmax ≈ 100
(16)
male Anzahl von Knoten
⌉
⌊ ⌋
⌈
S
S
<
H
<
√
opt
60 pmax
30
(18)
für ein neuronales Netz, dessen VC-Dimension jetzt
im geforderten Rahmen von hmin bis hmax anzutreffen sein sollte (Abb. 10). Dieser Bereich ist noch
verhältnismäßig weit gefasst. Eine Startkonfiguration des Netzes mit einer mittleren Anzahl Hopt sollte in den meisten Fällen bereits robuste Ergebnisse
liefern. Die präzisiere Eingrenzung einer optimalen
Netzgröße bleibt eine Daueraufgabe der Advanced
Learning Theory.
5 Wie erhält man eine parametrische Modellfunktion?
Nach dieser langen Liste von den einzuhaltenden
Vorbehandlungen der Muster bis zu Bedingungen
an die Netzgröße können wir uns dem Ziel dieser
Betrachtung zuwenden: der Inferenz eines künstlichen neuronalen Netzes. Zu diesem Zweck treffen
wir folgende Annahmen:
¶ das Netz besitze eine optimale VC-Dimension,
· das Modell konvergiere auch mit zufälligen Startwerten erfolgreich zur etwa gleichen Approximation
für y,
¸ die unterschiedlichen Lösungen weisen – mit Ausnahme der exakten Position innerhalb einer Schicht
– immer etwa die gleichen Relationen zwischen den
Gewichten auf.
Eine solche stabilisierte Netzlösung besitzt eine
Modellfunktion
Φu (x) ∈ Fu ∋ Tu (x) ∀ x ∈ X ⊂ IRn .
(19)
Die Modellfunktion des neuronalen Netzes Φu (x)
ist also aus derselben Schar von Funktionen Fu
Michael Heinert et al.: Künstliche Neuronale Netze
51
y1 = Φ( x1 )
x1
y2 = Φ ( x2 )
x1
x2
x2
y
y
x3
x3
x4
x4
y3 = Φ ( x3 )
x1
y4 = Φ ( x4 )
x1
x2
x2
y
y
x3
x3
x4
x4
Abb. 11: Modellinferenz eines künstlichen neuronalen Netzes: Jeder Ein-/Ausgabekanal (blau – rot) wird einzeln
abgefragt.
wie die Systemfunktion des modellierten Objektes
Tu (x), was bedeutet, dass hier ein identifzierendes Modell gefunden worden ist anstelle von vielen
möglichen imitierenden Modellen [Heinert 2008].
Die Grundidee zur Beschreibung der Ein-/ Ausgangsrelation durch eine parametrische Funktion,
die sich möglicherweise auch einem physikalischen
Wirkgesetz zuordnen lässt, ist die Reaktion des
Netzes auf die Elemente n,0 x∗ι,i (t) auf n Reihen
standardisierter Eingangsvektoren n,0 x∗ι (t). Deren
Elemente
n,0 ∗
xι,i (t)
{
=
(
)
∇ n x∗i (t)|n x∗i (t) ∈ X (i) ∀ i = ι
µn x∗i
∀ i ̸= ι
(20)
mit
∇ (n x∗i (t)) =
(max(n x∗i (t) − min(n x∗i (t))) · t
.
tmax − tmin
ι-te Vektorreihe:




n,0 ∗
n ∗
xι (t) = 
 ∇ ( xi (t))

..

.
µn x∗n




.



(21)
Die Reaktion des Netzes auf jeden ι-ten Eingangskanal entspricht dem erlernten Einfluss auf das zu
untersuchende System (Abb. 11). Die resultierende
Modellausgang
n,0
ȳι (t) = n Φ∗u,w (n,0 x∗ι (t))
(22)
beschreibt die modellierte funktionale Beziehung
zwischen dem einen Eingangskanal und dem Modellausgang, also der Netzantwort. Allerdings sind
die Muster noch normiert. Es muss zur Denormierung die Umkehrung
0
enthalten in erster Linie die Mittelwerte µn x∗i der
normierten Eingänge n x∗ (t). Nur an der i-ten Stelle jedes ι-ten der n Vektoren n x∗ (t) befinden sich
linear ansteigende Werte im Wertebereich der normierten Eingänge. Demzufolge ergibt sich für die
µn x∗1
..
.
ȳι (t) = k ′ σy · n Φ∗u,w (n,0 x∗ι (t)) + µy .
(23)
von (11) vorgenommen werden, was für den einzelnen i-ten Eingang bedeutet:
0
ȳι (t) = k ′ σy · nϕ∗u,w (∇(n x∗i (t))) + µy .
(24)
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
52
Auch die Semi-Parametrisierung muss mit
0
xι (t) = kι σx∗ι −f ∗ (∇n x∗i (t)) + µxι ,
(25)
zurückgenommen werden, wobei −f ∗ ( · ) die inverse Funktion von (9) über den i-ten Eingang beschreibt. Analog ist mit der Rücknahme einer möglichen Semi-Parametrisierung in (10) zu verfahren.
Wir wissen es existieren n, also entsprechend der
Anzahl der Eingangsneuronen, noch unbekannte
parametrische Modellfunktion
0
ȳι |= F (0 xι ).
(26)
Wir kennen aber nun ihre jeweiligen zugehörigen
dekomponierten xι und yι -Werte. In induktiver
Weise lassen sich nun jeweils eine parametrische
Funktion angeben, die diesen xι und yι -Werten am
ehesten entspricht. Die Parameter dieser jeweiligen Funktion lassen sich durch eine nichtlineare
Optimierung bestmöglich anpassen [Domschke &
Drexl 2002; Rardin 1998; Winston 1994]. Es
sollte möglich sein, diese zunächst empirisch bestimmten Parameter bekannten physikalischen Parametern zuzuordnen. Gleichermaßen sollten sich
damit die effektiv wirkenden physikalischen Gesetze detektieren lassen.
Schließlich soll noch eine Besonderheit dieses Vorgehens gezeigt werden: Im Spezialfall
n,0 ∗
xι (t)
∋n,0 x∗ι,i (t) = µn x∗i ∀ i, ι
(27)
liefert dieses Verfahren die unverfälschte Trendfunktion. Diese robuste Trendfunktion ist quasi frei
vom typischen Hebelwertproblem des Regressionsansatzes.
6 Resümee
Mit diesem Einstieg gelingt es, die Black Box eines
künstlichen neuronalen Netzes ein wenig zu öffnen.
Die Fragestellung ist keineswegs beantwortet. Doch
zwei wesentliche Aspekte scheinen sich bis hierher
heraus zu kristallisieren.
Einerseits ist eine richtige Netzdimension von entscheidender Bedeutung, um das Erlernte des Netzes interpretieren zu können. Damit wirft dieser
Aspekt sofort die Frage auf, ob die vielgenutzte
Technik der Kreuzvalidierung gegen das Overfitting
noch hinreichend zielführend ist.
Andererseits ist eine standardisierte Abfrage der jeweils einzelnen Kanäle bisher nur sinnvoll, wenn
die Eingangsgrößen in ihrer Wirkung auf das System als gegenseitig unabhängig gelten dürfen. Ein
weiterführendes Vorgehen für Fälle, in denen diese Unabhängigkeit ausgeschlossen werden kann, ist
hier noch nicht erarbeitet.
Literatur
Bunke, J. (1997): Künstliche Neuronale Netze zur Systemidentifikation aus gestörten Messwerten. Fortschrittsber. VDI-Reihe 8 667, Düsseldorf.
Cover, T. M. (1965): Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition. IEEE Transactions
on Electronic Computers EC-14 (3): 326–334.
Domschke, W. & Drexl, A. (2002): Einführung in
Operations Research. 5. rev. u. erw. Aufl. Springer
Berlin-Heidelberg.
Elisseeff, A. & Paugam-Moisy, H. (1997): Size of
multilayer networks for exact learning: analytic approach. NeuroCOLT Techn. Rep. NC-TR-97-002.
Farley, B. & Clark, W. A. (1954): Simulation of
self-Organizing Systems by Digital Computer. IRE
Transactions on Information Theory 4: 76–84.
Ghosh, S. & Maka, S. (2008): A NARX modelingbased approach for evaluation of insulin sensitivity.
Biomedical Signal Processing and Control 4 (1): 49–56.
Haykin, S. (1999): Neural Networks – A Comprehensive Foundation. 2nd ed., Prentice Hall, Upper Saddle
River NJ.
Heine, K. (1999): Beschreibung von Deformationsprozessen durch Volterra- und Fuzzy-Modelle sowie Neuronale Netze. Dissertation. Deut. Geod. Kommission
Reihe C 516, München.
Heinert, M. & Niemeier, W. (2004): Zeitreihenanalyse bei der Überwachung von Bauwerken. In
Schwarz, W. (Hrsg.): DVW-Fortbildungsseminar
Interdisziplinäre Messaufgaben im Bauwesen – Weimar 2004. DVW-Schriftenr. 46: 157–174.
Heinert, M. (2008): Systemanalyse der seismisch
bedingten Kinematik Islands. Dissertation. Geod.
Schriftenr. Techn. Univ. Braunschweig 22.
Mellit, A. & Kalogirou, S. A. (2008): Artificial intelligence techniques for photovoltaic applications: A
review. Progress in Energy and Combustion Science
34: 574–632.
Menezes Jr., J. M. & Barreto, G. A. (2008): Longterm time series prediction with the NARX network:
An empirical evaluation. Neurocomputing 71: 3335–
3343.
Michael Heinert et al.: Künstliche Neuronale Netze
53
Mercer, J. (1909): Functions of Positive and Negative
Type, and their Connection with the Theory of Integral Equations. Phil. Trans. R. Soc. Lond. A 209:
415–446.
Schölkopf, B. & Smola, A. J. (2001): Learning with
Kernels: Support Vector Machines, Regularization,
Optimization, and Beyond (Adaptive Computation
and Machine Learning). MIT Press.
Miima, J. B. (2002): Artificial Neural Networks and
Fuzzy Logic Techniques for the Reconstruction of
Structural Deformations. Dissertation. Geod. Schriftenr. Techn. Univ. Braunschweig 18.
Sitter, R. (2001): Neuronen.
http://home.arcor.de/ralf.sitter/kyb/neuro/
neur.htm.
Niemeier, W. (2008): Ausgleichsrechnung – Eine Einführung für Studierende und Praktiker des
Vermessungs- und Geoinformationswesens. 2. rev. u.
erw. Ausg. Walter de Gruyter, Berlin-New York.
Patterson, D. W. (1996): Künstliche neuronale Netze: das Lehrbuch. Prentice Hall. München- LondonMexiko- New York- Singapur- Sydney- Toronto.
Rardin, R.-L. (1998): Optimization in Operation Research. Prentice Hall, Upper Saddle River, USA.
Riedel, B. & Heinert, M. (2008): An adapted support vector machine for velocity field interpolation at
the Baota landslide. In: Reiterer, A. & Egly, U.
(Hrsg.): Application of Artificial Intelligence in Engineering Geodesy (AIEG 2008), Wien: 42–62.
Rosenblatt, F. (1958): The perceptron: A probabilistic model for information storage and organization
in the brain. Psychological Reviews 65: 386–408.
Schlittgen, R. & Streitberg, B. H. J. (1997):
Zeitreihenanalyse. 7. Aufl., R. Oldenburg Verlag,
München-Wien.
Spitzer, M. (2002): Lernen: Gehirnforschung und die
Schule des Lebens. Spektrum Akad. Verl., HeidelbergBerlin.
Turing, A. M. (1948): Intelligent Machinery. Collected Works of A. M. Turing: Mechanical Intelligence.
Edited by D. C. Ince. Elsevier Science Publishers.
Vapnik, V. N. & Chervonenkis, A. Ya. (1974):
Theory of Pattern Recognition. (in Russian) Nauka,
Moscow, 1974, (German translation: Wapnik, W. N.
& Tschervonenkis, A. Ja. (1979): Theorie der Zeichenerkennung. Akademia, Berlin).
Vapnik, V. N. (1998): Statistical Learning Theory. In
Haykin, S. (Ed.): Adaptive and Learning Systems
for Signal Processing, Communications and Control.
John Wiley & Sons, New York- Chichester-WeinheimBrisbane- Singapore-Toronto.
Wilson, M. A. & McNaughton, B. L. (1993): Dynamics of the hippocampal ensemble code for space.
Science 261: 1055–1058.
Winston, W. L. (1994): Operations Research: Applications and Algorithms. 3nd ed., Duxbury Press, Belmont, California.
Künstliche Intelligenz in der Energieversorgung
– Anwendung und Grenzen –
Benjamin Deppe ∗ , Michael Kurrat∗
∗
Institut für Hochspannungstechnik und Elektrische Energieanlagen (HTEE), Schleinitzstraße 23, 38106 Braunschweig
Zusammenfassung
aufgeteilt [EnWG 2005]. Abbildung 1 verdeutlicht
dieses Vorgehen anhand der Prozesskette der zur
Belieferung von Endkunden mit elektrischer Energie beteiligten Unternehmen. Bis 1998 bezog der
Kunde seine elektrische Energie von dem örtlichen
Stadtwerk, welches sowohl Eigentümer als auch Betreiber des Stromnetzes war als auch Stromlieferant für den Kunden. Durch das Gebietsmonopol war es den Energieversorgern nicht möglich,
Endkunden außerhalb ihrer Versorgungsgebiete mit
Energie zu beliefern. Dieser wettbewerbsbehindernde Umstand wurde im Zuge der Liberalisierung
durch das sogenannte Unbundling aufgehoben. Dadurch wurden die Unternehmen in einen regulierten und einen dem Wettbewerb unterliegenden Bereich getrennt. Die Energieversorgungsnetze stellen
ein natürliches Monopol dar und unterliegen daher
der Regulierung durch die Bundesnetzagentur. Der
Vertrieb und die Erzeugung sind dem freien Wettbewerb zuzurechnen, und seit der Liberalisierung
Der Einsatz künstlicher Intelligenz gewinnt seit der
1998 begonnen Liberalisierung des Strom- und Gasmarktes sowie des Ausbaus erneuerbarer Energien in
der Energieversorgung immer mehr an Bedeutung.
Systembedingt ist es erforderlich bereits heute zu wissen wie viel Strom am nächsten Tag verbraucht wird,
und wie viel Strom am nächsten Tag aus regenerativen Energiequellen, und damit zumeist fluktuierend,
erzeugt wird. Aus dieser Fragestellung ergibt sich eine enge Verknüpfung zu den optimalen Betriebszuständen der Energieversorgungsnetze. Der vorliegende
Beitrag beschreibt aus praktischer Sicht die Notwendigkeit für die Erstellung von Prognosen und zeigt die
Vor- und Nachteile verschiedener Verfahren auf.
Summary
The use of artificial intelligence becoming increasingly
important since the liberalization in 1998 of the electricity and gas markets and the expansion of renewable
energies. It is necessary to know how much electricity
is consumed the next day, and how much electricity
is generated by fluctuating renewable sources of energy the next day. This question results in a close link
to the optimal operating states of energy supply networks. This paper describes a practical matter, the
need for the preparation of forecasts and shows the
advantages and disadvantages of different methods.
1 Einleitung
Im Zuge der 1998 begonnen Liberalisierung der
Energieversorgung wurden die integrierten Energieversorgungsunternehmen im Zuge des Unbundlings
Abb. 1: Aufteilung der Energieversorgungsunternehmen im Rahmen des Unbundlings
54
Benjamin Deppe & Michael Kurrat: Künstliche Intelligenz in der Energieversorgung
ist es jedem Vertrieb möglich, jeden Kunden im gesamten Bundesgebiet zu versorgen.
Ein bekannter überregionaler Versorger der sich die
Öffnung der Gebietsmonopole zunutze gemacht hat
ist der Stromvertrieb Yello Strom GmbH, ein Tochterunternehmen des drittgrößten deutschen Energieversorgers EnBW (Energie Baden-Württemberg
AG).
Das Unbundling unterscheidet zwischen buchhalterischem, organisatorischen, informatorischen und
rechtlicher Undbundling. Diese gesetzlichen Vorgaben haben dazu geführt, dass der Netzbetrieb aus
den bisherigen integrierten Energieversorgungsunternehmen herausgelöst, und in neue Netzgesellschaften aufgegangen ist. Es ist den Netzgesellschaften nicht mehr gestattet, exklusiv Informationen über die Versorgung von Kunden an den
ehemals eigenen Stromvertrieb weiterzugeben. Weiterhin sind sie verpflichtet, allen Stromvertrieben
einen diskriminierungsfreien Zugang zu den Kunden zu ermöglichen. Dazu gehört auch, dass allen Stromvertrieben dieselben Informationen über
das Versorgungsnetz zur Verfügung gestellt werden
müssen. Im Zuge der Liberalisierung des Zähl- und
Messwesens wurde die bisher von den Netzbetreibern übernommene Aufgabe des Zähl- und Messwesens geöffnet, so dass seit 2008 auch der Messstellenbetrieb von Dritten übernommen werden kann.
Insbesondere durch die informatorische Entflechtung sind neue Wege zur Prognose der abgenommenen Leistung der Kunden durch die Stromvertriebe erforderlich geworden. Vor der Liberalisierung war den örtlichen Vertrieben durch die integrierten Energieversorgungsunternehmen die abgenommene Leistung im Netz bekannt, woran die
Beschaffung ausgerichtet werden konnte. Als Folge der Liberalisierung sind den Stromvertrieben die
vollständigen Netzdaten nicht mehr bekannt, und
die Kunden müssen einzeln prognostiziert werden
und können nicht mehr über die Gesamtnetzlast
abgebildet werden, was zur Nutzung von Mengeneffekten möglich gemacht hat. Auf der anderen Seite besteht nun die Möglichkeit der Belieferung von
Einzelkunden in anderen Netzbereichen, was ebenfalls eine individuelle Prognose erfordert. Die hierzu eingesetzten Verfahren werden in diesem Beitrag
vorgestellt und diskutiert. Für die Netzbetreiber
und die Einsatzplanung der Kraftwerke hat sich im
Zuge des durch das Erneuerbare-Energien-Gesetz
(EEG) forcierten Ausbaus erneuerbarer Kraftwerke, wie Wind- und Photovoltaikanlagen, eine neue
zu beachtende Größe herausgebildet. Diese Anlagen
55
dürfen bevorzugt in die Netze einspeisen, was dazu führt, dass konventionelle Kraftwerke ihre Leistung anpassen müssen [EEG 2008]. Daher ist es
erforderlich, das Einspeiseverhalten regenerativer
Energieanlagen zu prognostizieren und den konventionellen Kraftwerkspark und die Schaltzustände
der Netze entsprechend anzupassen. Es wird somit
zwischen einer Erzeugungs- und einer Verbrauchsprognose unterschieden. Der nächste Abschnitt beschreibt diese beiden Prognoseanwendungen, bevor
im darauf folgenden Abschnitt die Anforderungen
definiert und im Weiteren die Grenzen der Prognosemethoden aufgezeigt werden.
2 Prognoseanwendungen in der Energieversorgung
Grundsätzlich können zwei Arten der Prognose unterschieden werden. Zum einen muss der Verbrauch
der Letztverbraucher, zum anderen die fluktuierende Einspeisung von beispielsweise Windkraft- und
Photovoltaikanlagen prognostiziert werden. Ersteres ist für die Stromvertriebe von Interesse, um die
erforderlichen Energiemengen viertelstundenscharf
beschaffen zu können. Letzteres ist für die Netzbetreiber von Interesse, damit diese die Versorgungssicherheit durch den Einsatz konventioneller Kraftwerke und Leistungsflussoptimierung sicherstellen
können. Dazu wird eine Prognose der angeschlossenen Verbraucher benötigt. Diese Prognosen erstellen die Netzbetreiber für ihre Netze selber, und
gleichen die Ergebnisse mit den prognostizierten
Verbräuchen der unterschiedlichen Stromvertriebe
in ihrem Netzgebiet ab. Bei Abweichungen gilt der
Wert der Netzbetreiber.
2.1 Verbrauchsprognose
Unter Verbrauchern wird der Endkunde als Ganzes verstanden. Der Verbrauch wird an dem Anschlusspunkt des Objektes an das öffentliche Versorgungsnetz gemessen. Zu unterscheiden sind zwei
grundsätzliche Arten der Messung. Zum einen die
registrierende Leistungsmessung (rLM) im Viertelstundenraster von Verbrauchern mit einem Jahresverbrauch von mehr als 100 000 kWh, und zum
anderen die Messung von Gewerbe- und Haushaltskunden mit einem Verbrauch von weniger als
100 000 kWh im Jahr. Bei der Leistungsmessung
wird der Verbrauch pro Viertelstunde als Energie
aufgezeichnet und gespeichert. Zusätzlich können
56
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
die auftretenden Spitzenleistungen aufgezeichnet
werden. Die gespeicherten Daten sind abrechnungsrelevant, d.h. die Stromvertriebe rechnen über diese Werte die Kunden ab und beschaffen die benötigte Energie viertelstundenscharf. Beschaffen die
Stromvertriebe in einer Viertelstunde zu wenig
Energie für den Bilanzkreis, müssen sie die fehlende Energie als Ausgleichsenergie zukaufen. Neben
gesetzlichen Vorgaben zur möglichst genauen Beschaffung der benötigten Energie werden die Preise der Ausgleichsenergie ex post bestimmt, woraus
sich ein Beschaffungsrisiko ergibt. Aus diesen Gründen sind die Stromvertriebe bemüht, möglichst genaue Prognosen des Verbrauchsverhaltens zu erstellen. Die Anforderung an die Prognose unterscheidet
sich dabei je nach Eigenschaft des Verbrauchers.
Ein produzierendes Gewerbe stellt hier andere Anforderungen als beispielsweise ein Dienstleistungsunternehmen oder Privatkunden.
Bei der Messung von Gewerbe- und Haushaltkunden wird grundsätzlich anders vorgegangen. Im Regelfall wird einmal jährlich die verbrauchte Jahresenergie abgelesen und verrechnet, unabhängig von
der Verteilung über das Jahr. Die Prognose wird
auf Grundlage der ab 300 Abnahmestellen repräsentativen Standardlastprofile [3] für die gesamte
Kundenlast je Netzgebiet erstellt. Die Prognose basiert auf der Zuordnung der Abnahmestelle zu einem Profil und der erwarteten Jahresverbrauchsenergie. Die Abweichungen zwischen real abgenommener Energie pro Viertelstunde und Prognose trägt in der Regel der Netzbetreiber. In jüngster
Zeit gewinnt das analytische Verfahren [VDEW M23/ 2000] an Bedeutung, bei dem die Abweichungen durch die Vertriebe getragen werden müssen.
Hierbei entstehen neue Anforderungen an die Prognose, da die Standardlastprofile (SLP) sich nicht
mehr vollständig mit dem realen Verbrauchsverhalten decken.
Die Anforderungen an die Prognosen sind abhängig von dem Kundensegment, was im Abschnitt 3
ausführlich erläutert und dargestellt ist.
2.2 Erzeugungsprognose
Die Prognose von fluktuierenden Erzeugungsanlagen stellt eine neue Herausforderung dar, die im
Zuge des Ausbaus regenerativer Energiequellen entstanden ist. Die zunächst kleinen Leistungen von
Windkraftanlagen stellten keine Veränderungen für
den Betrieb der Netze dar. Erst durch den massiven
Ausbau war es erforderlich, die Einspeisung vorherzusagen und damit die Fahrweise konventioneller Kraftwerke an die fluktuierenden Erzeugungsanlagen und die damit verbundene Auslastung der
Stromnetze anzupassen. Durch weitere Änderungen
des EEG sind die Übertragungsnetzbetreiber verpflichtet, die fluktuierend eingespeiste Energie als
kontinuierliches Band bereitzustellen, und fehlende
Strommengen zur Erfüllung des Bandes zuzukaufen, und Mehrmengen am Markt anzubieten. Der
Fokus liegt hier noch auf der Windenergie, wenngleich die Photovoltaikeinspeisung immer stärker
mit in den Fokus drängt.
Ebenfalls von Relevanz für die Netzbetreiber im
Verteilungsnetz ist das Einspeiseverhalten der dort
installierten dezentralen Erzeuger, zu denen neben
Wind und Photovoltaik auch Biomasse und Blockheizkraftwerke zählen. Ziel ist es dabei, durch intelligente Verknüpfung der Erzeugungskomponenten die Netzverluste zu minimieren indem die Erzeugung möglichst nahe am Verbrauch eingespeist
wird, und eine Rückspeisung in überlagerte Netzebenen verhindert wird.
Die Prognose des zu erwartenden Verbrauchs und
der Einspeisung stellt somit eine wesentliche Komponente der modernen Energienetze dar, und wird
in Zukunft weiter an Bedeutung gewinnen. Die Anforderungen an die Prognosemethode und die verfügbaren Eingangsparameter unterscheiden sich jedoch gravierend. Der nächste Abschnitt beschreibt
diese Anforderungen und stellt die verwendeten
Prognosemethoden vor. Anschließend werden die
Grenzen der Methoden aufgezeigt.
3 Anforderungen und Prognosemethoden
Die eingesetzte Prognosemethode richtet sich nach
den Anforderungen und den zur Verfügung stehenden Daten. Dieser Abschnitt teilt zunächst die Anwendungen auf der Grundlage des vorangegangenen Abschnittes auf und definiert zu den Anwendungsfällen die zugehörigen Anforderungen und
verfügbaren Daten, bevor mögliche Prognoseverfahren vorgestellt werden. Der nächste Abschnitt
beleuchtet die Grenzen der Verfahren in den Anwendungsfällen und zeigt zukünftige Herausforderungen auf.
Die Zahl der verfügbaren Prognoseverfahren ist zu
groß, um jedes Verfahren hier betrachten zu kön-
Benjamin Deppe & Michael Kurrat: Künstliche Intelligenz in der Energieversorgung
nen. In der Energiewirtschaft kommen zwei Gruppen von Verfahren zum Einsatz. Zu der Ersten gehören Syntheseverfahren wie beispielsweise Verfahren auf Basis der multiplen Regression, künstlich
neuronale Netze (KNN) oder adaptiv logische Netze (ALN). Diese Gruppe hat in der Praxis die größte Bedeutung. Die zweite Gruppe bilden die Extrapolationsverfahren wie das Box-Jenkins-Verfahren
[Box & Jenkins 1976; Hufendiek 2001]. Weiterhin werden Verfahren der Mustererkennung wie die
Lastgangfortschreibung kombiniert mit dem Vergleichstageverfahren eingesetzt. Je nach Einsatzgebiet sind bestimmte Verfahren mehr oder weniger
geeignet.
3.1 Leistungsgemessene Verbraucher
Von leistungsgemessenen Verbrauchern liegen mindestens für die Zeit der Belieferung Zeitreihen mit
Verbrauchswerten im Viertelstundenraster vor. Dabei werden der Zeitstempel und der Energieverbrauch der letzten Viertelstunde gespeichert. Für
die Prognose ist zunächst wichtig, um welche Art
von Betrieb es sich handelt. Grob kann hier zwischen folgenden Arten unterschieden werden:
• Industriebetriebe, produzierendes Gewerbe,
• Dienstleistungen,
• Hotel und Gaststätten.
Es stehen grundsätzlich die Tagesinformationen
für die Kundenregion zur Verfügung, ebenso wie
die Ferien- und Feiertagskalenderkalender und ggf.
nach Recherchetätigkeiten Betriebsferien oder Betriebsversammlungen. Diese haben insbesondere
auf Industriebetriebe einen großen Einfluss. Für bestimmte Kundengruppen, insbesondere im Bereich
Handel und Dienstleistungen können Wetterinformationen wichtig sein. Bedingt durch den verstärkten Einsatz von Klimaanlagen weichen die Verbräuche ab bestimmten Schwellwerten stark von den üblichen Verbrauchsmustern ab.
In der Praxis stehen hier Verfahren mit unterschiedlicher Genauigkeit und Prognoseaufwand
zur Verfügung. Häufig angewendet werden die
Lastgangfortschreibung oder das Typtageverfahren, bzw. Mischungen daraus. KNNs bieten sich
hierbei nur für „stabile“ Kunden an, die keine häufige Änderung der installierten Geräte und Maschinen oder fluktuierenden Produktionsprozesse besitzen.
57
3.2 Standardlastprofilkunden
Die Prognose von Standardlastprofilkunden – zu
denen Letztverbraucher mit einem Jahresverbrauch
von weniger als 100.000 kWh zählen – befindet sich
zurzeit im Wandel. Begründet ist dies durch die politisch geforderte, und im Rahmen des Smart Grid
Gedanken technisch notwendige Einführung eines
Smart Metering [Deppe & Kurrat 2009a].
Bisher stehen bei diesem Kundensegment keine
viertelstundenscharfen Messwerte zur Verfügung.
Es werden lediglich jährliche Energieverbräuche erfasst. Die Bestimmung zeitlicher Verbrauchsverläufe erfolgt auf Basis der Standardlastprofile, die auch
für die Prognose, Beschaffung und Abrechnung herangezogen werden. Dieses noch heute mehrheitlich eingesetzte Verfahren wird als synthetisches
Lastprofilverfahren [VDEW M-05/ 2000] bezeichnet. Das Risiko des realen Unterschiedes zwischen
beschaffter Energie und tatsächlich abgenommener Energie trägt der Netzbetreiber. Einige Netzbetreiber gehen zu dem analytischen Profilverfahren
[VDEW M-23/ 2000] über, bei dem ausgehend von
den gemessenen Netzlasten viertelstundenscharfe
Verbrauchswerte der SLP-Kunden hergeleitet werden. Zur Verrechnung der Ausgleichsenergiebezüge
werden diese Werte herangezogen und dem Lieferanten direkt in Rechnung gestellt. Durch die Abweichungen zwischen SLP und realen Verhalten ergeben sich für die Lieferanten hieraus die Anforderung, Netzgebiete mit dem analytischen Profilverfahren genau zu prognostizieren. Durch den Einsatz des analytischen Profilverfahrens lassen sich
die Ausgleichsenergiebezüge reduzieren [Deppe et
al. 2010]. Dieser Effekt lässt sich durch Smart Metering verstärken, woraus die Anforderung erwächst,
Kunden mit einem Verbrauch nach dem Ansatz
der leistungsgemessenen Kunden zu prognostizieren. Hierbei können Mengeneffekte auftreten, die
die Prognose gegenüber Großkunden vereinfacht,
sofern eine kritische Masse erreicht ist. Die Beachtung örtlicher Besonderheiten gewinnt jedoch an
Bedeutung, was erhöhte Anforderungen an eine automatische Prognose stellt.
3.3 Erzeugungsprognose nach EEG
Durch die Verpflichtung der Übertragungsnetzbetreiber zur sogenannten EEG-Veredelung sind diese auf eine Prognose der fluktuierenden Einspeiser in ihrem Netz angewiesen. Dies betrifft im Be-
58
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
sonderen die Windenergie, und in zunehmendem
Maße auch die Photovoltaikenergie. Bei der EEGVeredelung bildet der Übertragungsnetzbetreiber
ein jeweils für einen Monat festgelegtes konstantes
Band, welches er mit erneuerbaren Energiequellen
füllen muss. Fehlende oder überschüssige Mengen
muss er am Markt zukaufen oder anbieten. Der Fokus liegt auf der Windenergie, da diese im Jahr
2008 einen Anteil von 44 % im Jahr 2008 an allen
erneuerbaren Energieträgern erreichte. Zur Prognose der erwarteten Einspeisung bieten verschiedene
Anbieter Prognosen an. Als Beispiel sind hier drei
Anbieter mit unterschiedlichen Verfahren genannt,
die alle auf Wetterprognosen unterschiedlicher Anbieter basieren, und somit andere Eingangsparameter verwenden.
Grundlage für die Prognoseerstellung im ersten
Verfahren bildet das Multi Scheme Ensemble Prediction System (MSEPS), welches speziell für die
Kurzzeit- und Mittelfristprognose bis zu 144 Stunden entwickelt wurde. Bei der Erstellung von Wetterprognosen sind auf Grund chaostheoretischer Erscheinungen in der Atmosphäre und der Komplexität der physikalischen Zusammenhänge Fehler physikalischer und stochastischer Art nicht zu vermeiden. Das MSEPS wird diesen Unsicherheiten gerecht, indem 75 verschiedene Prognosen unter jeweils vier verschiedenen Umgebungsbedingungen
erstellt werden. Der Verlauf dieser 300 Prognosen,
bzw. ihre Lage zueinander, gibt dabei Aufschluss
über die Wahrscheinlichkeit des Auftretens jeder
Einzelprognose. Dabei wird die Spreizung zwischen
minimal und maximal vorhergesagter Leistung sowie die Dichte der Vorhersagen zur Bestimmung
der Unsicherheit herangezogen. Grundlage für die
Umwandlung der Wettervorhersagen in Windeinspeiseprognosen bilden Daten, die aus den tatsächlich installierten Windenergieanlagen stammen. Zu
diesem Zweck sind ca. 19.000 Windenergieanlagen
registriert. Die Windeinspeiseprognosen des zweiten Anbieters kombiniert zwei Wettermodelle und
gewichtet diese anhand erwarteter Wetterlagen. Es
werden historische Daten der Windeinspeisung einzelner Regionen und die jeweils dazugehörigen Wetterlagen gesammelt. Auf der Grundlage dieser Datenbasis wird aktuell prognostizierten Wetterszenarien eine zu erwartende Windeinspeiseleistung zugewiesen. Hierzu wird eine Clusterbildung nach atmosphärischen Konditionen vorgenommen und innerhalb dieser Cluster nach Analogien gesucht. Der
dritte Anbieter erfasst die Windenergieeinspeisung
online und kombiniert diese mit den Wetterdaten
in einem KNN. Dabei werden nicht alle WEA erfasst sondern nur räumlich verteilte Referenzanlagen, die anschließend auf den Gesamtbestand extrapoliert werden. Hierzu muss die zu erfassende
WEA bzw. das jeweils übergelagerte Umspannwerke mit entsprechender Mess- und Übertragungstechnik ausgestattet sein. Das Trainieren des KNN
hat dabei bereits in der Vergangenheit stattgefunden, wobei das Netzwerk die Relation zwischen prognostizierten meteorologischen Umgebungsparametern und der damit verknüpften Einspeiseleistung
erlernt hat.
Die Genauigkeit der Modelle unterscheidet sich je
nach Anbieter und klimatischen Bedingungen. Ersteres liegt an unterschiedlichen Verfahren, letzteres liegt darin begründet, dass nicht immer dieselben Wetterdienste für die Eingangsparameter herangezogen werden. Es bietet sich somit an, unterschiedliche Anbieter mit verschiedenen Verfahren und Wetterdienstdaten zusammenzufassen und
durch unterschiedliche Gewichtung bei bestimmten klimatischen Bedingungen zu belegen, um somit der tendenziell besseren Prognose ein höheres
Gewicht in der Summe zukommen zu lassen. Untersuchungen des HTEE zeigen, dass dadurch das
Prognoserisiko verringert und die Genauigkeit erhöht werden kann.
3.4 Netzlastprognose
Ein weiterer Teil der Prognosen in der Energieversorgung stellt die Netzlastprognose in Verteilungsund Übertragungsnetzen dar. Die Herausforderung
der Übertragungsnetze ist in dem vorherigen Abschnitt erläutert worden. Demgegenüber spielen in
Verteilungsnetzen lokale Besonderheiten eine große
Rolle.
Den Verteilungsnetzbetreibern ist die Energie bekannt, die von dem Netz aufgenommen, bzw. im
Falle der Rückspeisung abgegeben wird. Weiterhin sind die Einspeisedaten großer Erzeugungsanlagen bekannt. Aus diesen Daten und entsprechenden Wetterdaten lässt sich mit Hilfe eines KNN
die Netzlast prognostizieren, und damit notwendige
technische Einstellungen wie Schalterstellung oder
Transformatoreinsellungen vornehmen.
Durch den Ausbau mit Smart Metern stehen
den Netzbetreibern genauere Messwerte der Verbraucher und auch kleiner Einspeiser wie DachPhotovoltaikanlagen zur Verfügung. Darüber hinaus entsteht so die Möglichkeit, den Netzzustand
Benjamin Deppe & Michael Kurrat: Künstliche Intelligenz in der Energieversorgung
an allen Punkten in Echtzeit zu erkennen [Deppe
& Kurrat 2009b]. Die Fragestellung ist, ob sich
mit diesen genaueren Daten bessere Prognosen erstellen lassen, und durch Tagesabhängigkeiten Synergien für den Netzbertrieb entstehen. Die Auswahl
der passenden Algorithmen und Eingangsparameter stellt in diesem Forschungsfeld vor dem Hintergrund der aktuellen Entwicklungen eine große
Herausforderung dar.
59
den Monaten 6 und 7 die Abnahme deutlich, bevor
sich die Prognose wieder an den Echtverbrauch anpasst. Dieses Phänomen ist besonders bei temperaturabhängigen Kunden in den Sommermonaten
zu beobachten. Hier ist dann ein manuelles Eingreifen, oder ein Anpassen der Prognosemethode
notwendig.
4 Grenzen der Prognose
Jedes der oben beschriebenen Verfahren hat sowohl
Vor- als auch Nachteile. Die Entscheidung für oder
gegen ein Verfahren muss daher in Abhängigkeit
von dem Einsatzgebiet getroffen werden. In einer
Untersuchung wurden die Lastgangfortschreibung,
das Vergleichtageverfahren sowie KNN bzw. ALN
analysiert. Die Lastgangfortschreibung stellt das
einfachste Verfahren dar. Dabei wird der Mittelwert einer beliebigen Historie unter Berücksichtigung von Tagesabhängigkeiten auf den Folgemonat
fortgeschrieben. In der Untersuchung betrug dieser
Zeitraum zwei Monate. Das Verfahren ist robust gegenüber dauerhaften Veränderungen, wie beispielsweise eine langfristige Anpassung der Produktionskapazitäten eines Industrieunternehmens. Die Abbildung 2 zeigt diesen Vorteil.
Abb. 3: Lastgangfortschreibung bei kurzfristiger Abnahmeänderung
Dieser Temperatureffekt ist in Abbildung 4 und
Abbildung 5 dargestellt.
Abb. 4: Temperaturabhängigkeit von Dienstleistungskunden
Abb. 2: Lastgangfortschreibung bei langfristiger Abnahmeänderung
Im Monat 4 erfolgt eine Erhöhung der Produktionskapazität. Nach zwei Monaten ist der Prognosewert
an die neuen Gegebenheiten angepasst. Ein wesentlicher Nachteil zeigt sich bei Kunden mit kurzfristigen Abnahmeänderungen. Abbildung 3 verdeutlicht dieses Verhalten. Die Monate 4 und 5 stellen
ein erhöhtes Abnahmeverhalten dar. Die Prognose hing zunächst hinterher, und übersteigt dann in
Im Bereich der Dienstleistungskunden ist deutlich
eine Änderung des Abnahmeverhaltens ab einer Tagesdurchschnittstemperatur von 15 Grad Celsius
zu erkennen, wobei eine Schwankung der Intensität der Abhängigkeit über die Wochentage erkennbar ist. Zu begründen ist diese starke Reaktion des
Verbrauchs auf die Tagesdurchschnittstemperaturen durch den Einsatz von Klimaanlagen. Im Industriekundensegment ist eine Temperaturabhängigkeit, wie in Abbildung 5 gezeigt, nicht zu erkennen.
Ein KNN bietet sich dann an, wenn an der Struktur der zu prognostizierenden Daten keine Änderung auftritt. Dies ist besonders bei Stadtnetzen
60
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Ansprüche an die Verfahren. Die besondere Herausforderung liegt in der Umstellung der Prognose
für SLP Kunden sowie die Verknüpfung der Prognose mit Verfahren zur Netzoptimierung. Hierfür
sind die bisherigen Verfahren anzupassen.
Literatur
Abb. 5: Temperaturabhängigkeit von Industriekunden
der Fall. Bei Änderungen der tatsächlichen Daten
im Vergleich zu den Trainingsdaten ist ein erneutes
Trainieren erforderlich. Bei Industriekunden bieten
sich KNN daher nicht an. Für diese eignet sich
eher die Lastgangfortschreibung, trotz der angegeben Nachteile. Im Gegensatz zu dem Vergleichstageverfahren kann somit auf grundlegende Änderungen im Abnahmeverhalten nach kürzerer Zeit reagiert werden, respektive die Anpassung erfolgt automatisch. Die Vergleichstage bieten sich bei Kunden an, die auf äußere Einflüsse reagieren, die regelmäßig wiederkehren. Beispielsweise bei Handelskunden, die regelmäßige Öffnungszeiten haben und
auf Temperatureinflüsse reagieren. Da dieses Verfahren jedoch einen hohen manuellen Aufwand erfordert, eignet es sich eher für den Einsatz bei TopDown-Prognosen [Kaufmann 2003]. Also bei Prognosen, bei denen die Summenlastkurve einer Kundengruppe prognostiziert wird. Bei der Bottom-UpPrognose wird jeder Kunde einzeln prognostiziert
und dann die Summe aller Kunden gebildet. Dabei
muss bei dem Vergleichstageverfahren jeder Kunde einzeln betrachtet werden. Das ALN stellt eine
Alternative zu den herkömmlichen KNN dar, da es
schneller zu trainieren ist und auch in der Berechnung schneller zu Ergebnissen führt.
5 Fazit und Ausblick
Die Bedeutung von Prognosen in der Energieversorgung hat in den letzten Jahren deutlich zugenommen, und wird in Zukunft vor dem Hintergrund
des Smart Grid Gedanken weiter zunehmen. Dadurch verbessert sich zugleich die Datenlage. Durch
das Unbundling ist jedoch unklar, ob an allen Stellen die notwendigen Daten vorhanden sein werden.
Weiterhin ist die Auswahl von verfügbaren Verfahren groß, und jeder Anwendungsfall stellt spezielle
EnWG (2005): Energiewirtschaftsgesetz vom 7. Juli 2005.
BGBl. I: S. 1970 (3621), zuletzt geändert durch Artikel 2
des Gesetzes vom 21. August 2009, BGBl. I: S. 2870).
EEG (2008): Erneuerbare-Energien-Gesetz vom 25. Oktober
2008. BGBl. I: S. 2074), zuletzt geändert durch Artikel 12
des Gesetzes vom 22. Dezember 2009. BGBl. I: S. 3950.
VDEW Materialien M-05/2000: Anwendung der Repräsentativen VDEW-Lastprofile – Step-by-step. Verband der
Elektrizitätswirtschaft e.V. (Hrsg.), Frankfurt.
VDEW Materialien M-23/2000: Umsetzung der Analytischen Lastprofilverfahren – Step-by-step. Verband der
Elektrizitätswirtschaft e.V. (Hrsg), Frankfurt.
Box, G. E. P.; Jenkins, G. M. (1976): Time Series Analysis - forecasting and control. San Francisco u.a: HoldenDay. ISBN 0-8162-1104-3.
Hufendiek, K. (2001): Systematische Entwicklung von
Lastprognosesystemen auf der Basis neuronaler Netze.
Düsseldorf: VDI-Verlag, 2001. ISBN 3-18-345506-4.
Deppe, B., Kurrat, M. (2009): Integration von Smart Metering in die Geschäftsprozesse von Energieversorgungsunternehmen. VDE VDE/ETG Kongress, 27.-28. Oktober 2009, Düsseldorf.
Deppe, B., Kullack, A., Kurrat, M., Eggert, F.
(2010): Potenziale zur Effizienzsteigerung durch die Etablierung eines Smart Metering. 11. Symp. Energieinnovation, 10.-12. Feb. 2010, TU Graz (Österreich).
Deppe, B., Kurrat, M. (2009): Zähler als Bestandteil von
Smart Grid Konzepten. In Kahmann & Zayer (Hrsg.,
2010): Elektrizitätsmesstechnik Jahrbuch 2010. VWEW
Energieverlag, Frankfurt.
Kaufmann, A. (2003): Prognosemethoden und Prognosequalität - Auswahl und Optimierung. ew - das magazin
für die energie wirtschaft 102 (13): 18–21.
Adaptive Flugregelung unter Verwendung eines Stabilen
Neuronalen Beobachters
Thomas Krüger∗ , Andreas Kuhn† , Joachim Axmann∗ & Peter Vörsmann∗
∗
Institut für Luft- und Raumfahrtsysteme, Hermann-Blenk-Str. 23, 38108 Braunschweig
†
Andata Entwicklungstechnologie GmbH & Co KG, 5400 Hallein, Österreich
Zusammenfassung
Summary
Ein wichtiger Aspekt für den zuverlässigen Einsatz
von unbemannten Fluggeräten (Unmanned Aerial Systems - UAS) ist die Erhöhung ihres Autonomiegrades,
dies betrifft im Besonderen die Reaktion auf extreme Windsituationen und Systemfehler. Hier soll eine
adaptive Reglerarchitektur für kleine UAS auf Basis
künstlicher neuronaler Netze (KNN) vorgestellt werden, die es dem System ermöglicht, unter Verwendung eines stabilen Lernverfahrens seine Regelungseigenschaften während des Fluges zu verbessern. Die
Reglerarchitektur basiert auf dem Ansatz der nichtlinearen Sliding-Mode Regelung kombiniert mit einem
Gradientenabstiegsverfahren. Dabei wird den KNN zunächst mit Hilfe von Messdaten verschiedener Flugmuster ein Basiswissen antrainiert, welches später unter Verwendung eines Beobachters der Systemdynamik im Betrieb erweitert wird. Vorherige Untersuchungen haben gezeigt, dass feedforward-Netzwerke mit
nichtlinearen Transferfunktionen geeignet sind, um für
die Flugregelung Verwendung zu finden. Ein zentraler
Punkt hierbei ist, den Reglern ein in seiner Robustheit
validiertes Basiswissen zu vermitteln. Um dies sicherzustellen, wird ein systematischer Trainingsprozess genutzt, der große Gruppen verschiedener Netzwerkarchitekturen trainiert. Die Robustheit aller Netze kann
anschließend statistisch analysiert werden, so das allgemeine Aussagen zur Lösbarkeit der jeweiligen Lernaufgabe getroffen und Netze für die Regelung ausgewählt werden können.
There is a high potential to improve the degree of automation of unmanned aerial systems (UAS) by implementing adaptive flight control strategies. This is
especially the case regarding autonomous operation
under difficult atmospheric conditions or even system
failures. Machine learning techniques enable a UAS to
improve control accuracy during operation and to respond to unknown, non-linear flight conditions. Here,
artificial neural networks (ANN) are used to implement a learning flight control system. This is realised
with a systematic two-stage approach by firstly implementing a sustainable offline-trained basic knowledge
and improving these characteristics during flight using
a gradient-based sliding mode training algorithm. During the automated offline-step large groups of ANN
are trained with the required behaviour, which is derived from measured data. This phase showed that
the learning task can be achieved by multi-layered
feedforward-networks. The training success of all networks regarding their robustness is then evaluated
with statistical methods and networks are selected for
online application. The online learning step is realised
with a controller architecture comprising a neural network controller and a neural observer which predicts
the system’s dynamics and delivers the critics signal
for contoller training. In summary, the statisic analysis
of the robustness of the basic knowledge as well as the
implementation of a stable neural observer proved to
be central aspects of the control strategy.
61
62
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
1 Übersicht
In den letzten Jahren ist die Nutzung kleiner unbemannter Flugsysteme deutlich angestiegen; dies
betrifft im Besonderen die kommerzielle und wissenschaftliche Anwendung. Gleichzeitig führen die
operationellen Vorteile kleiner Größe und geringer
Kosten, die nicht zuletzt durch die Miniaturisierung der Avioniksysteme realisiert werden konnten, zu Problemen im Bereich der Flugregelung.
Dies betrifft vor allem Modellungenauigkeiten und
die hohe Empfindlichkeit gegenüber Wind und Turbulenz. Während konventionelle, kaskadisch aufgebaute Regelkreise, wie sie in Brockhaus [1994]
vorgestellt werden, unter normalen Flugbedingungen adäquates Verhalten zeigen, hat der wissenschaftliche Einsatz in den Bereichen der Flugmeteorologie [Spiess et al. 2006; Kroonenberg 2009]
und der Fernerkundung [Wilkens et al. 2008] gezeigt, dass adaptive Regelungssysteme die Genauigkeit steigern können. Hier bieten die Lerneigenschaften neuronaler Netzwerke die Möglichkeit, Adaption im Flug zu realisieren. Um den besagten
Problemen von Ungenauigkeiten und Nichtlinearitäten entgegen zu wirken, können KNN verschieden verwendet werden: Als neuronale Regelungselemente [Pashilkar et al. 2006; Ferrari & Stengel 2004], zur Echtzeit-Modellierung und Schätzung von Modellfehlern [Calise et al. 2000; Necsulescu et al. 2007], sowie zur Identifizierung aerodynamischer Derivative [Seifert 2003]. Neben
diesen Anwendungen, die sich auf Flächenflugzeuge beziehen, werden KNN auch vermehrt zur Regelung kleiner Drehflügler verwendet [Dierks &
Jagannathan 2010], wobei sich die Ansätze besonders hinsichtlich der flugmechanischen Randbedingungen unterscheiden.
Bei der Nutzung künstlicher Intelligenz zur Regelung vollautomatischer UAS ist es berechtigt, das
Flugzeug im Sinne der Robotik als Agenten zu betrachten [Russell & Norvig 2004]. Ein idealer
Agent ist in der Lage, seine Umwelt über geeignete
Sensorik wahrzunehmen, entsprechend seines Missionsplanes zu agieren, aus Erfahrung zu lernen und
dabei langzeitstabiles Verhalten zu bewahren. Ein
Hauptteil dieser Eigenschaften ließe sich durch eine
stabile neuronale Regelungsstrategie umsetzen. Die
hier vorgestellten Ergebnisse basieren auf dem un-
Abb. 1: Das UAS CAROLO P200 im Landeanflug.
bemannten Kleinflugzeug CAROLO P200, das in
Abb. 1 dargestellt ist und der dazugehörigen Simulationsumgebung. Dieses UAS hat ein Startgewicht
von 5 Kg, eine Spannweite von 200 cm, wobei der
elektrische Antrieb eine Flugzeit von 60 Minuten
bei ca. 80 Km/h ermöglicht. Die Steuerung erfolgt
nur mit Höhen- und Querruder, auf ein Seitenruder
ist verzichtet worden. Das Konzept der neuronalen Regelungsstrategie basiert auf den praktischen
Erfahrungen beim Einsatz des P200 in verschiedenen Flugexperimenten. Dies beinhaltet im Besonderen, dass die hohe Genauigkeit der Sensorsysteme und der dazugehörigen Datenfusionsalgorithmen experimentell validiert worden sind [Winkler 2007]. Die Sensorik besteht aus einer Inertialplattform, die die Drehraten und Beschleunigungen in allen Raumrichtungen misst; zusätzlich werden sowohl barometrischer Druck, als auch Staudruck gemessen. Ein GPS-Empfänger stellt Rohdaten zur Verfügungen, die in einem tightly coupled Kalman-Filter zur Sensorkalibrierung und zur
präzisen Bestimmung von Lage, Position und Geschwindigkeit verwendet werden [Martin et al.
2007]. Dies garantiert, dass die KNN-Regler jederzeit Sensorinformationen angemessener Qualität erhalten. Um ein realistisches Verhalten des
Systems in der Simulation zu gewährleisten, werden die nichtlinearen Bewegungsgleichungen verwendet, vermessene Aktuator- und Sensormodelle (dies beinhaltet den GPS-Empfänger), sowie ein
Atmosphärenmodell mit einem Dryden Turbulenzspektrum [Brockhaus 1994].
Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters
Dieser Artikel analysiert, inwieweit ein adaptives
neuronales Regelungssystem den Problemen kleiner
UAS bezüglich Nichtlinearitäten und atmosphärischer Störungen entgegen wirken kann. Dabei wird
ein zweistufiger Ansatz bestehend aus Vortraining
und Lernen im Flug umgesetzt. Die Lernmuster des
Vortrainings sind aus vorigen Missionen gewonnen
und werden einer großen Gruppe von Netzen (100
Stück) präsentiert, die sich in ihrer Topologie unterscheiden, wobei jede Topologie zehnmal verwendet
wird. Dadurch kann statistisch bewertet werden, ob
die KNN generell in der Lage sind, das Lernproblem
zu lösen und gleichzeitig ein zufälliger Lernerfolg
ausgeschlossen werden. Anschließend können Netze
ausgewählt und ihr Verhalten unter Echtzeitbedingungen geprüft werden.
2 Regelungsansatz und
Trainingsalgorithmus
Sliding-Mode
Ein wichtiger Bestandteil des Regelungsansatzes
ist die Implementierung der gewünschten Flugbahn
mittels kubischen Bézier-Splines. Dabei sind einzelne Splinekurven miteinander verbunden und bilden so die Flugbahn einer Mission. Dies ermöglicht eine permanente Messung der Abweichung von
der gewünschten Bahn, was die zentrale Größe für
den Regelungsprozess der Seitenbewegung darstellt
[Schulz 2008]. Ein einfaches Beispiel einer solchen
Splinekurve ist in Abb. 2 dargestellt.
Diese Splines sind durch vier Punkte im geodätischen Koordinatensystem bestimmt(P0 bis P3 ) und
3
\
3
3
3
[
Abb. 2: Beispiel einer Splinekurve zur Definition der
Flugbahn.
63
können berechnet werden durch:
x(t) = a3 · t3 + a2 · t2 + a1 · t + x0 ,
(1)
y(t) = b3 · t + b2 · t + b1 · t + y0 ,
(2)
3
2
wobei der Laufparameter t, (0 ≤ t ≤ 1) die Position auf dem Kurvenstück festlegt. Es gilt a1 =
3(x1 − x0 ), a2 = 3(x0 − 2x1 + x2 ) und a3 =
−x0 + 3x1 − 3x2 + x3 ; die Koeffizienten b1 bis b3
(2) werden nach gleicher Vorschrift mit y0 bis y3
berechnet. Aus dieser Bahnführung ergeben sich
zwei Vorteile: Zum einen kann der benötigte Hängewinkel (resultierend aus einer Rollbewegung um
die Flugzeuglängsachse (xf )) in einer Kurve vorab bestimmt werden, da dieser abhängig von der
Krümmung des Splines ist. Zum anderen kann zu
jedem Zeitschritt die seitliche Ablage von der Zielbahn gemessen werden, was eine klare Aussage über
die Bahnfolgegenauigkeit darstellt.
Ein wichtiger Bestandteil der Regelungsstrategie
[Krüger et al. 2009], dargestellt in Abb. 3, ist
der neuronale Beobachter, der die Dynamik der Seitenbewegung erlernt. Die Messung der Splineabweichung d im Vergleich zur Ausgabe dˆ liefert das Trainingssignal ∆dˆ für den Beobachter. Da keine direkte Qualitätsgröße für das Reglertraining verfügbar
ist, wird die inverse Dynamik des Beobachternetzwerkes genutzt, um die Splineabweichung ∆d zurück zu propagieren. Das Ergebnis dieser Rückpropagation ist das Trainingssignal für den Regler ∆ξk .
Dieser Ablauf wird nachfolgend vorgestellt.
Es werden feedforward-Netzwerke mit Tangens
Hyperbolicus-Übertragungsfunktionen in den verdeckten Schichten verwendet, die häufig für Regelungsanwendungen genutzt werden [Omatu et
al. 1996]. Die Optimierung der Netzwerkgewichte
läuft in zwei Phasen ab, zunächst einem batchVortraining, gefolgt vom Lernen während des Fluges. Für Beide Phasen bieten sich verschiedene
Varianten des Backpropagation-Algorithmus’ an.
Für das Vortraining wird der Levenberg-MarquardtAlgorithmus verwendet, während für die Echtzeitanwendung der deutlich schnellere Standard
Backpropagation-Algorithmus eingesetzt wird. Allgemein berechnet sich die Vorwärtspropagation wie
folgt:
( n
)
∑
L−1
L
uj = f
wij · ui
+ bj ,
(3)
i=1
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
64
Abb. 3: Aufbau des Regelkreises: die zeitverzögerten Eingänge erlauben das Erlernen dynamischen Verhaltens.
dabei indiziert j die Neuronen einer Schicht L und i
die n Neuronen der Schicht L−1; b ist der Biaswert
von Neuron j und f die Übertragungsfunktion. Sofern der Zielwert yt,j einer Netzausgabe yj = uL
j
bekannt ist, kann der quadratische Fehler als Qualitätsmaßfür die Netzwerkeigenschaften berechnet
werden:
1
(4)
Ej = (yt,j − yj )2 .
2
Für einen Gradientenabstieg ohne Moment kann
nun die Gewichtsveränderung während eines Lernschrittes bestimmt werden:
∆wij = −µ
∂Ej
= −µJ,
∂wij
(5)
mit der Lernrate µ > 0, der Jacobi-Matrix J und
der Fehlerfunktion Ej . Da µ > 0 die Größe eines
Lernschrittes wesentlich steuert, sollte diese im Sinne der Stabilität begrenzt werden. In Rojas [1996]
ist das ganze Verfahren, auch für verdeckte Schichten dargestellt. Nach wiederholter Anwendung der
Kettenregel kann die Jacobi-Matrix mit Elementen
der Vorwärtspropagation berechnet werden.
J=
∂Ej
= δj · uL−1
.
i
∂wij
(6)
In Gleichung (6) ist das Fehlersignal δj für ein Neuron j der Ausgabeschicht gegeben als:
′
δj = (yt,j − yj ) · fL (wij · uL−1
).
i
(7)
Wie in Abb. 3 dargestellt, ist es nicht möglich, den
Fehler des Stellsignals ∆ξk direkt zu bestimmen.
Da das Querrudersignal ξk die Eingabe j des Beobachternetzwerkes darstellt, ist es möglich, das dazugehörige Fehlersignal δj1 in Abhängigkeit der gemessenen Splineabweichung ∆d zu berechnen. Dieses rückpropagierte Fehlersignal charakterisiert eine Änderung der Fehlerfunktion Ej in Abhängigkeit eines geänderten Eingabesignals ξk . Sofern dˆ in
etwa gleich d ist, kann ∆d genutzt werden, um ein
direktes Lernsignal ∆ξ für den Regler zu generieren. Damit wird deutlich, dass stabiles Verhalten
des Beobachternetzwerkes eine Voraussetzung für
das Reglertraining ist. Im Folgenden soll daher ein
stabiler Sliding-Mode-Control-Algorithmus (SMC)
abgeleitet werden.
Die Grundidee für SMC besteht darin, ein Gebiet
im Zustandsraum eines zu regelnden dynamischen
Systems zu identifizieren, in dem das Systems stabil ist und nach begrenzter Zeit nach Anregung in
seinen Ausgangszustand zurückkehrt. Wenn ein solches Gebiet existiert, auch Gleitfläche genannt, ist
ein Regelgesetz zu finden, das sicherstellt, dass das
System diese Gleitfläche in begrenzter Zeit erreicht
und nicht wieder verlässt. Der Lernprozess eines
KNN kann wie in Abb. 4 als nichtlineare Regelungsaufgabe betrachtet werden, auf die das Prinzip der
Gleitfläche angewendet wird. Hier ist das Verfahren in allgemeiner Vektorschreibweise für Netzwerke mit mehreren Ausgängen gegeben.
Die Differenz zwischen gewünschtem Netzwerkfehler ⃗εt , der physikalisch mit der gewünschten Fluglage verkoppelt ist und dem aktuellen Netzfehler
Stabilen Neuronalen Beobachters
Thomas Krüger, Andreas Kuhn, Joachim Axmann, Peter Vörsmann
Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters
Eingaben
gewünschte Ausgabe
~x
∆~ε
+
~ε t
Training
−
Regler
Gewichte
~w
Fehler
Neuronales Netz
65
~yt
~ε
System
Abbildungdie
1: Training
of a neural
network erlauben
as a control
process.
Abb. 4: Aufbau des Regelkreises:
zeitverzögerten
Eingänge
das
Erlernen dynamischen Verhaltens.
⃗ε wird in den Trainingsblock gegeben, der die Änderungen der Gewichte vornimmt. Das Netzwerk
berechnet ein Ausgabesignal ⃗y auf Basis der Einga⃗ ; der aktuelle Netzfehler ⃗ε stellt die Differenz
ben x
aus gewünschter Netzausgabe ⃗y t und tatsächlicher
Ausgabe ⃗y dar. Es existieren verschiedene Ansätze um SMC und KNN miteinander zu verknüpfen
[Shakev et al. 2003; Topalov & Kaynak 2001;
Nied et al. 2005]; danach kann man die Gewichtsanpassung wie folgt definieren:
(
⃗ =
∆w
⃗ x
⃗ , ⃗y d )
∂⃗y (w,
⃗
∂ w(t)
)T
(
)
⃗ · |⃗ε|. (8)
· µ · diag sign(S)
⃗ k und
Mit den Gleichungen (9) und (11) können S
⃗
S k+1 berechnet werden.
(
)
˙ k + λ · ⃗εk = λ + 1 ⃗εk − 1 ⃗εk−1 (14)
⃗ k = ⃗ε
S
Ts
Ts
(
)
˙ k+1 + λ · ⃗εk+1 = λ + 1 ⃗εk+1 − 1 ⃗εk
⃗ k+1 = ⃗ε
S
Ts
Ts
(15)
Die Unbekannte ⃗εk+1 aus Gleichung (15) muss näherungsweise bestimmt werden. Der Fehler ⃗εk+1
kann geschrieben werden als:
⃗εk+1 = ⃗εk + ∆⃗εk .
Dies stellt eine Erweiterung des Gradientenabstiegsverfahrens dar, indem das Vorzeichen der
⃗ addiert wird.
Gleitfläche S
⃗ = ⃗ε˙ + λ · ⃗ε .
S
(9)
⇒
⃗ε = ⃗ε(t0 ) · e−λ(t−t0 ) . (10)
Nun wird die Ableitung des Fehlers ⃗ε mit Hilfe eines
Zeitschrittes Ts approximiert.
⃗ε(t) − ⃗ε(t − Ts )
⃗ε˙ ≈
Ts
(11)
Für den aktuellen Zeitschritt wird der Index k eingeführt:
S(t) = S k
;
S(t + Ts ) = S k+1
;
. . . . (12)
Damit sich der Algorithmus der Gleitfläche annähert, muss sich der Betrag der Gleitflächenfunktion
S mit jedem Zeitschritt verringern.
⃗ k+1 | < |S
⃗ k|
|S
Daraus kann die Änderung des Fehlers in einem
Zeitschritt ∆⃗εk bestimmt werden:
∆⃗εk = ⃗εk+1 − ⃗εk
= (⃗y t,k+1 − ⃗y k+1 ) − (⃗y t,k − ⃗y k )
Für S = 0 befindet sich das System direkt auf der
Gleitfläche, wo der Netzfehler gegen 0 geht, sofern
der Faktor λ positiv ist:
⃗ = ⃗ε˙ + λ ·⃗ε = 0
S
(16)
(13)
(17)
= ∆⃗y t,k − ∆⃗y k .
Die Differenz ∆⃗y t,k wird über die gewünschte, physikalisch sinnvolle Bahnabweichung bestimmt und
ist daher bekannt. Für ∆⃗y k wird eine Näherung
erster Ordnung angenommen.
∆⃗y k =
∂⃗y k (⃗
wk , ⃗
xk )
∂⃗y k (⃗
wk , ⃗
xk )
∆⃗
wk +
∆⃗x (18)
∂w
⃗k
∂⃗xk
⃗
⃗
wk ,⃗
xk )
xk )
k ,⃗
und ∂⃗yk (∂⃗
können
Die Ableitungen ∂⃗yk∂(w
⃗k
w
xk
durch Rückwärtspropagation der Netzausgabe yk
durch das KNN bestimmt werden. Der Parame⃗ k ist in Gleichung (8) gegeben und für die
ter ∆w
⃗ k+1 bekannt. Es wird angenomBerechnung von S
men, dass die Änderungen der Netzeingaben für jeden Zeitschritt Ts klein sind. Diese Zusammenhänge in Gleichung (13) eingesetzt liefert zwei unbekannte Größen, die Lernrate µ und λ, wobei λ positiv sein muss, damit die Gleitfläche erreicht wird.
Bei Begrenzung der Lernrate µ ist der Algorithmus
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
66
stabil. Zur besseren Übersicht werden die Koeffizienten ai und bi eingeführt, wobei i der Index der
Netzausgaben darstellt. Da alle Netzwerke in dieser
Arbeit eine Ausgabe (i = 1) aufweisen, lässt sich
die Begrenzung von µ wie folgt darstellen.
ai =
(
)(
(
))
∂⃗
yk
1
1
λ+
εk,i + ∆yd,k,i −
∆⃗
xk
−
εk,i
Ts
∂⃗
xk
Ts
i
(19)
(
bi =
1
λ+
Ts
)(
∂⃗
yk
⃗k
∂w
(
∂⃗
yk
⃗k
∂w
)T
(
)
⃗ k ) |⃗εk |
diag sign(S
!
"
#
)
$"
i
(20)
Für die Begrenzung von µ erhält man schließlich
folgende Ungleichungen.
}
 {
S k,i
S k,i
ai
ai

−
+
<
µ
<
+

bi
bi
bi
bi




∀ (S k,i > 0 ∧ bi > 0) ∨ (S ki < 0 ∧ bi < 0)

{
}


S k,i
S k,i
ai
ai

+
<
µ
<
−
+


b
b
bi
b
i
i
i


∀ (S k,i > 0 ∧ bi < 0) ∨ (S ki < 0 ∧ bi > 0)
(21)
3 Prozess zum Vortraining der Netzwerke
In der Phase des Vortrainings erlernen die Netzwerke das nötige Basiswissen, damit sie als Regler für
ein Flächenflugzeug verwendet werden können. Da
der Entwurf von KNN keinen klaren analytischen
Regeln folgt, sondern stark von der Lernaufgabe
abhängt, wird ein automatisierter, iterativer und
reproduzierbarer Trainingsprozess implementiert,
der in Abb. 5 sichtbar ist. Ein wichtiger Bestandteil
dieses Prozesses ist die physikalisch sinnvolle Auswahl der Ein- und Ausgaben der Netzwerke, sowie
die Zusammenstellung angemessener Trainingsmuster in verschiedenen Trainingsblöcken. Das antrainierte Basiswissen kann nur so umfangreich sein,
wie die Qualität der Lernmuster es zulässt. Hinsichtlich der Netzwerkarchitektur ist es nicht Ziel
dieses Ansatzes, eine hochspezialisierte Topologie
zu finden, sondern an einer großen Gruppe von
Netzwerken die Qualität des Basiswissens zu evaluieren. In diesem Trainingsprozess wurden 100 Netzwerke verschiedener Architekturen automatisch generiert und trainiert. Die statistische Auswertung
%
&
)
"
'
( Abb. 5: Prozess zur automatischen Auswertung des
Basistrainings.
erlaubt eine Analyse hinsichtlich Netzwerkeingaben, Trainingsblöcken, Netzwerkgröße und Robustheit.
Zur Generierung der Lernmuster, wie auch für
die spätere Echtzeitanwendung, wurden Flugbahnen mit einer Flugdauer zwischen vier und zehn
Minuten verwendet. Für das Vortraining werden
zwei Aspekte berücksichtigt: mit 10000 Lernmustern ist die Menge der Trainingsdaten ausreichend
und die enthaltenen Flugmanöver sind angemessen
für eine Flugenveloppe eines UAS’. Damit soll dem
Flugzeug eine hinreichende Generalisierungsfähigkeit für unbekannte Flugbahnen antrainiert werden. Ein Beispiel einer Bahn ist in Abb. 6 gegeben.
Um erste Informationen bezüglich robusten Verhaltens, auch in nicht trainierten Situationen, zu erhalten, sind die Lernmuster aufgeteilt in Trainings-,
Test- und Validierungsdaten, wobei nur die Trainingsmuster die Verbindungsgewichte beeinflussen.
Für alle Netzwerke werden die Initialgewichte zufällig angeordnet und auch die Lernmuster werden für jedes Netz bei jeder Epoche zufällig den
Trainings-, Test- und Validierungsdaten zufällig zugeordnet. Dadurch werden statistisch repräsentati-
Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters
67
Bahnabweichung d / m
2
1
0
−1
−2
0
Ziel
Training
Validierung
Test
100
200
Zeit / s
Abb. 7: Netzantwort für Training, Validierung und Test für die Flugbahn aus Fig. 6. Die Ausgaben folgen den
Zielwerten über die gesamte Flugbahn, Validierung und Test zeigen robuste Ergebnisse.
ve Ergebnisse eines Trainingszyklus sichergestellt.
Die Validierungs- und Testdaten sind somit den
Netzen unbekannt, wobei das Training gestoppt
wird, wenn der Validierungsfehler mit der Zeit nicht
abnimmt. Dadurch wird unnötiges Training verhindert und auch die Überspezialisierung der Netzwerke bei gleichzeitig reduzierter Generalisierungsfähigkeit eingedämmt. Daher ist der mittlere quadra-
Abb. 6: Flugbahn aus dem Vortraining; Start- sowie
Endpunkt bei x = 0 m und y = 200 m.
tische Fehler von Test- und Validierungsdaten ein
erster Hinweis auf robustes Verhalten. Die Fähigkeit von KNN, nichtlineare Funktionen zu approximieren ist in Abb. 7 dargestellt. Der neuronale
Beobachter wird trainiert, um die seitliche Bahnabweichung aus den Eingabedaten zu schätzen; die
Splineabweichung d ist daher der Zielwert des Basistrainings. Dies ist ein Beispiel für ein dreischichtiges Netz mit 25 Neuronen in der verdeckten Schicht
und in seiner Qualität repräsentativ für das Vortraining sowohl der Beobachter- als auch der Reglernetzwerke. Alle trainierten Netze bestehen aus
20 bis 60 Netzwerken in drei bis vier Schichten.
Das Basiswissen stellt eine gute Grundlage für die
Echtzeitanwendung der Netzwerke dar, da die Ergebnisse des Trainings angemessen erscheinen. Der
Hauptgrund für das Vortraining ist allerdings flugmechanischer Natur, da ein Flächenflugzeug zur
Auftriebserzeugung eine minimale Geschwindigkeit
benötigt. Würden beispielsweise beim Startvorgang
Stelleingaben erfolgen, die zu große Lagewinkel zur
Folge haben, könnte eine drastische Reduktion der
Fluggeschwindigkeit eintreten und damit ein Strömungsabriss erfolgen.
Im folgenden Abschnitt wird das Basiswissen validiert und im Betrieb, auch bei stark nichtlinearen
Flugzuständen, erweitert.
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
4 Lernen im Flug
Die Tests der Netzwerke in der Echtzeitanwendung
wurden über größere Zeitfenster (mehr als 400 Sekunden) mit der Simulationsumgebung, die in Kapitel 1 beschrieben wurde, durchgeführt. Zuerst
wurden die KNN auf den Flugbahnen getestet, auf
denen das Basistraining basiert, um die Analyse des
Vortrainings zu bestätigen. Danach wurden sie ohne Echtzeittraining auf unbekannten Bahnen validiert, um die Robustheit zu analysieren. Nach Bestätigung der Annahmen aus Kapitel 3 wurden die
Netzwerke mit Echtzeitoptimierung auf unbekannten Bahnen getestet, was ebenfalls Untersuchungen
mit signifikantem Scherwind beinhaltet.
Die korrekte Funktion des Beobachternetzwerkes
ist Grundvoraussetzung, um ein sinnvolles Trainingssignal für die Optimierung des Reglers zu generieren. In Abb. 8 sind die Ergebnisse eines nur
vortrainierten Beobachters mit denen eines SMCoptimierten für eine unbekannte Bahn verglichen.
without Online-Training
Online-Training with SMC (λ=10)
predictor error [m]
1
0.5
0
-0.5
-1
0
100
200
time t [s]
300
400
Abb. 8: Schätzfehler des vortrainierten Beobachters im Vergleich zur Echtzeitoptimierung mit SMCTraining.
Es ist erkennbar, das der SMC-Algorithmus den
Schätzfehler erheblich reduziert, wobei eine Standardabweichung von 0.027 m mit einem Maximalfehler von 0.484 m zu verzeichnen ist. Dies unterstreicht ein stabiles Echtzeittraining und ermöglicht die adäquate Berechnung eines Fehlersignals
für den Regler. In Abb. 9 ist die Bahnabweichung
bei Echtzeittraining des Reglers dargestellt. Dabei
werden konventioneller und neuronaler Regler verglichen, da die Lernmuster aus Kap. 3 mit dem konventionellen Regelkreis gewonnen wurden. Es ist
sichtbar, dass der lernfähige Regler besonders die
starken Abweichungen deutlich reduzieren kann, so
dass man von einem sinnvollen Lernsignal des Beobachters aus Abb. 8 ausgehen kann.
4
conventional controller
neuronal controller
deviation from target spline d [m]
68
3
2
1
0
-1
-2
-3
-4
0
100
200
time t [s]
300
400
Abb. 9: Abweichung von der Zielbahn. Verglichen werden kaskadischer und neuronaler Regler mit Echtzeitlernen.
Um eine zuverlässige Funktionsweise des SMCAlgorithmus zu bestätigen, wurde eine Simulation
mit einem stark asymmetrischen Windfeld durchgeführt, bei der eine Windvektorkomponente in geodätischen Koordinaten von v = 10 m/s auftrat. Die
Ergebnisse des Vergleiches zwischen vortrainiertem
und SMC-optimiertem Beobachter sind in Abb. 10
erkennbar. Wie zu erwarten sind die Abweichungen größer, allerdings ist der SMC- Algorithmus
in der Lage, die Standardabweichung auf 0.042 m
zu reduzieren bei einem Maximum von −0.813 m.
Augenscheinlich ist das Echtzeittraining fähig, den
Beobachter an die schwierigen Windbedingungen
anzupassen, was eines der gewünschten Ziele aus
Kapitel 1 ist.
Da der neuronale Beobachter sich erfolgreich an die
schwierigen Bedingungen ohne starken Qualitätsverlust anpassen kann, soll abschließend untersucht
werden, ob das Trainingssignal des Reglers weiterhin sinnvoll ist. Abb. 11 zeigt die Systemantwort für
die gleichen Windbedingungen, die in Abb. 10 vorherrschen. Von einigen wenigen Ausreißern abgesehen, ist erkennbar, dass die Fehler in signifikantem
Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters
predictor error [m]
Durch diesen Ansatz kann die Bahnführungsgenauigkeit deutlich verbessert werden, so dass ein adaptives Regelungssystem zur Verfügung steht, das
auch bei nichtlinearen Flugzuständen angemessen
arbeitet.
without Online-Training
Online-Training with SMC (λ=10)
1
0.5
0
5 Zusammenfassung
-0.5
-1
0
100
200
time t [s]
300
400
Abb. 10: Schätzfehler des vortrainierten Beobachters im Vergleich zur Echtzeitoptimierung mit SMCTraining bei starkem Seitenwind.
Maße verkleinert werden können. Dabei wird die
Standardabweichung des Bahnfehlers d von 0.858
m für den kaskadischen Regler auf 0.718 m für den
neuronalen Regler verringert. Die maximale Abweichung wird von −5.67 m auf −3.18 m reduziert.
4
conventional controller
neuronal controller
3
deviation from target spline d [m]
69
2
1
0
-1
-2
-3
-4
-5
-6
0
100
200
time t [s]
300
400
Abb. 11: Abweichung von der Zielbahn. Verglichen
werden kaskadischer und neuronaler Regler mit Echtzeitlernen bei starkem Seitenwind.
Die dargestellten Ergebnisse sind exemplarisch für
die Ergebnisse anderer Topologien aus dem Vortraining. Es zeigt sich, dass der zweistufige Ansatz bestehend aus systematischem Vortraining und Echtzeitoptimierung ein sinnvoller Weg zur Implementierung neuronaler Regelungssysteme ist.
Die Anwendung von Maschinenlernverfahren ermöglicht ein adaptives Regelungssystem, das die
Flugeigenschaften eines unbemannten Fluggerätes
zu verbessern vermag. Dies gilt besonders für nichtlineare Flugzustände. Diese Arbeit zeigt, dass modulare KNN kombiniert mit einem stabilen SMCLernverfahren als Flugregelungssystem verwendet
werden können. Für das Vortraining wurde ein reproduzierbarer Prozess implementiert, der es ermöglicht, das Training großer Gruppen von Netzwerken statistisch zu bewerten. Die Auswahl der
Ein- und Ausgabegrößen, sowie der Lernmuster
sind dabei von großer Bedeutung, damit die Netzwerke die gewünschten nichtlinearen Zusammenhänge abbilden können. Dieser Prozess bildet einen
systematischen Ansatz, mit dem der Lernerfolg
neuronaler Netze bewertet werden kann.
Gleichzeitig zeigen die Netzwerke das gewünschte
Verhalten während der Simulation des Flugregelkreises und sind somit die Grundlage für die Echtzeitanwendung. Neben dem robusten Basiswissen
der KNN stellt die Eigenschaft des Beobachters,
die Dynamik der Seitenbewegung abzubilden, ein
Kernelement dieses Ansatzes dar, da hierdurch ein
Trainingssignal für den neuronalen Regler gewonnen werden kann. Die Ergebnisse zeigen, dass neuronale Netze, sofern mit adäquaten Eingabegrößen
versorgt, in der Lage sind, nichtlineare Modellierung und Regelung in Echtzeit zu erlernen. Dabei
bildet der neuronale Beobachter die gewünschten
dynamischen Zusammenhänge über die gesamte
Flugenveloppe ab und liefert ein solides Signal für
die Regleroptimierung. Dies gilt auch für schwierige Windbedingungen, was besonders auf den Ansatz des SMC-Trainings zurückzuführen ist. Folgende Untersuchungen werden die Validierung der Regelungsstrategie in Flugversuchen und die Untersuchung hybrider Regelungsverfahren beinhalten.
70
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
Literatur
Brockhaus, R. (1994): Flugregelung. Springer Verlag, Berlin. ISBN 3-540-55416-5.
Spiess, T., Bange, J., Buschmann, M. & Vörsmann, P.
(2006):Unmanned meteorological measurements with the
’M2AV’ aircraft – Comparison with remote sensing and
the Helipod. In European Geosciences Union – General
Assembly 2006, Vienna, Austria.
Kroonenberg, A. v. d. (2009): Airborne Measurement of
Small-Scale Turbulence with special regard to the Polar
Boundary Layer. Dissertation. Zentrum für Luft- und
Raumfahrt, Technische Universität Braunschweig.
Wilkens, C.-S., Buschmann, M., Johannes, L., Krüger, L., Krüger, T., & Vörsmann, P. (2008): Project Andromeda: Application of Drone Based Aerial Photographs. In 2nd International UAV World Conference.
Frankfurt a.M., Germany, 12.–13. November 2008.
Pashilkar, A. A., Sundararajan, N. & Saratchandran, P. (2006): A fault-tolerant neural aided controller for aircraft auto-landing. Aerospace Science and
Technology 10: 49–61.
Ferrari, S. & R. F Stengel (2004): Online Adaptive Critic Flight Control. Journal of Guidance, Control and Dynamics 27 (5): 777–786.
Calise, A., Lee, H. & Kim, N. (2000): High Bandwidth
Adaptive Flight Control. In AIAA Guidance, Navigation,
and Control Conference, Denver, CO, September 2000.
AIAA 2000-4551.
Necsulescu, D., Jiang, Y.-W. & Kim, B. (2007): Neural
Network Based Feedback Linearization Control of an Unmanned Aerial Vehicle. International Journal of Automation and Computing 1 (4): 71–79.
Seifert, J. (2003): Identifzierung nichtlinearer aerodynamischer Derivative mit einem Modularen Neuronalen Netzwerk. Dissertation. Universität der Bundeswehr München,
Fakultät für Luft- und Raumfahrttechnik, Institut für Systemdynamik und Flugmechanik.
Dierks, T. & Jagannathan, S. (2010): Output Feedback
Control of a Quadrotor UAV Using Neural Networks. IEEE Transactions on Neural Networks 21 (1): 50–66.
Russell, S. & Norvig, P. (2004): Künstliche Intelligenz
– Ein moderner Ansatz. Pearson Education, München.
ISBN 3-8273-7089-2.
Winkler, S. (2007): Zur Sensordatenfusion für integrierte
Navigationssysteme unbemannter Kleinstflugzeuge. Dissertation. Zentrum für Luft- und Raumfahrt, Technische
Universität Braunschweig.
Martin, T., Winkler, S. & Vörsmann, P. (2007):
GPS/INS Integration for Autonomous Mini and Micro
Aerial Vehicle Navigation Considering Time Correlated
Sensor Noise. In ION 63rd Annual Meeting. Cambridge,
Massachusetts, USA, 23.–25. April 2007: 710–715.
Schulz, H.-W. (2008): Ein rekonfigurierbares Bildverarbeitungssystem für unbemannte Kleinstflugzeuge – Entwicklung eines bildgestützten Landeverfahrens. Dissertation.
Zentrum für Luft- und Raumfahrt, Technische Universität Braunschweig.
Krüger, T., Krüger, A., Kuhn, A., Axmann, J. &
Vörsmann, P. (2009): Adaptive Flight Control for Unmanned Aerial Vehicles Using a Neural Network Predictor. In German Aeronautics and Astronautics Congress,
Aachen, Germany, September 2009. DGLR. ISBN:978-3932182-63-4, PaperID 121206.
Omatu, S., Khalid, M. & Yusof, R. (1996): NeuroControl and its applications – Advances in industrial control. Springer-Verlag, Berlin.
Rojas, R. (1996): Neural Networks – A Systematic Introduction. Springer-Verlag, Berlin.
Shakev, N. G., Topalov, A. V. & Kaynak, O. (2003):
Sliding Mode Algorithm for Online Learning in Analog
Multilayer Feedforward Neural Networks. LNCS 2714:
1064–1072.
Topalov, A. V. & Kaynak, O. (2001): Online Learning
in Adaptive Neurocontrol Schemes with a Sliding Mode
Algorithm. IEEE Transactions on Sytems, Man, and Cybernetics, Part B: Cybernetics 31 (3): 445–450.
Nied, A., Junior, S. I. S., Parma, G. G. & Menezes,
B. R. (2005): On-line Adaptive Neural Training Algorithm for an Induction Motor Flux Observer. IEEE Power
Electronic Specialists Conference 2005 – PESC2005.
Komplexitätsreduzierte neuronale Netze zur OffboardDiagnostik in Fahrzeugsystemen
Complexity Reduced Neural Networks for OffboardDiagnostics in Automotive Systems
Tobias Carsten Müller*
*
Institut für Regelungstechnik, Hans-Sommer-Straße 66, 38106 Braunschweig
[email protected]
Zusammenfassung
Neue innovative Diagnostikverfahren werden notwendig, um die stetig komplexer werdenden Fahrzeuge
zukünftig noch warten zu können. Bereits seit einigen
Jahren werden umfangreich Daten von Reparaturfällen
aus den Servicewerkstätten aufgezeichnet, die bisher
jedoch nicht automatisiert für Diagnostikverfahren
genutzt werden. Gründe hierfür sind u.a. die Art und
die mangelnde Qualität der zur Verfügung stehenden
Daten, die eine große Herausforderung für ein Lernsystem darstellen.
Im Rahmen eines Kooperationsprojektes der Volkswagen AG und mit der TU Braunschweig wurde ein
Offboard-Diagnostik-Konzept entwickelt, welches in
einem automatisierten Prozess aus aufgezeichneten
Reparaturfällen lernt und das erlernte Wissen zur Unterstützung der Fehlersuche in den Servicewerkstätten
zur Verfügung stellt. Hierfür werden neuronale Netze,
kombiniert mit einem neuen Konstruktions- und Lernverfahren zur schrittweisen Erweiterung des Lösungsraumes verwendet. Zur Evaluierung wurde ein Prototyp implementiert, der mit Daten aus einigen zehntausend realen Reparaturfällen trainiert wurde. Die Experimente haben gezeigt, dass ein solcher Ansatz bereits
mit den zur Verfügung stehenden Daten gute Ergebnisse liefert.
Summary
As the complexity of current automobiles increases,
new and innovative diagnostic methods for car maintenance and diagnostic inspection are greatly needed.
For several years, data of repair cases are extensively
recorded from the car repair shops, but so far not automatically used for diagnostics. The reasons for this
include the nature and the poor quality of available
data, which represent a major challenge for a learning
system.
71
In a cooperative project with Volkswagen AG and
the Technische Universität Braunschweig a new Offboard diagnostic approach was developed, which
learns from previous repair cases in order to assist
future diagnostic inspections. For this purpose, neural networks, combined with a new design and learning techniques for the progressive expansion of the
solution space used. For evaluation, a prototype was
implemented which was trained with data from tens
of thousands of real repair cases. The experiments
have shown that this approach is able to provide
promising results even with the data that is already
available today.
1 Einleitung
Eine große Herausforderung bei der Entwicklung
neuer Fahrzeuge besteht darin, trotz immer komplexer werdenden Fahrzeugen deren Zuverlässigkeit und Wartbarkeit weiter zu verbessern. Aus
diesem Grund sind neue innovative Diagnostikverfahren und Systeme notwendig. In hochvernetzten und verteilten Systemen wie der Kraftfahrzeugelektronik können die Ursachen für viele Fehler nur mit Hilfe durchgängiger und systemübergreifender Diagnostikkonzepte zuverlässig identifiziert werden. Die unterschiedlichen im Fahrzeug
verbauten Systeme besitzen untereinander viele
Berührungspunkte. Dazu gehören vor allem die
funktionalen Abhängigkeiten der einzelnen Systeme untereinander und die damit notwendige Vernetzung der Steuergeräte [UNGER et al. 2005]. Die
Auswirkungen von Störungen in solchen verteilten
Systemen sind nur schwer zu überschauen.
Die Folge ist, dass eine in der Werkstatt durchgeführte Fehlerdiagnostik in über 60 Prozent der
Fälle den Fehler nicht findet [vgl. ABUOSBA 2004].
72
AITUBS – Künstliche Intelligenz an der TU Braunschweig
Hierdurch steigen die Fehlersuchzeiten und die
Fehltauschkosten. Zusätzlich wird die Diagnostik
durch die Tatsache erschwert, dass ein Symptom
nicht selten mehrere Ursachen hat, und eine Ursache oft zu mehreren Symptomen führt [vgl. HACK et
al. 2005, RUMPE & SCHIFFERS 2006].
2 Hintergrund und Ausgangssituation
Die meisten heute eingesetzten Steuergeräte1 sind
eigendiagnostikfähig. Das bedeutet, sie besitzen
Diagnostikroutinen innerhalb der Steuergerätesoftware, welche die Sensoren und Aktoren gegeneinander plausibilisieren. Unter anderem kommen hier
modellbasierte Diagnostikverfahren zum Einsatz
[ISERMANN 2006]. Wird vom System eine Störung
erkannt, so wird ein Ereignisspeichereintrag (DTC2)
hinterlegt, der über eine Diagnostikschnittstelle aus
dem Fahrzeug ausgelesen werden kann [ISO 15031
2006].
Im Gegensatz zur Eigendiagnostik (OnboardDiagnostik) versteht man unter Offboard-Diagnostik-Systemen eine Klasse von Systemen, die in
der Werkstatt an ein Fahrzeug angeschlossen werden und von außen auf die Systeme im Fahrzeug
zugreifen. Sie haben die Möglichkeit, Ereignisspeichereinträge aller vorhandenen Fahrzeugsysteme
auszulesen und dem Kundendienstmitarbeiter in
lesbarer Form anzuzeigen.
Leistungsfähige Diagnostiksysteme sollen dem KD3Mitarbeiter nicht nur alle Informationen aus den
einzelnen Steuergeräten anzeigen, sondern ihn zusätzlich bei der Fehlersuche aktiv unterstützen. Ein
Beispiel hierfür im Kundendienst von Volkswagen
ist die geführte Fehlersuche (GFS). Die GFS verwendet Fehlersuchprogramme auf Basis von Entscheidungsbäumen, welche von Experten erstellt, in
verschiedene Sprachen übersetzt und weltweit an
die Anwender verteilt werden. Hier wird für jeden
Ereignisspeichereintrag, der in einem Fahrzeug auftreten kann, ein Fehlersuchprogramm erstellt. Eine
besondere Schwierigkeit besteht hierbei in der Abdeckung aller Varianten eines Fahrzeuges, welche
sich durch die zahlreichen Ausstattungsmöglichkeiten ergeben. Dies ist bei der Erstellung der Fehlersuchprogramme zu berücksichtigen. So äußert sich
derselbe Fehler in den unterschiedlichen Fahrzeugvarianten jeweils in anderer Art und auch Prüfund Reparaturanweisungen können stark variieren.
Bereits im Voraus alle möglichen Fehlerquellen zu
erkennen und abzudecken ist eine weitere Schwach-
1
Ein Steuergerät wird ebenfalls als ein System betrachtet.
2
DTC – Diagnostic Trouble Code
3
KD – Kundendienst
stelle solcher manuell erstellter Fehlersuchprogramme.
Die genannten Punkte führen in der Praxis
zwangsläufig zu Kompromissen, da das Berücksichtigen aller möglichen Fehlerquellen sowie aller
Fahrzeugvarianten nur mit erheblichem Aufwand
beherrschbar ist. Insbesondere der bereits genannte Anstieg an Komplexität als auch die Tendenz
zu verteilten Funktionen führen damit vermehrt
zu reduzierten und unspezifischeren Fehlersuchprogrammen (z.B. „Suche nach Stromlaufplan“).
Ein wichtiger Schritt zur Verbesserung der Diagnostikqualität ist die Möglichkeit die Vorgänge im
Feld auszuwerten, wie z.B. durch die Einführung
einer Datenbank für Felddaten. So könnten z.B.,
die für einen Reparaturfall relevanten Daten wie
Ereignisspeichereinträge usw., aufgezeichnet werden. Mit den heute verfügbaren Informationen
werden bereits Auswertungen zur Verbesserung
der Prüfabläufe durchgeführt. Dieser Vorgang der
Auswertung, wie auch die anschließende Verbesserung der Fehlersuchprogramme wird jedoch manuell vorgenommen und lässt sich nicht mit vertretbarem Aufwand automatisieren. Daher kann über
diese Vorgehensweise nur eine geringe Anzahl an
Prüfprogrammen verbessert werden. An diesem
Punkt setzt das in diesem Beitrag nachfolgend
beschriebene lernende Verfahren an.
3 Lernen aus Reparaturfällen
Weltweit existieren für viele Automobilhersteller
mehrere zehntausend KFZ-Werkstätten mit insgesamt über hunderttausend Mitarbeitern. Aufgrund
dieses enormen Potenzials, ist der Austausch an
Erfahrung zwischen den einzelnen Werkstätten
eine Chance und Herausforderung.
Dies soll mit einem Beispiel veranschaulicht werden. Im Fall eines komplexen Reparaturproblems
für dessen Lösung ein KD-Mitarbeiter A einiges an
Fehlersuchzeit und auf Verdacht getauschte Teile
aufgewendet hat, bedeutet dies für den KDMitarbeiter B einer anderen Werkstatt mit demselben Problem, denselben Aufwand zu investieren. KD-Mitarbeiter B profitiert folglich nicht von
der Erfahrung des KD-Mitarbeiters A. Wäre es
möglich, die einmal gemachten Erfahrungen immer zur Verfügung zu haben, bestände ein großes
Einsparpotenzial.
Das Ziel sollte daher sein, aus Reparaturfällen zu
lernen und das erlangte Wissen für zukünftige Reparaturfälle zu nutzen. Da auch hier analog zur
GFS die Menge der Daten und das daraus
erlangbare Wissen groß ist, kann sowohl das Lernen als auch die Anwendung nur dann von gewinnbringender Effizienz sein, wenn der gesamte
Prozess automatisch durchführbar ist.
TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen
73
4 Problemanalyse
Für ein lernendes System ist die Art und die Qualität der vorhandenen Daten von entscheidender Bedeutung. Gelernt werden soll aus den Reparaturfällen in den Werkstätten. Hierfür soll zunächst ein
allgemeiner Diagnostik- und Reparaturprozess näher betrachtet werden. Dieser ist in Abb. 1 in stark
vereinfachter Form als iterativer Prozess dargestellt.
D iagnost iktester
Handlungsanweisungen
Diagnost ikanfragen
Sympt ome,
Messwert e, et c
Sympt ome (DTCs),
Messwert e, et c
Sympt ome,
Messwert e, et c
Reparat ur,
Messungen
Abb. 1: Vereinfachter Reparaturprozess nach Müller et
al. [2007]
Im ersten Schritt erfasst das Diagnostiksystem
Symptome, die entweder aus dem Fahrzeug selbst
ausgelesen oder vom Anwender manuell eingegeben
werden. Wie in Abb. 2 dargestellt, können Symptome u.a. Geräusche, Vibrationen, Messwerte, gestörte Funktionen, Fehlerspeichereinträge sowie
subjektiv wahrgenommene Symptome sein, welche
in einer geeigneten Weise codiert wurden. Nach diesem ersten Schritt wird das System im nächsten
Schritt Handlungsanweisungen an den Anwender
ausgeben. Dies können entweder Reparaturmaßnahmen oder mögliche Fehlerursachen (die implizite
Handlungsanweisungen darstellen) sein, deren
Überprüfung vom System vorgeschlagen wird.
Führte die vorgeschlagene Handlungsanweisung
nicht zur Identifikation der Fehlerursache oder zur
Behebung des Defektes, wird der Anwender im
nächsten Schritt eine Rückmeldung an das System
geben, das daraufhin erneut analog zu Schritt 2
Handlungsanweisungen ausgibt.
Gest örte Funktionen
Opt ische Symptome
Komponent entausch
Messwert e
Geräusche
Gerüche
Symptome
Leitungsreparatur
Softwareupdate
Vibrat ionen
Mechanische
Sympt ome
ReparaturMaßnahme(n)
Mech. Instandsetzung
Fehlerspeichereinträge
Abb. 2: Reparaturprozess als eine Abbildung von
Symptombild auf Reparaturmaßnahmen
Diese Rückmeldung kann dabei in Form von (vom
System als Handlungsanweisung verlangten) Messwerten, Beobachtungen oder zusätzlichen Sympto-
men gestaltet sein. Dieser Prozess endet mit einer
vom Anwender als erfolgreich vermuteten Reparatur oder mit einem im ungünstigsten Fall nicht
lokalisierbaren Defekt. Wurde die Fehlerursache
dabei nicht durch einen direkten oder indirekten
Hinweis des Diagnostiksystems ermittelt, wird dies
als „No Trouble Found“ (NTF) bezeichnet. Das
Diagnostiksystem war in diesem Fall nicht hilfreich. Diesem Prozess ist ein zeitlich ausgedehnter
Prozess überlagert: Wurde der Defekt nur vermeintlich gelöst, wird davon ausgegangen, dass
der Kunde, zumindest im Gewährleistungsfall erneut in die Werkstatt kommen wird und eine Reparatur verlangt.
Nach dem vorgestellten Reparaturprozess kann
der Informationsgehalt eines einzelnen Reparaturfalls Rep gemäß (1) auf eine Abbildung aus dem
Reparaturkontext R und dem Symptombild SR auf
eine Menge von Reparaturmaßnahmen MR abstrahiert werden (vgl. auch Abb. 2), wobei die Symptome SR und die Maßnahmen MR eine Untermenge
aus der Potenzmenge (S) aller bekannten Symptome SΩ und der Potenzmenge (M) aller bekannten Maßnahmen MΩ sind. Ein konkreter Reparaturfall stellt somit eine Abbildungsfunktion
nach (2) dar.
Rep : R  S   M 
(1)
Rep  r , S R   M R  M  mit r  R, S R  S 
(2)
In einem Symptombild Si  (S) werden wie bereits erwähnt alle während der Reparatur festgestellten Symptome Si  S zusammengefasst. Hierzu zählen nicht nur technisch leicht und eindeutig
erfassbare Symptome wie DTCs, sondern auch
subjektiv wahrgenommene Symptome, welche in
einer geeigneten Weise codiert wurden. Zu den
Maßnahmen
werden
Aktionen
des
KDMitarbeiters, wie getauschte Teile oder Arbeitspositionen zusammengefasst. Unter dem Reparaturkontext R werden allgemein reparaturspezifische
Attribute wie Datum, Werkstatt, Verlauf, usw.
verstanden. Auf diese Weise kann eine Reparatur
als abgeschlossener Prozess betrachtet werden.
Das dem Prozess Rep zugrunde liegende System 
ist hierbei das jeweilige Fahrzeug an sich. Nun
werden keinesfalls immer absolut baugleiche Fahrzeuge repariert, vielmehr sind alle Fahrzeuge,
selbst wenn sie von derselben Klasse sind, aufgrund der möglichen Varianten unterschiedlich.
Dies wird angelehnt an BORTH [2004] durch Abb.
3 veranschaulicht. Dabei bezeichnet X einen Vektor aller beobachtbarer Eingangsgrößen, Y einen
Vektor nicht beobachtbarer Eingangsgrößen und
Zi, 1 ≤ i ≤ n den Vektor der Ausgangsgrößen. Die
74
AITUBS – Künstliche Intelligenz an der TU Braunschweig
Varianz der dargestellten Systeme4 i wird im Folgenden unter dem Systemkontext Ci zusammengefasst.
X
Y
1
X
Y
X
Y
Z1
2
Z2
n
Lernsystem
S,
C
Zn
Dat awarehouse
Abb. 3: Verschiedene Systemvarianten
Werden nun alle beobachtbaren Größen Cb,i von Ci
als Bestandteil von X und alle nicht beobachtbaren
Größen Cnb,i als Bestandteil von Y betrachtet, so
können die Systeme i , 1 ≤ i ≤ n in ein resultierendes System  zusammengefasst werden. Daraus
folgt, dass auch die Variantenvielfalt als Bestandteil
der Lernaufgabe betrachtet werden kann bzw.
muss. Als Konsequenz muss die Abbildung (1) auf
(3) und analog (2) auf (4) erweitert werden.
Rep : R   C   S   M 
Rep  r , CR , S R   M R  M  ,
mit r  R, C R  C  , S R  S  .
(3)
(4)
Die resultierende Lernaufgabe besteht nun darin,
aus den vorhandenen Daten ein Modell abzuleiten,
das die beobachteten Eingangs- und Ausgangsgrößen bestmöglich abbildet. Für die Modellbildung
selbst können nur die beobachtbaren Größen X und
Cb herangezogen werden, so dass sich die resultierende Abbildung des Modells  nach
 : C   S   M 
(5)
ergibt. Für alle weiteren Betrachtungen wird jedoch
Cnb vernachlässigt und zur Vereinfachung C anstelle
von Cb verwendet. CΩ sei die Menge aller bekannten
Kontextinformationen.
5 Iterativer Problemlösungsprozess
Der Kern des Konzepts ist ein geschlossener
Diagnostikprozess, der eine automatische Rückführung und Nutzung von Erfahrung ermöglicht. Ein
prinzipielles Datenflussdiagramm ist in Abb. 4 dargestellt. In den Reparatur-Prozessen sind alle Reparaturprozesse der verschiedenen Werkstätten zusammenzufassen. Eine Auswahl der entstehenden
Daten, gemeint sind hier vor allem Reparaturfalldaten nach (3) bzw. (4), ist in die Datenbank zu übertragen. Aus dem Datenbestand ist nun das Lernsys-
4
tem zu speisen, welches aus der Vielzahl der Daten, wie vorhergehend beschrieben, Modelle erzeugt. Diese Modelle sind anschließend als
Diagnostikwissen ebenfalls in eine Datenbank zu
übertragen, welche die Daten an die Werkstätten
verteilt.
Die Varianz der Systeme können auch als fahrzeugspezifische
Eigenschaften betrachtet werden.
Modell Õ
M
Werkst at t n
Diagnost ikwissen
Reparat ur
Prozesse
Abb. 4: Datenflussdiagramm des DiagnostikProzesses
Es handelt sich somit um einen geschlossenen Prozess, dessen Rückkopplung weitere Eigenschaften
ausbildet. Hierdurch würde für bisher unbekannte
Reparaturprobleme durch die Gesamtheit der KDMitarbeiter ein automatischer, iterativer Problemlösungsprozess entstehen. Dieser soll nachfolgend
näher beschrieben werden. Würde in einer Werkstatt ein neues bisher in den Datenbeständen unbekanntes Reparaturproblem auftreten, so besteht
für dieses erste Auftreten im erlernten Modell 
kein Diagnostikwissen. Eine zielgerichtete Diagnose würde nicht möglich sein. Der betreffende KDMitarbeiter müsste das Problem dann mit den ihm
vorhandenen Mitteln lösen (z.B. Fehlersuchprogramme etc.). Weiterhin wird davon ausgegangen,
dass in dieser ersten Problemlösung mehrere, auch
z.T. nicht erfolgreiche Reparaturmaßnahmen erbracht werden, die anschließend in den Datenbestand einfließen. Im folgenden Schritt würde das
Lernsystem erneut aus den Datenbeständen des
Data-Warehouse lernen und das Diagnostikwissen
optimieren. Würde nun dieses Problem in einer
anderen Werkstatt erneut auftreten, so könnte das
Diagnostiksystem aufgrund der veränderten Modelle bereits eine zielgerichtetere Diagnose stellen.
Diese könnte aufgrund der Datenlage jedoch noch
unscharf sein. Der betreffende KD-Mitarbeiter
wird also im Regelfall eine Auswahl an den vorgeschlagenen Diagnosen treffen müssen. Wäre die
„Reparaturlösung“ dabei Teil der Diagnosen, so
würde die Menge der durchgeführten, nicht erfolgreichen Reparaturmaßnahmen im Mittel kleiner.
Bereits nach ein paar wenigen Iterationen würde
so automatisch die beste Reparaturlösung für das
neue Problem gefunden. Nach dem gleichen Funktionsprinzip würden auf diese Weise nicht nur
neue Problemlösungen gefunden, sondern auch
Veränderungen automatisch adaptiert werden.
TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen
75
6 Neuronale Netze als Diagnostik-Modelle
Die Untersuchung verschiedener Technologien am
IFR5 hat ergeben, dass künstliche Neuronale Netze
(KNN) hierfür besonders gut geeignet sind. Auf
eine Einführung in KNN wird an dieser Stelle verzichtet und auf BISHOP [1995] verwiesen. Eine wichtige Eigenschaft der KNN bei der zugrundeliegenden Aufgabe ist das Erkennen von Mustern in den
vorhandenen Trainingsdaten (Patterns). Eine weitere wichtige Eigenschaft ist die Fähigkeit zu generalisieren, d.h. dass KNN ist in der Lage auch für
Symptombilder, die nicht Teil der Trainingspatterns sind, eine Aussage treffen zu können.
Ein nahe liegendes neuronales Modell ist ein MultiLayer-Perceptron (MLP). Ein MLP ist ein KNN
mit genau einer verdeckten Schicht und vollständiger feedforward-Vernetzung. MLPs sind nach DUDA
et al. [2000] theoretisch in der Lage, jede beliebige
stetige Funktion y(x) abzubilden. Entsprechend
können MLPs damit auch jede beliebige Relation
zwischen einem Symptombild Si und einer Menge
an Reparaturmaßnahmen Mi abbilden. Der Aufbau
eines an die Problemstellung angepassten Netzes
und im Folgenden als MLP bezeichnetes Diagnostik-Modell ist in Abb. 5 dargestellt.
ÕMLP
MLP
vc1
c1
vh1
ck
wh1m1
wh2m1
nC
 nH

 nS

f act   wha mk  f act   wsb ha  sb   wcb ha  cb  ha   mk 
b 1
 b 1

 a 1

1
und f act (x) 
(7)
 w x  
1 e  i i
Dabei sind Θx die jeweiligen Bias der Neuronen,
die der Übersicht wegen nicht in Abb. 5 dargestellt sind. Vektoren wie s und c sind fettgedruckt
dargestellt. Untersuchungen haben gezeigt, dass
dieses Modell hervorragende Klassifikationsleistungen zeigt, wenn mit den Trainingsdaten validiert wird, was auf eine starke Anpassungsfähigkeit an die Daten zurückzuführen ist. Für die Validierungsdaten, die nicht Teil der Trainingsmenge
sind, zeigt das Modell jedoch Ergebnisse, die unterhalb denen einfacher logistischer Regressionsmodelle liegen.
Die Gründe hierfür sind eine zu hohe abbildbare
Komplexität des Modells, die in Kombination mit
der geringen Fallzahl pro Symptom si  SΩ, Kontextinformation ci  CΩ und Maßnahme mi  MΩ
wie auch einer hohen Sparsity (geringe
Auftrittswahrscheinlichkeit eines einzelnen Merkmals) zu einer geringen Generalisierungsleistung
führt.
v1
v2
s2
whgmm
s3
sn
7 Komplexitätsreduzierte neuronale Diagnostik-Modelle
vm1
s1
MΩ
vm
wsnhg
vsn
Abb. 5: Multi-Layer-Perceptron als neuronales
Diagnostik-Modell
Hierbei wird für jedes Symptom si  SΩ und für
jede Kontextinformation ci  CΩ ein eigenes Eingangsneuron vsi bzw. vci erzeugt. Diese werden über
sogenannte Verbindungsgewichte wsihj bzw. wcihj zu
einer geeignet gewählten Anzahl nh an verdeckten
Neuronen vnj verbunden. Diese werden wiederum
mit den Verbindungsgewichten whjmk mit den Ausgangsneuronen vmk verbunden, wobei für jede Maßnahme mk  MΩ ein eigenes Ausgangsneuron vmk
erzeugt wird. Als Aktivierungsfunktion wurde jeweils die sigmoide Funktion nach (7) gewählt. Die
Ausgabe vk des Ausgangsneuron vmk entspricht dann
einem Vertrauenswert vk  [0,1] für die Maßnahme
mk, der bestimmt wird mit
5
(6)
wc1h1
CΩ
SΩ
 MLP : vk (s, c) 
Institut für Regelungstechnik, TU Braunschweig
Ein Lösungsansatz der Problematik ist die gezielte
Reduktion der möglichen abbildbaren Komplexität
des neuronalen Netzes. Eine Untersuchung der
Datenbasis zeigt, dass in guter Näherung folgende
Abhängigkeiten zwischen den Merkmalen abgebildet werden müssen:
1.
2.
3.
4.
5.
Unabhängigkeit zwischen
si ٣ sj
Symptomen
Unabhängigkeit zwischen
ci ٣ cj
Kontextinformationen
Unabhängigkeit zwischen
mi ٣ mj
Maßnahmen
Abhängigkeit zwischen
P(m|si) ≠ P(m)
Symptomen und Maßnahmen
Abhängigkeit zwischen
P(s|c,m) ≠ P(s|m)
Symptomen und Kontext
76
AITUBS – Künstliche Intelligenz an der TU Braunschweig
Eine genauere Betrachtung der Forderungen zeigt,
dass alle Forderungen, mit Ausnahme von Forderung 5 bereits durch ein einschichtiges neuronales
Netz erfüllt werden, eine verdeckte Schicht an Neuronen zur Komplexitätserweiterung also nicht notwendig ist. Ausgangspunkt des in dieser Arbeit
entwickelten Konstruktionsverfahrens für ein komplexitätsreduzierten Modell ist entsprechend ein einschichtiges neuronales Netz one. Um die Forderung
5 nicht zu verletzen, wird hier der Fahrzeugkontext
C zunächst nicht berücksichtigt. Das Modell wird
entsprechend nach Abb. 6 aufgebaut.
s1
SΩ
ws1m1
ws2m1
vm1
CΩ
wc1s* 1
ck
v2
ws* 1m1
vm1
v1
SΩ
s2
v2
ws3s* 3
s3
vsn
sn
ws* 1mk
wsns* n
MΩ
vm
Nacht raining
die Forderung 1 nach gegenseitig unabhängigen
Symptomen si  sj und gleichzeitig nach gegenseitig unabhängigen Maßnahmen mi  mj. Die Forderung 2 nach untereinander unabhängigen Kontextinformationen ci  cj wird ebenfalls erfüllt, da
s3
MΩ
vm
sn
v , v , v  j 1,, C
Abb. 6: Einschichtiges neuronales Diagnostik-Modell
Analog zum MLP-Modell MLP wird für jedes
Symptom si  SΩ ein eigenes Eingangsneuron vsi
erzeugt. Diese werden mit den Verbindungsgewichten wsimk direkt mit den Ausgangsneuronen vmk verbunden, wobei auch hier für jede Maßnahme
mk  MΩ ein eigenes Ausgangsneuron vmk erzeugt
wird. Als Aktivierungsfunktion wurde wieder die
sigmoide Funktion gewählt. Das so entstandene
Netz wird mittels Backpropagation bis zum Abbruchkriterium trainiert. Bedingt durch die geringe
abbildbare Komplexität des Modells eignet sich dieses gut, um selbst bei wenigen Daten zuverlässig
Korrelationen zwischen Symptomen und Maßnahmen zu erlernen. Jedoch werden kontextspezifische
Besonderheiten eines Fahrzeuges nicht berücksichtigt.
Um nun der Forderung 5, der Abhängigkeit zwischen Symptomen und Kontext gerecht zu werden
muss eine gezielte Komplexitätserweiterung vorgenommen werden. Hierzu wird jedes Eingangsneuron
vsi für ein Symptom si in ein verdecktes Neuron vs i
mit ebenfalls sigmoider Aktivierungsfunktion konvertiert. Die bereits trainierten Verbindungsgewichte werden beibehalten.
∗
Gleichzeitig wird für jedes verdeckte Neuron vs i ein
neues Eingangsneuron vsi eingefügt und mit diesem
verbunden. Anschließend wird für jede Kontextinformation ci  CΩ ein neues Eingangsneuron vci erzeugt und jeweils mit jedem verdeckten Neuron vs i
verbunden. Damit entsteht das in Abb. 7 dargestellte Netz.
∗
∗
Die spezielle Konstruktionsmethode erfüllt durch
ws s*  0 i, j  1,, S   i  j
i j
vh1
vs1
s1
v1
s2
wsnmm
kr
Õ kr
Abb. 7: Komplexitätsreduziertes neuronales Diagnostik-Modell
Õ
oneone
vs1
vc1
c1
(8)
si*
si

cj

(9)
ein einschichtiges Subnetz darstellt und damit die
Unabhängigkeit gilt.
Die meisten additiven Konstruktionsverfahren führen nach dem Schritt der Erweiterung ein Nachtraining des gesamten Netzes durch. Allerdings
würden dann auch die gelernten Gewichte des Ursprungsmodells one modifiziert werden, was nicht
erwünscht ist. Es wird darum lediglich die neu
hinzugekommene Eingabeschicht per Backpropagation nachtrainiert. Diese Vorgehensweise macht
dennoch eine Modifikation der Verbindungsgewichte der Ausgabeschicht erforderlich. Bedingt
durch die sigmoide Aktivierungsfunktion der verdeckten Neuronen vs i kann der ursprüngliche
Definitionsbereich von si  {0,1} nur noch für
Gewichte wij → ∞ erreicht werden, was faktisch
ebenfalls nur durch ∞ Trainingsperioden erreicht
werden würde. Als Folge wären alle Vertrauenswerte vi um einen nichtlinearen Faktor i reduziert.
Durch eine Modifikation der Gewichte und des
Bias der Ausgabeschicht mit
∗
ws*m   ws* m
i
j
i
j
und m   *m
i
i
(10)
wobei λ ein konstanter Faktor mit λ > 1, w*sikj das
ursprüngliche Gewicht wsikj und Θ∗ki den ursprünglichen Bias darstellt, wird dieser Nachteil kompensiert.
Angemerkt werden soll an dieser Stelle, dass in der
Literatur eine Vielzahl von Konstruktionsverfahren existieren [vgl. z.B., PRECHELT 1995, VON
STACKELBERG 2003]. Es konnte jedoch kein Verfahren gefunden werden, welches die speziellen
Anforderungen hinsichtlich der Charakteristik der
Daten erfüllt.
TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen
77
8 Beschleunigung durch MerkmalsReduktion
Mit zunehmender Anzahl von Falldatensätzen werden Lernverfahren mit mehreren Trainingsepochen
ressourcenaufwendig hinsichtlich Rechen- und Speicherbedarf. Selbst für die in dieser Arbeit zur Verfügung stehenden Datensätzen war eine Merkmalsreduktion zwingend notwendig, um die Netze in
akzeptabler Zeit trainieren zu können.
Um die positiven Eigenschaften der neuronalen
Netze, wie Mustererkennung und Generalisierung
beizubehalten, sollten in einem Netz möglichst diejenigen Symptome und Komponenten zusammengefasst werden, zwischen denen Abhängigkeiten existiert. Hierfür bietet die Statistik eine Reihe von
Abhängigkeitstests. Für die hier vorhandenen nominal dichotomen Merkmale S, M sind Signifikanztests geeignet. Mögliche Methoden hierfür, die auch
in dieser Arbeit untersucht wurden, sind der χ²Test (Chi-Quadrat-Test) mit
u
r
  
2
j 1 k 1
n
jk
 n*jk 
2
n*jk
(11)
 = Prüfgröße für den   Test
2
2
n jk = Absolute Randhäufigkeit
*
n jk = Erwartete Randhäufigkeit für H0
u , r  Merkmaldimension (hier 2)
und der exakte Test nach FISHER [1954]. In
Signifikanztests wird zunächst angenommen, zwei
Merkmale seien unabhängig (genannt Nullhypothese H0). Mit dieser Annahme wird dann eine Prüfgröße χ² berechnet, die ein Maß für die Abweichung
der realen von der für die Nullhypothese H0 erwarteten Verteilung darstellt. In (11) wird diese durch
die normierte quadratische Abweichung aller absoluten Randhäufigkeiten njk zu den erwarteten
Randhäufigkeiten n∗jk berechnet. Die resultierende
Prüfgröße
χ²
kann
dann
in
eine
Irrtumswahrscheinlichkeit p (auch p-Wert genannt)
umgerechnet werden, die angibt, wie wahrscheinlich
ein statistischer Zusammenhang zwischen den
Merkmalen, hier einem Symptom si und einer
Komponente ki ist. Ein p-Wert von 1 bedeutet dabei eine 100%-tige Irrtumswahrscheinlichkeit für
den Zusammenhang (H0 gilt als erfüllt; es gibt also
keinen Zusammenhang) und ein p-Wert von 0 bedeutet eine 0%-tige Irrtumswahrscheinlichkeit (H0
wird verworfen; es gibt einen eindeutigen Zusammenhang).
 pm1s1  pm1si 



 
S 
p

 m j s1  pm j si 
(12)
wobei die Elemente pm1s1 jeweils den p-Wert für
die Signifikanz zwischen der Komponente kj und
dem Symptom si darstellen. Der p-Wert selbst
wird dabei mit der Näherungsformel
2
1 
p  10 3,84
2
(13)
aus der mit (11) berechneten Prüfgröße χ² bestimmt.
In Schritt 2 wird die Signifikanzmatrix S in eine
Distanzmatrix D überführt (vgl. (14)). Es wird
dabei für jede Maßnahme und jedes Symptom berechnet welche Distanz d ein Symptom zu einer
Maßnahme besitzt. Hierfür werden zunächst die
einzelnen Distanzen (p-Werte) zwischen Maßnahmen und Symptomen als bipartitier, ungerichteter,
gewichteter Graph G nach (15) dargestellt, wobei
sich für die Knotenmenge (16) eine disjunkte/echte Partitionierung in Maßnahmenknoten VM
und Symptomknoten VS ergibt. Die Kanten E
werden nach (17) jeweils mit den Kantengewichten ps,m aus der Signifikanzmatrix S für Kanten
es,m  E definiert. Der kürzeste Weg zwischen
Maßnahme mi und Symptom sj ist nun gegeben als
Kantenmenge (18). Damit ergibt sich die Summe
der Kantengewichte für den kürzesten Weg zwischen mi und sj mit (19). In Abb. 8 ist dies beispielhaft für m1 und s86 dargestellt. Die zugehörige
Gleichung ist mit (20) definiert und zur Veranschaulichung nicht gemäß der Matrix S geordnet.
K M i ,S j 
 d m1s1  d m1si 


D 

 
d

 m j s1  d m j si 
(14)
G  V , E 
(15)
V  VS  VM
(16)
E  VM  VS
(17)
ek  E | e1   mi , s1  , e2 ,..., en 1 , en 
 (18)
  mn , s j 
k 1..n 



d mi s j 
Im ersten Schritt des Merkmals-ReduktionsVerfahren wird zunächst sukzessiv für alle Symptome si  SΩ und Maßnahmen mj  mΩ die
Signifikanz (repräsentiert durch den p-Wert) berechnet, wodurch sich die Signifikanzmatrix S
ergibt mit

em ,s K M i ,S j
pm, s
d m1s8  pm1s3  ps3m2  pm2 s7  ps7 m3  pm3s8
6
s8 steht für Symptom 8, m1 steht für Maßnahme 1.
(19)
(20)
78
AITUBS – Künstliche Intelligenz an der TU Braunschweig
Die Notwendigkeit, Wege über andere Maßnahmenknoten hinweg zu wählen, ergibt sich aus der Verteilung
der
Falldaten.
Typische
Auftrittswahrscheinlichkeiten für ein beliebiges
Symptom sx unter der Annahme dass ein Fehlerfall F
vorliegt,
liegen
im
Bereich
von
0,02% ≤ P(sx|F) ≤ 0,2%. Dadurch können sehr gut
positive Zusammenhänge, jedoch keine Negativzusammenhänge festgestellt werden. Um dies zu zeigen, wird zunächst die Definition des χ²-Test nach
(11) für den hier konkret vorliegenden Fall mit 2
Variablen mit jeweils 2 Merkmalen (Symptom vorhanden (hx1) / nicht vorhanden (hx2); Maßnahme
durchgeführt (h1x) / nicht durchgeführt (h2x) ) nach
(21) überführt. Dieser Spezialfall wird auch χ²-Vierfeldertest genannt. Die χ²-Prüfgröße ist jedoch für
einen anschaulichen Vergleich ungeeignet und wird
darum mit der Beziehung (22) in den PhiKoeffizient (23) überführt.
m1
s4
s1
s3
s2
s5
m2
s10
s7
m3
s6
s9
s8
Abb. 8: Beispielhaft dargestellte Distanz zwischen s8
und m17
Der Phi-Koeffizient stellt im Gegensatz zur χ²Prüfgröße ein normiertes Zusammenhangsmaß
(auch Korrelation genannt) mit dem Wertebereich
von -1 ≤ Φ ≤ 1 dar. Ein Φ > 0 bedeutet dabei ein
positiver Zusammenhang und ein Φ < 0 ein negativer Zusammenhang. Jetzt wird ersichtlich, dass für
ein Maximum bzw. ein Minimum der Korrelation
die Felder der Hauptdiagonalen oder Nebendiagonalen von H gleich null sein müssen. Für einen positiven Zusammenhang kann dies leicht erfüllt werden,
da hier die Felder h12 und h21 null sein müssen. Darüber hinaus bewirkt der durch die Falldaten bedingt große Wert von h22, das diese zwei Felder weniger ins Gewicht fallen. Für einen negativen Zusammenhang müssen jedoch die Felder h11 und h22
null oder nahe null sein. Für h22 ist dies nicht möglich. Eine Extremwertuntersuchung von (23) ergibt,
dass die maximal negative Korrelation für die Bedingung h12 = h21 erreicht wird. Damit kann das
Minimum für Φ mit (24) bestimmt werden. Für die
vorhergehend
bereits
erwähnten
typischen
Auftrittswahrscheinlichkeiten P(sx|F) kann der
Wertebereich von Φmin auf 10-4 ≤ Φmin ≤ 10-3 bestimmt werden. Damit wird deutlich, warum Negativzusammenhänge nur schwer bzw. nicht erkannt
werden können. Unter der Annahme, dass ein sol7
s8 steht für Symptom 8, m1 steht für Maßnahme 1. Die Nummerierung ist für die Darstellung frei gewählt.
cher Negativzusammenhang für eine andere Maßnahme einen Positivzusammenhang darstellt, ist
die Wegbildung über andere Maßnahmen hinweg
eine Lösung für dieses Problem.
2 
n  h11h22  h12h21 
h
11
2
 h12   h21  h22   h11  h21   h12  h22 
 2  n  2

h
(22)
h11h22  h12h21
11
 h12   h21  h22   h11  h21   h12  h22 
 min  
(21)
h12
für h12  h21 und h11  0
h12  h22
(23)
(24)
 h11 h12 
H= 
 = Häufigkeitstabelle
h21 h22 
n  Fallzahl
Die erzeugte Distanzmatrix D, definiert in (14),
dient nun als Grundlage für die MerkmalsAuswahl in Schritt 3. Alle für eine Komponente kj
vorhanden Symptom-Distanzen dsimj sind im j-ten
Zeilenvektor der Distanzmatrix D definiert. Würden alle Symptome ausgewählt, würde keine Reduktion stattfinden. Daher wird eine Distanzgrenze dth definiert. Damit kann die für eine Komponente kj zu betrachtende Symptommenge Smk bestimmt werden mit
Smk 
 d
sS
mk s
 dth , dmk s  D
(25)
Es werden folglich all diejenigen Symptome si  SΩ
der Symptommenge Skj hinzugefügt, deren Distanz
unterhalb der Distanzgrenze dth liegt. In Abb.
wird dies Anschaulich dargestellt.
s5
s4
d th
m1
s1
s3
s2
Abb. 9: Beispielhaft dargestellte Distanzen und die
Distanzgrenze für m1
Bedingt durch die Definition des χ²-Tests (siehe (11)
und RICE [2006]), sind die einzelnen p-Werte nach
(13) und damit auch die Distanzwerte Fallzahlabhängig. Für die Bestimmung des Parameters dth ist
es jedoch wünschenswert, dass dieser nicht fallzahlabhängig sondern normiert ist. Hierfür wird zunächst in (22) die Beziehung des χ²-Tests zum
TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen
79
dth 
1
 10
2
n dth2 ,norm
3,84
(26)
n = Fallzahl
Durch die Addition der einzelnen Distanzen im
Graphen, kann dth,norm auch Werte > 1 annehmen.
9 Evaluation
Es wurde eine modulare Trainings- und Evaluierungssoftware erstellt, so dass bereits einige Versuche mit Datensätzen aus realen Reparaturfällen
durchgeführt werden konnten. Eine besonders schwierige Aufgabe war dabei die Beschaffung der Daten.
Weiterhin zeitaufwendig war die Erfassung und
Verknüpfung der Datensätze. Hinzu kommt, dass
die Erzeugung der Daten in den Werkstätten an
sich nicht in der für ein Lernsystem nötigen Qualität stattfindet. Nur mit einigem Aufwand konnten
die Daten verknüpft und ein Algorithmus entwickelt werden, der möglichst „qualitativ hochwertige“
Datensätze herausfiltert.
Ausgangsbasis für die Versuche waren 56.000 reale
Reparaturfälle. Als Symptome wurden DTCs und codierte Kundenwahrnehmungen8 und als Maßnahmen
Ersatzteile, Arbeitspositionen, codierte Werkstattwahrnehmungen und Komponentenbezeichnungen9
verwendet. Mit dieser Attributauswahl enthält der
Datensatz 7.100 Symptome, 14.205 Maßnahmen und
1.474 verschiedene Kontextinformationen. Die daraus
abgeleitete Reparaturfallmatrix RM hat die Dimension {1, …, |S|+|M|+|K|}{1, …, |R|}. Der
Befüllungsgrad von RM beträgt dann 0,00026.
Zur Bestimmung der Leistungsfähigkeit wurde eine
normierte Evaluierungsquote qn eingeführt. Diese
wird mit (27) bestimmt, indem für jeden Reparaturfall R der Evaluierungsmenge REval die vorgeschlagenen Maßnahmen M des Modells  mit den
tatsächlich durchgeführten Maßnahmen MR verglichen und die Treffer aufsummiert werden.
q

RREval
1
tr
, tr = 
REval
0
qn 
M   MR  0
(27)
M   MR  0
q
(28)
q max
Die Normierung ergibt sich mit qmax, der durch die
mangelnde Qualität der Falldaten theoretisch maximale Evaluierungsquote q. Auf verschiedene Validierungs- sowie Evaluierungsmethoden wurde
bereits in MÜLLER et al. [2008] eingegangen.
Evaluierung der Merkmals-Reduktion
Die Merkmals-Reduktion war ein notwendiger
Schritt um ein effizientes Training der Netze zu
ermöglichen. Als geeignet hat sich eine Distanzgrenze dth von 1·10-10 erwiesen. Die Gesamtanzahl
der Verbindungen konnte damit von ursprünglich
1·108 auf  1,7·106 (-98,3%) reduziert werden,
ohne dass die Klassifikationsleistung des Netzes
reduziert wurde.
Evaluierung des komplexitätsreduzierten Modells
Ausgehend von den merkmalsreduzierten Daten
wurde jeweils für das einschichtige Modell one,
das komplexitätsreduzierte Modell kr und das
MLP-Modell MLP die jeweils beste Parameterkonfiguration ermittelt. Die Ergebnisse sind in
Abb. dargestellt. Der Vergleich zeigt, dass bereits
das einschichtige Modell one eine hohe Klassifikationsleistung erreicht, die jedoch durch die Berücksichtigung des Fahrzeugkontexts mit dem
Modell kr nochmals gesteigert wird. Das MLPModell MLP erreicht dagegen aus den erläuterten
Gründen das schlechteste Ergebnis.
100%
95%
Evaluierungsquote [%]
Phi-Koeffizienten betrachtet. Der Phi-Koeffizient
stellt im Gegensatz zum χ²-Test ein normiertes Zusammenhangsmaß mit dem Wertebereich von 1 ≤ Φ ≤ 1 dar. Ein fallzahlunabhängiges Distanzmaß dth,norm wird folglich erreicht, indem die für die
Berechnung notwendige Distanz dth mit (11), (13)
und (22) nach (26) definiert wird.
90%
96,4%
93,1%
85%
86,7%
80%
75%
70%
65%
60%
55%
50%
one
kr
MLP
Abb. 10: Evaluierungsquote qn der Modelle one, kr
und MLP im Vergleich
Erprobung
8
Es existiert ein Katalog mit dem Kundenwahrnehmung wie
z.B. Geräusche etc. codiert werden können.
9
Komponentenbezeichnungen wird auch Ersatzteilrumpfnummer
genannt. Es wird hier nicht wie bei Ersatzteilen in der Ausprägung für das jeweilige Modell unterschieden.
Zur praktischen Erprobung der Modelle wurde
eine prototypische Anwendungssoftware entwickelt, die es ermöglicht, die Diagnostikleistung
direkt am Fahrzeug zu erproben. Abb. 11 zeigt
einen Screenshot der Anwendungssoftware. Für
die Erprobung wurde unter anderem auch ein
80
AITUBS – Künstliche Intelligenz an der TU Braunschweig
Praxistest durchgeführt, in dem gezielt Fehler in
das Fahrzeug eingebaut und anschließend die durch
das Diagnostiksystem vorgeschlagenen Maßnahmen
evaluiert wurden. Tabelle 1 zeigt einige ausgewählte
Fälle aus der Praxiserprobung. Die in MÜLLER et
al. [2008] beschriebenen Verfahren zur automatischen Evaluierung benötigen für eine exakte Leistungsbestimmung auch eine eindeutige und fehlerfreie Datenbasis. Für die vorhandenen realen Daten
ist dies jedoch nicht der Fall. So ist die automatische Evaluierung zwar für die Entwicklung enorm
hilfreich, liefert jedoch keinen exakten Leistungswert.
Eingebauter
Verdächtigte Komponenten
Fehler
Relais für MotorMotorsteuergerät
98%
steuergerät
flashen
defekt
96% Relais für Motor-SG
77% Zentralelektrik
···
···
Leitungssatz im
Leitungssatz im
26%
Motorraum
Motorraum
19% Masseband Motor
Hauptlichtschal89% Hauptlichtschalter
ter defekt
···
···
Tabelle 1: Auswahl an Ergebnissen des Praxistests.
Um einen solchen dennoch zu ermitteln, wurde eine
manuelle Evaluierung mittels einer Stichprobe von
100 Referenzfällen durchgeführt.
Treffer an 1. Stelle
Treffer an 2. Stelle
Treffer an 3. Stelle
Treffer an 4. Stelle
oder darüber
Gesamt
Trefferquote
78%
6%
5%
5%
94%
Tabelle 2: Ergebnisse der manuellen Evaluierung
Dabei bedeutet ein Treffer an 1. Stelle, dass die 1.
vom Diagnostiksystem vorgeschlagene Reparaturmaßnahme zur Lösung des Problems geführt hätte
(vgl. auch Abb. 11). Die Differenz zur ermittelten
Evaluierungsquote in Abb. 11 entsteht durch die
geringere Fallzahl und damit höheren Streuung
der Ergebnisse der manuellen Evaluierung. Sie
zeigt jedoch auch, dass die Praxiserprobung und
automatisierte Evaluierung vergleichbare Ergebnisse erzielen und die Evaluierungsmethode damit
gut gewählt ist.
Bemerkenswert ist hierbei, dass die ermittelte Gesamt-Trefferquote von 94% bereits mit den heute
existierenden Daten erreicht wurde, die nicht die
für ein Lernsystem wünschenswerte Qualität besitzen. Durch Verbesserungen der Datenerfassung,
würde
die
Leistungsfähigkeit
des
Diagnostiksystems nochmals wesentlich gesteigert
werden.
10 Zusammenfassung
Die Tests zeigen, dass das vorgestellte Konstruktionsverfahren für komplexitätsreduzierte neuronale
Netze nicht nur theoretisch sondern auch praktisch gute Ergebnisse liefert. Werden die verwendeten Daten betrachtet, zeigt sich ferner, dass das
neuronale Modell selbst in unscharfen Daten automatisch Muster und Zusammenhänge erkennen,
die auch praktisch für die Diagnostik eingesetzt
werden können. Die Modelle eröffnen zusätzlich
eine Bandbreite an neuen Möglichkeiten, die Daten zu verstehen und z.B. für qualitätssteigernde
Maßnahmen einzusetzen.
Abb. 11: Screenshot der experimentellen Anwendungssoftware [WITTLING 2008]
Dabei wurde Fall für Fall verglichen, welche Reparaturmaßnahmen das Diagnostiksystem vorschlagen
würde, und welche Reparaturmaßnahmen davon
tatsächlich zur Lösung des Problems geführt hätten
oder aber den entscheidenden Hinweis zur Lösung
gegeben hätten. Tabelle 2 zeigt die Ergebnisse der
manuellen Evaluierung hinsichtlich der Trefferquote.
Darüber
hinaus
stellt
ein
lernendes
Diagnostiksystem eine hervorragende Ergänzung
zu den bisher eingesetzten Diagnostiksystemen
(z.B. GFS) dar. Es besitzt die entscheidenden
Vorteile in der automatischen Generierung und
Adaptierung von Diagnostikwissen. Jedoch müssen
für eine effiziente Integration in die bisherigen
Prozesse noch einige Schritte getan werden. Wünschenswert wäre z.B. die Verknüpfung der vorgeschlagenen Reparaturmaßnahmen mit speziellen
Fehlersuchprogrammen, wie sie die GFS verwendet. Ein leistungsfähiger Ansatz für die Generie-
TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen
81
rung von dynamischen Prüfabläufen wurde z.B. in
KRIEGER et al. [2007] vorgestellt.
Letztlich ermöglicht ein solches Diagnostiksystem,
dass auch in Zukunft immer komplexer werdende
Fahrzeuge mit zahlreicher werdenden Varianten
und verkürzten Entwicklungszyklen effizient instand gesetzt werden können.
Literatur
UNGER, U., LANGE, K., PETERS, D. & REUSS, H. C. (2005): Methode für eine gesamtheitliche Systembetrachtung zur funktionsorientierten Fehlererkennung und Diagnose in vernetzten
Kfz-Systemen. In: Elektronik im Kraftfahrzeug. Proceed., Baden-Baden, ISBN 3-18-091907-8
ABUOSBA, M. (2004): Fahrzeug-Diagnose mit System. Sonderdruck aus Wissensmanagement 8/30.
HACK, CHR., DRENKHAHN, G. & NICKLES, J. (2006): Vernetze
Funktionen beherrschen - Diagnoseanforderung zur Bewältigung der Komplexität vernetzter Fahrzeugsysteme. Automotive, Messen und Testen.
RUMPE, B. & SCHIFFERS, J. (2006): Herausforderungen an die
Diagnose - Integration der Diagnose in die Steuergeräteentwicklung. In: ZfAW. Zeitschrift für die gesamte Wertschöpfungskette Automobilwirtschaft: 65–69.
ISO 15031 (2006): Road vehicles - Communication between
vehicle and external equipment for emmissions-related
diagnostics. ISO 2006.
ISERMANN, R. (2006): Fault-Diagnosis Systems: An Introduction
from Fault Detection to Fault Tolerance. Springer Berlin/
Heidelberg.
BISHOP, CHR. M. (1995): Neural Networks for Pattern Recognition. Oxford University Press.
DUDA, R. O., HART, P. E. & STORK, D. G. (2000): Pattern
Classification. 2nd ed. Wiley-Interscience. ISBN 0471056693
DUDA, R. O. (2000): Classification. 2nd ed. Wiley-Interscience.
ISBN 0471056693
MÜLLER, T. C., LANGE, K., BREUER, A., KRIEGER, O. & FORM,
T. (2007): Automatische erfahrungsbasierte Diagnose aus
Felddaten mit neuronalen Netzen. In: Elektronik im Kraftfahrzeug. Baden-Baden. ISBN 978-3-18-09200
BORTH, M. (2004): Wissensgewinnung auf Bayes-Netz-Mengen,
Universität Ulm.
RIPLEY, B. D. (1996): Pattern Recognition and Neural Networks.
Cambridge University Press
RICE, J. A. (2006): Mathematical Statistics And Data Analysis.
Duxbury Press.
PRECHELT, L.: (1995) Konstruktive neuronale Lernverfahren auf
Parallelrechnern. Dissertation. Universität Karlsruhe.
STACKELBERG, B. (2003): Konstruktionsverfahren vorwärtsgerichteter neuronaler Netze. Dissertation. Universität Stuttgart.
VON
FISHER, R. A. (1954): Statistical Methods for research workers.
Oliver and Boyd.
WITTLING, D. (2008): Entwicklung und Optimierung von Anwendungs- und Validierungsmethoden für die Fehlerdiganose mit
neuronalen Netzen. Diplomarbeit. Institut für Regelungstechnik, Braunschweig, unveröffentlicht.
MÜLLER, T. C., KRIEGER, O. & FORM, T. (2008): Evaluierung
von Offboard-Diagnosesystemen am Beispiel eines erfahrungsbasierten Diagnoseverfahrens. In GÜHMANN, C. (2008,
Hrsg.): Simulation und Test in der Funktions und Softwareentwicklung für die Automobilelektronik, II. Expert Verlag.
ISBN 978-3-8169-2818-8
KRIEGER, O., BREUER, A., MÜLLER, T. C., FORM, T. & LANGE,
K. (2007): Wahrscheinlichkeitsbasierte Fahrzeugdiagnose auf
Basis individuell generierter Prüfabläufe. In: Mechatronik
2007 Innovative Produktentwicklung Maschinenbau, Elektrotechnik, Informationstechnik: 235–248. ISBN 978-3-18091971-3.
82
82-1
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
82-1
83
Notizen
83-1
83-1
84
84-1
AI TUBS – Künstliche Intelligenz an der TU Braunschweig
84-1
0753
0835
0752
0760
0836
0523
0524
Die kürzeste Distanz zwischen zwei Punkten
ist nicht der Weg zurück zum Stativ!
TRIMBLE S8 TOTAL STATION
“Zurück” und „noch einmal“ – die wohl unangenehmsten Worte bei
einem Projekt.
Trimble Vision Technologie reduziert nachweislich die Wege zurück zum
Stativ, denn Sie steuern mit VISION Technology die Totalstation über den
Bildschirm Ihrer Kontrolleinheit.
Jetzt sehen Sie, was das Instrument sieht – direkt auf Ihrer Kontrolleinheit.
Also kein „zurück“ zur Totalstation. Mit der nunmehr doppelten Reichweite
behalten Sie auch in kniffligen Situationen trockene Füße und können über
die Kontrolleinheit reflektorlos Punkte anzielen, erfassen und messen.
Die Möglichkeit Videoaufnahmen oder Bilder mit den gewonnenen
Vermessungsdaten zu kombinieren, bietet Ihnen eine exzellente
Dokumentation Ihrer Arbeit und die Gewissheit: Ich habe alle notwendigen
Daten und damit Kosten durch effizienteres Arbeiten reduziert.
Trimble VISION ist die neueste, einer langen Reihe von innovativen Techniken,
die wir erfunden haben, um Ihre Produktivität zu erhöhen – im Feld, im
Büro und wo immer sich Ihnen die nächste Herausforderung bietet.
© 2010, Trimble Navigation Limited. Alle Rechte vorbehalten. Trimble ist ein beim United States Patent and Trademark Office eingetragenes Warenzeichen von Trimble Navigation Limited.
Das Globus- & Dreieck-Logo ist ein Warenzeichen von Trimble Navigation Limited. Alle anderen Warenzeichen sind Eigentum der jeweiligen Inhaber. SUR-184
Trimble S8 Schloss A4 DE.indd 1
19.03.2010 11:08:56 Uhr
Mit der inmetris3D PartG haben Sie ein
innovatives Unternehmen an Ihrer Seite.
Die Kernkompetenz von inmetris3D liegt im
Bereich der Dokumentation mithilfe
terrestrischer 3D-Laserscannersysteme.
Bewährte Hardware und Softwaresysteme
stellen eine transparente, lückenlose und
schnelle Informationserfassung sicher.
Mit modernster Messausrüstung und
kompetenten, engagierten Mitarbeitern
garantieren wir hochwertige Ergebnisse.
Unserer Philosophie „Hochwertig – Effizient –
Wirtschaftlich“ folgend, konnten wir bereits
umfangreiche Projekte im In- und Ausland
realisieren.
• Erstellung von Scans mit einem leistungsstarken
Laserscanner
• Umfassende Dokumentation auch komplexer
Objekte
• Speicherung in einer 3D-Punktwolkendatenbank
• CAD-Bearbeitung
• Erstellung von Plänen als exakte
Planungsgrundlage
inmetris3D
• Erstellung von 3D-Modellen für die
verschiedensten Anwendungsfälle
Partnerschaftsgesellschaft
• Visualisierungen, Animationen
Markus Schäfer & Sven Thomsen
• Virtual Reality
Beratende Ingenieure
Rebenring 33
D-38106 Braunschweig
Telefon: +49 (0)531-3804180
Telefax: +49 (0)531-3804189
E-Mail: [email protected]
Web: www.inmetris3D.de
High-Engineering mit 3D-Laserscanning