trimble s8 total station - Technische Universität Braunschweig
Transcription
trimble s8 total station - Technische Universität Braunschweig
Theorie und Anwendung lernender Algorithmen in den Ingenieurs- und Naturwissenschaften an der TU Braunschweig MICHAEL HEINERT & BJÖRN RIEDEL (Herausgeber) Geodätische Schriftenreihe Nr. 25 Institut für Geodäsie und Photogrammetrie Technische Universität Carolo-Wilhelmina zu Braunschweig Dr.-Ing. Michael Heinert Dr.-Ing. Björn Riedel, Akad. OR Institut für Geodäsie und Photogrammetrie Gaußstraße 22 38106 Braunschweig 1. Auflage Druckerei Beyrich DigitalService GmbH & Co. KG Bültenweg 73 38106 Braunschweig ISBN-10 3-926146-20-6 ISBN-13 978-3-926146-20-5 Tagungsband anlässlich des Workshops zur Theorie und Anwendung lernender Algorithmen für Ingenieure und Naturwissenschaftler der TU Braunschweig (AI TUBS) Organisation der Veranstaltung Michael Heinert Christa Homann Wolfgang Schellin Björn Riedel Anja Heck Mit freundlicher Unterstützung durch Vorwort Vor etwa einem dreiviertel Jahr titelte ein namhaftes deutsches Wochenjournal in der Wissenschaftsrubrik: Tod den Tagungsbänden und man konnte ferner lesen: Tagungsbände sind - neben Festschriften - der größte Gräuel der Wissenschaftsliteratur. Zunächst einmal verderben sie die Atmosphäre bei der Tagung. Denn natürlich wird nun keiner mehr frei referieren wollen. Was machen wir? Wir legen einen Tagungsband für einen neuen Workshop auf: Mit Absicht und trotz der nicht völlig unberechtigten Kritik an den Tagungsbänden im Allgemeinen. Ja, die beteiligten Autoren – allesamt Angehörige verschiedener Fachbereiche unserer altehrwürdigen Technischen Universität Carolo-Wilhelmina zu Braunschweig – haben sich gemüht und sie haben den Stand ihres jeweiligen Forschungsprojektes, ihrer aktuellen Forschungsarbeit zu ihren Fragen, Problemen und Lösungsansätzen in der künstlichen Intelligenz hierin zu Papier gebracht. Denn heute haben in viele Arbeitsbereiche der Ingenieur- und Naturwissenschaften lernende Algorithmen, Expertensysteme sowie nicht- oder semiparametrische Modellbildungen Einzug gehalten. Die Anwendung dieser Algorithmen ist fast immer nur ein Nebenaspekt des jeweiligen Fachgebietes und einzelne Anwender oder auch kleine Arbeitsgruppen stehen mit ihren spezifischen Fragen und Problemen oft allein. Diese Veranstaltung – dokumentiert durch die in diesem Tagungsband befindlichen Beiträge – soll an unserer Universität eine Plattform bilden, um den interdisziplinären Austausch der Mitarbeiter über die Fakultätsgrenzen hinweg zu initiieren. Damit spiegelt dieser Tagungsband das Bemühen aller Teilnehmer um eine gemeinsame (deutsche) Sprache für die fachübergreifenden Lösungen ähnlicher Probleme. M. Heinert B. Riedel Braunschweig, den 15.06.2010 Inhalt NIEMEIER, W. & HEINERT, M. Anwendungen Künstlicher Intelligenz in der Geodäsie................................................................. 7 REICHEL, M. & BOTSCH, M. Bestimmung eines geeigneten Merkmalsraums mittels lernender Algorithmen............................. 11 FLETLING, R. Fuzzyclusterverfahren zur Datenanalyse....................................................................................... 13 BOLLMANN, S. Anwendung von Support Vector Machines in der Fahrzeugnavigation........................................ 23 JENTSCH, C. Hybride Bootstrapverfahren für Zeitreihendaten.......................................................................... 27 FIEBIG, S. Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteil..................................... 33 MEISEL, ST. Approximative Dynamische Programmierung für Vehicle Routing Probleme.............................. 38 POLACK, M., ZAGREBELSKY, M. & KORTE, M. Zelluläre Grundlagen von Lernvorgängen im Gehirn.................................................................... 39 HEINERT, M. Einblick in die Black Box neuronaler Netze................................................................................. 41 DEPPE, B. & KURRAT, M. Künstliche Intelligenz in der Energieversorgung – Anwendung und Grenzen –............................ 54 KRÜGER, TH., KUHN, A., AXMANN, J. & VÖRSMANN, P. Ein Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters.............. 61 MÜLLER, T.C. Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen............. 71 Anwendungen Künstlicher Intelligenz in der Geodäsie – Projekte und Trends – Wolfgang Niemeier∗ , Michael Heinert∗ ∗ Institut für Geodäsie und Photogrammetrie, Gaußstraße 22, 38106 Braunschweig Zusammenfassung the measurement process as well. On the other hand, geodesists are asked for giving more information about their results instead of only handing them out. To understand the measurement results, analysis techniques and modelling are needed. The latter is not to manage without the knowledge of other experts. Accordingly, the non-parametrical methods of artificial intelligence offer the possibility of own solutions. Within this presentation, a brief overview of successful projects and further suitable developments will be given. Seit etwas mehr als einem Jahrzehnt haben neue Ideen in die mathematischen Anwendungen der Geodäsie gehalten. Verstanden sich die Vermesser früherer Zeiten einzig als diejenigen, die Geometrien erfassen und anderen Fachdisziplinen diese Ergebnisse zur Verfügung stellten, so gewinnt die Bewertung und Beurteilung der Daten heute eine zunehmende Rolle. Einerseits ist diese Beurteilung notwendig, um die Ergebnisse an den zu beobachtenden Objekten besser verstehen zu können. Denn hiermit kann die Qualität der Messergebnisse maßgeblich gesteigert werden, weil die Sensoren zielgerichteter eingesetzt werden können. Andererseits ist der Geodät heute zunehmend gefordert, den beteiligten Fachleuten zusätzliche Informationen zu seinen Ergebnissen zu übergeben. Zur Beurteilung der Messergebnisse sind Analysen und Modelle erforderlich. Letztere benötigen aber oft detailliertes fremdes Fachwissen. Dieser Umstand lässt sich mit nichtparametrischen Modellbildungen der künstlichen Intelligenz umgehen. Hier soll ein kurzer Überlick über bereits erfolgreiche Anwendungen der künstlichen Intelligenz gegeben werden und auf zukünftige Anwendungsfelder hingewiesen werden. 1 Einleitung In der geodätischen Praxis bestehen typische Ergebnisse aus Strecken, Richtungen und Winkeln in der Natur, die den Genauigkeitsanforderungen entsprechend in ausgeglichene Koordinaten überführt werden müssen. Dabei kommt eine Vielzahl von Sensoren zum Einsatz: klassischerweise die Totalstation zur automatisierten Richtungsund Streckenmessung, aber erdgebunden auch Laserscanner und neuerdings auch terrestrische Radarinterferenztechniken. Daneben gibt es die große Bandbreite von flugzeug- und satellitengestützten Systemen: klassischerweise die BildflugPhotogrammetrie, später Satellitenaltimeter und Dopplersysteme, heutzutage natürlich diverse globale Navigationssatellitensysteme wie GPS und Glonass sowie zukünftig auch Galileo und Compass. Die Verschiedenheit dieser Systeme verlangt neben dem handwerklichen Können ein breites Wissen über atmosphärische Signalausbreitung, Bodenverhältnisse, Gründungsprobleme, Meeres- und Erdge- Summary Since more than decade, new ideas of mathematical adaptations are introduced into geodesy. While surveyors in ancient times were only focussed on the determination of the Earth’s geometry and to hand out their results to other experts, nowadays, the interpretion of the results becomes much more important. On one hand, the interpretion of the results helps to improve both the quality of the results directly and 7 8 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Eine neue Betrachtung in der Geodäsie ist, dass beispielsweise das zu beobachtende Bauwerk ein System ist [Heine 1999] und unsere Messergebnisse nicht mehr und nicht weniger als die Realisierung des Systemausgangs darstellen. Die Verformung geschieht nicht aus sich selbst heraus, sie ist vielmehr die Folge von Umwelteinflüssen und wirkenden Kräften. Zum Verständnis der Zeitreihen von Messergebnissen sind also Systembeschreibungen nötig. Diese bedingen wiederum die Erfassung eben jener Umwelteinflüsse und wirkenden Kräfte. Gelingt dieses und gelingt eine nachhaltige Beschreibung der Eingangs-/Ausgangsbeziehung, so können vertrauenswürdige Prädiktionen getroffen werden. Weicht nun eine Vorhersage eines bislang erfolgreichen Vorhersagemodells von der realen Messung ab, so ist das ein wichtiges Indiz für die Veränderung des Systems, welche die Geodäten den jeweils anderen Experten mitteilen können. System eingang x1(t ) ? unbekannt x2(t) bekannte SystemProzesse S ystem ausgang y1(t) y2(t) System xm( t) bek annt ... 2 Das Modell als Abbildung des Systems Parametrische Modelle ... zeiten und noch viele andere natürliche Phänome der Umwelt, in welcher diese Sensoren zum Einsatz kommen müssen. Die reine Erfassung der Geometrie spielt zunehmend eine nachgeordnete Rolle. Sie weicht der Frage nach der Änderung der Geometrie. Hier beginnt die Schwierigkeit: Objekte, die es zu beobachten gilt, wie Gebäude, rutschungsgefährdete Hänge oder tektonisch aktive Zonen der Erdoberfläche, benötigen zur Beurteilung der Resultate oft das spezifische Fachwissen beispielsweise eines Bauingenieurs, Geologen oder Geophysikers. Schon das Finden einer gemeinsamen Sprache zu der jeweiligen Nachbardisziplin ist eine Herausforderung. So führen die Begriffe wie Genauigkeit, Zuverlässigkeit oder Toleranz regelmäßig zu Misverständnissen. An eine Übernahme des jeweiligen notwendigen Fachwissens zur Modellierung der Daten, um nötigenfalls auch aus dem Datenbestand Vorhersagen über das beobachtete Objekt treffen zu können, ist kaum zu denken. Das kann nur im Einzelfall gelingen. Aus diesem Grunde sind nicht-parametrische Modelle auf der Grundlage künstlicher Intelligenz zur Zustandsbeschreibung und Vorhersage außerordentlich attraktiv. unbekannte SystemProzesse y m( t) bek annt ? unbekannt Nicht-parametrische Modelle -- - 0 + ++ Abb. 1: Modellbildung zum Zweck der Überwachung eines Systems: Es stehen parametrische und nichtparametrische Modelle zur Auswahl die entweder einzeln oder in Kombination zum Einsatz kommen können. 3 Anwendungsbeispiele Einige Überwachungen sind bereits erfolgreich mit Methoden der künstlichen Intelligenz unterstützt worden. Das Mittel der Wahl sind neuronale Netze, sowohl mehrschichtige feed-forward Netze als auch Netze mit radialen Basisfunktionen, aber FuzzyRegelsysteme und Support Vector Regressionen bieten für uns ein weites Anwendungsspektrum. 3.1 Brücke am Fallersleber Tor Im Zeitraum von 1999 bis 2009 wurde durch unser Institut die Brücke am Fallersleber Tor in Braunschweig dreimal täglich durch geodätische Messung zu 180 Punkten überwacht. Für diese Punkte wurde nach jeder Messung ihre Position im örtlichen Koordinatensystem errechnet, um lokale Veränderungen am Bauwerk nachweisen und bei deren Ausbleiben eine Grundlage für die Standsicherheitsbewertung des Bauwerkes erbringen zu können. Zur Bewertung dieser Bewegungen ist exemplarisch für einige Punkte ein neuronales Netz generiert worden, dass die Umwelteinflüsse (Temperatur, Luftdruck, Luftfeuchte) in kurzfristige Bewegungsanteile umsetzt. Die remantente Bauwerksbewegung ist hier als Trendfunktion geschätzt worden. Im Bereich weniger Millimeter konnten hiermit Vorhersagen über die jeweiligen Punktbewegungen getrof- Wolfgang Niemeier& Michael Heinert: Anwendungen Künstlicher Intelligenz in der Geodäsie 0,3 Bewegung [cm] 0,2 gemessen 9 modelliert 0,1 0 -0,1 -0,2 -0,3 2000 2001 2002 Trainingsintervall 2003 2004 Pradiktion Abb. 2: Exemplarische Modellierung der Brückenbewegung: Modellbewegungen resultierend aus dem Einfluss von Temperatur, Luftdruck und Luftfeuchte (rosa) ergänzen die Trendschätzung (braun). fen werden. Durch diese Untersuchung konnten wir das Messrauschen auf den verschiedenen Punkten am Bauwerk zum Großteil der Wettereinwirkung zuordnen und andererseits die Trendschätzung von Hebelwerten befreien [Miima 2002; Heinert & Niemeier 2007]. 3.2 Hangrutschung Baota Eine komplexere Fragestellung ist die Modellierung des Geschwindigkeitsfeldes einer Hangrutschung. Hier ist exemplarisch die SV-Regression an der Hangrutschung Baota im Einzugsgebiet des Dreischluchten-Staubeckens am Jangtsekiang nahe Yun Yang in China getestet worden (Abb. 3, links). Mit dem Aufstauen des Dreischluchten-Stausees hat sich der Wasserhaushalt im Hang bereits verändert und wird sich weiter verändern: Mehr Wasser wird in den verschiedenen Schichten zurückgestaut Abb. 3: Digitales Höhenmodell des Hanges Baota [Riedel & Heinert 2008] und das gewählte Untersuchungsgebiet (magenta) am Jangtsekiang (weiß) Abb. 4: Geschwindigkeitsfeld aus zwölf GPS-Stationen (weiße Punkte) im rutschungsgefährdeten Hang Boata am Drei-Schluchten-Stausee: geringe bis schwach negative Bewegung (blau–dunkelblau) bis zu einer maximalen gemessenen Bewegung von 25 mm/a (rot). werden und den Hang zunehmend und nachhaltig destabilisieren. Die Ausgangshypothese ist, dass das Geschwindigkeitsfeld auf dem Hang mit der Topographie, dem Wasserhaushalt und der Oberflächenbeschaffenheit des Hanges korreliert sein wird. Als Eingangsdaten für diese Untersuchung standen aus ASTER-Satellitenmissionen eine Vielzahl von Informationen zur Verfügung. Für das Gebiet stehen in einem etwa 50 m×50 m Raster Eingangsinformationen bereit. Zum einen sind Topografie, Hangneigungen und verschiedene Geländekrümmungen bekannt. An zwölf Punkten in der rutschungsgefährdeten Zone sind GPS-Messungen durchgeführt worden (Abb. 4, weiße Punkte). Daraus lassen sich über einen Epochenvergleich die Geschwindigkeiten an diesen diskreten Punkten errechnen. Aus der SV-Modellierung hat sich ein durchaus plausibles Geschwindigkeitsfeld für den Hang ergeben. Die höchsten Geschwindigkeiten treten unterhalb der Abrisszone auf (Abb. 4, rot – gelb). Die Gebiete der höchsten Geschwindigkeit sind stark zergliedert. Sie zeigen an, dass es verschiedene kleine Einzelabbrüche, Blöcke und Schollen gibt, was den tatsächlichen örtlichen Gegebenheiten durchaus entspricht [Riedel & Heinert 2008]. 10 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 4 Zukünftige Anwendungen Eine breites Feld zur Modellierung bieten die sogenannten Geschwindigkeitsfelder, also die flächenhafte Information über Bewegungen. Es gibt aber in aller Regel keine flächenhaften geometrischen Informationen. Hier können insbesondere RBF-Netze nützliche Dienste zur Interpolation leisten. Denn als weitere Eingangsdaten stehen beispielsweise die Topographie – wo schon ein Berg ist, ist auch Hebung, sonst wäre er der Erosion schon zu Opfer gefallen – aber auch Informationen zu Salzlagerstätten als Ursache für Salztektonik, Bodenarten, tektonische Bruchkanten und vieles mehr flächenhaft zur Verfügung, um den Lernprozess zu stützen. Ein neues Feld kann die Immobilienwertermittlung im Vergleichswertverfahren sein. Diese geschieht in Niedersachsen derzeit noch auf der Basis der multiplen Regression. Es gibt hierfür in der Zukunft aber durchaus ein großes Potenzial zum Einsatz der Support Vector Machines. Literatur Heine, K. (1999): Beschreibung von Deformationsprozessen durch Volterra- und Fuzzy-Modelle sowie Neuronale Netze. Dissertation. Deut. Geod. Kommission Reihe C 516, München. Heinert, M. & Niemeier, W. (2007): From fully automated observations to a neural network model inference: The Bridge Fallersleben Gateïn Brunswick, Germany, 1999 – 2006. J. Appl. Geodesy 1: 71–80. Miima, J. B. (2002): Artificial Neural Networks and Fuzzy Logic Techniques for the Reconstruction of Structural Deformations. Dissertation. Geod. Schriftenr. Techn. Univ. Braunschweig 18. Riedel, B. & Heinert, M. (2008): An adapted support vector machine for velocity field interpolation at Baota landslide. In: Reiterer, A. & Egly, U.: Application of Artificial Intelligence in Engineering Geodesy. Vienna: 101–116. ISBN 3-9501492-4-1. Bestimmung eines geeigneten Merkmalsraums mittels lernender Algorithmen Michael Reichel∗ & Michael Botsch† ∗ Institut für Regelungstechnik (IfR) † AUDI AG, Ingolstadt Zusammenfassung onssystems auf neuen Daten zu bestimmen. Zweitens braucht man einen Klassifikations- oder Regressionsalgorithmus, der selbst in hohen Dimensionen gut generalisiert. Drittens muss ein sequentielles Verfahren angewendet werden, bei dem die Relevanz eines Merkmals – auch im Zusammenspiel mit anderen Merkmalen – quantifiziert wird. Die Merkmale, die ein Klassifikations- oder Regressionsalgorithmus, im Folgenden mit f bezeichnet, als Eingang verwendet, werden in der Zufallsvariablen x zusammengefasst. Der Ausgang wird mit der Zufallsvariablen y bezeichnet, wobei bei Klassifikationsaufgaben der Wertebereich von y eine endliche Menge von Klassen ist und bei Regressionsaufgaben die reellen Zahlen. Damit lässt sich die Performance des Algorithmus f in dem Risikofunktional R(f ) darstellen: R(f ) = E {x, y} L(f (x, y), wobei E {x, y} den Erwartungswert bezüglich der Zufallsvariablen x und y und L die sogenannte LossFunktion oder Straffunktion bezeichnen. Um die erste Säule der Merkmalsselektion zu realisieren, ist also ein Verfahren notwendig, dass R(f ) beruhend auf einer begrenzten Anzahl an Beispielen (xm , ym ) schätzt. Die am häufigsten verwendete Methode zur Schätzung von R(f ) ist das sogenannte Kreuzvalidierungsverfahren. Hier wird ein andere Methode, das sogenannte Bootstrap-Verfahren verwendet, da es sich im Zusammenhang mit der Realisierung des Algorithmus f als Ensemble Verfahren als besonders geeignet erweist. Die zweite Säule zur Umsetzung der Merkmalsselektion ist die Wahl eines Algorithmus der selbst in hohen Dimensionen gut verallgemeinert. Ensemble Verfahren eignen sich hier besonders gut. Ein geeigneter Zugang um dieses Sachverhalt zu beleuchten, ist die sogenannte Bias-Variance Zerlegung des Die Güte von lernenden Algorithmen, die zum Lösen von Klassifikations- oder Regressionsaufgaben verwendet werden, hängt maßgeblich von dem verwendeten Merkmalsraum ab. Es ist zum Beispiel möglich, dass in einem geeigneten Merkmalsraum eine Aufgabe mit einem einfachen Entscheidungsbaum zu lösen ist, während in einem ungünstig gewählten Merkmalsraum komplexere Lernalgorithmen wie Support Vector Maschinen, neuronale Netze, etc. die Aufgabe nicht mit gewünschter Güte lösen können. Das Finden eines geeigneten Merkmalsraums ist eine problemspezifische Aufgabe und aus diesem Grund stark an Expertenwissen gebunden. Unabhängig davon, ob für eine Aufgabe viel oder wenig Expertenwissen vorhanden ist, stellt sich jedoch immer die Frage, welche der möglichen Merkmale zum Lösen des vorliegenden Problems relevant sind. Dieser Frage wird in diesem Beitrag nachgegangen und eine Methode vorgestellt, wie die Relevanz der einzelnen Merkmale quantifiziert werden kann. Abhängig von der ermittelten Relevanz können Merkmale entfernt und damit die Dimensionalitat des Merkmalsraums verkleinert werden. Diese im Folgenden als Merkmalsselektion bezeichnete Reduzierung führt im Allgemeinen zu einer besseren Performance, da die Auswirkungen des „curse of dimensionality“ verringert werden. Im Vortrag wird die Merkmalsselektion zunächst theoretisch beleuchtet, um in Anschluss anhand eines Praxisbeispiels auf die Prozesskette und die gewonnenen Erfahrungen einzugehen. Die grundlegende Idee der hier vorgestellten Merkmalsselektion beruht auf drei Saulen. Erstens muss es möglich sein, einen guten Schätzwert der Performance des Klassifikations- oder Regressi- 11 12 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Risikofunktionals R(f ). Das Ensemble Verfahren das hier vorgestellt wird, ist der Random Forest Algorithmus, ein Ensemble von „voll ausgewachsenen“ Entscheidungsbaumen. Die letzte Säule in der Merkmalsselektion ist das selektive Verfahren zur Quantifizierung der Wichtigkeit der einzelnen Merkmale. Folgende Vorgehensweise wird hier angewendet: in einem ersten Schritt wird das Risikofunktional R(f ) geschätzt, man erhält den Wert R′ f (f ). Anschließend wird in allen zur Verfügung stehenden Beispielen xm die Information aus dem i-ten Merkmal, das ist der i-te Eintrag in den Vektoren xm , entfernt. Damit wird erneut mittels dem Algorithmus f das Risikofunktional geschätzt und man erhält den Wert R′ fi (f ). Die Differenz ∆i = R′ fi (f ) − R′ f (f ) ist ein Maß für die Wichtigkeit des i-ten Merkmals. Je größer ∆i umso wichtiger ist das Merkmal. Die Ergebnisse des an dieser Stelle präsentierten Beispiels entstanden im Rahmen der Forschung an Fahrerassistenzsystemen am Institut fur Regelungstechnik in Zusammenarbeit mit der AUDI AG in Ingolstadt. Es handelt sich dabei um die Aufgabe einer Klassifikation, die zum Ziel hat, eine Einfädelsituation im Stau aus Sicht des eigenen Fahrzeuges zu detektieren. Mit diesem Wissen ist es einem intelligenten Geschwindigkeitsregler (Adaptive Cruise Control ACC) möglich, das Reißverschlussverfahren in seinem Verhalten zu berücksichtigen. Anhand des Praxisbeispiels soll kurz die Prozesskette der gesamten Merkmalsselektion aufgezeigt werden. Hierzu gehören neben der im theoretischen Teil beschriebenen automatisierten Merkmalsselektion die initiale Merkmalsfindung sowie die Merkmalsbewertung durch einen Experten. Im Anschluss wird auf die im Theorieteil aufgestellten drei Säulen der Merkmalsselektion eingegangen. Als Grundlage der Ermittlung der Klassifikatorgüte werden verschiedene LossFunktionen vorgestellt, die im Umfeld der Fahrerassistenzsysteme sinnvoll sind und auch als Anregung für artfremde Themenfelder dienen sollen. Anhand dessen wird die Güte des Ensemble Verfahren Random Forrest gegen weitere, einfache Verfahren sowohl auf Test- als auch Trainingsdaten evaluiert. Anschließend wird auf die Auswirkungen von Over- und Downsampling Strategien eingegangen, da diese die Klassifikatorgüte und damit die Merkmalsselektion ebenfalls beeinflussen. Die Ergebnisse der automatisierten Selektion und die gemachten Erfahrungen bilden den Abschluss des Vortrages. Fuzzy-Clusterverfahren zur Datenanalyse Rainer Fletling Institut für Geodäsie und Photogrammetrie, Gaußstraße 22, 38106 Braunschweig Zusammenfassung ticular importance for the issue of interest are called features. From the mathematical viewpoint, these features span a feature space, in which actual classification takes place. The similarity of the objects is thus crucial for their class membership and has to be computed by a suitable distance function. Since most features are real-valued (or can be transformed into such), the Eucleadian metric is normaly used. Clusterverfahren sind automatische Klassifizierungsverfahren, die Objekte aufgrund formaler Ähnlichkeitskriterien in Klassen (sog. Cluster) zusammenfassen. Die Objekte werden dazu durch für die Aufgabenstellung besonders interessierende Eigenschaften (die sog. Merkmale) repräsentiert. Mathematisch gesehen, spannen diese p Merkmale einen p-dimensionalen Merkmalsraum auf und durch eine zu wählende Distanzfunktion, in der Regel die euklidische Distanz, wird die Ähnlichkeit der Objekte im Merkmalsraum bestimmt. „Hard“ clustering methods assign an object to exactly one particular class. However, such a strict classification is not appropriate in many cases. Consider, for instance, a situation in which only uncertain or imprecise knowledge about the objects is available. Also, objects that are located in the immediate surroundings of a class boundary can often be assigned similarly well to both classes on either side of the boundary. Fuzzy clustering methods assign an object not to exactly one cluster but compute gradual degree of membership values for each class. Objects whose features exhibit a high similarity with the features of a particular cluster centre yield a high degree of membership for this cluster, while objects with a low similarity correspondingly are assigned a low value. If c clusters are present at the end of the clustering process, the clustering result for every object will be a vector of c degrees of membership, as opposed to a unique assignment. Die überwiegend verwendeten Clusterverfahren ordnen ein Objekt eindeutig einem oder manchmal auch mehreren Clustern zu. Das heißt, das Objekt gehört oder gehört nicht zu einem Cluster. Solch eine scharfe Zuordnung ist aber oftmals aufgrund ungenauem oder unsicherem Wissen über das Objekt nicht sachgerecht. Ein Objekt welches dicht an einer Clustergrenze liegt, könnte oftmals genauso gut dem einen, wie auch dem anderen Cluster zugeordnet werden. Zur Lösung dieses Problems bieten sich die FuzzyClusterverfahren an, die graduelle Zugehörigkeiten der Objekte in der Regel zu allen Clustern berechnen. Im Gegensatz zu den scharfen Clusterverfahren gehört hier jedes Objekt zu jedem Cluster, allerdings mit unterschiedlich hohen Zugehörigkeitswerten. Summary 1 Prozess der Datenalayse Clustering methods belong to the group of classification methods. Such methods classify data into homogeneous groups or classes by using formal criteria and procedures. Here, data within a particular class should be as similar as possible with respect to the issue of interest, while data in different classes should be distinct from each other. Objects (represented by data) to be classified usually possesses a number of distinct properties. Those properties that are of par- In vielen Bereichen der Datenanalyse ist der in der Abbildung 1 dargestellte Prozess zur Vorbereitung effizienter Entscheidungen gängige Praxis. Dabei geht es zum Einen darum, in großen Datenmengen (unbekannte) Strukturen zu finden und damit deren Komplexität zu reduzieren oder zum Anderen Daten bekannten Strukturen auf Grund von Erfahrungswissen zuzuordnen [Zimmermann 1993]. 13 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 14 Wenn p die Anzahl der für die Betrachtung eines Objektes ausgewählten Merkmale ist, dann spannen mathematisch gesehen diese Merkmale einen p-dimensionalen Merkmalsraum auf, der als p-dimensionaler euklidischer Raum verstanden werden kann. Ein Objekt lässt sich durch die Lage in diesem Merkmalsraum beschreiben (siehe Abb. 2). Problemanalyse Merkmalsauswahl Merkmal x2 Klassenbildung 5 7 6 10 3 9 Klassifizierung 11 2 Abb. 1: Prozess der Datenanalyse. [Zimmermann 1993] Die zu analysierenden physikalischen Objekte oder Vorgänge besitzen üblicherweise eine ganze Reihe von Eigenschaften. Zur Untersuchung eines interessierenden Sachverhalts sind einige dieser Eigenschaften besonders typisch und diese typischen Eigenschaften nennt man Merkmale. Diese sind entweder direkt mit Hilfe von Sensoren beobachtet oder aus der Beobachtung anderer Größen abgeleitet worden. Zur weiteren Datenanalyse fasst man sie in einer Merkmals- oder Datenmatrix X zusammen [Bock 1974]. x1,1 · · · .. .. X = . . (p,n) xp,1 · · · : : 8 Merkmal x1 Abb. 2: Objekte in einem zweidimensionalen Merkmalsraum. 1.1 Merkmale n p 4 1 x1,n .. . xp,n (1) Anzahl der Objekte Anzahl der Merkmale Ein ausgewähltes Objekt i wird durch den Spaltenvektor: x1,i xi = ... xp,i Die Auswahl der richtigen Merkmale zur Untersuchung des interessierenden Sachverhaltes ist ein sehr wichtiger und oftmals auch komplizierter Abschnitt innerhalb des Gesamtprozesses der Datenanalyse. Eine falsche Merkmalsauswahl kann unter Umständen zu völlig falschen Analyseergebnissen führen. Um bestimmte Strukturen der Daten im Merkmalsraum zu erkennen, sind oftmals bestimmte Vorbehandlungen notwendig. Das können zum Beispiel Korrektionen und Reduktionen an den Originalmesswerten sein, es können Mittelbildungen und Transformationen oder auch Berechnungen abgeleiteter Größen stattfinden. Weiterhin können hier auch noch Schwellwertoperationen, Normierungen oder Abbildungen in einen gewünschten Wertebereich durchgeführt werden. Oft ergeben sich diese Vorbehandlungen aus dem Kontext der Aufgabenstellung. Als Anwender sollte man sich aber immer über die Sinnhaftigkeit und über die praktische Interpretierbarkeit der Ergebnisse Gedanken machen [Bandemer 1997]. 1.2 Klassifikation (2) beschrieben. Die Ausprägungen des Merkmals j für alle Objekte sind in der j-ten Zeile von X enthalten. Die Klassifikation bezeichnet einen Vorgang oder eine Methode zur Einteilung von Objekten in Klassen. Eine Klasse bildet dabei eine Menge von Objekten, die möglichst ähnliche oder gleiche Ausprägungen ihrer Merkmale aufweisen. Objekte ver- Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse schiedener Klassen sollten möglichst unterschiedliche Ausprägungen ihrer Merkmale haben. Unter dem Begriff Klassifikation versteht man nach Bock [1974] sowohl das Einordnen eines Objektes in eine bereits bestehende Klassenstruktur als auch den strukturbildenden Prozess der Entdeckung und Lokalisierung von Klassen. Die Parameter der Klassengebiete (Klassenzentren und Klassengrenzen) können je nach Anwendungsfall unterschiedlich bestimmt oder vorgegeben werden: 1. Liegen gänzlich unbekannte Strukturen vor, können die Parameter im Klassifizierungsprozess automatisch als Unbekannte mit geschätzt werden. 2. Liegen wiederkehrende Klassifizierungsaufgaben vergleichbarer Aufgabenstellungen vor, werden die Parameter in der Regel anhand einer repräsentativen Stichprobe von Daten vorab geschätzt. Man spricht hier auch von „Lernen“ oder „Training“ [Duda et al. 2000] des Klassifikators. Im späteren Klassifizierungsprozess werden diese Parameter dann konstant gehalten. 3. Gibt es bereits zu Beginn der Klassifikationsaufgabe Expertenwissen über die Lage und Form der zu erwartenden Klassen, so können die Parameter auch direkt vorgegeben werden. Ist unter 2. die Struktur der Stichprobe bekannt und wird der Klassifikator in einem iterativen Prozess angelernt, bei dem die Ergebnisse mit den bekannten Strukturen der Stichprobe verglichen werden, so spricht man von „supervised learning“. Im anderen Fall spricht man von „unsupervised learning“ [Duda et al. 2000]. Eine Klassifikation kann: a) durch eine Expertenvorgabe oder b) durch ein automatisches Klassenbildungsverfahren erfolgen. Bei der Klassifikation durch eine Expertenvorgabe erfolgt die gesamte Klassifizierung in der Regel anhand von inhaltlichen Kriterien. Es entstehen so genannte semantische Klassen, das heißt, dass die Objekte nach ihrem Sinn oder ihrer Bedeutung zusammengefasst werden. Diese Klassen sind direkt fachkundig interpretierbar. Zu dieser Kategorie zählen 15 auch die Verfahren, bei denen die Klassifizierung anhand einer Regel- oder Wissensbasis erfolgt, in der ein Expertenwissen abgelegt ist. Man spricht hier auch von „Expertensystemen“ [Zimmermann 1993]. Bei den automatischen Klassenbildungsverfahren1 erfolgt die Klassifizierung dagegen aufgrund formaler Ähnlichkeitskriterien. Es entstehen sogenannte natürliche Klassen, die nicht immer fachkundig interpretierbar sind und oftmals auch erst zur Hypothesenbildung genutzt werden. Die automatischen Klassenbildungsverfahren werden auch als Clusterverfahren, die dabei entstehenden Klassen als Cluster bezeichnet. Diese Cluster repräsentieren idealerweise relativ dichte Punktwolken von Objekten im p-dimensionalen Merkmalsraum, die durch Regionen mit einer geringeren Dichte voneinander getrennt sind. Sind diese Grundvoraussetzungen nicht erfüllt, macht es wenig Sinn, eine Clusterung durchzuführen [Bacher 1996]. Wie bereits erwähnt, sollen Objekte innerhalb einer Klasse möglichst ähnlich und in unterschiedlichen Klassen möglichst verschieden sein. Die Ähnlichkeit ist also ausschlaggebend für die Klasseneinteilung. Sie wird bei metrischen Merkmalen oft über eine zu wählende Distanzfunktion di,k im p-dimensionalen Merkmalsraum berechnet. Je kleiner die Distanzen der Merkmale, umso ähnlicher sind die Objekte. Aufgrund der guten geometrischen Anschaulichkeit findet in der Praxis überwiegend die Euklidische Distanz Verwendung. Die Anzahl der in der Literatur veröffentlichten Algorithmen zur Clusterung von Daten ist nahezu unüberschaubar [Jain et al. 2004]. Die größte Bedeutung haben die Gruppen der hierarchischen und der partitionierenden Verfahren. Der Name „Hierarchische Verfahren“ kommt dadurch zustande, dass bei diesen Verfahren Folgen von Clustern auf unterschiedlichen Distanz- oder Ähnlichkeitsebenen gebildet werden, die anschaulich in einer Hierarchie darstellbar sind. Es werden fortgesetzt durch Vergrößerung oder Verkleinerung des Distanzniveaus bereits bestehende Cluster fusioniert oder zerlegt. Der Prozess der Klassenbildung kann dabei nach zwei unterschiedlichen Konstruktionsprinzipien erfolgen: 1 Der Begriff „automatische Klassenbildungsverfahren“ schließt nicht aus, dass einige Parameter dieser Verfahren im Einzelfall auch durch Expertenvorgabe festgesetzt werden können. 16 AI TUBS – Künstliche Intelligenz an der TU Braunschweig a) Agglomeratives Verfahren: Jedes Objekt xi stellt zunächst ein eigenes Cluster dar. Diese Cluster werden anschließend durch schrittweise Vergrößerung des Distanzniveaus so lange miteinander fusioniert, bis eine vorgegebene Grenzdistanz zwischen zwei benachbarten Clustern überschritten wird. m b) Divisives Verfahren: Hierbei bilden alle Objekte x1 . . . xn zunächst ein gemeinsames Cluster, welches anschließend durch schrittweise Verkleinerung des Distanzniveaus so lange zerlegt wird, bis die maximale Distanz von zwei Objekten innerhalb eines Clusters kleiner ist als eine vorgegebene Grenzdistanz. 0 Bei den partitionierenden Verfahren werden eine feste Clusteranzahl und eine genäherte Zuordnung der Objekte zu den Clustern vorgegeben. Ausgehend von dieser Startpartition wird durch schrittweises Umgruppieren der Objekte von einem Cluster zu einem anderen versucht, ein vorzugebendes Gütemaß oder eine Zielfunktion zu optimieren. In einigen Literaturquellen (zum Beispiel [Bock 1974]) werden diese Verfahren deshalb auch als „Iterative Verfahren“ bezeichnet. 2 Fuzzy-Clusterung Nach der klassischen Cantorschen Mengentheorie ist eindeutig entscheidbar, ob ein Objekt zu einer Menge gehört oder nicht. Es gibt nur die zwei Zugehörigkeitswerte: es gehört zu einer Menge oder es gehört nicht zu einer Menge. Dagegen können nach der von [Zadeh 1965] eingeführten Fuzzy Theorie Objekte auch graduelle Zugehörigkeiten zu einer oder zu mehreren Mengen haben. Der Übergang von Zugehörigkeit zu Nichtzugehörigkeit findet dabei nicht abrupt statt, sondern in einem allmählichen Übergang (siehe Abbildung 3). Man spricht bei einer Zuordnung nach der Cantorschen Mengentheorie auch von einer scharfen Zuordnung und bei der Fuzzy Theorie von einer unscharfen. Die bisher beschriebenen (scharfen) Clusterverfahren ordnen ein Objekt entsprechend der Cantorschen Mengenlehre genau einem bestimmten Cluster zu. So eine strenge Zuordnung ist aber aus verschiedenen Gründen in vielen Fällen nicht sachgerecht, da z.B. nur unscharfes und/oder unsicheres Wissen über das Objekt vorliegt. Man denke nur an Objekte, die in direkter Nähe einer Clustergrenze liegen. Diese Objekte könnten oftmals genauso scharf 1 unscharf M x Abb. 3: Scharfe und unscharfe Zugehörigkeitsfunktionen zu einer Menge M. gut dem einen wie auch dem anderen Cluster zugeordnet werden. Die unscharfen (fuzzy) Clusterverfahren ordnen dagegen ein Objekt nicht genau einem Cluster zu, sondern es werden für jedes Objekt Zugehörigkeitswerte zu jedem Cluster berechnet. Der Zugehörigkeitswert wird in der Literatur mit dem griechischen Buchstaben µ bezeichnet. Objekte, deren Merkmale eine große Ähnlichkeit mit den Merkmalen eines Clusterzentrums aufweisen, bekommen einen relativ hohen Zugehörigkeitswert zu diesem Cluster, Objekte deren Merkmale eine geringere Ähnlichkeit aufweisen, bekommen einen relativ niedrigen Zugehörigkeitswert. Das Ergebnis der Clusterung ist für jedes Objekt keine eindeutige Zuordnung, sondern bei c Clustern ein Vektor von c Zugehörigkeitswerten. Bei mehreren zu klassifizierenden Objekten erhält man eine Zugehörigkeitsmatrix wie sie beispielhaft in der Tabelle 1 zu sehen ist. Die Abbildung 4 zeigt beispielhaft die Zugehörigkeitsfunktionen von drei unscharfen Clustern über einem zweidimensionalen Merkmalsraum. x1 x2 x3 x4 x5 x6 C1 C2 C3 C4 0,1 0,3 0,1 0,2 0,1 0,1 0,7 0,2 0,4 0,6 0,1 0,2 0,1 0,1 0,4 0,1 0,2 0,4 0,1 0,4 0,1 0,1 0,6 0,3 Tab. 1: Beispiel einer Zugehörigkeitsmatrix von 6 Objekten zu 4 Clustern. Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse 17 Teilen jedem Cluster zugeordnet. In der Praxis wird in der Regel der Wert w = 2 gewählt [Tilli 1993]. m Für die Berechnung der Distanz di,k verwendet man üblicherweise die Euklidische Distanz. Die Anzahl der Cluster ist vorzugeben. Zur Bestimmung einer „optimalen“ Anzahl können bei niedrigdimensionalen Merkmalsräumen (≤ 3 Dimensionen) Visualisierungshilfsmittel nützlich sein, bei höheren Dimensionen werden Lösungen mit unterschiedlichen Clusteranzahlen berechnet, die anschließend nach verschiedenen Kriterien bewertet werden können. Hinweise hierzu sind in Höppner et al. [1997] zu finden. Mer kma l1 M l2 ma k r e Abb. 4: Die Zugehörigkeitsfunktionen von drei unscharfen Clustern über einem zweidimensionalen Merkmalsraum [Burmeister 1997]. 2.1 Der Fuzzy-c-Means Algorithmus Der Fuzzy-c-Means (FCM) Algorithmus [Bezdek 1973] ist sicherlich der am weitesten verbreitete Algorithmus zur unscharfen Clusterung von Objekten. In praktisch jeder Literaturquelle zu diesem Thema wird er vorgestellt. In vielen Quellen sogar als der einzige Vertreter. Er hat sich in der Praxis bei einer Vielzahl von Aufgabenstellungen als ein sehr robustes und stabiles Clusterungsverfahren bewährt [Timm 2002]. Beim Fuzzy-c-Means wird eine Zielfunktion JF CM unter Vorgabe einer Clusteranzahl und∑unter Beachtung der beiden Nebenbedingungen ci=1 µi,k = 1 und µi,k ∈ [0, 1] minimiert: JF CM = n ∑ c ∑ 2 (µi,k )w · di,k (ν i , xk ) (3) k=1 i=1 w di,k νi xk : : : : Grad der Unschärfe („Fuzzyfier“) (Euklidische) Distanz Schwerpunkt des i-ten Clusters k-tes Objekt Der „Fuzzyfier“ w ∈ [1, ∞[ bestimmt den Grad der Unschärfe des Clusterbildungsprozesses. Je größer w ist, desto unschärfer fallen die Ergebnisse aus. Für w → 1 ergibt sich eine scharfe Clustereinteilung und für w → ∞ wird jedes Objekt zu gleichen Eine direkte analytische Lösung des Minimierungsproblems für die Zielfunktion gibt es nicht. Sie erfolgt daher in einem iterativen Prozess, in dem abwechselnd die Zugehörigkeitswerte µi,k und die Klassenschwerpunkte ν i optimiert werden. Ablauf des Fuzzy-c-Means Algorithmus: 1. Schritt: Ausgehend von Näherungswerten für die Clusterschwerpunkte werden zunächst die Zugehörigkeitswerte µi,k der einzelnen Objekte zu den Clusterschwerpunkten νi berechnet. µi,k = ∑c j=1 ( 1 d2i,k (ν i ,xk ) d2j,k (ν j ,xk ) ) 1 w−1 (4) ∀ i = 1, . . . , c ; ∀ k = 1, . . . , n 2. Schritt: Aus den aktuellen Zugehörigkeitwerten µi,k werden neue Clusterschwerpunkte ν neu berechnet. i ν neu i ∑n w k=1 (µi,k ) · xk = ∑ n w k=1 (µi,k ) (5) ∀ i = 1, . . . , c Die Gleichung (5) ist eine gewichtete Mittelbildung der n Objekte xk . Die Zugehörigkeitswerte fungieren hier als Gewichte. Dadurch wird bewirkt, dass Objekte mit AI TUBS – Künstliche Intelligenz an der TU Braunschweig 18 hohen Zugehörigkeitswerten zu dem entsprechenden unscharfen Cluster einen größeren Einfluss auf die Lage des zugehörigen Schwerpunktes haben als solche mit niedrigen Zugehörigkeitswerten. 3. Schritt: Es wird geprüft, ob die Summe der komponentenweisen Distanzen zweier aufeinander folgender Clusterschwerpunktsmatrizen N kleiner ist als eine Konvergenzschwelle ϵ. Falls ∥N neu − N ∥ > ϵ, setze N = N neu und fahre fort mit Schritt 1. Andernfalls beende die Iteration. Für den Fall, dass ein Objekt mit einem Clusterschwerpunkt identisch ist, ergibt sich eine entartete Lösung. In diesem Fall wird das Objekt dem entsprechenden Cluster scharf zugewiesen. Es ist bewiesen, dass die Iterationsfolge des Algorithmus konvergiert. Es ist aber nicht bewiesen, dass das globale Minimum gefunden wird. Abhängig von den Näherungswerten können eventuell nur lokale Minima gefunden werden. Daher kann es sinnvoll sein, den Algorithmus mit unterschiedlichen Initialisierungen auszuführen und die Ergebnisse zu bewerten. Der größte Nachteil dieses Algorithmus ist, dass er unabhängig von der tatsächlichen Verteilung der Objekte im Merkmalsraum, bei Verwendung des euklidischen Abstandes hyperkugelförmige Cluster bildet, die alle die gleiche Größe haben. „Die Grenzen seiner Leistungsfähigkeit erreicht der Fuzzy-c-Means bei Clustern unterschiedlicher Form, Größe und Dichte.“ [Höppner et al. 1997] Um den Nachteil des Fuzzy-c-Means Algorithmus bezüglich der Bildung von hyperkugelförmigen Clustern auszugleichen, wurden im Laufe der Zeit Modifikationen entwickelt. Als Beispiele werden der Gustafson-Kessel Algorithmus und der GathGeva Algorithmus vorgestellt. Der iterative Berechnungsablauf in dem abwechselnd die Zugehörigkeitswerte µi,k und die Klassenschwerpunkte ν i optimiert werden, wird bei beiden Algorithmen beibehalten. Es werden allerdings gegenüber dem Fuzzy-c-Means Algorithmus andere Distanzfunktionen verwendet. 2.2 Der Gustafson-Kessel Algorithmus Durch die Verwendung einer modifizierten Mahalanobisdistanz bildet der Gustafson-Kessel Algorithmus [Gustafson und Kessel 1979] hyperellipsoidische Cluster gleicher Größe im Merkmalsraum. Während beim Fuzzy-c-Means Algorithmus der Schwerpunkt ν i als Prototyp des jeweiligen Clusters i angesehen werden kann, gehört bei Verwendung des Gustafson-Kessel Algorithmus die Angabe der von Gustafson und Kessel Fuzzy-Kovarianzmatrix genannten Matrix Cov i nach Gleichung (7) mit dazu. Der Schwerpunkt beschreibt dabei die Lage im Merkmalsraum und die Fuzzy-Kovarianzmatrix die Form des Clusters. Analog zu dem Fuzzy-c-Means Algorithmus wird angenommen, dass alle Cluster die gleiche Größe haben. Das erreicht man dadurch, dass man die Determinante der FuzzyKovarianzmatrizen für alle Cluster gleich setzt. Üblicherweise wird det(Cov i ) = 1 gewählt [Timm 2002]. Die modifizierte Mahalanobisdistanz sieht beim Gustafson-Kessel Algorithmus daher wie folgt aus: √ di,k = det(Cov i ) c (xk − ν i )T Cov −1 i (xk − ν i ) (6) 1 Ablauf des Gustafson-Kessel Algorithmus: 1. Schritt: Ausgehend von Näherungswerten für die Clusterschwerpunkte ν i werden zunächst nach Gleichung (4) die Zugehörigkeitswerte µi,k der einzelnen Objekte zu den Clustern berechnet. Hierzu wird im ersten Iterationsschritt die euklidische Distanz verwendet. In den weiteren Iterationsschritten wird die modifizierte Mahalanobisdistanz nach Gleichung (6) benutzt. 2. Schritt: Aus den aktuellen Zugehörigkeitwerten µi,k werden neue Clusterschwerpunkte ν neu nach Gleichung (5) berechnet. i 3. Schritt: Berechnung der aktuellen neu Fuzzy-Kovarianzmatrizen Cov i : Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse ∑n Cov neu = i ( k − ν i )(xk n w k=1 (µi,k ) )w (x k=1 (µi,k∑ − νi )T di,k = 19 p (2π) 2 (7) ∀ i = 1, . . . , c 4. Schritt: Es wird geprüft, ob die Summe der komponentenweisen Distanzen zweier aufeinander folgender Clusterschwerpunktsmatrizen N kleiner ist als eine Konvergenzschwelle ϵ. Falls ∥N neu − N ∥ > ϵ, setze N = N neu und fahre fort mit Schritt 1. Andernfalls beende die Iteration. Nach Gustafson und Kessel [1979] ist auch eine Berechnung unterschiedlicher Clustergrößen möglich, in dem für jede Fuzzy-Kovarianzmatrix Cov i eine individuelle Konstante ϱi eingeführt wird. In dem Fall wird det(Cov i ) = ϱi gesetzt. Die Wahl der Konstanten setzt jedoch Vorwissen über die Cluster voraus, da sie in dem iterativen Algorithmus nicht als Unbekannte mit bestimmt werden können [Höppner et al. 1997]. 2.3 Der Gath-Geva Algorithmus Der Gath-Geva Algorithmus bildet hyperellipsoidische Cluster unterschiedlicher Größe im Merkmalsraum [Gath und Geva 1989]. Für jedes Cluster wird die Form und Größe individuell bestimmt. Die Berechnung der Distanz basiert bei diesem Algorithmus auf einem wahrscheinlichkeitstheoretischen Ansatz. Die Objekte xk werden als Realisierungen p-dimensionaler normalverteilter Zufallsvariablen Ni betrachtet (p: Dimension des Merkmalsraumes). Gath und Geva gehen davon aus, dass eine Normalverteilung Ni mit dem Erwartungswert ν i , der Fuzzy-Kovarianzmatrix Cov i und einer apriori Wahrscheinlichkeit Pi zur Erzeugung eines Objektes xk verwendet wurde. Als Distanzfunktion di,k wird hierbei jetzt die Wurzel aus der reziproken a-posteriori Wahrscheinlichkeit, mit der ein Objekt zu einem Cluster gehört, verwendet. exp √ det(Cov i ) Pi (1 2 ) (xk − ν i )T Cov −1 (xk − ν i ) ) 1 (8) 2 Die a-priori Wahrscheinlichkeit Pi für das Auftreten eines Objektes xk in einem Cluster i berechnet sich aus den Zugehörigkeitswerten nach dem Prinzip: Summe der Zugehörigkeitswerte im Cluster i geteilt durch die Gesamtsumme aller Zugehörigkeitswerte in allen Clustern. ∑n (µ )w ∑c i,k Pi = ∑n k=1 , ∀ i = 1, . . . , c w k=1 i=1 (µi,k ) (9) Die Fuzzy-Kovarianzmatrizen Cov neu werden in i gleicher Weise wie beim Gustafson-Kessel Algorithmus nach Gleichung (7) berechnet. Ablauf des Gath-Geva Algorithmus: 1. Schritt: Ausgehend von Näherungswerten für die Clusterschwerpunkte ν i werden zunächst nach Gleichung (4) die Zugehörigkeitswerte µi,k der einzelnen Objekte zu den Clustern berechnet. Hierzu wird im ersten Iterationsschritt die euklidische Distanz verwendet. In den weiteren Iterationsschritten wird die Distanzfunktion nach Gleichung (8) benutzt. 2. Schritt: Aus den aktuellen Zugehörigkeitwerten µi,k werden neue Clusterschwerpunkte ν neu nach Gleichung (5) berechnet. i 3. Schritt: Berechnung der aktuellen Fuzzy-Kovarianzmatrizen Cov neu nach Gleichung (7). i 4. Schritt: Berechnung der a-priori Wahrscheinlichkeit Pi für das Auftreten eines Objektes xk in einem Cluster i nach Gleichung (9). 5. Schritt: Es wird geprüft, ob die Summe der komponentenweisen Distanzen zweier aufein- AI TUBS – Künstliche Intelligenz an der TU Braunschweig 20 ander folgender Clusterschwerpunktsmatrizen N kleiner ist als eine Konvergenzschwelle ϵ. Falls ∥N neu − N ∥ > ϵ, setze N = N neu und fahre fort mit Schritt 1. Andernfalls beende die Iteration. Durch die Exponentialfunktion in der Distanzfunktion wachsen ab einer bestimmten Entfernung die Distanzen sehr stark an. Das hat zur Folge, dass beim Übergang von einem Cluster zum anderen die Zugehörigkeitswerte sehr schnell von 0 auf 1 oder umgekehrt wechseln und dadurch relativ scharfe Clustereinteilungen erfolgen [Höppner et al. 1997]. Die Konvergenzeigenschaft der iterativen Algorithmen wird mit zunehmender Komplexität schlechter. Die Gefahr ein lokales Minimum zu finden, ist beim Gustavson-Kessel Algorithmus höher als beim Fuzzy-c-Means und beim Gath-Geva Algorithmus höher als beim Gustavson Kessel. Um eine gute Clustereinteilung zu erreichen, müssen insbesondere beim Gath-Geva Algorithmus die Clusterschwerpunkte in der Nähe ihrer endgültigen Lage initialisiert werden. Das erreicht man dadurch, dass man als Startwerte keine zufälligen Näherungswerte verwendet, sondern die Ergebnisse einer Clusterung durch den Fuzzy-c-Means bzw. Gustafson-Kessel Algorithmus benutzt [Höppner et al. 1997]. Eigene Erfahrungen zeigen, dass der Fuzzy-c-Means Algorithmus mit nahezu beliebigen Initialisierungen immer gut interpretierbare Clusterlösungen findet. Die Gustavson-Kessel und Gath-Geva Algorithmen reagierten dagegen sehr empfindlich auf die Initialisierungen und konvergierten trotz vermeintlich guter Initialisierung durch den Fuzzy-c-Means sehr häufig zu Clusterlösungen, die von der menschlichen Vorstellung her als unbrauchbar angesehen wurden. 2.4 Possibilistische Varianten des Fuzzy-cMeans und Gustafson-Kessel Algorithmus ∑c Durch die Nebenbedingung = 1 i=1 µi,k bei den bisher vorgestellten Fuzzy-Clusterverfahren erinnern die Zugehörigkeitswerte stark an eine Wahrscheinlichkeitsverteilung. Die FuzzyClusterverfahren, für die diese Restriktion gilt, bezeichnet man deshalb auch als probabilistisch [Höppner et al. 1997]. Die Zugehörigkeitswerte µi,k sind allerdings nicht als Werte einer Wahrscheinlichkeitsverteilung zu interpretieren, sondern sie geben nur an, wie die Variablenausprägungen des k-ten Objektes mit den Charakteristika des iten unscharfen Clusters (in Relation zu den anderen Clustern) übereinstimmen [Deimer 1986]. Bei den possibilistischen Fuzzy-Clusterverfahren wird auf die bei den probabilistischen Fuzzy-Clusterverfahren eingeführte Nebenbedin∑ gung ci=1 µi,k = 1 verzichtet. Bei den bisher betrachteten probabilistischen Fuzzy-Clusterverfahren hängt der Zugehörigkeitswert zu einem Cluster aufgrund der Nebenbedingung auch mit von der Lage und Anzahl der anderen Cluster ab. Er drückt nicht aus, wie typisch das Objekt für das entsprechende Cluster ist. Das kann in der Praxis bei Objekten zu Interpretationsproblemen führen, die eine relativ große Distanz zu allen Clusterzentren aufweisen. Diese Ausreißer oder Stördaten können hohe Zugehörigkeitswerte bekommen, obwohl die Objekte nicht typisch für das Cluster sind und man intuitiv einen geringeren Zugehörigkeitswert erwarten würde. Bei einer großen Distanz eines Objektes zu allen Clusterzentren streben alle Zugehörigkeitswerte des Objektes gegen µi,k = 1/c. ∑ Der Verzicht auf die Nebenbedingung ci=1 µi,k = 1 bei den possibilistischen Verfahren führt bei der Minimierung der Zielfunktion JF CM des Fuzzy-CMeans Algorithmus, siehe Gleichung (3) JF CM = n ∑ c ∑ 2 (µi,k )w · di,k (ν i , xk ) k=1 i=1 zu der trivialen Lösung: µi,k = 0 ∀ i = 1, . . . , c ∀ k = 1, . . . , n. (10) Krishnapuram und Keller haben daher 1993 vorgeschlagen, die Zielfunktion um einen Summanden zu erweitern, durch den diese triviale Lösung verhindert wird. Die Zielfunktion des possibilistischen Fuzzy-c-Means Algorithmus (PCM) sieht danach wie folgt aus: JP CM = n ∑ c ∑ k=1 i=1 c ∑ + ηi i=1 ηi : 2 (µi,k )w · di,k (ν i , xk ) n ∑ (11) (1 − µi,k ) w k=1 Wichtungs- oder Abstandsparameter, ηi ∈ >0 R Rainer Fletling: Fuzzy-Clusterverfahren zur Datenanalyse 21 µ Bei der Minimierung der Zielfunktion sorgt der erste Term dafür, dass die Distanz zwischen den Objekten und den Clusterzentren minimal wird. Der zweite Term sorgt dafür, dass die Zugehörigkeitswerte möglichst groß werden, um die triviale Lösung zu verhindern. Der Parameter ηi gewichtet den zweiten Term in Gleichung (11) gegenüber dem ersten Term. Weiterhin gibt er die Distanz vom Clusterzentrum an, an dem der Zugehörigkeitswert eines Objektes zu diesem Cluster µi,k = 0, 5 beträgt. Zu seiner Berechnung haben Krishnapuram und Keller [1993] unter anderen die folgende Formel vorgeschlagen: ∑n ηi = w 2 k=1 (µi,k ) · di,k (ν i , xk ) ∑n w k=1 (µi,k ) 1 µ1 ν1 1+ d2i,k (ν i ,xk ) ηi x Abb. 5: Drei typische Zugehörigkeitsfunktionen µ1 , µ2 und µ3 , wie sie sich durch Verwendung des probabilistischen Fuzzy-c-Means Algorithmus ergeben. (12) µ1 ) ν3 µ Die Zugehörigkeitswerte berechnen sich dabei nach: 1 ν2 1 Die Minimierung der Zielfunktion erfolgt wie beim probabilistischen Fuzzy-c-Means Algorithmus durch die alternierende Optimierung der Clusterzentren und der Zugehörigkeitswerte in einem iterativen Verfahren. ( µ3 0 ∀ i = 1, . . . , c µi,k = µ2 µ2 µ3 ν2 ν3 0 ν1 x Abb. 6: Drei typische Zugehörigkeitsfunktionen µ1 , µ2 und µ3 , wie sie sich durch Verwendung des possibilistischen Fuzzy-c-Means Algorithmus ergeben. 1 w−1 (13) ∀ i = 1, . . . , c ; ∀ k = 1, . . . , n Man sieht, dass hier im Gegensatz zu Gleichung (4) des probabilistischen Fuzzy-c-Means, die Zugehörigkeitswerte nur vom Abstand zum dazugehörenden Clusterzentrum abhängen und nicht auch von den andern Clusterzentren. Die Berechnung der Clusterzentren erfolgt in gleicher Weise wie beim probabilistischen Fuzzy-cMeans nach Gleichung (5). Die Abbildungen 5 und 6 zeigen für eine eindimensionale Anwendung mit drei Clustern typische Verläufe von Zugehörigkeitsfunktionen, wie sie sich bei dem Einsatz des probabilistischen und des possibilistischen Fuzzy-c-Means Algorithmus ergeben. In der Abbildung 5 ist deutlich zu erkennen, wie die Zugehörigkeitsfunktionen von der Lage aller Clusterzentren ν i abhängen. Die Funktionen besitzen an den Stellen der jeweils anderen Clusterzentren ein lokales Minimum mit dem Funktionswert µi = 0 und steigen mit zunehmender Distanz wieder an. In den Randbereichen ist ansatzweise zu sehen, dass bei einer großen Distanz eines Objektes zu allen Clusterzentren alle Zugehörigkeitswerte des Objektes gegen µi,k = 1/c streben. In der Abbildung 6 ist dagegen deutlich zu sehen, dass die Zugehörigkeitsfunktionen von den jeweils anderen Clusterzentren nicht beeinflusst werden. Den possibilistischen Gustafson-Kessel Algorithmus erhält man, indem man die modifizierte Mahalanobisdistanz nach Gleichung (6) verwendet und in jedem Itedie Fuzzy-Kovarianzmatrizen Cov neu i rationsschritt nach Gleichung (7) neu berechnet. Für den Parameter ηi schlagen Krishnapuram und Keller hier ηi = |Cov i |(1/p) vor, wobei p die 22 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Dimension des Merkmalsraumes ist. Beim Gath-Geva Algorithmus macht aufgrund des wahrscheinlichkeitstheoretischen Ansatzes für die Distanzfunktion eine possibilistische Clusterung keinen Sinn. Die possibilistischen Clusterverfahren erhöhen die Robustheit des Clusterungsprozesses. Ihre Ergebnisse werden in wesentlich geringerem Maße von Ausreißern oder Stördaten beeinflusst. ∑c Durch den Verzicht auf die Nebenbedingung i=1 µi,k = 1 kann bei Objekten, die zu mehreren Clustern gehören, die Summe der Zugehörigkeitswerte zu verschiedenen Clustern größer als 1 und bei Objekten, die einen großen Abstand von allen Clusterzentren haben, kleiner als 1 sein. Allerdings ist das Konvergenzverhalten der possibilistischen Clusterverfahren deutlich schlechter als das der probabilistischen. Es empfiehlt sich daher zum Beispiel zunächst eine Initialisierung mithilfe der probabilistischen Verfahren durchzuführen [Rumpler 1999]. Literatur Bacher, J. (1996): Clusteranalyse. Oldenbourg Verlag, München, 1996. Bandemer, H. (1997): Ratschläge zum mathematischen Umgang mit Ungewissheit - Reasonable Computing. B.G. Teubner Verlag, Leipzig, 1997. Bezdek, J. C. (1973): Fuzzy Mathematics in Pattern Classification. Cornell University, Ph.D. Thesis, Ann Arbor, 1973. Bock, H. H. (1974): Automatische Klassifikation. Vandenhoeck und Ruprecht Verlag, Göttingen. Burmeister, J. (1997): Tutorial Grundlagen der FuzzyPattern-Klassifikation. TAT Transfer von Automatisierungstechnologien GmbH, Chemnitz, Berlin. Deimer, R. (1986): Unscharfe Clusteranalysemethoden. Schulz-Kirchner Verlag, Idstein. Duda, R. O., Hart, P. E., Stork, D. G. (2000): Pattern Classification. 2nd Ed., Wiley Interscience, New York. Gath, I., Geva, A. B. (1989): Unsupervised Optimal Fuzzy Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence 11, 1989. Gustafson, E. E., Kessel, W. C. (1979): Fuzzy Clustering with a Fuzzy Covariance Matrix. IEEE CDC, San Diego, Kalifornien. Höppner, F., Klawonn, F., Kruse, R. (1997): FuzzyClusteranalyse. Vieweg Verlag, Braunschweig. Jain, A. K., Topchy, A., Law, M. H. C., Buhmann, J. M. (2004): Landscape of Clustering Algorithms. Proceedings of the 17th International Conference on Pattern Recognition, Cambridge UK: 49–56. Krishnapuram, R., Keller, J. M. (1993): A possibilistic approach to clustering. IEEE Transactions on Fuzzy Systems. 1 (2):98–110. Rumpler, T. A. (1999): Probabilistische und Fuzzy Methoden für die Clusteranalyse. In: Seising, R. (Hrsg.): Fuzzy Theorie und Stochastik. Vieweg Verlag, Braunschweig. Tilli, T. (1993): Mustererkennung mit Fuzzy-Logik. Franzis Verlag, München, 1993. Timm, H. (2002): Fuzzy-Clusteranalyse: Methoden zur Exploration von Daten mit fehlenden Werten sowie klassifizierten Daten. Magdeburg, 2002. Zadeh, L. (1965): Fuzzy Sets. Information and Control 8: 338–353 (Reprint in: Bezdek, J. C., Pal, S. K.(1992)). Zimmermann, H.-J. (Hrsg., 1993): Fuzzy Technologien. VDI Verlag, Düsseldorf. Anwendung von Support Vector Machines in der Flugnavigation Sven Bollmann∗ ∗ Institut für Flugführung, Hermann-Blenk-Straße 27, 38108 Braunschweig Zusammenfassung A promising Applicationen of SVM’s is the processing of the raw sensor data of an inertial measurement unit (IMU) which represents the core of any modern inertial navigation system. Strategies for system design and the generation of suitable training data are presented in this paper. Die noch recht jungen Support Vector Machines (SVM’s) erfreuen sich auf dem Gebiet des maschinellen Lernens wachsender Beliebtheit. Besonders bei Klassifikations- und Regressionsproblemen sind sie klassischen Neuronalen Netzen wie z. B. dem Multilayer-Perceptron wegen ihrer sehr guten Fähigkeit zu generalisieren deutlich überlegen. 1 Einleitung Motiviert durch die stetige Verbesserung des zugrunde liegenden SVM-Algorithmus in den letzten Jahren hinsichtlich Geschwindigkeit und Komplexität der Aufgaben, die inzwischen gelöst werden können, soll nun untersucht werden, inwieweit SVM’s in der Flugnavigation, insbesondere im Bereich der Trägheitsnavigation eingesetzt werden können. Die Hauptaufgabe einer IMU ist die Messung der in einem Flugzeug auftretenden Beschleunigungen und Drehraten. Sie ist starr mit dem Flugzeug verbunden und besteht typischerweise aus drei orthogonal zueinander angeordneten Beschleunigungssensoren zur Messung der linearen Beschleunigung des Flugzeugs in Längs-, Quer- und in vertikaler Richtung. Drei in den identischen Achsen liegende Drehratensensoren messen die Drehgeschwindigkeit um die entsprechenden Achsen. Aus diesen Messungen können mit Hilfe der Strapdown-Rechnung Position, Lage und Geschwindigkeit des Flugzeugs ermittelt werden [Titterton & Weston 1998]. Eine vielversprechende Anwendung für SVM’s ist die Auswertung der Sensor-Rohdaten einer Inertial Measurement Unit (IMU), die den Kern eines modernen Trägheitsnavigationssystems darstellt. Strategien zum Systemaufbau und zur Gewinnung geeigneter Trainingsdaten werden in diesem Beitrag entwickelt. Summary Entscheidenden Einfluss auf die Genauigkeit eines solchen Strapdown-Systems hat die möglichst exakte mathematische Modellierung der IMU und ihrer Fehler. Diese reichen von abweichender Ausrichtung der Sensor-Sensitivitätsachsen (AchsenMisalignment), Kreuzkopplungen (Sensitivität von Beschleunigungs-Sensoren in Richtungen senkrecht zu ihrer Sensitivitätsachse) über Sensorfehler (Bias, Skalenfaktor, Welligkeiten, Unstetigkeiten, etc.) bis hin zu Temperaturabhängigkeiten, Hysterese und anderen unerwünschten Effekten, wie z. B. der Beschleunigungs-Abhängigkeit von Drehratensensoren. Viele dieser Einflüsse sind nur schwer oder The relatively young support vector machines have become more and more attractive in the field of machine learning. Especially in classification and regression problems they usually outperform classical neural networks such as e. g. the multilayer-perceptron because of their very good capability to generalize. Motivated by the continuous improvment of the underlying SVM algorithm in recent years regarding its speed and the complexity of problems that can be solved it shall now be investigated to what extend SVM’s can be applied to flight navigation and inertial navigation in particular. 23 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 24 fast gar nicht modellierbar. Zwangsläufig gemachte Vereinfachungen können wiederum zu einer Verschlechterung der Genauigkeit des Gesamtsystems führen. Ein möglicher Ausweg aus diesem Dilemma könnte der Einsatz von Support Vector Machines sein. Diese werden heute überwiegend zur Lösung von Klassifikations- und Regressionsproblemen eingesetzt [Vapnik 1998]. Im zweiten Fall, der Support Vector Regression, wird eine SVM dahingehend trainiert, den unbekannten funktionalen Zusammenhang zwischen einer oder mehreren Eingangsgrößen und einer Ausgangsgröße anhand von Trainingsbeispielen zu erlernen. Diese Fähigkeit kann dazu genutzt werden, das Übertragungs- und Fehlerverhalten einer IMU nachzubilden, ohne diese mathematisch exakt modellieren zu müssen. Ein so trainiertes System aus SVM’s soll dahingehend untersucht werden, ob es in der Lage ist, die fehlerbehafteten Messungen einer IMU in genaue Werte für Beschleunigungen und Drehraten zu übersetzen. 2 Support Vector Regression Das Ziel der Support Vector Regression ist es, zu einem gegebenen Trainingsdatensatz aus Eingangsvektoren x ∈ Rn und skalaren Ausgangsgrößen d eine Funktion f zu finden, die den in der Regel nichtlinearen funktionalen Zusammenhang zwischen Ein- und Ausgangsgrößen am besten approximiert. Bekannt ist dabei lediglich ein Trainingsdatensatz {(xi , di )}li=1 mit l Trainingsvektoren, wobei xi die Repräsentation eines Eingangsvektors ist, und di der dazugehörige vorgegebene Funktionswert. Die Grundidee bei der Support Vector Regression ist nun, den gesuchten Zusammenhang durch eine Funktion Minimiere die Kostenfunktion ′ Φ(w, ξ, ξ ) = C ( l ∑ ) (ξi + i=1 ξi′ ) 1 + wT w 2 unter den Bedingungen di − wT Φ(xi ) ≤ ϵ + ξi , i = 1, 2, ..., l ξi′ , i = 1, 2, ..., l ξi ≥ 0, i = 1, 2, ..., l ξi′ i = 1, 2, ..., l w Φ(xi ) − di ≤ ϵ + T ≥ 0, Man kann dieses Optimierungsproblem wie folgt interpretieren: Es wird eine Funktion f gesucht, die einerseits so flach wie möglich ist, bei der aber anderseits von den vorgegebenen Funktionswerten di aus dem Trainingsdatensatz so viele wie möglich maximal um den Betrag ϵ von f abweichen. Abweichungen größer als ϵ nach oben oder unten werden mit Strafkosten ξi bzw. ξi′ belegt. Über C läßt sich der trade off zwischen Flachheit von f und den Abweichungen aus der Epsilon-Umgebung (engl.: margin) von f steuern. Sowohl C als auch ϵ müssen vom Anwender vorgegeben werden. Eine genaue Darstellung, wie dieses Optimierungsproblem gelöst werden kann, findet sich in Schölkopf & Smola [1998]. Vorteilhaft ist, daß am Ende die Regressionsfunktion f nur noch aus den Eingangsvektoren x∗i gebildet wird, deren Funktionswerte di genau um den Betrag ϵ oder mehr von f abweichen, den sogenannten Support-Vektoren. Alle Vektoren innerhalb der margin haben keinen Einfluß auf die Gestalt von f und brauchen bei der Funktionsauswertung nicht berücksichtigt werden. 3 Systemaufbau f (x) = l ∑ wi Φi (x) + b i=1 auszudrücken. Dabei ist Φ : Rn → H eine nichtlineare Transformation der Eingangsvektoren xi in einen höherdimensionalen Merkmalsraum H. Mit den Koeffizienten wi werden die transformierten Eingangsvektoren gewichtet und eine Basis b dazu addiert. Durch die Transformation Φ entsteht ein neuer Datensatz {(Φ(xi ), di )}li=1 , für den im Raum H eine lineare Regression durchgeführt wird. Daraus lässt sich das folgende beschränkte quadratische Optimierungsproblem ableiten: Ein System aus SVM’s für Verarbeitung von Sensor-Rohdaten einer IMU hat die Aufgabe, die sechs von einer IMU gemessenen und mit Fehlern behafteten Größen (drei Beschleunigungen und drei Drehraten) in sechs fehlerfreie Größen umzuwandeln. Da eine einzelne SVM zwar viele Eingangsgrößen verarbeiten, daraus aber nur eine Ausgangsgröße errechnen kann, ist offensichtlich, daß für diese Aufgabe insgesamt sechs SVM’s eingesetzt werden müssen. Auf der Eingangsseite hingegen werden jeder SVM alle sechs von der IMU gemessenen Größen zugeführt. Auf diese Weise ist sichergestellt, Sven Bollmann: Anwendung von Support Vector Machines in der Flugnavigation 25 Abb. 1: Einem System aus sechs SVM’s wird die Fehlercharakteristik einer IMU antrainiert. Abb. 2: Nach ausreichendem Training sind die SVM’s in der Lage die Fehler der IMU zu korrigieren. daß auch gegenseitige Abhängigkeiten der Messungen untereinander berücksichtigt werden können, wie z. B. die Beschleunigungs-Abhängigkeit von Drehratenmessungen. Da der Zusammenhang zwischen den Messungen der IMU und den tatsächlichen Beschleunigungen und Drehraten auschließlich aus Trainingsbeispielen gelernt wird, müssen möglichst viele Kombinationen aus Linearbeschleunigungen und Drehraten erzeugt, und die Messungen der IMU aufgezeichnet werden. Dies ist zwar prinzipiell unter Verwendung von Drehtischen und Beschleunigungsbänken möglich aber in der Durchführung sehr aufwendig und zeitintensiv. Da das System kein Modell der IMU kennt, muß es den Zusammenhang zwischen Sensor-Rohdaten der IMU und den tatsächlichen Größen erlernen. Hierzu müssen Trainingsvektoren erzeugt werden, die zum einen aus den von der IMU gemessenen Beschleunigungen und Drehraten bestehen, zum anderen aus Referenzdaten, also dem, was die IMU hätte messen sollen. In der Trainingsphase fungieren die von der IMU gemessenen Größen als Eingangsgrößen und die Referenzdaten als vorgegebene Ausgangsgrößen. Entscheidend ist, dass bei der Erzeugung der Trainingsdaten das tatsächliche Verhalten der IMU zugrunde liegt, das heißt, dass auch nicht oder nur schwer modellierbare Effekte „mitgelernt“ werden. Die Trainingsphase des Systems ist in Abb. 1 dargestellt. Nach ausreichendem Training hat das System den wie auch immer gearteten funktionalen Zusammenhang zwischen Sensor-Rohdaten und tatsächlichen Größen gelernt. Es ist nun in der Lage die von der IMU kommenden Messungen in genaue Werte für Beschleunigungen und Drehraten umzuwandeln, so wie es in Abb. 2 dargestellt ist. 4 Erzeugung von Trainingsdaten im Flugversuch Das obige System aus SVM’s soll nach ausreichendem Training in der Lage sein, fehlerbehaftete Messungen der IMU in genaue Werte zu übersetzen. Aus diesem Grund wurde der Ansatz verfolgt, die Trainingsdaten im Flugversuch zu erzeugen. Hierzu wurde die zu untersuchende IMU zusammen mit einer hochgenauen Referenz-IMU in die Dornier Do 128-6 des Instituts für Flugführung (Abb. 3) eingebaut. Während des Fluges wurden die gemessenen Beschleunigungen und Drehraten beider IMU’s aufgezeichnet und hieraus Trainingsvektoren gebildet. Die Messungen der zu untersuchenden IMU fungierten dabei als Eingangsgrößen, die der ReferenzIMU als Zielgrößen. Anders als bei klassischen neuronalen Netzen hat die Reihenfolge der Trainingsvektoren keinen Einfluß auf den Lernprozeß, da der SVM-Algorithmus ohnehin alle Trainingsvektoren gleichzeitig verarbeitet. Ein systematisches Erfliegen von bestimmten Flugzuständen ist daher nicht nötig. Wichtig ist vielmehr, daß ausreichend viele Kombinationen aus Linearbeschleunigungen und Drehraten erflogen werden. Um dies zu gewährleisten, wurde ein Flugmanöver entwickelt, bei dem normale Flugmanöver wie Geradeausflug, Kurvenflug, Slip, etc. mit deutlichen und möglichst „zufälligen“ Rudereingaben des Piloten überlagert werden. AI TUBS – Künstliche Intelligenz an der TU Braunschweig 26 Abb. 3: Das Forschungsflugzeug Do 128-6, D-IBUF der TU Braunschweig Der Flugversuch bietet zwei Vorteile. Zum einen können die Traningsvektoren sehr schnell erzeugt werden, zum anderen werden nur die Kombinationen aus Linearbeschleunigungen und Drehraten zum Training der SVM’s herangezogen, die in einem Flugzeug auch tatsächlich auftreten können. 5 Zusammenfassung und Ausblick In diesem Beitrag wurde eine Strategie entwickelt, wie mit Hilfe von Support Vector Machines die Sensor-Rohdaten einer Inertial Measurement Unit verarbeitet werden können. Es wurde ein System aus sechs SVM’s vorgestellt, das in der Lage ist, die Fehlercharakteristik einer IMU anhand von Trainingsbeispielen zu erlernen und deren Messungen entsprechend zu korrigieren. Darauf aufbauend soll in Kürze gezeigt werden, wie das System um statistische Informationen zu den gemessenen Größen erweitert werden kann, wie sie in Bayesschen Filtern verarbeitet werden. Ein Flugversuch zur Gewinnung von Trainingsdaten wurde geplant und bereits durchgeführt. Zur Zeit erfolgt die Auswertung der aufgezeichneten Daten sowie die Optimierung des SVM- Lernprozesses hinsichtlich der Parameter C und ϵ und des verwendeten Kernels. Gegenstand weiterer Forschung wird es sein, das Konzept auf andere IMU-Bauarten wie z. B. kreiselfreie IMU’s zu übertragen. Bisher noch unberücksichtigt sind IMU-Fehler, die sich mit der Zeit oder von Einschaltvorgang zu Einschaltvorgang ändern. Auch hier soll das bestehende Verfahren weiterentwickelt werden. Literatur Schölkopf, B. & Smola, A. J. (1998): A Tutorial on Support Vector Regression. NeuroCOLT2 Technical Report Series NC-TR-1998-030. Titterton D. H. & Weston, J. L. (2004): Strapdown Inertial Navigation Technology - 2nd Edition. The Institution of Electrical Engineers. ISBN 0 86341 358 7. Vapnik, V. N. (1998): Statistical Learning Theory. In Haykin, S. (Ed.): Adaptive and Learning Systems for Signal Processing, Communications and Control. John Wiley & Sons, New York, Chichester, Weinheim, Brisbane, Singapore, Toronto. (Hybride) Bootstrapverfahren für Zeitreihendaten – Wie konstruiert man „gute“ Konfidenzintervalle? – Carsten Jentsch∗ ∗ Institut für Mathematische Stochastik, TU Braunschweig, Pockelsstraße 14, 38106 Braunschweig Zusammenfassung und Brockwell & Davis [1991]). Zunächst wird einleitend behandelt, wie man insbesondere im Zeitreihenkontext typischerweise Konfidenzintervalle für statistische Kenngrößen konstruiert und welche Probleme dabei auftreten können. Als alternative Möglichkeit werden verschiedene Bootstrapverfahren angesprochen und am Beispiel autoregressiver Zeitreihenmodelle wird die Konstruktion von Konfidenzintervallen mit Hilfe des Residuenbootstraps ausführlicher diskutiert. Schließlich wird ein hybrides Verfahren vorgestellt, dass im Vergleich zum Residuenbootstrap auch unter allgemeineren Voraussetzungen anwendbar ist. Basierend auf den Daten interessiert man sich typischerweise für statistische Kenngrößen, wie etwa Erwartungswert, Autokorrelation und Spektraldichte. Aber auch die Koeffizienten eines angepassten (autoregressiven) Modells sind von Bedeutung. Alle diese Größen sind in der Regel unbekannt, können aber aus den Daten geschätzt werden. Berechnet man beispielsweise die empirische Autokorrelation, um die lineare Abhängigkeit in den Daten zu schätzen, so stellt sich immer die Frage, wie gut bzw. wie verlässlich diese Schätzung tatsächlich ist. Da man die tatsächliche Verteilung dieser Größen nicht kennt, benutzt man hier standardmäßig einen zentralen Grenzwertsatz (d.h. der geeignet zentrierte und normierte Schätzer konvergiert gegen eine Standardnormalverteilung, vgl. (2)), um ein Konfidenzintervall zu vorgegebenem Niveau α ∈ (0, 1) zu konstruieren. Der tatsächliche (unbekannte) Wert liegt dann (approximativ) mit Wahrscheinlichkeit 1 − α in diesem Intervall. Dieses Vorgehen hat im Wesentlichen zwei Nachteile: 1 Einleitung In vielen wissenschaftlichen Bereichen werden häufig Daten in Form von Zeitreihen (Aktienkurse, Niederschlagsmengen, Pegelaufzeichnungen, u.v.a.) aufgenommen. Dieses sind in der Regel keine unabhängigen Beobachtungen mehr, sondern enthalten über die Zeit gesehen eine gewisse, möglicherweise sehr komplexe Abhängigkeitsstruktur. In der Regel wird hier (evtl. nach einer geeigneten Transformation) vereinfachend die Annahme getroffen, dass der datenerzeugende Prozess zu einer bestimmten stationären Modellklasse gehört, wobei sich die Klasse der autoregressiven Modelle, siehe Gleichung (1), als sehr beliebt und gut handhabbar erwiesen hat. Autoregressive Modelle besitzen eine recht einfache Struktur und die unbekannten Parameter des Modells können stabil aus den Beobachtungen geschätzt werden (für eine Einführung in die Zeitreihenanalyse vgl. etwa Kreiß & Neuhaus [2006] • Man benutzt ein asymptotisches Resultat, d.h. nur für großen Stichprobenumfang ist die Approximation gut. • Man erzwingt die Symmetrie des Konfidenzintervalls, d.h. eine mögliche Schiefe der Verteilung des Schätzers wird aufgrund der symmetrischen Normalverteilung nicht berücksichtigt. Zur Konstruktion verbesserter Konfidenzintervalle haben sich algorithmisch basierte, sogenannte 27 2 Bootstrap für autoregressive Modelle Zur Modellierung von Abhängigkeiten werden oft autoregressive Modelle verwendet. Man bezeichnet einen stochastischen Prozess, d.h. eine Familie von Zufallsvariablen (Xt , t ∈ Z) als autoregressiven Prozess der Ordnung p (auch AR(p)-Modell), falls er eine Modellgleichung Xt = p ∑ ak Xt−k + et , t∈Z (1) 0 x −2 −4 Bootstrapverfahren etabliert. Die Idee des Bootstraps geht zurück auf Bradley Efron [Efron 1979], der seine Methode auf unabhängig und identisch verteilte Zufallsvariablen anwendete. Dabei werden durch mehrmaliges n-faches Ziehen mit Zurücklegen aus der gegebenen Stichprobe (der Länge n) künstlich neue Datensätze erzeugt, die hinreichend der unbekannten Verteilung des Ursprungsdatensatzes folgen. Für Zeitreihen, die in der Regel aus abhängigen Zufallsvariabeln bestehen, ist die Situation deutlich komplizierter. In den letzten etwa 30 Jahren wurden dennoch zahlreiche Ansätze hierfür entwickelt. Allen voran sind hier der (autoregressive) Residuen-Bootstrap, aber auch BlockBootstrapmethoden sowie frequenzbasierte Bootstraptechniken zu nennen, die alle gewisse Vorzüge, jedoch auch Mankos haben. Eine allgemeine Übersicht zu Bootstrapverfahren für Zeitreihen findet man in Härdle & Horowitz & Kreiß [2003] und Lahiri [2003]. Frequenzbasierte Techniken werden in Paparoditis [2002], Kreiß & Paparoditis [2003] und Jentsch & Kreiß [2009] besprochen. Alle diese Ansätze, ob für unabhängige oder abhängige Zufallsvariablen, haben aber gemein, dass sie auf eine gewisse Art und Weise künstlich neue Datensätze aus dem einen gegebenen Datensatz erzeugen. 2 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 28 0 10 20 30 40 50 Time Abb. 1: Realisation einer AR(1)-Zeitreihe mit Parameter a1 = 0.95 und standardnormalverteiltem weißen Rauschen (et , t ∈ Z). zu approximieren. Dabei passt man an die Beobachtungen ein autoregressives Modell an, indem man aus den Daten die Koeffizienten a1 , . . . , ap schätzt. Die Kenntnis dieser (geschätzten) Parameter ermöglicht es etwa Vorhersagen zu treffen oder die zeitliche Abhängigkeitsstruktur in den Daten besser zu verstehen. Bei solchen Aussagen spielt es natürlich eine entscheidende Rolle, wie sicher oder eben wie unsicher die Schätzungen der Modellkoeffizienten tatsächlich sind. Im folgenden Unterabschnitt soll beispielhaft aufgezeigt werden, wie Bootstrapverfahren im Vergleich zur Normalapproximation helfen können, verbesserte Konfidenzintervalle zu konstruieren. 2.1 Beispiel: Konstruktion eines Konfidenzintervalls für a1 im AR(1)-Modell k=1 erfüllt, wobei (et , t ∈ Z) unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert E(et ) = 0 und Varianz V ar(et ) < ∞ sind. Man nennt (et , t ∈ Z) auch weißes Rauschen. Die Koeffizienten a1 , . . . , ap sind reelle Zahlen und die ganzen Zahlen sind hier mit Z bezeichnet. Anschaulich ergibt sich bei diesen Modelle der Wert der Zeitreihe zu einem gewissen Zeitpunkt als eine gewichtete Summe der zeitlichen Vorgänger plus Fehler. In Anwendungen wird oft versucht die Abhängigkeitstruktur gegebener Zeitreihendaten mit Hilfe eines autoregressiven Prozesses zu modellieren bzw. Angenommen, es liegen Beobachtungen X1 , . . . , Xn vor, die aus einem AR(1)-Modell mit unbekanntem Parameter a1 = 0.95 stammen (vgl. Abb. 1). Aus diesen Daten kann man a1 über die Yule-WalkerGleichungen schätzen [Kreiß & Neuhaus 2006, vgl. etwa Kap. 11]. Der geschätzte Wert sei mit b a1 bezeichnet. Für diesen gilt ein zentraler Grenzwertsatz (ZGWS), d.h. √ n(b a1 − a1 ) → N (0, σ 2 ) (2) für Stichprobenumfang n → ∞, wobei N (0, σ 2 ) eine Normalverteilung mit Erwartungswert 0 und Va- Carsten Jentsch: (Hybride) Bootstrapverfahren für Zeitreihendaten 29 (I) Schätze aus den Beobachtungen X1 , . . . , Xn ein AR(1)-Modell, d.h. berechne b a1 . 5 (II) Berechne die Residuen eb2 , . . . , ebn gemäß 4 ebt = Xt − b a1 Xt−1 , t = 2, . . . , n. (4) 2 3 (III) Erzeuge einen neuen Bootstrap-Datensatz X1+ , . . . , Xn+ gemäß t = 1, . . . , n, (5) 0 1 + Xt+ = b a1 Xt−1 + e+ t , 0.2 0.4 0.6 0.8 1.0 Abb. 2: Simulierte Wahrscheinlichkeitsdichte des YuleWalker-Schätzers b a1 im AR(1)-Modell mit tatsächlichem Parameter a1 = 0.95 und standardnormalverteilte weißen Rauschen (et , t ∈ Z). rianz σ 2 bezeichnet. Die asymptotische Varianz σ 2 lässt sich aus den Daten schätzen und der Schätzer hierfür sei mit S 2 bezeichnet. Wenn man a1 mit b a1 aus den Daten geschätzt hat, dann kommt natürlich die Frage auf, wie gut, d.h. wie verlässlich, der geschätzte Wert tatsächlich ist. Mit Hilfe des ZGWS’es (2) kann man (approximativ) ein (1 − α)-Konfidenzintervall für a1 angeben: [ ] S S b a1 − √ u1− α2 , b a1 + √ u1− α2 , (3) n n wobei u1− α2 das (1 − α2 )-Quantil der Standardnormalverteilung ist. Ergeben sich etwa die Werte b a1 = 0.94, S 2 = 1.2 für n = 50 bei vorgegebenem Niveau α = 0.05, so kann man sagen, dass der tatsächliche, aber unbekannte Wert a1 näherungsweise mit Wahrscheinlichkeit 1 − 0.05 = 0.95 im Intervall [0.64, 1.24] liegt. Diese Konstruktion berücksichtigt jedoch nicht, dass für den Yule-Walker-Schätzer immer b a1 ∈ (−1, 1) gilt, weshalb auch die (tatsächliche) Verteilung von b a1 als Schätzer für a1 = 0.95 sehr linksschief ist (vgl. Abbildung 2). Bei zugrundeliegendem AR(1)-Modell kann man für die Konstruktion eines „besseren“ Konfidenzintervalls für a1 beispielsweise den Residuenbootstrap benutzen. Dieses Verfahren funktioniert wie folgt: wobei man e+ t durch unabhängiges Ziehen mit Zurücklegen aus den (zentrierten) Residuen eb2 , . . . , ebn erhält. Aus dem neuen Bootstrapdatensatz X1+ , . . . , Xn+ schätzt man nun erneut ein AR(1)-Modell, d.h. man berechnet b a+ 1 . Dann wiederholt man die Schritte (I)-(III) und das Berechnen von b a+ 1 insgesamt B mal und erhält b a1,1 , . . . , b a1,B . Schließlich sortiert man diese Werte aufsteigend der Größe nach und wählt den ( α2 )B-ten Wert als linke und den (1− α2 )B-ten als rechte Konfidenzintervallgrenze. Für B = 1000 und α = 0.05 nimmt man etwa den 25. und den 975. Wert der aufsteigend sortierten Größen b a1,1 , . . . , b a1,B . Dieses Vorgehen ist ähnlich zur Ermittlung des Medians einer Stichprobe, wo man ebenfalls die geordnete Stichprobe betrachtet und den mittleren Wert als Median definiert. 2.2 Simulationsbeispiel Für Abbildung 3 wurden T = 1000 AR(1)Zeitreihen der Länge n = 50 mit Parameter a1 = 0.95 und standardnormalverteilten Fehlern (et , t ∈ Z) simuliert und für jede Zeitreihe wurde mittels Normalapproximation ein Konfidenzintervall (gemäß Gleichung (3)) konstruiert. Ebenso wurde der Residuenbootstrap (vgl. Schritte (I)(III) und darunter) auf dieselben Zeitreihendaten angewendet und jeweils ein zweites (Bootstrap)Konfidenzintervall konstruiert, wobei B = 1000 gewählt wurde. Somit ergeben sich für beide Verfahren jeweils T = 1000 linke und T = 1000 rechte Intervallgrenzen, die mit Hilfe von Boxplots in Abbildung 3 dargestellt sind. Die horizontalen Linien stellen die (simulierten) optimalen Konfidenzintervallgrenzen dar. Auf beiden Seiten 3a) und 3b) von Abbildung 3 kann man deutlich erkennen, dass der Residuenbootstrap (grün) im Mittel die optimalen Konfidenzintervallgrenzen wesentlich besser trifft als die AI TUBS – Künstliche Intelligenz an der TU Braunschweig 1.0 0.5 0.0 0.0 0.5 1.0 30 3a) 3b) Abb. 3: Boxplots der simulierten Konfidenzintervallgrenzen im AR(1)-Modell mit tatsächlichem Parameter a1 = 0.95 und standardnormalverteiltem weißen Rauschen (et , t ∈ Z). Von links nach rechts zeigen 3a) und 3b) jeweils Boxplots für linke und rechte Konfidenzintervallgrenze konstruiert mit Residuenbootstrap (grün) und für linke und rechte Konfidenzintervallgrenze konstruiert mit Normalapproximation (gelb). Die optimalen Grenzen sind durch die gestrichelten roten Linien gekennzeichnet. Die Konfidenzintervalle sind zum Niveau α = 0.05 in 3a) und α = 0.005 in 3b). Normalapproximation (gelb). Insbesondere sind jeweils linke sowie rechte Intervallgrenze bei der Normalapproximation (gelb) fälschlich nach oben verschoben. Dieses Phänomen ist damit zu erklären, dass die in (3) benutzten Quantile der Standardnormalverteilung ein symmetrisches Intervall erzwingen, auch wenn die tatsächliche Verteilung eine deutliche Schiefe aufweist (vgl. Abb. 2). Dieser Effekt verstärkt sich, wenn das vorgegebene Niveau α kleiner wird, wie beim Übergang von α = 0.05 in 3a) zu α = 0.005 in 3b) von Abbildung 3 zu sehen ist. 2.3 Diskussion des Residuenbootstraps Der Residuenbootstrap kann bei der Konstruktion von Konfidenzintervallen helfen, verbesserte Intervallgrenzen zu erhalten. Insbesondere bei einem kleinen Stichprobenumfang n sind die Ergebnisse in der Regel besser als bei der Normalapproximation des ZGWS’es, welche approximativ nur für einen großen Stichprobenumfang n Sinn macht. Ebenso erzwingt man mit dem Residuenbootstrap keine Symmetrie des Konfidenzintervalls, was zu einem erheblichen Fehler führen kann, wenn die tatsächliche Verteilung eine deutliche Schiefe aufweist. Allerdings kann ein autoregressiver Residuenbootstrap nur dann funktionieren und zu vernünftigen Resultaten führen, wenn der zugrundeliegende Prozess (Xt , t ∈ Z) tatsächlich zur Klasse der autoregressiven Prozesse in Gleichung (1) gehört und wenn man die Ordnung p des Residuenbootstrap (vgl. die Schritte (I)-(III) für p = 1) so wählt, dass sie mindestens so groß ist, wie die des tatsächlichen Modells. In diesem Fall funktioniert das Verfahren aber für eine Vielzahl statistischer Kenngrößen wie beispielsweise Erwartungswert oder Autokorrelationfunktion. Um die Benutzung des Residuenbootstrap zu rechtfertigen, muss man daher die parametrische Annahme treffen, dass der beobachtete Prozess zur Klasse der autoregressiven Modelle gehört. 3 Bootstrap für lineare Zeitreihen In der Zeitreihenanalyse interessiert man sich oftmals nicht für die Modellparameter, sondern vielmehr für andere statistische Größen. Und da mit der Anwendung bzw. mit der Rechtfertigung eines Residuenbootstraps immer die Annahme eines zugrundeliegenden autoregressiven Modells einhergeht, kommt die Frage auf, ob man Bootstrapver- Carsten Jentsch: (Hybride) Bootstrapverfahren für Zeitreihendaten fahren konstruieren kann, die auch in allgemeineren Situationen Gültigkeit besitzen. Die autoregressiven Prozesse bilden beispielsweise eine Teilklasse der linearen Prozesse, für welche der Residuenbootstrap im Allgemeinen nicht mehr oder nur noch approximativ funktioniert. Man bezeichnet einen stochastischen Prozess (Xt , t ∈ Z) als linearen Prozess, falls er eine Darstellung ∞ ∑ 31 ein AR(1)-Modell, d.h. berechne b a1 . (II) Berechne die Residuen eb2 , . . . , ebn gemäß ebt = Xt − b a1 Xt−1 , t = 2, . . . , n. (7) (III) Erzeuge einen neuen Datensatz X1+ , . . . , Xn+ gemäß + Xt+ = b a1 Xt−1 + e+ t , t = 1, . . . , n, (8) e+ t (6) wobei man durch unabhängiges Ziehen mit Zurücklegen aus den (zentrierten) Residuen eb2 , . . . , ebn erhält. besitzt, wobei (et , t ∈ Z) ein unabhängiges weißes Rauschen und (bk , k ∈ Z) eine absolut summierbare Folge reeller Zahlen ist. (IV) Berechne die diskrete Fouriertransformation (DFT) Jn+ (ω) gemäß Xt = bk et−k , t∈Z k=−∞ Neben dem parametrischen Residuenbootstrap, wurden in den letzten Jahren vor allem BlockBootstrapmethoden und frequenzbasierte Techniken vorgeschlagen, um Zeitreihendaten zu bootstrappen. Dabei haben die beiden zuletzt genannten Methoden auch unter der Annahme eines linearen Modells Gültigkeit. Blockbootstrap funktioniert sogar unter viel allgemeineren Voraussetzungen, zeigt aber oft in Simulationen keine besonders guten Ergebnisse. Verfahren, die im Spektralbereich (Frequenzbereich) ansetzen, zeigen bei Simulationen in der Regel gute Resultate, ihre Anwendbarkeit ist aber auf statistische Größen im Frequenzbereich beschränkt. In Kreiß & Paparoditis [2003] wurde die Idee verfolgt, durch einen parametrischen Residuenbootstrap die wesentlichen Merkmale der Daten einzufangen und anschließend mit einer Korrektur im Frequenzbereich die restliche Abhängigkeitsstruktur nachzumachen. Diese Verfahren wird als autoregressive-aided periodogram bootstrap bezeichnet, ist jedoch auch auf frequenzbasierte Statistiken beschränkt. Erst kürzlich wurde dieses Verfahren in Jentsch & Kreiß [2009] so modifiziert, dass es nun auch auf Statistiken im Zeitbereich (z.B. Mittelwert) anwendbar ist. Ebenso wurde dort der Fall mehrdimensionaler linearer Prozesse untersucht. Dieses verbesserte Verfahren heißt hybrides Bootstrap, da es sowohl im Zeitbereich (Residuenbootstrap) als auch im Frequenzbereich (Korrektur der diskreten Fouriertransformation) ansetzt. Aus einem gegebenem Datensatz erzeugt man dabei wie folgt einen neuen Bootstrap-Datensatz: (I) Schätze aus den Beobachtungen X1 , . . . , Xn 1 ∑ + −itω Xt e 2πn t=1 n Jn+ (ω) = √ (9) und einen Korrekturterm qe(ω) an den Fourierfrequenzen ωj = 2π nj . (V) Berechne die inverse DFT der korrigierten DFT qe(ω1 )Jn+ (ω1 ), . . . , qe(ωn )Jn+ (ωn ) um einen Bootstrap-Datensatz X1∗ , . . . , Xn∗ gemäß √ n 2π ∑ ∗ Xt = qe(ωj )Jn+ (ωj )eitωj (10) n j=1 zu erhalten. Beachte, dass die Schritte (I)-(III) des hybriden Bootstraps mit denen des Residuenbootstraps übereinstimmen und in Schritt (IV) durch Fouriertransformation in den Frequenzbereich gewechselt wird, wo diese dann mit qe(ω) multipliziert und somit korrigiert wird. Eine detaillierte Darstellung des hybriden Bootstrap findet man in Jentsch & Kreiß [2009], wo auch gezeigt wurde, dass dieses Verfahren unter der recht allgemeinen Annahme eines zugrundeliegenden linearen Prozesses zumindest für Mittelwert, empirische Autokorrelation und Spektraldichteschätzer funktioniert sowie für empirische Autokovarianz unter Zusatzannahmen. 4 Ausblick In einem zukünftigen Forschungsprojekt soll die Übertragbarkeit dieser Technik auf die räumliche Situation, d.h. für Daten, die in der Ebene oder im Raum aufgenommen werden, untersucht werden. Ein erfolgreicher Transfer dieses Verfahrens könnte Anwendungen beispielsweise in der Geologie haben, wo solche Daten vermehrt auftreten. 32 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Literatur Brockwell, P.J. & Davis, R.A. (1991): Time Series: Theory and Methods. Springer, New York. Efron, B. (1979): Bootstrap Methods: Another Look at the Jackknife. Ann. Statist. 7: 1–26. Härdle, W., Horowitz, J. & Kreiss, J.-P. (2003): Bootstrap Methods for Time Series. Int. Statist. Rev. 71: 435–459. Jentsch, C. & Kreiß, J.-P. (2009): The multiple Hybrid Bootstrap - Resampling multivariate linear processes. Submitted. Kreiß, J.-P. & Neuhaus, G. (2006): Einführung in die Zeitreihenanalyse. Springer, Berlin. Kreiß, J.-P. & Paparoditis, E. (2003): Autoregressiveaided periodogram bootstrap for time series. Ann. Statist. 31: 1923–1955. Lahiri, S.N. (2003): Resampling Methods for Dependent Data. Springer, New York. Paparoditis, E. (2002): Frequency Domain Bootstrap for Time Series. In: Dehling, T., Mikosch, T., Sørensen, M. (2002): Empirical Process Techniques for Dependent Data. Birkhäuser, Boston: 365–381. Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteile SIERK FIEBIG* * HFE 1/2 Vorderachsentwicklung, Volkswagen Braunschweig, Gifhorner Straße 180, 38112 Braunschweig Zusammenfassung Die Auslegung und Entwicklung mechanischer Bauteile spielt innerhalb des Maschinenbaus bzw. des Fahrzeugbaus bei steigender Elektrifizierung eine wesentliche Rolle. Ziel ist es, einen möglichst kosteneffizienten Leichtbau umzusetzen. Der konventionelle Weg zum Leichtbau war die Substitution von Werkstoffen durch meist teureres Material, z.B. Stahl durch Aluminium. Alternativ werden heutzutage computergestützte Verfahren genutzt, um eine belastungsgerechte, gewichtsarme Materialanordnung zu finden. Summary The development of mechanical parts is traditionally an important field in mechanical engineering. Also in times of electrification in the automobile industry it keeps its role. In light construction it is further important to find cost-effective solutions. In general, the traditional way of light constructions is the substitution of material by normally more expensive materials, e.g. steel by aluminium. Today, computer-based methods are alternatively used to find a construction with a minimum weight and optimum distribution of material to the mechanical loads. dung die benötigte Dauer der Optimierung zusätzlich durch hohen Zeitdruck im Vordergrund. Durch die Einbindung von FEM-Lösern, die auch nichtlineare Analysen beherrschen, haben einige kommerzielle Anbieter teilweise Optimierungslösungen für nichtlineare Einflüsse geschaffen. So können heute nichtlineare Gummikennlinien und bedingt auch der Einfluss von nichtlinearem Materialverhalten abgebildet werden. Allerdings treten in der Praxis auch Nichtlinearitäten auf, die nicht zufrieden stellend gelöst werden können. Zusätzlich sind Problemstellungen zu finden, in denen für das Gradientenverfahren zwischen Designbereich und Zielbereich keine ausreichenden Sensitivitäten entstehen, z.B. wenn lokale Spannungsspitzen durch eine Veränderung des Kraftflusses verringert werden sollen. Die dritte Motivation für leistungsstärkere, aber auch zeitaufwendigere Optimierungsalgorithmen ist die Verbesserung der Ergebnisse über die Möglichkeiten von gradientenbasierenden Algorithmen hinaus. 2 1 Diskrete Topologieoptimierung Einleitung In den letzten Jahren haben sich Verfahren zur Optimierung von mechanischen Bauteilen in der industriellen Praxis durchgesetzt, die mathematisch auf Gradientenverfahren (z.B. Methode der zulässigen Richtungen bzw. Methode der beweglichen Asymptoten) basieren. Diese Gradientenverfahren werden mit einer Optimierungsmodellbildung gekoppelt, die innerhalb eines Finite-Elemente-Netzes die mechanischen Eigenschaften, in der Regel die Dichte und den E-Modul, verändern [BENDSOE & SIGMUND 2004, HARZHEIM 2008, SCHUMACHER 2005]. Für lineare FEM-Probleme sind diese Verfahren für industrielle Ansprüche bezüglich der zu erreichenden Optimierungsergebnisse zufriedenstellend und ausreichend. Hier steht häufig in der industriellen Anwen33 Für das Lösen von Spannungsproblemen bzw. von plastischem Materialverhalten bieten sich Methoden an, die das Material als diskret betrachten. Verfälschungen der Materialeigenschaften treten hier nicht auf, da das Material immer seine vollen mechanischen Eigenschaften besitzt oder eben gar keine, da es nicht vorhanden ist. Praktisch nicht umsetzbare Lösungsvorschläge, die ein Optimum durch eine Vielzahl von Elementen mit halber Dichte bzw. halbem E-Modul darstellen, sind damit von vorne herein ausgeschlossen. 2.1 Grundlagen Für die Anwendung diskreten Materials bietet sich ein zweistufiges Verfahren an. Im ersten Schritt AITUBS – Künstliche Intelligenz an der TU Braunschweig 34 werden sehr niedrig mit Spannungen belastete Bereiche entfernt, im zweiten Schritt werden Bereiche mit hohen Spannungen verstärkt, siehe hierzu MATTHECK [1996]. Bisherige Verfahren verändern dabei den E-Modul über die Dichte, wie beim SIMP-Ansatz1 [BENDSOE & SIGMUND 2004], beziehungsweise über Knotentemperatur als Hilfsgröße beim SKO-Verfahren2 [HARZHEIM 2008]. Bei dem hier beschriebenen Verfahren wird dagegen zum Entfernen von Material lediglich die relative Spannung in Verbindung mit einer Schrittweitenregelung verwendet. Die Schrittweitenregelung gibt vor, wie viele Elemente bzw. wieviel Material zu entfernen sind. Durch die Startkonfiguration des Optimierungsproblems bzw. vor allem durch das laufende Entfernen von Material treten im Bauteil Spannungen auf. Die Spannungen im Inneren des Bauteils können dabei nicht direkt beeinflusst werden. Schließlich kann hier kein weiteres Material hinzugefügt werden. Deshalb zielt die hier vorgestellte Methode nur auf die Randbereiche des Materials ab. Bereiche, die in Randbereichen hohe relative Spannungen aufweisen, sollen durch Materialanlagerung wieder „normalisiert“ werden. Da keine Gradienten berechnet werden sollen, werden alle Grenzfelder bzw. Grenzelemente von „nicht vorhanden“ auf „vorhanden“ gesetzt. In der nächsten Iteration wird anschließend anhand der Spannungen überprüft, ob die Felder über mehrere Iterationen vorhanden sein sollten oder gleich wieder entfernt werden müssten. In der Technik werden einzelne, hoch belastete Bereiche häufig Hotspot genannt. Daher soll dieser Teil der Methode mit Hotspot-Korrektur bzw. Hotspot-Correction (HSC) bezeichnet werden. Die Reduzierung der niedrigsten Spannungen soll mit LSR (für Lowest Stress Reduction) abgekürzt werden. 2.2 Schrittweitensteuerung Die wesentliche Herausforderung dieser Methode ist die Steuerung der Schrittweite für die Reduzierung der niedrigsten Spannungen (LSR) und HotspotKorrektur (HSC). Es muss festgelegt werden, wie viele Elemente zu entfernen sind bzw. wie viele Elemente hinzuzufügen sind. Aktuell werden zwei Ansätze kombiniert. Übergeordnet arbeitet eine SchrittweitenSteuerung, die eine maximale und eine minimale Schrittweite relativ zur Bauteilgröße mit Szenarien zur Reduzierung und Erhöhung der Schrittweite kombiniert. Da mit einem maximalen Bauraum begonnen wird, startet die Optimierung mit der maximalen Schrittweite. Sollte zwischen zwei Iterationen die Randbedingung zu einem definierten Vorgabewert zu stark steigen, wird die Schrittweite reduziert. Zusätzlich wird eine Reduzierung vorgenommen, wenn bei einem Bauteil die Lagerungen nicht mehr mit den Krafteinleitungen verbunden sind bzw. eine Iteration die maximal zulässige Randbedingung überschreitet. Steigen nach einer Reduzierung die Randbedingung nur sehr gering an oder fallen diese sogar, wird die Schrittweite wieder erhöht. Zusätzlich werden LSR und HSC durch einen Mechanismus gesteuert, der im Wesentlichen auf der Tatsache beruht, das ein Bauteil dann optimal ist, wenn alle Bauteilbereiche möglichst mit gleichmäßigen Spannungen belastet sind [BENDSOE & SIGMUND 2004]. Für alle Grenzelemente werden die Spannungen herangezogen und der Durchschnitt der Spannungen berechnet. In der Praxis hat es sich bewährt, jeweils 50% des Durchschnitts für die Grenze nach oben und unten zu verwenden. Elemente oberhalb des 1,5 fachen Spannungsdurchschnitts bestimmen die Schrittweite für die HSC, Elemente unterhalb der Hälfte des Durchschnittes ergeben die Reduktionsweite aus der Spannungsanalyse für LSR. Beide Schrittweiten (LSR Spannungsanalyse und HSC) werden mit dem Faktor Aktuelle Schrittweite/Maximale Schrittweite normiert. Für die LSR wird zusätzlich die Schrittweite aus der Schrittweitensteuerung mit der normierten Schrittweite aus der Spannungsanalyse kombiniert. Die HSC basiert dagegen nur auf der normierten Schrittweite aus der Spannungsanalyse. 2.3 1 2 Solid Isotropic Material with Penalization: Das E-Modul ist bei diesem Ansatz abhängig von der Dichte normiert auf die Eingangsdichte. Dieser Faktor wird potenziert mit dem PenaltyFaktor. Dadurch werden unerwünschte Zwischenwerte abhängig vom Penalty-Faktor bestraft. Das SKO-Verfahren (Soft Kill Option) basiert auf Wachstumsregeln von biologischen Vorbildern. Ziel ist es die Spannungen zu harmonisieren. Abhängig von einer Referenzspannung wird das E-Modul entweder erhöht oder reduziert, bis ein stabiler Zustand eintritt. Zur kontinuierlichen Modellierung des Materials wird die Knotentemperatur verwendet. Anwendungsbeispiel Das LSR-HSC-Verfahren soll an einer Referenzstruktur, die häufig für Vergleiche herangezogen wird, beurteilt werden. Bei der Mitchellstruktur [SCHUMACHER 2005] wird auf einem 2-dimensionalen Bauteil mittig eine Kraft aufgebracht. Ebenfalls mittig wird das Bauteil in allen Freiheitsgraden gelagert. SIERK FIEBIG : Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteile Im Optimierungsverlauf bis Iteration 14 erkennt man zu Beginn die Findung einer groben Struktur (Abb. 1). Es bilden sich oben und unten zwei massive Strebenverläufe aus. Zwischen den Streben entwickelt sich krafteinleitungsseitig ein dominierender Freiraum aus, während an der Lagerstelle eine starke Materialanhäufung vorherrscht. Charakteristisch für das Verfahren ist, dass Fachwerksstreben innerhalb der Struktur auch ganz aufgelöst werden. In der Abbildung 1 erkennt man diesen Vorgang sehr gut. Zuerst wird die Strebe unterbrochen und anschließend werden alle Elemente der Strebe auf Grund der sehr niedrigen Spannungen (Nullstab) entfernt. 35 Abb. 2: Harmonisierung Spannung nach Entfernen von Fachwerk 2.4 Arbeitsweise In Abbildung 3 ist für die Iteration 21 im Detail dargestellt, welche Elemente durch die Lowest Stress Reduction entfernt werden. Für die Hotspot Correction sind in der Abbildung ebenso die auslösenden Elemente und die angelagerten Elemente dargestellt. Bei den beiden senkrechten Fachwerkstreben in der Mitte des Fachwerkes ist zu erkennen, dass hochbelastete Bereiche verstärkt werden. Durch die Anlagerung an einer Seite können die Streben auch „wandern“ und sich dem Kraftfluss anpassen. Abb. 1: Harmonisierung Spannung nach Entfernen von Fachwerk In der Abbildung 2 erkennt man, wie nach dem Entfernen einer Fachwerkstruktur zum einen durch den Prozess der Elementumlagerung die Spannungen wieder harmonisieren, aber zum anderen auch die Optimierung in der Lage ist, die verbleibenden Fachwerkstreben so zu verschieben, dass wieder ein kraftflussoptimaler Zustand hergestellt wird. Diese Eigenschaften sorgen trotz des diskreten und somit unstetigen Antwortverhaltens der Randbedingung dafür, dass die Optimierung eine hinreichende Robustheit hat. Gerade durch die sehr geringe Materialverteilung, die für die Einhaltung der Randbedingung nötig ist, kann der verwendete Algorithmus seine Anwendbarkeit unterstreichen. Abb. 3: Arbeitsweise LSR und HSC Vergleichbare Prozesse gibt es z.B. in der Natur bei der Anlagerung von Sedimenten an einer Insel in Bereichen ohne starke Strömungen, während in Bereichen mit starker Strömung Material in der Regel entfernt wird. In der nächsten Iteration würden niedrig belastete Bereiche wieder entfernt, angelagerte Elemente, die entsprechend höher als das für die Entfernung notwendige Referenzniveau liegen, bleiben erhalten. 2.5 Umgang mit auftretenden während der Optimierung Problemen In späten Optimierungsphasen tritt das Phänomen auf, dass die massiven Bereiche nicht mehr beeinflusst werden, da im wesentlichen durch zuvor angelagerte, aber nicht ausreichend hoher Spannungen zum Verbleib gekennzeichneter Elemente wieder entfernt werden. Man erkennt, dass die Stellen zwar an den Streben stetig wechseln, aber kein Optimierungsfortschritt mehr erzielt werden kann (siehe Abb. 4). AITUBS – Künstliche Intelligenz an der TU Braunschweig 36 Abb. 6: Optimierungsverlauf Abb. 4: Umlagerung von Feldern ohne Strukturveränderung Eine weitere Herausforderung ist es, das unstetige Systemverhalten zu verarbeiten. Durch die stetige Reduktion von Material kann beim Wegfall eines tragenden Fachwerkes die Randbedingung, in diesem Beispiel die Verschiebung am Knoten der Krafteinleitung, deutlich ansteigen. In diesem Fall wird 3-stufig die Reduktionsweite verkleinert. Die kommerziellen Programme Optistruct und Tosca liegen von der Anzahl der benötigten Iterationen in einer ähnlichen Größenordnung. Da die Anzahl der Iterationen von Benutzereinstellungen und Konvergenzverhalten der Optimierung abhängig ist, sind in der Praxis 15 bis 70 Iterationen üblich. 2.7 Ergebnisdiskussion Bei der Diskussion des Ergebnisses fällt auf, dass bei der LSR-HSC-Methode deutlich weniger Fachwerksstrukturen in der Lösung vorhanden sind als bei den kommerziellen Programmen. Im massiven Bereich der Lagerung besteht noch weiteres Potenzial zur Gewichtsreduzierung Abb. 5: Umgang bei Wegfall tragender Strukturen Bei den kommerziellen Verfahren (SIMP und Gradientenverfahren) ergeben sich mehr Fachwerkstreben, da die Verfahren das Material in Bereichen von hoher Formänderungsarbeit anordnet. Der aktuelle Stand der LSR-HSC-Methode ergibt eine um 2,2% leichtere Lösung. Die Verschiebung liegt sogar um 22% besser. In Abbildung 5 tritt der Fall auf, dass die tragende Struktur des oberen Fachwerks durch die LSR unterbrochen wird. Im ersten Schritt wird daher die Reduktionsweite halbiert, im zweiten Schritt (falls ein erneutes Versagen der Struktur mit der Schrittweite aus Schritt 1 auftritt) auf ein Viertel gesetzt, im dritten Schritt findet nur eine Anlagerung vom Material statt, um die Struktur wieder zu stabilisieren. 2.6 Optimierungsverlauf Neben den technischen Eigenschaften ist die Anzahl der benötigten Iterationen interessant. Die LSRHSC-Methode findet in dieser Anwendung nach 46 Iterationen ihr Optimum. Ab ca. der 20igsten Iteration bildet sich dabei die finale Struktur aus. Ab diesem Zeitpunkt tritt die Optimierung in die Ausgestaltung von Feinheiten an der Kontur ein. Abb. 7: Ergebnisvergleich mit kommerziellen Programmen SIERK FIEBIG : Einsatz von nichtlinearer Optimierung für mechanisch belastete Bauteile 3 Einsatz Evolutionärer Algorithmen für mechanische Strukturoptimierung Für diskrete Aufgabenstellungen werden in der Regel Genetische Algorithmen eingesetzt. Diese Algorithmen zeichnen sich durch eine hohe Robustheit aus, können lokale Optima verlassen und decken in der Regel einen größeren Suchraum als Gradientenverfahren ab. Im Vergleich zu Gradientenverfahren sind Gründe für den Einsatz von EAs zum einen das mögliche Ausnutzen von weiteren Gewichtseinsparungspotenzialen, zum anderen aber auch die Anwendbarkeit auf hochkomplexe, nichtlineare Optimierungsprobleme, wie das Ausknickverhalten von Bauteilen. Bei mehrzieliger Optimierung ist die Möglichkeit des Auffindens von Paretofronten3 ein weiterer Vorteil. So muss eine Abwägung zwischen mehreren Designzielen nicht im Vorfeld vorgenommen werden. Im Anschluss an die Optimierung können die besten Kombinationen aus Sicht des Anwenders ausgewählt und tiefer beurteilt werden. Aus diesen Kombinationen wird anschließend die Variante bestimmt, die umgesetzt wird. Das Hauptproblem bei der Verwendung von Evolutionären Algorithmen, wie Evolutionsstrategien und Genetischen Algorithmen, ist der hohe Bedarf an Analysen. Während bei zeitunkritischen Antwortfunktionen, wie z.B. Traveling Salesman Probleme oder Testfunktionen aus dem mathematischen Umfeld mehrere tausend Berechnungen innerhalb einer Sekunde durchgeführt werden können, stehen aufgrund der langen Dauer einer FEM-Analyse nur ca. 1000 bis 2000 Berechnungen über die ganze Optimierung zur Verfügung. Hier bieten sich erneut auf Ingenieurwissen basierende Heuristiken an. Auf diesem Weg können bereits im Vorfeld als nicht sinnvoll erachtete Berechnungen ausgeschlossen und somit Rechenzeit gespart werden. Für die Anwendung von Genetischen Algorithmen innerhalb der Strukturoptimierung mechanischer Bauteile sind allerdings noch einige Probleme zu lösen. Im Wesentlichen muss ein hoher Selektionsdruck auf Grund der geringen Anzahl an möglichen Berechnungen mit der Erhaltung einer hinreichenden Diversität zwischen den Individuen in der Population in Einklang gebracht werden. Dadurch tritt bei den aktuellen Untersuchungen mit Evolutionären Algorithmen bzw. Genetischen Algorithmen das Problem auf, dass vielversprechende Berei- 37 che des Suchraums nicht ausreichend untersucht werden bzw. zu schnell verlassen werden. Heuristiken zur Steigerung der Effizienz und eine intelligente Steuerung der Population sind der Schlüssel zur erfolgreichen Verwendung von auf Evolutionsstrategien basierenden Algorithmen. 4 Zusammenfassung Drei Gesichtspunkte sind zur Weiterentwicklung aktuell besonders interessant: Die genaue Berücksichtung von Spannungen und plastischem Materialverhalten, das Lösen von Problemen mit geringen oder nicht vorhandenen Sensitivitäten zwischen Eingangsgrößen und Ausgangsgrößen und die Verbesserung der Ergebnisse. Dieses triviale Ziel relativiert sich, wenn man z.B. eine Gewichtsverbesserung von 5% bei im Automobilbau durchaus üblichen Stückzahlen von 200.000 bis 1 Million und einem Bauteil von ca. 10 kg Gewicht betrachtet. Hier besteht ein deutliches Potenzial zur Kosteneinsparung bzw. CO2-Minderung. Für die genaue Berücksichtigung von Spannungen und plastischem Materialverhalten bietet sich eine diskrete Materialmodellierung (nur „vorhanden/nicht vorhanden“, ohne Zwischenwerte) an. Zur Optimierung mit diskretem Materialverhalten sind in diesem Beitrag die Methoden Lowest Stress Reduction und Hotspot-Correction, zusammen mit einer entsprechenden Schrittweitensteuerung, beschrieben worden. Es wurde an einem Beispiel gezeigt, dass dieses Verfahren in der Lage ist, bessere Lösungen als kommerzielle Programme mit kontinuierlicher Materialmodellierung und Gradientenverfahren zu finden. Bestehender Nachteil ist, dass auch bei diesem Verfahren weiterhin Sensitivitäten direkt für Veränderung der Eingangsgrößen aus den Ausgangsgrößen benötigt werden. Hier bietet es sich an, auf Evolutionäre Algorithmen bzw. Genetische Algorithmen zurückzugreifen. Ein weiterer Vorteil ist, dass sich LSR/HSC mit diesen Algorithmen kombinieren lässt. Literatur BENDSOE, M.P & SIGMUND, O. (2004): Topology Optimization: Theory, Methods and Applications. Springer. HARZHEIM, L. (2008): Strukturoptimierung, Grundlagen und Anwendungen. 1. Aufl., Verlag Harri Deutsch. MATTHECK, C. (1996): Design in der Natur: Der Baum als Lehrmeister. 3. Aufl., Rombach Druck- und Verlagshaus. SCHUMACHER A. (2005): Optimierung mechanischer Strukturen: Grundlagen industrielle Anwendungen. Springer. 3 Die Paretofront besteht aus den Ergebnissen, bei denen eine Eigenschaft nur verbessert werden kann, indem eine weitere Eigenschaft sich verschlechtert. Approximative Dynamische Programmierung für Vehicle Routing Probleme Stephan Meisel∗ ∗ Institut für Wirtschaftsinformatik, Mühlenpfordtstr. 23, 5.OG, TU Braunschweig Zusammenfassung licht die Streckenplanung zur Güterabholung für ein Fahrzeug. Kundenanfragen treffen zufällig über einen bestimmten Zeithorizont verteilt ein und müssen nach dem Bekanntwerden entweder angenommen oder abgelehnt werden. Das Planungsziel besteht in der Maximierung der Gesamtanzahl bedienter Kunden im Verlaufe der gegebenen Zeitspanne (etwa der gesetzlich vorgeschriebenen maximalen Lenkzeit des Fahrers). Einem Kunden werden jeweils eine Nachfragewahrscheinlichkeit sowie eines von mehreren geographischen Ballungszentren zugeordnet. Diese Problemstellung spiegelt so eine typische Situation eines Logistikdienstleisters wider, der mit einem Fahrzeug etwa eine ländliche Region mit mehreren Kleinstädten bedient. Die Approximative Dynamische Programmierung wird genutzt um eine Politik zu lernen, die möglichst gewinnoptimale Entscheidungen über Ablehnung und Annahme neu nachfragender Kunden sowie über den nächsten anzufahrenden Ort ermöglicht. Approximative dynamische Programmierung [Sutton & Barto 1998; Bertsekas & Tsitsiklis 1996; Powel 2007] ist eine Erweiterung der simulationsbasierten Methoden der stochastischen dynamischen Programmierung. Letztere sind lernende Verfahren, die dem Auffinden einer exakten Lösung für die Optimalitatsgleichungen dynamischer Systeme dienen. Die Optimalitatsgleichungen sind auch unter den Namen „Bellman-Gleichungen“ oder „HamiltonJacobi-Gleichungen“ bekannt. Typische Methoden der stochastischen dynamischen Programmierung folgen dem Prinzip der grundlegenden Lernverfahren „Value Iteration“ und „Policy Iteration“. Sie sind zudem sehr eng verwandt mit dem Bereich des „Reinforcement Learning“ in der künstlichen Intelligenz und dem Bereich des „Model- Predictive-Control“ in der Kontrolltheorie. Für zahlreiche Anwendungen erfordern die Methoden zur exakten Lösung der Optimalitatsgleichungen jedoch einen prohibitiven Rechenaufwand und sind deswegen praktisch kaum anwendbar. Eine Alternative besteht in den Methoden der approximativen dynamischen Programmierung. Diese bilden eine Erweiterung der stochastischen dynamischen Programmierung und zielen auf eine näherungsweise Lösung der Optimalitätsgleichungen. Zu diesem Zweck wird eine Regressionsfunktion eingeführt, deren Parameter aus den Daten simulierter Systemtrajektorien bestimmt werden. Die Wahl der Regressionsfunktion ist dabei frei und reicht von einfachen linearen Funktionen bis zu komplexen Neuronalen Netzen. Genauer betrachtet wird ein Ansatz der Approximativen Dynamischen Programmierung für ein dynamisches Vehicle Routing Problem. Der Ansatz ermög- Literatur Sutton, R. S. & Barto, A. G. (1998): Reinforcement Learning: An Introduction – Adaptive Computation and Machine Learning. MIT Press (Cambridge, MA). ISBN 0-262-19398-1. Bertsekas, D. P. & Tsitsiklis, J. N. (1998): NeuroDynamic Programming – Optimization and Neural Computation Series 3, Athena Scientific. ISBN 1-886529-10-8. Powel W. B. (2007): Approximate Dynamic Programming: Solving the Curses of Dimensionality. John Wiley & Sons. ISBN 978-0-470-17155-4. 38 Zelluläre Grundlagen von Lernvorgängen im Gehirn Martin Polack∗ , Marta Zagrebelsky∗ & Martin Korte∗ ∗ Zoologisches Institut, Abt. Zelluläre Neurobiologie, TU Braunschweig Zusammenfassung ist der Nervenwachstumsfaktor BDNF (brain-derivedneurotrophic factor) und Neurotrophin-Rezeptoren, wie der TrkB- und der p75-Rezeptor. Eine weitere wichtige Erkenntnis der letzten Jahre besteht darin, dass auf molekularer Ebene die Proteine, die für neuronale Plastizität essentiell sind, auch zwischen ganz verschiedenen Tierarten konserviert wurden. Außerdem sind bei aktivitätsabhängiger synaptischer Plastizität zum Teil die gleichen Moleküle von Bedeutung, die bei der postnatalen Entwicklung in der Organisation des Nervengewebes eine Rolle spielen. Mit Hilfe von elektrophysiologischen Methoden und modernen Imaging Verfahren untersuchen wir die Mechanismen struktureller und funktioneller Plastizität im Säugetiergehirn. Unser Gehirn muss eine ungeheuer komplizierte Aufgabe erfüllen: Es muss einen kontinuierlichen Fluss an Sinnesinformationen verarbeiten und zur gleichen Zeit Erinnerungen, zum Teil für ein Leben lang, speichern und abrufen. Die Transmission von chemischen Botenstoffen zwischen Nervenzellen erfolgt dabei ebenso an den Synapsen wie das Generieren und Speichern neuer Informationscodes. Die Abteilung „Zelluläre Neurobiologie“ unter Leitung von Prof. Dr. Martin Korte, geht der Frage nach, welche Mechanismen und welche biochemischen Prozesse diese Lern- und Gedächtnisvorgänge ermöglichen. Man weiß, dass Lernprozesse an identifizierbaren synaptischen Punkten ablaufen. Vor allem konnte nachgewiesen werden, dass bei der Aufrechterhaltung der Langzeitpotenzierung (LTP) auch neue Synapsen entstehen können und so funktionelle in strukturelle Veränderungen übersetzt werden. Ein herausragendes Merkmal von Säugetierneuronen ist die Komplexität dendritischer Verzweigungen. Es sind die Dendriten eines Neurons, an dem normalerweise Informationen von anderen Neuronen empfangen, integriert und prozessiert werden. Zusätzlich zu den komplexen dendritischen Verästelungen zeigen viele Neuronen, darunter Pyramidenzellen im Hippocampus und im Cortex, dendritische Spezialisierungen, die als Spines (Dornen) bezeichnet werden und die die postsynaptische Seite exzitatorischer Eingänge darstellen. Die Form und der Umfang des Dendritenbaumes beeinflusst maßgeblich die dendritische Informationsverarbeitung und die Integration von synaptischer Aktivität. Ein interessanter molekularer Kandidat, der daran beteiligt ist, diese Veränderung in der Funktion (Verstärkung der Synapse) in eine Strukturveränderung (Neubildung von Spines/Synapsen) zu übersetzen, Literatur Rauskolb, S., Zagrebelsky, M., Dreznjak, A., Deogracias, R., Matsumoto, T., Wiese, St., Erne, B., Sendtner, M., Schaeren-Wiemers, N., Korte, M. & Barde Y.-A. (2010): Global deprivation of brainderived neurotrophic factor in the CNS reveals an areaspecific requirement for dendritic growth. Journal of Neuroscience 30: 1739–1749. Korte, M. (2009): Bridging the gap and staying local. Science 324(5934): 1527–1528. Korte, M. (2009): A protoplasmic kiss to remember. Science 319(5870): 1627–1628. Matsumoto, T., Rauskolb, S., Polack, M., Klose, J., Kolbeck, R., Korte, M. & Barde Y.-A. (2008): Biosynthesis and processing of endogenous BDNF: CNS neurons store and secrete BDNF, not pro-BDNF. Nature Neuroscience 11: 131–133. 39 40 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Roth-Alpermann, C., Morris, R. G. M., Korte, M., Bonhoeffer, T. (2006): Homeostatic shutdown of longterm potentiation in the adult hippocampus. PNAS 103: 11039–11044. Gärtner, A., Polnau, D. G., Staiger, V., Sciarretta, C., Minichiello, L., Thoenen, H., Bonhoeffer, T. & Korte, M. (2006): Hippocampal long-term potentiation is supported by presynaptic and postsynaptic tyrosine receptor kinase B-mediated phospholipase Cγ signaling. Journal of Neuroscience 26: 3496–3504. Rösch, H., Schweigreiter, R., Bonhoeffer, T., Barde Y.-A. & Korte, M. (2005): The neurotrophin receptor p75NTR modulates long-term depression and regulates the expression of AMPA receptor subunits in the hippocampus. PNAS 102: 7362–7367. Zagrebelsky, M., Holz, A., Dechant, G., Barde Y.A., Bonhoeffer, T. & Korte, M. (2005): The p75 Neurotrophin Receptor Negatively Modulates Dendrite Complexity and Spine Density in Hippocampal Neurons. Journal of Neuroscience 25: 9989–9999. Künstliche Neuronale Netze – Ein Blick in die Black Box – Michael Heinert∗ ∗ Institut für Geodäsie und Photogrammetrie, Gaußstraße 22, 38106 Braunschweig Zusammenfassung The black box character that was firstly the big advance in the use of ANN – the supervisor must not think about the model set up – becomes the crucial disadvantage. Finally, there seems to be no possibility to improve the networks by using simple rules up to now. Accordingly it is necessary to understand how an ANN projects the behaviour of a system into its weight matrix. Eine Abfolge einfacher Maßnahmen erlaubt die Analyse eines trainierten künstlichen neuronalen Netzes und damit die Möglichkeit dieses zu verbessern. Auf diese Weise gelingt es die Black Box eines künstlichen neuronalen Netzes (KNN) zu öffnen. KNNs sind einfach aufzustellen und zu trainieren, dabei liefern sie auch noch schnell gut approximierende Modellresultate. Mit zunehmender Komplexizität des abzubildenden Systems wachsen die Probleme. Zwar kann der Trainingsdatensatz mit einer entsprechend hohen Anzahl von Neuronen bestmöglich angepasst werden, doch eine Prädiktion, die eine Generalisierung voraussetzt, kann nicht mehr erfolgreich durchgeführt werden. Der Black Box -Charakter, der zunächst ein durchaus wünschenswerter Vorteil – ein Benutzer musste sich über physikalische Modellansätze keine Gedanken machen – gewesen ist, wird nun der größtmögliche Nachteil. Es scheint derzeit kaum geeignete Möglichkeiten zu geben, KNNs nachhaltig zu verbessern. Demzufolge ist es notwendig zu verstehen, wie das KNN ein Systemverhalten in seine Gewichtsmatrix abbildet. 1 Einführung Die künstlichen neuronalen Netze (KNN) wurden ursprünglich für Aufgaben in der Mustererkennung entwickelt [Turing 1948; Farley & Clark 1954; Rosenblatt 1958]. Dennoch hat sich der Nutzungsumfang längst auf die mehrdimensionale nichtlineare Regression ausgedehnt. Betrachten wir die Zeitreihen aus geodätischen Messungen als realisierten Prozessausgang eines Systems – ein System kann beispielsweise ein Bauwerk oder auch ein Fahrzeug sein – und stehen gleichermaßen gemessene Umweltdaten, wie Temperatur, Luftfeuchte; aber auch wirkende Kräfte wie Wasserstände oder Verkehrsauflasten als Prozesseingänge zur Verfügung, dann werden die KNN für eine Modellbildung überaus interessant [Heine 1999]. Einerseits besitzt ein KNN den entscheidenden Vorteil, dass keine physikalisch-mathematischen Beziehungen zwischen Ein- und Ausgangsgrößen verwendet, um ein Modellverhalten eines Systems zu generieren. Das hat zur Folge, dass die Systemfunktion durch eine Gewichtsmatrix abgebildet wird, deren Elemente zunächst frei von jeder physikalischen Bedeutung sind. Summary A combination of several simple measures enables the analysis of a trained neural network and thus the possibility for an improvement of it. Such way it is possible to open the black box of an artificial neural network (ANN). These are simple in set up, easy to train and deliver quickly well-fitted model results. But an ANN faces increasing problems with the complexity of the systems it has to model. While the fit of the training data can be infinitely improved by adding more neurons, the quality of the prediction becomes worse. 41 42 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Andererseits stellt genau dieser zunächst angenehme Black Box -Charakter ein schwerwiegendes Problem dar: Mit einer wachsenden Komplexizität des zu überwachenden Objektes werden mehr Parameter bzw. Gewichte benötigt und es wächst damit auch die notwendige Kapazität des Modells. Das Modell als Abbildung des Systems wird seinerseits komplex und sehr schnell unüberschaubar. Ein typisches Anzeichen hierfür ist das Phänomen, dass während der Optimierungs-, Trainings- oder Lernphase des Modells die Differenzen zwischen Systemausgang und Modellausgang minimal werden, also das Modell auf den ersten Blick als Optimal erscheint, aber keineswegs zu einer noch so kleinen Prädiktion oder Extrapolation in der Lage ist. Dieses Problem ist keineswegs auf einfachem Wege lösbar, denn die Gewichte des neuronalen Modells entziehen sich einer physikalisch-mathematischen Interpretation. Der anfängliche Vorteil verkehrt sich also sehr schnell ins Gegenteil. Im Rahmen der folgenden Erörterungen soll der Fokus speziell auf die Eigenschaften und Möglichkeiten der überwachten und mehrschichtigen Feed-Forward Netze (MLFF) gelegt werden. Unüberwachte Lernstrategien, Assoziative Netze, Kohonen-Netze oder Agenten, welche allesamt auch unter die Neuronalen Netze gerechnet werden [Haykin 1999, Kap. 9], sind hingegen kein Gegenstand dieser Betrachtungen. 2 Wie bildet ein künstliches neuronales Netz ein System ab? Zellkern Dentrit Axon Synapse x1 x2 Neuron Synapsen Gewichtete Summation Σ y1 Aktivierungsfunktion xm Abb. 1: Das biologische Neuron [Sitter 2001] als Vorbild für ein künstliches mathematisches Neuron [Heinert 2008]. All jene Synapsen, also Zellverbindungen, deren kumuliertes Signal das Feuern unserer einzelnen Zelle ausgelöst haben, werden gestärkt. Alle inaktiven Verbindungen hingegen werden geschwächt und können schließlich auch vollständig verschwinden. Die Zelle hat gelernt. Auf diese Weise werden nur wirklich benötigte Verbindungen erstellt. In der mathematische Kopie dieses Prozesses wird die Stärke einer jeden i-ten Synapse durch das Gewicht wi repräsentiert. Mit diesem Gewicht werden die eintreffenden Signale xi multipliziert [Spitzer 2002, S. 55f]. Man erhält damit den kumulierten Stimulus 2.1 Herleitung aus der Biologie ȳ¯(t) = Auch wenn es oft geschildert worden ist: Ein künstliches neuronales Netz ist der Versuch, die Arbeitsweise eines biologischen Gehirns zu imitieren. Wie aber funktioniert in etwa ein biologisches Gehirn? Zunächst einmal ist es aus Zellen zusammen gesetzt – den sogenannten Neuronen. An ihren Synapsen empfangen die Neuronen chemo-elektrische Signale ihrer Nachbarn [Haykin 1999, S. 9f]. Überschreitet in einer Zelle die Spannung der eingehenden Sigale einen zelltypischen Schwellwert, so beginnt diese Zelle selbst ein chemo-elektrisches Signal an seine Nachbarn auszusenden, oder wie es eben heißt, es „feuert“ (Abb. 1). Die Signale, die unsere einzelne Zelle empfangen hat stammen aber nicht unbedingt von der gleichen Gruppe Zellen, die jetzt ein Signal erhält. Postsynaptisches Neuron n ∑ wi · xi (t) = wT · x(t) (1) i=1 ∀ x ∈ X ⊂ IRn , t ∈ T ⊂ IR, w ∈ W ⊂ IRn . Die zelltypische Reaktion beschreibt nun eine Aktivierungsfunktion. Durchaus ähnlich zum biologischen Vorbild ist die Heaviside-Funktion ∫ ∞ 1 1 Θ(υ) = lim − e−iυτ dτ (2) ε→0 2πi −∞ τ + iε aus der die Schwellwert-Aktivierungsfunktion 1 φΘ (υ) = 2 ( υ +1 |υ| ) (3) abgeleitet werden kann. Die Individualität der Reaktion einer jeden einzelnen Zelle auf die verschie- Michael Heinert et al.: Künstliche Neuronale Netze 43 Tab. 1: Gängige Aktivierungsfunktionen: Die ersten drei eignen sich vornehmlich für MLFF-Netze, die letzte eher für RBF-Netze. SchwellwertAktivierung (Heaviside) beschränkt lineare Aktivierung φΘ (υ) = ( 1 2 υ |υ| φ(υ) 1 ) +1 -4 -2 1 0 ∀ υ ≤ 2m 1 1 mυ + 2 ∀ − 2m < υ ≤ φ[/] (υ) = 1 1 ∀ υ > 2m 0 2 4 υ 2 4 υ 2 4 υ 2 4 υ φ(υ) 1 1 2m -4 -2 0 φ(υ) 1 sigmoidale Aktivierung φΣ (υ) = 1 1+e−aυ -4 -2 0 φ(υ) 1 υ 2 Gausssche Aktivierung φN (υ) = e−( σ ) -4 -2 denen Stimuli durch die Eingänge xi ȳ(t) = φΘ (ȳ¯(t)) ( = φΘ N+ ∑ ) wi · xi (t) i ( ) = φΘ N + wT · x(t) . (4) wird zusätzlich noch durch den Bias N gesteuert, der jedem Neuron ein anderes Intervall der Aktivierungsfunktion φ[ · ] zuweist. Ein weiterer unabhängiger Netztyp ist das sogenannte RBF-Netz. Mehrere aktivierte radiale Basisfunktionen (RBF) Φi (w) = φ (∥xi − χk ∥) + N 0 erst später entdeckt worden ist. So dokumentieren Wilson & McNaughton [1993] wie Ratten mittels Ortsneuronen im Hippocampus sich durch ihre Umwelt bewegen. Eine Gruppe von Ortsneuronen speichert dabei eine besondere Wegmarke. Nähert sich die Ratte diesem Ort, wird diese Gruppe von Neuronen aktiv und „feuert“. Befindet sich die Ratte aber auch in der Nähe anderer derart gespeicherter Orte, so sind auch deren Repräsentanten aktiv. Die über die reziproke Entfernung gewichtete Summe der Signale beschreibt der Ratte somit ihre genaue Position [Spitzer 2002, S. 24f]. Nicht von ungefähr sind RBFs und die daraus abgeleiteten RBF-Netze also für nichtlineare Interpolationsund Regressionsalgorithmen überaus nützlich. (5) sind in einer einzelnen versteckten Schicht angeordnet [Patterson 1996, Abschn. 7.2.1]. Die Grundlage für diesen Netztyp bildet das Theorem von Cover [1965]. Während es sich hierbei zunächst um einen reinen mathematischen Ansatz handelt, existiert auch hier ein biologisches Vorbild, das aber 2.2 Herleitung aus der Algorithmik Jedes einzelne künstliche Neuron verfügt über eine nicht zu unterschätzende Modellkapazität. Das wird insbesondere dann deutlich, wenn wir ein einzelnes Neuron unter mathematisch gleichartigen AI TUBS – Künstliche Intelligenz an der TU Braunschweig 44 Algorithmen betrachten. Dazu vernachlässigen wir für einen Augenblick den biologischen Ursprung. Ein rekursiver Algorithmus ist in der Lage aus einer Zeitreihe heraus das jeweils aktuelle Element aus seinen Vorgängern mittels des wohlbekannten autoregressiven Modells AR[p]: yt = p ∑ (6) uτ yt−τ τ =1 mit den p Parametern u zu bestimmen (Abb. 2a). Dieses Modell basiert auf der Autokorrelation der Elemente, was sich aus der Yule-WalkerGleichung eindrücklich zeigen lässt. Nun stören äußere Einflüsse in aller Regel diese Autokorrelation, womit die Autoregressivität versagt. Daher erweitert man dieses Modell um exogene Eingänge x. Diese gemessenen Systemeingänge – in aller Regel handelt es sich um Umwelteinflüsse oder einwirkende Kräfte – werden mit Gewichten w multipliziert und in die Summation des AR-Modells mit aufgenommen (Fig. 4b). Dieses erweiterte Modell wird als ARX-Modell bezeichnet. Eine genaue Betrachtung des Aufbaus eines nichtlinear aktivierten rekursiven Neurons führt mit dem vorangestellten Wissen zum unweigerlichen Schluss, dass es mit einem nichtlinearen autoregressiven Modell mit exogenen Eingang (NARX) identisch ist [Bunke 1997; Heinert & Niemeier 2004]. Demzufolge können wir vergleichen: • unverzerrtes rekursives Neuron mit unbeschränkter linearer Aktivierung p e ∑ ∑ ⇐⇒ yt = uτ yt−τ + wθ xt−θ ⇐⇒ τ =1 • nicht-rekursives Neuron mit nichtlinearer Aktivierung ( ) e ∑ ⇐⇒ yt = φ N + wθ xt−θ ⇐⇒ θ=0 verzerrtes nichtlineares triviales autoregressives Modell mit exogenem Eingang (ARX[0, e]). Dieser detaillierte Vergleich der Algorithmen und ihren Eigenschaften eröffnet neue Erkenntnisse, denn mit diesem Wissen können die Resultate von Untersuchungen in anderen Fachgebieten zu Rate gezogen werden. Denn nicht wenige Autoren betonen die große Modellkapazität der verschiedenen autoregressiven Modelle [Ghosh & Maka 2008; Mellit & Kalogirou 2008; Menezes & Barreto 2008, et al.]. Nun sind in einem neuronalen Netz mehr als einer dieser mächtigen Algorithmen kombiniert, was ihre Modellkapazität eben nicht summiert sondern eher multipliziert. x uτ·yt-τ x τ =1 θ=0 • rekursives Neuron mit nichtlinearer Aktivierung ⇐⇒ ( ) p e ∑ ∑ yt = φ wθ xt−θ uτ yt−τ + N + τ =1 θ=0 ⇐⇒ verzerrtes nichtlineares autoregressives Modell mit exogenem Eingang (NARX[p, e]), wτ·xt-τ-θ τ b uτ·yt-τ x y t t y θ=0 autoregressives Modell mit verzerrtem exogenem Eingang, t y autoregressives Modell mit exogenem Eingang (ARX[p, e]), • rekursives Neuron mit unbeschränkter lineare Aktivierung p e ∑ ∑ wθ xt−θ ⇐⇒ ⇐⇒ yt = uτ yt−τ + N + a wτ·xt-τ-θ c t t t Abb. 2: Vergleich verschiedener Algorithmen: a) das autoregressive Modell, b) das autoregressive Modell mit einem exogenen Eingang und c) das nichtrekursive Neuron mit unbeschränkt linearer Aktivierung. Michael Heinert et al.: Künstliche Neuronale Netze a b c 45 d e f ? Abb. 4: Die XOR-Dichotomie a) im zweidimensionalen Zustandsraum, b) im dreidimensionalen Objektraum mit den Normalenvektoren der Abbildungen, c) in einen orthogonalen Zustandsraum, d) die Abbildung der klassifizierenden Ebene in den Zustandsraum, e) die theoretische Klassifizierung durch drei Neuronen (grau) und zwei RBF-Neuronen (schwarz) im Vergleich und f) praktische Lösung. 2.3 Herleitung aus der Lerntheorie Eine völlig andere Erklärung der hohen Modellkapazität eines neuronalen Netzes ist ebenfalls überraschend. Stellen wir uns hierzu vor, dass alle Muster bestehend aus Eingangs- und Ausgangsdaten in einen n-dimensionalen Merkmalsraum H transformiert und abgebildet werden. Dessen Dimension n sei signifikant höher als die Anzahl m der ein- und Ausgangskanäle. In diesem Merkmalsraum existiere ferner eine n − 1 dimensionale Hyperebene, welche – für eine Mustererkennung – die Muster in zwei Klassen separiert oder welche – für eine Regression – die Muster ideal linear annähert. Eine solche Abbildung der Daten würde sehr viel Rechenzeit benötigen. Man stelle sich also vor, man würde statt dessen diese Hyperebene aus dem Merkmalsraum in den ursprünglichen Datenraum abbilden. Für ei- data space IR² feature spaceH³ ? Abb. 3: Eine Menge von Mustern befindet sich auf einer Ebene im dreidimensionalen Merkmalsraum (links). Nach der Abbildung der Muster in die z.B. x-z-Ebene des Koordinatensystems ist eine lineare Regression unmöglich (rechts). ne Reihe von neuronalen Netzen mit einer verdeckten Schicht lässt sich der mathematische Nachweis erbringen, dass sie gerade eine solche Rücktransformation einer Hyperebene im Merkmalsraum darstellen1 [Haykin 1999, S. 333]. 1 Die Support Vector Machines (SVM) mit ihren Kernfunktionen lassen sich ebenfalls auf diese Grundidee zurückfüh- 1. Beispiel: Um diesen thereotischen Entwurf verstehen zu können, stellen wir uns vor, unsere Muster seien auf einer schiefen Ebene in einem dreidimensionalen Merkmalsraum angeordnet (Abb. 3, links). Eine dreidimensionale lineare Regression würde unmittelbar in der Lage sein, diese Punkte zu modellieren. Stellen wir uns weiterhin vor, die Muster würden in eine Ebene abgebildet, die durch zwei beliebige Koordinatenachsen aufgespannt wird, dann würde die lineare Regression dieser scheinbar zufällig angeordneten Muster mit großer Wahrscheinlichkeit völlig versagen (Abb. 3, rechts). In dieser Situation befinden wir uns aber häufig mit unseren Daten im Ursprungsraum: eine oder mehrere wichtige Merkmale sind nicht explizit bekannt oder fehlen völlig. 2. Beispiel: Eine klassische Darstellung dieses Problems ist das sogenannte XOR-Problem [Haykin 1999, S. 175f und S. 259f]. Die Ergebnisse der Booleschen Funktion des ausschließenden Oders, eben XOR, sollen linear separiert werden. Dazu werden die wahren Aussagen mit einer 1 und die falschen mit einer -1 gekennzeichnet. Eine lineare Separierung der Ergebnisse bezüglich dieser Kennzeichnung in zwei Klassen ist unmöglich (Abb. 4a). Wird jedes Muster x = {[0, 0] ; [0, 1] ; [1, 0] ; [1, 1]} um seinen jeweiligen Funktionswert y = {1; −1} ergänzt, so ordnen wir jedes Muster im Merkmalsraum H3 an (Abb. 4b). Hier existiert sehr wohl eine linear Fläche, welche die Muster in zwei Klassen separiert. Es wird aber auch deutlich, dass ein orthogonaler Datenraum existieren muss, in dem diese Trennung unmittelbar gelingt (Abb. 4b, Pfeil von rechts; ren [Mercer 1909; Vapnik 1998; Haykin 1999; Schölkopf & Smola 2001; Riedel & Heinert 2008] AI TUBS – Künstliche Intelligenz an der TU Braunschweig 46 Abb. 4c). Würde der ganze Merkmalsraum mit der Hyperebene in den ursprünglichen zweidimensionalen Datenraum abgebildet – wobei der Charakter einer Fläche natürlich verloren ginge (Abb. 4d), aber als Gedankenexperiment ist es dennoch hilfreich – so erhielte man unter anderem die Lösungen verschiedener neuronaler Netze [Haykin 1999, S. 333]. 2.4 Herleitung aus praktischen Betrachtungen Abseits der Theorie ist die Arbeitsweise eines Neurons innerhalb eines neuronalen Netzes recht einfach. Diese Arbeitsweise wird besonders einfach verständlich, wenn wir im Folgenden eine beschränkte lineare Aktivierungsfunktion 1 0 ∀ υ ≤ 2m 1 1 1 mυ + 2 ∀ − 2m < υ ≤ 2m (7) φ[/] (υ) = 1 1 ∀ υ > 2m verwenden. Diese Funktion habe die Steigung m sowie ihre obere Schranke bei 1 und ihre untere bei 0 (Tab. 1). Man findet als alternative Beschränkungen gelegentlich auch −1 und 1 [Haykin 1999, Abb. 14.22]. 3. Beispiel: In einem neuronalen Netz mit einer verdeckten Schicht, verwendet jedes Neuron seine Gewichte w und den Bias N , um eine optimale Sekante durch die reale Systemfunktion zu legen. Um dieses zu zeigen, stellen wir uns vor ein System generiere einen Systemausgang y(t), dessen deterministischer Anteil gerade der quadrierte Systemeingang x(t) sei (Abb. 5). Eine optimale angepasstes Netz mit zwei verdeckten Neuronen modellierte die Systemfunktion mit einer trogförmigen stetigen Funktion (Abb. 6a). Die Symmetrie dieser Funktion und die jeweiligen Steigungen sind dabei abhängig von der Verteilung der verfügbaren Muster (Abb. 6b). Betrachten wir den Fall für nur vier Muster, so wird dieses Netz die Muster ohne Residuen modellieren können (Abb. 6c). Allerdings ist dieses eine Ergebnis nicht festgelegt. Es können auch andere Lösungen mit unterschiedlichen Steigungen dieser linearen Segmente auftreten. Insbesondere der rechte Arm der Modellfunktion ist hier für zu schwach bestimmt. Verwendet man in diesem Beispiel statt der beschränkten linearen Aktivierung vielmehr eine nichtlineare, so verschwinden zunächst 1,0 input x 0,5 output y model y 0,0 -0,5 -1,0 0,0 0,2 0,4 time t 0,6 0,8 1,0 Abb. 5: Ein KNN mit zwei Neuronen in der verdeckten Schicht modelliert eine Zeitreihe. Der beobachtete Systemausgang y (Punkte) ist der quadrierte Eingang x (Striche). Der Modellausgang ȳ (graue Linie) liefert eine gute Approximation. die typischen Ecken der Modellfunktion. Üblicherweise kommt hier der Tangens hyperbolicus als Aktivierung φΣ (υ) = 1 . 1 + e−aυ (8) zum Einsatz. Damit dürfen wir im Wertebereich der Muster eine sehr glatte und zuverlässige Anpassung erwarten (Abb. 6d). 2.5 Wieso ist ein künstliches neuronales Netz eine Black Box? Das Kernproblem eines künstlichen neuronalen Netzes ist sein Black Box -Charakter. Dieser erschwert maßgeblich die Analyse der Modellfunktion hinsichtlich ihrer Glaubwürdigkeit und Plausibilität. Somit werden Untersuchungen hinsichtlich dieser Faktoren auch gern unterlassen. Ein typisches Phänomen lässt sich bei bereits konvergierten Lösungen beobachten: jeder Trainingslauf liefert eine neue, mit den anderen Lösungen nicht vergleichbare Gewichtsmatrix [Miima 2002]. Dennoch sind die Ausgaben y überraschend ähnlich, wenn nicht sogar gleich. Schuldig hieran sind die Startwerte der Gewichtsmatrix, die in aller Regel aus kleinen Zufallszahlen bestehen. Diese sind – so sind die meisten Programmroutinen definiert – natürlich mit jedem neuen Trainingslauf unterschiedlich. Demzufolge sind auch die opimalen Gewichtsmatrizen jeweils unterschiedlich. Die Unterschiede finden sich sowohl in den Werten für die Gewicht w als auch in den Positionen der homologen Neuronen im Netz. Dieses Phänomen hat seine Ursache aber nicht in den Startwerten – diese offenbaren nur das Phänomen – sondern in der Unterbestimmtheit des Netzes [Vapnik 1998; Haykin 1999]. Das bedeutet die Modellkapazität des gewählten Netzes Michael Heinert et al.: Künstliche Neuronale Netze a b y c y x 47 d y x y x x Abb. 6: Gleiches KNN wie in Abb. 5, Aber der Ausgang ȳ ist aufgetragen über x: a) zwei beschränkt linear aktivierte Neuronen mit symmetrischem Eingangsintervall (grauer Hintergrund), b) mit asymmetrischem Eingangsintervall, c) unter Verwendung von nur vier Mustern und d) zwei sigmoidal aktivierte Neuronen mit symmetrischem Eingangsintervall. ist viel zu hoch bezüglich der Anzahl und Qualität der Muster. Diese Unterbestimmtheit ist wesentlich weiter gefasst als beispielsweise die fehlende Redundanz eines Ausgleichungsproblems [Niemeier 2008]: selbst wenn die Anzahl der Freiheitsgerade bereits hoch ist, kann das Modell –hier eben ein neuronales Netz – bei weitem unterbestimmt sein. Es ist für die Frage nach dem Black Box -Charakter von größter Wichtigkeit zu verstehen, was in einem unterbestimmten Netz passiert: Ein und dieselbe Eingangs- und Ausgangsbeziehung der Systemfunktion kann durch getrennte Gruppen von Neuronen modelliert werden. Angenehmerweise wird dieses Netz schnell konvergieren. Entscheidend ist aber, dass ein Teil der Modellfunktion über unterschiedliche Gruppen verteilt worden ist. Würde man die homologen Neuronen dieser Gruppen identifizieren und deren Gewichte addieren, anschließend die redundanten bzw. jetzt überflüssigen Neuronen beseitigen, wäre das Ausgaberesultat exakt dasselbe. Dieses neu entstandene Netz wäre natürlich erheblich kleiner. 4. Beispiel: Wir stellen uns folgendes vor: der Prozess y lasse sich auf der Grundlage von vier Eingangsgrößen xi modellieren. Im Netz befänden sich fünf Neuronen in der verdeckten Schicht (Abb. 7). Weiterhin treffen wir die Annahme: die Eingangs-/ Ausgangsbeziehung der ersten drei Eingänge sei gleich, beispielsweise müssten diese quadriert werden, um den Systemausgang zu modellieren. Wir erinnern uns: Zwei Neuronen sind für diese Aufgabe vollständig hinreichend (Abb. 6). Theoretisch vorstellbar ist nun, dass die ersten drei Eingänge xi , i = 1 . . . 3 durch ein implizites Weight Sharing verarbeitet werden, also sich die ersten beiden Neuronen teilen, um zu einer quadratischen Eingangs/Ausgangsbeziehung zu kommen. In diesem Falle sind noch drei Neuronen ohne jede Aufgabe und können sich auf Verarbeitung des vierten Eingangs x4 konzentrieren. Unter der Proportionalitätsannahme x4 ∼ y wären die letzen zwei Neuronen ohne jede Aufgabe. Sie würden unmittelbar beginnen, nichtdeterministische Anteile des Systemausgangs – also Rauschen oder schlimmer noch Ausreißer – zu modellieren. 3 Vorbehandlung der Muster 3.1 Wozu müssen die Eingänge und Ausgänge semi-parametrisiert werden? Künstliche neuronale Netze müssen nicht zwingend mit dem originären Eingang „gefüttert“ werden. Es ist weit verbreitet, sie auch quadriert, deren Wurzeln, deren Ableitungen oder andere funktionale Ausgaben dem Netz und damit dem Training zur Verfügung zu stellen. Das Netzwerk entschei- x1 x2 y x3 x4 Abb. 7: Ein unterbestimmtes Netz: ein implizites Weight Sharing verursache, dass drei Eingänge mit nur zwei Neuronen modelliert werden können (schwarze Linien) und der verbleibende Eingang habe drei Neuronen zur Verfügung. Die anderen Synapsen seien bedeutungslos (grau). AI TUBS – Künstliche Intelligenz an der TU Braunschweig 48 Φu nonlinear x Vielfaches des Erwartungswertes zweiter Ordnung E(X2 ) = σx und E(Y2 ) = σy . Diese Art der Begrenzung der Werte y n ∗ xi (t) x f(x) y* Φu quasilinear y Abb. 8: Ein nicht-parametrisches Modell überführe einen linearen Eingang in einen quadratischen Ausgang und benötige hierzu viele Neuronen. Die Eingangsdaten in einem semi-parametrischen Modell sind bereits aufgrund von bekannten Funktionalitäten vorbehandelt. Das notwendige Netz benötigt weniger Neuronen [Heinert 2008]. det nun darüber, welcher der Eingänge geeignet im Sinne der Modellierung ist. Diese bereits erfolgreiche Methode kann natürlich noch erweitert werden: Nicht selten sind grundlegende physikalische Beziehungen zwischen den Systemein- und -ausgängen bereits bekannt. In so einem Fall ist es zweckmäßig, von vornherein mit dem Ergebnis des vereinfachten phsikalischen Gesetzes x∗i (t) = f (xi (t)) (9) zu versorgen (Abb. 8). Umgekehrt kann auch eine Ableitung des Systemausgangs yi∗ (t) = f (yi (t)) (10) nötig und zweckmäßig sein, um die Modellierung zu erleichtern. Netze, die mit solchen vorbehandelten Mustern trainiert werden sind nicht mehr vollstängig nicht-parametrisch. Daher wird in diesem Aufsatz im Folgenden der Begriff semi-parametrisch verwendet. 3.2 Wozu müssen die Eingänge und Ausgänge normiert werden? Ein unumgänglicher Schritt vor der Verwendung eines künstlichen neuronalen Netzes ist die Normierung der Muster, also ihrer Eingangs- und Ausgangsdaten. Zunächst werden sie um ihren jeweiligen Erwartungswert E(X) = µx und E(Y) = µy verkürzt. Danach müssen die resultierenden Werte auf das Intervall −1 und 1 beschränkt werden. Der Normierungsfaktor ki ist hierbei ein geeignetes = x∗i (t) − µx∗i , ki σx∗i n y(t) = y(t) − µy k ′ σy (11) hat den praktischen Nutzen, das alle Neuronen mit einer beschränkten Aktivierungsfunktion nicht unmittelbar nach dem Start des Trainings bereits gesättigt und für jede weitere Modellierung verloren sind. Man stelle sich vor: um die Netzausgabe für y = 5 zu erhalten, wären bereits mindestens fünf vollständig gesättigte Neuronen nötig. Andererseits bleiben die Werte der Gewichtsmatrix gut zu händeln, wenn der Eingang nur Werte von −1 bis 1 aufweist. 4 Welche Größe eines neuronalen Netzes ist geeignet? Was bedeutet es von unterbestimmten Netzen zu sprechen, wie es bereits in Abschnitt 2.5 versucht wurde? Was ist das Wesen der Unterbestimmtheit? Wie bereits in Abschnitt 2.2 dargelegt verfügt ein neuronales Netz über Neuronen, die, jedes für sich genommen, eine beeindruckende Modellkapazität besitzen. Werden diese kombiniert wächst diese Kapazität rapide an (Tab. 2). Die Modellkapazität wird dann unsinnig groß, wenn der Algorithmus beginnt, einzelne Muster ohne jede Form der Generalisierung zu erlernen und schließlich zu memorisieren. Demzufolg ist es nicht unzweckmäßig, ein neuronales Netz mit der kleinstmöglichen Anzahl von Neuronen zu konzipieren, um damit „Intelligenz“ zu kreieren anstelle von „Merkfähigkeit“. Umgekehrt wird ein Modell als überbestimmt bezeichnet, wenn die Anzahl von Neuronen entschieden zu klein ist. Das neuronale Netz verliert seine „intelektuellen“ Fähigkeiten und ist bestenfalls imstande, einfache korrelative Beziehungen zwischen den Ein- und Ausgängen abzubilden. Es wird hier ersichtlich, dass ein numerisches Maß für die Modellkapazität vonnöten ist. Ein mittlerweile übliches Maß ist der Koeffizient h. Dieser beschreibt diese Modellkapazität einer Schar von Funktionen mit logarithmisch beschränkten Wachstumsfunktionen [Vapnik & Chervonenkis 1974; Vapnik 1998]. Zu Ehren ihrer Entwickler heißt dieses Maß Vapnik-ChervonenkisDimension oder kurz VC dim [Haykin 1999, S. 95]. Michael Heinert et al.: Künstliche Neuronale Netze 49 Tab. 2: Obere und untere Schranke der Vapnik-Chervonenkis-Dimension für verschiedene Aktivierungsfunktionen in Abhängigkeit von der Anzahl aller ihrer Gewichte n oder aber Neuronen H innerhalb einer verdeckten Schicht. Dieser Vergleich findet sich in Heinert [2008]. Aktivierung linear beschränkt linear Schwellwert φH (υ) kombiniert φH (υ) ⊕ φ/ (υ) sigmoidal φΣ (υ) RBF φN (∥υ∥) φ(υ) φ/ (υ) φ[/] (υ) 1. Definition: The VC-dimension of an ensemble of dichotomies F = {Φw (x) : w ∈ W, Φ : Rm W → 0, 1} is the cardinality h = |L| of the largest set L that is shattered by F. Vapnik entwarf seinerseits 1998 eine verständlichere Beschribung dieser kurzen Definition (S. 147). Θ(n) Θ(n) Θ(n) Θ(n) Θ(n) R(h) = Remp + ϵ1 (N, h, α, Remp ) (12) über das empirischen Risiko Remp und die Konfidenzschranke √ 4 In dieser Definition beschreibt eine Schar von Indikatorfunktionen Φw (x) die spezielle Schar aus der heraus die Modellfunktion Φw∗ (x) stammt. Sie ist durch die optimalen Gewichte w = w∗ eindeutig festgelegt. Dieses Konzept muss nochmal weniger theoretisch beschrieben werden. Hmax O(n2 ) O(nlb(n)) O(n2 ) O(nlb(n)) O(nlb(n)) O(n2 ) O(n2 ) O(nlb(n)) O(nlb(H)) Das zugrunde liegende Prinzip zur Bestimmung einer geeigneten Modellgröße mit einer optimalen VC-Dimension ist, nach der minimalen oberen Schranke des Generalisierungsfehlers (der Risikoschranke) zu suchen (Abb. 10). Dazu müssen zwei Schätzfehler kombiniert werden: der schwindende Trainingsfehler mit zunehmender Modellkapazität einerseits und die sich – zur gleichen Zeit – vergrößernde Konfidenzschranke. Die Summation 2. Definition: The VC-dimension of a set of indicator functions Φw (y), w ∈ W is equal to the largest number h of vectors that can be separated into two different classes in all the 2h possible ways using this set of functions. Hmin Θ(n) υ ∀υ 1 |v| > 2m 1 |v| < 2m ∀υ 1 |v| > 2m 1 |v| < 2m |v| < a1 |v| > a1 ∀υ h N ( ( log ϵ1 (N, h, α, Remp ) = ) ) 2N 1 +1 − log α h N (13) ergibt die obere Schranke des Generalisierungsfehlers bezüglich der VC-Dimension h des gewählten 5. Beispiel: Erinnern wir uns an das Beispiel des XORProblems, jetzt aber mit nur drei Mustern im zweidimensionalen Raum. Insgesamt nur drei Geraden sind in der Lage diese drei Muster in allen 23 möglichen Anordnungen zu separieren (Abb. 9). Demzufolge ist die größte Anzahl von Mustervektoren h = 3. Weiterhin existeren 23 Permutationen dieser Muster, so dass wir festhalten dürfen: VC dim(Φ(x)) = 3. Eine solche Gerade ist im übrigen genau das Resultat eines einzigen Schwellwertaktivierten Neurons. Abb. 9: Ein Beispiel für eine VC dim(Φ(x)) = 3: Die Muster können von h = 3 Linien fehlerfrei separiert werden bei 23 möglichen Permutationen der Muster. AI TUBS – Künstliche Intelligenz an der TU Braunschweig 50 richtig determiniert uberdeterminiert unterdeterminiert betrage. Die Größe Nmin ist eine allgemeine Erfahrungsgröße aus der Statistik für unkorrelierte Beobachtungen. Zieht man das Resultat der maximalen partiellen Autokorrelation (pACF) eines ι-ten Elementes des Eingangsvektors Xp [Schlittgen & Streitberg 1997, 194ff] mit zu Rate, so kann Nmax auch angegeben werden als √ Nmax = ⌈ pmax · Nmin ⌉ (17) Fehler Risikoschranke Empirisches Risiko Konfidenzintervall mit pmax = max(pι ) ∀ pACF(Xp,ι ) >> 0. hmin hmax VC-Dimension h Damit ergibt sich eine Abschätzung für eine opti- Abb. 10: Beziehung zwischen der VC-Dimension und der oberen Schranke der Risikoschranke. Modells [Haykin 1999, S. 99f]. Die Wahrscheinlichkeit ( ) 2eN h −η2 N α= e (14) h ist hierin gegeben durch die Genauigkeit der Approximation η. Inzwischen existieren etwas handlichere Formeln anstelle dieser theoretischen Betrachtungen [Elisseeff & Paugam-Moisy 1997]: Demzufolge ist die maximal notwendige Anzahl von Netzknoten H in einem mehrschichtigen Feed-Forward Perceptron definiert als (15) S < Hmax < 2S ⌈ mit S= ⌉ P dim(y) . dim(x) + dim(y) Der Begriff Knoten subsummiert sowohl MLFFNeuronen (4) als auch RBF-Neuronen (5). In dieser Formel steht P für die Anzahl aller Mustervektoren, dim(x) für die Dimension eines einzelnen Eingangsvektors und dim(y) für die Dimension eines einzelnen Ausgangsvektors. Ist diese maximale Anzahl Hmax erreicht, werden alle Muster fehlerfrei, also eben auch ohne Generalisierung, erlernt. Da dies hinsichtlich eines intelligenten und prädiktionsfähigen Netzes kein erstrebenswerter Zustand ist, sei an dieser Stelle empfohlen, dass die optimale Knotenanzahl Hopt = N −1 Hmax mit Nmin = 30, Nmax ≈ 100 (16) male Anzahl von Knoten ⌉ ⌊ ⌋ ⌈ S S < H < √ opt 60 pmax 30 (18) für ein neuronales Netz, dessen VC-Dimension jetzt im geforderten Rahmen von hmin bis hmax anzutreffen sein sollte (Abb. 10). Dieser Bereich ist noch verhältnismäßig weit gefasst. Eine Startkonfiguration des Netzes mit einer mittleren Anzahl Hopt sollte in den meisten Fällen bereits robuste Ergebnisse liefern. Die präzisiere Eingrenzung einer optimalen Netzgröße bleibt eine Daueraufgabe der Advanced Learning Theory. 5 Wie erhält man eine parametrische Modellfunktion? Nach dieser langen Liste von den einzuhaltenden Vorbehandlungen der Muster bis zu Bedingungen an die Netzgröße können wir uns dem Ziel dieser Betrachtung zuwenden: der Inferenz eines künstlichen neuronalen Netzes. Zu diesem Zweck treffen wir folgende Annahmen: ¶ das Netz besitze eine optimale VC-Dimension, · das Modell konvergiere auch mit zufälligen Startwerten erfolgreich zur etwa gleichen Approximation für y, ¸ die unterschiedlichen Lösungen weisen – mit Ausnahme der exakten Position innerhalb einer Schicht – immer etwa die gleichen Relationen zwischen den Gewichten auf. Eine solche stabilisierte Netzlösung besitzt eine Modellfunktion Φu (x) ∈ Fu ∋ Tu (x) ∀ x ∈ X ⊂ IRn . (19) Die Modellfunktion des neuronalen Netzes Φu (x) ist also aus derselben Schar von Funktionen Fu Michael Heinert et al.: Künstliche Neuronale Netze 51 y1 = Φ( x1 ) x1 y2 = Φ ( x2 ) x1 x2 x2 y y x3 x3 x4 x4 y3 = Φ ( x3 ) x1 y4 = Φ ( x4 ) x1 x2 x2 y y x3 x3 x4 x4 Abb. 11: Modellinferenz eines künstlichen neuronalen Netzes: Jeder Ein-/Ausgabekanal (blau – rot) wird einzeln abgefragt. wie die Systemfunktion des modellierten Objektes Tu (x), was bedeutet, dass hier ein identifzierendes Modell gefunden worden ist anstelle von vielen möglichen imitierenden Modellen [Heinert 2008]. Die Grundidee zur Beschreibung der Ein-/ Ausgangsrelation durch eine parametrische Funktion, die sich möglicherweise auch einem physikalischen Wirkgesetz zuordnen lässt, ist die Reaktion des Netzes auf die Elemente n,0 x∗ι,i (t) auf n Reihen standardisierter Eingangsvektoren n,0 x∗ι (t). Deren Elemente n,0 ∗ xι,i (t) { = ( ) ∇ n x∗i (t)|n x∗i (t) ∈ X (i) ∀ i = ι µn x∗i ∀ i ̸= ι (20) mit ∇ (n x∗i (t)) = (max(n x∗i (t) − min(n x∗i (t))) · t . tmax − tmin ι-te Vektorreihe: n,0 ∗ n ∗ xι (t) = ∇ ( xi (t)) .. . µn x∗n . (21) Die Reaktion des Netzes auf jeden ι-ten Eingangskanal entspricht dem erlernten Einfluss auf das zu untersuchende System (Abb. 11). Die resultierende Modellausgang n,0 ȳι (t) = n Φ∗u,w (n,0 x∗ι (t)) (22) beschreibt die modellierte funktionale Beziehung zwischen dem einen Eingangskanal und dem Modellausgang, also der Netzantwort. Allerdings sind die Muster noch normiert. Es muss zur Denormierung die Umkehrung 0 enthalten in erster Linie die Mittelwerte µn x∗i der normierten Eingänge n x∗ (t). Nur an der i-ten Stelle jedes ι-ten der n Vektoren n x∗ (t) befinden sich linear ansteigende Werte im Wertebereich der normierten Eingänge. Demzufolge ergibt sich für die µn x∗1 .. . ȳι (t) = k ′ σy · n Φ∗u,w (n,0 x∗ι (t)) + µy . (23) von (11) vorgenommen werden, was für den einzelnen i-ten Eingang bedeutet: 0 ȳι (t) = k ′ σy · nϕ∗u,w (∇(n x∗i (t))) + µy . (24) AI TUBS – Künstliche Intelligenz an der TU Braunschweig 52 Auch die Semi-Parametrisierung muss mit 0 xι (t) = kι σx∗ι −f ∗ (∇n x∗i (t)) + µxι , (25) zurückgenommen werden, wobei −f ∗ ( · ) die inverse Funktion von (9) über den i-ten Eingang beschreibt. Analog ist mit der Rücknahme einer möglichen Semi-Parametrisierung in (10) zu verfahren. Wir wissen es existieren n, also entsprechend der Anzahl der Eingangsneuronen, noch unbekannte parametrische Modellfunktion 0 ȳι |= F (0 xι ). (26) Wir kennen aber nun ihre jeweiligen zugehörigen dekomponierten xι und yι -Werte. In induktiver Weise lassen sich nun jeweils eine parametrische Funktion angeben, die diesen xι und yι -Werten am ehesten entspricht. Die Parameter dieser jeweiligen Funktion lassen sich durch eine nichtlineare Optimierung bestmöglich anpassen [Domschke & Drexl 2002; Rardin 1998; Winston 1994]. Es sollte möglich sein, diese zunächst empirisch bestimmten Parameter bekannten physikalischen Parametern zuzuordnen. Gleichermaßen sollten sich damit die effektiv wirkenden physikalischen Gesetze detektieren lassen. Schließlich soll noch eine Besonderheit dieses Vorgehens gezeigt werden: Im Spezialfall n,0 ∗ xι (t) ∋n,0 x∗ι,i (t) = µn x∗i ∀ i, ι (27) liefert dieses Verfahren die unverfälschte Trendfunktion. Diese robuste Trendfunktion ist quasi frei vom typischen Hebelwertproblem des Regressionsansatzes. 6 Resümee Mit diesem Einstieg gelingt es, die Black Box eines künstlichen neuronalen Netzes ein wenig zu öffnen. Die Fragestellung ist keineswegs beantwortet. Doch zwei wesentliche Aspekte scheinen sich bis hierher heraus zu kristallisieren. Einerseits ist eine richtige Netzdimension von entscheidender Bedeutung, um das Erlernte des Netzes interpretieren zu können. Damit wirft dieser Aspekt sofort die Frage auf, ob die vielgenutzte Technik der Kreuzvalidierung gegen das Overfitting noch hinreichend zielführend ist. Andererseits ist eine standardisierte Abfrage der jeweils einzelnen Kanäle bisher nur sinnvoll, wenn die Eingangsgrößen in ihrer Wirkung auf das System als gegenseitig unabhängig gelten dürfen. Ein weiterführendes Vorgehen für Fälle, in denen diese Unabhängigkeit ausgeschlossen werden kann, ist hier noch nicht erarbeitet. Literatur Bunke, J. (1997): Künstliche Neuronale Netze zur Systemidentifikation aus gestörten Messwerten. Fortschrittsber. VDI-Reihe 8 667, Düsseldorf. Cover, T. M. (1965): Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition. IEEE Transactions on Electronic Computers EC-14 (3): 326–334. Domschke, W. & Drexl, A. (2002): Einführung in Operations Research. 5. rev. u. erw. Aufl. Springer Berlin-Heidelberg. Elisseeff, A. & Paugam-Moisy, H. (1997): Size of multilayer networks for exact learning: analytic approach. NeuroCOLT Techn. Rep. NC-TR-97-002. Farley, B. & Clark, W. A. (1954): Simulation of self-Organizing Systems by Digital Computer. IRE Transactions on Information Theory 4: 76–84. Ghosh, S. & Maka, S. (2008): A NARX modelingbased approach for evaluation of insulin sensitivity. Biomedical Signal Processing and Control 4 (1): 49–56. Haykin, S. (1999): Neural Networks – A Comprehensive Foundation. 2nd ed., Prentice Hall, Upper Saddle River NJ. Heine, K. (1999): Beschreibung von Deformationsprozessen durch Volterra- und Fuzzy-Modelle sowie Neuronale Netze. Dissertation. Deut. Geod. Kommission Reihe C 516, München. Heinert, M. & Niemeier, W. (2004): Zeitreihenanalyse bei der Überwachung von Bauwerken. In Schwarz, W. (Hrsg.): DVW-Fortbildungsseminar Interdisziplinäre Messaufgaben im Bauwesen – Weimar 2004. DVW-Schriftenr. 46: 157–174. Heinert, M. (2008): Systemanalyse der seismisch bedingten Kinematik Islands. Dissertation. Geod. Schriftenr. Techn. Univ. Braunschweig 22. Mellit, A. & Kalogirou, S. A. (2008): Artificial intelligence techniques for photovoltaic applications: A review. Progress in Energy and Combustion Science 34: 574–632. Menezes Jr., J. M. & Barreto, G. A. (2008): Longterm time series prediction with the NARX network: An empirical evaluation. Neurocomputing 71: 3335– 3343. Michael Heinert et al.: Künstliche Neuronale Netze 53 Mercer, J. (1909): Functions of Positive and Negative Type, and their Connection with the Theory of Integral Equations. Phil. Trans. R. Soc. Lond. A 209: 415–446. Schölkopf, B. & Smola, A. J. (2001): Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond (Adaptive Computation and Machine Learning). MIT Press. Miima, J. B. (2002): Artificial Neural Networks and Fuzzy Logic Techniques for the Reconstruction of Structural Deformations. Dissertation. Geod. Schriftenr. Techn. Univ. Braunschweig 18. Sitter, R. (2001): Neuronen. http://home.arcor.de/ralf.sitter/kyb/neuro/ neur.htm. Niemeier, W. (2008): Ausgleichsrechnung – Eine Einführung für Studierende und Praktiker des Vermessungs- und Geoinformationswesens. 2. rev. u. erw. Ausg. Walter de Gruyter, Berlin-New York. Patterson, D. W. (1996): Künstliche neuronale Netze: das Lehrbuch. Prentice Hall. München- LondonMexiko- New York- Singapur- Sydney- Toronto. Rardin, R.-L. (1998): Optimization in Operation Research. Prentice Hall, Upper Saddle River, USA. Riedel, B. & Heinert, M. (2008): An adapted support vector machine for velocity field interpolation at the Baota landslide. In: Reiterer, A. & Egly, U. (Hrsg.): Application of Artificial Intelligence in Engineering Geodesy (AIEG 2008), Wien: 42–62. Rosenblatt, F. (1958): The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Reviews 65: 386–408. Schlittgen, R. & Streitberg, B. H. J. (1997): Zeitreihenanalyse. 7. Aufl., R. Oldenburg Verlag, München-Wien. Spitzer, M. (2002): Lernen: Gehirnforschung und die Schule des Lebens. Spektrum Akad. Verl., HeidelbergBerlin. Turing, A. M. (1948): Intelligent Machinery. Collected Works of A. M. Turing: Mechanical Intelligence. Edited by D. C. Ince. Elsevier Science Publishers. Vapnik, V. N. & Chervonenkis, A. Ya. (1974): Theory of Pattern Recognition. (in Russian) Nauka, Moscow, 1974, (German translation: Wapnik, W. N. & Tschervonenkis, A. Ja. (1979): Theorie der Zeichenerkennung. Akademia, Berlin). Vapnik, V. N. (1998): Statistical Learning Theory. In Haykin, S. (Ed.): Adaptive and Learning Systems for Signal Processing, Communications and Control. John Wiley & Sons, New York- Chichester-WeinheimBrisbane- Singapore-Toronto. Wilson, M. A. & McNaughton, B. L. (1993): Dynamics of the hippocampal ensemble code for space. Science 261: 1055–1058. Winston, W. L. (1994): Operations Research: Applications and Algorithms. 3nd ed., Duxbury Press, Belmont, California. Künstliche Intelligenz in der Energieversorgung – Anwendung und Grenzen – Benjamin Deppe ∗ , Michael Kurrat∗ ∗ Institut für Hochspannungstechnik und Elektrische Energieanlagen (HTEE), Schleinitzstraße 23, 38106 Braunschweig Zusammenfassung aufgeteilt [EnWG 2005]. Abbildung 1 verdeutlicht dieses Vorgehen anhand der Prozesskette der zur Belieferung von Endkunden mit elektrischer Energie beteiligten Unternehmen. Bis 1998 bezog der Kunde seine elektrische Energie von dem örtlichen Stadtwerk, welches sowohl Eigentümer als auch Betreiber des Stromnetzes war als auch Stromlieferant für den Kunden. Durch das Gebietsmonopol war es den Energieversorgern nicht möglich, Endkunden außerhalb ihrer Versorgungsgebiete mit Energie zu beliefern. Dieser wettbewerbsbehindernde Umstand wurde im Zuge der Liberalisierung durch das sogenannte Unbundling aufgehoben. Dadurch wurden die Unternehmen in einen regulierten und einen dem Wettbewerb unterliegenden Bereich getrennt. Die Energieversorgungsnetze stellen ein natürliches Monopol dar und unterliegen daher der Regulierung durch die Bundesnetzagentur. Der Vertrieb und die Erzeugung sind dem freien Wettbewerb zuzurechnen, und seit der Liberalisierung Der Einsatz künstlicher Intelligenz gewinnt seit der 1998 begonnen Liberalisierung des Strom- und Gasmarktes sowie des Ausbaus erneuerbarer Energien in der Energieversorgung immer mehr an Bedeutung. Systembedingt ist es erforderlich bereits heute zu wissen wie viel Strom am nächsten Tag verbraucht wird, und wie viel Strom am nächsten Tag aus regenerativen Energiequellen, und damit zumeist fluktuierend, erzeugt wird. Aus dieser Fragestellung ergibt sich eine enge Verknüpfung zu den optimalen Betriebszuständen der Energieversorgungsnetze. Der vorliegende Beitrag beschreibt aus praktischer Sicht die Notwendigkeit für die Erstellung von Prognosen und zeigt die Vor- und Nachteile verschiedener Verfahren auf. Summary The use of artificial intelligence becoming increasingly important since the liberalization in 1998 of the electricity and gas markets and the expansion of renewable energies. It is necessary to know how much electricity is consumed the next day, and how much electricity is generated by fluctuating renewable sources of energy the next day. This question results in a close link to the optimal operating states of energy supply networks. This paper describes a practical matter, the need for the preparation of forecasts and shows the advantages and disadvantages of different methods. 1 Einleitung Im Zuge der 1998 begonnen Liberalisierung der Energieversorgung wurden die integrierten Energieversorgungsunternehmen im Zuge des Unbundlings Abb. 1: Aufteilung der Energieversorgungsunternehmen im Rahmen des Unbundlings 54 Benjamin Deppe & Michael Kurrat: Künstliche Intelligenz in der Energieversorgung ist es jedem Vertrieb möglich, jeden Kunden im gesamten Bundesgebiet zu versorgen. Ein bekannter überregionaler Versorger der sich die Öffnung der Gebietsmonopole zunutze gemacht hat ist der Stromvertrieb Yello Strom GmbH, ein Tochterunternehmen des drittgrößten deutschen Energieversorgers EnBW (Energie Baden-Württemberg AG). Das Unbundling unterscheidet zwischen buchhalterischem, organisatorischen, informatorischen und rechtlicher Undbundling. Diese gesetzlichen Vorgaben haben dazu geführt, dass der Netzbetrieb aus den bisherigen integrierten Energieversorgungsunternehmen herausgelöst, und in neue Netzgesellschaften aufgegangen ist. Es ist den Netzgesellschaften nicht mehr gestattet, exklusiv Informationen über die Versorgung von Kunden an den ehemals eigenen Stromvertrieb weiterzugeben. Weiterhin sind sie verpflichtet, allen Stromvertrieben einen diskriminierungsfreien Zugang zu den Kunden zu ermöglichen. Dazu gehört auch, dass allen Stromvertrieben dieselben Informationen über das Versorgungsnetz zur Verfügung gestellt werden müssen. Im Zuge der Liberalisierung des Zähl- und Messwesens wurde die bisher von den Netzbetreibern übernommene Aufgabe des Zähl- und Messwesens geöffnet, so dass seit 2008 auch der Messstellenbetrieb von Dritten übernommen werden kann. Insbesondere durch die informatorische Entflechtung sind neue Wege zur Prognose der abgenommenen Leistung der Kunden durch die Stromvertriebe erforderlich geworden. Vor der Liberalisierung war den örtlichen Vertrieben durch die integrierten Energieversorgungsunternehmen die abgenommene Leistung im Netz bekannt, woran die Beschaffung ausgerichtet werden konnte. Als Folge der Liberalisierung sind den Stromvertrieben die vollständigen Netzdaten nicht mehr bekannt, und die Kunden müssen einzeln prognostiziert werden und können nicht mehr über die Gesamtnetzlast abgebildet werden, was zur Nutzung von Mengeneffekten möglich gemacht hat. Auf der anderen Seite besteht nun die Möglichkeit der Belieferung von Einzelkunden in anderen Netzbereichen, was ebenfalls eine individuelle Prognose erfordert. Die hierzu eingesetzten Verfahren werden in diesem Beitrag vorgestellt und diskutiert. Für die Netzbetreiber und die Einsatzplanung der Kraftwerke hat sich im Zuge des durch das Erneuerbare-Energien-Gesetz (EEG) forcierten Ausbaus erneuerbarer Kraftwerke, wie Wind- und Photovoltaikanlagen, eine neue zu beachtende Größe herausgebildet. Diese Anlagen 55 dürfen bevorzugt in die Netze einspeisen, was dazu führt, dass konventionelle Kraftwerke ihre Leistung anpassen müssen [EEG 2008]. Daher ist es erforderlich, das Einspeiseverhalten regenerativer Energieanlagen zu prognostizieren und den konventionellen Kraftwerkspark und die Schaltzustände der Netze entsprechend anzupassen. Es wird somit zwischen einer Erzeugungs- und einer Verbrauchsprognose unterschieden. Der nächste Abschnitt beschreibt diese beiden Prognoseanwendungen, bevor im darauf folgenden Abschnitt die Anforderungen definiert und im Weiteren die Grenzen der Prognosemethoden aufgezeigt werden. 2 Prognoseanwendungen in der Energieversorgung Grundsätzlich können zwei Arten der Prognose unterschieden werden. Zum einen muss der Verbrauch der Letztverbraucher, zum anderen die fluktuierende Einspeisung von beispielsweise Windkraft- und Photovoltaikanlagen prognostiziert werden. Ersteres ist für die Stromvertriebe von Interesse, um die erforderlichen Energiemengen viertelstundenscharf beschaffen zu können. Letzteres ist für die Netzbetreiber von Interesse, damit diese die Versorgungssicherheit durch den Einsatz konventioneller Kraftwerke und Leistungsflussoptimierung sicherstellen können. Dazu wird eine Prognose der angeschlossenen Verbraucher benötigt. Diese Prognosen erstellen die Netzbetreiber für ihre Netze selber, und gleichen die Ergebnisse mit den prognostizierten Verbräuchen der unterschiedlichen Stromvertriebe in ihrem Netzgebiet ab. Bei Abweichungen gilt der Wert der Netzbetreiber. 2.1 Verbrauchsprognose Unter Verbrauchern wird der Endkunde als Ganzes verstanden. Der Verbrauch wird an dem Anschlusspunkt des Objektes an das öffentliche Versorgungsnetz gemessen. Zu unterscheiden sind zwei grundsätzliche Arten der Messung. Zum einen die registrierende Leistungsmessung (rLM) im Viertelstundenraster von Verbrauchern mit einem Jahresverbrauch von mehr als 100 000 kWh, und zum anderen die Messung von Gewerbe- und Haushaltskunden mit einem Verbrauch von weniger als 100 000 kWh im Jahr. Bei der Leistungsmessung wird der Verbrauch pro Viertelstunde als Energie aufgezeichnet und gespeichert. Zusätzlich können 56 AI TUBS – Künstliche Intelligenz an der TU Braunschweig die auftretenden Spitzenleistungen aufgezeichnet werden. Die gespeicherten Daten sind abrechnungsrelevant, d.h. die Stromvertriebe rechnen über diese Werte die Kunden ab und beschaffen die benötigte Energie viertelstundenscharf. Beschaffen die Stromvertriebe in einer Viertelstunde zu wenig Energie für den Bilanzkreis, müssen sie die fehlende Energie als Ausgleichsenergie zukaufen. Neben gesetzlichen Vorgaben zur möglichst genauen Beschaffung der benötigten Energie werden die Preise der Ausgleichsenergie ex post bestimmt, woraus sich ein Beschaffungsrisiko ergibt. Aus diesen Gründen sind die Stromvertriebe bemüht, möglichst genaue Prognosen des Verbrauchsverhaltens zu erstellen. Die Anforderung an die Prognose unterscheidet sich dabei je nach Eigenschaft des Verbrauchers. Ein produzierendes Gewerbe stellt hier andere Anforderungen als beispielsweise ein Dienstleistungsunternehmen oder Privatkunden. Bei der Messung von Gewerbe- und Haushaltkunden wird grundsätzlich anders vorgegangen. Im Regelfall wird einmal jährlich die verbrauchte Jahresenergie abgelesen und verrechnet, unabhängig von der Verteilung über das Jahr. Die Prognose wird auf Grundlage der ab 300 Abnahmestellen repräsentativen Standardlastprofile [3] für die gesamte Kundenlast je Netzgebiet erstellt. Die Prognose basiert auf der Zuordnung der Abnahmestelle zu einem Profil und der erwarteten Jahresverbrauchsenergie. Die Abweichungen zwischen real abgenommener Energie pro Viertelstunde und Prognose trägt in der Regel der Netzbetreiber. In jüngster Zeit gewinnt das analytische Verfahren [VDEW M23/ 2000] an Bedeutung, bei dem die Abweichungen durch die Vertriebe getragen werden müssen. Hierbei entstehen neue Anforderungen an die Prognose, da die Standardlastprofile (SLP) sich nicht mehr vollständig mit dem realen Verbrauchsverhalten decken. Die Anforderungen an die Prognosen sind abhängig von dem Kundensegment, was im Abschnitt 3 ausführlich erläutert und dargestellt ist. 2.2 Erzeugungsprognose Die Prognose von fluktuierenden Erzeugungsanlagen stellt eine neue Herausforderung dar, die im Zuge des Ausbaus regenerativer Energiequellen entstanden ist. Die zunächst kleinen Leistungen von Windkraftanlagen stellten keine Veränderungen für den Betrieb der Netze dar. Erst durch den massiven Ausbau war es erforderlich, die Einspeisung vorherzusagen und damit die Fahrweise konventioneller Kraftwerke an die fluktuierenden Erzeugungsanlagen und die damit verbundene Auslastung der Stromnetze anzupassen. Durch weitere Änderungen des EEG sind die Übertragungsnetzbetreiber verpflichtet, die fluktuierend eingespeiste Energie als kontinuierliches Band bereitzustellen, und fehlende Strommengen zur Erfüllung des Bandes zuzukaufen, und Mehrmengen am Markt anzubieten. Der Fokus liegt hier noch auf der Windenergie, wenngleich die Photovoltaikeinspeisung immer stärker mit in den Fokus drängt. Ebenfalls von Relevanz für die Netzbetreiber im Verteilungsnetz ist das Einspeiseverhalten der dort installierten dezentralen Erzeuger, zu denen neben Wind und Photovoltaik auch Biomasse und Blockheizkraftwerke zählen. Ziel ist es dabei, durch intelligente Verknüpfung der Erzeugungskomponenten die Netzverluste zu minimieren indem die Erzeugung möglichst nahe am Verbrauch eingespeist wird, und eine Rückspeisung in überlagerte Netzebenen verhindert wird. Die Prognose des zu erwartenden Verbrauchs und der Einspeisung stellt somit eine wesentliche Komponente der modernen Energienetze dar, und wird in Zukunft weiter an Bedeutung gewinnen. Die Anforderungen an die Prognosemethode und die verfügbaren Eingangsparameter unterscheiden sich jedoch gravierend. Der nächste Abschnitt beschreibt diese Anforderungen und stellt die verwendeten Prognosemethoden vor. Anschließend werden die Grenzen der Methoden aufgezeigt. 3 Anforderungen und Prognosemethoden Die eingesetzte Prognosemethode richtet sich nach den Anforderungen und den zur Verfügung stehenden Daten. Dieser Abschnitt teilt zunächst die Anwendungen auf der Grundlage des vorangegangenen Abschnittes auf und definiert zu den Anwendungsfällen die zugehörigen Anforderungen und verfügbaren Daten, bevor mögliche Prognoseverfahren vorgestellt werden. Der nächste Abschnitt beleuchtet die Grenzen der Verfahren in den Anwendungsfällen und zeigt zukünftige Herausforderungen auf. Die Zahl der verfügbaren Prognoseverfahren ist zu groß, um jedes Verfahren hier betrachten zu kön- Benjamin Deppe & Michael Kurrat: Künstliche Intelligenz in der Energieversorgung nen. In der Energiewirtschaft kommen zwei Gruppen von Verfahren zum Einsatz. Zu der Ersten gehören Syntheseverfahren wie beispielsweise Verfahren auf Basis der multiplen Regression, künstlich neuronale Netze (KNN) oder adaptiv logische Netze (ALN). Diese Gruppe hat in der Praxis die größte Bedeutung. Die zweite Gruppe bilden die Extrapolationsverfahren wie das Box-Jenkins-Verfahren [Box & Jenkins 1976; Hufendiek 2001]. Weiterhin werden Verfahren der Mustererkennung wie die Lastgangfortschreibung kombiniert mit dem Vergleichstageverfahren eingesetzt. Je nach Einsatzgebiet sind bestimmte Verfahren mehr oder weniger geeignet. 3.1 Leistungsgemessene Verbraucher Von leistungsgemessenen Verbrauchern liegen mindestens für die Zeit der Belieferung Zeitreihen mit Verbrauchswerten im Viertelstundenraster vor. Dabei werden der Zeitstempel und der Energieverbrauch der letzten Viertelstunde gespeichert. Für die Prognose ist zunächst wichtig, um welche Art von Betrieb es sich handelt. Grob kann hier zwischen folgenden Arten unterschieden werden: • Industriebetriebe, produzierendes Gewerbe, • Dienstleistungen, • Hotel und Gaststätten. Es stehen grundsätzlich die Tagesinformationen für die Kundenregion zur Verfügung, ebenso wie die Ferien- und Feiertagskalenderkalender und ggf. nach Recherchetätigkeiten Betriebsferien oder Betriebsversammlungen. Diese haben insbesondere auf Industriebetriebe einen großen Einfluss. Für bestimmte Kundengruppen, insbesondere im Bereich Handel und Dienstleistungen können Wetterinformationen wichtig sein. Bedingt durch den verstärkten Einsatz von Klimaanlagen weichen die Verbräuche ab bestimmten Schwellwerten stark von den üblichen Verbrauchsmustern ab. In der Praxis stehen hier Verfahren mit unterschiedlicher Genauigkeit und Prognoseaufwand zur Verfügung. Häufig angewendet werden die Lastgangfortschreibung oder das Typtageverfahren, bzw. Mischungen daraus. KNNs bieten sich hierbei nur für „stabile“ Kunden an, die keine häufige Änderung der installierten Geräte und Maschinen oder fluktuierenden Produktionsprozesse besitzen. 57 3.2 Standardlastprofilkunden Die Prognose von Standardlastprofilkunden – zu denen Letztverbraucher mit einem Jahresverbrauch von weniger als 100.000 kWh zählen – befindet sich zurzeit im Wandel. Begründet ist dies durch die politisch geforderte, und im Rahmen des Smart Grid Gedanken technisch notwendige Einführung eines Smart Metering [Deppe & Kurrat 2009a]. Bisher stehen bei diesem Kundensegment keine viertelstundenscharfen Messwerte zur Verfügung. Es werden lediglich jährliche Energieverbräuche erfasst. Die Bestimmung zeitlicher Verbrauchsverläufe erfolgt auf Basis der Standardlastprofile, die auch für die Prognose, Beschaffung und Abrechnung herangezogen werden. Dieses noch heute mehrheitlich eingesetzte Verfahren wird als synthetisches Lastprofilverfahren [VDEW M-05/ 2000] bezeichnet. Das Risiko des realen Unterschiedes zwischen beschaffter Energie und tatsächlich abgenommener Energie trägt der Netzbetreiber. Einige Netzbetreiber gehen zu dem analytischen Profilverfahren [VDEW M-23/ 2000] über, bei dem ausgehend von den gemessenen Netzlasten viertelstundenscharfe Verbrauchswerte der SLP-Kunden hergeleitet werden. Zur Verrechnung der Ausgleichsenergiebezüge werden diese Werte herangezogen und dem Lieferanten direkt in Rechnung gestellt. Durch die Abweichungen zwischen SLP und realen Verhalten ergeben sich für die Lieferanten hieraus die Anforderung, Netzgebiete mit dem analytischen Profilverfahren genau zu prognostizieren. Durch den Einsatz des analytischen Profilverfahrens lassen sich die Ausgleichsenergiebezüge reduzieren [Deppe et al. 2010]. Dieser Effekt lässt sich durch Smart Metering verstärken, woraus die Anforderung erwächst, Kunden mit einem Verbrauch nach dem Ansatz der leistungsgemessenen Kunden zu prognostizieren. Hierbei können Mengeneffekte auftreten, die die Prognose gegenüber Großkunden vereinfacht, sofern eine kritische Masse erreicht ist. Die Beachtung örtlicher Besonderheiten gewinnt jedoch an Bedeutung, was erhöhte Anforderungen an eine automatische Prognose stellt. 3.3 Erzeugungsprognose nach EEG Durch die Verpflichtung der Übertragungsnetzbetreiber zur sogenannten EEG-Veredelung sind diese auf eine Prognose der fluktuierenden Einspeiser in ihrem Netz angewiesen. Dies betrifft im Be- 58 AI TUBS – Künstliche Intelligenz an der TU Braunschweig sonderen die Windenergie, und in zunehmendem Maße auch die Photovoltaikenergie. Bei der EEGVeredelung bildet der Übertragungsnetzbetreiber ein jeweils für einen Monat festgelegtes konstantes Band, welches er mit erneuerbaren Energiequellen füllen muss. Fehlende oder überschüssige Mengen muss er am Markt zukaufen oder anbieten. Der Fokus liegt auf der Windenergie, da diese im Jahr 2008 einen Anteil von 44 % im Jahr 2008 an allen erneuerbaren Energieträgern erreichte. Zur Prognose der erwarteten Einspeisung bieten verschiedene Anbieter Prognosen an. Als Beispiel sind hier drei Anbieter mit unterschiedlichen Verfahren genannt, die alle auf Wetterprognosen unterschiedlicher Anbieter basieren, und somit andere Eingangsparameter verwenden. Grundlage für die Prognoseerstellung im ersten Verfahren bildet das Multi Scheme Ensemble Prediction System (MSEPS), welches speziell für die Kurzzeit- und Mittelfristprognose bis zu 144 Stunden entwickelt wurde. Bei der Erstellung von Wetterprognosen sind auf Grund chaostheoretischer Erscheinungen in der Atmosphäre und der Komplexität der physikalischen Zusammenhänge Fehler physikalischer und stochastischer Art nicht zu vermeiden. Das MSEPS wird diesen Unsicherheiten gerecht, indem 75 verschiedene Prognosen unter jeweils vier verschiedenen Umgebungsbedingungen erstellt werden. Der Verlauf dieser 300 Prognosen, bzw. ihre Lage zueinander, gibt dabei Aufschluss über die Wahrscheinlichkeit des Auftretens jeder Einzelprognose. Dabei wird die Spreizung zwischen minimal und maximal vorhergesagter Leistung sowie die Dichte der Vorhersagen zur Bestimmung der Unsicherheit herangezogen. Grundlage für die Umwandlung der Wettervorhersagen in Windeinspeiseprognosen bilden Daten, die aus den tatsächlich installierten Windenergieanlagen stammen. Zu diesem Zweck sind ca. 19.000 Windenergieanlagen registriert. Die Windeinspeiseprognosen des zweiten Anbieters kombiniert zwei Wettermodelle und gewichtet diese anhand erwarteter Wetterlagen. Es werden historische Daten der Windeinspeisung einzelner Regionen und die jeweils dazugehörigen Wetterlagen gesammelt. Auf der Grundlage dieser Datenbasis wird aktuell prognostizierten Wetterszenarien eine zu erwartende Windeinspeiseleistung zugewiesen. Hierzu wird eine Clusterbildung nach atmosphärischen Konditionen vorgenommen und innerhalb dieser Cluster nach Analogien gesucht. Der dritte Anbieter erfasst die Windenergieeinspeisung online und kombiniert diese mit den Wetterdaten in einem KNN. Dabei werden nicht alle WEA erfasst sondern nur räumlich verteilte Referenzanlagen, die anschließend auf den Gesamtbestand extrapoliert werden. Hierzu muss die zu erfassende WEA bzw. das jeweils übergelagerte Umspannwerke mit entsprechender Mess- und Übertragungstechnik ausgestattet sein. Das Trainieren des KNN hat dabei bereits in der Vergangenheit stattgefunden, wobei das Netzwerk die Relation zwischen prognostizierten meteorologischen Umgebungsparametern und der damit verknüpften Einspeiseleistung erlernt hat. Die Genauigkeit der Modelle unterscheidet sich je nach Anbieter und klimatischen Bedingungen. Ersteres liegt an unterschiedlichen Verfahren, letzteres liegt darin begründet, dass nicht immer dieselben Wetterdienste für die Eingangsparameter herangezogen werden. Es bietet sich somit an, unterschiedliche Anbieter mit verschiedenen Verfahren und Wetterdienstdaten zusammenzufassen und durch unterschiedliche Gewichtung bei bestimmten klimatischen Bedingungen zu belegen, um somit der tendenziell besseren Prognose ein höheres Gewicht in der Summe zukommen zu lassen. Untersuchungen des HTEE zeigen, dass dadurch das Prognoserisiko verringert und die Genauigkeit erhöht werden kann. 3.4 Netzlastprognose Ein weiterer Teil der Prognosen in der Energieversorgung stellt die Netzlastprognose in Verteilungsund Übertragungsnetzen dar. Die Herausforderung der Übertragungsnetze ist in dem vorherigen Abschnitt erläutert worden. Demgegenüber spielen in Verteilungsnetzen lokale Besonderheiten eine große Rolle. Den Verteilungsnetzbetreibern ist die Energie bekannt, die von dem Netz aufgenommen, bzw. im Falle der Rückspeisung abgegeben wird. Weiterhin sind die Einspeisedaten großer Erzeugungsanlagen bekannt. Aus diesen Daten und entsprechenden Wetterdaten lässt sich mit Hilfe eines KNN die Netzlast prognostizieren, und damit notwendige technische Einstellungen wie Schalterstellung oder Transformatoreinsellungen vornehmen. Durch den Ausbau mit Smart Metern stehen den Netzbetreibern genauere Messwerte der Verbraucher und auch kleiner Einspeiser wie DachPhotovoltaikanlagen zur Verfügung. Darüber hinaus entsteht so die Möglichkeit, den Netzzustand Benjamin Deppe & Michael Kurrat: Künstliche Intelligenz in der Energieversorgung an allen Punkten in Echtzeit zu erkennen [Deppe & Kurrat 2009b]. Die Fragestellung ist, ob sich mit diesen genaueren Daten bessere Prognosen erstellen lassen, und durch Tagesabhängigkeiten Synergien für den Netzbertrieb entstehen. Die Auswahl der passenden Algorithmen und Eingangsparameter stellt in diesem Forschungsfeld vor dem Hintergrund der aktuellen Entwicklungen eine große Herausforderung dar. 59 den Monaten 6 und 7 die Abnahme deutlich, bevor sich die Prognose wieder an den Echtverbrauch anpasst. Dieses Phänomen ist besonders bei temperaturabhängigen Kunden in den Sommermonaten zu beobachten. Hier ist dann ein manuelles Eingreifen, oder ein Anpassen der Prognosemethode notwendig. 4 Grenzen der Prognose Jedes der oben beschriebenen Verfahren hat sowohl Vor- als auch Nachteile. Die Entscheidung für oder gegen ein Verfahren muss daher in Abhängigkeit von dem Einsatzgebiet getroffen werden. In einer Untersuchung wurden die Lastgangfortschreibung, das Vergleichtageverfahren sowie KNN bzw. ALN analysiert. Die Lastgangfortschreibung stellt das einfachste Verfahren dar. Dabei wird der Mittelwert einer beliebigen Historie unter Berücksichtigung von Tagesabhängigkeiten auf den Folgemonat fortgeschrieben. In der Untersuchung betrug dieser Zeitraum zwei Monate. Das Verfahren ist robust gegenüber dauerhaften Veränderungen, wie beispielsweise eine langfristige Anpassung der Produktionskapazitäten eines Industrieunternehmens. Die Abbildung 2 zeigt diesen Vorteil. Abb. 3: Lastgangfortschreibung bei kurzfristiger Abnahmeänderung Dieser Temperatureffekt ist in Abbildung 4 und Abbildung 5 dargestellt. Abb. 4: Temperaturabhängigkeit von Dienstleistungskunden Abb. 2: Lastgangfortschreibung bei langfristiger Abnahmeänderung Im Monat 4 erfolgt eine Erhöhung der Produktionskapazität. Nach zwei Monaten ist der Prognosewert an die neuen Gegebenheiten angepasst. Ein wesentlicher Nachteil zeigt sich bei Kunden mit kurzfristigen Abnahmeänderungen. Abbildung 3 verdeutlicht dieses Verhalten. Die Monate 4 und 5 stellen ein erhöhtes Abnahmeverhalten dar. Die Prognose hing zunächst hinterher, und übersteigt dann in Im Bereich der Dienstleistungskunden ist deutlich eine Änderung des Abnahmeverhaltens ab einer Tagesdurchschnittstemperatur von 15 Grad Celsius zu erkennen, wobei eine Schwankung der Intensität der Abhängigkeit über die Wochentage erkennbar ist. Zu begründen ist diese starke Reaktion des Verbrauchs auf die Tagesdurchschnittstemperaturen durch den Einsatz von Klimaanlagen. Im Industriekundensegment ist eine Temperaturabhängigkeit, wie in Abbildung 5 gezeigt, nicht zu erkennen. Ein KNN bietet sich dann an, wenn an der Struktur der zu prognostizierenden Daten keine Änderung auftritt. Dies ist besonders bei Stadtnetzen 60 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Ansprüche an die Verfahren. Die besondere Herausforderung liegt in der Umstellung der Prognose für SLP Kunden sowie die Verknüpfung der Prognose mit Verfahren zur Netzoptimierung. Hierfür sind die bisherigen Verfahren anzupassen. Literatur Abb. 5: Temperaturabhängigkeit von Industriekunden der Fall. Bei Änderungen der tatsächlichen Daten im Vergleich zu den Trainingsdaten ist ein erneutes Trainieren erforderlich. Bei Industriekunden bieten sich KNN daher nicht an. Für diese eignet sich eher die Lastgangfortschreibung, trotz der angegeben Nachteile. Im Gegensatz zu dem Vergleichstageverfahren kann somit auf grundlegende Änderungen im Abnahmeverhalten nach kürzerer Zeit reagiert werden, respektive die Anpassung erfolgt automatisch. Die Vergleichstage bieten sich bei Kunden an, die auf äußere Einflüsse reagieren, die regelmäßig wiederkehren. Beispielsweise bei Handelskunden, die regelmäßige Öffnungszeiten haben und auf Temperatureinflüsse reagieren. Da dieses Verfahren jedoch einen hohen manuellen Aufwand erfordert, eignet es sich eher für den Einsatz bei TopDown-Prognosen [Kaufmann 2003]. Also bei Prognosen, bei denen die Summenlastkurve einer Kundengruppe prognostiziert wird. Bei der Bottom-UpPrognose wird jeder Kunde einzeln prognostiziert und dann die Summe aller Kunden gebildet. Dabei muss bei dem Vergleichstageverfahren jeder Kunde einzeln betrachtet werden. Das ALN stellt eine Alternative zu den herkömmlichen KNN dar, da es schneller zu trainieren ist und auch in der Berechnung schneller zu Ergebnissen führt. 5 Fazit und Ausblick Die Bedeutung von Prognosen in der Energieversorgung hat in den letzten Jahren deutlich zugenommen, und wird in Zukunft vor dem Hintergrund des Smart Grid Gedanken weiter zunehmen. Dadurch verbessert sich zugleich die Datenlage. Durch das Unbundling ist jedoch unklar, ob an allen Stellen die notwendigen Daten vorhanden sein werden. Weiterhin ist die Auswahl von verfügbaren Verfahren groß, und jeder Anwendungsfall stellt spezielle EnWG (2005): Energiewirtschaftsgesetz vom 7. Juli 2005. BGBl. I: S. 1970 (3621), zuletzt geändert durch Artikel 2 des Gesetzes vom 21. August 2009, BGBl. I: S. 2870). EEG (2008): Erneuerbare-Energien-Gesetz vom 25. Oktober 2008. BGBl. I: S. 2074), zuletzt geändert durch Artikel 12 des Gesetzes vom 22. Dezember 2009. BGBl. I: S. 3950. VDEW Materialien M-05/2000: Anwendung der Repräsentativen VDEW-Lastprofile – Step-by-step. Verband der Elektrizitätswirtschaft e.V. (Hrsg.), Frankfurt. VDEW Materialien M-23/2000: Umsetzung der Analytischen Lastprofilverfahren – Step-by-step. Verband der Elektrizitätswirtschaft e.V. (Hrsg), Frankfurt. Box, G. E. P.; Jenkins, G. M. (1976): Time Series Analysis - forecasting and control. San Francisco u.a: HoldenDay. ISBN 0-8162-1104-3. Hufendiek, K. (2001): Systematische Entwicklung von Lastprognosesystemen auf der Basis neuronaler Netze. Düsseldorf: VDI-Verlag, 2001. ISBN 3-18-345506-4. Deppe, B., Kurrat, M. (2009): Integration von Smart Metering in die Geschäftsprozesse von Energieversorgungsunternehmen. VDE VDE/ETG Kongress, 27.-28. Oktober 2009, Düsseldorf. Deppe, B., Kullack, A., Kurrat, M., Eggert, F. (2010): Potenziale zur Effizienzsteigerung durch die Etablierung eines Smart Metering. 11. Symp. Energieinnovation, 10.-12. Feb. 2010, TU Graz (Österreich). Deppe, B., Kurrat, M. (2009): Zähler als Bestandteil von Smart Grid Konzepten. In Kahmann & Zayer (Hrsg., 2010): Elektrizitätsmesstechnik Jahrbuch 2010. VWEW Energieverlag, Frankfurt. Kaufmann, A. (2003): Prognosemethoden und Prognosequalität - Auswahl und Optimierung. ew - das magazin für die energie wirtschaft 102 (13): 18–21. Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters Thomas Krüger∗ , Andreas Kuhn† , Joachim Axmann∗ & Peter Vörsmann∗ ∗ Institut für Luft- und Raumfahrtsysteme, Hermann-Blenk-Str. 23, 38108 Braunschweig † Andata Entwicklungstechnologie GmbH & Co KG, 5400 Hallein, Österreich Zusammenfassung Summary Ein wichtiger Aspekt für den zuverlässigen Einsatz von unbemannten Fluggeräten (Unmanned Aerial Systems - UAS) ist die Erhöhung ihres Autonomiegrades, dies betrifft im Besonderen die Reaktion auf extreme Windsituationen und Systemfehler. Hier soll eine adaptive Reglerarchitektur für kleine UAS auf Basis künstlicher neuronaler Netze (KNN) vorgestellt werden, die es dem System ermöglicht, unter Verwendung eines stabilen Lernverfahrens seine Regelungseigenschaften während des Fluges zu verbessern. Die Reglerarchitektur basiert auf dem Ansatz der nichtlinearen Sliding-Mode Regelung kombiniert mit einem Gradientenabstiegsverfahren. Dabei wird den KNN zunächst mit Hilfe von Messdaten verschiedener Flugmuster ein Basiswissen antrainiert, welches später unter Verwendung eines Beobachters der Systemdynamik im Betrieb erweitert wird. Vorherige Untersuchungen haben gezeigt, dass feedforward-Netzwerke mit nichtlinearen Transferfunktionen geeignet sind, um für die Flugregelung Verwendung zu finden. Ein zentraler Punkt hierbei ist, den Reglern ein in seiner Robustheit validiertes Basiswissen zu vermitteln. Um dies sicherzustellen, wird ein systematischer Trainingsprozess genutzt, der große Gruppen verschiedener Netzwerkarchitekturen trainiert. Die Robustheit aller Netze kann anschließend statistisch analysiert werden, so das allgemeine Aussagen zur Lösbarkeit der jeweiligen Lernaufgabe getroffen und Netze für die Regelung ausgewählt werden können. There is a high potential to improve the degree of automation of unmanned aerial systems (UAS) by implementing adaptive flight control strategies. This is especially the case regarding autonomous operation under difficult atmospheric conditions or even system failures. Machine learning techniques enable a UAS to improve control accuracy during operation and to respond to unknown, non-linear flight conditions. Here, artificial neural networks (ANN) are used to implement a learning flight control system. This is realised with a systematic two-stage approach by firstly implementing a sustainable offline-trained basic knowledge and improving these characteristics during flight using a gradient-based sliding mode training algorithm. During the automated offline-step large groups of ANN are trained with the required behaviour, which is derived from measured data. This phase showed that the learning task can be achieved by multi-layered feedforward-networks. The training success of all networks regarding their robustness is then evaluated with statistical methods and networks are selected for online application. The online learning step is realised with a controller architecture comprising a neural network controller and a neural observer which predicts the system’s dynamics and delivers the critics signal for contoller training. In summary, the statisic analysis of the robustness of the basic knowledge as well as the implementation of a stable neural observer proved to be central aspects of the control strategy. 61 62 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 1 Übersicht In den letzten Jahren ist die Nutzung kleiner unbemannter Flugsysteme deutlich angestiegen; dies betrifft im Besonderen die kommerzielle und wissenschaftliche Anwendung. Gleichzeitig führen die operationellen Vorteile kleiner Größe und geringer Kosten, die nicht zuletzt durch die Miniaturisierung der Avioniksysteme realisiert werden konnten, zu Problemen im Bereich der Flugregelung. Dies betrifft vor allem Modellungenauigkeiten und die hohe Empfindlichkeit gegenüber Wind und Turbulenz. Während konventionelle, kaskadisch aufgebaute Regelkreise, wie sie in Brockhaus [1994] vorgestellt werden, unter normalen Flugbedingungen adäquates Verhalten zeigen, hat der wissenschaftliche Einsatz in den Bereichen der Flugmeteorologie [Spiess et al. 2006; Kroonenberg 2009] und der Fernerkundung [Wilkens et al. 2008] gezeigt, dass adaptive Regelungssysteme die Genauigkeit steigern können. Hier bieten die Lerneigenschaften neuronaler Netzwerke die Möglichkeit, Adaption im Flug zu realisieren. Um den besagten Problemen von Ungenauigkeiten und Nichtlinearitäten entgegen zu wirken, können KNN verschieden verwendet werden: Als neuronale Regelungselemente [Pashilkar et al. 2006; Ferrari & Stengel 2004], zur Echtzeit-Modellierung und Schätzung von Modellfehlern [Calise et al. 2000; Necsulescu et al. 2007], sowie zur Identifizierung aerodynamischer Derivative [Seifert 2003]. Neben diesen Anwendungen, die sich auf Flächenflugzeuge beziehen, werden KNN auch vermehrt zur Regelung kleiner Drehflügler verwendet [Dierks & Jagannathan 2010], wobei sich die Ansätze besonders hinsichtlich der flugmechanischen Randbedingungen unterscheiden. Bei der Nutzung künstlicher Intelligenz zur Regelung vollautomatischer UAS ist es berechtigt, das Flugzeug im Sinne der Robotik als Agenten zu betrachten [Russell & Norvig 2004]. Ein idealer Agent ist in der Lage, seine Umwelt über geeignete Sensorik wahrzunehmen, entsprechend seines Missionsplanes zu agieren, aus Erfahrung zu lernen und dabei langzeitstabiles Verhalten zu bewahren. Ein Hauptteil dieser Eigenschaften ließe sich durch eine stabile neuronale Regelungsstrategie umsetzen. Die hier vorgestellten Ergebnisse basieren auf dem un- Abb. 1: Das UAS CAROLO P200 im Landeanflug. bemannten Kleinflugzeug CAROLO P200, das in Abb. 1 dargestellt ist und der dazugehörigen Simulationsumgebung. Dieses UAS hat ein Startgewicht von 5 Kg, eine Spannweite von 200 cm, wobei der elektrische Antrieb eine Flugzeit von 60 Minuten bei ca. 80 Km/h ermöglicht. Die Steuerung erfolgt nur mit Höhen- und Querruder, auf ein Seitenruder ist verzichtet worden. Das Konzept der neuronalen Regelungsstrategie basiert auf den praktischen Erfahrungen beim Einsatz des P200 in verschiedenen Flugexperimenten. Dies beinhaltet im Besonderen, dass die hohe Genauigkeit der Sensorsysteme und der dazugehörigen Datenfusionsalgorithmen experimentell validiert worden sind [Winkler 2007]. Die Sensorik besteht aus einer Inertialplattform, die die Drehraten und Beschleunigungen in allen Raumrichtungen misst; zusätzlich werden sowohl barometrischer Druck, als auch Staudruck gemessen. Ein GPS-Empfänger stellt Rohdaten zur Verfügungen, die in einem tightly coupled Kalman-Filter zur Sensorkalibrierung und zur präzisen Bestimmung von Lage, Position und Geschwindigkeit verwendet werden [Martin et al. 2007]. Dies garantiert, dass die KNN-Regler jederzeit Sensorinformationen angemessener Qualität erhalten. Um ein realistisches Verhalten des Systems in der Simulation zu gewährleisten, werden die nichtlinearen Bewegungsgleichungen verwendet, vermessene Aktuator- und Sensormodelle (dies beinhaltet den GPS-Empfänger), sowie ein Atmosphärenmodell mit einem Dryden Turbulenzspektrum [Brockhaus 1994]. Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters Dieser Artikel analysiert, inwieweit ein adaptives neuronales Regelungssystem den Problemen kleiner UAS bezüglich Nichtlinearitäten und atmosphärischer Störungen entgegen wirken kann. Dabei wird ein zweistufiger Ansatz bestehend aus Vortraining und Lernen im Flug umgesetzt. Die Lernmuster des Vortrainings sind aus vorigen Missionen gewonnen und werden einer großen Gruppe von Netzen (100 Stück) präsentiert, die sich in ihrer Topologie unterscheiden, wobei jede Topologie zehnmal verwendet wird. Dadurch kann statistisch bewertet werden, ob die KNN generell in der Lage sind, das Lernproblem zu lösen und gleichzeitig ein zufälliger Lernerfolg ausgeschlossen werden. Anschließend können Netze ausgewählt und ihr Verhalten unter Echtzeitbedingungen geprüft werden. 2 Regelungsansatz und Trainingsalgorithmus Sliding-Mode Ein wichtiger Bestandteil des Regelungsansatzes ist die Implementierung der gewünschten Flugbahn mittels kubischen Bézier-Splines. Dabei sind einzelne Splinekurven miteinander verbunden und bilden so die Flugbahn einer Mission. Dies ermöglicht eine permanente Messung der Abweichung von der gewünschten Bahn, was die zentrale Größe für den Regelungsprozess der Seitenbewegung darstellt [Schulz 2008]. Ein einfaches Beispiel einer solchen Splinekurve ist in Abb. 2 dargestellt. Diese Splines sind durch vier Punkte im geodätischen Koordinatensystem bestimmt(P0 bis P3 ) und 3 \ 3 3 3 [ Abb. 2: Beispiel einer Splinekurve zur Definition der Flugbahn. 63 können berechnet werden durch: x(t) = a3 · t3 + a2 · t2 + a1 · t + x0 , (1) y(t) = b3 · t + b2 · t + b1 · t + y0 , (2) 3 2 wobei der Laufparameter t, (0 ≤ t ≤ 1) die Position auf dem Kurvenstück festlegt. Es gilt a1 = 3(x1 − x0 ), a2 = 3(x0 − 2x1 + x2 ) und a3 = −x0 + 3x1 − 3x2 + x3 ; die Koeffizienten b1 bis b3 (2) werden nach gleicher Vorschrift mit y0 bis y3 berechnet. Aus dieser Bahnführung ergeben sich zwei Vorteile: Zum einen kann der benötigte Hängewinkel (resultierend aus einer Rollbewegung um die Flugzeuglängsachse (xf )) in einer Kurve vorab bestimmt werden, da dieser abhängig von der Krümmung des Splines ist. Zum anderen kann zu jedem Zeitschritt die seitliche Ablage von der Zielbahn gemessen werden, was eine klare Aussage über die Bahnfolgegenauigkeit darstellt. Ein wichtiger Bestandteil der Regelungsstrategie [Krüger et al. 2009], dargestellt in Abb. 3, ist der neuronale Beobachter, der die Dynamik der Seitenbewegung erlernt. Die Messung der Splineabweichung d im Vergleich zur Ausgabe dˆ liefert das Trainingssignal ∆dˆ für den Beobachter. Da keine direkte Qualitätsgröße für das Reglertraining verfügbar ist, wird die inverse Dynamik des Beobachternetzwerkes genutzt, um die Splineabweichung ∆d zurück zu propagieren. Das Ergebnis dieser Rückpropagation ist das Trainingssignal für den Regler ∆ξk . Dieser Ablauf wird nachfolgend vorgestellt. Es werden feedforward-Netzwerke mit Tangens Hyperbolicus-Übertragungsfunktionen in den verdeckten Schichten verwendet, die häufig für Regelungsanwendungen genutzt werden [Omatu et al. 1996]. Die Optimierung der Netzwerkgewichte läuft in zwei Phasen ab, zunächst einem batchVortraining, gefolgt vom Lernen während des Fluges. Für Beide Phasen bieten sich verschiedene Varianten des Backpropagation-Algorithmus’ an. Für das Vortraining wird der Levenberg-MarquardtAlgorithmus verwendet, während für die Echtzeitanwendung der deutlich schnellere Standard Backpropagation-Algorithmus eingesetzt wird. Allgemein berechnet sich die Vorwärtspropagation wie folgt: ( n ) ∑ L−1 L uj = f wij · ui + bj , (3) i=1 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 64 Abb. 3: Aufbau des Regelkreises: die zeitverzögerten Eingänge erlauben das Erlernen dynamischen Verhaltens. dabei indiziert j die Neuronen einer Schicht L und i die n Neuronen der Schicht L−1; b ist der Biaswert von Neuron j und f die Übertragungsfunktion. Sofern der Zielwert yt,j einer Netzausgabe yj = uL j bekannt ist, kann der quadratische Fehler als Qualitätsmaßfür die Netzwerkeigenschaften berechnet werden: 1 (4) Ej = (yt,j − yj )2 . 2 Für einen Gradientenabstieg ohne Moment kann nun die Gewichtsveränderung während eines Lernschrittes bestimmt werden: ∆wij = −µ ∂Ej = −µJ, ∂wij (5) mit der Lernrate µ > 0, der Jacobi-Matrix J und der Fehlerfunktion Ej . Da µ > 0 die Größe eines Lernschrittes wesentlich steuert, sollte diese im Sinne der Stabilität begrenzt werden. In Rojas [1996] ist das ganze Verfahren, auch für verdeckte Schichten dargestellt. Nach wiederholter Anwendung der Kettenregel kann die Jacobi-Matrix mit Elementen der Vorwärtspropagation berechnet werden. J= ∂Ej = δj · uL−1 . i ∂wij (6) In Gleichung (6) ist das Fehlersignal δj für ein Neuron j der Ausgabeschicht gegeben als: ′ δj = (yt,j − yj ) · fL (wij · uL−1 ). i (7) Wie in Abb. 3 dargestellt, ist es nicht möglich, den Fehler des Stellsignals ∆ξk direkt zu bestimmen. Da das Querrudersignal ξk die Eingabe j des Beobachternetzwerkes darstellt, ist es möglich, das dazugehörige Fehlersignal δj1 in Abhängigkeit der gemessenen Splineabweichung ∆d zu berechnen. Dieses rückpropagierte Fehlersignal charakterisiert eine Änderung der Fehlerfunktion Ej in Abhängigkeit eines geänderten Eingabesignals ξk . Sofern dˆ in etwa gleich d ist, kann ∆d genutzt werden, um ein direktes Lernsignal ∆ξ für den Regler zu generieren. Damit wird deutlich, dass stabiles Verhalten des Beobachternetzwerkes eine Voraussetzung für das Reglertraining ist. Im Folgenden soll daher ein stabiler Sliding-Mode-Control-Algorithmus (SMC) abgeleitet werden. Die Grundidee für SMC besteht darin, ein Gebiet im Zustandsraum eines zu regelnden dynamischen Systems zu identifizieren, in dem das Systems stabil ist und nach begrenzter Zeit nach Anregung in seinen Ausgangszustand zurückkehrt. Wenn ein solches Gebiet existiert, auch Gleitfläche genannt, ist ein Regelgesetz zu finden, das sicherstellt, dass das System diese Gleitfläche in begrenzter Zeit erreicht und nicht wieder verlässt. Der Lernprozess eines KNN kann wie in Abb. 4 als nichtlineare Regelungsaufgabe betrachtet werden, auf die das Prinzip der Gleitfläche angewendet wird. Hier ist das Verfahren in allgemeiner Vektorschreibweise für Netzwerke mit mehreren Ausgängen gegeben. Die Differenz zwischen gewünschtem Netzwerkfehler ⃗εt , der physikalisch mit der gewünschten Fluglage verkoppelt ist und dem aktuellen Netzfehler Stabilen Neuronalen Beobachters Thomas Krüger, Andreas Kuhn, Joachim Axmann, Peter Vörsmann Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters Eingaben gewünschte Ausgabe ~x ∆~ε + ~ε t Training − Regler Gewichte ~w Fehler Neuronales Netz 65 ~yt ~ε System Abbildungdie 1: Training of a neural network erlauben as a control process. Abb. 4: Aufbau des Regelkreises: zeitverzögerten Eingänge das Erlernen dynamischen Verhaltens. ⃗ε wird in den Trainingsblock gegeben, der die Änderungen der Gewichte vornimmt. Das Netzwerk berechnet ein Ausgabesignal ⃗y auf Basis der Einga⃗ ; der aktuelle Netzfehler ⃗ε stellt die Differenz ben x aus gewünschter Netzausgabe ⃗y t und tatsächlicher Ausgabe ⃗y dar. Es existieren verschiedene Ansätze um SMC und KNN miteinander zu verknüpfen [Shakev et al. 2003; Topalov & Kaynak 2001; Nied et al. 2005]; danach kann man die Gewichtsanpassung wie folgt definieren: ( ⃗ = ∆w ⃗ x ⃗ , ⃗y d ) ∂⃗y (w, ⃗ ∂ w(t) )T ( ) ⃗ · |⃗ε|. (8) · µ · diag sign(S) ⃗ k und Mit den Gleichungen (9) und (11) können S ⃗ S k+1 berechnet werden. ( ) ˙ k + λ · ⃗εk = λ + 1 ⃗εk − 1 ⃗εk−1 (14) ⃗ k = ⃗ε S Ts Ts ( ) ˙ k+1 + λ · ⃗εk+1 = λ + 1 ⃗εk+1 − 1 ⃗εk ⃗ k+1 = ⃗ε S Ts Ts (15) Die Unbekannte ⃗εk+1 aus Gleichung (15) muss näherungsweise bestimmt werden. Der Fehler ⃗εk+1 kann geschrieben werden als: ⃗εk+1 = ⃗εk + ∆⃗εk . Dies stellt eine Erweiterung des Gradientenabstiegsverfahrens dar, indem das Vorzeichen der ⃗ addiert wird. Gleitfläche S ⃗ = ⃗ε˙ + λ · ⃗ε . S (9) ⇒ ⃗ε = ⃗ε(t0 ) · e−λ(t−t0 ) . (10) Nun wird die Ableitung des Fehlers ⃗ε mit Hilfe eines Zeitschrittes Ts approximiert. ⃗ε(t) − ⃗ε(t − Ts ) ⃗ε˙ ≈ Ts (11) Für den aktuellen Zeitschritt wird der Index k eingeführt: S(t) = S k ; S(t + Ts ) = S k+1 ; . . . . (12) Damit sich der Algorithmus der Gleitfläche annähert, muss sich der Betrag der Gleitflächenfunktion S mit jedem Zeitschritt verringern. ⃗ k+1 | < |S ⃗ k| |S Daraus kann die Änderung des Fehlers in einem Zeitschritt ∆⃗εk bestimmt werden: ∆⃗εk = ⃗εk+1 − ⃗εk = (⃗y t,k+1 − ⃗y k+1 ) − (⃗y t,k − ⃗y k ) Für S = 0 befindet sich das System direkt auf der Gleitfläche, wo der Netzfehler gegen 0 geht, sofern der Faktor λ positiv ist: ⃗ = ⃗ε˙ + λ ·⃗ε = 0 S (16) (13) (17) = ∆⃗y t,k − ∆⃗y k . Die Differenz ∆⃗y t,k wird über die gewünschte, physikalisch sinnvolle Bahnabweichung bestimmt und ist daher bekannt. Für ∆⃗y k wird eine Näherung erster Ordnung angenommen. ∆⃗y k = ∂⃗y k (⃗ wk , ⃗ xk ) ∂⃗y k (⃗ wk , ⃗ xk ) ∆⃗ wk + ∆⃗x (18) ∂w ⃗k ∂⃗xk ⃗ ⃗ wk ,⃗ xk ) xk ) k ,⃗ und ∂⃗yk (∂⃗ können Die Ableitungen ∂⃗yk∂(w ⃗k w xk durch Rückwärtspropagation der Netzausgabe yk durch das KNN bestimmt werden. Der Parame⃗ k ist in Gleichung (8) gegeben und für die ter ∆w ⃗ k+1 bekannt. Es wird angenomBerechnung von S men, dass die Änderungen der Netzeingaben für jeden Zeitschritt Ts klein sind. Diese Zusammenhänge in Gleichung (13) eingesetzt liefert zwei unbekannte Größen, die Lernrate µ und λ, wobei λ positiv sein muss, damit die Gleitfläche erreicht wird. Bei Begrenzung der Lernrate µ ist der Algorithmus AI TUBS – Künstliche Intelligenz an der TU Braunschweig 66 stabil. Zur besseren Übersicht werden die Koeffizienten ai und bi eingeführt, wobei i der Index der Netzausgaben darstellt. Da alle Netzwerke in dieser Arbeit eine Ausgabe (i = 1) aufweisen, lässt sich die Begrenzung von µ wie folgt darstellen. ai = ( )( ( )) ∂⃗ yk 1 1 λ+ εk,i + ∆yd,k,i − ∆⃗ xk − εk,i Ts ∂⃗ xk Ts i (19) ( bi = 1 λ+ Ts )( ∂⃗ yk ⃗k ∂w ( ∂⃗ yk ⃗k ∂w )T ( ) ⃗ k ) |⃗εk | diag sign(S ! " # ) $" i (20) Für die Begrenzung von µ erhält man schließlich folgende Ungleichungen. } { S k,i S k,i ai ai − + < µ < + bi bi bi bi ∀ (S k,i > 0 ∧ bi > 0) ∨ (S ki < 0 ∧ bi < 0) { } S k,i S k,i ai ai + < µ < − + b b bi b i i i ∀ (S k,i > 0 ∧ bi < 0) ∨ (S ki < 0 ∧ bi > 0) (21) 3 Prozess zum Vortraining der Netzwerke In der Phase des Vortrainings erlernen die Netzwerke das nötige Basiswissen, damit sie als Regler für ein Flächenflugzeug verwendet werden können. Da der Entwurf von KNN keinen klaren analytischen Regeln folgt, sondern stark von der Lernaufgabe abhängt, wird ein automatisierter, iterativer und reproduzierbarer Trainingsprozess implementiert, der in Abb. 5 sichtbar ist. Ein wichtiger Bestandteil dieses Prozesses ist die physikalisch sinnvolle Auswahl der Ein- und Ausgaben der Netzwerke, sowie die Zusammenstellung angemessener Trainingsmuster in verschiedenen Trainingsblöcken. Das antrainierte Basiswissen kann nur so umfangreich sein, wie die Qualität der Lernmuster es zulässt. Hinsichtlich der Netzwerkarchitektur ist es nicht Ziel dieses Ansatzes, eine hochspezialisierte Topologie zu finden, sondern an einer großen Gruppe von Netzwerken die Qualität des Basiswissens zu evaluieren. In diesem Trainingsprozess wurden 100 Netzwerke verschiedener Architekturen automatisch generiert und trainiert. Die statistische Auswertung % & ) " ' ( Abb. 5: Prozess zur automatischen Auswertung des Basistrainings. erlaubt eine Analyse hinsichtlich Netzwerkeingaben, Trainingsblöcken, Netzwerkgröße und Robustheit. Zur Generierung der Lernmuster, wie auch für die spätere Echtzeitanwendung, wurden Flugbahnen mit einer Flugdauer zwischen vier und zehn Minuten verwendet. Für das Vortraining werden zwei Aspekte berücksichtigt: mit 10000 Lernmustern ist die Menge der Trainingsdaten ausreichend und die enthaltenen Flugmanöver sind angemessen für eine Flugenveloppe eines UAS’. Damit soll dem Flugzeug eine hinreichende Generalisierungsfähigkeit für unbekannte Flugbahnen antrainiert werden. Ein Beispiel einer Bahn ist in Abb. 6 gegeben. Um erste Informationen bezüglich robusten Verhaltens, auch in nicht trainierten Situationen, zu erhalten, sind die Lernmuster aufgeteilt in Trainings-, Test- und Validierungsdaten, wobei nur die Trainingsmuster die Verbindungsgewichte beeinflussen. Für alle Netzwerke werden die Initialgewichte zufällig angeordnet und auch die Lernmuster werden für jedes Netz bei jeder Epoche zufällig den Trainings-, Test- und Validierungsdaten zufällig zugeordnet. Dadurch werden statistisch repräsentati- Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters 67 Bahnabweichung d / m 2 1 0 −1 −2 0 Ziel Training Validierung Test 100 200 Zeit / s Abb. 7: Netzantwort für Training, Validierung und Test für die Flugbahn aus Fig. 6. Die Ausgaben folgen den Zielwerten über die gesamte Flugbahn, Validierung und Test zeigen robuste Ergebnisse. ve Ergebnisse eines Trainingszyklus sichergestellt. Die Validierungs- und Testdaten sind somit den Netzen unbekannt, wobei das Training gestoppt wird, wenn der Validierungsfehler mit der Zeit nicht abnimmt. Dadurch wird unnötiges Training verhindert und auch die Überspezialisierung der Netzwerke bei gleichzeitig reduzierter Generalisierungsfähigkeit eingedämmt. Daher ist der mittlere quadra- Abb. 6: Flugbahn aus dem Vortraining; Start- sowie Endpunkt bei x = 0 m und y = 200 m. tische Fehler von Test- und Validierungsdaten ein erster Hinweis auf robustes Verhalten. Die Fähigkeit von KNN, nichtlineare Funktionen zu approximieren ist in Abb. 7 dargestellt. Der neuronale Beobachter wird trainiert, um die seitliche Bahnabweichung aus den Eingabedaten zu schätzen; die Splineabweichung d ist daher der Zielwert des Basistrainings. Dies ist ein Beispiel für ein dreischichtiges Netz mit 25 Neuronen in der verdeckten Schicht und in seiner Qualität repräsentativ für das Vortraining sowohl der Beobachter- als auch der Reglernetzwerke. Alle trainierten Netze bestehen aus 20 bis 60 Netzwerken in drei bis vier Schichten. Das Basiswissen stellt eine gute Grundlage für die Echtzeitanwendung der Netzwerke dar, da die Ergebnisse des Trainings angemessen erscheinen. Der Hauptgrund für das Vortraining ist allerdings flugmechanischer Natur, da ein Flächenflugzeug zur Auftriebserzeugung eine minimale Geschwindigkeit benötigt. Würden beispielsweise beim Startvorgang Stelleingaben erfolgen, die zu große Lagewinkel zur Folge haben, könnte eine drastische Reduktion der Fluggeschwindigkeit eintreten und damit ein Strömungsabriss erfolgen. Im folgenden Abschnitt wird das Basiswissen validiert und im Betrieb, auch bei stark nichtlinearen Flugzuständen, erweitert. AI TUBS – Künstliche Intelligenz an der TU Braunschweig 4 Lernen im Flug Die Tests der Netzwerke in der Echtzeitanwendung wurden über größere Zeitfenster (mehr als 400 Sekunden) mit der Simulationsumgebung, die in Kapitel 1 beschrieben wurde, durchgeführt. Zuerst wurden die KNN auf den Flugbahnen getestet, auf denen das Basistraining basiert, um die Analyse des Vortrainings zu bestätigen. Danach wurden sie ohne Echtzeittraining auf unbekannten Bahnen validiert, um die Robustheit zu analysieren. Nach Bestätigung der Annahmen aus Kapitel 3 wurden die Netzwerke mit Echtzeitoptimierung auf unbekannten Bahnen getestet, was ebenfalls Untersuchungen mit signifikantem Scherwind beinhaltet. Die korrekte Funktion des Beobachternetzwerkes ist Grundvoraussetzung, um ein sinnvolles Trainingssignal für die Optimierung des Reglers zu generieren. In Abb. 8 sind die Ergebnisse eines nur vortrainierten Beobachters mit denen eines SMCoptimierten für eine unbekannte Bahn verglichen. without Online-Training Online-Training with SMC (λ=10) predictor error [m] 1 0.5 0 -0.5 -1 0 100 200 time t [s] 300 400 Abb. 8: Schätzfehler des vortrainierten Beobachters im Vergleich zur Echtzeitoptimierung mit SMCTraining. Es ist erkennbar, das der SMC-Algorithmus den Schätzfehler erheblich reduziert, wobei eine Standardabweichung von 0.027 m mit einem Maximalfehler von 0.484 m zu verzeichnen ist. Dies unterstreicht ein stabiles Echtzeittraining und ermöglicht die adäquate Berechnung eines Fehlersignals für den Regler. In Abb. 9 ist die Bahnabweichung bei Echtzeittraining des Reglers dargestellt. Dabei werden konventioneller und neuronaler Regler verglichen, da die Lernmuster aus Kap. 3 mit dem konventionellen Regelkreis gewonnen wurden. Es ist sichtbar, dass der lernfähige Regler besonders die starken Abweichungen deutlich reduzieren kann, so dass man von einem sinnvollen Lernsignal des Beobachters aus Abb. 8 ausgehen kann. 4 conventional controller neuronal controller deviation from target spline d [m] 68 3 2 1 0 -1 -2 -3 -4 0 100 200 time t [s] 300 400 Abb. 9: Abweichung von der Zielbahn. Verglichen werden kaskadischer und neuronaler Regler mit Echtzeitlernen. Um eine zuverlässige Funktionsweise des SMCAlgorithmus zu bestätigen, wurde eine Simulation mit einem stark asymmetrischen Windfeld durchgeführt, bei der eine Windvektorkomponente in geodätischen Koordinaten von v = 10 m/s auftrat. Die Ergebnisse des Vergleiches zwischen vortrainiertem und SMC-optimiertem Beobachter sind in Abb. 10 erkennbar. Wie zu erwarten sind die Abweichungen größer, allerdings ist der SMC- Algorithmus in der Lage, die Standardabweichung auf 0.042 m zu reduzieren bei einem Maximum von −0.813 m. Augenscheinlich ist das Echtzeittraining fähig, den Beobachter an die schwierigen Windbedingungen anzupassen, was eines der gewünschten Ziele aus Kapitel 1 ist. Da der neuronale Beobachter sich erfolgreich an die schwierigen Bedingungen ohne starken Qualitätsverlust anpassen kann, soll abschließend untersucht werden, ob das Trainingssignal des Reglers weiterhin sinnvoll ist. Abb. 11 zeigt die Systemantwort für die gleichen Windbedingungen, die in Abb. 10 vorherrschen. Von einigen wenigen Ausreißern abgesehen, ist erkennbar, dass die Fehler in signifikantem Thomas Krüger et al.: Adaptive Flugregelung unter Verwendung eines Stabilen Neuronalen Beobachters predictor error [m] Durch diesen Ansatz kann die Bahnführungsgenauigkeit deutlich verbessert werden, so dass ein adaptives Regelungssystem zur Verfügung steht, das auch bei nichtlinearen Flugzuständen angemessen arbeitet. without Online-Training Online-Training with SMC (λ=10) 1 0.5 0 5 Zusammenfassung -0.5 -1 0 100 200 time t [s] 300 400 Abb. 10: Schätzfehler des vortrainierten Beobachters im Vergleich zur Echtzeitoptimierung mit SMCTraining bei starkem Seitenwind. Maße verkleinert werden können. Dabei wird die Standardabweichung des Bahnfehlers d von 0.858 m für den kaskadischen Regler auf 0.718 m für den neuronalen Regler verringert. Die maximale Abweichung wird von −5.67 m auf −3.18 m reduziert. 4 conventional controller neuronal controller 3 deviation from target spline d [m] 69 2 1 0 -1 -2 -3 -4 -5 -6 0 100 200 time t [s] 300 400 Abb. 11: Abweichung von der Zielbahn. Verglichen werden kaskadischer und neuronaler Regler mit Echtzeitlernen bei starkem Seitenwind. Die dargestellten Ergebnisse sind exemplarisch für die Ergebnisse anderer Topologien aus dem Vortraining. Es zeigt sich, dass der zweistufige Ansatz bestehend aus systematischem Vortraining und Echtzeitoptimierung ein sinnvoller Weg zur Implementierung neuronaler Regelungssysteme ist. Die Anwendung von Maschinenlernverfahren ermöglicht ein adaptives Regelungssystem, das die Flugeigenschaften eines unbemannten Fluggerätes zu verbessern vermag. Dies gilt besonders für nichtlineare Flugzustände. Diese Arbeit zeigt, dass modulare KNN kombiniert mit einem stabilen SMCLernverfahren als Flugregelungssystem verwendet werden können. Für das Vortraining wurde ein reproduzierbarer Prozess implementiert, der es ermöglicht, das Training großer Gruppen von Netzwerken statistisch zu bewerten. Die Auswahl der Ein- und Ausgabegrößen, sowie der Lernmuster sind dabei von großer Bedeutung, damit die Netzwerke die gewünschten nichtlinearen Zusammenhänge abbilden können. Dieser Prozess bildet einen systematischen Ansatz, mit dem der Lernerfolg neuronaler Netze bewertet werden kann. Gleichzeitig zeigen die Netzwerke das gewünschte Verhalten während der Simulation des Flugregelkreises und sind somit die Grundlage für die Echtzeitanwendung. Neben dem robusten Basiswissen der KNN stellt die Eigenschaft des Beobachters, die Dynamik der Seitenbewegung abzubilden, ein Kernelement dieses Ansatzes dar, da hierdurch ein Trainingssignal für den neuronalen Regler gewonnen werden kann. Die Ergebnisse zeigen, dass neuronale Netze, sofern mit adäquaten Eingabegrößen versorgt, in der Lage sind, nichtlineare Modellierung und Regelung in Echtzeit zu erlernen. Dabei bildet der neuronale Beobachter die gewünschten dynamischen Zusammenhänge über die gesamte Flugenveloppe ab und liefert ein solides Signal für die Regleroptimierung. Dies gilt auch für schwierige Windbedingungen, was besonders auf den Ansatz des SMC-Trainings zurückzuführen ist. Folgende Untersuchungen werden die Validierung der Regelungsstrategie in Flugversuchen und die Untersuchung hybrider Regelungsverfahren beinhalten. 70 AI TUBS – Künstliche Intelligenz an der TU Braunschweig Literatur Brockhaus, R. (1994): Flugregelung. Springer Verlag, Berlin. ISBN 3-540-55416-5. Spiess, T., Bange, J., Buschmann, M. & Vörsmann, P. (2006):Unmanned meteorological measurements with the ’M2AV’ aircraft – Comparison with remote sensing and the Helipod. In European Geosciences Union – General Assembly 2006, Vienna, Austria. Kroonenberg, A. v. d. (2009): Airborne Measurement of Small-Scale Turbulence with special regard to the Polar Boundary Layer. Dissertation. Zentrum für Luft- und Raumfahrt, Technische Universität Braunschweig. Wilkens, C.-S., Buschmann, M., Johannes, L., Krüger, L., Krüger, T., & Vörsmann, P. (2008): Project Andromeda: Application of Drone Based Aerial Photographs. In 2nd International UAV World Conference. Frankfurt a.M., Germany, 12.–13. November 2008. Pashilkar, A. A., Sundararajan, N. & Saratchandran, P. (2006): A fault-tolerant neural aided controller for aircraft auto-landing. Aerospace Science and Technology 10: 49–61. Ferrari, S. & R. F Stengel (2004): Online Adaptive Critic Flight Control. Journal of Guidance, Control and Dynamics 27 (5): 777–786. Calise, A., Lee, H. & Kim, N. (2000): High Bandwidth Adaptive Flight Control. In AIAA Guidance, Navigation, and Control Conference, Denver, CO, September 2000. AIAA 2000-4551. Necsulescu, D., Jiang, Y.-W. & Kim, B. (2007): Neural Network Based Feedback Linearization Control of an Unmanned Aerial Vehicle. International Journal of Automation and Computing 1 (4): 71–79. Seifert, J. (2003): Identifzierung nichtlinearer aerodynamischer Derivative mit einem Modularen Neuronalen Netzwerk. Dissertation. Universität der Bundeswehr München, Fakultät für Luft- und Raumfahrttechnik, Institut für Systemdynamik und Flugmechanik. Dierks, T. & Jagannathan, S. (2010): Output Feedback Control of a Quadrotor UAV Using Neural Networks. IEEE Transactions on Neural Networks 21 (1): 50–66. Russell, S. & Norvig, P. (2004): Künstliche Intelligenz – Ein moderner Ansatz. Pearson Education, München. ISBN 3-8273-7089-2. Winkler, S. (2007): Zur Sensordatenfusion für integrierte Navigationssysteme unbemannter Kleinstflugzeuge. Dissertation. Zentrum für Luft- und Raumfahrt, Technische Universität Braunschweig. Martin, T., Winkler, S. & Vörsmann, P. (2007): GPS/INS Integration for Autonomous Mini and Micro Aerial Vehicle Navigation Considering Time Correlated Sensor Noise. In ION 63rd Annual Meeting. Cambridge, Massachusetts, USA, 23.–25. April 2007: 710–715. Schulz, H.-W. (2008): Ein rekonfigurierbares Bildverarbeitungssystem für unbemannte Kleinstflugzeuge – Entwicklung eines bildgestützten Landeverfahrens. Dissertation. Zentrum für Luft- und Raumfahrt, Technische Universität Braunschweig. Krüger, T., Krüger, A., Kuhn, A., Axmann, J. & Vörsmann, P. (2009): Adaptive Flight Control for Unmanned Aerial Vehicles Using a Neural Network Predictor. In German Aeronautics and Astronautics Congress, Aachen, Germany, September 2009. DGLR. ISBN:978-3932182-63-4, PaperID 121206. Omatu, S., Khalid, M. & Yusof, R. (1996): NeuroControl and its applications – Advances in industrial control. Springer-Verlag, Berlin. Rojas, R. (1996): Neural Networks – A Systematic Introduction. Springer-Verlag, Berlin. Shakev, N. G., Topalov, A. V. & Kaynak, O. (2003): Sliding Mode Algorithm for Online Learning in Analog Multilayer Feedforward Neural Networks. LNCS 2714: 1064–1072. Topalov, A. V. & Kaynak, O. (2001): Online Learning in Adaptive Neurocontrol Schemes with a Sliding Mode Algorithm. IEEE Transactions on Sytems, Man, and Cybernetics, Part B: Cybernetics 31 (3): 445–450. Nied, A., Junior, S. I. S., Parma, G. G. & Menezes, B. R. (2005): On-line Adaptive Neural Training Algorithm for an Induction Motor Flux Observer. IEEE Power Electronic Specialists Conference 2005 – PESC2005. Komplexitätsreduzierte neuronale Netze zur OffboardDiagnostik in Fahrzeugsystemen Complexity Reduced Neural Networks for OffboardDiagnostics in Automotive Systems Tobias Carsten Müller* * Institut für Regelungstechnik, Hans-Sommer-Straße 66, 38106 Braunschweig [email protected] Zusammenfassung Neue innovative Diagnostikverfahren werden notwendig, um die stetig komplexer werdenden Fahrzeuge zukünftig noch warten zu können. Bereits seit einigen Jahren werden umfangreich Daten von Reparaturfällen aus den Servicewerkstätten aufgezeichnet, die bisher jedoch nicht automatisiert für Diagnostikverfahren genutzt werden. Gründe hierfür sind u.a. die Art und die mangelnde Qualität der zur Verfügung stehenden Daten, die eine große Herausforderung für ein Lernsystem darstellen. Im Rahmen eines Kooperationsprojektes der Volkswagen AG und mit der TU Braunschweig wurde ein Offboard-Diagnostik-Konzept entwickelt, welches in einem automatisierten Prozess aus aufgezeichneten Reparaturfällen lernt und das erlernte Wissen zur Unterstützung der Fehlersuche in den Servicewerkstätten zur Verfügung stellt. Hierfür werden neuronale Netze, kombiniert mit einem neuen Konstruktions- und Lernverfahren zur schrittweisen Erweiterung des Lösungsraumes verwendet. Zur Evaluierung wurde ein Prototyp implementiert, der mit Daten aus einigen zehntausend realen Reparaturfällen trainiert wurde. Die Experimente haben gezeigt, dass ein solcher Ansatz bereits mit den zur Verfügung stehenden Daten gute Ergebnisse liefert. Summary As the complexity of current automobiles increases, new and innovative diagnostic methods for car maintenance and diagnostic inspection are greatly needed. For several years, data of repair cases are extensively recorded from the car repair shops, but so far not automatically used for diagnostics. The reasons for this include the nature and the poor quality of available data, which represent a major challenge for a learning system. 71 In a cooperative project with Volkswagen AG and the Technische Universität Braunschweig a new Offboard diagnostic approach was developed, which learns from previous repair cases in order to assist future diagnostic inspections. For this purpose, neural networks, combined with a new design and learning techniques for the progressive expansion of the solution space used. For evaluation, a prototype was implemented which was trained with data from tens of thousands of real repair cases. The experiments have shown that this approach is able to provide promising results even with the data that is already available today. 1 Einleitung Eine große Herausforderung bei der Entwicklung neuer Fahrzeuge besteht darin, trotz immer komplexer werdenden Fahrzeugen deren Zuverlässigkeit und Wartbarkeit weiter zu verbessern. Aus diesem Grund sind neue innovative Diagnostikverfahren und Systeme notwendig. In hochvernetzten und verteilten Systemen wie der Kraftfahrzeugelektronik können die Ursachen für viele Fehler nur mit Hilfe durchgängiger und systemübergreifender Diagnostikkonzepte zuverlässig identifiziert werden. Die unterschiedlichen im Fahrzeug verbauten Systeme besitzen untereinander viele Berührungspunkte. Dazu gehören vor allem die funktionalen Abhängigkeiten der einzelnen Systeme untereinander und die damit notwendige Vernetzung der Steuergeräte [UNGER et al. 2005]. Die Auswirkungen von Störungen in solchen verteilten Systemen sind nur schwer zu überschauen. Die Folge ist, dass eine in der Werkstatt durchgeführte Fehlerdiagnostik in über 60 Prozent der Fälle den Fehler nicht findet [vgl. ABUOSBA 2004]. 72 AITUBS – Künstliche Intelligenz an der TU Braunschweig Hierdurch steigen die Fehlersuchzeiten und die Fehltauschkosten. Zusätzlich wird die Diagnostik durch die Tatsache erschwert, dass ein Symptom nicht selten mehrere Ursachen hat, und eine Ursache oft zu mehreren Symptomen führt [vgl. HACK et al. 2005, RUMPE & SCHIFFERS 2006]. 2 Hintergrund und Ausgangssituation Die meisten heute eingesetzten Steuergeräte1 sind eigendiagnostikfähig. Das bedeutet, sie besitzen Diagnostikroutinen innerhalb der Steuergerätesoftware, welche die Sensoren und Aktoren gegeneinander plausibilisieren. Unter anderem kommen hier modellbasierte Diagnostikverfahren zum Einsatz [ISERMANN 2006]. Wird vom System eine Störung erkannt, so wird ein Ereignisspeichereintrag (DTC2) hinterlegt, der über eine Diagnostikschnittstelle aus dem Fahrzeug ausgelesen werden kann [ISO 15031 2006]. Im Gegensatz zur Eigendiagnostik (OnboardDiagnostik) versteht man unter Offboard-Diagnostik-Systemen eine Klasse von Systemen, die in der Werkstatt an ein Fahrzeug angeschlossen werden und von außen auf die Systeme im Fahrzeug zugreifen. Sie haben die Möglichkeit, Ereignisspeichereinträge aller vorhandenen Fahrzeugsysteme auszulesen und dem Kundendienstmitarbeiter in lesbarer Form anzuzeigen. Leistungsfähige Diagnostiksysteme sollen dem KD3Mitarbeiter nicht nur alle Informationen aus den einzelnen Steuergeräten anzeigen, sondern ihn zusätzlich bei der Fehlersuche aktiv unterstützen. Ein Beispiel hierfür im Kundendienst von Volkswagen ist die geführte Fehlersuche (GFS). Die GFS verwendet Fehlersuchprogramme auf Basis von Entscheidungsbäumen, welche von Experten erstellt, in verschiedene Sprachen übersetzt und weltweit an die Anwender verteilt werden. Hier wird für jeden Ereignisspeichereintrag, der in einem Fahrzeug auftreten kann, ein Fehlersuchprogramm erstellt. Eine besondere Schwierigkeit besteht hierbei in der Abdeckung aller Varianten eines Fahrzeuges, welche sich durch die zahlreichen Ausstattungsmöglichkeiten ergeben. Dies ist bei der Erstellung der Fehlersuchprogramme zu berücksichtigen. So äußert sich derselbe Fehler in den unterschiedlichen Fahrzeugvarianten jeweils in anderer Art und auch Prüfund Reparaturanweisungen können stark variieren. Bereits im Voraus alle möglichen Fehlerquellen zu erkennen und abzudecken ist eine weitere Schwach- 1 Ein Steuergerät wird ebenfalls als ein System betrachtet. 2 DTC – Diagnostic Trouble Code 3 KD – Kundendienst stelle solcher manuell erstellter Fehlersuchprogramme. Die genannten Punkte führen in der Praxis zwangsläufig zu Kompromissen, da das Berücksichtigen aller möglichen Fehlerquellen sowie aller Fahrzeugvarianten nur mit erheblichem Aufwand beherrschbar ist. Insbesondere der bereits genannte Anstieg an Komplexität als auch die Tendenz zu verteilten Funktionen führen damit vermehrt zu reduzierten und unspezifischeren Fehlersuchprogrammen (z.B. „Suche nach Stromlaufplan“). Ein wichtiger Schritt zur Verbesserung der Diagnostikqualität ist die Möglichkeit die Vorgänge im Feld auszuwerten, wie z.B. durch die Einführung einer Datenbank für Felddaten. So könnten z.B., die für einen Reparaturfall relevanten Daten wie Ereignisspeichereinträge usw., aufgezeichnet werden. Mit den heute verfügbaren Informationen werden bereits Auswertungen zur Verbesserung der Prüfabläufe durchgeführt. Dieser Vorgang der Auswertung, wie auch die anschließende Verbesserung der Fehlersuchprogramme wird jedoch manuell vorgenommen und lässt sich nicht mit vertretbarem Aufwand automatisieren. Daher kann über diese Vorgehensweise nur eine geringe Anzahl an Prüfprogrammen verbessert werden. An diesem Punkt setzt das in diesem Beitrag nachfolgend beschriebene lernende Verfahren an. 3 Lernen aus Reparaturfällen Weltweit existieren für viele Automobilhersteller mehrere zehntausend KFZ-Werkstätten mit insgesamt über hunderttausend Mitarbeitern. Aufgrund dieses enormen Potenzials, ist der Austausch an Erfahrung zwischen den einzelnen Werkstätten eine Chance und Herausforderung. Dies soll mit einem Beispiel veranschaulicht werden. Im Fall eines komplexen Reparaturproblems für dessen Lösung ein KD-Mitarbeiter A einiges an Fehlersuchzeit und auf Verdacht getauschte Teile aufgewendet hat, bedeutet dies für den KDMitarbeiter B einer anderen Werkstatt mit demselben Problem, denselben Aufwand zu investieren. KD-Mitarbeiter B profitiert folglich nicht von der Erfahrung des KD-Mitarbeiters A. Wäre es möglich, die einmal gemachten Erfahrungen immer zur Verfügung zu haben, bestände ein großes Einsparpotenzial. Das Ziel sollte daher sein, aus Reparaturfällen zu lernen und das erlangte Wissen für zukünftige Reparaturfälle zu nutzen. Da auch hier analog zur GFS die Menge der Daten und das daraus erlangbare Wissen groß ist, kann sowohl das Lernen als auch die Anwendung nur dann von gewinnbringender Effizienz sein, wenn der gesamte Prozess automatisch durchführbar ist. TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen 73 4 Problemanalyse Für ein lernendes System ist die Art und die Qualität der vorhandenen Daten von entscheidender Bedeutung. Gelernt werden soll aus den Reparaturfällen in den Werkstätten. Hierfür soll zunächst ein allgemeiner Diagnostik- und Reparaturprozess näher betrachtet werden. Dieser ist in Abb. 1 in stark vereinfachter Form als iterativer Prozess dargestellt. D iagnost iktester Handlungsanweisungen Diagnost ikanfragen Sympt ome, Messwert e, et c Sympt ome (DTCs), Messwert e, et c Sympt ome, Messwert e, et c Reparat ur, Messungen Abb. 1: Vereinfachter Reparaturprozess nach Müller et al. [2007] Im ersten Schritt erfasst das Diagnostiksystem Symptome, die entweder aus dem Fahrzeug selbst ausgelesen oder vom Anwender manuell eingegeben werden. Wie in Abb. 2 dargestellt, können Symptome u.a. Geräusche, Vibrationen, Messwerte, gestörte Funktionen, Fehlerspeichereinträge sowie subjektiv wahrgenommene Symptome sein, welche in einer geeigneten Weise codiert wurden. Nach diesem ersten Schritt wird das System im nächsten Schritt Handlungsanweisungen an den Anwender ausgeben. Dies können entweder Reparaturmaßnahmen oder mögliche Fehlerursachen (die implizite Handlungsanweisungen darstellen) sein, deren Überprüfung vom System vorgeschlagen wird. Führte die vorgeschlagene Handlungsanweisung nicht zur Identifikation der Fehlerursache oder zur Behebung des Defektes, wird der Anwender im nächsten Schritt eine Rückmeldung an das System geben, das daraufhin erneut analog zu Schritt 2 Handlungsanweisungen ausgibt. Gest örte Funktionen Opt ische Symptome Komponent entausch Messwert e Geräusche Gerüche Symptome Leitungsreparatur Softwareupdate Vibrat ionen Mechanische Sympt ome ReparaturMaßnahme(n) Mech. Instandsetzung Fehlerspeichereinträge Abb. 2: Reparaturprozess als eine Abbildung von Symptombild auf Reparaturmaßnahmen Diese Rückmeldung kann dabei in Form von (vom System als Handlungsanweisung verlangten) Messwerten, Beobachtungen oder zusätzlichen Sympto- men gestaltet sein. Dieser Prozess endet mit einer vom Anwender als erfolgreich vermuteten Reparatur oder mit einem im ungünstigsten Fall nicht lokalisierbaren Defekt. Wurde die Fehlerursache dabei nicht durch einen direkten oder indirekten Hinweis des Diagnostiksystems ermittelt, wird dies als „No Trouble Found“ (NTF) bezeichnet. Das Diagnostiksystem war in diesem Fall nicht hilfreich. Diesem Prozess ist ein zeitlich ausgedehnter Prozess überlagert: Wurde der Defekt nur vermeintlich gelöst, wird davon ausgegangen, dass der Kunde, zumindest im Gewährleistungsfall erneut in die Werkstatt kommen wird und eine Reparatur verlangt. Nach dem vorgestellten Reparaturprozess kann der Informationsgehalt eines einzelnen Reparaturfalls Rep gemäß (1) auf eine Abbildung aus dem Reparaturkontext R und dem Symptombild SR auf eine Menge von Reparaturmaßnahmen MR abstrahiert werden (vgl. auch Abb. 2), wobei die Symptome SR und die Maßnahmen MR eine Untermenge aus der Potenzmenge (S) aller bekannten Symptome SΩ und der Potenzmenge (M) aller bekannten Maßnahmen MΩ sind. Ein konkreter Reparaturfall stellt somit eine Abbildungsfunktion nach (2) dar. Rep : R S M (1) Rep r , S R M R M mit r R, S R S (2) In einem Symptombild Si (S) werden wie bereits erwähnt alle während der Reparatur festgestellten Symptome Si S zusammengefasst. Hierzu zählen nicht nur technisch leicht und eindeutig erfassbare Symptome wie DTCs, sondern auch subjektiv wahrgenommene Symptome, welche in einer geeigneten Weise codiert wurden. Zu den Maßnahmen werden Aktionen des KDMitarbeiters, wie getauschte Teile oder Arbeitspositionen zusammengefasst. Unter dem Reparaturkontext R werden allgemein reparaturspezifische Attribute wie Datum, Werkstatt, Verlauf, usw. verstanden. Auf diese Weise kann eine Reparatur als abgeschlossener Prozess betrachtet werden. Das dem Prozess Rep zugrunde liegende System ist hierbei das jeweilige Fahrzeug an sich. Nun werden keinesfalls immer absolut baugleiche Fahrzeuge repariert, vielmehr sind alle Fahrzeuge, selbst wenn sie von derselben Klasse sind, aufgrund der möglichen Varianten unterschiedlich. Dies wird angelehnt an BORTH [2004] durch Abb. 3 veranschaulicht. Dabei bezeichnet X einen Vektor aller beobachtbarer Eingangsgrößen, Y einen Vektor nicht beobachtbarer Eingangsgrößen und Zi, 1 ≤ i ≤ n den Vektor der Ausgangsgrößen. Die 74 AITUBS – Künstliche Intelligenz an der TU Braunschweig Varianz der dargestellten Systeme4 i wird im Folgenden unter dem Systemkontext Ci zusammengefasst. X Y 1 X Y X Y Z1 2 Z2 n Lernsystem S, C Zn Dat awarehouse Abb. 3: Verschiedene Systemvarianten Werden nun alle beobachtbaren Größen Cb,i von Ci als Bestandteil von X und alle nicht beobachtbaren Größen Cnb,i als Bestandteil von Y betrachtet, so können die Systeme i , 1 ≤ i ≤ n in ein resultierendes System zusammengefasst werden. Daraus folgt, dass auch die Variantenvielfalt als Bestandteil der Lernaufgabe betrachtet werden kann bzw. muss. Als Konsequenz muss die Abbildung (1) auf (3) und analog (2) auf (4) erweitert werden. Rep : R C S M Rep r , CR , S R M R M , mit r R, C R C , S R S . (3) (4) Die resultierende Lernaufgabe besteht nun darin, aus den vorhandenen Daten ein Modell abzuleiten, das die beobachteten Eingangs- und Ausgangsgrößen bestmöglich abbildet. Für die Modellbildung selbst können nur die beobachtbaren Größen X und Cb herangezogen werden, so dass sich die resultierende Abbildung des Modells nach : C S M (5) ergibt. Für alle weiteren Betrachtungen wird jedoch Cnb vernachlässigt und zur Vereinfachung C anstelle von Cb verwendet. CΩ sei die Menge aller bekannten Kontextinformationen. 5 Iterativer Problemlösungsprozess Der Kern des Konzepts ist ein geschlossener Diagnostikprozess, der eine automatische Rückführung und Nutzung von Erfahrung ermöglicht. Ein prinzipielles Datenflussdiagramm ist in Abb. 4 dargestellt. In den Reparatur-Prozessen sind alle Reparaturprozesse der verschiedenen Werkstätten zusammenzufassen. Eine Auswahl der entstehenden Daten, gemeint sind hier vor allem Reparaturfalldaten nach (3) bzw. (4), ist in die Datenbank zu übertragen. Aus dem Datenbestand ist nun das Lernsys- 4 tem zu speisen, welches aus der Vielzahl der Daten, wie vorhergehend beschrieben, Modelle erzeugt. Diese Modelle sind anschließend als Diagnostikwissen ebenfalls in eine Datenbank zu übertragen, welche die Daten an die Werkstätten verteilt. Die Varianz der Systeme können auch als fahrzeugspezifische Eigenschaften betrachtet werden. Modell Õ M Werkst at t n Diagnost ikwissen Reparat ur Prozesse Abb. 4: Datenflussdiagramm des DiagnostikProzesses Es handelt sich somit um einen geschlossenen Prozess, dessen Rückkopplung weitere Eigenschaften ausbildet. Hierdurch würde für bisher unbekannte Reparaturprobleme durch die Gesamtheit der KDMitarbeiter ein automatischer, iterativer Problemlösungsprozess entstehen. Dieser soll nachfolgend näher beschrieben werden. Würde in einer Werkstatt ein neues bisher in den Datenbeständen unbekanntes Reparaturproblem auftreten, so besteht für dieses erste Auftreten im erlernten Modell kein Diagnostikwissen. Eine zielgerichtete Diagnose würde nicht möglich sein. Der betreffende KDMitarbeiter müsste das Problem dann mit den ihm vorhandenen Mitteln lösen (z.B. Fehlersuchprogramme etc.). Weiterhin wird davon ausgegangen, dass in dieser ersten Problemlösung mehrere, auch z.T. nicht erfolgreiche Reparaturmaßnahmen erbracht werden, die anschließend in den Datenbestand einfließen. Im folgenden Schritt würde das Lernsystem erneut aus den Datenbeständen des Data-Warehouse lernen und das Diagnostikwissen optimieren. Würde nun dieses Problem in einer anderen Werkstatt erneut auftreten, so könnte das Diagnostiksystem aufgrund der veränderten Modelle bereits eine zielgerichtetere Diagnose stellen. Diese könnte aufgrund der Datenlage jedoch noch unscharf sein. Der betreffende KD-Mitarbeiter wird also im Regelfall eine Auswahl an den vorgeschlagenen Diagnosen treffen müssen. Wäre die „Reparaturlösung“ dabei Teil der Diagnosen, so würde die Menge der durchgeführten, nicht erfolgreichen Reparaturmaßnahmen im Mittel kleiner. Bereits nach ein paar wenigen Iterationen würde so automatisch die beste Reparaturlösung für das neue Problem gefunden. Nach dem gleichen Funktionsprinzip würden auf diese Weise nicht nur neue Problemlösungen gefunden, sondern auch Veränderungen automatisch adaptiert werden. TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen 75 6 Neuronale Netze als Diagnostik-Modelle Die Untersuchung verschiedener Technologien am IFR5 hat ergeben, dass künstliche Neuronale Netze (KNN) hierfür besonders gut geeignet sind. Auf eine Einführung in KNN wird an dieser Stelle verzichtet und auf BISHOP [1995] verwiesen. Eine wichtige Eigenschaft der KNN bei der zugrundeliegenden Aufgabe ist das Erkennen von Mustern in den vorhandenen Trainingsdaten (Patterns). Eine weitere wichtige Eigenschaft ist die Fähigkeit zu generalisieren, d.h. dass KNN ist in der Lage auch für Symptombilder, die nicht Teil der Trainingspatterns sind, eine Aussage treffen zu können. Ein nahe liegendes neuronales Modell ist ein MultiLayer-Perceptron (MLP). Ein MLP ist ein KNN mit genau einer verdeckten Schicht und vollständiger feedforward-Vernetzung. MLPs sind nach DUDA et al. [2000] theoretisch in der Lage, jede beliebige stetige Funktion y(x) abzubilden. Entsprechend können MLPs damit auch jede beliebige Relation zwischen einem Symptombild Si und einer Menge an Reparaturmaßnahmen Mi abbilden. Der Aufbau eines an die Problemstellung angepassten Netzes und im Folgenden als MLP bezeichnetes Diagnostik-Modell ist in Abb. 5 dargestellt. ÕMLP MLP vc1 c1 vh1 ck wh1m1 wh2m1 nC nH nS f act wha mk f act wsb ha sb wcb ha cb ha mk b 1 b 1 a 1 1 und f act (x) (7) w x 1 e i i Dabei sind Θx die jeweiligen Bias der Neuronen, die der Übersicht wegen nicht in Abb. 5 dargestellt sind. Vektoren wie s und c sind fettgedruckt dargestellt. Untersuchungen haben gezeigt, dass dieses Modell hervorragende Klassifikationsleistungen zeigt, wenn mit den Trainingsdaten validiert wird, was auf eine starke Anpassungsfähigkeit an die Daten zurückzuführen ist. Für die Validierungsdaten, die nicht Teil der Trainingsmenge sind, zeigt das Modell jedoch Ergebnisse, die unterhalb denen einfacher logistischer Regressionsmodelle liegen. Die Gründe hierfür sind eine zu hohe abbildbare Komplexität des Modells, die in Kombination mit der geringen Fallzahl pro Symptom si SΩ, Kontextinformation ci CΩ und Maßnahme mi MΩ wie auch einer hohen Sparsity (geringe Auftrittswahrscheinlichkeit eines einzelnen Merkmals) zu einer geringen Generalisierungsleistung führt. v1 v2 s2 whgmm s3 sn 7 Komplexitätsreduzierte neuronale Diagnostik-Modelle vm1 s1 MΩ vm wsnhg vsn Abb. 5: Multi-Layer-Perceptron als neuronales Diagnostik-Modell Hierbei wird für jedes Symptom si SΩ und für jede Kontextinformation ci CΩ ein eigenes Eingangsneuron vsi bzw. vci erzeugt. Diese werden über sogenannte Verbindungsgewichte wsihj bzw. wcihj zu einer geeignet gewählten Anzahl nh an verdeckten Neuronen vnj verbunden. Diese werden wiederum mit den Verbindungsgewichten whjmk mit den Ausgangsneuronen vmk verbunden, wobei für jede Maßnahme mk MΩ ein eigenes Ausgangsneuron vmk erzeugt wird. Als Aktivierungsfunktion wurde jeweils die sigmoide Funktion nach (7) gewählt. Die Ausgabe vk des Ausgangsneuron vmk entspricht dann einem Vertrauenswert vk [0,1] für die Maßnahme mk, der bestimmt wird mit 5 (6) wc1h1 CΩ SΩ MLP : vk (s, c) Institut für Regelungstechnik, TU Braunschweig Ein Lösungsansatz der Problematik ist die gezielte Reduktion der möglichen abbildbaren Komplexität des neuronalen Netzes. Eine Untersuchung der Datenbasis zeigt, dass in guter Näherung folgende Abhängigkeiten zwischen den Merkmalen abgebildet werden müssen: 1. 2. 3. 4. 5. Unabhängigkeit zwischen si ٣ sj Symptomen Unabhängigkeit zwischen ci ٣ cj Kontextinformationen Unabhängigkeit zwischen mi ٣ mj Maßnahmen Abhängigkeit zwischen P(m|si) ≠ P(m) Symptomen und Maßnahmen Abhängigkeit zwischen P(s|c,m) ≠ P(s|m) Symptomen und Kontext 76 AITUBS – Künstliche Intelligenz an der TU Braunschweig Eine genauere Betrachtung der Forderungen zeigt, dass alle Forderungen, mit Ausnahme von Forderung 5 bereits durch ein einschichtiges neuronales Netz erfüllt werden, eine verdeckte Schicht an Neuronen zur Komplexitätserweiterung also nicht notwendig ist. Ausgangspunkt des in dieser Arbeit entwickelten Konstruktionsverfahrens für ein komplexitätsreduzierten Modell ist entsprechend ein einschichtiges neuronales Netz one. Um die Forderung 5 nicht zu verletzen, wird hier der Fahrzeugkontext C zunächst nicht berücksichtigt. Das Modell wird entsprechend nach Abb. 6 aufgebaut. s1 SΩ ws1m1 ws2m1 vm1 CΩ wc1s* 1 ck v2 ws* 1m1 vm1 v1 SΩ s2 v2 ws3s* 3 s3 vsn sn ws* 1mk wsns* n MΩ vm Nacht raining die Forderung 1 nach gegenseitig unabhängigen Symptomen si sj und gleichzeitig nach gegenseitig unabhängigen Maßnahmen mi mj. Die Forderung 2 nach untereinander unabhängigen Kontextinformationen ci cj wird ebenfalls erfüllt, da s3 MΩ vm sn v , v , v j 1,, C Abb. 6: Einschichtiges neuronales Diagnostik-Modell Analog zum MLP-Modell MLP wird für jedes Symptom si SΩ ein eigenes Eingangsneuron vsi erzeugt. Diese werden mit den Verbindungsgewichten wsimk direkt mit den Ausgangsneuronen vmk verbunden, wobei auch hier für jede Maßnahme mk MΩ ein eigenes Ausgangsneuron vmk erzeugt wird. Als Aktivierungsfunktion wurde wieder die sigmoide Funktion gewählt. Das so entstandene Netz wird mittels Backpropagation bis zum Abbruchkriterium trainiert. Bedingt durch die geringe abbildbare Komplexität des Modells eignet sich dieses gut, um selbst bei wenigen Daten zuverlässig Korrelationen zwischen Symptomen und Maßnahmen zu erlernen. Jedoch werden kontextspezifische Besonderheiten eines Fahrzeuges nicht berücksichtigt. Um nun der Forderung 5, der Abhängigkeit zwischen Symptomen und Kontext gerecht zu werden muss eine gezielte Komplexitätserweiterung vorgenommen werden. Hierzu wird jedes Eingangsneuron vsi für ein Symptom si in ein verdecktes Neuron vs i mit ebenfalls sigmoider Aktivierungsfunktion konvertiert. Die bereits trainierten Verbindungsgewichte werden beibehalten. ∗ Gleichzeitig wird für jedes verdeckte Neuron vs i ein neues Eingangsneuron vsi eingefügt und mit diesem verbunden. Anschließend wird für jede Kontextinformation ci CΩ ein neues Eingangsneuron vci erzeugt und jeweils mit jedem verdeckten Neuron vs i verbunden. Damit entsteht das in Abb. 7 dargestellte Netz. ∗ ∗ Die spezielle Konstruktionsmethode erfüllt durch ws s* 0 i, j 1,, S i j i j vh1 vs1 s1 v1 s2 wsnmm kr Õ kr Abb. 7: Komplexitätsreduziertes neuronales Diagnostik-Modell Õ oneone vs1 vc1 c1 (8) si* si cj (9) ein einschichtiges Subnetz darstellt und damit die Unabhängigkeit gilt. Die meisten additiven Konstruktionsverfahren führen nach dem Schritt der Erweiterung ein Nachtraining des gesamten Netzes durch. Allerdings würden dann auch die gelernten Gewichte des Ursprungsmodells one modifiziert werden, was nicht erwünscht ist. Es wird darum lediglich die neu hinzugekommene Eingabeschicht per Backpropagation nachtrainiert. Diese Vorgehensweise macht dennoch eine Modifikation der Verbindungsgewichte der Ausgabeschicht erforderlich. Bedingt durch die sigmoide Aktivierungsfunktion der verdeckten Neuronen vs i kann der ursprüngliche Definitionsbereich von si {0,1} nur noch für Gewichte wij → ∞ erreicht werden, was faktisch ebenfalls nur durch ∞ Trainingsperioden erreicht werden würde. Als Folge wären alle Vertrauenswerte vi um einen nichtlinearen Faktor i reduziert. Durch eine Modifikation der Gewichte und des Bias der Ausgabeschicht mit ∗ ws*m ws* m i j i j und m *m i i (10) wobei λ ein konstanter Faktor mit λ > 1, w*sikj das ursprüngliche Gewicht wsikj und Θ∗ki den ursprünglichen Bias darstellt, wird dieser Nachteil kompensiert. Angemerkt werden soll an dieser Stelle, dass in der Literatur eine Vielzahl von Konstruktionsverfahren existieren [vgl. z.B., PRECHELT 1995, VON STACKELBERG 2003]. Es konnte jedoch kein Verfahren gefunden werden, welches die speziellen Anforderungen hinsichtlich der Charakteristik der Daten erfüllt. TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen 77 8 Beschleunigung durch MerkmalsReduktion Mit zunehmender Anzahl von Falldatensätzen werden Lernverfahren mit mehreren Trainingsepochen ressourcenaufwendig hinsichtlich Rechen- und Speicherbedarf. Selbst für die in dieser Arbeit zur Verfügung stehenden Datensätzen war eine Merkmalsreduktion zwingend notwendig, um die Netze in akzeptabler Zeit trainieren zu können. Um die positiven Eigenschaften der neuronalen Netze, wie Mustererkennung und Generalisierung beizubehalten, sollten in einem Netz möglichst diejenigen Symptome und Komponenten zusammengefasst werden, zwischen denen Abhängigkeiten existiert. Hierfür bietet die Statistik eine Reihe von Abhängigkeitstests. Für die hier vorhandenen nominal dichotomen Merkmale S, M sind Signifikanztests geeignet. Mögliche Methoden hierfür, die auch in dieser Arbeit untersucht wurden, sind der χ²Test (Chi-Quadrat-Test) mit u r 2 j 1 k 1 n jk n*jk 2 n*jk (11) = Prüfgröße für den Test 2 2 n jk = Absolute Randhäufigkeit * n jk = Erwartete Randhäufigkeit für H0 u , r Merkmaldimension (hier 2) und der exakte Test nach FISHER [1954]. In Signifikanztests wird zunächst angenommen, zwei Merkmale seien unabhängig (genannt Nullhypothese H0). Mit dieser Annahme wird dann eine Prüfgröße χ² berechnet, die ein Maß für die Abweichung der realen von der für die Nullhypothese H0 erwarteten Verteilung darstellt. In (11) wird diese durch die normierte quadratische Abweichung aller absoluten Randhäufigkeiten njk zu den erwarteten Randhäufigkeiten n∗jk berechnet. Die resultierende Prüfgröße χ² kann dann in eine Irrtumswahrscheinlichkeit p (auch p-Wert genannt) umgerechnet werden, die angibt, wie wahrscheinlich ein statistischer Zusammenhang zwischen den Merkmalen, hier einem Symptom si und einer Komponente ki ist. Ein p-Wert von 1 bedeutet dabei eine 100%-tige Irrtumswahrscheinlichkeit für den Zusammenhang (H0 gilt als erfüllt; es gibt also keinen Zusammenhang) und ein p-Wert von 0 bedeutet eine 0%-tige Irrtumswahrscheinlichkeit (H0 wird verworfen; es gibt einen eindeutigen Zusammenhang). pm1s1 pm1si S p m j s1 pm j si (12) wobei die Elemente pm1s1 jeweils den p-Wert für die Signifikanz zwischen der Komponente kj und dem Symptom si darstellen. Der p-Wert selbst wird dabei mit der Näherungsformel 2 1 p 10 3,84 2 (13) aus der mit (11) berechneten Prüfgröße χ² bestimmt. In Schritt 2 wird die Signifikanzmatrix S in eine Distanzmatrix D überführt (vgl. (14)). Es wird dabei für jede Maßnahme und jedes Symptom berechnet welche Distanz d ein Symptom zu einer Maßnahme besitzt. Hierfür werden zunächst die einzelnen Distanzen (p-Werte) zwischen Maßnahmen und Symptomen als bipartitier, ungerichteter, gewichteter Graph G nach (15) dargestellt, wobei sich für die Knotenmenge (16) eine disjunkte/echte Partitionierung in Maßnahmenknoten VM und Symptomknoten VS ergibt. Die Kanten E werden nach (17) jeweils mit den Kantengewichten ps,m aus der Signifikanzmatrix S für Kanten es,m E definiert. Der kürzeste Weg zwischen Maßnahme mi und Symptom sj ist nun gegeben als Kantenmenge (18). Damit ergibt sich die Summe der Kantengewichte für den kürzesten Weg zwischen mi und sj mit (19). In Abb. 8 ist dies beispielhaft für m1 und s86 dargestellt. Die zugehörige Gleichung ist mit (20) definiert und zur Veranschaulichung nicht gemäß der Matrix S geordnet. K M i ,S j d m1s1 d m1si D d m j s1 d m j si (14) G V , E (15) V VS VM (16) E VM VS (17) ek E | e1 mi , s1 , e2 ,..., en 1 , en (18) mn , s j k 1..n d mi s j Im ersten Schritt des Merkmals-ReduktionsVerfahren wird zunächst sukzessiv für alle Symptome si SΩ und Maßnahmen mj mΩ die Signifikanz (repräsentiert durch den p-Wert) berechnet, wodurch sich die Signifikanzmatrix S ergibt mit em ,s K M i ,S j pm, s d m1s8 pm1s3 ps3m2 pm2 s7 ps7 m3 pm3s8 6 s8 steht für Symptom 8, m1 steht für Maßnahme 1. (19) (20) 78 AITUBS – Künstliche Intelligenz an der TU Braunschweig Die Notwendigkeit, Wege über andere Maßnahmenknoten hinweg zu wählen, ergibt sich aus der Verteilung der Falldaten. Typische Auftrittswahrscheinlichkeiten für ein beliebiges Symptom sx unter der Annahme dass ein Fehlerfall F vorliegt, liegen im Bereich von 0,02% ≤ P(sx|F) ≤ 0,2%. Dadurch können sehr gut positive Zusammenhänge, jedoch keine Negativzusammenhänge festgestellt werden. Um dies zu zeigen, wird zunächst die Definition des χ²-Test nach (11) für den hier konkret vorliegenden Fall mit 2 Variablen mit jeweils 2 Merkmalen (Symptom vorhanden (hx1) / nicht vorhanden (hx2); Maßnahme durchgeführt (h1x) / nicht durchgeführt (h2x) ) nach (21) überführt. Dieser Spezialfall wird auch χ²-Vierfeldertest genannt. Die χ²-Prüfgröße ist jedoch für einen anschaulichen Vergleich ungeeignet und wird darum mit der Beziehung (22) in den PhiKoeffizient (23) überführt. m1 s4 s1 s3 s2 s5 m2 s10 s7 m3 s6 s9 s8 Abb. 8: Beispielhaft dargestellte Distanz zwischen s8 und m17 Der Phi-Koeffizient stellt im Gegensatz zur χ²Prüfgröße ein normiertes Zusammenhangsmaß (auch Korrelation genannt) mit dem Wertebereich von -1 ≤ Φ ≤ 1 dar. Ein Φ > 0 bedeutet dabei ein positiver Zusammenhang und ein Φ < 0 ein negativer Zusammenhang. Jetzt wird ersichtlich, dass für ein Maximum bzw. ein Minimum der Korrelation die Felder der Hauptdiagonalen oder Nebendiagonalen von H gleich null sein müssen. Für einen positiven Zusammenhang kann dies leicht erfüllt werden, da hier die Felder h12 und h21 null sein müssen. Darüber hinaus bewirkt der durch die Falldaten bedingt große Wert von h22, das diese zwei Felder weniger ins Gewicht fallen. Für einen negativen Zusammenhang müssen jedoch die Felder h11 und h22 null oder nahe null sein. Für h22 ist dies nicht möglich. Eine Extremwertuntersuchung von (23) ergibt, dass die maximal negative Korrelation für die Bedingung h12 = h21 erreicht wird. Damit kann das Minimum für Φ mit (24) bestimmt werden. Für die vorhergehend bereits erwähnten typischen Auftrittswahrscheinlichkeiten P(sx|F) kann der Wertebereich von Φmin auf 10-4 ≤ Φmin ≤ 10-3 bestimmt werden. Damit wird deutlich, warum Negativzusammenhänge nur schwer bzw. nicht erkannt werden können. Unter der Annahme, dass ein sol7 s8 steht für Symptom 8, m1 steht für Maßnahme 1. Die Nummerierung ist für die Darstellung frei gewählt. cher Negativzusammenhang für eine andere Maßnahme einen Positivzusammenhang darstellt, ist die Wegbildung über andere Maßnahmen hinweg eine Lösung für dieses Problem. 2 n h11h22 h12h21 h 11 2 h12 h21 h22 h11 h21 h12 h22 2 n 2 h (22) h11h22 h12h21 11 h12 h21 h22 h11 h21 h12 h22 min (21) h12 für h12 h21 und h11 0 h12 h22 (23) (24) h11 h12 H= = Häufigkeitstabelle h21 h22 n Fallzahl Die erzeugte Distanzmatrix D, definiert in (14), dient nun als Grundlage für die MerkmalsAuswahl in Schritt 3. Alle für eine Komponente kj vorhanden Symptom-Distanzen dsimj sind im j-ten Zeilenvektor der Distanzmatrix D definiert. Würden alle Symptome ausgewählt, würde keine Reduktion stattfinden. Daher wird eine Distanzgrenze dth definiert. Damit kann die für eine Komponente kj zu betrachtende Symptommenge Smk bestimmt werden mit Smk d sS mk s dth , dmk s D (25) Es werden folglich all diejenigen Symptome si SΩ der Symptommenge Skj hinzugefügt, deren Distanz unterhalb der Distanzgrenze dth liegt. In Abb. wird dies Anschaulich dargestellt. s5 s4 d th m1 s1 s3 s2 Abb. 9: Beispielhaft dargestellte Distanzen und die Distanzgrenze für m1 Bedingt durch die Definition des χ²-Tests (siehe (11) und RICE [2006]), sind die einzelnen p-Werte nach (13) und damit auch die Distanzwerte Fallzahlabhängig. Für die Bestimmung des Parameters dth ist es jedoch wünschenswert, dass dieser nicht fallzahlabhängig sondern normiert ist. Hierfür wird zunächst in (22) die Beziehung des χ²-Tests zum TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen 79 dth 1 10 2 n dth2 ,norm 3,84 (26) n = Fallzahl Durch die Addition der einzelnen Distanzen im Graphen, kann dth,norm auch Werte > 1 annehmen. 9 Evaluation Es wurde eine modulare Trainings- und Evaluierungssoftware erstellt, so dass bereits einige Versuche mit Datensätzen aus realen Reparaturfällen durchgeführt werden konnten. Eine besonders schwierige Aufgabe war dabei die Beschaffung der Daten. Weiterhin zeitaufwendig war die Erfassung und Verknüpfung der Datensätze. Hinzu kommt, dass die Erzeugung der Daten in den Werkstätten an sich nicht in der für ein Lernsystem nötigen Qualität stattfindet. Nur mit einigem Aufwand konnten die Daten verknüpft und ein Algorithmus entwickelt werden, der möglichst „qualitativ hochwertige“ Datensätze herausfiltert. Ausgangsbasis für die Versuche waren 56.000 reale Reparaturfälle. Als Symptome wurden DTCs und codierte Kundenwahrnehmungen8 und als Maßnahmen Ersatzteile, Arbeitspositionen, codierte Werkstattwahrnehmungen und Komponentenbezeichnungen9 verwendet. Mit dieser Attributauswahl enthält der Datensatz 7.100 Symptome, 14.205 Maßnahmen und 1.474 verschiedene Kontextinformationen. Die daraus abgeleitete Reparaturfallmatrix RM hat die Dimension {1, …, |S|+|M|+|K|}{1, …, |R|}. Der Befüllungsgrad von RM beträgt dann 0,00026. Zur Bestimmung der Leistungsfähigkeit wurde eine normierte Evaluierungsquote qn eingeführt. Diese wird mit (27) bestimmt, indem für jeden Reparaturfall R der Evaluierungsmenge REval die vorgeschlagenen Maßnahmen M des Modells mit den tatsächlich durchgeführten Maßnahmen MR verglichen und die Treffer aufsummiert werden. q RREval 1 tr , tr = REval 0 qn M MR 0 (27) M MR 0 q (28) q max Die Normierung ergibt sich mit qmax, der durch die mangelnde Qualität der Falldaten theoretisch maximale Evaluierungsquote q. Auf verschiedene Validierungs- sowie Evaluierungsmethoden wurde bereits in MÜLLER et al. [2008] eingegangen. Evaluierung der Merkmals-Reduktion Die Merkmals-Reduktion war ein notwendiger Schritt um ein effizientes Training der Netze zu ermöglichen. Als geeignet hat sich eine Distanzgrenze dth von 1·10-10 erwiesen. Die Gesamtanzahl der Verbindungen konnte damit von ursprünglich 1·108 auf 1,7·106 (-98,3%) reduziert werden, ohne dass die Klassifikationsleistung des Netzes reduziert wurde. Evaluierung des komplexitätsreduzierten Modells Ausgehend von den merkmalsreduzierten Daten wurde jeweils für das einschichtige Modell one, das komplexitätsreduzierte Modell kr und das MLP-Modell MLP die jeweils beste Parameterkonfiguration ermittelt. Die Ergebnisse sind in Abb. dargestellt. Der Vergleich zeigt, dass bereits das einschichtige Modell one eine hohe Klassifikationsleistung erreicht, die jedoch durch die Berücksichtigung des Fahrzeugkontexts mit dem Modell kr nochmals gesteigert wird. Das MLPModell MLP erreicht dagegen aus den erläuterten Gründen das schlechteste Ergebnis. 100% 95% Evaluierungsquote [%] Phi-Koeffizienten betrachtet. Der Phi-Koeffizient stellt im Gegensatz zum χ²-Test ein normiertes Zusammenhangsmaß mit dem Wertebereich von 1 ≤ Φ ≤ 1 dar. Ein fallzahlunabhängiges Distanzmaß dth,norm wird folglich erreicht, indem die für die Berechnung notwendige Distanz dth mit (11), (13) und (22) nach (26) definiert wird. 90% 96,4% 93,1% 85% 86,7% 80% 75% 70% 65% 60% 55% 50% one kr MLP Abb. 10: Evaluierungsquote qn der Modelle one, kr und MLP im Vergleich Erprobung 8 Es existiert ein Katalog mit dem Kundenwahrnehmung wie z.B. Geräusche etc. codiert werden können. 9 Komponentenbezeichnungen wird auch Ersatzteilrumpfnummer genannt. Es wird hier nicht wie bei Ersatzteilen in der Ausprägung für das jeweilige Modell unterschieden. Zur praktischen Erprobung der Modelle wurde eine prototypische Anwendungssoftware entwickelt, die es ermöglicht, die Diagnostikleistung direkt am Fahrzeug zu erproben. Abb. 11 zeigt einen Screenshot der Anwendungssoftware. Für die Erprobung wurde unter anderem auch ein 80 AITUBS – Künstliche Intelligenz an der TU Braunschweig Praxistest durchgeführt, in dem gezielt Fehler in das Fahrzeug eingebaut und anschließend die durch das Diagnostiksystem vorgeschlagenen Maßnahmen evaluiert wurden. Tabelle 1 zeigt einige ausgewählte Fälle aus der Praxiserprobung. Die in MÜLLER et al. [2008] beschriebenen Verfahren zur automatischen Evaluierung benötigen für eine exakte Leistungsbestimmung auch eine eindeutige und fehlerfreie Datenbasis. Für die vorhandenen realen Daten ist dies jedoch nicht der Fall. So ist die automatische Evaluierung zwar für die Entwicklung enorm hilfreich, liefert jedoch keinen exakten Leistungswert. Eingebauter Verdächtigte Komponenten Fehler Relais für MotorMotorsteuergerät 98% steuergerät flashen defekt 96% Relais für Motor-SG 77% Zentralelektrik ··· ··· Leitungssatz im Leitungssatz im 26% Motorraum Motorraum 19% Masseband Motor Hauptlichtschal89% Hauptlichtschalter ter defekt ··· ··· Tabelle 1: Auswahl an Ergebnissen des Praxistests. Um einen solchen dennoch zu ermitteln, wurde eine manuelle Evaluierung mittels einer Stichprobe von 100 Referenzfällen durchgeführt. Treffer an 1. Stelle Treffer an 2. Stelle Treffer an 3. Stelle Treffer an 4. Stelle oder darüber Gesamt Trefferquote 78% 6% 5% 5% 94% Tabelle 2: Ergebnisse der manuellen Evaluierung Dabei bedeutet ein Treffer an 1. Stelle, dass die 1. vom Diagnostiksystem vorgeschlagene Reparaturmaßnahme zur Lösung des Problems geführt hätte (vgl. auch Abb. 11). Die Differenz zur ermittelten Evaluierungsquote in Abb. 11 entsteht durch die geringere Fallzahl und damit höheren Streuung der Ergebnisse der manuellen Evaluierung. Sie zeigt jedoch auch, dass die Praxiserprobung und automatisierte Evaluierung vergleichbare Ergebnisse erzielen und die Evaluierungsmethode damit gut gewählt ist. Bemerkenswert ist hierbei, dass die ermittelte Gesamt-Trefferquote von 94% bereits mit den heute existierenden Daten erreicht wurde, die nicht die für ein Lernsystem wünschenswerte Qualität besitzen. Durch Verbesserungen der Datenerfassung, würde die Leistungsfähigkeit des Diagnostiksystems nochmals wesentlich gesteigert werden. 10 Zusammenfassung Die Tests zeigen, dass das vorgestellte Konstruktionsverfahren für komplexitätsreduzierte neuronale Netze nicht nur theoretisch sondern auch praktisch gute Ergebnisse liefert. Werden die verwendeten Daten betrachtet, zeigt sich ferner, dass das neuronale Modell selbst in unscharfen Daten automatisch Muster und Zusammenhänge erkennen, die auch praktisch für die Diagnostik eingesetzt werden können. Die Modelle eröffnen zusätzlich eine Bandbreite an neuen Möglichkeiten, die Daten zu verstehen und z.B. für qualitätssteigernde Maßnahmen einzusetzen. Abb. 11: Screenshot der experimentellen Anwendungssoftware [WITTLING 2008] Dabei wurde Fall für Fall verglichen, welche Reparaturmaßnahmen das Diagnostiksystem vorschlagen würde, und welche Reparaturmaßnahmen davon tatsächlich zur Lösung des Problems geführt hätten oder aber den entscheidenden Hinweis zur Lösung gegeben hätten. Tabelle 2 zeigt die Ergebnisse der manuellen Evaluierung hinsichtlich der Trefferquote. Darüber hinaus stellt ein lernendes Diagnostiksystem eine hervorragende Ergänzung zu den bisher eingesetzten Diagnostiksystemen (z.B. GFS) dar. Es besitzt die entscheidenden Vorteile in der automatischen Generierung und Adaptierung von Diagnostikwissen. Jedoch müssen für eine effiziente Integration in die bisherigen Prozesse noch einige Schritte getan werden. Wünschenswert wäre z.B. die Verknüpfung der vorgeschlagenen Reparaturmaßnahmen mit speziellen Fehlersuchprogrammen, wie sie die GFS verwendet. Ein leistungsfähiger Ansatz für die Generie- TOBIAS C. MÜLLER: Komplexitätsreduzierte neuronale Netze zur Offboard-Diagnostik in Fahrzeugsystemen 81 rung von dynamischen Prüfabläufen wurde z.B. in KRIEGER et al. [2007] vorgestellt. Letztlich ermöglicht ein solches Diagnostiksystem, dass auch in Zukunft immer komplexer werdende Fahrzeuge mit zahlreicher werdenden Varianten und verkürzten Entwicklungszyklen effizient instand gesetzt werden können. Literatur UNGER, U., LANGE, K., PETERS, D. & REUSS, H. C. (2005): Methode für eine gesamtheitliche Systembetrachtung zur funktionsorientierten Fehlererkennung und Diagnose in vernetzten Kfz-Systemen. In: Elektronik im Kraftfahrzeug. Proceed., Baden-Baden, ISBN 3-18-091907-8 ABUOSBA, M. (2004): Fahrzeug-Diagnose mit System. Sonderdruck aus Wissensmanagement 8/30. HACK, CHR., DRENKHAHN, G. & NICKLES, J. (2006): Vernetze Funktionen beherrschen - Diagnoseanforderung zur Bewältigung der Komplexität vernetzter Fahrzeugsysteme. Automotive, Messen und Testen. RUMPE, B. & SCHIFFERS, J. (2006): Herausforderungen an die Diagnose - Integration der Diagnose in die Steuergeräteentwicklung. In: ZfAW. Zeitschrift für die gesamte Wertschöpfungskette Automobilwirtschaft: 65–69. ISO 15031 (2006): Road vehicles - Communication between vehicle and external equipment for emmissions-related diagnostics. ISO 2006. ISERMANN, R. (2006): Fault-Diagnosis Systems: An Introduction from Fault Detection to Fault Tolerance. Springer Berlin/ Heidelberg. BISHOP, CHR. M. (1995): Neural Networks for Pattern Recognition. Oxford University Press. DUDA, R. O., HART, P. E. & STORK, D. G. (2000): Pattern Classification. 2nd ed. Wiley-Interscience. ISBN 0471056693 DUDA, R. O. (2000): Classification. 2nd ed. Wiley-Interscience. ISBN 0471056693 MÜLLER, T. C., LANGE, K., BREUER, A., KRIEGER, O. & FORM, T. (2007): Automatische erfahrungsbasierte Diagnose aus Felddaten mit neuronalen Netzen. In: Elektronik im Kraftfahrzeug. Baden-Baden. ISBN 978-3-18-09200 BORTH, M. (2004): Wissensgewinnung auf Bayes-Netz-Mengen, Universität Ulm. RIPLEY, B. D. (1996): Pattern Recognition and Neural Networks. Cambridge University Press RICE, J. A. (2006): Mathematical Statistics And Data Analysis. Duxbury Press. PRECHELT, L.: (1995) Konstruktive neuronale Lernverfahren auf Parallelrechnern. Dissertation. Universität Karlsruhe. STACKELBERG, B. (2003): Konstruktionsverfahren vorwärtsgerichteter neuronaler Netze. Dissertation. Universität Stuttgart. VON FISHER, R. A. (1954): Statistical Methods for research workers. Oliver and Boyd. WITTLING, D. (2008): Entwicklung und Optimierung von Anwendungs- und Validierungsmethoden für die Fehlerdiganose mit neuronalen Netzen. Diplomarbeit. Institut für Regelungstechnik, Braunschweig, unveröffentlicht. MÜLLER, T. C., KRIEGER, O. & FORM, T. (2008): Evaluierung von Offboard-Diagnosesystemen am Beispiel eines erfahrungsbasierten Diagnoseverfahrens. In GÜHMANN, C. (2008, Hrsg.): Simulation und Test in der Funktions und Softwareentwicklung für die Automobilelektronik, II. Expert Verlag. ISBN 978-3-8169-2818-8 KRIEGER, O., BREUER, A., MÜLLER, T. C., FORM, T. & LANGE, K. (2007): Wahrscheinlichkeitsbasierte Fahrzeugdiagnose auf Basis individuell generierter Prüfabläufe. In: Mechatronik 2007 Innovative Produktentwicklung Maschinenbau, Elektrotechnik, Informationstechnik: 235–248. ISBN 978-3-18091971-3. 82 82-1 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 82-1 83 Notizen 83-1 83-1 84 84-1 AI TUBS – Künstliche Intelligenz an der TU Braunschweig 84-1 0753 0835 0752 0760 0836 0523 0524 Die kürzeste Distanz zwischen zwei Punkten ist nicht der Weg zurück zum Stativ! TRIMBLE S8 TOTAL STATION “Zurück” und „noch einmal“ – die wohl unangenehmsten Worte bei einem Projekt. Trimble Vision Technologie reduziert nachweislich die Wege zurück zum Stativ, denn Sie steuern mit VISION Technology die Totalstation über den Bildschirm Ihrer Kontrolleinheit. Jetzt sehen Sie, was das Instrument sieht – direkt auf Ihrer Kontrolleinheit. Also kein „zurück“ zur Totalstation. Mit der nunmehr doppelten Reichweite behalten Sie auch in kniffligen Situationen trockene Füße und können über die Kontrolleinheit reflektorlos Punkte anzielen, erfassen und messen. Die Möglichkeit Videoaufnahmen oder Bilder mit den gewonnenen Vermessungsdaten zu kombinieren, bietet Ihnen eine exzellente Dokumentation Ihrer Arbeit und die Gewissheit: Ich habe alle notwendigen Daten und damit Kosten durch effizienteres Arbeiten reduziert. Trimble VISION ist die neueste, einer langen Reihe von innovativen Techniken, die wir erfunden haben, um Ihre Produktivität zu erhöhen – im Feld, im Büro und wo immer sich Ihnen die nächste Herausforderung bietet. © 2010, Trimble Navigation Limited. Alle Rechte vorbehalten. Trimble ist ein beim United States Patent and Trademark Office eingetragenes Warenzeichen von Trimble Navigation Limited. Das Globus- & Dreieck-Logo ist ein Warenzeichen von Trimble Navigation Limited. Alle anderen Warenzeichen sind Eigentum der jeweiligen Inhaber. SUR-184 Trimble S8 Schloss A4 DE.indd 1 19.03.2010 11:08:56 Uhr Mit der inmetris3D PartG haben Sie ein innovatives Unternehmen an Ihrer Seite. Die Kernkompetenz von inmetris3D liegt im Bereich der Dokumentation mithilfe terrestrischer 3D-Laserscannersysteme. Bewährte Hardware und Softwaresysteme stellen eine transparente, lückenlose und schnelle Informationserfassung sicher. Mit modernster Messausrüstung und kompetenten, engagierten Mitarbeitern garantieren wir hochwertige Ergebnisse. Unserer Philosophie „Hochwertig – Effizient – Wirtschaftlich“ folgend, konnten wir bereits umfangreiche Projekte im In- und Ausland realisieren. • Erstellung von Scans mit einem leistungsstarken Laserscanner • Umfassende Dokumentation auch komplexer Objekte • Speicherung in einer 3D-Punktwolkendatenbank • CAD-Bearbeitung • Erstellung von Plänen als exakte Planungsgrundlage inmetris3D • Erstellung von 3D-Modellen für die verschiedensten Anwendungsfälle Partnerschaftsgesellschaft • Visualisierungen, Animationen Markus Schäfer & Sven Thomsen • Virtual Reality Beratende Ingenieure Rebenring 33 D-38106 Braunschweig Telefon: +49 (0)531-3804180 Telefax: +49 (0)531-3804189 E-Mail: [email protected] Web: www.inmetris3D.de High-Engineering mit 3D-Laserscanning