Tutorial-Neuronale Netze
Transcription
Tutorial-Neuronale Netze
Center Computational Intelligence and Cognitive Systems Prof. Dr. habil. A. Grauel Josef-Stern-Weg 3 59494 Soest / Germany E-Mail : [email protected] Tutorial-Neuronale Netze 1 Tutorial: Neuronale Netze 1. Einführung 1.1 Motivation 1.1.1 Gegenüberstellung: Computer-Gehirn 1.1.2 Leistungsvergleich: Kommunikationsbandbreite unterschiedlicher Rechnerarchitekturen 1.2 Biologisches Vorbild und Extraktion künstlicher Neuronaler Netze 1.2.1 Funktionsprinzipien biologischer Netze 1.2.2 Lernen und Gedächtnis 1.3 Künstliche Neuronale Netze 1.3.1 Charakteristika Neuronaler Netze 1.3.2 Funktionselemente 1.3.3 Architekturprinzipien 2. Neuronale Informationsverarbeitung 2.1 Darstellung mit symbolisierten Bausteinen 2.1.1 Gewichtete Summation 2.1.2 Modell-Neuron 2.1.3 Funktionalität 2.1.4 Lernmechanismen 2.1.5 Fehlermaße 2.2 Darstellung mit symbolischen Bausteinen 2.2.1 Einfache Verknüpfungen und ihre Interpretation 2.2.2 Eine Energiebetrachtung: Bemerkung zur Minimalkonfiguration 2.3 Optimierung für Neuronale Netze 2.3.1 Genetische Algorithmen (GA) 2.3.2 Optimierung mit Evolutionären Strategien (ES) 2.4 Zusammenfassung 3. Struktur und Funktionsweise künstlicher Neuronaler Netze 3.1 Multilayer Perceptron 3.2 Rückgekoppelte Netzwerke 3.2.1 NN für eine Funktionsapproximation 2 3.2.2 Simulation nichtlinearer Systeme 3.3 Radiale-Basisfunktionen-Netze 3.3.1 Radiale Basisfunktionen 3.3.2 Radiale-Basisfunktionen-Netze (RBFN) 3.4 Lattice-Band-Networks 3.4.1 Selbstorganisierende Karten (SOM) 4. Neuere Entwicklungen 4.1 Support Vector Machines (SVM) 4.2 Bemerkungen zu Immune Systems (IS) 5. Softwareprodukte Literaturverzeichnis 3 Tutorial: Neuronale Netze 1. Einleitung Die neuronalen Netze (NN) sind integrierter Bestandteil der Computational Intelligence (CI), zu der auch die Bereiche Fuzzy Logik (FL) und Evolutionäre Algorithmen (EA) gehören (siehe Fig. 1 und 2). Letztere werden für eine numerische Optimierung verwendet, sie basieren auf Evolutionsstrategien. In letzter Zeit werden für die numerische Optimierung auch sogenannte Immune Systems (IS) aus der Biologie für die Optimierung eingesetzt, die auf antagonistischen Strategien basieren. Neuro-Fuzzy-Systeme oder Fuzzy-Neuro- FL (Fuzzy-Logic) NN (Neuronale Netze) Computational Intelligence EA (Evolutionäre Algorithmen) EA-NN optimierte Neuronale Netze: Struktur –und Parameteroptimierung EA-Fuzzy optimierte Fuzzy-Systeme: Regeloptimierung von Fuzzy-Systemen Fig.1.1 Computational Intelligence als Schnittmenge unterschiedlicher Forschungsbereiche Der Forschungszweig Computational Intelligence dient letztlich dem Zweck auf einem Computer Verhaltensweisen zu imitieren bzw. simulieren von menschlichen Experten und optimierenden Vorgängen aus der Natur. Das Ziel ist es assoziatives und schöpferisches Denken zu simulieren und mit Computer zu verifizieren. 4 Computational Intelligence optimierend regelbasiert lernfähig Fuzzy Logik Evolutionäre Algorithmen 8 Genetische Algorithmen Evolutionäre Strategien künstliche Neuronale Netze Modelle für die Optimierung Fig. 1.2 Modelle für die exakte Verarbeitung von vagem Wissen Modelle für die Verarbeitung von unvollständigem Wissen Generalisierung Computational Intelligence Neuronale Netze sind eine Imitation der Neuronen und ihre Art miteinander zu kommunizieren, basierend auf der Arbeitsweise des menschlichen Gehirns: Eingehende Signale und Daten wandern über sogenannte Synapsen von Neuron (Verarbeitungseinheit) zu Neuron, wobei der synaptische Einfluss durch Gewichtsfaktoren festgelegt werden kann. 5 1.1 Motivation Betrachtet man die Computertechnologie heute, so ist festzustellen, dass der Computer heute Aufgaben gut lösen kann, die einem Menschen schwer fallen. Andererseits aber die Alltagsaufgeben versagt, die der Mensch mühelos beherrscht. Betrachten wir nur unser Sehsystem in Verbindung mit der informationsverarbeitenden Zentrale "Gehirn", das vorzüglich beispielsweise für die Mustererkennung geeignet ist. In Bruchteilen von Sekunden erkennen wir ein Muster in groben Umrissen als auch in seinen wesentlichen Details, in einer Zeit die für auf dem Markt befindlichen Hochleistungsrechner nicht erreichbar ist. Dieses Beispiel weist auf einen fundamentalen Unterschied zur biologischen Informationsverarbeitung hin und letztlich auch zum Nervensystems des Menschen mit dem Gehirn als "Schaltzentrale". Es ist deshalb nicht verwunderlich die Arbeitsweise des menschlichen Gehirns zu verstehen und abzubilden. 1.1.1 Gegenüberstellung: Computer-Gehirn Prozessoren informationsspeichernde Einheiten Taktfrequenz Signalgeschwindigkeit Arbeitsweise Speicher Redundanz Ausfallsicherheit Organisation Lernfähigkeit Retrieval-Eigenschaft Algorithmen Computer von-Neumann-Maschine: 1 bzw. mehrere Connection Machine: 65536 z.B. optische Platte: 1 GByte 9 ca. 10 Hz schnell PC, CRAY, Connection Machine: CM (Leitungsgeschw. Elektronen: einige cm pro Sekunde) von-Neumann-Maschine: seriell Connection Machine: parallel lokalisierter Speicher adressenorientiert keine bzw. geringe Ausfall von Bauteilen: TotalAusfall des Computers Programmierung erforderlich keine bzw. beschränkt in Expertensystemen der Kl umfangreiche zeitintensive Suchroutinen genaue Festlegung erforderlich 6 Gehirn 10 10 Neurone (Prozessoren 14 15 10 Synapsen: ca. 10 bit (siehe Bemerkung) 3 ca. 10 Hz relativ langsam auf Axon: 1m/sec bis 120 m/sec parallel (vergleichsweise hoch) inhaltsadressierter (assoziativer) Speicher hohe Ausfall einzelner Neurone: keine Beeinträchtigung des Resultates "Training" Lernfähigkeit, flexibel schnelles Wiederauffinden der Information Fehlertolerant und lernfähig Bemerkung: Obwohl wir hinreichend gute Kenntnisse über die einzelnen Bauelemente besitzen, lässt sich darauf noch nicht die Funktion des Nervensystems, d.h. Wahrnehmung, Denken, Handeln und Gedächtnis etc. des Netzwerkes verstehen. An dieser Stelle ist es interessant danach zu fragen, inwieweit das Netzwerk fest "verdrahtet" ist. Wäre das biologische Netzwerk vollständig determiniert, wäre Lernen praktisch nicht möglich. Wir betrachten zunächst die im menschlichen Genom (Gesamtzahl aller Gene in einer Zelle) gespeicherte Information. Mit 3∗109 Basenpaaren und 2 bit pro Base erhält man aufgerundet 1010 bit als Informationsspeicherkapazität des Genoms. Wird andererseits die Gesamtzahl der Neuronen mit 1010 sowie 104 Synapsen pro Neuron angenommen, so erhalten wir insgesamt 1014 Synapsen für das menschliche Gehirn. Allein für die Determinierung der "Verdrahtung" des Gehirns wären damit 1014 ∗ld(1010) bit = 33 ∗1014 bit = 3∗1015 bit nötig. Wir folgern hieraus, dass sich die Evolution zusätzlich etwas "überlegt" haben muss – entweder eine Selbstorganisation, die aus einfachen Vorgaben komplexe Muster entstehen lässt oder aber eine im Genom determinierte Vorstruktur. 7 1.1.2 Leistungsvergleich: Kommunikationsbandbreite unterschiedlicher Rechnerarchitekturen Rechnerarchitektur von NeumannRechner PCs CRAY Transputer-arrays ConnectionMachine Intel: PSC/860 (N=Zahl der verwendeten Prozessoren) integrierter Schaltkreis (IC): 80 nutzbare Anschlüsse Gehirn: 1014 Synapsen Hybridsystem (Silizium-Technik verknüpft mit Gehirnarchitektur) typische Taktzeit ein Prozessor intern Kommunikationsbandbreite auf lokalem Bus Prozessor mit einem Speicher Kommunikationsbandbreite zwischen den Prozessoren 30 nsec 1nsec 40 nsec Transputer 2⋅108 bis/sec 107 bit/s (ETHERNET) 1010 bit/sec ½ N·108 bit/sec N·108 bit/sec 1,3·109 bit/sec (bei 128er ProzessorSystem) 30 nsec 3,2⋅108 bit/sec 109 bit/sec 30 nsec 1012 bit/sec 5 msec 1 µsec f. Transistor 5 msec f. Neuron 1015 bit/sec Bem.: Kommunikationsbandbreite ist ein Maß für den Austausch von Informationen zwischen den Prozessoren. 8 1.2 Biologisches Vorbild und Extraktion künstlicher Neuronaler Netze 1.2.1 Funktionsprinzipien biologischer Netze Die Großhirnrinde (Kortex) besitzt als sechsschichtiges afferente und efferente Nervenfasern (Axone) sowie verschiedene Nervenzellen in den Schichten. Die Morphologie der Nervenzellen ist ausgeprägt, hauptsächliche Erscheinungsformen sind die Pyramidenzellen (85 %), Sternzellen und in geringer Zahl Spindelzellen, Korbzellen, etc. Die Pyramidenzellen besitzen viele Dornen auf den Dendriten und ein langes Axon meistens senkrecht zur Schichtstruktur. Am Axon und den Dendriten sitzen überwiegend erregende Synapsen, aber am Zellkörper (Soma) ausschließlich hemmende Synapsen. Anders bei den Sternzellen, diese besitzen kaum Dornen, sind dagegen aber reichhaltiger verzweigt, und tragen am Axon ausschließlich hemmende Synapsen und am Zellkörper sowohl hemmende als auch erregende Synapsen. Spindelzellen durchsetzen die sechs Schichten mit geringeren Verzweigungen. a) Nervenzelle Ein Neuron oder eine Nervenzelle erfüllt funktionell die gleichen Aufgaben wie andere Zellen. Der Zellkörper (Soma) ist umgeben mit der Zellmembran in der sich zahlreiche Ionenkanäle befinden, innerhalb der Zellmembran befindet sich der eigentliche Zellkörper sowie andere funktionelle Einheiten (Golgi-Apparat), Mitochondrien, endoplasmatische Retikulum, Lipidtröpfchen etc. (/Dur/) die für eine funktionsgerechte Arbeitsweise der Zelle notwendig sind. Die Nervenzelle selbst besitzt zahlreiche Dendriten, Ausstülpungen (Dornen) und ein Axon (Wahl: die längste aller Nervenfasern an einem Neuron wird Axon genannt) mit einer präsynaptischen Endigung. Präsynaptische Endigung, synaptischer Spalt und postsynaptische Membran repräsentieren die Kontaktstelle, d.h. die Synapse. Informationstechnisch gesehen nimmt die Nervenzelle über ihre Verzweigungen "Informationen" auf, vergleicht diese mit einem Schwellwert und gibt gegebenenfalls Signale (idealisiert in Form von Spikes) über das Axon weiter, sie besitzt einen Gleichgewichtszustand bei ca. − 80mV (Ruhepotential) innen, und wir sagen deshalb die Zelle ist polarisiert. Depolarisierte Reize, d.h. positive Potentialbeiträge, z. B. von erregenden Synapsen auf den Verzweigungen des Neurons herrührend, können bewirken, dass das Schwellwertpotential überschritten wird. Die Folge ist, dass sich spannungsgesteuerte NatriumKanäle öffnen und Na + − Ionen durch die Membran ins Innere 9 der Membran strömen und damit das Konzentrationsgefälle (Konzentration der Na + − Ionen ist außerhalb ca. 12 mal höher als innerhalb der Membran) auszugleichen. Ein negativer Ladungsüberschuss innerhalb der Membran wird abgebaut und es kommt zu einem positiven Spannungsanstieg. Danach schließen die Na + − Kanäle wieder, die Membran erreicht ihr größtes Potential (positiv). Anschließend beginnt die Repolarisation veranlasst durch den Ausstrom von K + − Ionen durch die Membran nach außen aufgrund eines Konzentrationsgefälles (die K + − Ionenkonzentration ist innen ca. 40 mal höher als außen). Dieser Vorgang schreitet solange fort bis sich ein negatives "hemmendes" Potential im Innern der Zelle aufgebaut hat, dabei kann es zu einem negativen Potentialanstieg kommen, der unterhalb des Ruhepotentials zu liegen kommt. Dieser Zustand wird als Hyperpolarisation bezeichnet, der zeitlich im Millisekundenbereich abläuft, bis sich endlich nach einigen Millisekunden wieder das Ruhepotential eingestellt hat. Diese Einstellung geschieht nicht automatisch sondern über einen "Pumpmechanismus" (Na-Ka-Pumpe). Die Energie die bei diesem Prozess, Ionen entgegen einem Konzentrationsgefälle zu transportieren (aktiver Transport), nötig ist, kommt von einer biochemischen Umwandlung bei der Adenosintriphosphat in Adenosindiphosphat gespalten wird und mit einer Energiefreisetzung abläuft. An dieser Stelle sei angemerkt, dass die Ionen-Austauschvorgänge hier vereinfacht dargestellt wurden. Außer den Na + − , K + − Ionenkanälen gibt es Kanäle für Magnesium ( Mg 2 + ) , Calzium ( Ca 2 + ) , Chlor ( Cl − ) etc. Weiterhin spielen die spannungsabhängigen K + − Kanäle, wie am Beispiel hippocampaler Neuronen gezeigt werden kann, eine besonders wichtige Rolle für die parallel ablaufenden Prozesse. Die Pyramidenzellen im Hippocampus z. B. besitzen zwei unterschiedliche K + − Leitfähigkeiten, die bei einer ansteigenden intrazellulären C 2 + − Konzentration wirksam werden. Sie bewirken eine schnelle sowie eine langsame NachHyperpolarisation (/Ni/). Die schnellere Nach-Hyperpolarisation bewirkt die Repolarisation des Aktionspotentials. Durch die langsamere Nach-Hyperpolarisation wird die Entladungsrate des Neurons reduziert und den gegebenen Verhältnissen angepasst. Blockiert man diese Nach-Hyperpolarisation, indem der intrazelluläre Ca 2 + − Einstrom reduziert wird über spannungsabhängige Ca 2 + − Kanäle, so antwortet die Zelle mit einer höheren Impulsrate als vorher auf denselben Depolarisationsstimulus. Die langsamere Nach-Hyperpolarisation wird über den Neurotransmitter Norepinephrine verkleinert. Dieser aktiviert über 10 Rezeptoren die G-Proteine und cAMP, dabei wird durch die cAMP-abhängige Proteinkinase A schließlich der für die langsamere Nach-Hyperpolarisation verantwortliche Ca 2 + − gesteuerte K + − Kanal gehemmt. Weiterhin greift an dem Ca 2 + − gesteuerten K + − Kanal auch Acetylcholin inhibierend an. Aber auch durch den Neurotransmitter GABA (GammaAminobuttersäure) kann die K + − Leitfähigkeit in den Pyramidenzellen beeinflusst werden (/Ni/). Die Freisetzung von GABA (z. B. durch Interneuronen im Hippocampus) bewirkt an den Pyramidenzellen zweierlei: einen Cl − − Strom über GABAA-Rezeptoren und einen langsameren K + − Strom über die Aktivierung der von GABAB-Rezeptoren. Der langsamere Prozess läuft über die Aktivierung von G-Proteinen ab, die direkt ohne zweite Botenstoffe K + − Kanäle aktivieren können. Mittels dieser synaptischen Beeinflussung einer Zelle mit GABA wird das Aktivitätsverhalten bzw. Ladungsverhalten der Zelle stark gehemmt. Anzumerken bleibt, dass derselbe K + − Kanal auch durch die Neurotransmitter Serotonin und Adenosin aktiviert werden (/Ni/). Vorstehende Überlegungen machen die intrinsische Parallelität der ablaufenden Prozesse deutlich. Für die folgenden Betrachtungen wird vereinfachend angenommen, dass für die Entstehung des Aktionspotentials die Überwindung des Schwellwertpotentials erforderlich ist. Vereinfacht ausgedrückt führen unterschwellige Reize zu keinem, aber überschwellige Reize zur vollen Ausbildung eines Aktionspotentials. Daraus wurde das "Alles- oder Nichts-Gesetz" deduziert, das die Grundlage für die mathematische Formulierung eines Zwei-ZustandsElementes (Zwei-Zustands-Neuron) oder Prozessorelementes bildet. b) Impulsausbreitung Erst nach der Refraktärzeit, d.h. wenn die Membran ihr Ruhepotential wieder erreicht hat ist eine Depolarisation möglich. Die erregte Membranstelle auf dem Axon ist folglich nicht wieder sofort erregbar. Ein zuvor nicht erregter nachbarschaftlicher Bereich, der zu jeder Zeit sofort erregbar ist, kann erregt werden. Durch diesen Mechanismus kann sich die Erregung einseitig entlang eines Axons mit einer Geschwindigkeit von 2 m/s bis 120 m/s ausbreiten, je nach Ummantelung des Axons. Die Impulsausbreitung auf den Dendriten und dem Axon kann man unter vereinfachten Annahmen berechnen. Solche Annahmen sind: 11 • Zellkern sei punktförmig • Dendritenbäume bestehen aus zylindrischen Stämmen und Zweigen, die von einer einheitlichen Membran umgeben sind. • Die Enden der Dendriten sind isoliert, d.h. es existiert kein Stromdurchfluss durch die Endungen. Die elektrischen Eigenschaften der Dendriten können durch die Kabelgleichung beschrieben werden. Dazu kann eine Nervenfaser als eine Art "leckendes" Koaxialkabel dargestellt werden, bei dem die radialen Potentialanteile vernachlässigt werden. Wird die intrazelluläre Impedanz als ohmscher Widerstand betrachtet und die Hüllmembran der Faser als ohmscher Widerstand rm mit einer parallelen Kapazität cm , so ergibt sich die Kabelgleichung (/Ko/) für eine passive Membran. Mit Hilfe des BCK-Algorithmus von Butz, Cowan und Koch oder des Algorithmus von Poggio (/Pol,2/), lassen sich die Spannungsverläufe in neuronalen Strukturen berechnen (/Ko/). c) Impulsübertragung Die biologisch-chemischen Vorgänge auf molekularer Ebene an einer Synapse sind sehr komplex, sie können hier nur vereinfacht (schematisch) auf phänomenologischer Ebene dargestellt werden. Gelangt ein elektrischer Impuls zur präsynaptischen Membran der Synapse, so bewirkt er dort eine Leitfähigkeitsänderung der Membran, so dass dort eine Überträgersubstanz (Neurotransmitter genannt und auch als Vesikel oder Quant bezeichnet) ausgeschüttet wird und damit in den synaptischen Spalt gelangt. Durch Diffusion einer Überträgersubstanz von der präzur postsynaptischen Membran, fließt ein postsynaptischer Strom (PSC). Dieser kommt dadurch zustande, dass durch die Anbindung der Überträgersubstanz an die Rezeptoren der postsynaptischen Membran eine Leitfähigkeitsänderung der postsynaptischen Membran bewirkt wird. Die Häufigkeit (Frequenz) der ankommenden Aktionspotentiale an der präsynaptischen Membran bestimmt die Konzentration des Neurotransmitters im synaptischen Spalt und diese wiederum die elektrische Aktivität der postsynaptischen Membran. Diese Vorgänge an dem synaptischen Spalt sind nicht umkehrbar, die Informationsübertragung ist somit einseitig gerichtet aufgrund der Funktion von prä- und postsynaptischer Membran. Es sei schon jetzt vermerkt, dass dieses Phänomen der gerichteten Übertragung einen ganz wesentlichen Einfluss auf die mathematische Modellierung künstlicher Neuronaler Netze hat. Hauptsächlich zwei Arten von Neurotransmitter sind bekannt. Zu den erregenden Transmittersubstanzen zählen Acetylcholin, Glutamat etc. die die Permeabilität für die Na + − Ionen erhöhen, so dass für die postsynaptische Membran das Schwellwertpotential 12 leichter erreichbar wird. Hemmende Transmitter sind GABA, Glycin etc. Demzufolge gibt es funktionell zwei Arten von Synapsen, einerseits die erregenden (exzitatorischen) Synapsen, es wird ein erregendes postsynaptisches Potential (EPSP) erzeugt, das die Membran depolarisiert und zur Entstehung eines Aktionspotentials beiträgt. Andererseits existieren Synapsen mit hemmender Funktion, kurz hemmende (inhibitorische) Synapsen genannt, diese hyperpolarisieren die Membran und erzeugen ein inhibierendes postsynaptisches Potential (IPSP). Die zugeordneten postsynaptischen Ströme (EPSC und IPSC) sind durch das Ohmsche Gesetz über die Widerstände mit den entsprechenden Spannungen verknüpft. d) Selektive Wechselwirkung Betrachten wir die Kommunikation (via elektrischer Impulse) zwischen zwei Neuronen über eine Synapse, so folgt aufgrund der Eigenschaften der Synapsen, dass über die synaptische Kontaktstelle die Informationsübertragung einseitig gerichtet ist. Hieraus folgt aber für das "Rücksignal", dass dieses sich einen anderen Weg durch das Nervengeflecht suchen muss, wenn das nachgeschaltete Neuron mit dem Ausgangsneuron in Wechselwirkung treten will. Wird für die synaptische Stärke (Kopplungsstärke) zwischen Neuron i und Neuron j die Größe w ij eingeführt, gibt es keine biologische Motivation für eine Symmetrierelation der Form w ij = w ji . Bei Symmetrie-Erhaltung würde jedes Neuron mit jedem Neuron in direkter Wechselwirkung stehen, so aber liegt eine "selektive" Wechselwirkung vor. Dieses erscheint auch biologisch plausibel, da nicht alle Neuronen im Kortex gleichzeitig aktiv sind. Einzelne Hirnbereiche können partiell erregt werden. 1.2.2 Lernen und Gedächtnis Lernen nach dem heutigen Erkenntnisstand kann auf verschiedenen Ebenen diskutiert werden. Hier ist ganz allgemein die Frage interessant: Wie lernt der Mensch? Wir müssen unterscheiden: • Etwas Neues lernen im Sinne von Wissen erwerben. • Lernen aus Erfahrung, aus dem Wissen bzw. der Kenntnis heraus. 13 a) Lernen biologisch Auf der biologischen Ebene können wir zusammenfassen: • Lernen erfolgt im wesentlichen durch die Modifikation der Verbindungen zwischen den Neuronen, d.h. durch die Modifikation ("Veränderung") ihrer Synapsen. • Die Stärke der Verbindungen zwischen den Neuronen und damit ihr Verhalten ist abhängig von: (1) Anzahl der zwischen zwei Neuronen geschalteten Synapsen. (2) Art der Verschaltung, z. B. Synapsen nebeneinander oder aufeinander (Triggerschaltung) etc. (3) Synapsenaufbau • Menge und Art der gespeicherten Transmittersubstanz. • Zahl der Rezeptoren (Rezeptordichte) auf der postsynaptischen Membran, die die Transmittersubstanz aufnehmen. Jede Veränderung der Einflussgrößen bzw. der Parameter führt zur Veränderung im Signalfluss, d.h. der Frequenzfolge von Aktionspotentialen und letztlich zu einer Verhaltensänderung des Organismus. Somit vergröbert interpretiert, seiner Lernfähigkeit. Schon sehr früh hat D. Hebb (1949) versucht auf biologischer Basis , die Zellaktivität benachbarter Zellen phänomenologisch zu beschreiben. Hebbsche Regel (1949): Benachbarte Zellen die gleichzeitig aktiv sind, werden dadurch in ihrer Kopplung verstärkt, wobei die Effektivität des Einflusses der ersten auf die zweite Nervenzelle sich erhöht. Auch heute ist der Hebbsche Ansatz nicht aus der Mode gekommen, der Hebbsche Ansatz und Abwandlungen davon werden als Lernregel in den künstlichen neuronalen Netzen benutzt. Es ist ein Ansatz für das assoziative Lernen. In diesem Zusammenhang sei der Ansatz für assoziatives Lernen von Alkon (/Al/) zitiert, der ebenfalls auf neurobiologischen Beobachtungen basiert. b) Lernen psychologisch Lernen bedeutet die Modifikation des Verhaltens aufgrund von Erfahrungen. Als einfachstes Lernmodell gilt das ReizReaktions-Modell: Auf einen bestimmten Reiz mit einer bestimmten Reaktion zu antworten (klassische Konditionierung (/Te/), Versuch von Pavlov (/Pav/)). Lernen aufgrund eines Belohnungssystems (operante Konditionierung (/Sch/)). Hier erfolgt Lernen durch Belohnung (Verstärkung einer Reaktion auf einen Reiz), die Belohnung erfolgt auf eine richtige Reaktion und führt so zu einer Verstärkung der Reiz-Reaktions-Kopplung. 14 c) Gedächtnis Die Psychologie entwickelte und entwickelte Modelle für verschiedene geistige Fähigkeiten des Menschen wie: Wahrnehmung, Verhalten, Gedächtnisleistung und Denken. Die experimentellen Erfahrungen bezüglich der Gedächtnisleistungen des Menschen legen nahe, eine Unterteilung in ein Kurzzeitgedächtnis und ein Langzeitgedächtnis vorzunehmen. Das Kurzzeitgedächtnis sollte für eine kurzfristige Speicherung von Informationen zur Verfügung stehen. Experimentelle Erfahrungen zeigen, dass Informationen für einige Sekunden im Gedächtnis beibehalten werden können, aber schon nach ca. 20 Sekunden gehen im allgemeinen ca. 80% der Informationen verloren. Dieses erscheint verständlich, wenn man davon ausgeht, dass die Speicherung von Informationen in Form von elektrischen Erregungen erfolgt, die im Verlaufe der Zeit gedämpft werden und verschwinden, falls sie nicht aktiv aufrechterhalten werden. Das Langzeitgedächtnis wird als das "Medium" angesehen, das für die "permanente" Speicherung von Gedächtnisinhalten verantwortlich ist. Eine scharfe Trennung zwischen Langzeit- und Kurzzeitgedächtnis ist bisher nicht möglich. Ebenfalls gibt es keine klare Abgrenzung und Begriffsbildung für das Aufnahmevermögen von Informationen (Kapazität) des Gedächtnisses. Experimente zeigen, dass die Kapazität stark vom Bedeutungsinhalt der Information und den Assoziationsmöglichkeiten abhängt. Zum Beispiel können unvollständige "Erinnerungsstücke" benutzt werden (Vorgabe durch eine andere Person) um Erinnerungsinhalte aus dem Gedächtnis abrufen zu können. An dieser Stelle sei betont, dass vorstehende Überlegungen nicht der biologischen Vorstellung von der Speicherung (Abspeicherung von Information) durch synaptische Plastizität zwischen den Nervenzellen widerspricht. Grundsätzlich kann man sagen, dass über diese Sachverhalte noch gründlich nachgedacht werden sollte und muss. Erkenntnisse daraus sollten dann bei einer mathematischen Modellierung künstlicher Netzwerke berücksichtigt werden. 1.3 Künstliche Neuronale Netze 1.3.1 Charakteristika Neuronale Netze a) Klassifikation Die Einteilung der neuronalen Netze kann nach verschiedenen Gesichtspunkten erfolgen. Üblich ist eine Einteilung bezüglich 15 der Architektur, Verbindungstopologie, Verarbeitungsmodus, Verwendungszweck etc. (1) Einteilung bezüglich der Architektur • einschichtige Netzwerke (typisch: Gitterbasierte Netzwerke (Lattice Based Associative Memory) wie der Assoziativspeicher) • mehrschichtige Netzwerke (beispielsweise: MultilayerPerceptron motiviert durch den sechsschichtigen Aufbau des menschlichen Gehirns). Dabei können die elektrischen Signale auf Nervenfasern symbolisiert durch gerichtete Verbindungen bei mehrschichtigen Netzwerken nur in einer Richtung erlaubt sein (gerichtete Verschaltung): top-down- oder bottomup-Verschaltung. Informationsausbreitung kann auch in beiden Richtungen erfolgen (nicht biologisch motiviert), dann liegt abstrakt gesehen eine bidirektionale Verbindung vor. Zusätzlich zu diesen Verbindungen können auch noch laterale Verbindungen erlaubt sein um eine laterale Inhibition auf einer Nervenfaser (Axon) zu simulieren. (2) Charakterisierung nach einer Verbindungstopologie • Nicht total verschaltet: Nicht jedes Neuron innerhalb einer Neuronenschicht ist mit jedem Neuron dieser Schicht oder anderen Schichten verbunden. Beispielsweise kann eine totale Verschaltung zwischen den Schichten, im Sinne einer Vorwärtsverschaltung oder einer bidirektionalen Verschaltung ART-System oder bidirektionaler Assoziativspeicher) existieren aber keine Kopplung innerhalb einer Schicht. • Totale Verschaltung: Es liegt ein Netzwerk mit einer Verschaltung zwischen den Schichten und innerhalb der Schichten vor. • Zufällige (probabilistische) Verschaltung. Bei dieser Art der Verschaltung werden die Verbindungsgewichte nach einer Wahrscheinlichkeitsverteilung ausgewählt. 16 Eingang Ausgang Eingangsneuronenschicht Ausgangsneuronenschicht 1. Zwischenschicht ( hidden Neuronen ) 2. Zwischenschicht ( hidden Neuronen ) Fig. 1.3: Multilayer-Perceptron: Allgemeines mehrschichtiges Netzwerk mit Vorwärtsverschaltung. Das Summationszeichen ∑ bedeutet, dass an der entsprechenden Einheit alle ankommenden Signale gewichtet mit einem Gewichtsfaktor w ij aufsummiert werden. Die Stufe deutet an, dass für eine gewichtete Summation eine Schwellwertoperation auszuführen ist. Für die Schwellwertbildung kann eine Sprung-Funktion, sigmoide Funktion, Signumsfunktion etc. verwendet werden. Künstliche Neuronen mit einer sigmoiden Funktion besitzen eine nichtlineare Charakteristik und können somit formal als nichtlineares Prozessorelement betrachtet werden. (3) Charakterisierung bezüglich der Art der Kopplungsstärke • • symmetrische Kopplungsstärke: w ij = w ji . asymmetrische Kopplungsstärke: w ij ≠ w ji (4) Charakterisierung hinsichtlich des Verarbeitungsmodus • • • feed-forward Netzwerke: Die Eingabe wird durch Vorwärtspropagation zum Ausgang propagiert (siehe Multilayer-Perceptron). interaktive Netzwerke Relaxationsnetzwerke sind Modelle, die sich in einem Gleichgewichtszustand einschwingen. (5) Charakterisierung nach der Art des Verarbeitungsmodus 17 • • Synchroner Verarbeitungsmodus: Alle Elemente ändern gleichzeitig ihren Zustand. Verarbeitungsmodus asynchron: Zu jedem Zeitpunkt wird jeweils nur ein Neuron herausgegriffen und nur dieses erhält seinen neuen Aktivitätszustand. Die Reihenfolge der Veränderung kann rein zufällig oder fest vorgegeben sein. Die asynchrone Dynamik findet hauptsächlich bei Modellen mit diskreten Aktivitätszuständen a j ∈ { 0, 1} oder a j ∈ { − 1,"1 } Anwendung. (6) Einteilung der neuronalen Netze hinsichtlich ihres Anwendungsbereiches, beispielsweise: • • • • Mustererkennung, Optimierungsprobleme, Roboterkontrolle und Überwachung, Entscheidungstheorie und Klassifizierung. 1.3.2 Funktionselemente a) Aktivierung eines Netzwerkes Die Aktivierung ist im allgemeinen für alle Elemente (Zellkörper) eines Netzwerkes gleich. Eine sinnvolle Wahl für die Aktivierungszustände können z.B. reelle Zahlen oder binäre Werte sein. Global kann der Aktivierungszustand eines Netzwerkes zur Zeit t durch einen N-dimensionalen Vektor charakterisiert werden: a(t ) = { a i (t )} iN=1 . a i (t ) ist der Aktivierungszustand des i-ten Elementes u i und N ist die Zahl der Netzwerkzustände. b) Eingabegröße für ein Netzwerkelement (Neuron) Ein Neuron u j kann i Eingangsverbindungen besitzen. Demzufolge kann der Eingangszustand eines Neurons durch einen ikomponentigen Inputvektor beschrieben werden. c) Funktioneller Zusammenhang zwischen der Aktivierung und der Ausgabe an einem Neuron Die Netzwerkelemente sind untereinander durch Leitungen verbunden (symbolisiert durch Linien mit einer Richtung für die Propagation der Information) über die sie interagieren können. Die Häufigkeit der Spikefolge die ein Neuron verlässt, ist 18 abhängig von der überschwelligen Aktivierungsdauer. Jedem Neuron kann informationstheoretisch eine individuelle Ausgabefunktion f j (auch f out genannt, meistens ist f out gleich der Identitätsfunktion) zugeordnet werden, die den Zusammenhang zwischen der Aktivierung a j und der Ausgabe o j am Neuron j beschreibt: ( ) o j (t ) = f j a j (t ) . Geben alle N Elemente des Netzwerkes zur Zeit t ihre Werte aus, so gilt in Vektornotation: o (t ) = { o i (t )} iN=1 . Haben alle Neuronen das gleiche funktionelle Verhalten, so beschreibt f: A → 0 die Abbildung der Menge der Aktivierungszustände A in die gesamte Ausgabe 0. Die Ausgabefunktion kann eine deterministische Funktion, eine sigmoide (probabilistische) Funktion oder, wie oben erwähnt, die identische Abbildung sein. d) Propagierungsfunktion net ist die Propagierungsfunktion die zum Zeitpunkt t anhand der Gewichte w ij und der Ausgabe der vorgeschalteten Elemente, die Eingabe in die einzelnen Elemente (interne Eingabe) bestimmt. Mathematisch besteht der folgende Zusammenhang: net = g ( w ij , Aktivierung). Neuron i mit Aktivität a i und Output o i Neuron j mit Aktivität a j und Output o j Axon Synapse symbolisiert mit dem Synaptischen Gewicht w ij zwischen Synapse Neuron i und Neuron j. Fig.1.4: Das Neuron i gibt über die Nervenfaser (Axon, Dendriten) seine Information (Spikefolge) an das Neuron j. Positive Gewicht symbolisieren anregende Synapsen, negative Gewichte hemmende Synapsen. 19 Aus der Biologie ist bekannt, dass ein Neuron j alle ankommenden Signale aufsummiert, somit folgt: N net j (t ) = ∑ a i (t ) ⋅ w ij . i =1 Für einfache Elemente können wir die identische Abbildung o i (t) = a i (t) benutzen und erhalten für die Propagierungsfunktion: N net j (t ) = ∑ o i (t ) ⋅ w ij . i =1 net j ( t ) ist somit der aufsummierte gewichtete Input am Neu- ron j von allen Ausgaben der Vorgängerneuronen multipliziert mit den synaptischen Gewichten (genannt auch Verbindungsgewichte) w ij der Verbindung von Neuron i nach Neuron j. Es ist die gesamte Netzeingabe am Neuron j. Symbolisch: net j ai oi aj oj net i Fig. 1.5: Neuron. net repräsentiert den gewichteten Input an einem Bem.: Die w ij repräsentieren die Elemente einer Matrix W = w ij zwischen Eingabevektor und Ausgabevektor. ( ) e) Externe Eingabefunktion e(t) Durch eine externe Eingabe e j (t) in ein Element u j zur Zeit t können die Neuronenzustände von außen beeinflusst werden. Die externe Eingabe kann statistisch erfolgen, indem den einzelnen Eingabeelementen (unabhängig von der Ausgabe) Werte zugewiesen werden oder indem die Eingabeelemente bestimmte Initialisierungs-Aktivitätswerte (Bias-Werte) simultan erhalten. 20 f) Aktivierungsfunktion f.1) Allgemeiner Ansatz Die Aktivierungsfunktion f act auch Übertragungsfunktion genannt, bestimmt für jedes Prozessorelement (formales Neuron) u j ( t ) den neuen Aktivierungszustand a j ( t + τ) im nächsten Zeitschritt ( ) a j (t + τ ) = f act a j (t ), e j (t ), net j ,... . Der Wert der Aktivierung zur Zeit t + τ ist abhängig von der aktuellen Aktivierung a j ( t ) , einer möglichen externen Eingabe e j ( t ) in das Prozessorelement, möglichen exzitatorischen und inhibitorischen Einflüssen über net j , etc. Im einfachsten Fall hängt die Aktivierungsfunktion f act nur von der gewichteten Summe der Ausgabe der vorgeschalteten Elemente ab, die das Element j aufnimmt: ( ) a j (t + τ ) = f act net j (t ) . Zur Vereinfachung kann angenommen werden, dass alle Elemente die gleiche Aktivierungsfunktion besitzen: ( ) a j (t + τ ) = f net j (t ) . f.2) Nichtlineare Übertragungsfunktion Als Ansatz für eine nichtlineare Übertragungsfunktion kann eine sigmoide Kurvencharakteristik benutzt werden ( ) f Ej = 1 1 + exp − E j /T ( ) , wobei N E j = net j + e j − θ j = ∑ o i w ij + e j − θ j i=1 die gesamte Eingabe am Neuron j (Fig. 1.6) ist. 21 ( ) f Ej i T = 0.5 1.0 1.0 2.0 4.0 8.0 0.8 0.6 0.4 0.2 Ej E -20 -10 0 10 20 Fig .1.6: Abhängigkeit der nichtlinearen Übertragungsfunktion von dem Parameter T (auch als Temperaturparameter bekannt). Bezeichnung: T θj Parameter (wird oft als Temperatur interpretiert werden), Schwellwert des Neurons i, w ij Verbindungsgewichte (Kopplungsstärke) zwischen dem Neuron i und dem Neuron j. In den folgenden Ausführungen wird angenommen, dass das vorgeschaltete Neuron den Index i und das nachgeschaltete Neuron den Index j besitzt. Interpretation von f: Ein Neuron j summiert alle gewichteten Inputwerte E j auf und transformiert diesen Wert nach Maßgabe der nichtlinearen Übertragungsfunktion in seinen Ausgang o j = f (E i ) . Der Temperaturparameter T dient zur dynamischen Veränderung der sigmoiden Funktion. Größere T-Werte verringern den Einfluss von E j , entsprechend signifikant sind kleine Veränderungen in der Eingabe bei geringeren T-Werten bezüglich der Ausgabe. f.3) Übertragungsfunktion Tangenshyperbolikus Eine weitere sigmoide Funktion ist durch den hyperbolischen Tangens (tanh) gegeben: 22 ( ) ( ) f E j = tanh E j mit ( ) lim tanh E j → 1 und E j →∞ ( ) lim tanh E j → −1 E j → −∞ f.4) Signumsfunktion als Übertragungsfunktion Die Signumsfunktion besitzt folgende Eigenschaft: E i > 0⎫ ⎧+1 ⎪ ⎪ sign (E j ) = ⎨ 0 für E i = 0⎬ . ⎪⎩−1 E i < 0⎪⎭ Ist E j = 0 , d.h. liegt keine Veränderung am Neuron vor, dann wird bei einem Zweizustands-Neuron sign (E j ) = 0 gesetzt. f.5) Sprungfunktion Die ϑ -Funktion mit ihren zwei Werten kann ebenfalls als Übertragungsfunktion benutzt werden: E j > 0⎫ ⎧1 ⎪ ⎪ ϑ E j = ⎨ für ⎬. ⎪⎩0 E j ≤ 0⎪⎭ ( ) Ist E j = 0 , d.h. liegt keine Veränderung für das Neuron vor, dann soll es auch nicht stereotyp reagieren. Wir setzen deshalb ϑ(E j ) = 0 , falls E j = 0 ist. f.6) Spezielle Aktivierungsfunktionen (6.1) Die Aktivierungsfunktion von Grossberg lässt zu, dass die Werte der Aktivierungszustände in einem vorgegebenen Intervall [min, max] liegen: a j ( t + τ) = a j ( t ) ⋅ (1 − d ) + (max − a j ( t )) ⋅ net e, i − (a i ( t ) + min) ⋅ net i,i ( t ) Es bedeuten: 23 net e, i net i, i 1-d die aufsummierte exzitatorische Eingabe für das Neuron j , entsprechend die aufsummierte inhibitorische Eingabe, Simulation einer abnehmenden Aktivierung . Durch die eine maximale Deaktivierung min und die maximale Aktivierung max, kann die Aktivierung nicht beliebige Werte annehmen. (6.2) Die Aktivierungsfunktion von Feldman und Ballard für Schwellwert-Elemente ist gegeben durch a j ( t + τ) = a j ( t ) + c1 ⋅ ∑ o i ( t ) w ij , i mit ⎧a j ( t ) − c 2 , falls a j ( t ) > c 3 ⎫ o j (t) = ⎨ ⎬ sonst . ⎭ ⎩0 c1 , c 2 und c3 sind reelle Zahlen, wobei c 3 eine untere Aktivierungsbegrenzung darstellt. Die Aktualisierung des Aktivitätszustandes kann synchron oder asynchron stochastisch erfolgen. g) Operanden Da die Input- als auch die Outputwerte diskret oder kontinuierlich sein können, sind verschiedene Fälle zu unterscheiden. Falls Input und Output kontinuierlich sind, sollte zwischen den Musterpaaren (Input, Output) eine Abbildung gefunden werden, die zwischen diesen interpoliert. Kohonen /Ko1-4/ hat gezeigt, wie diese für den linearen Fall zu finden ist. Er benutzt als Maß für die Ähnlichkeit den euklidischen Abstand. Palm /Pa1-7/ hat eine Erweiterung auf polynomiale Abbildung vorgenommen. Die Anwendungsbereiche mit solchen (Input, Output)-Paaren liegen im Bereich der Regelungstechnik, z.B. balancieren eines Stabes, Steuerung einer chemischen Reaktion (/Ers/) etc., aber auch als Abbildung von sensorischen Feldern auf die innere Repräsentation (Kohonen /Ko2/) etc. Ist der Input kontinuierlich und der Output diskret, wird der kontinuierliche Inputraum in Bereiche eingeteilt und diesen jeweils ein diskretes Outputmuster zugeordnet. Das neuronale Netz leistet eine Klassifizierung, es sollte sich daher für die Aufgaben der Mustererkennung, Entscheidungen, Klasseneinteilung etc. eignen, allerdings sind diese Netzwerke oft mehr- 24 schichtig. Als Beispiel sei genannt NETtalk (/Se/) für das Lernen der Aussprache eines geschriebenen Textes (Text-toSpeech-Recognition) und das Perceptron (/Ro1-3/, /Mi/) für Aufgaben der Mustererkennung. Sind Input und Output diskret, so liegt der übliche Fall der Informationsverarbeitung vor. Beispiele sind das HopfieldModell, der Assoziativspeicher etc. 1.3.3 Architekturprinzipien a) Einschichtige Netzwerke Einschichtige Netzwerke sind solche, die nur aus einer Neuronenschicht bestehen und bei denen eine gewisse Anzahl von Neuronen einen Inputvektor aufnehmen und andere Neuronen einen Outputvektor ausgeben. Beispiele für solche einschichtige Systeme sind in der Literatur bekannt als • Hopfield-Modell und hopfieldartige Modelle, • gitterartige Netzwerke (Lattice-Based-Networks). b) geschichtete Netzwerke Als Vorbild für geschichtete Netzwerke kann die Großhirnrinde mit ihren sechs Schichten angesehen werden. Geschichtete Netzwerke repräsentieren eine hardwaremäßige Hierarchie und sollten leistungsfähiger als einschichtige Netzwerke sein. n Eingangssignale aus {0,1} sollen durch ein geschichtetes Netzwerk zu m Ausgangssignalen aus {0,1} verschaltet werden. Mathematisch kann eine solche Verschaltung durch eine Funktion F repräsentiert werden: F : { 0,1}in= 1 → { 0,1}m j= 1 . Ist eine Menge von Mustern p = (I, 0 ) gegeben, wobei I ein Inputvektor und 0 ein Zielvektor (Outputvektor) ist, so muss jedes p die Bedingung F(I ) = 0 erfüllen. Die einzelnen Neuronen können auf verschiedene Art verschaltet werden (Verbindungstopologie): • gerichtete Verschaltung: feed-forward-Verschaltung 25 • • • Diese Verschaltungsart besagt, dass ein Input durch Vorwärtspropagation im Netzwerk verarbeitet wird und einen Output erzeugt. Analog zu dieser Begriffsbildung sind die Begriffe top-down und bottom-up zu interpretieren: top-down-Verschaltung, bottom-up-Verschaltung. bidirektionale Verschaltung (Beispiel: BoltzmannMaschine, BAM-System, ART-Topologie) laterale Verschaltung totale Verschaltung: Dabei handelt es sich um eine Verschaltung mit Verbindungen zu allen Neuronen. 26