Kap. 7 – Symmetriske matriser og kvadratiske former
Transcription
Kap. 7 – Symmetriske matriser og kvadratiske former
Kap. 7 Symmetriske matriser og kvadratiske former Vi skal koble diagonalisering av matriser sammen med ortogonalitet. Skal bl.a. se på symmetriske matriser som har uvanlig pene egenskaper mht. diagonalisering. Knyttet til symmetriske matriser har vi kvadratiske former og vi skal studere visse optimeringsproblemer for disse. Til slutt ser vi på singulærverdi dekomposisjonen til en matrise. Den er nyttig i mange anvendelser. 7.1 Symmetriske matriser I I I Vi skal se at alle symmetriske matriser er diagonaliserbare, og har spesielle “spektrale” egenskaper. Singulærverdi dekomposisjonen til en (rektangulær) matrise A (avsnitt 7.4), henger nøye sammen med diagonaliseringen av den symmetriske matrisen AT A. For komplekse matriser er det analoge til symmetrisk det som kalles ”selv-adjungerte” (eller “Hermitiske”) matriser. Disse spiller en fremtrende rolle i fysikk (spesielt i kvantemekanikk). 1 / 23 Definisjon. En n × n (reell) matrise A kalles symmetrisk dersom AT = A . Hvis A = [aij ], så er A symmetrisk hvis og bare hvis aij = aji for alle i, j. a b c F.eks. er matrisen A = b d e er symmetrisk. c e f Alle diagonalmatriser er symmetriske. Hvis A ∈ Mn (R), så er B = A + AT symmetrisk. Og hvis A ∈ Mm×n (R), så er C = AT A symmetrisk. Hva er spesielt med symmetriske matriser ? 7 2 Eksempel. Betrakt den symmetriske matrisen A = . 2 4 Utregning gir at egenverdiene til A er 3 og 8, og at egenrommene til A er gitt ved 2 / 23 n 1 o 4 2 = Nul(A − 3 I ) = Nul = Span , 2 1 −2 n 2 o −1 2 E8A = Nul(A − 8 I ) = Nul = Span . 2 −4 1 E3A Legg merke til at egenrommene til A er ortogonale på hverandre: La v1 = (1, −2), v2 = (2, 1), som utspenner hvert sitt egenrom. Da er v1 · v2 = 0, så disse er ortogonale på hverandre. Ved å normalisere v1 og v2 får vi vektorene 1 1 1 2 u1 = √ , u2 = √ , −2 5 5 1 som danner en ortonormal basis for R2 med egenvektorer for A. Matrisen P = [u1 u2 ] er dermed ortogonal (P −1 = P T ), og slik at 3 0 3 0 A=P P −1 = P PT 0 8 0 8 Vi skal se at dette er typisk for symmetriske matriser. 3 / 23 En viktig egenskap til en symmetrisk matrise er at dens egenrom er ortogonale på hverandre: Teorem 1. La A være en symmetrisk matrise, og la u1 , u2 være egenvektorer for A som tilhører to forskjellige egenverdier. Da er u1 ortogonal på u2 . En annen viktig egenskap er: En symmetrisk matrise har bare reelle egenverdier. Definisjon. A ∈ Mn (R) kalles ortogonalt diagonaliserbar dersom det fins en n × n ortogonal matrise P (så P −1 = P T ) og en n × n diagonal matrise D slik at A = P D P T = P D P −1 Merk at da er A diagonaliserbar i vanlig forstand. Videre er AT = (P D P T )T = (P T )T D T P T = P D P T = A . En ortogonalt diagonaliserbar matrise er altså symmetrisk. Den omvendte påstanden er også riktig. 4 / 23 Teorem 2. La A være en kvadratisk matrise. Da er A ortogonalt diagonaliserbar hvis og bare hvis A er symmetrisk. Ortogonal diagonalisering i praksis (når vi regner for hånd.): La A være en symmetrisk n × n matrise. Vi skal konstruere P = [u1 . . . un ] ortogonal og D = diag(λ1 , . . . , λn ) slik at A = P D P T = P D P −1 . Her må λ1 , . . . , λn ∈ R være egenverdiene til A og P’s kolonner må danne en ortonormal basis for Rn bestående av de tilhørende egenvektorene. Metoden er: I I I I Bestem egenverdiene til A. For hver av egenverdiene: bestem en basis for det tilh. egenrommet og utfør Gram-Schmidt prosessen med normalisering. Dann mengden B som består av alle de ortonormale basisene konstruert ovenfor. Matrisen P har vektorene fra B som sine kolonner. Matrisen D er diagonalmatrisen med de tilhørende egenverdiene til A i tilsvarende rekkefølge. 5 / 23 1 −2 2 1 2 . Eksempel. La A = −2 2 2 1 Vi finner da at egenverdiene til A er ±3. Finner tilhørende egenvektorer (1, 0, 1) og (0, 1, 1) for egenverdi 3, og bruker Gram-Schmidt prosessen på disse. For egenverdi −3 finner vi egenvektor (−1, −1, 1) som vi normaliserer. 1 −1 −1 o n Resultatet er B = √12 0 , √16 2 , √13 −1 1 1 1 3 som er en o. n. b. for R av egenvektorer for A. 1 −1 −1 √ 2 P= 0 √1 2 √ 6 √2 6 √1 6 √ 3 −1 √ 3 √1 3 er da ortogonal, og slik at A = P diag(3, 3, −3) P T . 6 / 23 Mengden av alle egenverdier til en kvadratisk matrise A kalles ofte spektret til A. Neste teorem oppsummerer de “spektrale” egenskapene til symmetriske matriser. Teorem 3 – Spektralteoremet for symmetriske matriser. La A være en n × n symmetrisk matrise. Da gjelder følgende: a) A har n reelle egenverdier når vi teller med multiplisiteten. b) Dimensjonen til hvert av egenrommene til A er lik multiplisiteten til den tilhørende egenverdien, c) Egenrommene står ortogonalt på hverandre. d) A er ortogonalt diagonaliserbar. 7 / 23 Spektral dekomposisjonen til en symmetrisk matrise. Betrakt en n × n symmetrisk matrise A. Velg P = [u1 . . . un ] ortogonal og D = diag(λ1 , . . . , λn ) slik at A = P D P T . Da er λ1 0 · · · · · · 0 0 λ2 0 · · · 0 uT 1T .. u2 . .. .. . . .. 0 A = [u1 u2 . . . un ] . . .. .. .. . . . . . . . 0 uT . n 0 0 · · · 0 λn T u1 uT 2 = [λ1 u1 λ2 u2 . . . λn un ] . .. uT n T T = λ1 u1 uT 1 + λ2 u2 u2 + · · · + λn un un (bruker kolonne-rad formelen for matriseproduktet i siste likhet). 8 / 23 Dette kan skrives som A = λ1 P1 + λ2 P2 + · · · + λn Pn der Pj = uj uT j , j = 1, . . . n. Dette kalles kalles en spektral dekomposisjon av A. Sett Wj = Span {uj }. Ved Teorem 10 i Kap. 6 er ProjWj (x) = uj uT j x for alle x ∈ Rn . Matrisen Pj = uj uT j er altså standardmatrisen til ProjWj . Hver Pj har rang 1 siden Col Pj = Wj er 1-dimensjonalt, og tilfredstiller at Pj2 = Pj = PjT . 9 / 23 7.1 forts. Schur triangularisering og spektralteoremet I Vi skal se på to svært sentrale resultat i lineær algebra. I Spektralteoremet (Teorem 3 i Lay): dette sier bl.a. at reelle symmetriske matriser er ortogonalt diagonaliserbare, og I Schur triangularisering: tilleggsstoff (noe kjennskap). I Vi fokuserer på det reelle tilfellet (det finnes en kompleks variant) Minner om at to kvadratiske matriser A og B kalles similære dersom det finnes en invertibel matrise S slik at B = S −1 AS. Da har A og B samme egenverdier. Spesielt enkelt er dette hvis S er en ortogonal matrise (dvs. S er n × n og kolonnene er ortonormale); da er nemlig S −1 = S T !! 10 / 23 Teorem ( Schur triangulering) Anta at A er en n × n matrise med reelle egenverdier λ1 , λ2 , . . . , λn (telles med multipl., i en viss rekkefølge). Da finnes en (reell) ortogonal matrise U slik at U T AU = T er øvre triangulær, og der diagonalelementene i T er egenverdiene til A, tii = λi (i ≤ n). Merk: U T er den transponerte av U. T er en matrise. Schur triangularisering har en rekke anvendelser. Vi skal her bruke dette resultatet til å vise spektralteoremet. 11 / 23 Teorem ( Spektralteoremet) La A være en reell symmetrisk n × n matrise. Da har A reelle egenverdier λ1 , λ2 , . . . , λn (telles med multipl., i en viss rekkefølge) og det finnes en (reell) ortogonal matrise U slik at U T AU = D der D er diagonalmatrisen med diagonalelementer λ1 , λ2 , . . . , λn . Kolonnene i U er n ortonormale egenvektorer som hører til de resp. egenverdiene. Bevis (skisse): Først kan man bruke at A er symmetrisk til å vise at A har relle egenverdier og dermed reelle egenvektorer. Ved Schur triangulering finnes da en ortogonal matrise U slik at U T AU = T der T er øvre triangulær. Men A symmetrisk som medfører at T er symmetrisk, og T er derfor en diagonalmatrise. 12 / 23 7.2 Kvadratiske former I Funksjoner på Rn som er lineærkombinasjoner av ledd av typen xi2 eller xi xj (der i 6= j) opptrer i mange anvendelser. Disse kalles kvadratiske former. I Kvadratiske former på Rn kan skrives på formen x T A x der A er en symmetrisk n × n matrise. Ved teorien for symmetriske matriser kan vi alltid foreta et ortogonalt variabelskifte som forenkler en gitt kvadratisk form. I Et variabelskifte svarer til et bytte av koordinatsystem. ”Nivåmengder” for en kvadratisk form er enkle å beskrive når man velger ”riktig” koordinatsystem. Når n = 2 er nivåkurvene man da får gjerne ellipser eller hyperbler. I Skal se til slutt at kvadratiske former (og symmetriske matriser) kan klassifiseres i noen hovedtyper. Disse typene er viktige f.eks. når man studerer stasjonære punkter til reelle funksjoner på Rn (ved å se på Hesse-matrisene, jf. MAT1110). 13 / 23 Definition. En kvadratisk form på Rn er en funksjon Q : Rn → R som kan skrives på formen Q(x) = x T A x der A er en symmetrisk n × n matrise. 5 −2 Eksempel. La A = og Q(x) = x T A x. Da er −2 5 5 −2 x1 5x1 −2x2 Q(x) = x1 x2 = x1 x2 −2 5 x2 −2x1 + 5x2 = x1 (5x1 −2x2 ) + x2 (−2x1 + 5x2 ) = 5x12 −4x1 x2 + 5x22 . Eksempel. La Q(x) = a x12 +b x1 x2 +c x22 +d x2 x3 +e x32 +f x1 x3 , x = (x1 , x2 , x3 ) ∈ R3 . Da er Q(x) = x1 x2 x3 a b/2 f /2 x1 b/2 c d/2 x2 . f /2 d/2 e x3 14 / 23 Kvadratiske former tilordnet diagonalmatriser er ”enkle” : La D= diag(d1 , d2 , . . . , dn ) og Q 0 (y ) = y T D y , y ∈ Rn . Da er Q 0 (y ) = d1 y12 + d2 y22 + . . . + dn yn2 Med ”enkel” menes altså at det finnes ingen kryssledd av typen yi yj med i 6= j. Vi skal nå se at vi kan alltid gjøre om en kvadratisk form til en ”enkel” kvadratisk form uten kryssledd ved et passende variabelskifte. Husk at et variabelskifte svarer til at vi skifter basis (og dermed koordinatsystem): hvis P = [u1 . . . un ] er en n × n invertibel matrise og vi foretar variabelskiftet y = P −1 x, mao. x = Py så er y koordinatvektoren til x mhp. basisen B = {u1 . . . un } (fordi P −1 er koordinatskiftematrisen fra standard basisen til B, jf. avsn. 4.4 og 4.7). 15 / 23 Betrakt en kvadratisk form på Rn Q(x) = x T A x der A er en symmetrisk n × n matrise. Siden A er symmetrisk vet vi fra avsn. 7.1 at A er ortogonalt diagonaliserbar: det finnes da en ortogonal n × n matrise P og en n × n diagonalmatrise D = diag(d1 , . . . , dn ) slik at A = PDP −1 = PDP T (siden P −1 = P T ), og da er P T AP = D. Minner om at kolonnene i P er da en ortonormal basis B for Rn bestående av egenvektorer for A tilhørende egenverdiene d1 , . . . , dn . Vi foretar nå variableskiftet y = P −1 x, mao. x = Py . Vi får da at Q(x) = x T A x = (Py )T A(Py ) = y T P T APy = y T Dy . Nå er Q 0 (y ) := y T D y en kvadratisk form uten kryssledd! 16 / 23 Vi har dermed vist følgende: Teorem 4. I koordinatsystemet for Rn med akser bestemt av en ortonormal egenvektorbasis B for den symmetriske matrisen A, så blir den kvadratiske formen Q(x) = x T Ax gjort om til en kvadratisk form uten kryssledd. Aksene i koordinatsystemet ovenfor kalles ofte hovedaksene (eller prinsipalaksene). 5 −2 Eksempel. La A = og Q(x) = x T A x. −2 5 Vi finner at egenverdiene til A er 3 og 7, medtilhørende 1 −1 1 1 , u2 = √2 . enhetsegenvektorer u1 = √2 1 1 " 1 −1 # √ Sett P = 2 √1 2 √ 2 √1 2 og D = diag(3, 7). Variabelskiftet x = Py gir da at Q(x) = x T A x = y T Dy = 3y12 + 7y22 (= Q 0 (y )). 17 / 23 En geometrisk anvendelse For enkelhets skyld ser vi på når n = 2. Betrakt en kvadratisk form på R2 , Q(x) = a x12 + b x1 x2 + c x22 . Hvordan ser nivåkurvene til Q ut ? Minner om at nivåkurven til Q svarende til en verdi d ∈ R består av alle x = (x1 , x2 ) i R2 som er slik at Q(x) = d, mao. som tilfredstiller likningen a x12 + b x1 x2 + c x22 = d Vi kan da skifte variabel og gå over til koordinatsystemet angitt i Teorem 4. Likningen ovenfor forenkles da til likningen d1 y12 + d2 y22 = d der d1 og d2 er egenverdiene til den symmetriske matrisen A tilordnet Q. Kurvene bestemt av denne likningen, og dermed nivåkurvene til Q, lar seg lett beskrive. 18 / 23 Anta f.eks. at d1 , d2 og d alle er forskjellig fra 0. Da har vi at I hvis d1 , d2 (og d) alle har samme fortegn så blir kurven en ellipse I hvis d1 , d2 har motsatt fortegn så blir kurven en hyperbel. Eksempel. Betrakt likningen 5 x12 − 4 x1 x2 + 5 x22 = 48, mao. 5 −2 T Q(x) = 48 der Q(x) = x A x med A = . −2 5 I koordinatsystemet bestemt av egenvektorbasisen for A vi fant da, blir likningen omgjort til 3 y12 + 7 y22 = 48, altså til y12 y2 + p 2 =1 2 4 ( 48/7 )2 som er likningen for en ellipse (se fig. 3(a) s. 476). 19 / 23 Eksempel. Betrakt likningen 3 x12 + 10 x1 x2 + 3 x22 = 2, mao. 3 5 T Q(x) = 2 der Q(x) = x A x med A = , 5 3 Man regner lett ut at egenverdiene tilhørende til A er 8 og -2, med 1 −1 , u2 = √12 . enhetsegenvektorer u1 = √12 1 1 " 1 −1 # √ Sett P = 2 √1 2 √ 2 √1 2 . Variabelskiftet x = Py gjør da likningen Q(x) = 2 om til likningen 8 y12 − 2 y22 = 2, dvs. y12 − y22 = 1. (1/2)2 Dette er likningen for en hyperbel. 20 / 23 Klassifikasjon av kvadratiske former Motivasjon. La Q(x) = x T Ax være en kvadratisk form på R2 . Det er enkelt å sjekke at O = (0, 0) er et stasjonært punkt for Q, dvs. ∂Q ∂Q ∂x1 (0, 0) = ∂x2 (0, 0) = 0. Et naturlig spørsmål er derfor: hva slags stasjonært punkt er O ? Merk at Q(O) = 0. Definition. En kvadratisk form Q på Rn kalles I positiv definit dersom Q(x) > 0 for alle x 6= O. (Da er O et min. punkt for Q). I negativ definit dersom Q(x) < 0 for alle x 6= O. (Da er O et maks. punkt for Q). I indefinit dersom Q(x) antar både positive og negative verdier. (Da vil O være et sadelpunkt for Q). 21 / 23 Merk : man sier også at Q er I positiv semidefinit dersom Q(x) ≥ 0 for alle x, I negativ semidefinit dersom Q(x) ≤ 0 for alle x. Teorem 5 – Kvadratiske former og egenverdier. La A være en n × n symmetrisk matrise. Den kvadratiske formen Q(x) = x T Ax på Rn er I positiv definit ⇔ alle egenverdiene til A er positive, I negativ definit ⇔ alle egenverdiene til A er negative, I indefinit ⇔ A har både positive og negative egenverdier. Merk : tilsvarende gjelder det at Q er I positiv semidefinit ⇔ alle egenverdiene til A er ikkenegative, I negativ semidefinit ⇔ alle egenverdiene til A ikkepositive, 22 / 23 Bevis-skisse. Ved å benytte Teorem 4 kan vi betrakte istedet Q 0 (y ) = d1 y12 + · · · + dn yn2 der d1 , . . . , dn er egenverdilisten til A. Ved å studere fortegnet til dette uttrykket er det rimelig opplagt at påstandene i teoremet er sanne. Eksempel. La Q(x) = 5 x12 − 4 x1 x2 + 5 x22 . 5 −2 Siden A = har egenverdiene 3 og 7, som begge er −2 5 positive, så er Q positiv definit. (Dermed er (0, 0) et min. punkt for Q). Merk: Samme terminologi brukes til å klassifisere symmetriske matriser som kvadratiske former: en symmetrisk matrise A kalles positiv definit dersom den tilhørende kvadratiske formen er positiv definit, osv. Teorem 5 har da en tilsvarende formulering for symmetriske matriser. 5 −2 F.eks. er A = positiv definit (jf. tidl. eksempel). −2 5 23 / 23