LAP-lunttilappu v. 1.5 Joukko-opin peruskäsitteitä - UEF-Wiki
Transcription
LAP-lunttilappu v. 1.5 Joukko-opin peruskäsitteitä - UEF-Wiki
LAP-lunttilappu v. 1.5 PK 2015-01-09 Aakkoston Σ kaikkien merkkijono∗ jen joukkoa merkitään Σ ; {0, 1}∗ = + {ε, 0, 1, 00, 01, 10, 11, 000, 001, . . .}. Σ = Σ∗ \ {ε}. Kurssin tueksi — EI tenttiin mukaan! Merkkijonojen v = a1 a2 · · · am ja w = b1 b2 · · · bn katenaatio vw muodostuu niiden peräkkäin asetetetuista merkeistä: vw = a1 a2 · · · am b1 b2 · · · bn ; jos v = JÄ ja w = BÄ, niin vw = JÄBÄ; εw = wε = w kaikilla w ∈ Σ∗ . Joukko-opin peruskäsitteitä Joukko on kokoelma alkioita; {}, {1, 2, 3}, {kissa, koira}, N = {0, 1, 2, . . .}, 2N = {x ∈ N | x on parillinen}. Sitä että a on joukon A alkio eli kuuluu joukkoon A merkitään a ∈ A; 1 ∈ {1, 2, 3}, 4 ∈ 2N, 4 6∈ {1, 2, 3}, 5 6∈ 2N, kana 6∈ {kissa, koira}. Sanan i-kertainen toisto: wi = 0 1 ww · · · w (i kertaa); w = ε ja w = w; Jos w = HE, niin w3 = HEHEHE. Tyhjässä joukossa ∅ ei ole yhtään alkiota: ∅ = {}. Joukko A on joukon B osajoukko, merk. A ⊆ B, jos jokainen sen alkio on myös joukon B alkio; {1} ⊆ {1, 2, 3}, {1, 2, 3} ⊆ N, 2N ⊆ N; ∅ ⊆ A ja A ⊆ A jokaisella joukolla A. (Aakkoston Σ) merkkijonojen joukkoja (L ⊆ Σ∗ ) kutsutaan (aakkoston Σ) kieliksi ; esim. ∅, Σ∗ . Kielten A ja B katenaatio AB muodostuu sanoista, joiden alkuosa voidaan valita joukosta A ja loppuosa joukosta B: AB = {xy | x ∈ A, y ∈ B}; {J, JÄ}{ε, BÄ, ÄBÄ} = {J, JBÄ, JÄBÄ, JÄ, JÄÄBÄ}; Kaikilla kielillä A pätee A{ε} = {ε}A = A ja A∅ = ∅A = ∅. Joukkojen A ja B yhdiste A ∪ B koostuu alkioista, jotka kuuluvat joukkoon A tai joukkoon B (tai molempiin): A ∪ B = {x | x ∈ A tai x ∈ B}; {1, 2, 3} ∪ {2, 4} = {1, 2, 3, 4}. Joukkojen A ja B leikkaus A ∩ B koostuu alkioista, jotka kuuluvat kumpaankin joukkoon A ja B: A ∩ B = {x | x ∈ A ja x ∈ B}; {1, 2, 3} ∩ {2, 4} = {2}. Kielen A sulkeuma A∗ koostuu sanoista, jotka voidaan muodostaa katenoimalla nolla tai useampia sen sanoja: A∗ = {w1 w2 · · · wk | k ≥ 0, wi ∈ A jokaisella i = 1, 2, . . . , k}; {ab, ba}∗ = {ε, ab, ba, abab, abba, baab, baba, ababab, . . .}; ∅∗ = {ε}∗ = {ε}; muiden kielten sulkeuma on ääretön. Joukkojen A ja B erotus A \ B koostuu alkioista, jotka kuuluvat joukkoon A mutta eivät kuulu joukkoon B: A \ B = {x ∈ A | x 6∈ B}; {1, 2, 3} \ {2, 4} = {1, 3}. Joukkojen A ja B karteesinen tulo A × B on niiden alkioparien joukko: A × B = {(a, b) | a ∈ A, b ∈ B}; {1, 2, 3} × {2, 4} = {(1, 2), (1, 4), (2, 2), (2, 4), (3, 2), (3, 4)}. Säännölliset kielet äärelliset automaatit Funktio f joukosta A joukkoon B on sääntö, merk. f : A → B, joka liittää jokaiseen a ∈ A yksikäsitteisen f (a) ∈ B. Aakkoston Σ säännöllinen lauseke on muotoa x missä x ∈ {∅, ε} ∪ Σ, tai (EF ), (E ∪ F ) tai E ∗ , missä E ja F ovat säännöllisiä lausekkeita; Esim. ∅, ε, a, ((ab∗ ) ∪ c∗ ), ((a ∪ b)∗ c). Joukon A potenssijoukko P(A) on joukon A osajoukkojen kokoelma: P(A) = {X | X ⊆ A}; P({1, 2, 3}) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}. ja lausekkeet, Säännöllisen lausekkeen E kuvaama kieli L(E) ⊆ Σ∗ määritellään induktiivisesti: L(∅) = ∅, L(x) = {x} kun x ∈ Σ ∪ {ε}, L((EF )) = L(E)L(F ), L((E ∪ F )) = L(E) ∪ L(F ) ja L(E ∗ ) = L(E)∗ ; L(ε) = {ε}, L(a) = {a}, L((ab∗ ) ∪ c∗ )) = {a, ab, abb, . . . , ε, c, cc, ccc, . . .}, L(((a ∪ b)∗ c)) = {c, ac, bc, aac, abc, bac, bbc, aaac, . . .}. Merkkijonot ja formaalikielet Aakkosto on epätyhjä ja äärellinen joukko Σ = {a1 , a2 , . . . , aσ } merkkejä eli symboleja; Esim. binääriaakkosto = {0, 1}, DNA-aakkosto = {C, A, T, G}, ASCII, UNICODE. Määritelmä: Kieli on säännöllinen joss se voidaan kuvata säännöllisellä lausekkeella. Äärellinen automaatti (FA) M = (Q, Σ, δ, q0 , F ) on viisikko, jossa Q on äärellinen joukko tiloja, Σ on (syöte)aakkosto, δ siirtymäfunktio, q0 ∈ Q alkutila ja F ⊆ Q joukko (hyväksyviä) lopputiloja. Jos siirtymäfunktio liittää jokaiseen tilaan q ∈ Q ja merkkiin a ∈ Σ yksikäsitteisen kohdetilan δ(q, a) ∈ Merkkijono eli sana on järjestetty jono symboleja. Sanan w = a1 a2 · · · an pituus |w| on sen sen merkkien lukumäärä n. Tyhjä merkkijono ε ei sisällä yhtään merkkiä; |ε| = 0, |0| = 1, |kissa| = 5. 1 Q eli on muotoa δ : Q × Σ → Q, kyseessä on deterministinen automaatti (DFA). Jos jokaiseen tilaan q ja merkkiin a liittyy joukko vaihtoehtoisia kohdetiloja δ(q, a) ⊆ Q eli siirtymäfunktio on muotoa δ : Q × Σ → P(Q), kyseessä on epädeterministinen automaatti (NFA). Jos siirtymäfunktio sallii tilan vaihtamisen myös lukematta syötemerkkiä eli se on muotoa δ : Q × (Σ ∪ {ε}) → P(Q), kyseessä on ε-automaatti (ε-NFA). Jos automaatti pääsee siirtymäfunktionsa mukaisesti alkutilastaan q0 johonkin lopputilaan q ∈ F lukien syötteen w ∈ Σ∗ kaikki merkit, automaatti hyväksyy sanan w. Automaatin M tunnistama kieli L(M ) ⊆ Σ∗ koostuu niistä merkkijonoista, jotka automaatti hyväksyy; w ∈ L(M ) ∼ automaatti M hyväksyy sanan w, ja w 6∈ L(M ) ∼ automaatti M hylkää sanan w. kuvaavia lausekkeita tai tunnistavia automaatteja muokkaamalla. Pumppauslemma: Jokaisella säännöllisellä kielellä L on pumppauspituus p ∈ N: jokainen vähintään sen pituinen kielen L sana s voidaan jakaa osiin s = xyz, missä (1) y 6= ε, (2) |xy| ≤ p ja (3) xy i z ∈ L kaikilla i ∈ N. Käyttö: Osoitetaan kieli L ei-säännölliseksi valitsemalla jokin pumppauslemman mukainen sana s ∈ L josta voidaan perustella, että se ei täytä lemman ehtoja. Esim. jos kieli L = {an bn | n ∈ N} olisi säännöllinen, sillä olisi jokin pumppauspituus p ∈ N. Nyt s = ap bp ∈ L on pumppauslemman mukainen sana, jonka ehtojen (1) ja (2) mukaisissa jaoissa s = xyz “pumppaustermi” y = ak jollain k > 0, joten ehto (3) ei toteudu; siksi kieli L ei voi olla säännöllinen. Tulos: Jokaisen NFA:n tai ε-NFA:n M tunnistama kieli voidaan tunnistaa myös deterministisellä automaatilla, joka syntyy n.s. osajoukkokonstruktiolla: Kontekstittomat kieliopit ja kielet Tilan q ∈ Q ε-sulkeuma E(q) ⊆ Q sisältää tilan q ja siitä ε-siirtymin saavutettavat tilat: q ∈ E(q) ja p ∈ E(q) ⇒ δ(p, ε) ⊆ E(q). Yleistetään ε-sulkeuma ja siirtymäfunktion δ arvo merkillä a ∈ Σ tilajoukoille Q0 = {q1 , . . . , qn }: E(Q0 ) = E(q1 ) ∪ · · · ∪ E(qn ) ja δ(Q0 , a) = δ(q1 , a) ∪ · · · ∪ δ(qn , a). Kontekstiton kielioppi (CFG) G = (V, Σ, P, S) on nelikko, jossa V on kieliopin aakkosto, Σ ⊆ V on päätesymbolien aakkosto ja S ∈ N on lähtösymboli, missä N = V \ Σ on välikesymbolien aakkosto. P on joukko sääntöjä eli produktioita, jotka ovat muotoa A → α, missä A ∈ N ja α ∈ V ∗ . Kieliopilla voidaan johtaa jonosta α ∈ V ∗ jono β ∈ V ∗ , merk. α ⇒∗ β, jos jonon α voi muuttaa jonoksi β korvaamalla välikesymboleja niiden sääntöjen oikeilla puolilla. Jos S ⇒∗ α, niin α on kieliopin lausejohdos, ja jos lisäksi α ∈ Σ∗ , se on kieliopin (tuottama) lause. Kieliopin tuottama tai kuvaama kieli L(G) koostuu kieliopin tuottamista lauseista: L(G) = {w ∈ Σ∗ | S ⇒∗ w}. ε-NFA M = (Q, Σ, δ, q0 , F ) ⇒ DFA M̂ = (Q̂, Σ, δ̂, qˆ0 , F̂ ): Q̂ ← {qˆ0 ← E(q0 )}; while δ̂(q̂, ·) puuttuu joltain q̂ ∈ Q̂, muodosta se: for each a ∈ Σ: δ̂(q̂, a) ← E(δ(q̂, a)) ja Q̂ ← Q̂∪{E(δ(q̂, a))}; Aseta F̂ ← {q̂ ∈ Q̂ | q̂ ∩ F 6= ∅}.1 Tulos: Jokaisen säännöllisen lausekkeen E kuvaama kieli voidaan tunnistaa äärellisellä automaatilla. Kielen L(E) tunnistava ε-NFA ME syntyy lausekkeesta E esim. “Thompsonkonstruktiolla”. Määritelmä: Kieli on kontekstiton joss joku kontekstiton kielioppi tuottaa sen. Tulos: Jokaisen äärellisen automaatin M tunnistama kieli voidaan kuvata säännöllisellä lausekkeella. Perustelu: Automaatista M voidaan muodostaa kieltä L(M ) kuvaava lauseke (muuntamalla M kaksitilaiseksi lausekeautomaatiksi ). Tulos: Kontekstittomat kielet on säännöllisten kielten aito laajennus. Perustelu: Jokainen säännöllinen kieli voidaan kuvata jo lineaarisella kieliopilla. Toisaalta esim. kielioppi, jonka produktiot ovat S → aSb ja S → ε tuottaa ei-säännöllisen kielen {an bn | n ≥ 0}. Säännöllisten kielten sulkeumaominaisuudet ja pumppauslemma Sulkeumaominaisuuksia: Jos A ja B ovat kontekstittomia kieliä, niin myös AB, A ∪ B, A∗ ja AR ovat kontekstittomia; A ∩ B ja A eivät välttämättä ole kontekstittomia. Tulos: Jos A ja B ovat aakkoston Σ säännöllisiä kieliä, niin myös AB, A ∪ B, A∗ , A = Σ∗ \ A, A \ B, A ∩ B sekä AR = {a1 a2 · · · an | an an−1 · · · a1 ∈ A, ai ∈ Σ} ovat säännöllisiä kieliä. Perustelut kieliä 1 Pinoautomaatti (PDA) M = (Q, Σ, Γ, δ, q0 , F ) on kuusikko, jossa Q on äärellinen joukko tiloja, Σ on (syöte)aakkosto, Γ on pinoaakkosto, δ siirtymäfunktio, q0 ∈ Q alkutila ja F ⊆ Q joukko lopputiloja. Pinoautomaatin siirtymäfunktio δ : X ← Y tarkoittaa sijoitusta “X saa arvon Y ”. 2 Q × (Σ ∪ {ε}) × (Γ ∪ {ε}) → P(Q × (Γ ∪ {ε}) voi riippua tilan ja syötemerkin lisäksi pinon huipulla olevasta merkistä, ja kohdetilaan siirtymisen lisäksi voi lisätä/poistaa/vaihtaa pinon huipulla olevan merkin. Syötteen hyväksymisen ja kielen tunnistamisen määritelmä on muuten sama kuin äärellisillä automaateilla. Rekursiivisesti etenevä LL(1)-jäsennys: Laske etukäteen sääntöjen first-joukot. Tee kieliopin kullekin symbolille oma jäsennysproseduuri. Välikesymbolin jäsennysproseduuri valitsee sovellettavan säännön viimeksi luetun päätesymbolin ja sääntöjen first-joukkojen perusteella. Päätesymbolin jäsennysproseduuri tarkistaa, että viimeksi luettu päätesymboli on oikea ja lukee seuraavan päätesymbolin. Tulos: Jokainen kontekstiton kieli voidaan tunnistaa (epädeterministisellä) PDA:lla, ja jokaisen PDA:n tunnistama kieli on kontekstiton. Kieliopin G = (V, Σ, P, S) mukaisen lauseen w ∈ L(G) jäsennyspuu on järjestetty puu, jonka (1) juuri on S, (2) lehtien katenointi muodostaa jonon w ja (3) jokaisella sisäsolmulla A ∈ N on lapsisolmuina x1 , x2 , . . . , xk vain jos A → x1 x2 · · · xk ∈ P . Kielioppi on moniselitteinen jos se sallii jollekin syötteelle vaihtoehtoisia jäsennyspuita. LL(1)-kielioppi mahdollistaa kielen osittavan (topdown), vasemmalta oikealle etenevän jäsentämisen siten, että sovellettavat produktiot määräytyvät yhden päätesymbolin kurkistuksella. Jonoille α ∈ V ∗ määritelty joukko first(α) ⊆ (Σ∪ {ε}) koostuu päätesymboleista, jotka voivat aloittaa jonosta α johdettavissa olevan jonon; jos α ⇒∗ ε, myös ε ∈ first(α). Välikkeille A määritelty joukko follow(A) ⊆ Σ koostuu päätesymboleista, jotka voivat esiintyä kieliopin lausejohdoksissa heti välikkeen A oikealla puolella. Formaali LL(1)-ehto: Jos A → α1 | α2 | · · · | αk ovat välikesymbolin A vaihtoehtoiset säännöt, niin (1) first(αi ) ∩ first(αj ) = ∅ kun i 6= j ja (2) jos A ⇒∗ ε niin follow(A) ∩ first(αi ) = ∅ jokaisella ei-nollautuvalla αi eli kun αi 6⇒∗ ε. Kieliopin muokkaaminen LL(1)-muotoon (ei ole aina mahdollista!): Sääntöjen yhteisten alkuosien poisto: Korvaa (esim.) säännöt A → αβ1 | αβ2 , missä α 6= ε on niiden pisin yhteinen alkuosa, säännöillä A → αA0 ja A0 → β1 | β2 . Välittömän vasemman rekursion poisto: Korvaa (esim.) produktiot A → Aa | Ab | c | d produktioilla A → cA0 | dA0 ja A0 → aA0 | bA0 | ε. Yleinen vasemman rekursion poisto: Käsittele välikkeet jossain järjestyksessä A1 , . . . , An : (i) Jos välikkeellä Ai on muotoa Ai → Bα olevia sääntöjä, joissa B on aiemmin käsitelty välike, korvaa ne säännöillä jotka muodostuvat laventamalla B sen säännöillä B → β1 | · · · | βk ; (ii) Poista välikkeen Ai mahdollinen välitön vasen rekursio kuten yllä. 3