21. juuli 2025Eesti

Põhjalik ülevaade leksikaalsest analüüsist, kompilaatori disaini esimesest faasist. Õpi lekseemide, regulaaravaldiste, lõplike automaatide ja nende praktiliste rakenduste kohta.

Kompilaatori Disain: Leksikaalse Analüüsi Põhitõed

Kompilaatori disain on põnev ja oluline valdkond informaatikas, mis on aluseks suurele osale kaasaegsest tarkvaraarendusest. Kompilaator on sild inimloetava lähtekoodi ja masinkäivitatavate juhiste vahel. See artikkel süveneb leksikaalse analüüsi põhitõdedesse, mis on kompileerimisprotsessi esimene faas. Uurime selle eesmärki, põhimõisteid ja praktilisi tagajärgi pürgivatele kompilaatoridisaineritele ja tarkvarainseneridele üle maailma.

Mis on leksikaalne analüüs?

Leksikaalne analüüs, tuntud ka kui skaneerimine või tokeniseerimine, on kompilaatori esimene faas. Selle peamine ülesanne on lugeda lähtekoodi märgivoona ja grupeerida see tähenduslikeks jadadeks, mida nimetatakse lekseemideks. Iga lekseem kategoriseeritakse seejärel vastavalt oma rollile, mille tulemuseks on tokenite jada. Mõelge sellele kui esialgsele sorteerimis- ja sildistamisprotsessile, mis valmistab sisendi ette edasiseks töötlemiseks.

Kujutage ette, et teil on lause: `x = y + 5;` Leksikaalne analüsaator jaotaks selle järgmisteks tokeniteks:

Identifikaator: `x`
Omistamisoperaator: `=`
Identifikaator: `y`
Liitmisoperaator: `+`
Täisarvuline literaal: `5`
Semikoolon: `;`

Leksikaalne analüsaator tuvastab sisuliselt need programmeerimiskeele põhilised ehituskivid.

Leksikaalse analüüsi põhimõisted

Tokenid ja lekseemid

Nagu eespool mainitud, on token lekseemi kategoriseeritud esitus. Lekseem on tegelik märgijada lähtekoodis, mis vastab tokeni mustrile. Vaatleme järgmist koodilõiku Pythonis:

            if x > 5:
    print("x is greater than 5")

Siin on mõned näited tokenitest ja lekseemidest sellest koodilõigust:

Token: VÕTMESÕNA, Lekseem: `if`
Token: IDENTIFIKAATOR, Lekseem: `x`
Token: VÕRDLUSOPERAATOR, Lekseem: `>`
Token: TÄISARVULINE_LITERAAL, Lekseem: `5`
Token: KOOLON, Lekseem: `:`
Token: VÕTMESÕNA, Lekseem: `print`
Token: SÕNELITERAAL, Lekseem: `"x is greater than 5"`

Token esindab lekseemi *kategooriat*, samas kui lekseem on *tegelik sõne* lähtekoodist. Parser, kompileerimise järgmine etapp, kasutab tokeneid programmi struktuuri mõistmiseks.

Regulaaravaldised

Regulaaravaldised (regex) on võimas ja lühike notatsioon märgimustrite kirjeldamiseks. Neid kasutatakse laialdaselt leksikaalses analüüsis, et defineerida mustreid, millele lekseemid peavad vastama, et neid tuvastataks konkreetsete tokenitena. Regulaaravaldised on fundamentaalne kontseptsioon mitte ainult kompilaatoridisainis, vaid paljudes informaatikavaldkondades, alates tekstitöötlusest kuni võrguturvalisuseni.

Siin on mõned levinud regulaaravaldise sümbolid ja nende tähendused:

`.` (punkt): Sobib mis tahes üksiku märgiga, välja arvatud reavahetus.
`*` (tärn): Sobib eelneva elemendiga null või enam korda.
`+` (pluss): Sobib eelneva elemendiga üks või enam korda.
`?` (küsimärk): Sobib eelneva elemendiga null või üks kord.
`[]` (nurksulud): Määratleb märgiklassi. Näiteks `[a-z]` sobib mis tahes väiketähega.
`[^]` (eitatud nurksulud): Määratleb eitatud märgiklassi. Näiteks `[^0-9]` sobib mis tahes märgiga, mis ei ole number.
`|` (püstkriips): Esindab alternatsiooni (VÕI). Näiteks `a|b` sobib kas `a` või `b`.
`()` (ümarsulud): Grupeerib elemendid kokku ja püüab need kinni.
`\` (kaldkriips): Tühistab erimärkide tähenduse. Näiteks `\.` sobib literaalse punktiga.

Vaatame mõningaid näiteid, kuidas regulaaravaldisi saab kasutada tokenite defineerimiseks:

Täisarvuline literaal: `[0-9]+` (Üks või enam numbrit)
Identifikaator: `[a-zA-Z_][a-zA-Z0-9_]*` (Algab tähe või allkriipsuga, millele järgneb null või enam tähte, numbrit või allkriipsu)
Ujukoma literaal: `[0-9]+\.[0-9]+` (Üks või enam numbrit, millele järgneb punkt, millele järgneb üks või enam numbrit) See on lihtsustatud näide; robustsem regex käsitleks ka eksponente ja valikulisi märke.

Erinevatel programmeerimiskeeltel võivad olla erinevad reeglid identifikaatorite, täisarvuliste literaalide ja muude tokenite jaoks. Seetõttu tuleb vastavaid regulaaravaldisi vastavalt kohandada. Näiteks võivad mõned keeled lubada Unicode'i märke identifikaatorites, mis nõuab keerukamat regexi.

Lõplikud automaadid

Lõplikud automaadid (FA) on abstraktsed masinad, mida kasutatakse regulaaravaldistega määratletud mustrite äratundmiseks. Need on leksikaalsete analüsaatorite implementeerimise põhikontseptsioon. On kaks peamist tüüpi lõplikke automaate:

Deterministlik lõplik automaat (DFA): Iga oleku ja sisendsümboli jaoks on täpselt üks üleminek teise olekusse. DFA-sid on lihtsam implementeerida ja käivitada, kuid neid võib olla keerulisem otse regulaaravaldistest konstrueerida.
Mittedeterministlik lõplik automaat (NFA): Iga oleku ja sisendsümboli jaoks võib olla null, üks või mitu üleminekut teistesse olekutesse. NFA-sid on lihtsam konstrueerida regulaaravaldistest, kuid need nõuavad keerukamaid täitmisalgoritme.

Tüüpiline protsess leksikaalses analüüsis hõlmab:

Regulaaravaldiste teisendamine iga tokenitüübi jaoks NFA-ks.
NFA teisendamine DFA-ks.
DFA implementeerimine tabelipõhise skannerina.

DFA-d kasutatakse seejärel sisendvoo skaneerimiseks ja tokenite tuvastamiseks. DFA alustab algolekust ja loeb sisendit märk-märgi haaval. Tuginedes praegusele olekule ja sisendmärgile, läheb see üle uude olekusse. Kui DFA jõuab pärast märgijada lugemist aktsepteerivasse olekusse, tuvastatakse jada lekseemina ja genereeritakse vastav token.

Kuidas leksikaalne analüüs töötab

Leksikaalne analüsaator töötab järgmiselt:

Loeb lähtekoodi: Lekser loeb lähtekoodi märk-märgi haaval sisendfailist või -voost.
Tuvastab lekseemid: Lekser kasutab regulaaravaldisi (või täpsemalt, regulaaravaldistest tuletatud DFA-d), et tuvastada märgijadasid, mis moodustavad kehtivaid lekseeme.
Genereerib tokenid: Iga leitud lekseemi jaoks loob lekser tokeni, mis sisaldab lekseemi ennast ja selle tokenitüüpi (nt IDENTIFIKAATOR, TÄISARVULINE_LITERAAL, OPERAATOR).
Käsitleb vigu: Kui lekser kohtab märgijada, mis ei vasta ühelegi defineeritud mustrile (st seda ei saa tokeniseerida), teatab ta leksikaalsest veast. See võib hõlmata kehtetut märki või valesti vormistatud identifikaatorit.
Edastab tokenid parserile: Lekser edastab tokenite voo kompilaatori järgmisele faasile, parserile.

Vaatleme seda lihtsat C-koodi lõiku:

            int main() {
  int x = 10;
  return 0;
}

Leksikaalne analüsaator töötleks seda koodi ja genereeriks järgmised tokenid (lihtsustatult):

VÕTMESÕNA: `int`
IDENTIFIKAATOR: `main`
VASAK_SULG: `(`
PAREM_SULG: `)`
VASAK_LOOGSULG: `{`
VÕTMESÕNA: `int`
IDENTIFIKAATOR: `x`
OMISTAMISOPERAATOR: `=`
TÄISARVULINE_LITERAAL: `10`
SEMIKOOLON: `;`
VÕTMESÕNA: `return`
TÄISARVULINE_LITERAAL: `0`
SEMIKOOLON: `;`
PAREM_LOOGSULG: `}`

Leksikaalse analüsaatori praktiline implementeerimine

Leksikaalse analüsaatori implementeerimiseks on kaks peamist lähenemist:

Käsitsi implementeerimine: Lekseri koodi käsitsi kirjutamine. See annab suurema kontrolli ja optimeerimisvõimalused, kuid on aeganõudvam ja vigadele altim.
Lekseri generaatorite kasutamine: Tööriistade, nagu Lex (Flex), ANTLR või JFlex, kasutamine, mis genereerivad automaatselt lekseri koodi regulaaravaldiste spetsifikatsioonide põhjal.

Käsitsi implementeerimine

Käsitsi implementeerimine hõlmab tavaliselt olekumasina (DFA) loomist ja koodi kirjutamist olekute vahel liikumiseks vastavalt sisendmärkidele. See lähenemine võimaldab peenhäälestatud kontrolli leksikaalse analüüsi protsessi üle ja seda saab optimeerida konkreetsete jõudlusnõuete jaoks. See nõuab aga sügavat arusaamist regulaaravaldistest ja lõplikest automaatidest ning seda võib olla keeruline hooldada ja siluda.

Siin on kontseptuaalne (ja väga lihtsustatud) näide, kuidas käsitsi kirjutatud lekser võiks käsitleda täisarvulisi literaale Pythonis:

            def lexer(input_string):
    tokens = []
    i = 0
    while i < len(input_string):
        if input_string[i].isdigit():
            # Leitud number, alusta täisarvu koostamist
            num_str = ""
            while i < len(input_string) and input_string[i].isdigit():
                num_str += input_string[i]
                i += 1
            tokens.append(("INTEGER", int(num_str)))
            i -= 1 # Korrigeeri viimase inkremendi võrra
        elif input_string[i] == '+':
            tokens.append(("PLUS", "+"))
        elif input_string[i] == '-':
            tokens.append(("MINUS", "-"))
        # ... (käsitle teisi märke ja tokeneid)
        i += 1
    return tokens

See on algeline näide, kuid see illustreerib põhiideed sisendsõne käsitsi lugemisest ja tokenite tuvastamisest märgimustrite põhjal.

Lekseri generaatorid

Lekseri generaatorid on tööriistad, mis automatiseerivad leksikaalsete analüsaatorite loomise protsessi. Nad võtavad sisendiks spetsifikatsioonifaili, mis defineerib iga tokenitüübi jaoks regulaaravaldised ja toimingud, mida tuleb teha, kui token tuvastatakse. Generaator toodab seejärel lekseri koodi sihtprogrammeerimiskeeles.

Siin on mõned populaarsed lekseri generaatorid:

Lex (Flex): Laialdaselt kasutatav lekseri generaator, mida sageli kasutatakse koos Yacc (Bison) parseri generaatoriga. Flex on tuntud oma kiiruse ja tõhususe poolest.
ANTLR (ANother Tool for Language Recognition): Võimas parseri generaator, mis sisaldab ka lekseri generaatorit. ANTLR toetab laia valikut programmeerimiskeeli ja võimaldab luua keerukaid grammatikaid ja leksereid.
JFlex: Spetsiaalselt Java jaoks loodud lekseri generaator. JFlex genereerib tõhusaid ja väga kohandatavaid leksereid.

Lekseri generaatori kasutamine pakub mitmeid eeliseid:

Lühenenud arendusaeg: Lekseri generaatorid vähendavad oluliselt leksikaalse analüsaatori arendamiseks kuluvat aega ja vaeva.
Parem täpsus: Lekseri generaatorid toodavad leksereid hästi defineeritud regulaaravaldiste põhjal, vähendades vigade riski.
Hooldatavus: Lekseri spetsifikatsiooni on tavaliselt lihtsam lugeda ja hooldada kui käsitsi kirjutatud koodi.
Jõudlus: Kaasaegsed lekseri generaatorid toodavad kõrgelt optimeeritud leksereid, mis suudavad saavutada suurepärase jõudluse.

Siin on näide lihtsast Flexi spetsifikatsioonist täisarvude ja identifikaatorite äratundmiseks:

            %%
[0-9]+      { printf("TÄISARV: %s\n", yytext); }
[a-zA-Z_][a-zA-Z0-9_]* { printf("IDENTIFIKAATOR: %s\n", yytext); }
[ \t\n]+  ; // Ignoreeri tühikuid
.           { printf("LUBAMATU MÄRK: %s\n", yytext); }
%%

See spetsifikatsioon defineerib kaks reeglit: ühe täisarvude ja teise identifikaatorite jaoks. Kui Flex töötleb seda spetsifikatsiooni, genereerib see C-koodi lekserile, mis tunneb need tokenid ära. Muutuja `yytext` sisaldab sobitatud lekseemi.

Vigade käsitlemine leksikaalses analüüsis

Vigade käsitlemine on leksikaalse analüüsi oluline aspekt. Kui lekser kohtab kehtetut märki või valesti vormistatud lekseemi, peab ta sellest kasutajale teatama. Levinumad leksikaalsed vead on:

Kehtetud märgid: Märgid, mis ei kuulu keele tähestikku (nt `$` sümbol keeles, mis ei luba seda identifikaatorites).
Lõpetamata sõned: Sõned, mis ei ole suletud sobiva jutumärgiga.
Kehtetud numbrid: Numbrid, mis ei ole õigesti vormistatud (nt number mitme komakohaga).
Maksimaalse pikkuse ületamine: Identifikaatorid või sõneliteraalid, mis ületavad maksimaalset lubatud pikkust.

Kui leksikaalne viga avastatakse, peaks lekser:

Teatama veast: Genereerima veateate, mis sisaldab rea- ja veerunumbrit, kus viga ilmnes, ning vea kirjeldust.
Püüdma taastuda: Proovima veast taastuda ja jätkama sisendi skaneerimist. See võib hõlmata kehtetute märkide vahelejätmist või praeguse tokeni lõpetamist. Eesmärk on vältida kaskaadvigu ja anda kasutajale võimalikult palju teavet.

Veateated peaksid olema selged ja informatiivsed, aidates programmeerijal probleemi kiiresti tuvastada ja parandada. Näiteks hea veateade lõpetamata sõne kohta võiks olla: `Viga: Lõpetamata sõneliteraal real 10, veerus 25`.

Leksikaalse analüüsi roll kompileerimisprotsessis

Leksikaalne analüüs on kompileerimisprotsessi ülioluline esimene samm. Selle väljund, tokenite voog, on sisendiks järgmisele faasile, parserile (süntaksianalüsaatorile). Parser kasutab tokeneid abstraktse süntaksipuu (AST) ehitamiseks, mis esindab programmi grammatilist struktuuri. Ilma täpse ja usaldusväärse leksikaalse analüüsita ei suudaks parser lähtekoodi õigesti tõlgendada.

Leksikaalse analüüsi ja parsimise suhet võib kokku võtta järgmiselt:

Leksikaalne analüüs: Jaotab lähtekoodi tokenite vooks.
Parsimine: Analüüsib tokenite voo struktuuri ja ehitab abstraktse süntaksipuu (AST).

AST-d kasutavad seejärel kompilaatori järgmised faasid, nagu semantiline analüüs, vahekoodi genereerimine ja koodi optimeerimine, et toota lõplik käivitatav kood.

Leksikaalse analüüsi edasijõudnute teemad

Kuigi see artikkel käsitleb leksikaalse analüüsi põhitõdesid, on mitmeid edasijõudnute teemasid, mida tasub uurida:

Unicode'i tugi: Unicode'i märkide käsitlemine identifikaatorites ja sõneliteraalides. See nõuab keerukamaid regulaaravaldisi ja märkide klassifitseerimise tehnikaid.
Leksikaalne analüüs manustatud keelte jaoks: Leksikaalne analüüs keelte jaoks, mis on manustatud teistesse keeltesse (nt SQL manustatud Javas). See hõlmab sageli erinevate lekserite vahel vahetamist vastavalt kontekstile.
Inkrementaalne leksikaalne analüüs: Leksikaalne analüüs, mis suudab tõhusalt uuesti skaneerida ainult neid lähtekoodi osi, mis on muutunud, mis on kasulik interaktiivsetes arenduskeskkondades.
Kontekstitundlik leksikaalne analüüs: Leksikaalne analüüs, kus tokeni tüüp sõltub ümbritsevast kontekstist. Seda saab kasutada keele süntaksis esinevate mitmetähenduslikkuste käsitlemiseks.

Rahvusvahelistamise kaalutlused

Globaalseks kasutamiseks mõeldud keele kompilaatori disainimisel tuleks leksikaalse analüüsi puhul arvestada järgmiste rahvusvahelistamise aspektidega:

Märgikodeering: Erinevate märgikodeeringute (UTF-8, UTF-16 jne) toetamine, et käsitleda erinevaid tähestikke ja märgistikke.
Lokaadipõhine vormindamine: Lokaadipõhiste numbri- ja kuupäevavormingute käsitlemine. Näiteks võib kümnenderaldaja mõnes lokaadis olla koma (`,`) punkti (`.`) asemel.
Unicode'i normaliseerimine: Unicode'i sõnede normaliseerimine, et tagada järjepidev võrdlus ja sobitamine.

Rahvusvahelistamise nõuetekohase käsitlemata jätmine võib viia vale tokeniseerimise ja kompileerimisvigadeni, kui tegeletakse erinevates keeltes kirjutatud või erinevaid märgistikke kasutava lähtekoodiga.

Kokkuvõte

Leksikaalne analüüs on kompilaatori disaini fundamentaalne aspekt. Selles artiklis käsitletud mõistete sügav mõistmine on hädavajalik kõigile, kes tegelevad kompilaatorite, interpretaatorite või muude keeletöötlusvahendite loomise või nendega töötamisega. Alates tokenite ja lekseemide mõistmisest kuni regulaaravaldiste ja lõplike automaatide valdamiseni annab leksikaalse analüüsi tundmine tugeva aluse edasiseks süvenemiseks kompilaatorite ehituse maailma. Lekseri generaatoreid omaks võttes ja rahvusvahelistamise aspekte arvesse võttes saavad arendajad luua robustseid ja tõhusaid leksikaalseid analüsaatoreid laia valiku programmeerimiskeelte ja platvormide jaoks. Tarkvaraarenduse jätkuva arengu käigus jäävad leksikaalse analüüsi põhimõtted keeletöötlustehnoloogia nurgakiviks kogu maailmas.