3. listopada 2025.Hrvatski

Istražite temeljne koncepte obrade prirodnog jezika uz naš sveobuhvatni vodič za implementaciju N-gram jezičnih modela od nule. Naučite teoriju, kod i praktične primjene.

Izgradnja temelja NLP-a: Detaljno uranjanje u implementaciju N-gram jezičnog modela

U eri kojom dominira umjetna inteligencija, od pametnih asistenata u našim džepovima do sofisticiranih algoritama koji pokreću tražilice, jezični modeli su nevidljivi motori koji pokreću mnoge od ovih inovacija. Oni su razlog zašto vaš telefon može predvidjeti sljedeću riječ koju želite upisati i kako usluge prevođenja mogu tečno prevesti jedan jezik na drugi. Ali kako ti modeli zapravo rade? Prije uspona složenih neuronskih mreža poput GPT-a, temelj računalne lingvistike bio je izgrađen na predivno jednostavnom, ali moćnom statističkom pristupu: N-gram modelu.

Ovaj sveobuhvatni vodič namijenjen je globalnoj publici ambicioznih znanstvenika podataka, softverskih inženjera i znatiželjnih tehnoloških entuzijasta. Vratit ćemo se na osnove, demistificirajući teoriju iza N-gram jezičnih modela i pružajući praktičan, korak-po-korak vodič o tome kako izgraditi jedan od temelja. Razumijevanje N-grama nije samo lekcija iz povijesti; to je ključan korak u izgradnji čvrstih temelja u obradi prirodnog jezika (NLP).

Što je jezični model?

U svojoj srži, jezični model (LM) je distribucija vjerojatnosti nad nizom riječi. Jednostavnije rečeno, njegov primarni zadatak je odgovoriti na temeljno pitanje: S obzirom na niz riječi, koja je najvjerojatnija sljedeća riječ?

Razmotrite rečenicu: "Studenti su otvorili svoje ___."

Dobro istrenirani jezični model dodijelio bi visoku vjerojatnost riječima poput "knjige", "laptopi" ili "umovi", a iznimno nisku, gotovo nultu, vjerojatnost riječima poput "fotosinteza", "slonovi" ili "autocesta". Kvantificiranjem vjerojatnosti nizova riječi, jezični modeli omogućuju strojevima da razumiju, generiraju i obrađuju ljudski jezik na koherentan način.

Njihove primjene su opsežne i integrirane u naš svakodnevni digitalni život, uključujući:

Strojno prevođenje: Osiguravanje da je izlazna rečenica tečna i gramatički ispravna na ciljnom jeziku.
Prepoznavanje govora: Razlikovanje fonetski sličnih fraza (npr. "recognize speech" vs. "wreck a nice beach").
Prediktivni tekst i automatsko dovršavanje: Predlaganje sljedeće riječi ili fraze dok tipkate.
Provjera pravopisa i gramatike: Identifikacija i označavanje nizova riječi koji su statistički nevjerojatni.

Uvod u N-gram: Temeljni koncept

N-gram je jednostavno susjedni niz od 'n' stavki iz danog uzorka teksta ili govora. 'Stavke' su obično riječi, ali mogu biti i znakovi, slogovi ili čak fonemi. 'n' u N-gramu predstavlja broj, što dovodi do specifičnih imena:

Unigram (n=1): Jedna riječ. (npr. "The", "quick", "brown", "fox")
Bigram (n=2): Niz od dvije riječi. (npr. "The quick", "quick brown", "brown fox")
Trigram (n=3): Niz od tri riječi. (npr. "The quick brown", "quick brown fox")

Temeljna ideja iza N-gram jezičnog modela je da možemo predvidjeti sljedeću riječ u nizu gledajući 'n-1' riječi koje su joj prethodile. Umjesto da pokušavamo razumjeti punu gramatičku i semantičku složenost rečenice, napravimo pojednostavljujuću pretpostavku koja dramatično smanjuje težinu problema.

Matematika iza N-grama: Vjerojatnost i pojednostavljenje

Da bismo formalno izračunali vjerojatnost rečenice (niz riječi W = w₁, w₂, ..., wₖ), možemo koristiti lančano pravilo vjerojatnosti:

P(W) = P(w₁) * P(w₂|w₁) * P(w₃|w₁, w₂) * ... * P(wₖ|w₁, ..., wₖ₋₁)

Ova formula navodi da je vjerojatnost cijelog niza umnožak uvjetnih vjerojatnosti svake riječi, s obzirom na sve riječi koje su joj prethodile. Iako je matematički ispravan, ovaj pristup je nepraktičan. Izračunavanje vjerojatnosti riječi s obzirom na dugu povijest prethodnih riječi (npr. P(word | "The quick brown fox jumps over the lazy dog and then...")) zahtijevalo bi nemoguće veliku količinu tekstualnih podataka kako bi se pronašlo dovoljno primjera za pouzdanu procjenu.

Markova pretpostavka: Praktično pojednostavljenje

Ovdje N-gram modeli uvode svoj najvažniji koncept: Markova pretpostavka. Ova pretpostavka navodi da vjerojatnost riječi ovisi samo o fiksnom broju prethodnih riječi. Pretpostavljamo da je neposredni kontekst dovoljan i možemo odbaciti udaljeniju povijest.

Za bigram model (n=2), pretpostavljamo da vjerojatnost riječi ovisi samo o jednoj prethodnoj riječi:
P(wᵢ | w₁, ..., wᵢ₋₁) ≈ P(wᵢ | wᵢ₋₁)
Za trigram model (n=3), pretpostavljamo da ovisi o dvije prethodne riječi:
P(wᵢ | w₁, ..., wᵢ₋₁) ≈ P(wᵢ | wᵢ₋₁, wᵢ₋₂)

Ova pretpostavka čini problem računalno rješivim. Više ne moramo vidjeti točnu punu povijest riječi da bismo izračunali njezinu vjerojatnost, samo posljednjih n-1 riječi.

Izračunavanje N-gram vjerojatnosti

S Markovom pretpostavkom na mjestu, kako izračunavamo ove pojednostavljene vjerojatnosti? Koristimo metodu koja se zove Procjena najveće vjerojatnosti (MLE), što je otmjeni način da kažemo da vjerojatnosti dobivamo izravno iz brojanja u našem tekstu za obuku (korpusu).

Za bigram model, vjerojatnost riječi wᵢ koja slijedi iza riječi wᵢ₋₁ izračunava se kao:

P(wᵢ | wᵢ₋₁) = Broj(wᵢ₋₁, wᵢ) / Broj(wᵢ₋₁)

Riječima: Vjerojatnost da vidimo riječ B nakon riječi A je broj puta kada smo vidjeli par "A B" podijeljen s brojem puta kada smo vidjeli riječ "A" ukupno.

Upotrijebimo sićušni korpus kao primjer: "Mačka je sjedila. Pas je sjedio."

Broj("The") = 2
Broj("cat") = 1
Broj("dog") = 1
Broj("sat") = 2
Broj("The cat") = 1
Broj("The dog") = 1
Broj("cat sat") = 1
Broj("dog sat") = 1

Kolika je vjerojatnost "cat" nakon "The"?
P("cat" | "The") = Broj("The cat") / Broj("The") = 1 / 2 = 0.5

Kolika je vjerojatnost "sat" nakon "cat"?
P("sat" | "cat") = Broj("cat sat") / Broj("cat") = 1 / 1 = 1.0

Implementacija korak po korak od nule

Sada prevedimo ovu teoriju u praktičnu implementaciju. Izložit ćemo korake na jezik-agnostički način, iako se logika izravno preslikava na jezike poput Pythona.

Korak 1: Predobrada podataka i tokenizacija

Prije nego što bilo što prebrojimo, moramo pripremiti naš tekstualni korpus. Ovo je kritičan korak koji oblikuje kvalitetu našeg modela.

Tokenizacija: Proces dijeljenja tijela teksta na manje jedinice, zvane tokeni (u našem slučaju, riječi). Na primjer, "Mačka je sjedila." postaje ["The", "cat", "sat", "."].
Pretvaranje u mala slova: Standardna je praksa pretvoriti sav tekst u mala slova. To sprječava model da tretira "The" i "the" kao dvije različite riječi, što pomaže učvrstiti naša brojanja i učiniti model robusnijim.
Dodavanje početnih i završnih tokena: Ovo je ključna tehnika. Dodajemo posebne tokene, poput <s> (početak) i </s> (kraj), na početak i kraj svake rečenice. Zašto? To omogućuje modelu da izračuna vjerojatnost riječi na samom početku rečenice (npr. P("The" | <s>)) i pomaže definirati vjerojatnost cijele rečenice. Naša primjer rečenica "the cat sat." postala bi ["<s>", "the", "cat", "sat", ".", "</s>"].

Korak 2: Brojanje N-grama

Nakon što imamo čist popis tokena za svaku rečenicu, iteriramo kroz naš korpus da bismo dobili brojke. Najbolja struktura podataka za to je rječnik ili hash mapa, gdje su ključevi N-grami (predstavljeni kao tuples), a vrijednosti njihove frekvencije.

Za bigram model, trebat će nam dva rječnika:

unigram_counts: Pohranjuje frekvenciju svake pojedine riječi.
bigram_counts: Pohranjuje frekvenciju svakog niza od dvije riječi.

Prošli biste kroz svoje tokenizirane rečenice. Za rečenicu poput ["<s>", "the", "cat", "sat", "</s>"], biste:

Povećali broj za unigrame: "<s>", "the", "cat", "sat", "</s>".
Povećali broj za bigrame: ("<s>", "the"), ("the", "cat"), ("cat", "sat"), ("sat", "</s>").

Korak 3: Izračunavanje vjerojatnosti

S popunjenim rječnicima brojanja, sada možemo izgraditi model vjerojatnosti. Te vjerojatnosti možemo pohraniti u drugi rječnik ili ih izračunati u hodu.

Da biste izračunali P(word₂ | word₁), dohvatili biste bigram_counts[(word₁, word₂)] i unigram_counts[word₁] i izvršili dijeljenje. Dobra praksa je unaprijed izračunati sve moguće vjerojatnosti i pohraniti ih za brze pretrage.

Korak 4: Generiranje teksta (zabavna primjena)

Odličan način da testirate svoj model je da ga natjerate da generira novi tekst. Proces funkcionira na sljedeći način:

Započnite s početnim kontekstom, na primjer, početnim tokenom <s>.
Potražite sve bigrame koji počinju s <s> i njihove povezane vjerojatnosti.
Nasumično odaberite sljedeću riječ na temelju ove distribucije vjerojatnosti (riječi s većim vjerojatnostima vjerojatnije će biti odabrane).
Ažurirajte svoj kontekst. Novo odabrana riječ postaje prvi dio sljedećeg bigrama.
Ponovite ovaj postupak dok ne generirate stop token </s> ili dok ne dosegnete željenu duljinu.

Tekst generiran jednostavnim N-gram modelom možda neće biti savršeno koherentan, ali će često proizvesti gramatički vjerojatne kratke rečenice, pokazujući da je naučio osnovne odnose riječ-riječ.

Izazov rijetkosti i rješenje: Izglađivanje

Što se događa ako naš model naiđe na bigram tijekom testiranja koji nikada nije vidio tijekom obuke? Na primjer, ako naš korpus za obuku nikada nije sadržavao frazu "the purple dog", onda:

Broj("the", "purple") = 0

To znači da bi P("purple" | "the") bio 0. Ako je ovaj bigram dio dulje rečenice koju pokušavamo procijeniti, vjerojatnost cijele rečenice postat će nula, jer množimo sve vjerojatnosti zajedno. Ovo je problem vjerojatnosti nula, manifestacija rijetkosti podataka. Nerealno je pretpostaviti da naš korpus za obuku sadrži svaku moguću valjanu kombinaciju riječi.

Rješenje za to je izglađivanje. Temeljna ideja izglađivanja je uzeti malu količinu vjerojatnosne mase od N-grama koje smo vidjeli i rasporediti je na N-grame koje nikada nismo vidjeli. To osigurava da nijedan niz riječi nema vjerojatnost točno nula.

Laplaceovo (dodaj-jedan) izglađivanje

Najjednostavnija tehnika izglađivanja je Laplaceovo izglađivanje, poznato i kao dodaj-jedan izglađivanje. Ideja je nevjerojatno intuitivna: pretvarajmo se da smo vidjeli svaki mogući N-gram jedanput više nego što jesmo.

Formula za vjerojatnost se neznatno mijenja. Dodajemo 1 broju u brojniku. Kako bismo osigurali da vjerojatnosti i dalje zbrajaju do 1, dodajemo veličinu cijelog vokabulara (V) nazivniku.

P_laplace(wᵢ | wᵢ₋₁) = (Broj(wᵢ₋₁, wᵢ) + 1) / (Broj(wᵢ₋₁) + V)

Prednosti: Vrlo jednostavan za implementaciju i jamči da nema vjerojatnosti nula.
Nedostaci: Često daje previše vjerojatnosti neviđenim događajima, osobito s velikim vokabularima. Iz tog razloga, često radi lošije u praksi u usporedbi s naprednijim metodama.

Add-k izglađivanje

Malo poboljšanje je Add-k izglađivanje, gdje umjesto dodavanja 1, dodajemo malu frakcijsku vrijednost 'k' (npr. 0.01). To ublažava učinak preraspodjele previše vjerojatnosne mase.

P_add_k(wᵢ | wᵢ₋₁) = (Broj(wᵢ₋₁, wᵢ) + k) / (Broj(wᵢ₋₁) + k*V)

Iako je bolji od add-one, pronalaženje optimalnog 'k' može biti izazov. Postoje naprednije tehnike poput Good-Turing izglađivanja i Kneser-Ney izglađivanja i standardne su u mnogim NLP alatima, nudeći mnogo sofisticiranije načine za procjenu vjerojatnosti neviđenih događaja.

Procjena jezičnog modela: Perpleksnost

Kako znamo je li naš N-gram model dobar? Ili je trigram model bolji od bigram modela za naš specifični zadatak? Potrebna nam je kvantitativna metrika za procjenu. Najčešća metrika za jezične modele je perpleksnost.

Perpleksnost je mjera koliko dobro model vjerojatnosti predviđa uzorak. Intuitivno, može se smatrati ponderiranim prosječnim faktorom grananja modela. Ako model ima perpleksnost od 50, to znači da je pri svakoj riječi model zbunjen kao da mora birati jednoliko i neovisno između 50 različitih riječi.

Niži rezultat perpleksnosti je bolji, jer ukazuje da je model manje "iznenađen" testnim podacima i dodjeljuje veće vjerojatnosti nizovima koje zapravo vidi.

Perpleksnost se izračunava kao inverzna vjerojatnost testnog skupa, normalizirana brojem riječi. Često se prikazuje u svom logaritamskom obliku radi lakšeg izračuna. Model s dobrom prediktivnom snagom dodijelit će visoke vjerojatnosti testnim rečenicama, što rezultira niskom perpleksnošću.

Ograničenja N-gram modela

Unatoč svojoj temeljnoj važnosti, N-gram modeli imaju značajna ograničenja koja su gurnula polje NLP-a prema složenijim arhitekturama:

Rijetkost podataka: Čak i uz izglađivanje, za veće N (trigrami, 4-grami itd.), broj mogućih kombinacija riječi eksplodira. Postaje nemoguće imati dovoljno podataka za pouzdano procjenu vjerojatnosti za većinu njih.
Pohrana: Model se sastoji od svih N-gram brojanja. Kako vokabular i N rastu, memorija potrebna za pohranu ovih brojanja može postati ogromna.
Nemogućnost hvatanja ovisnosti dugog dometa: Ovo je njihov najkritičniji nedostatak. N-gram model ima vrlo ograničenu memoriju. Trigram model, na primjer, ne može povezati riječ s drugom riječju koja se pojavila više od dva mjesta prije nje. Razmotrite ovu rečenicu: "Autor, koji je napisao nekoliko najprodavanijih romana i desetljećima živio u malom gradu u udaljenoj zemlji, tečno govori ___." Trigram model koji pokušava predvidjeti posljednju riječ vidi samo kontekst "tečno govori". Nema znanja o riječi "autor" ili lokaciji, što su ključni tragovi. Ne može uhvatiti semantički odnos između udaljenih riječi.

Iza N-grama: Zora neuronskih jezičnih modela

Ova ograničenja, osobito nemogućnost rukovanja ovisnostima dugog dometa, utrla su put razvoju neuronskih jezičnih modela. Arhitekture poput rekurentnih neuronskih mreža (RNN), mreža dugotrajne kratkoročne memorije (LSTM) i posebno sada dominantnih transformatora (koji pokreću modele poput BERT-a i GPT-a) osmišljene su kako bi prevladale ove specifične probleme.

Umjesto da se oslanjaju na rijetka brojanja, neuronski modeli uče guste vektorske reprezentacije riječi (ugrađivanja) koje hvataju semantičke odnose. Koriste interne memorijske mehanizme za praćenje konteksta tijekom mnogo duljih nizova, što im omogućuje razumijevanje zamršenih ovisnosti dugog dometa svojstvenih ljudskom jeziku.

Zaključak: Temeljni stup NLP-a

Iako modernim NLP-om dominiraju neuronske mreže velikih razmjera, N-gram model ostaje nezaobilazan obrazovni alat i iznenađujuće učinkovita osnova za mnoge zadatke. Pruža jasan, interpretativan i računalno učinkovit uvod u temeljni izazov jezičnog modeliranja: korištenje statističkih uzoraka iz prošlosti za predviđanje budućnosti.

Izgradnjom N-gram modela od nule, stječete duboko razumijevanje vjerojatnosti, rijetkosti podataka, izglađivanja i procjene u kontekstu NLP-a. Ovo znanje nije samo povijesno; to je konceptualni temelj na kojem su izgrađeni visoki neboderi moderne umjetne inteligencije. Uči vas razmišljati o jeziku kao o nizu vjerojatnosti—perspektivi koja je bitna za ovladavanje bilo kojim jezičnim modelom, bez obzira na to koliko je složen.