23. rujna 2025.Hrvatski

Naučite Q-učenje, temeljni algoritam učenja s pojačanjem, uz postupnu Python implementaciju. Istražite praktične primjene i steknite uvid u izgradnju inteligentnih agenata.

Učenje s pojačanjem u Pythonu: Praktični vodič za implementaciju Q-učenja

Učenje s pojačanjem (RL) je moćna paradigma u strojnom učenju u kojoj agent uči donositi odluke u okruženju kako bi maksimizirao nagradu. Za razliku od nadgledanog učenja, RL se ne oslanja na označene podatke. Umjesto toga, agent uči putem pokušaja i pogrešaka, primajući povratnu informaciju u obliku nagrada ili kazni za svoje akcije.

Q-učenje je popularan i temeljni algoritam unutar učenja s pojačanjem. Ovaj vodič pruža sveobuhvatan pregled Q-učenja, zajedno s praktičnom Python implementacijom koja će vam pomoći da ga razumijete i primijenite za rješavanje problema iz stvarnog svijeta.

Što je Q-učenje?

Q-učenje je algoritam učenja s pojačanjem izvan politike, bez modela. Rastavimo što to znači:

Izvan politike: Agent uči optimalnu politiku neovisno o radnjama koje poduzima. Uči Q-vrijednosti optimalne politike čak i dok istražuje sub-optimalne akcije.
Bez modela: Algoritam ne zahtijeva model okruženja. Uči interakcijom s okruženjem i promatranjem rezultata.

Glavna ideja iza Q-učenja je naučiti Q-funkciju, koja predstavlja očekivanu kumulativnu nagradu za poduzimanje određene akcije u danom stanju. Ova Q-funkcija se obično pohranjuje u tablici koja se naziva Q-tablica.

Ključni koncepti u Q-učenju:

Stanje (s): Reprezentacija okruženja u određenom trenutku. Primjeri: položaj robota, trenutna konfiguracija ploče igre, razina inventara u skladištu.
Akcija (a): Izbor koji agent može napraviti u danom stanju. Primjeri: pomicanje robota naprijed, postavljanje figure u igri, naručivanje više inventara.
Nagrada (r): Skalarna vrijednost koja predstavlja neposrednu povratnu informaciju koju agent dobiva nakon poduzimanja akcije u stanju. Pozitivne nagrade potiču agenta da ponovi akcije, dok ga negativne nagrade (kazne) odvraćaju.
Q-vrijednost (Q(s, a)): Očekivana kumulativna nagrada za poduzimanje akcije 'a' u stanju 's' i praćenje optimalne politike nakon toga. To je ono što želimo naučiti.
Politika (π): Strategija koja diktira koju akciju agent treba poduzeti u svakom stanju. Cilj Q-učenja je pronaći optimalnu politiku.

Jednadžba Q-učenja (Bellmanova jednadžba):

Srce Q-učenja je sljedeće pravilo ažuriranja, izvedeno iz Bellmanove jednadžbe:

Q(s, a) = Q(s, a) + α * [r + γ * max(Q(s', a')) - Q(s, a)]

Gdje:

Q(s, a): Trenutna Q-vrijednost za stanje 's' i akciju 'a'.
α (alfa): Stopa učenja, koja određuje koliko se Q-vrijednost ažurira na temelju novih informacija (0 < α ≤ 1). Veća stopa učenja znači da agent brže uči, ali može biti manje stabilan.
r: Nagrada primljena nakon poduzimanja akcije 'a' u stanju 's'.
γ (gama): Faktor popusta, koji određuje važnost budućih nagrada (0 ≤ γ ≤ 1). Veći faktor popusta znači da agent više cijeni dugoročne nagrade.
s': Sljedeće stanje postignuto nakon poduzimanja akcije 'a' u stanju 's'.
max(Q(s', a')): Maksimalna Q-vrijednost za sve moguće akcije 'a'' u sljedećem stanju 's''. To predstavlja agentovu procjenu najbolje moguće buduće nagrade iz tog stanja.

Koraci algoritma Q-učenja:

Inicijalizirajte Q-tablicu: Stvorite Q-tablicu s redovima koji predstavljaju stanja i stupcima koji predstavljaju akcije. Inicijalizirajte sve Q-vrijednosti na malu vrijednost (npr. 0). U nekim slučajevima, može biti korisno inicijalizirati s nasumičnim malim vrijednostima.
Odaberite akciju: Odaberite akciju 'a' u trenutnom stanju 's' koristeći strategiju istraživanja/iskorištavanja (npr. epsilon-pohlepan).
Poduzmite akciju i promatrajte: Izvršite akciju 'a' u okruženju i promatrajte sljedeće stanje 's'' i nagradu 'r'.
Ažurirajte Q-vrijednost: Ažurirajte Q-vrijednost za par stanje-akcija (s, a) pomoću jednadžbe Q-učenja.
Ponovite: Postavite 's' na 's'' i ponavljajte korake 2-4 dok agent ne dosegne terminalno stanje ili se ne dosegne maksimalni broj iteracija.

Epsilon-Pohlepna strategija istraživanja

Ključni aspekt Q-učenja je kompromis između istraživanja i iskorištavanja. Agent mora istražiti okruženje kako bi otkrio nove i potencijalno bolje akcije, ali također treba iskoristiti svoje trenutno znanje kako bi maksimizirao svoje nagrade.

Epsilon-pohlepna strategija je uobičajeni pristup za uravnoteženje istraživanja i iskorištavanja:

S vjerojatnošću ε (epsilon), agent bira nasumičnu akciju (istraživanje).
S vjerojatnošću 1-ε, agent bira akciju s najvećom Q-vrijednošću u trenutnom stanju (iskorištavanje).

Vrijednost epsilona se obično postavlja na malu vrijednost (npr. 0,1) i može se postupno smanjivati tijekom vremena kako bi se potaknulo više iskorištavanja kako agent uči.

Python implementacija Q-učenja

Implementirajmo Q-učenje u Pythonu koristeći jednostavan primjer: okruženje svijeta rešetke. Zamislite robota koji se kreće po rešetki kako bi stigao do cilja. Robot se može kretati gore, dolje, lijevo ili desno. Dosezanje cilja daje pozitivnu nagradu, dok kretanje u prepreke ili poduzimanje previše koraka rezultira negativnom nagradom.

```python import numpy as np import random class GridWorld: def __init__(self, size=5, obstacle_positions=None, goal_position=(4, 4)): self.size = size self.state = (0, 0) # Početna pozicija self.goal_position = goal_position self.obstacle_positions = obstacle_positions if obstacle_positions else [] self.actions = ["up", "down", "left", "right"] def reset(self): self.state = (0, 0) return self.state def step(self, action): row, col = self.state if action == "up": new_row = max(0, row - 1) new_col = col elif action == "down": new_row = min(self.size - 1, row + 1) new_col = col elif action == "left": new_row = row new_col = max(0, col - 1) elif action == "right": new_row = row new_col = min(self.size - 1, col + 1) else: raise ValueError("Nevažeća akcija") new_state = (new_row, new_col) if new_state in self.obstacle_positions: reward = -10 # Kazna za udaranje u prepreku elif new_state == self.goal_position: reward = 10 # Nagrada za dosezanje cilja else: reward = -1 # mala kazna za poticanje kraćih staza self.state = new_state done = (new_state == self.goal_position) return new_state, reward, done def q_learning(env, alpha=0.1, gamma=0.9, epsilon=0.1, num_episodes=1000): q_table = np.zeros((env.size, env.size, len(env.actions))) for episode in range(num_episodes): state = env.reset() done = False while not done: # Epsilon-pohlepni odabir akcije if random.uniform(0, 1) < epsilon: action = random.choice(env.actions) else: action_index = np.argmax(q_table[state[0], state[1]]) action = env.actions[action_index] # Poduzmi akciju i promatraj next_state, reward, done = env.step(action) # Ažuriraj Q-vrijednost action_index = env.actions.index(action) best_next_q = np.max(q_table[next_state[0], next_state[1]]) q_table[state[0], state[1], action_index] += alpha * (reward + gamma * best_next_q - q_table[state[0], state[1], action_index]) # Ažuriraj stanje state = next_state return q_table # Primjer korištenja env = GridWorld(size=5, obstacle_positions=[(1, 1), (2, 3)]) q_table = q_learning(env) print("Naučena Q-tablica:") print(q_table) # Primjer korištenja Q-tablice za navigaciju u okruženju state = env.reset() done = False path = [state] while not done: action_index = np.argmax(q_table[state[0], state[1]]) action = env.actions[action_index] state, reward, done = env.step(action) path.append(state) print("Optimalna putanja:", path) ```

Objašnjenje koda:

GridWorld Class: Definira okruženje s veličinom rešetke, početnom pozicijom, ciljnom pozicijom i pozicijama prepreka. Uključuje metode za resetiranje okruženja na početno stanje i za poduzimanje koraka na temelju odabrane akcije. Metoda step vraća sljedeće stanje, nagradu i boolean koji označava je li epizoda završena.
q_learning Funkcija: Implementira algoritam Q-učenja. Uzima okruženje, stopu učenja (alfa), faktor popusta (gama), stopu istraživanja (epsilon) i broj epizoda kao ulaz. Inicijalizira Q-tablicu, a zatim prolazi kroz epizode, ažurirajući Q-vrijednosti na temelju jednadžbe Q-učenja.
Epsilon-Pohlepna implementacija: Kod demonstrira implementaciju epsilon-pohlepnog za uravnoteženje istraživanja i iskorištavanja.
Inicijalizacija Q-tablice: Q-tablica se inicijalizira nulama pomoću np.zeros. To znači da agent u početku nema znanja o okruženju.
Primjer korištenja: Kod stvara instancu GridWorld, obučava agenta pomoću funkcije q_learning i ispisuje naučenu Q-tablicu. Također demonstrira kako koristiti naučenu Q-tablicu za navigaciju u okruženju i pronalaženje optimalne putanje do cilja.

Praktične primjene Q-učenja

Q-učenje ima širok raspon primjena u raznim domenama, uključujući:

Robotika: Obučavanje robota za navigaciju u okruženjima, manipuliranje objektima i samostalno obavljanje zadataka. Na primjer, robotska ruka koja uči podizati i postavljati objekte u proizvodnom okruženju.
Igranje igara: Razvijanje AI agenata koji mogu igrati igre na ljudskoj razini ili čak nadmašiti ljude. Primjeri uključuju Atari igre, šah i Go. DeepMindov AlphaGo je poznato koristio učenje s pojačanjem.
Upravljanje resursima: Optimiziranje raspodjele resursa u različitim sustavima, kao što su upravljanje zalihama, distribucija energije i kontrola prometa. Na primjer, sustav koji optimizira potrošnju energije u podatkovnom centru.
Zdravstvo: Razvoj personaliziranih planova liječenja za pacijente na temelju njihovih individualnih karakteristika i medicinske povijesti. Na primjer, sustav koji preporučuje optimalnu dozu lijeka za pacijenta.
Financije: Razvoj strategija trgovanja i sustava upravljanja rizicima za financijska tržišta. Na primjer, algoritam koji uči trgovati dionicama na temelju tržišnih podataka. Algoritamsko trgovanje je rašireno na globalnoj razini.

Primjer iz stvarnog svijeta: Optimiziranje upravljanja lancem opskrbe

Razmotrite multinacionalnu tvrtku sa složenim lancem opskrbe koji uključuje brojne dobavljače, skladišta i distribucijske centre diljem svijeta. Q-učenje se može koristiti za optimizaciju razina zaliha na svakoj lokaciji kako bi se smanjili troškovi i osigurala pravovremena isporuka proizvoda kupcima.

U ovom scenariju:

Stanje: Predstavlja trenutne razine zaliha u svakom skladištu, prognoze potražnje i troškove prijevoza.
Akcija: Predstavlja odluku o naručivanju određene količine proizvoda od određenog dobavljača.
Nagrada: Predstavlja profit ostvaren prodajom proizvoda, umanjen za troškove naručivanja, skladištenja i transporta zaliha. Kazne bi se mogle primijeniti za iscrpljenost zaliha.

Obučavanjem Q-učenja agenta na povijesnim podacima, tvrtka može naučiti optimalnu politiku upravljanja zalihama koja smanjuje troškove i maksimizira dobit. To bi moglo uključivati različite strategije naručivanja za različite proizvode i regije, uzimajući u obzir čimbenike kao što su sezonalnost, rokovi isporuke i varijabilnost potražnje. Ovo se odnosi na tvrtke koje posluju u različitim regijama kao što su Europa, Azija i Amerika.

Prednosti Q-učenja

Jednostavnost: Q-učenje je relativno lako razumjeti i implementirati.
Bez modela: Ne zahtijeva model okruženja, što ga čini pogodnim za složena i nepoznata okruženja.
Izvan politike: Može naučiti optimalnu politiku čak i dok istražuje sub-optimalne akcije.
Zajamčena konvergencija: Q-učenje je zajamčeno konvergirati optimalnoj Q-funkciji pod određenim uvjetima (npr. ako se svi parovi stanje-akcija posjete beskonačno često).

Ograničenja Q-učenja

Prokletstvo dimenzionalnosti: Q-učenje pati od prokletstva dimenzionalnosti, što znači da veličina Q-tablice raste eksponencijalno s brojem stanja i akcija. To može učiniti nepraktičnim za okruženja s velikim prostorima stanja.
Kompromis između istraživanja i iskorištavanja: Uravnoteženje istraživanja i iskorištavanja može biti izazovno. Nedovoljno istraživanje može dovesti do sub-optimalnih politika, dok prekomjerno istraživanje može usporiti učenje.
Brzina konvergencije: Q-učenje može sporo konvergirati, posebno u složenim okruženjima.
Osjetljivost na hiperparametre: Učinkovitost Q-učenja može biti osjetljiva na odabir hiperparametara, kao što su stopa učenja, faktor popusta i stopa istraživanja.

Rješavanje ograničenja

Nekoliko tehnika može se koristiti za rješavanje ograničenja Q-učenja:

Približavanje funkcije: Koristite aproksimator funkcije (npr. neuronsku mrežu) za procjenu Q-vrijednosti umjesto da ih pohranjujete u tablicu. To može značajno smanjiti zahtjeve za memorijom i omogućiti primjenu Q-učenja na okruženja s velikim prostorima stanja. Deep Q-Networks (DQN) su popularan primjer ovog pristupa.
Ponovno reproduciranje iskustva: Pohranite agentova iskustva (stanje, akcija, nagrada, sljedeće stanje) u međuspremnik za reprodukciju i uzorkujte iz međuspremnika za obuku Q-funkcije. To pomaže u prekidanju korelacije između uzastopnih iskustava i poboljšava stabilnost učenja.
Priorizirano ponovno reproduciranje iskustva: Uzorkujte iskustva iz međuspremnika za reprodukciju s vjerojatnošću proporcionalnom njihovoj važnosti. To omogućuje agentu da se usredotoči na učenje iz najinformativnijih iskustava.
Napredne strategije istraživanja: Koristite sofisticiranije strategije istraživanja od epsilon-pohlepnih, kao što su gornja granica pouzdanosti (UCB) ili Thompsonovo uzorkovanje. Ove strategije mogu pružiti bolju ravnotežu između istraživanja i iskorištavanja.

Zaključak

Q-učenje je temeljni i moćan algoritam učenja s pojačanjem koji se može koristiti za rješavanje širokog spektra problema. Iako ima ograničenja, tehnike poput aproksimacije funkcija i ponovnog reproduciranja iskustva mogu se koristiti za prevladavanje ovih ograničenja i proširenje njegove primjenjivosti na složenija okruženja. Razumijevanjem temeljnih koncepata Q-učenja i savladavanjem njegove praktične implementacije, možete otključati potencijal učenja s pojačanjem i izgraditi inteligentne agente koji mogu učiti i prilagođavati se dinamičnim okruženjima.

Ovaj vodič pruža čvrstu osnovu za daljnje istraživanje učenja s pojačanjem. Razmotrite zaranjanje u Deep Q-Networks (DQN), metode gradijenta politike (npr., REINFORCE, PPO, Actor-Critic) i druge napredne tehnike za rješavanje još izazovnijih problema.