21 Temmuz 2025Türkçe

Temel bir pekiştirmeli öğrenme algoritması olan Q-Learning için kapsamlı bir rehber. Kod örnekleriyle teori, uygulama ve pratik kullanımları öğrenin.

Pekiştirmeli Öğrenme: Pratik Bir Q-Learning Uygulama Rehberi

Pekiştirmeli öğrenme (RL), bir ajanın bir ortamda ödülü en üst düzeye çıkarmak için kararlar almayı öğrendiği, yapay zeka alanında güçlü bir paradigmadır. Denetimli öğrenmenin aksine, RL etiketlenmiş veriye ihtiyaç duymaz; bunun yerine ajan, deneme yanılma yoluyla öğrenir. Q-Learning, RL dünyasındaki popüler ve temel bir algoritmadır.

Q-Learning Nedir?

Q-Learning, modelden bağımsız, politika dışı (off-policy) bir pekiştirmeli öğrenme algoritmasıdır. Bunun ne anlama geldiğini açıklayalım:

Modelden Bağımsız: Ortamın bir modelini gerektirmez. Ajanın, geçiş olasılıklarını veya ödül fonksiyonlarını önceden bilmesi gerekmez.
Politika Dışı (Off-Policy): Ajanın eylemlerinden bağımsız olarak en uygun Q-fonksiyonunu öğrenir. Bu, ajanın en uygun politikayı öğrenirken ortamı farklı bir politika (örneğin, rastgele bir politika) kullanarak keşfedebileceği anlamına gelir.

Özünde Q-Learning, Q(s, a) olarak gösterilen bir Q-fonksiyonunu öğrenmeyi hedefler. Bu fonksiyon, 's' durumunda 'a' eylemini gerçekleştirmenin ve ardından en uygun politikayı izlemenin beklenen kümülatif ödülünü temsil eder. "Q", belirli bir durumda belirli bir eylemi gerçekleştirmenin "Kalitesini" (Quality) belirtir.

Q-Learning Denklemi

Q-Learning'in kalbi, Q-fonksiyonunu yinelemeli olarak iyileştiren güncelleme kuralında yatar:

Q(s, a) ← Q(s, a) + α [r + γ max_a' Q(s', a') - Q(s, a)]

Burada:

Q(s, a), 's' durumu ve 'a' eylemi için mevcut Q-değeridir.
α (alfa), öğrenme oranıdır (0 < α ≤ 1) ve yeni bilginin eski bilginin üzerine ne kadar yazılacağını belirler. 0 değeri ajanın hiçbir şey öğrenmediği, 1 değeri ise ajanın yalnızca en son bilgiyi dikkate aldığı anlamına gelir.
r, 's' durumunda 'a' eylemi gerçekleştirildikten sonra alınan anlık ödüldür.
γ (gama), indirgeme faktörüdür (0 ≤ γ ≤ 1) ve gelecekteki ödüllerin önemini belirler. 0 değeri ajanın yalnızca anlık ödülleri dikkate aldığı, 1 değeri ise ajanın gelecekteki tüm ödülleri eşit olarak dikkate aldığı anlamına gelir.
s', 's' durumunda 'a' eylemi yapıldıktan sonra ulaşılan bir sonraki durumdur.
max_a' Q(s', a'), bir sonraki 's'' durumundaki tüm olası 'a'' eylemleri için maksimum Q-değeridir. Bu, ajanın o durumdan elde edilecek en iyi olası gelecek ödül tahminini temsil eder.

Q-Learning'in Pratik Uygulaması

Basit bir örnek olan ızgara dünyası ortamını kullanarak Q-Learning'in Python uygulamasını adım adım inceleyelim.

Örnek: Izgara Dünyası

Bir ajanın yukarı, aşağı, sola veya sağa hareket edebildiği bir ızgara dünyası hayal edin. Ajanın amacı, engellerden veya negatif ödüllerden kaçınarak belirlenmiş bir hedef durumuna ulaşmaktır. Bu, klasik bir pekiştirmeli öğrenme problemidir.

Öncelikle ortamı tanımlayalım. Izgarayı, anahtarların durumlar ( (satır, sütun) demetleri olarak temsil edilir) ve değerlerin olası eylemler ve bunlara karşılık gelen ödüller olduğu bir sözlük olarak temsil edeceğiz.

```python import numpy as np import random # Ortamı tanımla environment = { (0, 0): {'right': 0, 'down': 0}, (0, 1): {'left': 0, 'right': 0, 'down': 0}, (0, 2): {'left': 0, 'down': 0, 'right': 10}, # Hedef durumu (1, 0): {'up': 0, 'down': 0, 'right': 0}, (1, 1): {'up': 0, 'down': 0, 'left': 0, 'right': 0}, (1, 2): {'up': 0, 'left': 0, 'down': -5}, # Ceza durumu (2, 0): {'up': 0, 'right': 0}, (2, 1): {'up': 0, 'left': 0, 'right': 0}, (2, 2): {'up': -5, 'left': 0} } # Olası eylemler actions = ['up', 'down', 'left', 'right'] # Belirli bir durumdaki olası eylemleri getiren fonksiyon def get_possible_actions(state): return list(environment[state].keys()) # Belirli bir durum ve eylem için ödülü getiren fonksiyon def get_reward(state, action): if action in environment[state]: return environment[state][action] else: return -10 # Geçersiz eylemler için büyük negatif ödül # Mevcut durum ve eyleme göre bir sonraki durumu belirleyen fonksiyon def get_next_state(state, action): row, col = state if action == 'up': next_state = (row - 1, col) elif action == 'down': next_state = (row + 1, col) elif action == 'left': next_state = (row, col - 1) elif action == 'right': next_state = (row, col + 1) else: return state # Geçersiz eylemleri işle if next_state in environment: return next_state else: return state # Sınır dışı hareketler için aynı durumda kal # Q-tablosunu başlat q_table = {} for state in environment: q_table[state] = {action: 0 for action in actions} # Q-Learning parametreleri alpha = 0.1 # Öğrenme oranı gamma = 0.9 # İndirgeme faktörü epsilon = 0.1 # Keşif oranı num_episodes = 1000 # Q-Learning algoritması for episode in range(num_episodes): # Rastgele bir durumda başla state = random.choice(list(environment.keys())) done = False while not done: # Epsilon-açgözlü eylem seçimi if random.uniform(0, 1) < epsilon: # Keşfet: rastgele bir eylem seç action = random.choice(get_possible_actions(state)) else: # Sömür: en yüksek Q-değerine sahip eylemi seç action = max(q_table[state], key=q_table[state].get) # Eylemi gerçekleştir ve ödülü ve bir sonraki durumu gözlemle next_state = get_next_state(state, action) reward = get_reward(state, action) # Q-değerini güncelle best_next_q = max(q_table[next_state].values()) q_table[state][action] += alpha * (reward + gamma * best_next_q - q_table[state][action]) # Durumu güncelle state = next_state # Hedefe ulaşılıp ulaşılmadığını kontrol et if state == (0, 2): # Hedef Durumu done = True # Q-tablosunu yazdır (isteğe bağlı) # for state, action_values in q_table.items(): # print(f"Durum: {state}, Q-değerleri: {action_values}") # Öğrenilen politikayı test et start_state = (0, 0) current_state = start_state path = [start_state] print("Öğrenilen Politika (0,0)'dan Test Ediliyor:") while current_state != (0, 2): action = max(q_table[current_state], key=q_table[current_state].get) current_state = get_next_state(current_state, action) path.append(current_state) print("İzlenen Yol:", path) ```

Açıklama:

Ortam Tanımı: `environment` sözlüğü, ızgara dünyasını tanımlar ve her durum için olası eylemleri ve ödülleri belirtir. Örneğin, `environment[(0, 0)] = {'right': 0, 'down': 0}`, (0, 0) durumundan ajanın sağa veya aşağı hareket edebileceğini ve her ikisinin de 0 ödül getireceğini belirtir.
Eylemler: `actions` listesi, ajanın gerçekleştirebileceği olası eylemleri tanımlar.
Q-Tablosu Başlatma: `q_table` sözlüğü, her durum-eylem çifti için Q-değerlerini saklar. Tüm Q-değerleri 0 olarak ayarlanarak başlatılır.
Q-Learning Parametreleri: `alpha`, `gamma` ve `epsilon` öğrenme sürecini kontrol eder.
Q-Learning Algoritması: Ana döngü, bölümler (episode) boyunca yinelenir. Her bölümde, ajan rastgele bir durumda başlar ve hedef durumuna ulaşana kadar devam eder.
Epsilon-Açgözlü Eylem Seçimi: Bu strateji, keşif ve sömürü arasında bir denge kurar. `epsilon` olasılığı ile ajan, rastgele bir eylem seçerek keşfeder. Aksi takdirde, en yüksek Q-değerine sahip eylemi seçerek sömürür.
Q-Değeri Güncelleme: Algoritmanın çekirdeği, Q-değerini Q-Learning denklemine göre günceller.
Politika Testi: Eğitimden sonra kod, belirli bir durumda başlayarak ve hedefe ulaşılana kadar en yüksek Q-değerlerine sahip eylemleri takip ederek öğrenilen politikayı test eder.

Uygulama İçin Önemli Hususlar

Keşif ve Sömürü Dengesi: `epsilon` parametresi, keşif (yeni eylemleri deneme) ve sömürü (öğrenilen bilgiyi kullanma) arasındaki dengeyi kontrol eder. Daha yüksek bir `epsilon`, daha fazla keşfi teşvik eder, bu da ajanın daha iyi politikalar keşfetmesine yardımcı olabilir, ancak öğrenmeyi de yavaşlatabilir.
Öğrenme Oranı (α): Öğrenme oranı, yeni bilginin eski bilginin üzerine ne kadar yazılacağını belirler. Daha yüksek bir öğrenme oranı daha hızlı öğrenmeye yol açabilir, ancak Q-değerlerinin salınmasına veya ıraksamasına da neden olabilir.
İndirgeme Faktörü (γ): İndirgeme faktörü, gelecekteki ödüllerin önemini belirler. Daha yüksek bir indirgeme faktörü, ajanı daha ileri görüşlü yapar ve daha büyük gelecek ödülleri için anlık ödüllerden fedakarlık etmeye istekli hale getirir.
Ödül Şekillendirme: Ödül fonksiyonunu dikkatli bir şekilde tasarlamak, etkili öğrenme için çok önemlidir. İstenen eylemler için pozitif ödüller ve istenmeyen eylemler için negatif ödüller sağlamak, ajanı en uygun politikaya yönlendirebilir.
Durum Temsili: Durum uzayını temsil etme şekliniz, Q-Learning'in performansını önemli ölçüde etkileyebilir. Ortamla ilgili bilgileri yakalayan bir temsil seçmek esastır.

Gelişmiş Q-Learning Teknikleri

Temel Q-Learning algoritması güçlü olsa da, performansını ve daha karmaşık problemlere uygulanabilirliğini artırabilecek birkaç gelişmiş teknik vardır.

1. Derin Q-Ağları (DQN)

Büyük veya sürekli durum uzaylarına sahip ortamlar için Q-tablosunu temsil etmek pratik değildir. Derin Q-Ağları (DQN'ler), Q-fonksiyonunu tahmin etmek için derin bir sinir ağı kullanarak bu sorunu çözer. Ağ, girdisi olarak durumu alır ve her eylem için Q-değerlerini çıktı olarak verir.

Faydaları:

Yüksek boyutlu durum uzaylarıyla başa çıkabilir.
Görülmemiş durumlara genelleme yapabilir.

Zorlukları:

Eğitim için önemli hesaplama kaynakları gerektirir.
Hiperparametre ayarına duyarlı olabilir.

DQN'ler, Atari oyunları oynama, robotik ve otonom sürüş gibi çeşitli alanlara başarıyla uygulanmıştır. Örneğin, Google DeepMind'ın DQN'i, birkaç Atari oyununda insan uzmanları geride bırakmasıyla ünlüdür.

2. Çift Q-Learning (Double Q-Learning)

Standart Q-Learning, Q-değerlerini abartarak tahmin edebilir ve bu da optimal olmayan politikalara yol açabilir. Çift Q-Learning, eylem seçimi ve değerlendirmesini ayırmak için iki bağımsız Q-fonksiyonu kullanarak bu sorunu ele alır. Bir Q-fonksiyonu en iyi eylemi seçmek için kullanılırken, diğeri o eylemin Q-değerini tahmin etmek için kullanılır.

Faydaları:

Aşırı tahmin yanlılığını azaltır.
Daha istikrarlı ve güvenilir öğrenmeye yol açar.

Zorlukları:

İki Q-fonksiyonunu saklamak için daha fazla bellek gerektirir.
Güncelleme kuralına karmaşıklık ekler.

3. Öncelikli Deneyim Tekrarı (Prioritized Experience Replay)

Deneyim tekrarı, geçmiş deneyimleri (durum, eylem, ödül, sonraki durum) bir tekrar arabelleğinde saklayarak ve eğitim sırasında bunları rastgele örnekleyerek örnek verimliliğini artırmak için DQN'lerde kullanılan bir tekniktir. Öncelikli deneyim tekrarı, daha yüksek TD hatasına (zamansal fark hatası) sahip deneyimleri daha sık örnekleyerek bunu geliştirir ve öğrenmeyi en bilgilendirici deneyimlere odaklar.

Faydaları:

Örnek verimliliğini artırır.
Öğrenmeyi hızlandırır.

Zorlukları:

Öncelikleri saklamak için ek bellek gerektirir.
Dikkatli uygulanmazsa aşırı öğrenmeye (overfitting) yol açabilir.

4. Keşif Stratejileri

Epsilon-açgözlü stratejisi basit ama etkili bir keşif stratejisidir. Ancak, daha sofistike keşif stratejileri öğrenmeyi daha da geliştirebilir. Örnekler şunları içerir:

Boltzmann Keşfi (Softmax Eylem Seçimi): Q-değerlerinden türetilen bir olasılık dağılımına göre eylemleri seçer.
Üst Güven Sınırı (UCB): Bir eylemin tahmini değerini ve bu tahminle ilişkili belirsizliği göz önünde bulundurarak keşif ve sömürü arasında bir denge kurar.
Thompson Örneklemesi: Q-değerleri üzerinde bir olasılık dağılımını sürdürür ve bu dağılımlara göre eylemleri örnekler.

Q-Learning'in Gerçek Dünya Uygulamaları

Q-Learning, aşağıdakiler de dahil olmak üzere çok çeşitli alanlarda uygulama bulmuştur:

Oyun Oynama: Satranç, Go ve video oyunları gibi oyunları oynamak için yapay zeka ajanlarını eğitmek. Örneğin AlphaZero, insan bilgisi olmadan Satranç, Go ve Shogi'de ustalaşmak için pekiştirmeli öğrenmeyi kullanarak dünya şampiyonlarını bile geride bırakmıştır.
Robotik: Navigasyon, manipülasyon ve montaj gibi görevleri yerine getirmek için robotları kontrol etmek. Örneğin, robotlar bir üretim ortamında Q-Learning kullanarak nesneleri alıp yerleştirmeyi öğrenebilirler.
Kaynak Yönetimi: Enerji yönetimi, telekomünikasyon ve trafik kontrolü gibi alanlarda kaynak tahsisini optimize etmek. Q-Learning, akıllı şebekelerde enerji tüketimini gerçek zamanlı talebe göre dinamik olarak ayarlamak için kullanılabilir.
Finans: Ticaret stratejileri ve portföy yönetimi teknikleri geliştirmek. Algoritmik ticaret sistemleri, piyasa koşullarına göre optimal ticaret kararları almak için Q-Learning'den yararlanabilir.
Sağlık: Tedavi planlarını ve ilaç dozajlarını optimize etmek. Q-Learning, hastaların bireysel özelliklerine ve tedaviye verdikleri yanıtlara göre tedavi planlarını kişiselleştirmek için kullanılabilir.

Küresel Örnekler

Otonom Araçlar (Küresel): Waymo (ABD), Tesla (ABD) ve Baidu (Çin) dahil olmak üzere dünya çapındaki şirketler, otonom sürüş sistemleri geliştirmek için Q-Learning varyasyonları da dahil olmak üzere pekiştirmeli öğrenmeyi kullanıyor. Bu sistemler, karmaşık yol koşullarında gezinmeyi, engellerden kaçınmayı ve güvenli sürüş kararları almayı öğrenir.
Akıllı Şebekeler (Avrupa ve ABD): Avrupa ve Amerika Birleşik Devletleri'ndeki enerji şirketleri, enerji dağıtımını optimize etmek ve enerji israfını azaltmak için Q-Learning tabanlı sistemler kullanıyor. Bu sistemler, enerji talebini tahmin etmeyi ve arzı buna göre ayarlamayı öğrenir.
İmalatta Robotik (Asya): Asya'daki, özellikle Japonya ve Güney Kore'deki imalat şirketleri, üretim hatlarındaki robotik görevleri otomatikleştirmek için Q-Learning'i kullanıyor. Bu robotlar, karmaşık montaj işlemlerini yüksek hassasiyet ve verimlilikle gerçekleştirmeyi öğrenir.
Kişiselleştirilmiş Tıp (Küresel): Dünya çapındaki araştırma kurumları, çeşitli hastalıklar için tedavi planlarını kişiselleştirmek amacıyla Q-Learning kullanımını araştırıyor. Bu, ilaç dozajlarını optimize etmeyi, terapileri planlamayı ve hasta sonuçlarını tahmin etmeyi içerir.

Q-Learning'in Sınırlılıkları

Güçlü yönlerine rağmen, Q-Learning'in bazı sınırlılıkları vardır:

Boyutsallık Laneti: Q-Learning, durum ve eylem sayısıyla birlikte Q-tablosu katlanarak büyüdüğü için büyük durum uzaylarıyla mücadele eder.
Yakınsama: Q-Learning'in en uygun Q-fonksiyonuna yakınsaması, yalnızca deterministik bir ortam ve yeterli keşif gibi belirli koşullar altında garanti edilir.
Keşif-Sömürü Dengesi: Keşif ve sömürü arasında denge kurmak zorlu bir problemdir. Yetersiz keşif, optimal olmayan politikalara yol açabilirken, aşırı keşif öğrenmeyi yavaşlatabilir.
Aşırı Tahmin Yanlılığı: Standart Q-Learning, Q-değerlerini abartarak tahmin edebilir ve bu da optimal olmayan politikalara yol açabilir.
Hiperparametrelere Duyarlılık: Q-Learning'in performansı, öğrenme oranı, indirgeme faktörü ve keşif oranı gibi hiperparametrelerin seçimine duyarlıdır.

Sonuç

Q-Learning, çeşitli alanlarda uygulamaları olan temel ve çok yönlü bir pekiştirmeli öğrenme algoritmasıdır. İlkelerini, uygulamasını ve sınırlılıklarını anlayarak, karmaşık karar verme problemlerini çözmek için gücünden yararlanabilirsiniz. DQN'ler gibi daha gelişmiş teknikler Q-Learning'in bazı sınırlılıklarını giderse de, temel kavramlar pekiştirmeli öğrenmeyle ilgilenen herkes için temel olmaya devam etmektedir. Yapay zeka gelişmeye devam ettikçe, pekiştirmeli öğrenme ve özellikle Q-Learning, otomasyonun ve akıllı sistemlerin geleceğini şekillendirmede giderek daha önemli bir rol oynayacaktır.

Bu rehber, Q-Learning yolculuğunuz için bir başlangıç noktası sunmaktadır. Bu güçlü algoritmanın tam potansiyelini ortaya çıkarmak için daha fazlasını keşfedin, farklı ortamlarla deneyler yapın ve gelişmiş tekniklere dalın.