23 Eylül 2025Türkçe

Adım adım Python uygulamasıyla temel bir pekiştirmeli öğrenme algoritması olan Q-öğrenmeyi öğrenin. Pratik uygulamaları keşfedin ve akıllı ajanlar oluşturma konusunda içgörüler kazanın.

Python Pekiştirmeli Öğrenme: Pratik Bir Q-Öğrenme Uygulama Rehberi

Pekiştirmeli Öğrenme (RL), bir ajanın bir ödülü maksimize etmek için bir ortamda kararlar almayı öğrendiği makine öğrenmesinde güçlü bir paradigmadır. Denetimli öğrenmeden farklı olarak, RL etiketli verilere dayanmaz. Bunun yerine, ajan eylemleri için ödüller veya cezalar şeklinde geri bildirim alarak deneme yanılma yoluyla öğrenir.

Q-öğrenme, pekiştirmeli öğrenme içinde popüler ve temel bir algoritmadır. Bu kılavuz, Q-öğrenmesine kapsamlı bir genel bakışın yanı sıra, gerçek dünya sorunlarını anlamanıza ve uygulamanıza yardımcı olacak pratik bir Python uygulaması sunar.

Q-Öğrenme Nedir?

Q-öğrenme, politika dışı, modelsiz bir pekiştirmeli öğrenme algoritmasıdır. Bunun ne anlama geldiğini parçalayalım:

Politika dışı: Ajan, aldığı eylemlerden bağımsız olarak optimal politikayı öğrenir. Optimal olmayan eylemleri keşfederken bile optimal politikanın Q-değerlerini öğrenir.
Modelsiz: Algoritma, ortamın bir modelini gerektirmez. Ortamla etkileşim kurarak ve sonuçları gözlemleyerek öğrenir.

Q-öğrenmenin temelindeki ana fikir, belirli bir durumda belirli bir eylemi gerçekleştirmenin beklenen kümülatif ödülünü temsil eden bir Q-fonksiyonunu öğrenmektir. Bu Q-fonksiyonu tipik olarak Q-tablosu adı verilen bir tabloda saklanır.

Q-Öğrenmede Temel Kavramlar:

Durum (s): Belirli bir zamanda ortamın bir gösterimi. Örnekler: bir robotun konumu, mevcut oyun tahtası konfigürasyonu, bir depodaki envanter seviyesi.
Eylem (a): Ajanın belirli bir durumda yapabileceği bir seçim. Örnekler: bir robotu ileri hareket ettirmek, bir oyunda bir parça yerleştirmek, daha fazla envanter sipariş etmek.
Ödül (r): Bir ajanın bir durumda bir eylemde bulunduktan sonra aldığı anlık geri bildirimi temsil eden bir skaler değer. Pozitif ödüller ajanı eylemleri tekrarlamaya teşvik ederken, negatif ödüller (cezalar) onları caydırır.
Q-değeri (Q(s, a)): 's' durumunda 'a' eylemini gerçekleştirmenin ve bundan sonra optimal politikayı izlemenin beklenen kümülatif ödülü. Öğrenmeyi amaçladığımız şey budur.
Politika (π): Ajanın her durumda hangi eylemi gerçekleştirmesi gerektiğini belirleyen bir strateji. Q-öğrenmenin amacı optimal politikayı bulmaktır.

Q-Öğrenme Denklemi (Bellman Denklemi):

Q-öğrenmenin kalbi, Bellman denkleminden türetilen aşağıdaki güncelleme kuralıdır:

Q(s, a) = Q(s, a) + α * [r + γ * max(Q(s', a')) - Q(s, a)]

Nerede:

Q(s, a): 's' durumu ve 'a' eylemi için mevcut Q-değeri.
α (alfa): Q-değerinin yeni bilgilere göre ne kadar güncellendiğini belirleyen öğrenme oranı (0 < α ≤ 1). Daha yüksek bir öğrenme oranı, ajanın daha hızlı öğrendiği ancak daha az kararlı olabileceği anlamına gelir.
r: 's' durumunda 'a' eylemini gerçekleştirdikten sonra alınan ödül.
γ (gama): Gelecekteki ödüllerin önemini belirleyen indirim faktörü (0 ≤ γ ≤ 1). Daha yüksek bir indirim faktörü, ajanın uzun vadeli ödüllere daha fazla değer verdiği anlamına gelir.
s': 's' durumunda 'a' eylemini gerçekleştirdikten sonra ulaşılan sonraki durum.
max(Q(s', a')): Bir sonraki 's'' durumundaki tüm olası 'a'' eylemleri için maksimum Q-değeri. Bu, ajanın bu durumdan elde edilebilecek en iyi olası gelecekteki ödül tahminini temsil eder.

Q-Öğrenme Algoritma Adımları:

Q-tablosunu başlat: Satırları durumları ve sütunları eylemleri temsil eden bir Q-tablosu oluşturun. Tüm Q-değerlerini küçük bir değere (örn. 0) ayarlayın. Bazı durumlarda, rastgele küçük değerlerle başlatmak faydalı olabilir.
Bir eylem seçin: Bir keşif/sömürü stratejisi (örn. epsilon-açgözlü) kullanarak mevcut 's' durumunda bir 'a' eylemi seçin.
Eylemde bulunun ve gözlemleyin: Ortamda 'a' eylemini gerçekleştirin ve sonraki 's'' durumunu ve 'r' ödülünü gözlemleyin.
Q-değerini güncelleyin: Q-öğrenme denklemini kullanarak (s, a) durum-eylem çifti için Q-değerini güncelleyin.
Tekrarlayın: 's'yi 's'' olarak ayarlayın ve ajan bir terminal durumuna ulaşana veya maksimum yineleme sayısına ulaşılana kadar 2-4 arası adımları tekrarlayın.

Epsilon-Açgözlü Keşif Stratejisi

Q-öğrenmenin önemli bir yönü, keşif-sömürü dengesidir. Ajanın yeni ve potansiyel olarak daha iyi eylemleri keşfetmek için ortamı keşfetmesi gerekir, ancak aynı zamanda ödüllerini en üst düzeye çıkarmak için mevcut bilgisini kullanması gerekir.

Epsilon-açgözlü stratejisi, keşif ve sömürüyü dengelemenin yaygın bir yaklaşımıdır:

ε (epsilon) olasılığıyla ajan rastgele bir eylem seçer (keşif).
1-ε olasılığıyla ajan, mevcut durumda en yüksek Q-değerine sahip eylemi seçer (sömürü).

Epsilon değeri tipik olarak küçük bir değere (örn. 0.1) ayarlanır ve ajan öğrendikçe daha fazla sömürüyü teşvik etmek için zamanla kademeli olarak azaltılabilir.

Q-Öğrenmenin Python Uygulaması

Basit bir örnek kullanarak Python'da Q-öğrenmesini uygulayalım: bir ızgara dünya ortamı. Bir robotun bir hedefe ulaşmak için bir ızgarada gezindiğini hayal edin. Robot yukarı, aşağı, sola veya sağa hareket edebilir. Hedefe ulaşmak pozitif bir ödül sağlarken, engellere çarpmak veya çok fazla adım atmak negatif bir ödülle sonuçlanır.

```python import numpy as np import random class GridWorld: def __init__(self, size=5, obstacle_positions=None, goal_position=(4, 4)): self.size = size self.state = (0, 0) # Başlangıç pozisyonu self.goal_position = goal_position self.obstacle_positions = obstacle_positions if obstacle_positions else [] self.actions = ["up", "down", "left", "right"] def reset(self): self.state = (0, 0) return self.state def step(self, action): row, col = self.state if action == "up": new_row = max(0, row - 1) new_col = col elif action == "down": new_row = min(self.size - 1, row + 1) new_col = col elif action == "left": new_row = row new_col = max(0, col - 1) elif action == "right": new_row = row new_col = min(self.size - 1, col + 1) else: raise ValueError("Geçersiz eylem") new_state = (new_row, new_col) if new_state in self.obstacle_positions: reward = -10 # Bir engele çarpmak için ceza elif new_state == self.goal_position: reward = 10 # Hedefe ulaşmak için ödül else: reward = -1 # daha kısa yolları teşvik etmek için küçük ceza self.state = new_state done = (new_state == self.goal_position) return new_state, reward, done def q_learning(env, alpha=0.1, gamma=0.9, epsilon=0.1, num_episodes=1000): q_table = np.zeros((env.size, env.size, len(env.actions))) for episode in range(num_episodes): state = env.reset() done = False while not done: # Epsilon-açgözlü eylem seçimi if random.uniform(0, 1) < epsilon: action = random.choice(env.actions) else: action_index = np.argmax(q_table[state[0], state[1]]) action = env.actions[action_index] # Eylemde bulunun ve gözlemleyin next_state, reward, done = env.step(action) # Q-değerini güncelleyin action_index = env.actions.index(action) best_next_q = np.max(q_table[next_state[0], next_state[1]]) q_table[state[0], state[1], action_index] += alpha * (reward + gamma * best_next_q - q_table[state[0], state[1], action_index]) # Durumu güncelleyin state = next_state return q_table # Örnek kullanım env = GridWorld(size=5, obstacle_positions=[(1, 1), (2, 3)]) q_table = q_learning(env) print("Öğrenilen Q-tablosu:") print(q_table) # Ortamda gezinmek için Q-tablosunu kullanma örneği state = env.reset() done = False path = [state] while not done: action_index = np.argmax(q_table[state[0], state[1]]) action = env.actions[action_index] state, reward, done = env.step(action) path.append(state) print("Optimal yol:", path) ```

Kodun Açıklaması:

GridWorld Sınıfı: Bir ızgara boyutu, başlangıç pozisyonu, hedef pozisyonu ve engel pozisyonları ile ortamı tanımlar. Ortamı başlangıç durumuna sıfırlama ve seçilen eyleme göre bir adım atma yöntemlerini içerir. step yöntemi, sonraki durumu, ödülü ve bölümün tamamlanıp tamamlanmadığını gösteren bir boole değerini döndürür.
q_learning Fonksiyonu: Q-öğrenme algoritmasını uygular. Ortamı, öğrenme oranını (alfa), indirim faktörünü (gama), keşif oranını (epsilon) ve bölüm sayısını girdi olarak alır. Q-tablosunu başlatır ve ardından Q-öğrenme denklemine göre Q-değerlerini güncelleyerek bölümler arasında yineleme yapar.
Epsilon-Açgözlü Uygulama: Kod, keşif ve sömürüyü dengelemek için epsilon-açgözlü uygulamasını gösterir.
Q-Tablosu Başlatma: Q-tablosu np.zeros kullanılarak sıfırlarla başlatılır. Bu, başlangıçta ajanın ortam hakkında hiçbir bilgisi olmadığı anlamına gelir.
Örnek Kullanım: Kod, GridWorld'ün bir örneğini oluşturur, ajanı q_learning fonksiyonunu kullanarak eğitir ve öğrenilen Q-tablosunu yazdırır. Ayrıca, ortamda gezinmek ve hedefe giden optimal yolu bulmak için öğrenilen Q-tablosunun nasıl kullanılacağını gösterir.

Q-Öğrenmenin Pratik Uygulamaları

Q-öğrenmenin çeşitli alanlarda çok çeşitli uygulamaları vardır, bunlar arasında:

Robotik: Robotları ortamlarda gezinmek, nesneleri işlemek ve görevleri otonom olarak gerçekleştirmek için eğitmek. Örneğin, bir robot kolunun bir üretim ortamında nesneleri almayı ve yerleştirmeyi öğrenmesi.
Oyun Oynama: Oyunları insan seviyesinde oynayabilen veya hatta insanlardan daha iyi performans gösterebilen AI ajanları geliştirmek. Örnekler arasında Atari oyunları, satranç ve Go bulunur. DeepMind'ın AlphaGo'su ünlü bir şekilde pekiştirmeli öğrenmeyi kullandı.
Kaynak Yönetimi: Envanter yönetimi, enerji dağıtımı ve trafik kontrolü gibi çeşitli sistemlerde kaynak tahsisini optimize etmek. Örneğin, bir veri merkezindeki enerji tüketimini optimize eden bir sistem.
Sağlık Hizmetleri: Hastaların bireysel özelliklerine ve tıbbi geçmişine göre kişiselleştirilmiş tedavi planları geliştirmek. Örneğin, bir hasta için optimal ilaç dozunu öneren bir sistem.
Finans: Finansal piyasalar için ticaret stratejileri ve risk yönetimi sistemleri geliştirmek. Örneğin, piyasa verilerine göre hisse senetleri almayı öğrenen bir algoritma. Algoritmik ticaret küresel olarak yaygındır.

Gerçek Dünya Örneği: Tedarik Zinciri Yönetimini Optimize Etme

Dünya çapında çok sayıda tedarikçi, depo ve dağıtım merkezi içeren karmaşık bir tedarik zincirine sahip çok uluslu bir şirketi düşünün. Q-öğrenme, maliyetleri en aza indirmek ve ürünlerin müşterilere zamanında teslim edilmesini sağlamak için her konumdaki envanter seviyelerini optimize etmek için kullanılabilir.

Bu senaryoda:

Durum: Her depodaki mevcut envanter seviyelerini, talep tahminlerini ve nakliye maliyetlerini temsil eder.
Eylem: Belirli bir tedarikçiden belirli miktarda ürün sipariş etme kararını temsil eder.
Ödül: Ürünleri satmaktan elde edilen karı, envanteri sipariş etme, depolama ve taşıma maliyetleri eksiğini temsil eder. Stoksuz kalmalar için cezalar uygulanabilir.

Şirket, Q-öğrenme ajanını geçmiş veriler üzerinde eğiterek maliyetleri en aza indiren ve karları en üst düzeye çıkaran optimal envanter yönetimi politikasını öğrenebilir. Bu, mevsimsellik, teslim süreleri ve talep değişkenliği gibi faktörleri dikkate alarak farklı ürünler ve bölgeler için farklı sipariş stratejileri içerebilir. Bu, Avrupa, Asya ve Amerika gibi çeşitli bölgelerde faaliyet gösteren şirketler için geçerlidir.

Q-Öğrenmenin Avantajları

Basitlik: Q-öğrenmeyi anlamak ve uygulamak nispeten kolaydır.
Modelsiz: Ortamın bir modelini gerektirmez, bu da onu karmaşık ve bilinmeyen ortamlar için uygun hale getirir.
Politika dışı: Optimal olmayan eylemleri keşfederken bile optimal politikayı öğrenebilir.
Garantili Yakınsama: Q-öğrenmenin belirli koşullar altında (örn. tüm durum-eylem çiftleri sonsuza kadar ziyaret edilirse) optimal Q-fonksiyonuna yakınsaması garanti edilir.

Q-Öğrenmenin Sınırları

Boyutsallık Laneti: Q-öğrenme, boyutsallık lanetinden muzdariptir, yani Q-tablosunun boyutu durum ve eylem sayısı ile üssel olarak büyür. Bu, onu büyük durum uzaylarına sahip ortamlar için pratik hale getirebilir.
Keşif-Sömürü Dengesi: Keşif ve sömürüyü dengelemek zor olabilir. Yetersiz keşif, optimal olmayan politikalara yol açabilirken, aşırı keşif öğrenmeyi yavaşlatabilir.
Yakınsama Hızı: Q-öğrenmenin yakınsaması, özellikle karmaşık ortamlarda yavaş olabilir.
Hiperparametre Duyarlılığı: Q-öğrenmenin performansı, öğrenme oranı, indirim faktörü ve keşif oranı gibi hiperparametrelerin seçimine duyarlı olabilir.

Sınırlamaların Giderilmesi

Q-öğrenmenin sınırlamalarını gidermek için çeşitli teknikler kullanılabilir:

Fonksiyon Yaklaşımı: Q-değerlerini bir tabloda saklamak yerine tahmin etmek için bir fonksiyon yaklaştırıcı (örn. sinir ağı) kullanın. Bu, bellek gereksinimlerini önemli ölçüde azaltabilir ve Q-öğrenmenin büyük durum uzaylarına sahip ortamlara uygulanmasına olanak tanır. Derin Q-Ağları (DQN'ler) bu yaklaşımın popüler bir örneğidir.
Deneyim Tekrarı: Ajanın deneyimlerini (durum, eylem, ödül, sonraki durum) bir tekrar arabelleğinde saklayın ve Q-fonksiyonunu eğitmek için arabellekten örnek alın. Bu, ardışık deneyimler arasındaki korelasyonu kırmaya ve öğrenme kararlılığını artırmaya yardımcı olur.
Öncelikli Deneyim Tekrarı: Deneyimleri tekrar arabelleğinden önemleriyle orantılı bir olasılıkla örnekleyin. Bu, ajanın en bilgilendirici deneyimlerden öğrenmeye odaklanmasını sağlar.
Gelişmiş Keşif Stratejileri: Üst güven sınırı (UCB) veya Thompson örneklemesi gibi epsilon-açgözlüden daha gelişmiş keşif stratejileri kullanın. Bu stratejiler, keşif ve sömürü arasında daha iyi bir denge sağlayabilir.

Sonuç

Q-öğrenme, çok çeşitli sorunları çözmek için kullanılabilen temel ve güçlü bir pekiştirmeli öğrenme algoritmasıdır. Sınırlamaları olmasına rağmen, fonksiyon yaklaşımı ve deneyim tekrarı gibi teknikler bu sınırlamaların üstesinden gelmek ve uygulanabilirliğini daha karmaşık ortamlara genişletmek için kullanılabilir. Q-öğrenmenin temel kavramlarını anlayarak ve pratik uygulamasında uzmanlaşarak, pekiştirmeli öğrenmenin potansiyelini ortaya çıkarabilir ve dinamik ortamlarda öğrenebilen ve uyum sağlayabilen akıllı ajanlar oluşturabilirsiniz.

Bu kılavuz, pekiştirmeli öğrenmenin daha fazla keşfedilmesi için sağlam bir temel sağlar. Daha da zorlu sorunların üstesinden gelmek için Derin Q-Ağlarına (DQN'ler), politika gradyanı yöntemlerine (örn. REINFORCE, PPO, Aktör-Eleştirmen) ve diğer gelişmiş tekniklere dalmayı düşünün.