23 سبتمبر 2025العربية

تعلم Q-learning، خوارزمية أساسية في التعلم المعزز، مع تطبيق خطوة بخطوة بلغة بايثون. اكتشف التطبيقات العملية واكتسب رؤى حول بناء الوكلاء الأذكياء.

التعلم المعزز بلغة بايثون: دليل عملي لتطبيق Q-Learning

التعلم المعزز (RL) هو نموذج قوي في تعلم الآلة يتعلم فيه الوكيل اتخاذ قرارات في بيئة ما لتعظيم المكافأة. على عكس التعلم المراقب، لا يعتمد التعلم المعزز على البيانات المصنفة. بدلاً من ذلك، يتعلم الوكيل من خلال التجربة والخطأ، ويتلقى ردود فعل في شكل مكافآت أو عقوبات على أفعاله.

يعد Q-learning خوارزمية شائعة وأساسية ضمن التعلم المعزز. يقدم هذا الدليل نظرة عامة شاملة على Q-learning، إلى جانب تطبيق عملي بلغة بايثون لمساعدتك على فهمه وتطبيقه لحل المشكلات الواقعية.

ما هو Q-Learning؟

Q-learning هي خوارزمية تعلم معزز خارج السياسة (off-policy) ولا تتطلب نموذجًا (model-free). دعنا نفصل ما يعنيه ذلك:

خارج السياسة (Off-policy): يتعلم الوكيل السياسة المثلى بغض النظر عن الإجراءات التي يتخذها. يتعلم قيم Q للسياسة المثلى حتى أثناء استكشاف الإجراءات دون المستوى الأمثل.
لا تتطلب نموذجًا (Model-free): لا تتطلب الخوارزمية نموذجًا للبيئة. تتعلم من خلال التفاعل مع البيئة ومراقبة النتائج.

الفكرة الأساسية وراء Q-learning هي تعلم دالة Q، والتي تمثل المكافأة التراكمية المتوقعة لاتخاذ إجراء محدد في حالة معينة. يتم تخزين دالة Q هذه عادةً في جدول يسمى جدول Q.

المفاهيم الأساسية في Q-Learning:

الحالة (s): تمثيل للبيئة في وقت معين. أمثلة: موقع الروبوت، تكوين لوحة اللعبة الحالية، مستوى المخزون في مستودع.
الإجراء (a): خيار يمكن للوكيل اتخاذه في حالة معينة. أمثلة: تحريك الروبوت للأمام، وضع قطعة في لعبة، طلب المزيد من المخزون.
المكافأة (r): قيمة عددية تمثل ردود الفعل الفورية التي يتلقاها الوكيل بعد اتخاذ إجراء في حالة ما. المكافآت الإيجابية تشجع الوكيل على تكرار الإجراءات، بينما المكافآت السلبية (العقوبات) تثبطها.
قيمة Q (Q(s, a)): المكافأة التراكمية المتوقعة لاتخاذ الإجراء 'a' في الحالة 's' واتباع السياسة المثلى بعد ذلك. هذا هو ما نهدف إلى تعلمه.
السياسة (π): استراتيجية تحدد الإجراء الذي يجب على الوكيل اتخاذه في كل حالة. الهدف من Q-learning هو إيجاد السياسة المثلى.

معادلة Q-Learning (معادلة بيلمان):

قلب Q-learning هو قاعدة التحديث التالية، المشتقة من معادلة بيلمان:

Q(s, a) = Q(s, a) + α * [r + γ * max(Q(s', a')) - Q(s, a)]

حيث:

Q(s, a): قيمة Q الحالية للحالة 's' والإجراء 'a'.
α (ألفا): معدل التعلم، الذي يحدد مقدار تحديث قيمة Q بناءً على المعلومات الجديدة (0 < α ≤ 1). معدل التعلم الأعلى يعني أن الوكيل يتعلم بشكل أسرع ولكنه قد يكون أقل استقرارًا.
r: المكافأة المستلمة بعد اتخاذ الإجراء 'a' في الحالة 's'.
γ (جاما): عامل الخصم، الذي يحدد أهمية المكافآت المستقبلية (0 ≤ γ ≤ 1). عامل خصم أعلى يعني أن الوكيل يقدر المكافآت طويلة الأجل أكثر.
s': الحالة التالية التي تم الوصول إليها بعد اتخاذ الإجراء 'a' في الحالة 's'.
max(Q(s', a')): أقصى قيمة Q لجميع الإجراءات الممكنة 'a'' في الحالة التالية 's''. هذا يمثل تقدير الوكيل لأفضل مكافأة مستقبلية ممكنة من تلك الحالة.

خطوات خوارزمية Q-Learning:

تهيئة جدول Q: قم بإنشاء جدول Q مع تمثيل الصفوف للحالات والأعمدة للإجراءات. قم بتهيئة جميع قيم Q بقيمة صغيرة (مثل 0). في بعض الحالات، قد يكون من المفيد التهيئة بقيم صغيرة عشوائية.
اختيار إجراء: اختر إجراء 'a' في الحالة الحالية 's' باستخدام استراتيجية استكشاف/استغلال (مثل إبسيلون-جشع).
اتخاذ الإجراء والمراقبة: نفذ الإجراء 'a' في البيئة ولاحظ الحالة التالية 's'' والمكافأة 'r'.
تحديث قيمة Q: قم بتحديث قيمة Q لزوج الحالة-الإجراء (s, a) باستخدام معادلة Q-learning.
التكرار: قم بتعيين 's' إلى 's'' وكرر الخطوات 2-4 حتى يصل الوكيل إلى حالة نهائية أو يتم الوصول إلى الحد الأقصى لعدد التكرارات.

استراتيجية الاستكشاف إبسيلون-جشع

جانب حاسم في Q-learning هو المقايضة بين الاستكشاف والاستغلال. يحتاج الوكيل إلى استكشاف البيئة لاكتشاف إجراءات جديدة وربما أفضل، ولكنه يحتاج أيضًا إلى استغلال معرفته الحالية لتعظيم مكافآته.

استراتيجية إبسيلون-جشع هي نهج شائع لتحقيق التوازن بين الاستكشاف والاستغلال:

باحتمالية ε (إبسيلون)، يختار الوكيل إجراءً عشوائيًا (استكشاف).
باحتمالية 1-ε، يختار الوكيل الإجراء ذي أعلى قيمة Q في الحالة الحالية (استغلال).

عادةً ما يتم تعيين قيمة إبسيلون إلى قيمة صغيرة (مثل 0.1) ويمكن تقليلها تدريجيًا بمرور الوقت لتشجيع المزيد من الاستغلال مع تعلم الوكيل.

تنفيذ Q-Learning بلغة بايثون

دعنا ننفذ Q-learning بلغة بايثون باستخدام مثال بسيط: بيئة عالم شبكي. تخيل روبوتًا يتنقل في شبكة للوصول إلى هدف. يمكن للروبوت التحرك لأعلى ولأسفل ولليسار ولليمين. الوصول إلى الهدف يوفر مكافأة إيجابية، بينما الاصطدام بالعقبات أو استغراق الكثير من الوقت ينتج عنه مكافأة سلبية.

```python import numpy as np import random class GridWorld: def __init__(self, size=5, obstacle_positions=None, goal_position=(4, 4)): self.size = size self.state = (0, 0) # Starting position self.goal_position = goal_position self.obstacle_positions = obstacle_positions if obstacle_positions else [] self.actions = ["up", "down", "left", "right"] def reset(self): self.state = (0, 0) return self.state def step(self, action): row, col = self.state if action == "up": new_row = max(0, row - 1) new_col = col elif action == "down": new_row = min(self.size - 1, row + 1) new_col = col elif action == "left": new_row = row new_col = max(0, col - 1) elif action == "right": new_row = row new_col = min(self.size - 1, col + 1) else: raise ValueError("Invalid action") new_state = (new_row, new_col) if new_state in self.obstacle_positions: reward = -10 # Penalty for hitting an obstacle elif new_state == self.goal_position: reward = 10 # Reward for reaching the goal else: reward = -1 # small penalty to encourage shorter paths self.state = new_state done = (new_state == self.goal_position) return new_state, reward, done def q_learning(env, alpha=0.1, gamma=0.9, epsilon=0.1, num_episodes=1000): q_table = np.zeros((env.size, env.size, len(env.actions))) for episode in range(num_episodes): state = env.reset() done = False while not done: # Epsilon-greedy action selection if random.uniform(0, 1) < epsilon: action = random.choice(env.actions) else: action_index = np.argmax(q_table[state[0], state[1]]) action = env.actions[action_index] # Take action and observe next_state, reward, done = env.step(action) # Update Q-value action_index = env.actions.index(action) best_next_q = np.max(q_table[next_state[0], next_state[1]]) q_table[state[0], state[1], action_index] += alpha * (reward + gamma * best_next_q - q_table[state[0], state[1], action_index]) # Update state state = next_state return q_table # Example usage env = GridWorld(size=5, obstacle_positions=[(1, 1), (2, 3)]) q_table = q_learning(env) print("Learned Q-table:") print(q_table) # Example of using the Q-table to navigate the environment state = env.reset() done = False path = [state] while not done: action_index = np.argmax(q_table[state[0], state[1]]) action = env.actions[action_index] state, reward, done = env.step(action) path.append(state) print("Optimal path:", path) ```

شرح الكود:

فئة GridWorld: تحدد البيئة بحجم شبكة، وموقع بداية، وموقع هدف، ومواقع عقبات. تتضمن طرقًا لإعادة تهيئة البيئة إلى الحالة الابتدائية ولاتخاذ خطوة بناءً على الإجراء المختار. تقوم طريقة step بإرجاع الحالة التالية والمكافأة وقيمة منطقية تشير إلى ما إذا كانت الحلقة قد انتهت.
وظيفة q_learning: تنفذ خوارزمية Q-learning. تأخذ البيئة، ومعدل التعلم (alpha)، وعامل الخصم (gamma)، ومعدل الاستكشاف (epsilon)، وعدد الحلقات كمدخلات. تقوم بتهيئة جدول Q ثم تتكرر عبر الحلقات، وتحديث قيم Q بناءً على معادلة Q-learning.
تنفيذ إبسيلون-جشع: يوضح الكود تنفيذ استراتيجية إبسيلون-جشع لتحقيق التوازن بين الاستكشاف والاستغلال.
تهيئة جدول Q: يتم تهيئة جدول Q بالأصفار باستخدام np.zeros. هذا يعني في البداية، ليس لدى الوكيل أي معرفة بالبيئة.
مثال الاستخدام: ينشئ الكود مثيلاً من GridWorld، ويدرب الوكيل باستخدام وظيفة q_learning، ويطبع جدول Q المتعلم. كما يوضح كيفية استخدام جدول Q المتعلم للتنقل في البيئة والعثور على المسار الأمثل إلى الهدف.

التطبيقات العملية لـ Q-Learning

يمتلك Q-learning مجموعة واسعة من التطبيقات في مجالات مختلفة، بما في ذلك:

الروبوتات: تدريب الروبوتات على التنقل في البيئات، ومعالجة الأشياء، وأداء المهام بشكل مستقل. على سبيل المثال، ذراع روبوت تتعلم التقاط الأشياء ووضعها في بيئة تصنيع.
لعب الألعاب: تطوير وكلاء الذكاء الاصطناعي الذين يمكنهم لعب الألعاب على مستوى بشري أو حتى التفوق على البشر. تشمل الأمثلة ألعاب Atari، والشطرنج، و Go. اشتهرت DeepMind's AlphaGo باستخدامها للتعلم المعزز.
إدارة الموارد: تحسين تخصيص الموارد في أنظمة مختلفة، مثل إدارة المخزون، وتوزيع الطاقة، ومراقبة المرور. على سبيل المثال، نظام يحسن استهلاك الطاقة في مركز بيانات.
الرعاية الصحية: تطوير خطط علاج شخصية للمرضى بناءً على خصائصهم الفردية وتاريخهم الطبي. على سبيل المثال، نظام يوصي بالجرعة المثلى من الدواء لمريض.
التمويل: تطوير استراتيجيات التداول وأنظمة إدارة المخاطر للأسواق المالية. على سبيل المثال، خوارزمية تتعلم تداول الأسهم بناءً على بيانات السوق. التداول الخوارزمي منتشر عالميًا.

مثال واقعي: تحسين إدارة سلسلة التوريد

ضع في اعتبارك شركة متعددة الجنسيات ذات سلسلة توريد معقدة تشمل عددًا لا يحصى من الموردين والمستودعات ومراكز التوزيع في جميع أنحاء العالم. يمكن استخدام Q-learning لتحسين مستويات المخزون في كل موقع لتقليل التكاليف وضمان التسليم في الوقت المناسب للمنتجات للعملاء.

في هذا السيناريو:

الحالة: تمثل مستويات المخزون الحالية في كل مستودع، وتوقعات الطلب، وتكاليف النقل.
الإجراء: يمثل قرار طلب كمية معينة من المنتجات من مورد معين.
المكافأة: تمثل الربح الناتج عن بيع المنتجات، مطروحًا منه تكاليف الطلب والتخزين ونقل المخزون. يمكن تطبيق عقوبات على نفاد المخزون.

من خلال تدريب وكيل Q-learning على البيانات التاريخية، يمكن للشركة تعلم سياسة إدارة المخزون المثلى التي تقلل التكاليف وتعظم الأرباح. قد يتضمن ذلك استراتيجيات طلب مختلفة لمنتجات ومناطق مختلفة، مع مراعاة عوامل مثل الموسمية، وأوقات الانتظار، وتقلب الطلب. هذا ينطبق على الشركات التي تعمل في مناطق متنوعة مثل أوروبا وآسيا والأمريكتين.

مزايا Q-Learning

البساطة: Q-learning سهل الفهم والتطبيق نسبيًا.
لا يتطلب نموذجًا: لا يتطلب نموذجًا للبيئة، مما يجعله مناسبًا للبيئات المعقدة وغير المعروفة.
خارج السياسة: يمكنه تعلم السياسة المثلى حتى أثناء استكشاف الإجراءات دون المستوى الأمثل.
ضمان التقارب: يضمن Q-learning التقارب إلى دالة Q المثلى في ظل ظروف معينة (مثل، إذا تم زيارة جميع أزواج الحالة-الإجراء بشكل لا نهائي).

قيود Q-Learning

لعنة الأبعاد: يعاني Q-learning من لعنة الأبعاد، مما يعني أن حجم جدول Q ينمو بشكل أسي مع عدد الحالات والإجراءات. هذا يمكن أن يجعله غير عملي للبيئات ذات مساحات الحالات الكبيرة.
موازنة الاستكشاف-الاستغلال: يمكن أن يكون تحقيق التوازن بين الاستكشاف والاستغلال أمرًا صعبًا. يمكن أن يؤدي الاستكشاف غير الكافي إلى سياسات دون المستوى الأمثل، في حين أن الاستكشاف المفرط يمكن أن يبطئ التعلم.
سرعة التقارب: يمكن أن يكون Q-learning بطيئًا في التقارب، خاصة في البيئات المعقدة.
الحساسية للمعلمات الفائقة: يمكن أن يكون أداء Q-learning حساسًا لاختيار المعلمات الفائقة، مثل معدل التعلم، وعامل الخصم، ومعدل الاستكشاف.

معالجة القيود

يمكن استخدام العديد من التقنيات لمعالجة قيود Q-learning:

تقريب الدالة: استخدم مقربًا للدالة (مثل الشبكة العصبية) لتقدير قيم Q بدلاً من تخزينها في جدول. يمكن لهذا تقليل متطلبات الذاكرة بشكل كبير والسماح بتطبيق Q-learning على البيئات ذات مساحات الحالات الكبيرة. تعد شبكات Q العميقة (DQN) مثالًا شائعًا لهذا النهج.
إعادة تشغيل الخبرة: قم بتخزين تجارب الوكيل (الحالة، الإجراء، المكافأة، الحالة التالية) في مخزن مؤقت لإعادة التشغيل وأخذ عينات من المخزن المؤقت لتدريب دالة Q. هذا يساعد على كسر الارتباط بين التجارب المتتالية ويحسن استقرار التعلم.
إعادة تشغيل الخبرة ذات الأولوية: أخذ عينات من التجارب من المخزن المؤقت لإعادة التشغيل باحتمالية تتناسب مع أهميتها. يسمح هذا للوكيل بالتركيز على التعلم من التجارب الأكثر إفادة.
استراتيجيات الاستكشاف المتقدمة: استخدم استراتيجيات استكشاف أكثر تطوراً من إبسيلون-جشع، مثل الحد الأعلى للثقة (UCB) أو أخذ عينات طومسون. يمكن لهذه الاستراتيجيات توفير توازن أفضل بين الاستكشاف والاستغلال.

الخاتمة

Q-learning هي خوارزمية تعلم معزز أساسية وقوية يمكن استخدامها لحل مجموعة واسعة من المشكلات. على الرغم من قيودها، يمكن استخدام تقنيات مثل تقريب الدالة وإعادة تشغيل الخبرة للتغلب على هذه القيود وتوسيع نطاق قابليتها للتطبيق على بيئات أكثر تعقيدًا. من خلال فهم المفاهيم الأساسية لـ Q-learning وإتقان تطبيقها العملي، يمكنك فتح إمكانات التعلم المعزز وبناء وكلاء أذكياء يمكنهم التعلم والتكيف في البيئات الديناميكية.

يوفر هذا الدليل أساسًا قويًا لمزيد من استكشاف التعلم المعزز. ضع في اعتبارك التعمق في شبكات Q العميقة (DQN)، وطرق تدرج السياسة (مثل REINFORCE، PPO، Actor-Critic)، وغيرها من التقنيات المتقدمة لمواجهة مشكلات أكثر صعوبة.