21 липня 2025 р.Українська

Всебічний посібник з Q-Learning, фундаментального алгоритму навчання з підкріпленням. Вивчіть теорію, реалізацію та практичне застосування з прикладами коду.

Навчання з підкріпленням: Практичний посібник з реалізації Q-Learning

Навчання з підкріпленням (Reinforcement learning, RL) — це потужна парадигма штучного інтелекту, в якій агент навчається приймати рішення в середовищі з метою максимізації винагороди. На відміну від навчання з учителем, RL не потребує маркованих даних; натомість агент навчається методом спроб і помилок. Q-Learning — це популярний і фундаментальний алгоритм у світі RL.

Що таке Q-Learning?

Q-Learning — це вільний від моделі (model-free), позаполітиковий (off-policy) алгоритм навчання з підкріпленням. Розберемо, що це означає:

Вільний від моделі: Він не вимагає моделі середовища. Агенту не потрібно заздалегідь знати ймовірності переходів або функції винагороди.
Позаполітиковий: Він вивчає оптимальну Q-функцію незалежно від дій агента. Це означає, що агент може досліджувати середовище, використовуючи іншу політику (наприклад, випадкову), і при цьому вивчати оптимальну політику.

По суті, Q-Learning має на меті вивчити Q-функцію, що позначається як Q(s, a), яка представляє очікувану сукупну винагороду за виконання дії 'a' у стані 's' і подальше дотримання оптимальної політики. Літера "Q" означає "Якість" (Quality), вказуючи на якість виконання певної дії в певному стані.

Рівняння Q-Learning

Серцем Q-Learning є його правило оновлення, яке ітеративно вдосконалює Q-функцію:

Q(s, a) ← Q(s, a) + α [r + γ max_a' Q(s', a') - Q(s, a)]

Де:

Q(s, a) — це поточне Q-значення для стану 's' та дії 'a'.
α (альфа) — це швидкість навчання (0 < α ≤ 1), яка визначає, наскільки нова інформація перекриває стару. Значення 0 означає, що агент нічому не вчиться, тоді як значення 1 означає, що агент враховує лише найновішу інформацію.
r — це негайна винагорода, отримана після виконання дії 'a' у стані 's'.
γ (гамма) — це коефіцієнт дисконтування (0 ≤ γ ≤ 1), який визначає важливість майбутніх винагород. Значення 0 означає, що агент враховує лише негайні винагороди, тоді як значення 1 означає, що агент розглядає всі майбутні винагороди однаково.
s' — це наступний стан, досягнутий після виконання дії 'a' у стані 's'.
max_a' Q(s', a') — це максимальне Q-значення для всіх можливих дій 'a'' у наступному стані 's''. Це представляє оцінку агентом найкращої можливої майбутньої винагороди з цього стану.

Практична реалізація Q-Learning

Розглянемо реалізацію Q-Learning на Python на простому прикладі: сітковий світ.

Приклад: Сітковий світ

Уявіть собі сітковий світ, де агент може рухатися вгору, вниз, вліво або вправо. Мета агента — досягти визначеного цільового стану, уникаючи перешкод або негативних винагород. Це класична задача навчання з підкріпленням.

Спочатку визначимо середовище. Ми представимо сітку у вигляді словника, де ключами є стани (представлені як кортежі (рядок, стовпець)), а значеннями — можливі дії та відповідні їм винагороди.

```python import numpy as np import random # Визначення середовища environment = { (0, 0): {'right': 0, 'down': 0}, (0, 1): {'left': 0, 'right': 0, 'down': 0}, (0, 2): {'left': 0, 'down': 0, 'right': 10}, # Цільовий стан (1, 0): {'up': 0, 'down': 0, 'right': 0}, (1, 1): {'up': 0, 'down': 0, 'left': 0, 'right': 0}, (1, 2): {'up': 0, 'left': 0, 'down': -5}, # Штрафний стан (2, 0): {'up': 0, 'right': 0}, (2, 1): {'up': 0, 'left': 0, 'right': 0}, (2, 2): {'up': -5, 'left': 0} } # Можливі дії actions = ['up', 'down', 'left', 'right'] # Функція для отримання можливих дій у даному стані def get_possible_actions(state): return list(environment[state].keys()) # Функція для отримання винагороди за даний стан та дію def get_reward(state, action): if action in environment[state]: return environment[state][action] else: return -10 # Велика негативна винагорода за недійсні дії # Функція для визначення наступного стану за поточним станом та дією def get_next_state(state, action): row, col = state if action == 'up': next_state = (row - 1, col) elif action == 'down': next_state = (row + 1, col) elif action == 'left': next_state = (row, col - 1) elif action == 'right': next_state = (row, col + 1) else: return state # Обробка недійсних дій if next_state in environment: return next_state else: return state # Залишатися в тому ж стані при виході за межі # Ініціалізація Q-таблиці q_table = {} for state in environment: q_table[state] = {action: 0 for action in actions} # Параметри Q-Learning alpha = 0.1 # Швидкість навчання gamma = 0.9 # Коефіцієнт дисконтування epsilon = 0.1 # Рівень дослідження num_episodes = 1000 # Алгоритм Q-Learning for episode in range(num_episodes): # Початок у випадковому стані state = random.choice(list(environment.keys())) done = False while not done: # Епсилон-жадібний вибір дії if random.uniform(0, 1) < epsilon: # Дослідження: вибрати випадкову дію action = random.choice(get_possible_actions(state)) else: # Експлуатація: вибрати дію з найвищим Q-значенням action = max(q_table[state], key=q_table[state].get) # Виконати дію та спостерігати за винагородою і наступним станом next_state = get_next_state(state, action) reward = get_reward(state, action) # Оновити Q-значення best_next_q = max(q_table[next_state].values()) q_table[state][action] += alpha * (reward + gamma * best_next_q - q_table[state][action]) # Оновити стан state = next_state # Перевірити, чи досягнуто ціль if state == (0, 2): # Цільовий стан done = True # Вивести Q-таблицю (необов'язково) # for state, action_values in q_table.items(): # print(f"State: {state}, Q-values: {action_values}") # Тестування вивченої політики start_state = (0, 0) current_state = start_state path = [start_state] print("Тестування вивченої політики з (0,0):") while current_state != (0, 2): action = max(q_table[current_state], key=q_table[current_state].get) current_state = get_next_state(current_state, action) path.append(current_state) print("Пройдений шлях:", path) ```

Пояснення:

Визначення середовища: Словник `environment` визначає сітковий світ, вказуючи можливі дії та винагороди для кожного стану. Наприклад, `environment[(0, 0)] = {'right': 0, 'down': 0}` означає, що зі стану (0, 0) агент може рухатися вправо або вниз, отримуючи за обидві дії винагороду 0.
Дії: Список `actions` визначає можливі дії, які може виконувати агент.
Ініціалізація Q-таблиці: Словник `q_table` зберігає Q-значення для кожної пари стан-дія. Він ініціалізується з усіма Q-значеннями, встановленими на 0.
Параметри Q-Learning: `alpha`, `gamma` та `epsilon` керують процесом навчання.
Алгоритм Q-Learning: Основний цикл ітерує по епізодах. У кожному епізоді агент починає у випадковому стані та продовжує, доки не досягне цільового стану.
Епсилон-жадібний вибір дії: Ця стратегія балансує між дослідженням та експлуатацією. З імовірністю `epsilon` агент досліджує, обираючи випадкову дію. В іншому випадку він експлуатує, обираючи дію з найвищим Q-значенням.
Оновлення Q-значення: Ядро алгоритму оновлює Q-значення на основі рівняння Q-Learning.
Тестування політики: Після навчання код тестує вивчену політику, починаючи з заданого стану та слідуючи діям з найвищими Q-значеннями до досягнення цілі.

Ключові аспекти реалізації

Дослідження проти експлуатації: Параметр `epsilon` контролює баланс між дослідженням (спробою нових дій) та експлуатацією (використанням набутих знань). Вищий `epsilon` заохочує більше досліджень, що може допомогти агенту знайти кращі політики, але також може сповільнити навчання.
Швидкість навчання (α): Швидкість навчання визначає, наскільки нова інформація перекриває стару. Вища швидкість навчання може призвести до швидшого навчання, але також може викликати коливання або розбіжність Q-значень.
Коефіцієнт дисконтування (γ): Коефіцієнт дисконтування визначає важливість майбутніх винагород. Вищий коефіцієнт дисконтування робить агента більш далекоглядним і готовим жертвувати негайними винагородами заради більших майбутніх.
Формування винагороди (Reward Shaping): Ретельне проектування функції винагороди є вирішальним для ефективного навчання. Надання позитивних винагород за бажані дії та негативних — за небажані може направити агента до оптимальної політики.
Представлення стану: Спосіб представлення простору станів може значно вплинути на продуктивність Q-Learning. Важливо обрати представлення, яке фіксує відповідну інформацію про середовище.

Просунуті техніки Q-Learning

Хоча базовий алгоритм Q-Learning є потужним, існує кілька просунутих технік, які можуть покращити його продуктивність та застосовність до складніших проблем.

1. Глибокі Q-мережі (DQN)

Для середовищ з великими або неперервними просторами станів представлення Q-таблиці стає непрактичним. Глибокі Q-мережі (DQN) вирішують цю проблему, використовуючи глибоку нейронну мережу для апроксимації Q-функції. Мережа приймає стан на вхід і видає Q-значення для кожної дії.

Переваги:

Обробляє простори станів високої розмірності.
Може узагальнювати на небачені раніше стани.

Проблеми:

Вимагає значних обчислювальних ресурсів для навчання.
Може бути чутливим до налаштування гіперпараметрів.

DQN успішно застосовувалися в різних сферах, включаючи гру в Atari, робототехніку та автономне водіння. Наприклад, DQN від Google DeepMind знаменито перевершила людських експертів у кількох іграх Atari.

2. Подвійний Q-Learning

Стандартний Q-Learning може переоцінювати Q-значення, що призводить до неоптимальних політик. Подвійний Q-Learning вирішує цю проблему, використовуючи дві незалежні Q-функції для роз'єднання вибору дії та її оцінки. Одна Q-функція використовується для вибору найкращої дії, а інша — для оцінки Q-значення цієї дії.

Переваги:

Зменшує зміщення через переоцінку.
Призводить до більш стабільного та надійного навчання.

Проблеми:

Вимагає більше пам'яті для зберігання двох Q-функцій.
Додає складності до правила оновлення.

3. Пріоритезоване відтворення досвіду

Відтворення досвіду — це техніка, що використовується в DQN для підвищення ефективності вибірки шляхом зберігання минулих досвідів (стан, дія, винагорода, наступний стан) у буфері відтворення та випадкового їх вибору під час навчання. Пріоритезоване відтворення досвіду покращує це, частіше вибираючи досвіди з вищою TD-помилкою (помилкою часової різниці), зосереджуючи навчання на найбільш інформативних досвідах.

Переваги:

Підвищує ефективність вибірки.
Прискорює навчання.

Проблеми:

Вимагає додаткової пам'яті для зберігання пріоритетів.
Може призвести до перенавчання, якщо не реалізовано обережно.

4. Стратегії дослідження

Епсилон-жадібна стратегія є простою, але ефективною стратегією дослідження. Однак більш складні стратегії дослідження можуть додатково покращити навчання. Приклади включають:

Дослідження Больцмана (вибір дій Softmax): Обирає дії на основі розподілу ймовірностей, отриманого з Q-значень.
Верхня межа довіри (UCB): Балансує дослідження та експлуатацію, враховуючи як оцінене значення дії, так і невизначеність, пов'язану з цією оцінкою.
Семплінг Томпсона: Підтримує розподіл ймовірностей над Q-значеннями та вибирає дії на основі цих розподілів.

Застосування Q-Learning у реальному світі

Q-Learning знайшов застосування в широкому спектрі галузей, включаючи:

Відеоігри: Навчання ШІ-агентів грати в ігри, такі як шахи, го та відеоігри. AlphaZero, наприклад, використовує навчання з підкріпленням для освоєння шахів, го та сьогі без людських знань, перевершуючи навіть чемпіонів світу.
Робототехніка: Керування роботами для виконання таких завдань, як навігація, маніпуляція та збірка. Наприклад, роботи можуть навчитися переміщувати об'єкти на виробництві за допомогою Q-Learning.
Управління ресурсами: Оптимізація розподілу ресурсів у таких сферах, як управління енергією, телекомунікації та контроль дорожнього руху. Q-Learning може використовуватися для динамічного регулювання споживання енергії в розумних мережах на основі попиту в реальному часі.
Фінанси: Розробка торгових стратегій та технік управління портфелем. Алгоритмічні торгові системи можуть використовувати Q-Learning для прийняття оптимальних торгових рішень на основі ринкових умов.
Охорона здоров'я: Оптимізація планів лікування та дозування ліків. Q-Learning може використовуватися для персоналізації планів лікування пацієнтів на основі їхніх індивідуальних характеристик та реакції на лікування.

Глобальні приклади

Автономні транспортні засоби (Глобально): Компанії по всьому світу, включаючи Waymo (США), Tesla (США) та Baidu (Китай), використовують навчання з підкріпленням, включаючи варіації Q-Learning, для розробки систем автономного водіння. Ці системи вчаться орієнтуватися в складних дорожніх умовах, уникати перешкод та приймати безпечні рішення щодо водіння.
Розумні мережі (Європа та США): Енергетичні компанії в Європі та США впроваджують системи на основі Q-Learning для оптимізації розподілу енергії та зменшення енергетичних відходів. Ці системи вчаться прогнозувати попит на енергію та відповідно коригувати її постачання.
Робототехніка у виробництві (Азія): Виробничі компанії в Азії, особливо в Японії та Південній Кореї, використовують Q-Learning для автоматизації роботизованих завдань на виробничих лініях. Ці роботи вчаться виконувати складні операції збірки з високою точністю та ефективністю.
Персоналізована медицина (Глобально): Дослідницькі установи по всьому світу вивчають використання Q-Learning для персоналізації планів лікування різних захворювань. Це включає оптимізацію дозування ліків, планування терапій та прогнозування результатів для пацієнтів.

Обмеження Q-Learning

Незважаючи на свої сильні сторони, Q-Learning має деякі обмеження:

Прокляття розмірності: Q-Learning має труднощі з великими просторами станів, оскільки Q-таблиця зростає експоненційно з кількістю станів та дій.
Збіжність: Q-Learning гарантовано збігається до оптимальної Q-функції лише за певних умов, таких як детерміноване середовище та достатнє дослідження.
Компроміс між дослідженням та експлуатацією: Балансування між дослідженням та експлуатацією є складною проблемою. Недостатнє дослідження може призвести до неоптимальних політик, тоді як надмірне дослідження може сповільнити навчання.
Зміщення через переоцінку: Стандартний Q-Learning може переоцінювати Q-значення, що призводить до неоптимальних політик.
Чутливість до гіперпараметрів: Продуктивність Q-Learning чутлива до вибору гіперпараметрів, таких як швидкість навчання, коефіцієнт дисконтування та рівень дослідження.

Висновок

Q-Learning — це фундаментальний і універсальний алгоритм навчання з підкріпленням, який застосовується в різноманітних галузях. Розуміючи його принципи, реалізацію та обмеження, ви можете використовувати його потужність для вирішення складних завдань прийняття рішень. Хоча більш просунуті техніки, такі як DQN, вирішують деякі з обмежень Q-Learning, основні концепції залишаються важливими для всіх, хто цікавиться навчанням з підкріпленням. Оскільки ШІ продовжує розвиватися, навчання з підкріпленням, і зокрема Q-Learning, відіграватиме все більш важливу роль у формуванні майбутнього автоматизації та інтелектуальних систем.

Цей посібник є відправною точкою у вашій подорожі з Q-Learning. Досліджуйте далі, експериментуйте з різними середовищами та заглиблюйтесь у просунуті техніки, щоб розкрити весь потенціал цього потужного алгоритму.