3 tháng 10, 2025Tiếng Việt

Khám phá cốt lõi của AI hiện đại với hướng dẫn toàn diện về triển khai cơ chế chú ý của Transformer. Từ lý thuyết đến mã, bài viết này phân tích Scaled Dot-Product và Multi-Head Attention cho khán giả toàn cầu gồm các nhà phát triển và người đam mê.

Giải Mã Transformer: Nghiên Cứu Sâu về Triển Khai Cơ Chế Chú Ý

Vào năm 2017, thế giới Trí Tuệ Nhân Tạo đã thay đổi một cách cơ bản bởi một bài báo nghiên cứu duy nhất từ Google Brain có tựa đề "Attention Is All You Need". Bài báo này giới thiệu kiến trúc Transformer, một thiết kế mới lạ hoàn toàn loại bỏ các lớp tái phát và tích chập vốn đã thống trị các tác vụ dựa trên chuỗi như dịch máy. Trọng tâm của cuộc cách mạng này là một khái niệm mạnh mẽ, nhưng trang nhã: cơ chế chú ý.

Ngày nay, Transformers là nền tảng của gần như mọi mô hình AI hiện đại, từ các mô hình ngôn ngữ lớn như GPT-4 và LLaMA đến các mô hình đột phá trong thị giác máy tính và khám phá thuốc. Hiểu cơ chế chú ý không còn là tùy chọn đối với các nhà thực hành AI; nó là điều cần thiết. Hướng dẫn toàn diện này được thiết kế cho khán giả toàn cầu gồm các nhà phát triển, nhà khoa học dữ liệu và những người đam mê AI. Chúng tôi sẽ làm sáng tỏ cơ chế chú ý, chia nhỏ nó từ các nguyên tắc cốt lõi đến triển khai thực tế trong mã. Mục tiêu của chúng tôi là cung cấp cho bạn trực giác và kỹ năng kỹ thuật để hiểu và xây dựng động cơ cung cấp năng lượng cho AI hiện đại.

Attention Là Gì? Một Trực Giác Toàn Cầu

Trước khi đi sâu vào ma trận và công thức, hãy xây dựng một trực giác phổ quát. Hãy tưởng tượng bạn đang đọc câu này: "Con tàu, chở đầy hàng hóa từ một số cảng quốc tế, đã lướt êm trên đại dương."

Để hiểu nghĩa của từ "lướt", não của bạn không coi trọng ngang nhau mọi từ khác trong câu. Nó theo bản năng chú ý nhiều hơn đến "tàu" và "đại dương" hơn là "hàng hóa" hoặc "cảng". Sự tập trung có chọn lọc này—khả năng cân nhắc một cách linh hoạt tầm quan trọng của các phần thông tin khác nhau khi xử lý một yếu tố cụ thể—là bản chất của sự chú ý.

Trong bối cảnh AI, cơ chế chú ý cho phép một mô hình làm điều tương tự. Khi xử lý một phần của chuỗi đầu vào (như một từ trong một câu hoặc một mảng trong một hình ảnh), nó có thể xem xét toàn bộ chuỗi và quyết định những phần nào khác liên quan nhất để hiểu phần hiện tại. Khả năng mô hình hóa trực tiếp các phụ thuộc tầm xa này, mà không cần phải truyền thông tin tuần tự thông qua một chuỗi lặp đi lặp lại, là điều khiến Transformers trở nên mạnh mẽ và hiệu quả.

Động Cơ Cốt Lõi: Scaled Dot-Product Attention

Dạng chú ý phổ biến nhất được sử dụng trong Transformers được gọi là Scaled Dot-Product Attention. Công thức của nó thoạt nhìn có vẻ đáng sợ, nhưng nó được xây dựng trên một loạt các bước logic ánh xạ tuyệt đẹp vào trực giác của chúng ta.

Công thức là: Attention(Q, K, V) = softmax( (QK^T) / √d_k ) * V

Hãy chia nhỏ điều này từng phần, bắt đầu với ba đầu vào chính.

Bộ Ba: Query, Key và Value (Q, K, V)

Để triển khai attention, chúng ta chuyển đổi dữ liệu đầu vào của mình (ví dụ: nhúng từ) thành ba biểu diễn riêng biệt: Queries, Keys và Values. Hãy coi đây như một hệ thống truy xuất, giống như tìm kiếm thông tin trong một thư viện kỹ thuật số:

Query (Q): Điều này đại diện cho mục hiện tại bạn đang tập trung vào. Đó là câu hỏi của bạn. Đối với một từ cụ thể, vectơ Query của nó hỏi: "Thông tin nào trong phần còn lại của câu có liên quan đến tôi?"
Key (K): Mỗi mục trong chuỗi có một vectơ Key. Điều này giống như nhãn, tiêu đề hoặc từ khóa cho một phần thông tin. Query sẽ được so sánh với tất cả các Keys để tìm những cái liên quan nhất.
Value (V): Mỗi mục trong chuỗi cũng có một vectơ Value. Điều này chứa nội dung hoặc thông tin thực tế. Khi Query tìm thấy các Keys phù hợp nhất, chúng ta sẽ truy xuất các Values tương ứng của chúng.

Trong self-attention, cơ chế được sử dụng trong bộ mã hóa và giải mã của Transformer, Queries, Keys và Values đều được tạo ra từ cùng một chuỗi đầu vào. Mỗi từ trong câu tạo ra các vectơ Q, K và V riêng bằng cách được truyền qua ba lớp tuyến tính được học riêng biệt. Điều này cho phép mô hình tính toán attention của mọi từ với mọi từ khác trong cùng một câu.

Phân Tích Triển Khai Từng Bước

Hãy cùng xem qua các hoạt động của công thức, kết nối từng bước với mục đích của nó.

Bước 1: Tính Điểm Tương Đồng (Q * K^T)

Bước đầu tiên là đo lường mức độ mỗi Query phù hợp với mỗi Key. Chúng ta đạt được điều này bằng cách lấy tích vô hướng của mọi vectơ Query với mọi vectơ Key. Trong thực tế, điều này được thực hiện hiệu quả cho toàn bộ chuỗi bằng cách sử dụng một phép nhân ma trận duy nhất: `Q` nhân với chuyển vị của `K` (`K^T`).

Đầu vào: Một ma trận Query `Q` có hình dạng `(sequence_length, d_q)` và một ma trận Key `K` có hình dạng `(sequence_length, d_k)`. Lưu ý: `d_q` phải bằng `d_k`.
Hoạt động: `Q * K^T`
Đầu ra: Một ma trận điểm attention có hình dạng `(sequence_length, sequence_length)`. Phần tử tại `(i, j)` trong ma trận này biểu thị điểm tương đồng thô giữa từ thứ `i` (dưới dạng query) và từ thứ `j` (dưới dạng key). Điểm cao hơn có nghĩa là mối quan hệ mạnh mẽ hơn.

Bước 2: Tỷ Lệ ( / √d_k )

Đây là một bước ổn định quan trọng nhưng đơn giản. Các tác giả của bài báo gốc nhận thấy rằng đối với các giá trị lớn của chiều key `d_k`, tích vô hướng có thể tăng rất lớn về độ lớn. Khi những con số lớn này được đưa vào hàm softmax (bước tiếp theo của chúng ta), chúng có thể đẩy nó vào các vùng có độ dốc cực kỳ nhỏ. Hiện tượng này, được gọi là độ dốc biến mất, có thể gây khó khăn cho việc đào tạo mô hình.

Để chống lại điều này, chúng ta giảm tỷ lệ điểm bằng cách chia chúng cho căn bậc hai của chiều của các vectơ key, √d_k. Điều này giữ cho phương sai của điểm ở mức 1, đảm bảo độ dốc ổn định hơn trong suốt quá trình đào tạo.

Bước 3: Áp Dụng Softmax (softmax(...))

Bây giờ chúng ta có một ma trận các điểm căn chỉnh đã được chia tỷ lệ, nhưng những điểm này là tùy ý. Để làm cho chúng dễ diễn giải và hữu ích, chúng ta áp dụng hàm softmax dọc theo mỗi hàng. Hàm softmax thực hiện hai điều:

Nó chuyển đổi tất cả các điểm thành số dương.
Nó chuẩn hóa chúng sao cho tổng các điểm trong mỗi hàng bằng 1.

Đầu ra của bước này là một ma trận trọng số attention. Mỗi hàng bây giờ đại diện cho một phân phối xác suất, cho chúng ta biết từ ở vị trí hàng đó nên chú ý đến mọi từ khác trong chuỗi bao nhiêu. Trọng số 0,9 cho từ "tàu" trong hàng cho "lướt" có nghĩa là khi tính toán biểu diễn mới cho "lướt", 90% thông tin sẽ đến từ "tàu".

Bước 4: Tính Tổng Có Trọng Số ( * V )

Bước cuối cùng là sử dụng các trọng số attention này để tạo ra một biểu diễn mới, nhận biết ngữ cảnh cho mỗi từ. Chúng ta làm điều này bằng cách nhân ma trận trọng số attention với ma trận Value `V`.

Đầu vào: Ma trận trọng số attention `(sequence_length, sequence_length)` và ma trận Value `V` `(sequence_length, d_v)`.
Hoạt động: `weights * V`
Đầu ra: Một ma trận đầu ra cuối cùng có hình dạng `(sequence_length, d_v)`.

Đối với mỗi từ (mỗi hàng), biểu diễn mới của nó là tổng có trọng số của tất cả các vectơ Value trong chuỗi. Các từ có trọng số attention cao hơn đóng góp nhiều hơn vào tổng này. Kết quả là một tập hợp các nhúng trong đó vectơ của mỗi từ không chỉ là ý nghĩa riêng của nó mà còn là sự pha trộn giữa ý nghĩa của nó và ý nghĩa của các từ mà nó đã chú ý đến. Nó bây giờ rất phong phú với ngữ cảnh.

Một Ví Dụ Mã Thực Tế: Scaled Dot-Product Attention trong PyTorch

Lý thuyết được hiểu rõ nhất thông qua thực hành. Dưới đây là một triển khai đơn giản, được nhận xét về cơ chế Scaled Dot-Product Attention bằng Python và thư viện PyTorch, một framework phổ biến cho deep learning.

            
import torch
import torch.nn as nn
import math

class ScaledDotProductAttention(nn.Module):
    """ Implements the Scaled Dot-Product Attention mechanism. """
    def __init__(self):
        super(ScaledDotProductAttention, self).__init__()

    def forward(self, q, k, v, mask=None):
        # q, k, v must have the same dimension d_k = d_v = d_model / h
        # In practice, these tensors will also have a batch dimension and head dimension.
        # For clarity, let's assume shape [batch_size, num_heads, seq_len, d_k]
        
        d_k = k.size(-1)  # Get the dimension of the key vectors
        
        # 1. Calculate Similarity Scores: (Q * K^T)
        # Matmul for the last two dimensions: (seq_len, d_k) * (d_k, seq_len) -> (seq_len, seq_len)
        scores = torch.matmul(q, k.transpose(-2, -1))
        
        # 2. Scale the scores
        scaled_scores = scores / math.sqrt(d_k)
        
        # 3. (Optional) Apply mask to prevent attention to certain positions
        # The mask is crucial in the decoder to prevent attending to future tokens.
        if mask is not None:
            # Fills elements of self tensor with -1e9 where mask is True.
            scaled_scores = scaled_scores.masked_fill(mask == 0, -1e9)
        
        # 4. Apply Softmax to get attention weights
        # Softmax is applied on the last dimension (the keys) to get a distribution.
        attention_weights = torch.softmax(scaled_scores, dim=-1)
        
        # 5. Compute the Weighted Sum: (weights * V)
        # Matmul for the last two dimensions: (seq_len, seq_len) * (seq_len, d_v) -> (seq_len, d_v)
        output = torch.matmul(attention_weights, v)
        
        return output, attention_weights

Nâng Cấp: Multi-Head Attention

Cơ chế Scaled Dot-Product Attention rất mạnh mẽ, nhưng nó có một hạn chế. Nó tính toán một tập hợp duy nhất các trọng số attention, buộc nó phải trung bình sự tập trung của nó. Một cơ chế attention duy nhất có thể học cách tập trung vào, ví dụ: mối quan hệ chủ ngữ-động từ. Nhưng còn những mối quan hệ khác thì sao, như đại từ-tiền tố, hoặc sắc thái phong cách?

Đây là nơi Multi-Head Attention xuất hiện. Thay vì thực hiện một phép tính attention duy nhất, nó chạy cơ chế attention nhiều lần song song và sau đó kết hợp các kết quả.

"Tại Sao": Nắm Bắt Các Mối Quan Hệ Đa Dạng

Hãy coi nó như có một ủy ban các chuyên gia thay vì một người tổng quát duy nhất. Mỗi "head" trong Multi-Head Attention có thể được coi là một chuyên gia học cách tập trung vào một loại mối quan hệ hoặc khía cạnh khác của dữ liệu đầu vào.

Đối với câu, "Con vật không băng qua đường vì nó quá mệt,"

Head 1 có thể học cách liên kết đại từ "nó" trở lại tiền tố của nó "con vật".
Head 2 có thể học mối quan hệ nhân quả giữa "không băng qua" và "mệt".
Head 3 có thể nắm bắt mối quan hệ cú pháp giữa động từ "là" và chủ ngữ của nó "nó".

Bằng cách có nhiều head (bài báo Transformer gốc đã sử dụng 8), mô hình có thể đồng thời nắm bắt một loạt các mối quan hệ cú pháp và ngữ nghĩa phong phú trong dữ liệu, dẫn đến một biểu diễn sắc thái và mạnh mẽ hơn nhiều.

"Như Thế Nào": Chia, Chú Ý, Nối, Chiếu

Việc triển khai Multi-Head Attention tuân theo một quy trình bốn bước:

Phép Chiếu Tuyến Tính: Các nhúng đầu vào được truyền qua ba lớp tuyến tính riêng biệt để tạo ra các ma trận Query, Key và Value ban đầu. Sau đó, chúng được chia thành `h` phần nhỏ hơn (một cho mỗi head). Ví dụ: nếu chiều mô hình của bạn `d_model` là 512 và bạn có 8 head, mỗi head sẽ làm việc với các vectơ Q, K và V có chiều 64 (512 / 8).
Chú Ý Song Song: Cơ chế Scaled Dot-Product Attention mà chúng ta đã thảo luận trước đó được áp dụng độc lập và song song cho mỗi `h` tập hợp các không gian con Q, K và V. Điều này dẫn đến `h` ma trận đầu ra attention riêng biệt.
Nối: Các ma trận đầu ra `h` được nối lại với nhau thành một ma trận lớn duy nhất. Trong ví dụ của chúng ta, 8 ma trận có kích thước 64 sẽ được nối để tạo thành một ma trận có kích thước 512.
Phép Chiếu Cuối Cùng: Ma trận được nối này được truyền qua một lớp tuyến tính cuối cùng. Lớp này cho phép mô hình học cách kết hợp tốt nhất thông tin được học bởi các head khác nhau, tạo ra một đầu ra cuối cùng thống nhất.

Triển Khai Mã: Multi-Head Attention trong PyTorch

Dựa trên mã trước đó của chúng ta, đây là một triển khai tiêu chuẩn của khối Multi-Head Attention.

            
class MultiHeadAttention(nn.Module):
    """ Implements the Multi-Head Attention mechanism. """
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        assert d_model % num_heads == 0, "d_model must be divisible by num_heads"
        
        self.d_model = d_model
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        
        # Linear layers for Q, K, V and the final output
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)
        
        self.attention = ScaledDotProductAttention()

    def forward(self, q, k, v, mask=None):
        batch_size = q.size(0)
        
        # 1. Apply linear projections
        q, k, v = self.W_q(q), self.W_k(k), self.W_v(v)
        
        # 2. Reshape for multi-head attention
        # (batch_size, seq_len, d_model) -> (batch_size, num_heads, seq_len, d_k)
        q = q.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        k = k.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        v = v.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        
        # 3. Apply attention on all heads in parallel
        context, _ = self.attention(q, k, v, mask=mask)
        
        # 4. Concatenate heads and apply final linear layer
        # (batch_size, num_heads, seq_len, d_k) -> (batch_size, seq_len, num_heads, d_k)
        context = context.transpose(1, 2).contiguous()
        # (batch_size, seq_len, num_heads, d_k) -> (batch_size, seq_len, d_model)
        context = context.view(batch_size, -1, self.d_model)
        
        output = self.W_o(context)
        
        return output

Tác Động Toàn Cầu: Tại Sao Cơ Chế Này Thay Đổi Cuộc Chơi

Các nguyên tắc của attention không giới hạn trong Xử Lý Ngôn Ngữ Tự Nhiên. Cơ chế này đã được chứng minh là một công cụ linh hoạt và mạnh mẽ trên nhiều lĩnh vực, thúc đẩy tiến bộ trên quy mô toàn cầu.

Phá Vỡ Rào Cản Ngôn Ngữ: Trong dịch máy, attention cho phép một mô hình tạo ra các căn chỉnh trực tiếp, phi tuyến tính giữa các từ trong các ngôn ngữ khác nhau. Ví dụ: nó có thể ánh xạ chính xác cụm từ tiếng Pháp "la voiture bleue" sang tiếng Anh "the blue car", xử lý một cách duyên dáng các vị trí tính từ khác nhau.
Cung Cấp Năng Lượng Cho Tìm Kiếm và Tóm Tắt: Đối với các tác vụ như tóm tắt một tài liệu dài hoặc trả lời một câu hỏi về nó, self-attention cho phép một mô hình xác định các câu và khái niệm nổi bật nhất bằng cách hiểu mạng lưới phức tạp các mối quan hệ giữa chúng.
Thúc Đẩy Khoa Học và Y Học: Vượt ra ngoài văn bản, attention được sử dụng để mô hình hóa các tương tác phức tạp trong dữ liệu khoa học. Trong bộ gen, nó có thể mô hình hóa các phụ thuộc giữa các cặp base xa nhau trong một chuỗi DNA. Trong khám phá thuốc, nó giúp dự đoán các tương tác giữa các protein, đẩy nhanh nghiên cứu về các phương pháp điều trị mới.
Cách Mạng Hóa Thị Giác Máy Tính: Với sự ra đời của Vision Transformers (ViT), cơ chế attention hiện là một nền tảng của thị giác máy tính hiện đại. Bằng cách coi một hình ảnh là một chuỗi các mảng, self-attention cho phép một mô hình hiểu các mối quan hệ giữa các phần khác nhau của một hình ảnh, dẫn đến hiệu suất hiện đại trong phân loại hình ảnh và phát hiện đối tượng.

Kết Luận: Tương Lai Là Chú Ý

Hành trình từ khái niệm trực quan về sự tập trung đến việc triển khai thực tế của Multi-Head Attention tiết lộ một cơ chế vừa mạnh mẽ vừa cực kỳ logic. Nó đã cho phép các mô hình AI xử lý thông tin không phải là một chuỗi cứng nhắc, mà là một mạng lưới các mối quan hệ linh hoạt, được kết nối với nhau. Sự thay đổi về quan điểm này, được giới thiệu bởi kiến trúc Transformer, đã mở ra những khả năng chưa từng có trong AI.

Bằng cách hiểu cách triển khai và diễn giải cơ chế attention, bạn đang nắm bắt khối xây dựng cơ bản của AI hiện đại. Khi nghiên cứu tiếp tục phát triển, các biến thể mới và hiệu quả hơn của attention chắc chắn sẽ xuất hiện, nhưng nguyên tắc cốt lõi—tập trung có chọn lọc vào những gì quan trọng nhất—sẽ vẫn là một chủ đề trung tâm trong quá trình tìm kiếm liên tục các hệ thống thông minh và có khả năng hơn.