Cách học tự giám sát cách mạng hóa xử lý ngôn ngữ tự nhiên và AI tạo sinh (Generative AI)

10 tháng 7 năm 2025
nhinh9@fpt.com

TL;DR: Học tự giám sát là một bước tiến then chốt trong học sâu, được áp dụng rộng rãi trong nhiều lĩnh vực. Nói đơn giản, ý tưởng là đào tạo mô hình trên dữ liệu thô/chưa gắn nhãn bằng cách che đi và dự đoán các phần dữ liệu ấy. Bằng cách này, các “nhãn” thực tế mà mô hình học để dự đoán đã nằm sẵn trong dữ liệu và không cần con người chú thích.


Các loại học máy


Mô hình học máy có thể được huấn luyện theo nhiều cách khác nhau. Ví dụ, học có giám sát (supervised learning) huấn luyện mô hình trên cặp dữ liệu đầu vào và nhãn đầu ra (thường do con người chú thích). Mô hình học dự đoán nhãn đầu được giám sát (supervised learning), tức là mô hình dự đoán nhờ được cung cấp ví dụ đầu vào kèm nhãn đúng). Ngược lại, học không giám sát (unsupervised learning) không sử dụng nhãn đầu ra mà tự phát hiện các xu hướng tiềm ẩn trong dữ liệu đầu vào (ví dụ như tạo các cụm – clustering).

 

Định nghĩa về học tự giám sát


Học tự giám sát nằm giữa học có giám sát và không giám sát. Cụ thể, chúng ta huấn luyện mô hình trên cặp dữ liệu đầu vào và nhãn đầu ra, nhưng không cần con người chú thích nhãn - nhãn đã có sẵn tự nhiên trong dữ liệu thô. Để hiểu rõ hơn, chúng ta hãy xem xét một số mục tiêu học tự giám sát thường được sử dụng.


Ví dụ mục tiêu học tự giám sát


(1) Bài toán Cloze, hay còn gọi là Masked Language Modeling - MLM. Ở đây, mô hình ngôn ngữ nhận một chuỗi token văn bản (một câu) làm đầu vào. Để huấn luyện, ta che (thay bằng token đặc biệt “mask”) khoảng 10% token trong câu và huấn luyện mô hình dự đoán các token bị che này. Với cách này, mô hình có thể học trên một tập văn bản chưa gắn nhãn, vì “nhãn” cần dự đoán chính là những token vốn đã có sẵn trong văn bản. Mục tiêu này được sử dụng để tiền huấn luyện các mô hình như BERT và T5.


(2) Dự đoán token tiếp theo là công việc cốt lõi của các mô hình ngôn ngữ tạo sinh thuộc thế hệ hiện đại như ChatGPT và PaLM. Sau khi tải về một lượng lớn dữ liệu văn bản thô từ internet, ta lặp đi lặp lại hai bước: i) trích lấy một chuỗi văn bản và ii) huấn luyện mô hình dự đoán token tiếp theo dựa trên các token trước đó trong chuỗi. Quá trình này được thực hiện lặp đi lặp lại trên các phân đoạn văn bản, mỗi lần mô hình dự đoán token kế tiếp dựa trên ngữ cảnh trước đó. Một lần nữa, tất cả các “nhãn” mà mô hình học để dự đoán đã nằm trong dữ liệu văn bản thô. Việc tiền huấn luyện (và tinh chỉnh) qua dự đoán token tiếp theo được sử dụng phổ quát ở mọi mô hình ngôn ngữ tạo sinh hiện nay.


Các lựa chọn khác


Mặc dù Cloze và dự đoán token tiếp theo là hai mục tiêu học tự giám sát phổ biến nhất trong huấn luyện mô hình ngôn ngữ, vẫn còn nhiều ví dụ khác. Ví dụ, với mô hình học sâu trên video, có thể dùng mục tiêu như dự đoán khung hình tiếp theo. Mô hình BERT cũng sử dụng một mục tiêu tự giám sát khác là dự đoán câu tiếp theo.


Như vậy, học tự giám sát đã mở ra khả năng huấn luyện mô hình trên dữ liệu thô khổng lồ mà không cần con người gắn nhãn, giúp mô hình thu nhận được hiểu biết sâu sắc về ngôn ngữ và các cấu trúc dữ liệu. Đây là yếu tố then chốt dẫn tới sự phát triển đột phá của xử lý ngôn ngữ tự nhiên và AI sinh tạo.




📌 Nguồn: StackOverFlow.