Zero-shot Prompting | P6

Các mô hình ngôn ngữ lớn (LLMs) hiện nay, như GPT-3.5 Turbo, GPT-4 và Claude 3, được điều chỉnh để tuân theo hướng dẫn và được huấn luyện trên lượng dữ liệu lớn. Việc huấn luyện quy mô lớn này giúp các mô hình có khả năng thực hiện một số nhiệm vụ theo kiểu “zero-shot”, tức là không cần ví dụ minh họa trong hướng dẫn.

Các bạn đã thử một vài ví dụ zero-shot ở những bài học trước. Hãy xem ví dụ về một Prompt phân loại văn bản (text classification) dưới đây:

Prompt:

Phân loại văn bản này thành trung tính, tiêu cực hoặc tích cực.
Văn bản: Tôi nghĩ kỳ nghỉ vẫn ổn
Cảm xúc:

Output:

Cảm xúc: Trung tính

Chú ý rằng trong đoạn prompt trên, mình không cung cấp cho mô hình bất kỳ ví dụ văn bản nào kèm theo phân loại của chúng, nhưng mô hình LLM đã hiểu được “cảm xúc” – đó chính là khả năng zero-shot đang hoạt động.

Instruction tuning đã được chứng minh là giúp cải thiện khả năng học zero-shot (theo giáo sư Wei et al., 2022). Instruction tuning là quá trình tinh chỉnh các mô hình dựa trên các tập dữ liệu được mô tả qua hướng dẫn. Hơn nữa, RLHF (học tăng cường từ phản hồi của con người) đã được áp dụng để mở rộng việc tinh chỉnh hướng dẫn, giúp mô hình phù hợp hơn với sở thích của con người. Sự phát triển mới này đã tạo ra sức mạnh cho các mô hình như ChatGPT. Chúng ta sẽ thảo luận về tất cả các phương pháp và cách tiếp cận này trong các phần tiếp theo.

Khi zero-shot không hiệu quả, người ta khuyến nghị cung cấp các minh họa hoặc ví dụ trong prompt, dẫn đến few-shot prompting. Trong phần tiếp theo, mình sẽ trình bày về few-shot prompting.

Trả lời