(Ngày Nay) - Nếu ngôn ngữ là điều làm nên con người, thì chuyện gì sẽ xảy ra khi các mô hình AI (trí tuệ nhân tạo) bắt đầu có khả năng “tư duy về ngôn ngữ” giống chúng ta?
Trong số vô vàn khả năng của con người, điều gì là đặc trưng nhất? Từ thời Aristotle (pv - nhà triết học và nhà khoa học Hy Lạp cổ đại, là một trong những nhân vật trí thức vĩ đại nhất của lịch sử phương Tây), ngôn ngữ luôn được xem là yếu tố cốt lõi. Ông từng viết rằng con người là “động vật biết nói”. Dù các mô hình ngôn ngữ lớn (LLM - large language models) như ChatGPT có thể mô phỏng lời nói một cách tự nhiên, các nhà nghiên cứu vẫn muốn biết liệu có khía cạnh nào của ngôn ngữ con người hoàn toàn không thể tìm thấy trong hệ thống giao tiếp của loài khác - kể cả máy móc thông minh.
Đặc biệt, họ quan tâm đến việc liệu các mô hình ngôn ngữ có thể lý luận về ngôn ngữ hay không. Với nhiều nhà ngôn ngữ học, câu trả lời là “không thể”. Nhà ngôn ngữ học nổi tiếng Noam Chomsky cùng hai đồng tác giả từng viết trên The New York Times (2023) rằng những lời giải thích đúng đắn về ngôn ngữ vốn phức tạp và không thể học được chỉ bằng cách "ngâm mình" trong dữ liệu lớn (big data). Theo họ, AI có thể sử dụng ngôn ngữ, nhưng không thể phân tích ngôn ngữ một cách thực sự sâu sắc.
![]() |
|
Gašper Beguš (Đại học California, Berkeley) |
Tuy nhiên, quan điểm này vừa bị thách thức trong một công trình nghiên cứu mới của Gašper Beguš (Đại học California, Berkeley), Maksymilian Dąbkowski (tiến sĩ ngôn ngữ học tại Berkeley) và Ryan Rhodes (Đại học Rutgers). Nhóm đã thử nghiệm nhiều mô hình ngôn ngữ lớn qua hàng loạt bài kiểm tra ngôn ngữ học - trong đó có cả yêu cầu mô hình phải tự suy ra quy tắc của một ngôn ngữ giả tưởng. Kết quả: phần lớn các mô hình thất bại, ngoại trừ một mô hình thể hiện năng lực vượt trội. Nó có thể phân tích ngôn ngữ gần như một nghiên cứu sinh ngành ngôn ngữ học - biết sử dụng cây cú pháp (pv - phương pháp vẽ sơ đồ để phân tích và biểu diễn cấu trúc ngữ pháp của một câu), xử lý các câu mơ hồ, và sử dụng cấu trúc phức tạp như đệ quy (pv - một kỹ thuật lập trình trong đó một hàm tự gọi lại chính nó để giải quyết một vấn đề lớn bằng cách chia nó thành các bài toán con nhỏ hơn, giống hệt bài toán ban đầu). Beguš nhận định kết quả này thách thức nhận thức của chúng ta về những gì AI có thể làm được.
Nhà ngôn ngữ học Tom McCoy (Đại học Yale), người không tham gia nghiên cứu, cho rằng đây là một công trình quan trọng và mang tính thời điểm. Ông nói: “Khi xã hội ngày càng phụ thuộc vào công nghệ này, chúng ta cần hiểu rõ nó có thể thành công ở đâu và thất bại ở đâu.” Theo ông, phân tích ngôn ngữ là phép thử hoàn hảo để xem liệu AI có thể lý luận như con người hay không.
Độ phức tạp vô hạn
Một thách thức lớn trong việc kiểm tra ngôn ngữ học với AI là đảm bảo mô hình chưa từng biết trước câu trả lời. Các LLM được huấn luyện bằng khối lượng văn bản khổng lồ - từ internet cho đến sách giáo trình. Chúng có thể chỉ đơn giản là “học vẹt”.
Để tránh điều đó, Beguš và cộng sự tạo ra một bộ kiểm tra bốn phần, trong đó ba phần yêu cầu mô hình phân tích câu bằng sơ đồ cây cú pháp (theo phong cách cuốn Syntactic Structures của Chomsky năm 1957). Những sơ đồ này phân tách câu thành các cụm danh từ và cụm động từ, sau đó tiếp tục chia nhỏ thành các thành phần như danh từ, động từ, tính từ, trạng từ, giới từ, liên từ, và các loại từ khác.
Một phần kiểm tra xoay quanh đệ quy — khả năng lồng các mệnh đề vào nhau. Ví dụ: “Trời xanh” là câu đơn giản. “Jane nói rằng trời xanh” phức tạp hơn. Và “Maria tự hỏi liệu Sam có biết rằng Omar nghe Jane nói rằng trời xanh” là một chuỗi đệ quy dài, vẫn đúng ngữ pháp.
Chomsky và nhiều học giả khác xem đệ quy là một trong những đặc điểm cốt lõi của ngôn ngữ con người — thậm chí có thể nói là đặc trưng của tư duy con người. Các nhà ngôn ngữ học cho rằng khả năng vô hạn của đệ quy chính là điều giúp ngôn ngữ loài người có thể tạo ra vô số câu khác nhau chỉ từ một vốn từ hữu hạn và một tập hợp quy tắc giới hạn.
Cho đến nay, vẫn chưa có bằng chứng thuyết phục nào cho thấy các loài vật khác có thể sử dụng đệ quy một cách phức tạp như con người.
Đệ quy có thể xuất hiện ở đầu hoặc cuối câu, nhưng hình thức khó nắm bắt nhất — gọi là đệ quy trung tâm (center embedding) — lại nằm ở giữa câu. Ví dụ, từ câu đơn giản “the cat died” (con mèo chết), có thể mở rộng thành “the cat the dog bit died” (con mèo mà con chó cắn đã chết) — một dạng đệ quy khiến cấu trúc ngữ pháp trở nên phức tạp hơn nhiều.
Trong bài kiểm tra, nhóm nghiên cứu đưa vào 30 câu chứa cấu trúc đệ quy khó. OpenAI’s o1 đã phân tích đúng cấu trúc của câu và thậm chí tự thêm một lớp đệ quy mới, khiến nhóm nghiên cứu bất ngờ. Beguš cùng các đồng nghiệp không ngờ rằng nghiên cứu này lại phát hiện ra một mô hình AI có năng lực “siêu ngôn ngữ” ở mức cao hơn — tức là “không chỉ biết sử dụng ngôn ngữ mà còn có khả năng suy nghĩ về chính ngôn ngữ đó,” như cách ông diễn tả.
Đó là một trong những điểm “gây chú ý” của công trình này — theo lời David Mortensen, nhà ngôn ngữ học máy tính tại Đại học Carnegie Mellon, người không tham gia nghiên cứu.
Ông cho biết, lâu nay vẫn có nhiều tranh luận về việc liệu các mô hình ngôn ngữ có thực sự hiểu ngôn ngữ hay chỉ đơn thuần dự đoán từ tiếp theo (hoặc đơn vị ngôn ngữ tiếp theo) trong câu — điều vốn rất khác so với khả năng hiểu sâu ngôn ngữ của con người.
Tom McCoy cho biết ông đặc biệt ngạc nhiên trước khả năng của mô hình nhận diện nghĩa mơ hồ - điều mà các mô hình máy tính thường thất bại. Ví dụ: “Rowan fed his pet chicken” có thể hiểu là Rowan cho con gà cưng ăn, hoặc cho thú cưng ăn thịt gà. Mô hình o1 đã tạo ra hai cây cú pháp khác nhau tương ứng với hai cách hiểu này.
Các nhà nghiên cứu cũng tiến hành những thí nghiệm liên quan đến ngữ âm học - ngành nghiên cứu về quy luật của âm thanh và cách các đơn vị âm nhỏ nhất, gọi là âm vị (phoneme), được tổ chức.
Để nói trôi chảy như người bản ngữ, con người tuân theo những quy tắc ngữ âm mà họ có thể đã học được thông qua thực hành, dù chưa bao giờ được dạy một cách rõ ràng.
Ví dụ, trong tiếng Anh, khi thêm “s” vào một từ kết thúc bằng “g”, âm này thường biến thành âm “z”, như trong từ dogs. Nhưng nếu thêm “s” vào một từ kết thúc bằng “t”, nó lại giữ âm “s” thông thường, như trong từ cats.
Trong bài kiểm tra về ngữ âm học, nhóm nghiên cứu đã tạo ra 30 “ngôn ngữ nhỏ” mới — như cách Beguš gọi - để xem liệu các mô hình LLM có thể tự suy luận ra quy tắc ngữ âm mà không cần bất kỳ kiến thức nền nào hay không.
Mỗi ngôn ngữ bao gồm 40 từ do nhóm sáng tạo ra, ví dụ như: θalp, ʃebre, ði̤zṳ, ga̤rbo̤nda̤, ʒi̤zṳðe̤jo.
Sau đó, họ yêu cầu các mô hình ngôn ngữ phân tích các quy luật ngữ âm của từng ngôn ngữ. Với ngôn ngữ này, mô hình o1 đã trả lời chính xác rằng: “Một nguyên âm sẽ trở thành nguyên âm thở (breathy vowel) khi ngay trước nó là một phụ âm vừa hữu thanh vừa là âm tắc (obstruent)” - tức loại âm được tạo ra bằng cách chặn luồng khí thoát ra, như âm “t” trong từ top.
Vì đây đều là những ngôn ngữ mới được sáng tạo, không có khả năng o1 từng được tiếp xúc trong quá trình huấn luyện. “Tôi không ngờ kết quả lại mạnh mẽ và ấn tượng đến vậy,” Mortensen chia sẻ.
Con người có còn độc nhất?
Liệu các mô hình ngôn ngữ có thể tiến xa hơn nữa - chỉ bằng cách tăng sức mạnh tính toán và dữ liệu huấn luyện? Hay ngôn ngữ con người vẫn chứa những yếu tố tiến hóa chỉ riêng loài người có?
Hiện tại, các mô hình có thể thực hiện phân tích ngôn ngữ phức tạp, nhưng chưa tạo ra khám phá ngôn ngữ học mới hay ý tưởng độc đáo nào.
Beguš cho rằng nếu chỉ cần nhiều dữ liệu và sức mạnh hơn, AI có thể vượt con người trong kỹ năng ngôn ngữ. Ngược lại, Mortensen lưu ý rằng mô hình hiện nay vẫn bị giới hạn vì chỉ được huấn luyện để dự đoán từ tiếp theo, chứ chưa thể tổng quát hóa một cách sáng tạo như con người.
Tuy nhiên, ông cũng tin rằng điều đó chỉ là vấn đề thời gian: “Sớm muộn gì chúng ta cũng sẽ tạo ra những mô hình có thể học sáng tạo hơn từ ít dữ liệu hơn.”
Beguš kết luận rằng kết quả này đang dần bào mòn niềm tin rằng ngôn ngữ là lĩnh vực độc quyền của con người: "Có vẻ như chúng ta không còn đặc biệt như chúng ta từng nghĩ.”
Biên dịch: Việt Hà & Quỳnh Hoa
Theo Quanta Magazine
