Nguyễn Huy Hoàng

the star is fading

Arthur Goldhammer: Về những rủi ro của dịch máy


Swann's Way.jpg

Nguồn: Arthur Goldhammer, “Shitloads and zingers: on the perils of machine translation,” Aeon, 21 November, 2016.

Biên dịch: Nguyễn Huy Hoàng

Nhiều năm trước, trên một chuyến bay từ Amsterdam về Boston, hai nữ tu người Mỹ ngồi bên phải tôi nói chuyện với một chàng trai trẻ ăn nói hoạt bát người Hà Lan đến khám phá nước Mỹ. Anh ta hỏi hai nữ tu từ đâu đến. Than ôi, Framingham, Massachusetts không nằm trên hành trình của anh, nhưng, anh nói, anh có “shitloads of time and would be visiting shitloads of other places” [hàng đống thời gian và sẽ thăm hàng đống nơi].

Chàng trai trẻ vui vẻ người Hà Lan có vẻ tưởng rằng “shitloads” là một từ đồng nghĩa đầy màu sắc cho từ “lots” nhạt nhẽo. Anh thành thạo cú pháp tiếng Anh và có vốn từ khá rộng nhưng thiếu kinh nghiệm về những từ ngữ phù hợp trong các bối cảnh xã hội.

Ký ức này trở lại với tin tức gần đây rằng Google Translate sẽ chuyển từ hệ thống dựa trên cơ sở cụm từ sang một mạng lưới thần kinh [nhân tạo]. (Những khác biệt kỹ thuật được mô tả ở đây.) Cả hai phương pháp đều dựa trên đào tạo cỗ máy có một “corpus” [kho ngữ liệu] gồm các cặp câu: một bản gốc và một bản dịch. Máy tính sẽ tạo ra các quy tắc suy luận, dựa trên trình tự từ trong văn bản gốc, trình tự từ khả dĩ nhất từ ngôn ngữ đích.

Phương pháp ở đây là một thực hành ghép mô hình. Các thuật toán ghép mô hình tương tự được dùng để diễn giải các âm tiết khi ta bảo điện thoại “navigate to Brookline” hoặc khi một ứng dụng ảnh tag gương mặt của bạn bè. Cỗ máy không “hiểu” gương mặt hay địa điểm; nó đưa chúng về các vector hoặc số, rồi xử lý chúng.

Tôi là một dịch giả chuyên nghiệp, đã dịch khoảng 125 cuốn sách tiếng Pháp. Do vậy người ta có thể nghĩ tôi sẽ nổi giận với tuyên bố của Google rằng công cụ dịch mới gần như có chất lượng như một dịch giả con người, đạt 5,0 trên thang điểm từ 0 đến 6, trong khi con người đạt trung bình 5,1. Nhưng tôi cũng là một tiến sĩ toán từng phát triển các phần mềm “đọc” báo châu Âu trong bốn thứ tiếng và phân loại kết quả theo chủ đề. Vậy nên thay vì phản ứng với khả năng bị dịch giả máy thay thế, tôi nhận thức được những kỳ công đáng chú ý mà máy làm được, và rất ngưỡng mộ sự phức tạp và điêu luyện về kỹ thuật của công trình của Google.

Tuy nhiên, sự ngưỡng mộ ấy không che mờ mắt tôi trước những thiếu sót của bản dịch máy. Hãy nghĩ về chàng trai người Hà Lan, biết “shitloads” về tiếng Anh. Sự lưu thoát của anh ta chứng minh rằng “wetware” – mạng lưới thần kinh sống – của anh ta được đào tạo đủ tốt để trực cảm những quy tắc (và ngoại lệ) tinh vi khiến ngôn ngữ được tự nhiên. Mặt khác, các ngôn ngữ máy thì có ngữ pháp ngoài bối cảnh. Tuy nhiên, chàng trai người Hà Lan thiếu kinh nghiệm xã hội với tiếng Anh để nắm bắt những quy tắc tinh vi hơn vốn định hình ngôn từ, giọng điệu, và cấu trúc của người bản xứ. Người bản xứ có thể chọn phá vỡ những quy tắc này để đạt được những hiệu ứng nhất định. Nếu tôi nói “shitloads of places” thay vì “lots of places” với hai nữ tu kia, tôi sẽ có ý gì đó. Chàng trai Hà Lan tạo nên nét khôi hài vô ý.

Công cụ dịch của Google được “đào tạo” trên phạm vi các corpus từ các nguồn tin tức đến Wikipedia. Mô tả cơ bản của mỗi corpus là chỉ dấu duy nhất về bối cảnh mà nó phát sinh. Từ những thông tin ít ỏi như vậy rất khó để suy ra sự phù hợp hay không phù hợp của một từ như “shitloads.” Nếu dịch sang tiếng Pháp, máy dịch có thể dự đoán một từ tương đương ổn như beaucoup hay plusieurs. Điều này có thể truyền đạt ý nghĩa của câu nói nhưng không truyền đạt được nét khôi hài, vốn phụ thuộc vào từ “shitloads” mang đặc điểm xã hội với từ “plusieurs” trung tính. Dù phức tạp thế nào thì thuật toán vẫn phải phụ thuộc vào thông tin được cung cấp, và những đầu mối về bối cảnh, đặc biệt là bối cảnh xã hội, thì vô cùng khó truyền đạt bằng code.

Lấy ví dụ cụm petite phrase trong tiếng Pháp. Phrase có thể mang nghĩa sentence hoặc phrase trong tiếng Anh. Khi Marcel Proust dùng nó trong bối cảnh âm nhạc trong tiểu thuyết À la recherche du temps perdu (1913–27), trong dòng “la petite phrase de Vinteuil” nó phải là phrase, vì sentence thì không có nghĩa. Google Translate (hệ thống dựa trên cụm từ cũ; mạng lưới thần kinh mới mới chỉ có tiếng Quan thoại) dịch cụm này tương đối tốt. Nếu petite phrase đứng một mình, nó sẽ ra short sentence. Nếu để la petite phrase de Vinteuil (Vinteuil là tên một nhân vật nhà soạn nhạc), nó ra Vinteuil’s little phrase, giống các bản dịch Proust được xuất bản. Nhưng nếu để la petite phrase de Sarkozy, nó ra little phrase Sarkozy thay vì đúng phải là Sarkozy’s zinger – vì trong bối cảnh chính trị với chỉ dấu là tên cựu tổng thống, une petite phrase là một nhận xét gai góc nhằm vào đối thủ chính trị – một zinger thay vì musical phrase. Nhưng cái tên Sarkozy xuất hiện trong rất nhiều câu mà công cụ thống kê không ghi lại đúng – rồi kết hợp lỗi này với một lỗi văn phạm không may.

Vấn đề, như với mọi nỗ lực trước đây nhằm tạo ra trí tuệ nhân tạo (AI) ngày tôi là sinh viên ở MIT, là trí tuệ thì vô cùng phức tạp. Có trí tuệ không đơn thuần là có khả năng suy luận một cách logic từ các quy tắc hoặc một cách thống kê từ các quy luật. Trước đó, ta phải biết quy tắc nào được áp dụng, một nghệ thuật đòi hỏi nhận thức về sự nhạy cảm với tình huống. Các lập trình viên rất thông minh, nhưng chưa đủ thông minh để dự đoán sự đa dạng của những bối cảnh mà từ đó ý nghĩa sinh ra. Do đó ngay cả những thuật toán tốt nhất vẫn bỏ lỡ nhiều điều – và như Henry James nói, dịch giả lý tưởng phải là người mà “qua họ không gì mất mát.”

Nói như vậy không phải dịch máy thì không hữu dụng. Nhiều công việc dịch thuật thường tầm thường. Đôi lúc, máy móc có thể làm một công việc phù hợp. Tuy nhiên, đừng mong chờ phép lạ, hay những bản dịch văn học tài tình, hay những câu nói chính trị được truyền đạt khéo léo. Những tuyên bố quá tự tin đã đeo bám AI từ những ngày đầu tiên. Tôi không nói thế vì lo cho công việc của mình: tôi đã nghỉ dịch và dành một phần thời gian bây giờ để… viết code. ♦

Arthur Goldhammer là một học giả và dịch giả người Mỹ. Ông đã dịch hơn 120 cuốn sách tiếng Pháp, trong đó có Democracy in America của Tocqueville và Capital in the 21st Century của Thomas Piketty.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Information

This entry was posted on November 22, 2016 by in Dịch thuật, Đổi mới & Công nghệ and tagged .

Categories

Archives

Enter your email address to follow this blog and receive notifications of new posts by email.

Join 2,568 other followers

%d bloggers like this: