Microsoft AI có khả năng dịch thuật Trung - Anh như con người

Chia sẻ
Đội ngũ chuyên gia nghiên cứu của Microsoft đã tạo ra hệ thống dịch tự động đầu tiên có thể dịch báo từ tiếng Trung sang tiếng Anh với chất lượng và độ chính xác như con người.
Microsoft AI có khả năng dịch thuật Trung - Anh như con người ảnh 1
Xuedong Huang, nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch tự động của Microsoft.

Những nhà nghiên cứu tại phòng nghiên cứu ở Mỹ và Châu Á cho biết hệ thống của họ đã đạt được sự tương đồng với con người khi thực hiện chương trình kiểm tra các bài báo có tên gọi newstest2017, được phát triển bởi một nhóm đối tác công nghệ và giáo dục, ra mắt tại hội nghị nghiên cứu WMT17 vào mùa thu năm ngoái. Để đảm bảo kết quả chính xác và tương đương với những gì con người làm được, nhóm đã tuyển vào hai chuyên viên đánh giá song ngữ nhằm so sánh kết quả của Microsoft với phần dịch thuật của hai người dịch độc lập.

Xuedong Huang, nhà nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch thuật tự động của Microsoft, gọi đây là một cột mốc quan trọng của một trong những quy trình xử lý ngôn ngữ tự nhiên phức tạp nhất. Huang cũng là người dẫn đầu nhóm nghiên cứu gần đây đạt được hiệu quả nhận diện giọng nói hội thoại tương đồng như con người. Dịch tự động là một vấn đề mà các nhà chuyên gia đã nghiên cứu hàng thập kỷ, và hầu hết thời gian đó, nhiều người tin việc tương đương với con người là không bao giờ đạt được. Tuy nhiên, đạt được cột mốc này không có nghĩa là những thách thức của việc dịch tự động đã được giải quyết.

Microsoft AI có khả năng dịch thuật Trung - Anh như con người ảnh 2

Arul Menezes, Giám đốc quản lý đối tác nghiên cứu của nhóm dịch tự động của Microsoft.

Học kép, hệ thống cân nhắc, đào tạo chung và quy tắc hóa thỏa thuận

Mặc dù các chuyên gia công nghệ và giáo dục đã nghiên cứu dịch thuật nhiều năm, chỉ mới gần đây, khi áp dụng phương thức đào tạo hệ thống AI mới, gọi là hệ thống thần kinh chuyên sâu (deep neural networks), họ mới đạt được cột mốc quan trọng này. Phương thức này giúp họ tạo nên những dịch thuật trôi chảy, tự nhiên hơn, bao gồm ngoại cảnh rộng hơn phương pháp dịch tự động trước đây.

 

Để đạt được sự tương đồng trên bộ dữ liệu này, ba nhóm nghiên cứu của Microsoft Bắc Kinh, Redmond, Washington đã làm việc cùng nhau, bổ sung các phương pháp đào tạo mới giúp hệ thống dịch thuật trôi chảy và chính xác hơn. Trong nhiều trường hợp, những phương pháp mới bắt chước cách con người học việc bằng cách lặp đi lặp lại, thực hiện nhiều lần đến khi làm được.

 

Một phương pháp mà họ sử dụng là học kép. Đây là cách kiểm tra thực tế kết quả làm việc của hệ thống: Mỗi lần họ gửi một câu qua hệ thống để được dịch từ tiếng Trung sang tiếng Anh, nhóm nghiên cứu cũng dịch ngược lại từ tiếng Anh sang tiếng Trung, đảm bảo độ chính xác của việc dịch thuật tự động, đồng thời cho phép hệ thống tái xác định và học hỏi từ lỗi sai. Học kép được phát triển bởi nhóm nghiên cứu của Microsoft cũng được áp dụng để cải thiện kết quả của các công việc AI khác. Một phương pháp khác được gọi là hệ thống cân nhắc (deliberation networks), tương tự với cách con người hiệu chỉnh và sửa phần viết của mình bằng cách đọc đi đọc lại nhiều lần. Những nhà nghiên cứu dạy cho hệ thống lặp lại quy trình dịch cùng một câu nhiều lần, từ đó dần hiệu chỉnh và cải thiện dịch thuật.

 

Kỹ thuật gọi là đào tạo kết hợp, được sử dụng để liên tục thức đẩy các hệ thống dịch tiếng Anh sang Trung và ngược lại. Với phương pháp này, hệ thống dịch Anh - Trung thực hiện dịch câu tiếng Anh sang Trung để có được một cặp câu. Sau đó chúng được bổ sung vào bộ dữ liệu đào tạo, dịch ngược lại từ tiếng Trung sang Anh. Quy trình giống y sau đó được áp dụng, khi đó, kết quả dịch của hai hệ thống cải thiện hơn. Một kỹ thuật khác gọi là quy tắc hóa thỏa thuận. Với phương pháp này, dịch thuật được thực hiện từ trái sang phải và phải sang trái. Nếu kết quả giống nhau, độ chính xác được đánh giá cao hơn khi có sự khác biệt trong hai kết quả. Phương pháp này dùng để khuyến khích hệ thống đưa ra các mẫu dịch tương đồng hơn.

 

Bộ tài liệu kiểm tra mà nhóm đã dùng để đạt được mốc tương đương với con người này gồm khoảng 2,000 câu đến từ các báo mạng đã được dịch chuyên nghiệp. Phương pháp xác nhận kết quả phần nào cho thấy sự phức tạp của việc dạy cho hệ thống dịch thuật chính xác. Với các nhiệm vụ như nhận diện giọng nói, khá dễ dàng để có thể đánh giá hệ thống có làm tốt như người không, bởi vì kết quả lý tưởng sẽ là sự giống nhau giữa người và máy. Các nhà nghiên cứu gọi đây là việc nhận diện khuôn mẫu (pattern recognition task).

 

Không ai biết được hệ thống dịch tự động sẽ có thể làm tốt việc dịch bất cứ từ ngữ của bất kỳ ngôn ngữ nào chính xác và cường điệu được như con người dịch hay không. Nhưng những phát minh gần đây cho thấy các nhóm có thể tiếp tục thực hiện các bước tiến xa hơn để đạt được mục tiêu đó và các thành tựu AI khác, như đạt được sự tương đồng với con người trong dịch đuổi.

Sang Smith

Tin liên quan

Chia sẻ

Bạn đọc bình luận

Vui lòng nhập tiếng Việt có dấu
Nhập mã bảo mật (*)    Refresh

Cùng chuyên mục