Google translate – Ứng dụng của trí tuệ nhân tạo


Công nghệ xử lý tự nhiên(Natural Language Processing) và công nghệ học sâu (Deep Learning) đang phát triển càng ngày càng mạnh mẽ. Nhân chuyến thăm của ông Keith Stevens – kỹ sư trưởng của Google Translate đã có buổi chia sẻ chuyên sâu đối với cộng đồng công nghệ về xu hướng đang hot này.

Trong buổi chia sẻ này, Keith đã giới thiệu mô hình xây dựng Google Translate dựa trên nền tảng công nghệ học sâu (Deep Learning) và quá trình xử lý ngôn ngữ tự nhiên (Natural Language Processing). Kĩ sư trưởng của Google Translate cũng chia sẻ những ứng dụng thực tế khác của nền tảng công nghệ này, đồng thời giới thiệu các dự án tiềm năng phát triển trong tương lai của Google Translate.

Google Translate đã trở thành một trong những công cụ dịch thuật nhanh chóng và khá là hiệu quả kể từ khi ra mắt cách đây một thập kỷ .

Vậy Google Translate đã hoạt động dựa trên 2 nền tảng công nghệ học sâu (Deep Learning) và quá trình xử lý ngôn ngữ tự nhiên (Natural Language Processing) như thế nào ?

Đầu tiên để trở thành công cụ dịch thuật số một thế giới, Google đã là một trong số những hãng đi đầu trong việc công khai và sử dụng công nghệ xử lý tự nhiên để áp dụng cho công cụ dịch thuật của mình, công nghệ đó đã được Google gọi là neural machine translation (công nghệ được thiết kế mô phỏng theo mô hình kết nối nơron thần kinh trong não của con người và được Google dùng để dịch ngôn ngữ)

Vào tháng 9/2016 vừa qua, Google tuyên bố đã cải tiến mạnh mẽ cho công cụ dịch thuật này, áp dụng công nghệ Google Neural Machine Translation – GNMT hệ thống máy học do Google phát triển mới nhất chuyên về dịch thuật. Tuy nhiên, hệ thống máy học này hiện tại chỉ được áp dụng cho ngôn ngữ Trung Quốc, trong tương lai không xa sẽ được mở rộng sang các ngôn ngữ phổ biến khác.

Kỹ thuật đơn giản nhất của dịch thuật mà bất cứ hệ thống nào cũng có thể làm được là cách dịch word-by-word: tìm nghĩa của từng từ muốn dịch, sau đó đổi nó với từ tương đương nghĩa của ngôn ngữ khác. Phương pháp dịch word-by-word sẽ khiến ngữ nghĩa của câu có thể bị biến đổi hoàn toàn, nhưng phần nào vẫn có thể truyền đạt được tối thiểu một số ý chính.

GNMT sẽ phân tích ngữ nghĩa cả câu/cụm câu chứ không sử dụng cách dịch word-by-word, nhưng nó vẫn phân tích câu ra thành từng chữ. Có thể hiểu cơ chế dịch của GNMT khi con người thường xem ngữ nghĩa của một câu trước tách chúng ra thành nhiều phần nhỏ để dịch. Hệ thống mạng nơ-ron ảo đã được huấn luyện để phân tích hình ảnh/vật thể theo cách của con người, và cả trong việc dịch thuật ngôn ngữ.

Quá trình dịch thuật của Google sẽ diễn ra như bên dưới:

Đầu tiên người dùng sẽ điền câu cần dịch vào –> PBMT (hệ thống sẽ dịch theo từng cụm câu) –> sử dụng công nghệ GNMT cho ra câu gần nghĩa với câu của con người dịch nhất

Ví dụ 1 câu đơn giản như sau:
Người dùng cần dịch câu sau từ tiếng Việt sang tiếng Anh: Một thứ tiếng thì không bao giờ đủ
Google sẽ dịch từng cụm câu (Phrase Translation-PBMT) của câu này ra như bảng dưới, ứng với từng cụm câu Google sẽ đưa ra các kết quả dịch theo nghĩa tương ứng và sát với ngữ cảnh cả câu nhất, ví dụ các cụm từ mà Google có thể dịch và đưa ra, trong thực tế số lượng từ mà Google đưa ra cho mỗi cụm câu là khá nhiều.

Kết quả trả về khi qua hệ thống GNMT sẽ ra như sau:

One Language is never enough

Do hiện tại công nghệ GNMT này chỉ mới hỗ trợ cho ngôn ngữ Trung Quốc, do đó khi các bạn test dịch thử sang ngôn ngữ tiếng Việt thì sẽ ra kết quả là “A language is never enough”, từ đó có thể xác định được khi nào GNMT áp dụng cho ngôn ngữ tiếng Việt thì sẽ có kết quả dịch thuật đúng như trên:  “One Language is never enough

Google đã viết trên trang blog của mình: “Theo đánh giá, GNMT đã giảm 60% lỗi dịch thuật so với các hệ thống dịch trước đó. Nhóm làm việc Google Brain cũng khẳng định lỗi dịch thuật đã giảm từ 55-85% và tùy vào ngôn ngữ.

Có thể nói qua các ứng dụng và cải tiến mới nhất của Google cho thấy  được một điều: “Chất lượng dịch thuật của GNMT đã ngày càng đạt được độ chính xác của con người.”