Что тебе нужно знать
- Во время Google I/O 2022 Google объявил, что Google Translate будет поддерживать 24 новых языка.
- Это первый раз, когда в Translate поддерживаются языки коренных народов Америки или диалект английского языка.
- Google обычно использует двуязычное обучение для перевода языков, но для этих новых языков использовал одноязычное обучение.
- Всего в Google Translate теперь поддерживается 133 языка.
Сегодня, во время Google IO 2022 С основным докладом генеральный директор Google Сундар Пичаи объявил, что компания добавит 24 новых языка в Google I/O, ориентируясь на языки, которые «сегодня недостаточно представлены в Интернете».
«Больше людей используют Google Translate, чем когда-либо прежде, но нам еще многое предстоит сделать, чтобы сделать его общедоступным», — сказал Пичаи.
Google Translate обычно полагается на «двуязычное обучение» для перевода текста, сравнивая фразы на двух языках для правильного перевода разных фраз. Но из-за того, что в этих новых языках меньше текста, в который может вникнуть ИИ Google, ему пришлось полагаться на «одноязычный язык». обучение», где «модель учится переводить новый язык, даже не видя его перевода данных».
Перечисленные ниже 24 языка охватывают около 310 миллионов человек по всему миру и включают в себя три языка коренных народов Америка (кечуа, гуарани и аймара) и английский диалект (сьерра-леонский крио), все из которых являются первыми для Google. Переводить.
- Ассамский язык, которым пользуются около 25 миллионов человек в Северо-Восточной Индии.
- Аймара, которым пользуются около двух миллионов человек в Боливии, Чили и Перу.
- Бамбара, которым пользуются около 14 миллионов человек в Мали.
- Бходжпури, которым пользуются около 50 миллионов человек в северной Индии, Непале и Фиджи.
- Дивехи, которым пользуются около 300 000 человек на Мальдивах.
- Догри, которым пользуются около трех миллионов человек в северной Индии.
- Овца, которую используют около семи миллионов человек в Гане и Того.
- Гуарани, которым пользуются около семи миллионов человек в Парагвае и Боливии, Аргентине и Бразилии.
- Илокано, которым пользуются около 10 миллионов человек на севере Филиппин.
- Конкани, которым пользуются около двух миллионов человек в Центральной Индии.
- Krio, которым пользуются около четырех миллионов человек в Сьерра-Леоне.
- Курдский ( сорани ), которым пользуются около восьми миллионов человек, в основном в Ираке.
- Лингала, которым пользуются около 45 миллионов человек в Демократической Республике Конго, Республике Конго, Центральноафриканской Республике, Анголе и Республике Южный Судан.
- Луганда, которым пользуются около 20 миллионов человек в Уганде и Руанде.
- Майтхили, которым пользуются около 34 миллионов человек в северной Индии.
- Мейтейлон (Манипури), которым пользуются около двух миллионов человек на северо-востоке Индии.
- Мизо, которым пользуются около 830 000 человек в Северо-Восточной Индии.
- Оромо, которым пользуются около 37 миллионов человек в Эфиопии и Кении.
- Кечуа, которым пользуются около 10 миллионов человек в Перу, Боливии, Эквадоре и соседних странах.
- Санскрит, которым пользуются около 20 000 человек в Индии.
- Сепеди, которым пользуются около 14 миллионов человек в Южной Африке.
- Тигринья, которую используют около восьми миллионов человек в Эритрее и Эфиопии.
- Цонга, которым пользуются около семи миллионов человек в Эсватини, Мозамбике, Южной Африке и Зимбабве.
- Twi, которым пользуются около 11 миллионов человек в Гане.
Исаак Касвелл и Анкур Бапна, ученые-исследователи Google Translate, написали технический пост для Блог Google AI подробно описывая, как работают их новые инструменты одноязычного перевода или «перевода с нулевыми ресурсами». Это технически сложно, но объясняет, как Google создал наборы данных для 1138 языков, чтобы «изучить представления языков с ограниченными ресурсами непосредственно из одноязычного текста».
Google Translate прошел долгий путь за последние несколько лет. Недавние пиксели, такие как Пиксель 6 может Живой перевод произносимые слова или текст, просматриваемый через камеру, на десятках языков. Сейчас, Android-телефоны станет более полезным для сообществ по всему миру, которые исторически остались позади технологий, ориентированных всего на несколько языков.
В других новостях Google IO, связанных с языками, Пичаи отметил, что автоматически генерируемые субтитры YouTube теперь доступны на 16 языках.