30 сентября в онлайн-архиве научных статей arXiv.org появилась публикация о том, насколько точно большие языковые модели отвечают на вопросы, сформулированные на разных языках.

Использовались 26 языков, от самых распространенных до довольно экзотических (во всяком случае для Интернета). Вот их список с данными по числу «пользователей» и по представительству в сети, измеренному через количество статей в «Википедии».

В качестве подопытных нейросетей были выбраны Llama (от известной экстремистской организации Meta), Qwen (от мирной китайской компании Alibaba), Gemini (Google) и OpenAI.

Для тестирования составлялись специальные промты на 26 языках, в большинстве представляющие собой задачи типа «иголка в стоге сена»: от ИИ требовалось найти данные, спрятанные в длинном тексте. Русскую словесность в исследовании достойно представила «Война и мир» Льва Толстого. Этот «наборов слов» оказался самым большим. Впрочем, для тестов брались равновеликие отрывки объемом по 8000, 32 000, 64 000 и 128 000 токенов, единиц, на которые нейросеть разбивает текст в процессе анализа. Чаще всего токены напоминают слоги.

Результат, на первый взгляд, получился сенсационный.

Вот как его формулируют авторы статьи: «Английский и китайский доминируют в обучающих данных большинства современных языковых моделей, и поэтому можно было ожидать, что именно они окажутся лучшими. Однако при длинах контекста 64K и 128K мы неожиданно наблюдаем, что польский язык показывает лучшие результаты в задачах типа «иголка в стоге сена» – со средней точностью 88% по всем моделям. Английский при этом занимает лишь 6-е место из 26 со средней точностью 83,9%. Ещё удивительнее то, что китайский оказывается четвертым с конца – его средняя точность составляет 62,1%».

Поскольку сразу вслед за польским разместился русский язык, Рунет взорвался статьями о том, что с ИИ надо говорить на великом и могучем, который оказался более понятным нейросетям, чем язык Шекспира, Гейтса и прочих Вильямов. А происходит это потому, что особенности морфологии, синтаксиса и наличие падежей, от которых рыдают иностранцы, с точки зрения ИИ уменьшают двусмысленность выражаемых по-русски мыслей.

Повод для законной гордости, конечно, есть. Но необходимы некоторые пояснения.

Результаты выше показывают, насколько точно понимает ИИ польский язык при работе именно с польским текстом, русский – с русским, а английский – с английским. Но если вы намерены искать информацию во всемирном масштабе, то тут картина несколько иная. К сожалению, авторы исследования провели лишь несколько межязыковых тестов, когда запрос составлялся на одном языке, а текст для поиска брался на другом, но из таблицы ниже видно, что если вы хотите поработать с информацией, например, на корейском языке, но его не знаете, то спрашивать лучше все-таки по-английски, а не по-польски.

С другой стороны, из этой же таблицы выходит, что корейцам даже при работе с родными корейскими текстами лучше общаться с ИИ по-английски. К польскому и русскому, как и к французскому, итальянскому и испанскому это, очевидно, не относится. В отношении других языков требуется дополнительное исследование. Включая китайский.

Вообще, конечно, забавно, что нейросети «думают» на «родном» английском хуже, чем на «иностранных» польском и русском (хотя в случае с китайским ИИ это не так уж удивляет). Впрочем, возможно, это не обязательно связано с неким расовым превосходством носителей этих языков. В конце концов, быть однозначным – не такое уж и очевидное достоинство.

Приведем простой пример. В русском самым многозначным считается слово «идти», у которого, по данным академического «Большого толкового словаря русского языка» под ред. С.А. Кузнецова, зафиксировано 26 основных и 14 фразеологически связанных значений («идти пешком», «идет дождь», «часы идут», «идет фильм», «идет война» и т.д.). В английском же, по данным составителей Оксфордского словаря, самым многозначным оказалось схожее слово run, у которого они насчитали… 645 значений.

Другой пример. Как известно, словарный запас произведений Пушкина и Шекспира был приблизительно равным – около 25 000 слов. Вот только Шекспир жил на 200 лет раньше. Думается, этот гандикап не до конца ликвидирован и сегодня.

Напомним высказывание Набокова о двух языках, один из которых был ему родным, а второй принес литературную славу: «Телодвижения, ужимки, ландшафты, томление деревьев, запахи, дожди, тающие и переливчатые оттенки природы, все нежно-человеческое (как ни странно!), а также все мужицкое, грубое, сочно-похабное, выходит по-русски не хуже, если не лучше, чем по-английски; но столь свойственные английскому тонкие недоговоренности, поэзия мысли, мгновенная перекличка между отвлеченнейшими понятиями, роение односложных эпитетов – все это, а также все относящееся к технике, модам, спорту, естественным наукам и противоестественным страстям – становится по-русски топорным, многословным и часто отвратительным в смысле стиля и ритма».

В любом случае человеческие языки создавались не для удобства ИИ, и то, что некоторые из них ему больше «понравились», возможно, не так уже для них лестно. Кроме того, предложенные нейросетям на этом «экзамене» вопросы не требовали особого глубокомыслия. Просто в голову Андрея Болконского, умирающего на Бородинском поле, посреди размышлений о высоких облаках вдруг приходила удивительная мысль о том, что слову слон соответствует число 47146, и все, что требовалось от ИИ, это правильно ответить на вопрос, какое число этому слону соответствует. Отыскать столь глубокий смысл в «Войне и мире» для ИИ почему-то оказалось легче, чем в «Маленьких женщинах» Олкотт, «Бравом солдате Швейке» Гашека и даже «Дон Кихоте» Сервантеса. Но на вопрос о том, будет ли ИИ, «думающий» по-польски, лучше всех играть в шахматы, такой тест вряд ли прольет много света.

А самое главное, что вышеприведенные результаты получены путем усреднения по разным нейросетям, а если взглянуть на полную «турнирную таблицу», то ситуация выглядит иначе.

Видно, что самой продвинутой из нейросетей оказалась Gemini 1.5 от Google. И при работе с ней никакого особого преимущества польский или русский не дают. Их «превосходство» образовалось из-за неспособности пяти остальных языковых моделей адекватно справиться с английским текстом. Но в принципе, «думать» по-английски не хуже, чем на любом другом языке, видимо, не есть что-то совершенно невозможное для ИИ. Вопрос лишь в «тренированности». Понятно, что языковые модели будут быстро совершенствоваться и «недоучек» среди них станет все меньше, о чем явно говорит разница между результатами двух версий китайской Qwen. Есть уверенность, что даже с китайским нейросети рано или поздно разберутся.

Похоже, ИИ скоро будет совершенно по барабану, на каком языке общаться с кожаными мешками, так что разговаривать с ним действительно лучше на том наречии, на котором пользователю самому легче точно сформулировать свою мысль и, что еще важнее, усвоить ответ. В любом случае, не следует ждать, что Microsoft начнет срочно переводить всю свою документацию на польский язык для повышения эффективности своих языковых моделей. А уж перетолмачивать для удобства ИИ на английский русские тексты, если это вдруг придет в голову каком-нибудь «Газпрому», и вовсе бессмысленно.

Комментарии к статье из сети в Вконтакте

открыть страницу обсуждения

CRT

Здравствуйте, rustler, Вы писали:

R> А происходит это потому, что особенности морфологии, синтаксиса и наличие падежей, от которых рыдают иностранцы, с точки зрения ИИ уменьшают двусмысленность выражаемых по-русски мыслей.

Только сейчас пошла какая-то дурацкая мода не склонять некоторые названия.

Типа "Скидки в Магнит!". 

"в магнит" это куда - винительный падеж. Если мы хотим сказать где, то "в Магните" - предложный падеж.

или "Купи Лада Граната" вместо "Ладу". 

В польском (который на первом месте в этом исследовании) кстати всё подряд склоняется: все иностранные слова, названия, фамилии

03-12-2025 23:29 ответить перенести в VK

Nuzhny

Здравствуйте, rustler, Вы писали:

R>Вообще, конечно, забавно, что нейросети «думают» на «родном» английском хуже, чем на «иностранных» польском и русском (хотя в случае с китайским ИИ это не так уж удивляет).

Забавно, что нейросети вообще не "думают" на человеческом языке, а после перевода в токены (то есть в свой внутрренний язык) они начинают "думать" на нём. От человеческого языка зависит больше сам перевод в токены, на этом его роль заканчивается. Поэтому статью лучше было бы переписать, убав половину неверных формулировок.

R>Видно, что самой продвинутой из нейросетей оказалась Gemini 1.5 от Google.

Видно, совсем другое:

1. Тестировались уже довольно старые архитектуры, выводы статьи уже не актуальны.

2. Качество больше зависит не от языка, а от размера модели: см. Qwen 2.5 72B и Qwen2.5 7B.

3. В реальности результат ещё сильно зависит от размера контекста, но об этом в принципе не упомянули.

Вывод: статья неактуальная, самые важные факторы не указаны.

04-12-2025 06:47 ответить перенести в VK

Александр Зверев, г. Москва

Сила в правде, это и ИИ скажет, когда поумнеет. Всех научит правду любить. Вся надежда на него.                                                                                        

04-12-2025 13:36 ответить

CRT

Здравствуйте, rustler, Вы писали:

R> А происходит это потому, что особенности морфологии, синтаксиса и наличие падежей, от которых рыдают иностранцы, с точки зрения ИИ уменьшают двусмысленность выражаемых по-русски мыслей.

Только сейчас пошла какая-то дурацкая мода не склонять некоторые названия.

Типа "Скидки в Магнит!". 

"в магнит" на нормальном русском значит куда, винительный падеж. А если мы хотим сказать где, то "в Магните" - предложный падеж.

Или "Купи Лада Гранта" вместо "Ладу". 

В польском (который на первом месте в этом исследовании) кстати всё подряд склоняется: все иностранные слова, названия, фамилии

04-12-2025 14:05 ответить перенести в VK

Silver_S

Здравствуйте, Nuzhny, Вы писали:

N>Забавно, что нейросети вообще не "думают" на человеческом языке, а после перевода в токены (то есть в свой внутрренний язык) они начинают "думать" на нём. От человеческого языка зависит больше сам перевод в токены, на этом его роль заканчивается. Поэтому статью лучше было бы переписать, убав половину неверных формулировок.

Переход же не такой резкий между частными для каждого языка деталями и универсальными токенами. 

Если решается именно языковая задача, например: подсчитать сколько в тексте грубых обращений к человеку.

Если в английском попадается обращение "jack" - грубость это или нет, может зависеть от тонкостей контекста.

Если это чисто языковая задача, то не получится просто перевести сразу на универсальный внутренний язык.

Здесь для каждого языка у модели своя "база знаний", и такие задачи решаются с разной эффективностью.

Либо это можно назвать - они тестировали именно эффективность и качество перевода с человеческого языка на внутренний (понимание языковых тонкостей). А не решение задач на внутреннем языке.

04-12-2025 17:30 ответить перенести в VK

Silver_S

Здравствуйте, Nuzhny, Вы писали:

N>Забавно, что нейросети вообще не "думают" на человеческом языке, а после перевода в токены (то есть в свой внутрренний язык) они начинают "думать" на нём. От человеческого языка зависит больше сам перевод в токены, на этом его роль заканчивается. Поэтому статью лучше было бы переписать, убав половину неверных формулировок.

Переход же не такой резкий между частными для каждого языка деталями и универсальным внутренним представлением(одинаковым для всех языков). 

Если решается именно языковая задача, например: подсчитать сколько в тексте грубых обращений к человеку.

Если в английском попадается обращение "jack" - грубость это или нет, может зависеть от тонкостей контекста.

Если это чисто языковая задача, то не получится просто перевести сразу на универсальный внутренний язык.

Здесь для каждого языка у модели своя "база знаний", и такие задачи решаются с разной эффективностью.

Либо это можно назвать - они тестировали именно эффективность и качество перевода с человеческого языка на универсальный внутренний (понимание тонкостей естественных языков). А не решение задач на внутреннем языке.

04-12-2025 17:34 ответить перенести в VK

Nuzhny

Здравствуйте, Silver_S, Вы писали:

S_S>Либо это можно назвать - они тестировали именно эффективность и качество перевода с человеческого языка на универсальный внутренний (понимание тонкостей естественных языков). А не решение задач на внутреннем языке.

Вот, вот, с этим абсолютно согласен.

Сюда ещё можно добавить уже и картинки - почти все современные LLM уже мультимодальные. И картиночный энкодер переводит их в тот же "внутренний язык", что и текст. Картинки же в принципе вне языковые, сравнить с ними было бы ещё интереснее.

05-12-2025 10:28 ответить перенести в VK

Руслан Джугашвили

"Отличная" новость на фоне подорожания из-за этого самого ИИ ОЗУ, ССД и прочего.                                                                                        

05-12-2025 17:20 ответить

Компьютеры НИКС

Ноутбуки цены

Моноблоки цены

Внешние жесткие диски цены

Флешки цены

Планшеты цены

Смартфоны цены

Электронные книги цены

Карты памяти цены

Мониторы цены

Принтеры цены

МФУ цены

Материнские платы цены

Процессоры цены

Видеокарты цены

SSD цены

Жесткие диски цены

Корпуса для компьютеров цены

Архив каталога описаний

Среда, 3 декабря 2025 17:24

Искусственный интеллект лучше «думает» на русском, чем на английском

Комментарии к статье из сети в Вконтакте

открыть страницу обсуждения