Русский язык - язык смыслов

Аватар пользователя genby

В многоязычном бенчмарке, разработанный для оценки лингвистических моделей с длинным контекстом на 26 языках. Русский язык обогнал всех, кроме польского
Снимок экрана 2025-11-19 000956.png

Языки: китайский (zh), чешский (cs), датский (da), голландский (nl), английский (en), финский (fi), французский (fr), немецкий (de), хинди (hi), венгерский (hu), итальянский (it), японский (ja), корейский (ko), норвежский (no), персидский (fa), польский (pl), португальский (pt), русский (ru), сербский (sr), сесото (st), испанский (es), суахили (sw), шведский (sv), тамильский (ta), украинский (uk) и вьетнамский (vi)

Польский обогнал русский только потому, что он на латинице. Украинский уступил даже английскому. Сербский скатил к африканцам
 

В славянских языках морфология слова (приставки/корни/окончания и тп) дают большую часть смысла, а в английском уже большее значение имеет контекст. При токенизации эти связи начинают теряться. А китайскому еще не повезло и с длинной смыслов: фразы почти вдвое длиннее, а значит, окно контекста даст меньше связей.

Это они еще Дипсик не пробовали
Снимок экрана 2025-11-19 002252.png

https://arxiv.org/pdf/2503.01996

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя Fandaal
Fandaal(11 лет 1 месяц)

Модели какие-то очень старые в тестах.

Аватар пользователя Oranien
Oranien(2 года 8 месяцев)

Не понял почему  шипяще-свистяще-скрежетающее польское карканье вдруг выше Великого и Могучего Русского Вулкана,

только тем, что изуродовал латинские буквы под свои, чуждые германо-романским языкам, свистяще-шипящие "шищлосчи"? 

Аватар пользователя Fandaal
Fandaal(11 лет 1 месяц)

Тут речь не про "лучше", а на каком языке ИИ-модель лучше сохраняет в памяти смысл, связи текста в длинном контекстном окне.

Аватар пользователя Oranien
Oranien(2 года 8 месяцев)

А я писал про "лучше"? 

Аватар пользователя Fandaal
Fandaal(11 лет 1 месяц)

Не совсем, но по смыслу - то же самое.

шипяще-свистяще-скрежетающее польское карканье вдруг выше

Аватар пользователя Oranien
Oranien(2 года 8 месяцев)

Незачет. 

Аватар пользователя Fandaal
Fandaal(11 лет 1 месяц)

Вас вообще сложно понять. Очень поляков не любите?

Информация вообще техническая по факту, и в соседних столбцах цифры на уровне погрешности.

Upd. Ещё добавлю. В слове на польском токенов будет в два раза больше, чем на китайском. Соответственно, в иероглифах вместить можно гораздо больший объём смысла. Ну и теряется, когда масштаб за сотни тысяч токенов переваливает.

Аватар пользователя Алексец
Алексец(8 лет 9 месяцев)

Bober kurwa)))

Аватар пользователя Kobkr
Kobkr(5 лет 8 месяцев)

всем смотреть Русская ТАРА, инструмент образования слов, никаких там корней и суффиксов нету, все проще и изящней

Аватар пользователя tatar
tatar(10 лет 3 недели)

Хоть бы один тюркский язык посчитали, например турецкий, он на латинице.