В многоязычном бенчмарке, разработанный для оценки лингвистических моделей с длинным контекстом на 26 языках. Русский язык обогнал всех, кроме польского
Языки: китайский (zh), чешский (cs), датский (da), голландский (nl), английский (en), финский (fi), французский (fr), немецкий (de), хинди (hi), венгерский (hu), итальянский (it), японский (ja), корейский (ko), норвежский (no), персидский (fa), польский (pl), португальский (pt), русский (ru), сербский (sr), сесото (st), испанский (es), суахили (sw), шведский (sv), тамильский (ta), украинский (uk) и вьетнамский (vi)
Польский обогнал русский только потому, что он на латинице. Украинский уступил даже английскому. Сербский скатил к африканцам
В славянских языках морфология слова (приставки/корни/окончания и тп) дают большую часть смысла, а в английском уже большее значение имеет контекст. При токенизации эти связи начинают теряться. А китайскому еще не повезло и с длинной смыслов: фразы почти вдвое длиннее, а значит, окно контекста даст меньше связей.
Это они еще Дипсик не пробовали
https://arxiv.org/pdf/2503.01996
Комментарии
Модели какие-то очень старые в тестах.
Не понял почему шипяще-свистяще-скрежетающее польское карканье вдруг выше Великого и Могучего Русского Вулкана,
только тем, что изуродовал латинские буквы под свои, чуждые германо-романским языкам, свистяще-шипящие "шищлосчи"?
Тут речь не про "лучше", а на каком языке ИИ-модель лучше сохраняет в памяти смысл, связи текста в длинном контекстном окне.
А я писал про "лучше"?
Не совсем, но по смыслу - то же самое.
Незачет.
Вас вообще сложно понять. Очень поляков не любите?
Информация вообще техническая по факту, и в соседних столбцах цифры на уровне погрешности.
Upd. Ещё добавлю. В слове на польском токенов будет в два раза больше, чем на китайском. Соответственно, в иероглифах вместить можно гораздо больший объём смысла. Ну и теряется, когда масштаб за сотни тысяч токенов переваливает.
Bober kurwa)))
всем смотреть Русская ТАРА, инструмент образования слов, никаких там корней и суффиксов нету, все проще и изящней
Хоть бы один тюркский язык посчитали, например турецкий, он на латинице.