И тут Китай понесло: представлена нейросеть Qwen 2.5-Max, превосходящая DeepSeek V3 по 11 показателями

14.1K 13:48 - 29/Янв/25 Улучшенный аккаунт

(7 лет 3 месяца)

Китайская технологическая компания Alibaba выпустила новую версию своей модели искусственного интеллекта Qwen 2.5-Max, которая, по словам представителей компании, превзошла высоко оцененную модель DeepSeek-V3. Изначально это не только многофункциональный чат-бот, но и генератор фото и видео.

Согласно проведенным компанией тестам, Qwen 2.5-Max превосходит китайский чат-бот DeepSeek V3 и чат-бот Llama-3.1-405B (принадлежит Meta, признанной в России экстремистской и запрещенной) по 11 показателям.

«Наша модель продемонстрировала значительные преимущества в большинстве тестов», — заверил разработчик.

Компания стремится улучшать мышление и логические рассуждения в больших языковых моделях через «инновационное» обучение с подкреплением, что обещает позволить ИИ-моделям превзойти человеческий интеллект, говорится в заявлении команды чат-бота.

«Qwen 2.5-Max превосходит... почти по всем показателям GPT-4o, DeepSeek-V3 и Llama-3.1-405B», — говорится в объявлении облачного подразделения Alibaba, опубликованном в официальном аккаунте WeChat, со ссылкой на самые передовые модели искусственного интеллекта с открытым исходным кодом OpenAI и Meta*.

Выпуск 10 января искусственного интеллекта DeepSeek на базе модели DeepSeek-V3, а также выпуск 20 января его модели R1 потрясли Кремниевую долину и привели к падению акций технологических компаний, поскольку низкие затраты китайского стартапа на разработку и эксплуатацию заставили инвесторов усомниться в необходимости больших расходов ведущих компаний в области искусственного интеллекта в США.

Однако успех DeepSeek также привел к тому, что внутренние конкуренты в Китае начали активно совершенствовать свои собственные модели искусственного интеллекта.

Через два дня после выпуска DeepSeek-R1 владелец TikTok ByteDance выпустил обновление своей флагманской модели ИИ, которая, по его словам, превзошла поддерживаемую Microsoft модель OpenAI o1 в AIME — эталонном тесте, который измеряет, насколько хорошо модели ИИ понимают и реагируют на сложные инструкции.

Это перекликается с заявлением DeepSeek о том, что ее модель R1 успешно конкурирует с GPT-4o1 от OpenAI по нескольким показателям производительности.

DeepSeek, которая попала на первые строчки мировых СМИ в начале недели, сообщила о запуске новейшей ИИ-модели Janus-Pro-7B. После запуска Janus-Pro-7B и успеха чат-бота DeepSeek компания Nvidia подешевела на 600 млрд долларов. Совокупная стоимость частных компаний США упала более чем на $1 трлн за один день.

DeepSeek заявила, что ее популярное приложение подверглось кибератаке в понедельник, 27 января, что заставило китайскую компанию временно ограничить регистрации. Обвал акций технологических компаний потянул за собой курс криптовалют. Как мы уже сообщали, приложение DeepSeek заняло первое место в рейтинге лучших бесплатных приложений Apple App Store, а также стало одним из самых скачиваемых в Google Play.

От команды Qwen2.5-Max:

Прямое сравнения производительности моделей инструкций, которые могут служить для приложений нисходящего потока, таких как чат и кодирование. Представляем результаты производительности Qwen2.5-Max вместе с ведущими современными моделями, включая DeepSeek V3, GPT-4o и Claude-3.5-Sonnet.

Qwen2.5-max-instruct.jpg

Qwen2.5-Max превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует конкурентоспособные результаты в других оценках, включая MMLU-Pro.

При сравнении базовых моделей мы не можем получить доступ к фирменным моделям, таким как GPT-4o и Claude-3.5-Sonnet. Поэтому мы оцениваем Qwen2.5-Max против DeepSeek V3, ведущей модели MoE с открытым весом, Llama-3.1-405B, крупнейшей плотной модели с открытым весом, и Qwen2.5-72B, которая также входит в число лучших плотных моделей с открытым весом. Результаты этого сравнения представлены ниже.

Qwen2.5-Max.jpeg

Наши базовые модели продемонстрировали значительные преимущества в большинстве тестов, и мы с оптимизмом ожидаем, что усовершенствования в методах постобучения выведут следующую версию Qwen2.5-Max на новый уровень.

Теперь Qwen2.5-Max доступен в Qwen Chat, и вы можете напрямую общаться с моделью, или играть с артефактами, искать и т. д.

Авторство:

Копия чужих материалов

Использованные источники:

И тут Китай понесло: представлена новая нейросеть, которая почти во всём превосходит GPT-4o, DeepSee

Qwen2.5-Max: исследование интеллекта крупномасштабной модели MoE

@Страны / география#Китай @Физическая экономика#IT-технологии

@Лидеры обсуждений#Перспективный чат

Блог пользователя Granderator | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Я давно смотрю на ИИ, в перспективе писательском. И вот сейчас есть много чего такого, что уже и используется так. А моё сверх Я сдерживает меня от этого - человеческий разум лучше. Просто пока сдерживающие факторы стоят.

Комментарий администрации:

*** Будущий телепат в полном объеме (с) - https://aftershock.news/?q=comment/12979932#comment-12979932 ***

Войдите или зарегистрируйтесь для комментирования

(10 лет 5 месяцев)15:58-29/Янв/25

Серьезных произведений на нем не напишешь, но жвачку, типа 90% контента на АвторТудей, запросто.

Ну или скажем пресс-релизы, эссе, сочинения для школы и небольшие сюжеты, сценарии.

Войдите или зарегистрируйтесь для комментирования

(6 лет 11 месяцев)18:33-29/Янв/25

Писатель тоже может проверять. Первичная редактура например. Или стилизация диалогов второстепенных персонажей

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)13:54-29/Янв/25

А самый главный бот в это время шортил NVidia...

Войдите или зарегистрируйтесь для комментирования

(6 лет 4 месяца)13:58-29/Янв/25

Спорные заявления. Qwen2.5-Max медленнее deepseek'а и у последнего очень хорошая аргументация вывода, и он более точен.

Войдите или зарегистрируйтесь для комментирования

(9 лет 9 месяцев)14:12-29/Янв/25

Тут хайпануть нужно, пока хайп не разобрали.

Войдите или зарегистрируйтесь для комментирования

(7 лет 3 месяца)14:20-29/Янв/25

Ну... графики тестов приведены в статье

Войдите или зарегистрируйтесь для комментирования

(6 месяцев 2 недели)14:57-29/Янв/25

Читал, что сравнение Qwen с Deepseek V3 (это ранняя, тестовая версия) некорректно, надо с версией R1 (рабочая версия) сравнивать. R1 пошустрее

Плюс ко всему, Qwen не имеет Opensource

Но сейчас не могу найти, где читал...

Войдите или зарегистрируйтесь для комментирования

(9 лет 9 месяцев)14:03-29/Янв/25

Войдите или зарегистрируйтесь для комментирования

Скрытый комментарий (c обсуждением)

(10 лет 5 месяцев)16:00-29/Янв/25

И в итоге оба раскусили друг друга.

Войдите или зарегистрируйтесь для комментирования

(9 лет 9 месяцев)16:05-29/Янв/25

Да.

Идея была явлена лет 35 назад однако

Войдите или зарегистрируйтесь для комментирования

(9 лет 7 месяцев)14:05-29/Янв/25

И чо теперь перестанут называть лазерным уровнем товары сложнее бинокля? Вчерась еще называли.

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)14:14-29/Янв/25

Недавно, увидев хайп по поводу ДипСик, полез проверять. И обнаружил, что уже давно на него подписан с Гугла. Так же, как и на Qwen Chat. Вторую неделю сравниваю на одних и тех же задачах. Навскидку: Qwen Chat всяко мультимодальнее. Лучше шарит по тырнету. Промпты просто бесконечной длины, можно повесть в промпт запихнуть. Рисует и клепает консистентные видосы, чего ДипСик не может в упор.

А так же всё бесплатно.

Войдите или зарегистрируйтесь для комментирования

(2 года 7 месяцев)15:40-29/Янв/25

Хм.. мне говорит "Prompt cannot exceed 10000 characters."

А дипсик пережевывает...

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)15:35-29/Янв/25

Хм.. мне говорит "Prompt cannot exceed 10000 characters."

Хех. А вам всё мало? В ДримАИ максимально 350 знаков в промпте. А было ваще 140. Мораль: Приучаемся к лаконичности

Войдите или зарегистрируйтесь для комментирования

(2 года 7 месяцев)15:46-29/Янв/25

Дык это данные были в хмл. Хотел спросить что он думает по этому поводу.

А он сломалсо

Дипсик тоже самое съел, проанализировал и даже СРРшный класс под них придумал!

Войдите или зарегистрируйтесь для комментирования

(3 года 9 месяцев)23:28-29/Янв/25

Не пробовали, случайно hailuo . ai? Можете что-нибудь сказать о нем в сравнении с остальными? Заранее спасибо!

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)00:41-30/Янв/25

Не пробовали, случайно hailuo . ai? Можете что-нибудь сказать о нем в сравнении с остальными?

Это то, что раньше называлось МиниМакс? Не только пробовал, но и юзал его в хвост и в гриву, пока он был бесплатным. Даже приложил т.сказать руку к тому, что он стал платным. Как только тиснул о нём статью на АШ, набижали тысячи. В МиниМахе образовалась очередь в сотни рыл. Через день он подвис. А через 2 дня стал платным.

Только сейчас увидел его с новым тырфейсом (хотя слышал об этом). Появился простенький ЖПТ и Аудиогенерация. В видео добавилась новая модель T2V-01-Director с контролем камеры. Но остались те же 100 кредов в день на бесплатном тарифе. Их хватит на 3 ролика по 5 сек. Не особо разгонишься. А аудио еще не пробовал (на вид не сложнее Суно)

Мои пробы в еще бесплатном hailuo.ai можно глянуть здесь

Войдите или зарегистрируйтесь для комментирования

(3 года 9 месяцев)00:48-30/Янв/25

У него бесплатный чат. На днях с коллегой попробовали IT вопросы ему позадавать и он справился лучше deepseek-а и chatgpt o1. Сразу дал оптимальный код.

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)00:58-30/Янв/25

У него бесплатный чат.

Его ЖПТ я проверил мельком прям щас. Мне он не показался. Там есть сравнения с другими ЖПТ. По их тестам он дышит в затылок ЧадуЖПТ-4о. КвенЧат и ДипСик навскидку мощнее.

Но я проверяю не на кодинге, т.к. не шарю в этом. А на своих замороченных текстах.

Войдите или зарегистрируйтесь для комментирования

(3 года 9 месяцев)01:05-30/Янв/25

Меня как раз и интересовало что-нибудь непрограммическое. Спасибо!

Войдите или зарегистрируйтесь для комментирования

(11 лет 4 месяца)18:34-30/Янв/25

Консистентные видосы ? Может контекстные ?
---------------------------------------------------------------------------
- Какой консистенции ваш видос ?
- Да так , консистенция киселя , или творожка со сметаной ;=)

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)19:23-30/Янв/25

Консистентные видосы ? Может контекстные?

Консистентные, это когда без всяких Лор и дообучения ,с одной только фотки он сделает видос с твоим лицом, как живой.

Войдите или зарегистрируйтесь для комментирования

(11 лет 4 месяца)06:55-1/Фев/25

Извиняюсь . В Яндексе я ничего такого не нашёл .

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)07:57-1/Фев/25

Извиняюсь . В Яндексе я ничего такого не нашёл

Яндех не поспевает за терминологией. Вотъ: Встречаем долгожданную функцию «консистентный персонаж».

Одно из определений термина «консистентность» в словаре Cambridge English Dictionary описывает его как качество всегда вести себя или действовать одинаково, или всегда происходить аналогичным образом, также известное как «быть одинаковым».

Войдите или зарегистрируйтесь для комментирования

(12 лет 11 месяцев)14:15-29/Янв/25

А где, ТБМ, Яндекс?

Войдите или зарегистрируйтесь для комментирования

(1 год 10 месяцев)14:31-29/Янв/25

Вас ждет, без вас никак.

Войдите или зарегистрируйтесь для комментирования

(12 лет 11 месяцев)15:00-29/Янв/25

Меня туда никак, HR зарубят по возрасту

Войдите или зарегистрируйтесь для комментирования

(9 лет 1 месяц)14:32-29/Янв/25

А где, ТБМ, Яндекс?

У Яндеха шикарные озвучка и нейроперевод, пересказы и саммари. Шедеврум неплох. А еще кокойто YandexART появился. Надо попробовать.

А его ЖПТ никудышный.

Войдите или зарегистрируйтесь для комментирования

(4 года 5 месяцев)22:24-29/Янв/25

Без продвинутых чипов Нвидии никуда. Надо им подсказать - Нвидиа из Сингапура 15% выручки получает, хорошо, говорят, H100 там расходятся.

Войдите или зарегистрируйтесь для комментирования

(1 год 5 месяцев)14:29-29/Янв/25

В КНР ещё и с гиперзвуком неплохие прогнозы

Войдите или зарегистрируйтесь для комментирования

(9 лет 9 месяцев)15:29-29/Янв/25

....И вы говорите!

Войдите или зарегистрируйтесь для комментирования

(1 год 5 месяцев)15:37-29/Янв/25

Тут не разговор пенсов на лавке. Натурные испытания и сдвиг запуска тестового экземпляра влево

Войдите или зарегистрируйтесь для комментирования

(9 лет 9 месяцев)15:40-29/Янв/25

Как ~~на Тайвань~~ полетят - там и посмотрим. А пока...

Войдите или зарегистрируйтесь для комментирования

(7 лет 1 месяц)14:29-29/Янв/25

Больше всего интересует цыфирь обвала на NASDAQ!!!

Стульчик на котором сидит Трамп уже с подпиленными ножками...

Ждём обрушения!

Войдите или зарегистрируйтесь для комментирования

(10 лет 5 месяцев)16:03-29/Янв/25

ФРС накачает резаной и всего делов

Войдите или зарегистрируйтесь для комментирования

(8 лет 4 месяца)16:45-29/Янв/25

ФРС напрямую закачает ликвидность в рынок?
Не подскажете примерчик из истории?

Войдите или зарегистрируйтесь для комментирования

(10 лет 5 месяцев)13:15-30/Янв/25

Ликвидность закачивают не в рынок, закачивают в крупные компании, под минимальные проценты (в т.ч. нулевые), чтобы они скупали собственные акции и акции "соседей".

Войдите или зарегистрируйтесь для комментирования

(4 года 3 недели)14:30-29/Янв/25

Тестил на днях, одни извинения от интеллекта. "Я только учусь".

Войдите или зарегистрируйтесь для комментирования

(1 год 10 месяцев)14:31-29/Янв/25

На Питоне?

Войдите или зарегистрируйтесь для комментирования

(13 лет 1 месяц)14:34-29/Янв/25

Мастера и Маргариту в Цветочном городе пересказывает ну практически как ДипСик но как-то более готично.

В один из тех солнечных дней, когда на улицах Цветочного города было особенно шумно и весело, потому что все малыши играли в свои любимые игры, а Незнайка и его друзья собирались отправиться на прогулку к реке Синей, случилось нечто очень странное. На главной площади города появился незнакомый коротышка в чёрном костюме и с высоким цилиндром на голове. Он был совсем не похож на местных жителей — ни одной пуговицы на его одежде не было видно, а лицо было таким серьёзным, что даже Пончик перестал хихикать. Этот загадочный гость, которого никто раньше здесь не встречал, начал задавать странные вопросы про то, есть ли в городе такие дома, где живут исключительно коротышки, которые пишут книги или занимаются наукой. А когда кто-то из малышей ответил, что таких домов тут нет, незнакомец только усмехнулся и сказал: "А вот и зря, ведь настоящие приключения начинаются именно там, где их никто не ждёт!"

зы а 12 стульев так даже лучше, Бульбу только приплел.

Однажды утром в Цветочном городе наступило необычное оживление. Все малыши собрались возле дома доктора Пилюлькина, потому что там должно было произойти нечто важное. Дело в том, что накануне вечером Незнайка услышал от Бульбы, который только что вернулся из соседнего города, удивительную историю.

— Представьте себе, — говорил Бульба, размахивая руками, — в одном старом доме нашли целый сундук с золотыми монетами! Но самое интересное, что эти монеты были спрятаны внутри старых стульев. Всего их было двенадцать, и каждый из них был украшен красивыми резными узорами.

Незнайка, который всегда любил приключения, сразу же загорелся идеей найти эти стулья. Он собрал всех своих друзей — Пончика, Торопыжку, Растеряйку и даже Знайку, который обычно предпочитал заниматься наукой, а не бегать за сокровищами.

— Ну что, ребята, — сказал Незнайка, — если мы найдём хотя бы один из этих стульев, то сможем купить для нашего города огромный телескоп, чтобы наблюдать за звёздами!

Все малыши загорелись этой идеей и решили немедленно отправиться на поиски. Они вооружились картами, которые нарисовал Знайка, и начали обходить все старые дома в Цветочном городе. Каждый из них надеялся стать тем самым счастливчиком, который найдёт заветный стул с золотыми монетами.