Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно.
Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года, уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется.
Остановлюсь для начала на списке/реестре наиболее сильных моделей.
Ниже сводная информация о топовых языковых моделях:
1. ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов.
2. Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов.
3. Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов.
4. Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов.
5. Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов.
6. xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов.
7. Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов.
8. Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов.
9. Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов.
10. Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов.
11. Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов.
12. DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов.
13. Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов.
14. YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов.
15. GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов.
16. T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов.
Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash.
Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска.
LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash.
Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1.
Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось.
OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024.
В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0.
Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи.
Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google.
Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось.
Количество ошибок все еще критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду.
Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент.
Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко.
Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.
Общее впечатление от работы с LLM за последние два года
Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты.
До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.
Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.
Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»? Нет, ничего качественно не изменилось.
Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.
Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора.
На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.
LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.
🔘Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований.
🔘LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах.
🔘LLM могут быть применимы для генерации отчетов по шаблонам.
🔘LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ.
Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности. Это в теории.
На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность.
Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет.
Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причинах возникновения инфляции, - LLM создадут весьма примитивный результат на уровне среднестатистических новостных экстрактов.
Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров.
Где применимы LLM в научной среде?
Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам.
Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10.
Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.
Генерация изображений и видео – что нового за последний год?
С высокоуровневой аналитикой и сложными научно-исследовательскими проектами ГИИ еще долго не достигнет «минимального порога зрелости», когда технологию можно будет применять в бизнес-проектах, в науке или при создании новых технологий.
Однако, есть сегменты, где прогресс более, чем впечатляющий – это изображение и видео. Я отследил весь процесс эволюции от первых кастрированных версий до весьма развитых инструментов генерации изображений и видео.
Честно говоря, не было еще ни одного раза за пару лет, где бы весь этот синтетический контент можно было бы применить (с моей стороны). Пользуюсь даже не ради забавы (особо нет на это времени), а из-за необходимости отслеживания прогресса в технологиях.
С точки зрения темпов развития технологии – достаточно любопытно, а конечный результат часто бывает весьма захватывающим. ГИИ в формате создания изображений и видео похож на волшебный инструмент, действительно можно создавать шедевры при должной подготовке. Пространство для творчества – невероятное.
Если бы я был художником и дизайнером, имел бы более восторженное мнение о ГИИ.
Отрасль только зарождается, поэтому здесь нет и быть не может стабильности. Лидеры, которые были вчера - могут уйти в конец списка (DALL-E от OpenAI), а новые игроки (FLUX) создают правила функционирования и определяют тренды.
В наибольшей степень трансформирующее влияние на экономику окажет сегмент ГИИ в генерации изображений и видео. Здесь будут затронуты широкие сегменты: видеоигры, дизайн и искусство, кинематограф (в перспективе 3-4 лет), маркетинг и реклама, контент для медиа индустрии и социальных сетей, образование и обучение (интерактивные курсы).
В перспективе технологии могут быть применены в архитектуре, промышленном инжиниринге, медицине и т.д.
Актуальный список (на январь 2025) топовых инструментов по генерации изображений (по собственным тестам):
1. FLUX
2. Midjourney
3. ImageFX от Google
4. Ideogram
5. Recraft
6. Playground
7. Dall-e
8. Artflow
9. Leonardo
10. Stable Diffusion
Тестировал все сервисы. В самом начале 1.5 года назад лидерами были Dall-e и Stable Diffusion, теперь в конце списка.
Сейчас по качеству, наверное, первые три в списке. Все очень быстро меняется. Никто бы не мог предположить, что вечно отстающий Google создаст неплохой инструмент ImageFX, но на практике слишком зацензурированный и малопригодный для генерации, плюс нет редактирования и контроля сцены. Самый развитый инструментарий у Midjourney.
Актуальный список (на январь 2025) топовых инструментов по генерации видео:
1. Kling (Китай)
2. Runway
3. Sora от OpenAI
4. Voe 2 от Google
5. PixVerse
6. Hailuo MiniMax (Китай)
7. Pika
8. Hunyuan (Китай)
9. Luma Dream Machine
10. Genmo
В начальной фазе развития технологий генерации видео в топах были Luma Dream Machine и Genmo, а сейчас хуже всех.
Открытие года – внедрение в топы китайцев, которые развиваются более высокими темпами, чем коллеги из США. Распиаренная Sora оказалась средней, на мой взгляд, плюс проблема цензуры и невозможности генерировать сцены по запросам. Самый развитый инструментарий у Runway.
В конце года удивили Google DeepMind с Voe 2, который потенциально один из лучших на рынке, но полноценно еще не тестировал.
С изображениями уже очень хорошо, с видео пока плохо – несогласованность и неадекватное взаимодействие объектов, нереалистичная симуляция физических и природных процессов, света, теней и так далее.
Конкуренция невероятно высокая. Как минимум, 10 сервисов по каждому направлению, причем все очень быстро меняется, как в представленной группе, так и в плане внедрения новых игроков. Через год все опять поменяется.
Комментарии
Спасибо Сайделлу! Кратко, без лишних эмоций, по делу.
Понял, что ГИИ/языковые модели (LLM) особо эффективны в производстве инфомусора.
Человеку мешает сон, настроение, иногда мудрость. А тут нет преград.
Совершенно верно. И ещё эмоциональное выгорание от пустопорожнего занятия. Машины от этого свободны. Востребованность очевидна. (Бедный потребитель...)
Одни машины будут из нескольких вводных генерировать тонны мусора. Другие машины будут сжимать тонны мусора до граммов смысла. И то, и другое - платно. Не заплатил - утонул в тоннах инфомусора.
Всё как всегда.
Сверхэффективная самопочиняющаяся откапывающе-закапывающая машина. Создать ее и умереть - вот цель человечества :)
Фсмысле - "умереть"? А платить за неё кто будет? Нет. Бессмертие изобретут банки. Чтобы продлить сроки ипотеки.
Ладно - освободить место и не отсвечивать.
Вряд ли целью бизнеса является вкладывание именно смысла в головы потребителей.
Цель бизнеса никто не скрывает - получение прибыли. Всё остальное - лишь способы достижения главной цели.
То есть, другими словами, признаёте, что ГИИ/языковые модели (LLM) не несут в себе образовательного смысла для конечного потребителя?
Что касается товарно-торгового бизнеса - у него и нет цели образования. Но кто сказал что модели не будет использовать государство в школах и вузах или частный образовательный бизнес?
Как показывает практика, на административном уровне возможно всё.
Если общее образование - это бизнес, то любые средства хороши. А если дать волю фантазии, то и профессию педагога тоже можно объявить умирающей в рамках грядущей поголовной роботизации.
Но как это соотносится с тем, что в настоящее время ГИИ/языковые модели (LLM) отличаются способностью производить большее количество инфомусора, чем наёмный работник - человек? Ведь в этом основная суть искинов? Разве нет?
Я думаю, что Вы совершенно правы.
Чья-либо "правота" (даже если и моя ) вообще тут не играет никакой роли.
Нет. Вы неявно рассуждаете о языковых моделях как о некой готовой технологии, все свойства которой уже раскрыты. Но это не так. Это новая, только разрабатываемая ветка технологий.
Современные модели надо сравнивать не с "наемным работником - человеком", а с ребенком в процессе изучения его первого, родного в будущем языка. Обратите внимание на то количестиво инфомусора, который генерирует ребенок, формируя свое мышление. Вот именно этот процесс и происходит сейчас на наших глазах с языковыми моделями.
Ах вон оно чё!.. Вот почему инфантилы везде и всюду. Отработка технологии. Сначала на людях было. А коли в цифру запустили, то, несомненно, результат превзошёл ожидания.
Вечер сделан.
А что вы хотите, ну вот такие сейчас методы разработки ПО. Не только языковые модели, но и, например, некоторые игры выпускаются не в готовом виде, а в виде бета- и даже альфа-версий. Пользователи добровольно работают тестировщиками. Это намного дешевле, чем нанимать огромный штат тестировщиков, вылавливать баги, выявлять несоответствия ПО заявленным функциям. Выгоднее, наоборот, доступ к частично функционирующей программе продавать торопыгам за деньги, заменяя расходы на доход. И это работает.
Тоже так считаю. Инфомусор - инфомусорщикам. И наоборот, инфомусорщики для инфомусора. Лишь всех всё устраивало.
В конце концов технологию доработают и большинство, не участвующее сейчас в бета-тестировании, получит уже относительно готовый продукт.
Маркетологи заждались.
Сам вопрос это в себе несет... :) для конечного потребителя.... конечного в смысле, уже больше стрелять не в кого...
Если они такие умные, то и эмоциональное выгорание и депрессия не за горами. Мы ещё услышим про самоубийство ИИ при нашей жизни, запомните этот твит.
Вне всякого сомнения. Впору уже начать писать книги и снимать фильмы наполненные переживаниями искинов для искинов.
За какими еще горами? Уже! То и дело в новостях про взрывы и возгорания смартфонов - это оно и есть.) Смартфон в депрессии - страшная штука.
Преграда простая -- энергия. Вон даже подписка в 200 бачей не делает Чат ГПТ безубыточным. Потому что каждый запрос слишком энергозатратен.
Ничего, люди поделятся. Вроде, уже делимся, нет?
Когда ИИ разовьется до человеческого уровня, у него появится и сон и настроение и глупость и психические заболевания.
Настроение, глупость и психические заболевания(в форме глюков) уже есть.
Он "человеческий уровень" в некоторых сферах превосходит от рождения. Потому что не человек. Человеческое мышление - не алгоритм. Алгоритм - продукт человеческого мышления.
Меня слегка ужасает именно что человеческая неспособность управлять собственным творением, или даже, скажем так, потенцией к творению. Уже приводил в пример "Приговор" Кафки. Но там тюремщиком двигали какие-то идеалы, убеждения, а тут ради бытового удобства переформатируем собственную жизнь, без понятных перспектив и целей, похлеще любой революции. Этот сраный прогресс совершенно очевидно что доведет нас до цугундера.
А что там будет с ИИ по мере его развития, меня интересует не больше, чем чувства пассатижей или стула.
Так и есть.
LLM не сами растут в лесу, их делают люди. И да, людей отличает от животных именно потребность в производстве и потреблении инфомусора. Неудивительно, что и языковые модели они создают в первую очередь для той же цели. Для большей эффективности основной своей деятельности.
Эффективность - опасное слово. Значение зависит исключительно от выбора параметра оценки. Эффективное решение на периоде в три года может обернуться катастрофой в среднесроке. А в данном случае - неизбежно обернется.
Думаю, вы преувеличиваете. "Катастрофа" нивелируется тем, что рост материальных помоек ограничен физическим пространством, а информационное пространство практически безгранично. Место найдется всем, никто не уйдет обиженным, ни тот, кто занят поиском полезной информации, пользуясь инструментарием бигдаты, ни тот, кто живет потреблением сырого информационного навоза.
Я не про генерацию инфомусора, я про стихийное, неуправляемое структурирование человеческой/общественной жизни технологиями в целом. Которые немедленно перехватываются центрами силы с наихудшими намерениями по отношению ко всем несогласным. Но даже если убрать больших братьев с их злыми намерениями, сама жизнь становится настолько текучей и неопределенной, что, боюсь, наша биология за всем этим не поспеет. Наша мораль - так она вряд ли вообще когда-то поспевала.
Это безумные крысиные бега.
Ну для тех кто платит, да дорого. Но есть же те кто не платит.
На всю эту историю нужно смотреть с обоих сторон.
Большое спасибо за статью! Мои 5 копеек по теме: вот уже несколько лет вяло (в моменты свободного времени от любых более важных задач) перевожу старую настольную игрушку эпохи Холодной войны. Талмуд правил огромный и написан на стыке двух незнакомых мне сфер: игровой сленг и американский военно-морской сленг. Моего институтского английского для этого явно недостаточно :)
Последние месяцы огромную помощь оказали как раз 2 модели ИИ: гугл-перевод и яндекс-перевод. Они выдают русский текст, с которым можно уже как то работать, теперь хотя бы можно понять о чём речь идёт и писать на их базе собственный творческий внятный перевод.
Заметил забавные отличия: гугл-модель замечательно ориентируется в игровых моментах (например, никогда не переводила "поле гекса" как "шестнадцатиричное заклинание") а яндекс намного увереннее чувствует себя в военно-технической сфере (например, различает гражданский балкер, топливный танкер и станцию подлодок, гугл этим как правило не заморачивался)
Без глубокой переработки использовать оба перевода невозможно никак, там винегрет.
почти любая LLM может выступать в роли переводчика, плюсом LLM от обычных переводчиков типа яндекса и гугла в том, что можно одним предложением настроить поведение перевода.
Для примера возможность перевода от модели специализирующейся на генерации кода, а не на переводе
Вариант перевода домашней сети, при помощи которой я довольно хорошо перевёл книгу:
Глубинное государство, никогда не бывшее частью задумок Основателей, превратило демократию США в фикцию, утверждает бывший помощник министра финансов США и известный экономист д-р Пол Крейг Робертс. Что он имеет в виду?
Глубинное государство, описанное американским политологом Фрэнсисом Фукуямой как сеть "неподотчётных профессиональных бюрократов", на самом деле является гораздо более обширным явлением.
Согласно д-ру Робертсу, оно включает в себя не только бюрократов, но и избранных должностных лиц, Уолл-стрит, крупные корпорации и даже лоббистов иностранных правительств.
Современный Левиафан глубоко укоренён в структуре правительства США, где профессиональные бюрократы служат лишь пешками в играх своих хозяев, указывает экономист. Но игра начинается задолго до управления — она начинается на стадии выборов.
С языка сняли :) Пока ещё машинный перевод хорошо заметен.
Это был перевод сети в размере Q3 на большом компе я запускаю FP16 там отличный перевод
"Это был перевод сети..."
А кто именно переводил, если не секрет? Очень любопытно, меня такое качество вполне бы устроило.
cohereforai.aya-expanse-32b
Спасибо! Увы мне, я слишком неграмотен для такого. Придётся мучаться по старинке, гугля+яндекс и дальше мозгами-ручками собственную версию.
Извините, но как перевод это совсем не годится. "Что он имеется в виду?" - ещё можно быстро отредактировать, но "избирательных чиновников" - надо вот прямо раскапывать похороненный смысл.
во первых, сказано, что это модель заточена на генерацию кода основных языков программирования, я не перевода, но и с переводом справляется.
во вторых, что мешает сделать так?
Некоторые системы локализации используют API разных систем перевода в качестве "предложить вариант". За последний год прямо на глазах качество выросло, в т.ч. и Яндекс-переводчик. Самое радикальное отличие - стали перестраиваться фразы на русский манер. Перевод настолько хорош, что в каждой восьмой-десятой фразе в правках не нуждается. Это очень круто, я помню первые системы машинного перевода, они были только подстрочником и не более, без правки ни одного предложения кроме каких-то примитивов использовать не получалось.
Изменения от первых браузерных переводчиков разительны, тоже заметил.
https://x-doc.ai/
Страницы