Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion восстановит рецепт блюда по фотографии и решит пример на доске. При участии разработчиков из подразделений Sber AI и SberDevices Сбербанка.
Опубликован код OmniFusion
Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.
OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.
На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.
Ранее издание CNews уже сообщало о разрабтке. Например, с помощью ИИ можно решить логические задачи, написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX.
На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему. Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины. Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями. В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью.
В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices.
AIRI
Научно-исследовательский институт ИИ (AIRI), ранее имел название Институт ИИ Сбербанка – российская автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области ИИ. Основная цель института - создание универсальных систем ИИ для решения задач реального мира.
В декабре 2020 г. глава Сбербанка Герман Греф анонсировал открытие первого в России института ИИ. Образовательное учреждение заработает в Москве в январе 2021 г. Греф отмечал, что экосистемы банка ведут более тысячи исследовательских проектов в области ИИ, и на каждые 15 руб., проинвестированных в развитие команд Data Science, генерируется дополнительный доход в 100 руб. На 2022 г. более 90 научных сотрудников задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.
Модели искусственного интеллекта
ИИ-модель представляет собой программу, которая была обучена на наборе данных распознавать определенные закономерности или принимать определенные решения без дальнейшего вмешательства человека. Модели ИИ применяют различные алгоритмы к соответствующим входным данным, чтобы достичь тех задач или результатов, на которые они были запрограммированы. Проще говоря, ИИ-модель определяется ее способностью автономно принимать решения или делать прогнозы, а не имитировать человеческий интеллект. Одними из первых успешных моделей ИИ стали программы для игры в шашки и шахматы в 1950-х г. Модели позволяли программам делать ходы в прямой реакции на действия соперника, а не следовать заранее заготовленным сериям ходов.
Различные типы моделей ИИ лучше подходят для конкретных задач или областей, для которых их особая логика принятия решений наиболее полезна или актуальна. Сложные системы часто используют несколько моделей одновременно, применяя методы ансамблевого обучения, такие как bagging, boosting или stacking.
По мере того как инструменты ИИ на 2024 г. становятся все более сложными и универсальными, они требуют все более сложных объемов данных и вычислительной мощности для обучения и выполнения. В ответ на это системы, предназначенные для выполнения конкретных задач в одной области, уступают место базовым моделям, предварительно обученным на больших немаркированных наборах данных и способным решать широкий спектр задач. Эти универсальные базовые модели можно затем тонко настраивать для решения конкретных задач.
Один из способов различать модели машинного обучения - это их фундаментальная методология: большинство из них можно отнести либо к генеративным, либо к дискриминативным. Различие заключается в том, как они моделируют данные в заданном пространстве.
Глубокое обучение — совокупность методов машинного обучения, основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи Несколько слоев взаимосвязанных узлов постепенно получают данные, извлекают ключевые характеристики, выявляют взаимосвязи и уточняют решения в процессе, называемом прямым распространением. Другой процесс, называемый обратным распространением, применяет модели, которые вычисляют ошибки и соответствующим образом корректируют веса и смещения системы. Большинство продвинутых приложений ИИ, например большие языковые модели (LLM), которыми оснащаются современные чат-боты, используют глубокое обучение. Данные операции требует больших вычислительных ресурсов.
Источник: cnews.ru
Интересная идея, хотя и не совсем новая.
В свое время и ИБМ и Майкрософт и много кто ещё - похожее делали: отдать сообществу один проект, сделать его общедоступным и курировать его развитие, а по мере выявления чего-то реально полезного - это самое полезное брать задарма и реализовывать в своих коммерческих проектах.
"Кандинский" - Сбер тоже готов отдать? Ага. Вот то-то... А вдруг? :-)
Продолжаем наблюдать.
Комментарии
Я понимаю, что картинка из оригинальной статьи и вы ни при чём, но человечество пока не достигло такого уровня развития, чтобы писать ИИ на javascript.
Сберовцы - могут. Верю.
"вы ни при чём, но человечество пока не достигло такого уровня развития"
Я думаю, на картинке из оригинальной статьи показано как ИИ анализирует программный код в виде картинки.
Нет, это просто "картинка в тему" из онлайн каталога. Она не несёт никакой смысловой нагрузки и к теме статьи не относится - журналисты часто так делают. Самое первое появление найденное гуглом вот тут, это декабрь 2016 года. А вообще, это исходный код какого-то сайта открытый в IDE XCode для Mac OS.
И открыто на компе у дизыгнера чисто чтоб сделать картинку, учитывая что внизу краешком виднеются значки адоб фотошопа и адоб илюстратора, которые к слову весьма недешевы в странах победившего копирайта и где попало не стоят.
Любая LLM "поддерживает" русский язык. Просто потому, что обучают их на максимально возможном объёме текстов, который включает, конечно, и русские.
НИИИИ разработал Омническую Фузию.
Насколько понял, ссылка на исходники вот такая. Сам файлик с моделью выглядит вот так. Т.е. это совсем небольшой шажок сделанный с использованием общей модели.
Т.е. взяли стандартный TransformerEncoderLayer из torch.nn и чутка его дообучили. Ну как-бы показывает, что с уровнем совсем плохо.
Объём работы можно увидеть по строчкам:
Training Process consists of two stages
Интересно что это за существо "с безупречными полномочиями"?
А есть и профессора с упречными?Практика показывает, что системы с открытым доступом развиваются быстрее и, в значительной части, вытесняют закрытые системы. Так что, стратегически, ход очень верный.
Практика показывает, что на такой схеме много не заработаешь. А смысл любой разработки как раз в прибылях.
Долбите свой форк и вперед бабло качать.
Так что, школьники и студенты сейчас могут просто скармливать домашние задания ИИ?
Там ГДЗ в избытке.
да, ИИ гораздо лучше отвечает на вопросы чем гугл или яндекс. хотя его ответы всё ещё нужно перепроверять в гугле. потому что фантазия - неотъемлемое свойство ИИ на данном этапе и ограничивать её самостоятельно он ещё не может
У Сбера уже давно так, взять спецов с военки и гражданки, из получившейся закваски попытаться сделать продукт. Так сказать, что-то побольше чем аспирантура и стартапы.