Россияне выложили в открытый доступ исходный код мультимодального ИИ

5.4K 09:18 - 11/Апр/24 Аккаунт приостановлен

(12 лет 5 месяцев)

Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion восстановит рецепт блюда по фотографии и решит пример на доске. При участии разработчиков из подразделений Sber AI и SberDevices Сбербанка.

Опубликован код OmniFusion

Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.

OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.

На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.

Ранее издание CNews уже сообщало о разрабтке. Например, с помощью ИИ можно решить логические задачи, написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX.

На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему. Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины. Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями. В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью.

В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices.

AIRI

Научно-исследовательский институт ИИ (AIRI), ранее имел название Институт ИИ Сбербанка – российская автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области ИИ. Основная цель института - создание универсальных систем ИИ для решения задач реального мира.

В декабре 2020 г. глава Сбербанка Герман Греф анонсировал открытие первого в России института ИИ. Образовательное учреждение заработает в Москве в январе 2021 г. Греф отмечал, что экосистемы банка ведут более тысячи исследовательских проектов в области ИИ, и на каждые 15 руб., проинвестированных в развитие команд Data Science, генерируется дополнительный доход в 100 руб. На 2022 г. более 90 научных сотрудников задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.

Модели искусственного интеллекта

ИИ-модель представляет собой программу, которая была обучена на наборе данных распознавать определенные закономерности или принимать определенные решения без дальнейшего вмешательства человека. Модели ИИ применяют различные алгоритмы к соответствующим входным данным, чтобы достичь тех задач или результатов, на которые они были запрограммированы. Проще говоря, ИИ-модель определяется ее способностью автономно принимать решения или делать прогнозы, а не имитировать человеческий интеллект. Одними из первых успешных моделей ИИ стали программы для игры в шашки и шахматы в 1950-х г. Модели позволяли программам делать ходы в прямой реакции на действия соперника, а не следовать заранее заготовленным сериям ходов.

Различные типы моделей ИИ лучше подходят для конкретных задач или областей, для которых их особая логика принятия решений наиболее полезна или актуальна. Сложные системы часто используют несколько моделей одновременно, применяя методы ансамблевого обучения, такие как bagging, boosting или stacking.

По мере того как инструменты ИИ на 2024 г. становятся все более сложными и универсальными, они требуют все более сложных объемов данных и вычислительной мощности для обучения и выполнения. В ответ на это системы, предназначенные для выполнения конкретных задач в одной области, уступают место базовым моделям, предварительно обученным на больших немаркированных наборах данных и способным решать широкий спектр задач. Эти универсальные базовые модели можно затем тонко настраивать для решения конкретных задач.

Один из способов различать модели машинного обучения - это их фундаментальная методология: большинство из них можно отнести либо к генеративным, либо к дискриминативным. Различие заключается в том, как они моделируют данные в заданном пространстве.

Глубокое обучение — совокупность методов машинного обучения, основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи Несколько слоев взаимосвязанных узлов постепенно получают данные, извлекают ключевые характеристики, выявляют взаимосвязи и уточняют решения в процессе, называемом прямым распространением. Другой процесс, называемый обратным распространением, применяет модели, которые вычисляют ошибки и соответствующим образом корректируют веса и смещения системы. Большинство продвинутых приложений ИИ, например большие языковые модели (LLM), которыми оснащаются современные чат-боты, используют глубокое обучение. Данные операции требует больших вычислительных ресурсов.

Источник: cnews.ru

Авторство:

Копия чужих материалов

Использованные источники:

Россияне выложили в открытый доступ исходный код мультимодального ИИ

Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы...

Комментарий автора:

Главное, что лично мне нравиться - не тырят мелочь по карманам, ссылаясь на всякие интеллектуальные права, а в открытый доступ. Хорошая тенденция.

Комментарий редакции раздела Альтернативный Интеллект

Интересная идея, хотя и не совсем новая.

В свое время и ИБМ и Майкрософт и много кто ещё - похожее делали: отдать сообществу один проект, сделать его общедоступным и курировать его развитие, а по мере выявления чего-то реально полезного - это самое полезное брать задарма и реализовывать в своих коммерческих проектах.

"Кандинский" - Сбер тоже готов отдать? Ага. Вот то-то... А вдруг? :-)

Продолжаем наблюдать.

@Социальная инфраструктура#IT-технологии

Блог пользователя Ivanovich | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Нет, это просто "картинка в тему" из онлайн каталога. Она не несёт никакой смысловой нагрузки и к теме статьи не относится - журналисты часто так делают. Самое первое появление найденное гуглом вот тут, это декабрь 2016 года. А вообще, это исходный код какого-то сайта открытый в IDE XCode для Mac OS.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 2 месяца)15:21-12/Апр/24

И открыто на компе у дизыгнера чисто чтоб сделать картинку, учитывая что внизу краешком виднеются значки адоб фотошопа и адоб илюстратора, которые к слову весьма недешевы в странах победившего копирайта и где попало не стоят.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 7 месяцев)09:39-11/Апр/24

Любая LLM "поддерживает" русский язык. Просто потому, что обучают их на максимально возможном объёме текстов, который включает, конечно, и русские.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 10 месяцев)09:51-11/Апр/24

НИИИИ разработал Омническую Фузию.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 6 месяцев)11:01-11/Апр/24

Насколько понял, ссылка на исходники вот такая. Сам файлик с моделью выглядит вот так. Т.е. это совсем небольшой шажок сделанный с использованием общей модели.

Т.е. взяли стандартный TransformerEncoderLayer из torch.nn и чутка его дообучили. Ну как-бы показывает, что с уровнем совсем плохо.

Объём работы можно увидеть по строчкам:

Training Process consists of two stages

DocVQA

Proprietary data (ru)

20K

Text-only SFT

Proprietary data (ru), Alpaca (en)

10K

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(2 года 2 месяца)10:53-11/Апр/24

эксперт является профессором медицины или хирургии с ... безупречными полномочиями

Интересно что это за существо "с безупречными полномочиями"? ~~А есть и профессора с упречными?~~

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 10 месяцев)11:15-11/Апр/24

Практика показывает, что системы с открытым доступом развиваются быстрее и, в значительной части, вытесняют закрытые системы. Так что, стратегически, ход очень верный.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 9 месяцев)12:07-11/Апр/24

Практика показывает, что на такой схеме много не заработаешь. А смысл любой разработки как раз в прибылях.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 1 месяц)12:13-11/Апр/24

Долбите свой форк и вперед бабло качать.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(2 года 12 месяцев)11:50-11/Апр/24

Так что, школьники и студенты сейчас могут просто скармливать домашние задания ИИ?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 1 месяц)12:14-11/Апр/24

Там ГДЗ в избытке.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 2 недели)15:24-11/Апр/24

да, ИИ гораздо лучше отвечает на вопросы чем гугл или яндекс. хотя его ответы всё ещё нужно перепроверять в гугле. потому что фантазия - неотъемлемое свойство ИИ на данном этапе и ограничивать её самостоятельно он ещё не может

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(7 лет 1 месяц)18:18-11/Апр/24

У Сбера уже давно так, взять спецов с военки и гражданки, из получившейся закваски попытаться сделать продукт. Так сказать, что-то побольше чем аспирантура и стартапы.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Россияне выложили в открытый доступ исходный код мультимодального ИИ

Опубликован код OmniFusion

AIRI

Модели искусственного интеллекта

Комментарии

Training Process consists of two stages