Россияне выложили в открытый доступ исходный код мультимодального ИИ

Аватар пользователя Ivanovich

Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion восстановит рецепт блюда по фотографии и решит пример на доске. При участии разработчиков из подразделений Sber AI и SberDevices Сбербанка.

Опубликован код OmniFusion

Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.

OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.

На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.

Ранее издание CNews уже сообщало о разрабтке. Например, с помощью ИИ можно решить логические задачи, написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX.

На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему. Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины. Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями. В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью.

В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices.

AIRI

Научно-исследовательский институт ИИ (AIRI), ранее имел название Институт ИИ Сбербанка – российская автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области ИИ. Основная цель института - создание универсальных систем ИИ для решения задач реального мира.

В декабре 2020 г. глава Сбербанка Герман Греф анонсировал открытие первого в России института ИИ. Образовательное учреждение заработает в Москве в январе 2021 г. Греф отмечал, что экосистемы банка ведут более тысячи исследовательских проектов в области ИИ, и на каждые 15 руб., проинвестированных в развитие команд Data Science, генерируется дополнительный доход в 100 руб. На 2022 г. более 90 научных сотрудников задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.

Модели искусственного интеллекта

ИИ-модель представляет собой программу, которая была обучена на наборе данных распознавать определенные закономерности или принимать определенные решения без дальнейшего вмешательства человека. Модели ИИ применяют различные алгоритмы к соответствующим входным данным, чтобы достичь тех задач или результатов, на которые они были запрограммированы. Проще говоря, ИИ-модель определяется ее способностью автономно принимать решения или делать прогнозы, а не имитировать человеческий интеллект. Одними из первых успешных моделей ИИ стали программы для игры в шашки и шахматы в 1950-х г. Модели позволяли программам делать ходы в прямой реакции на действия соперника, а не следовать заранее заготовленным сериям ходов.

Различные типы моделей ИИ лучше подходят для конкретных задач или областей, для которых их особая логика принятия решений наиболее полезна или актуальна. Сложные системы часто используют несколько моделей одновременно, применяя методы ансамблевого обучения, такие как bagging, boosting или stacking.

По мере того как инструменты ИИ на 2024 г. становятся все более сложными и универсальными, они требуют все более сложных объемов данных и вычислительной мощности для обучения и выполнения. В ответ на это системы, предназначенные для выполнения конкретных задач в одной области, уступают место базовым моделям, предварительно обученным на больших немаркированных наборах данных и способным решать широкий спектр задач. Эти универсальные базовые модели можно затем тонко настраивать для решения конкретных задач.

Один из способов различать модели машинного обучения - это их фундаментальная методология: большинство из них можно отнести либо к генеративным, либо к дискриминативным. Различие заключается в том, как они моделируют данные в заданном пространстве.

Глубокое обучение — совокупность методов машинного обучения, основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи Несколько слоев взаимосвязанных узлов постепенно получают данные, извлекают ключевые характеристики, выявляют взаимосвязи и уточняют решения в процессе, называемом прямым распространением. Другой процесс, называемый обратным распространением, применяет модели, которые вычисляют ошибки и соответствующим образом корректируют веса и смещения системы. Большинство продвинутых приложений ИИ, например большие языковые модели (LLM), которыми оснащаются современные чат-боты, используют глубокое обучение. Данные операции требует больших вычислительных ресурсов.

Источник: cnews.ru

Авторство: 
Копия чужих материалов
Комментарий автора: 

Главное, что лично мне нравиться - не тырят мелочь по карманам, ссылаясь на всякие  интеллектуальные права, а в открытый доступ. Хорошая тенденция.

Комментарий редакции раздела Альтернативный Интеллект

Интересная идея, хотя и не совсем новая.

В свое время и ИБМ и Майкрософт и много кто ещё - похожее делали: отдать сообществу один проект, сделать его общедоступным и курировать его развитие, а по мере выявления чего-то реально полезного - это самое полезное брать задарма и реализовывать в своих коммерческих проектах.

"Кандинский" - Сбер тоже готов отдать? Ага. Вот то-то... А вдруг? :-)

Продолжаем наблюдать.

Комментарии

Аватар пользователя qwweer
qwweer(8 лет 9 месяцев)

Я понимаю, что картинка из оригинальной статьи и вы ни при чём, но человечество пока не достигло такого уровня развития, чтобы писать ИИ на javascript.

Аватар пользователя Феофан Пургелин

Сберовцы - могут. Верю.

Аватар пользователя Василий Р
Василий Р(2 года 6 месяцев)

"вы ни при чём, но человечество пока не достигло такого уровня развития"

Аватар пользователя Dom
Dom(1 год 9 месяцев)

Я думаю, на картинке из оригинальной статьи показано как ИИ анализирует программный код в виде картинки.

Аватар пользователя qwweer
qwweer(8 лет 9 месяцев)

Нет, это просто "картинка в тему" из онлайн каталога. Она не несёт никакой смысловой нагрузки и к теме статьи не относится - журналисты часто так делают. Самое первое появление найденное гуглом вот тут, это декабрь 2016 года. А вообще, это исходный код какого-то сайта открытый в IDE XCode для Mac OS.

Аватар пользователя ВВК
ВВК(6 лет 2 месяца)

И открыто на компе у дизыгнера чисто чтоб сделать картинку, учитывая что внизу краешком виднеются значки адоб фотошопа и адоб илюстратора, которые к слову весьма недешевы в странах победившего копирайта и где попало не стоят.

Аватар пользователя An-Swer
An-Swer(11 лет 7 месяцев)

Любая LLM "поддерживает" русский язык. Просто потому, что обучают их на максимально возможном объёме текстов, который включает, конечно, и русские.

Аватар пользователя ukc_urpek
ukc_urpek(6 лет 10 месяцев)

НИИИИ разработал Омническую Фузию.

Аватар пользователя balmer
balmer(6 лет 6 месяцев)

Насколько понял, ссылка на исходники вот такая. Сам файлик с моделью выглядит вот так. Т.е. это совсем небольшой шажок сделанный с использованием общей модели.

Т.е. взяли стандартный TransformerEncoderLayer из torch.nn и чутка его дообучили. Ну как-бы показывает, что с уровнем совсем плохо.

Объём работы можно увидеть по строчкам:

Training Process consists of two stages

DocVQA Proprietary data (ru) 20K
Text-only SFT Proprietary data (ru), Alpaca (en) 10K

Аватар пользователя Flugkater
Flugkater(2 года 2 месяца)

эксперт является профессором медицины или хирургии с ... безупречными полномочиями

Интересно что это за существо "с безупречными полномочиями"? А есть и профессора с упречными?

Аватар пользователя Хитрый Лис
Хитрый Лис(8 лет 10 месяцев)

Практика показывает, что системы с открытым доступом развиваются быстрее и, в значительной части, вытесняют закрытые системы. Так что, стратегически, ход очень верный.

Аватар пользователя Agat
Agat(10 лет 9 месяцев)

Практика показывает, что на такой схеме много не заработаешь. А смысл любой разработки как раз в прибылях.

Аватар пользователя Coolerman
Coolerman(4 года 1 месяц)

Долбите свой форк и вперед бабло качать.

Аватар пользователя Baltic
Baltic(2 года 12 месяцев)

Так что, школьники и студенты сейчас могут просто скармливать домашние задания ИИ?

Аватар пользователя Coolerman
Coolerman(4 года 1 месяц)

Там ГДЗ в избытке.

Аватар пользователя ДоброКот
ДоброКот(10 лет 2 недели)

да, ИИ гораздо лучше отвечает на вопросы чем гугл или яндекс. хотя его ответы всё ещё нужно перепроверять в гугле. потому что фантазия - неотъемлемое свойство ИИ на данном этапе и ограничивать её самостоятельно он ещё не может

Аватар пользователя Pavel_777
Pavel_777(7 лет 1 месяц)

У Сбера уже давно так, взять спецов с военки и гражданки, из получившейся закваски попытаться сделать продукт. Так сказать, что-то побольше чем аспирантура и стартапы.