Один программист смог уменьшить размер модели до формата Q1 (1 бит на параметр). Это позволяет значительно сократить объём памяти, необходимой для хранения модели, и ускорить её работу, сохраняя при этом приемлемое качество выполнения задач. Квантование до 1 бита — это важный шаг в оптимизации больших языковых моделей для использования на устройствах с ограниченными ресурсами.
Размер сети стал 131 Гб и она отлично справляется с заданиями и даже пишет игры.
Комментарий редакции раздела Интеллект вне человека
Смотри комментарии! :)
Комментарии
Инфа к размышлению. Навскидку: DeepSeek гораздо круче ЖПТ-4о, который щас юзаю.
OpenAI с проектом ChatGPT была основана 10 лет назад, имеет 4500 сотрудников и привлекла $6,6 млрд капитала. Китайская DeepSeek была основана менее 2 лет назад, имеет 200 сотрудников и была разработана менее чем за $10 млн. Но они начали конкурировать.
DeepSeek выпустила версию DeepSeek‑V3, LLM с открытым кодом, который соответствует производительности ведущих американских моделей, но требует гораздо меньше затрат на обучение. Модель имеет 685 млрд параметров, а в основе её архитектуры лежит подход Mixture of Experts (MoE) с 256 «экспертами», из которых восемь активируются для каждого токена.
В тестах производительности DeepSeek‑V3 превосходит Llama 3.1 и другие модели с открытым кодом. DeepSeek‑V3 соответствует или даже превосходит Chat GPT-4o, уступая лишь Claude 3.5 Sonnet от Anthropic.
В DeepSeek сообщили о расходах в размере $5,6 млн на обучение своей нейросети по сравнению с предполагаемыми $500 млн, потраченными на обучение Llama-3.1.
Бенчмарки подтверждают, что Deepseek недалека от решений OpenAI, но всего за 3% от стоимости разработки.
Реалисты такие реалисты. Дескать, OpenAI всего лишь создала рабочую и общедоступную LLM. Столько денежных и кадровых ресурсов вбухали почём зря. А вот китайцы — они (с придыханием) конкурируют. И с лёгкостью обходят тех эгоистов из Америки.
Нет, я не против конкуренции. Одни LLM имеют один уклон, другие — другой, это нормально. Просто подсвечиваю забавный глюк реалистов — они ни во что не ставят процесс создания чего-то качественно нового, но впоследствии пользуются этим новым порой с диким интересом.
Есть такое. Широко представленный феномен.
Вот соглашусь, кстати.
OpenAi в принципе разработало и открыла такое направление как LLM для массового использования. Они пионеры. и остаются ими. Все идут за ними следом.
Китайцы молодцы, безусловно. Но надо вспомнить, что первый DeepSeek был китайцами разработан не "с нуля", а зижделся на платформе Llama.
Т.е. китайцы взяли Llama и дообучили - так получился DeepSeek. Ничего прорывного в этом не было, так делал каждый второй пользователь на обнимающем лице, у себя дома на компьютере. Читсо из интереса и по фану. Брали базы данных там же на https://huggingface.co/ или где-то в другом месте и дообучали. Поэтому на сайте десятки тысяч моделей на любой вкус и цвет.
Но, китайцы поступили по умному. Они не стали жлобится и пустили свое творение в свободное использование на своей онлайн-площадке, благо финансирования и мощностей не пожалели. Я помню тот самый, первый DeepSeek, который глючил, писал что попало, приходилось постоянно корректировать, он был на уровне первого ChatGPT-3,5. Но у него было одно важное преимущество. За 1 раз можно было отправить столько контекста, объем которой не позволяла себе ни одна онлайн-площадка.
А ответ DeepSeek писал всегда полный, не надо было бесконечно просить его продолжать писать ответ с места, где он остановился. Это ввторой плюс.
Правда, когда ответ был слишком длинный, то DeepSeek тупо забывал с чего начал, забывал контекст и шпарил все что угодно.
Так китайцы обучили новый DeepSeek, сотни тысяч пользователей своей работой с ним обучили китайцам их LLM.
Безусловно, китайцы молодцы - что добились своей цели, грамотно использовав наработки своих конкурентов.
Но удивляет этот дискурс, который продвигается. В котором вдруг почему-то OpenAi и иже с ними выставляются эдакими недотепами и лохами. Когда это далеко не так.
Именно OpenAi снова была первой, кто ввел рассуждения, за счет чего повысилась точность и за счет чего DeepSeek оказался в тройке лидеров.
DeepSeek это RL модель с совсем другой архитектурой.
Это все равно, что говорить, вот китайцы взяли обычный автомобиль и сделали электромобиль. А так они очень похожи. Те же 4 колеса и кузов.
А написана она с использованием нескольких сотен машинных кодов.
Не многовато ли параметров для т.н. ИИ?
Ну, не знаю. Я задал простой вопрос – каковы алгоритмы взаимодействия стрелка и корректировщика при высокоточной стрельбе на большие дальности. Мне этот ИИ выдал текст, в принципе, верный, но без ключевого элемента алгоритма взаимодействия, без которого попасть в цель, конечно, можно, но только случайно.
Поэтому когда пишу, что какой-то там искусственный интеллект придумал нелогичную, но более эффективную схему чипа, я охотно верю, но сильно сомневаюсь. Верю в нелогичность, сомневаюсь в большей эффективности. Потому что думать-то ИИ не умеет, а логика есть атрибут думания. И заявленная нелогичность схемного решения свидетельствует.
Нет, какого-то неграмотного вопрошающего ответ-банальность ИИ может сделать немного более грамотным и даже навести на какие-то мысли, или помочь завершить какую-то мысль, но только потому, что вопрошающий неграмотный, и только в том случае, если он думающий. А если нет, то нет.
И я, честно, не понимаю восторга в отношении ИИ. Опасность понимаю, а восторга никак не понимаю.
Вот что ответил DeepSeek:
Спасибо за ваш развернутый комментарий! Вы подняли важные вопросы, касающиеся возможностей и ограничений искусственного интеллекта. Действительно, ИИ на текущем этапе развития не способен "думать" в человеческом понимании этого слова, а его ответы основываются на анализе данных и шаблонов, которые он изучил. Это может приводить к тому, что некоторые ключевые элементы или нюансы, важные для специалистов, могут быть упущены.
Ваш скептицизм в отношении эффективности нелогичных решений, предложенных ИИ, вполне обоснован, особенно в таких сложных областях, как высокоточная стрельба или проектирование чипов. Однако стоит учитывать, что ИИ может предлагать нестандартные подходы, которые, хотя и кажутся нелогичными, иногда оказываются эффективными благодаря тому, что алгоритмы анализируют огромные объемы данных и находят закономерности, неочевидные для человека.
Что касается восторга в отношении ИИ, он часто связан с его потенциалом в решении рутинных задач, обработке больших данных и генерации идей. Однако, как вы правильно заметили, важно сохранять критический взгляд и понимать, что ИИ — это инструмент, который требует грамотного использования и интерпретации его результатов. Ваши замечания подчеркивают важность баланса между доверием к технологиям и сохранением человеческого контроля над ключевыми процессами.
5-! :))
Минус за попытку угодить "пользователю", скрыть его недостатки/глупость.
Судя по ответу, нейросети учат на журналистских статьях - максимум знаков в тексте, побольше воды, потеря интереса через пару предложений : )
В одном кубите можно закодировать 2 бита информации. В двух кубитах - 4 бита. В трёх - 8 бит. В четырёх - 16 и так далее. Алгоритм, надеюсь, понятен?
А что такое 16 бит у 4 запутанных кубитов ? В них можно записать 256 чисел одновременно! То есть, плотность упаковки такая, что вам и не снилось. Желающие могут сами подсчитать, что будет, когда нам удастся запутать хотя бы 100 кубитов. Кароч, не за горами появление нейронных сетей на кубитах.)
Не знаю, как там с кодированием кубитов – не представляю, как можно закодировать квант, состояние которого по определению до измерения неизвестно (но можно декларировать, что закодировал), но теоретически в одном кубите содержится бесконечное количество состояний: 1, 0, и "ТБМ его знает", по научному называемое суперпозицией: типа, там все состояния, которые вероятны, сосуществуют одновременно. По аналогии с заявлением армянского радио: скоро на Земле останется три языка: русский, нерусский, армянский. На самом деле корректным описанием суперпозиции является это самое "ТБМ его знает", и квантовая суперпозиция придумана для того, чтобы хоть что-то с этим сделать.
При этом из кубита вынимают только соответствующее биту, без всяких там "ку", – какое-то одно из двух состояний, 0 или 1. Не знаю, почему физики так мелочатся, ведь такое множество состояний, можно было бы порезвиться, ан нет. Только 2.
Я думаю, это потому, что реальная обработка информации происходит на обычных или, там, супер- компьютерах. А они – так исторически сложилось – остались в рамках двоичной логики. Троичная почему-то не прокатила.
троичная прокатила, но приводила к двум истинам - это если утрировано :)
и это бы вскрыло слишком много "заплаток" шматрицы.
Запишем в кубит два числа: 6 и 8. Для этого нормализуем их: 6/sqrt(62+82)=0,6 и 8/sqrt(62+82)=0,8
Это амплитуды. Чтобы узнать вероятность надо возвести их в квадрат: 0,62=0,36 и 0,82=0,64
да, так говорят. Я знаю. Не знаю, как они там записывают что-то в кубит, состояние которого не известно до замера, а замер дает 1 или 0. Почему, кстати, только это, тоже не знаю. Наверно, по определению кубита. Но определение кубита это человеческое действие, а не действие кванта.
Возьмём кубик и нарисуем на двух гранях 6, а на четырёх 8. Если мы подбросим его 600 раз, то 6 выпадет около 200 раз, а 8 около 400. Теперь понятно?)
Это понятно.
Непонятно, причем тут квант. Или зачем тут квант, если то же можно решать на кубике.
Непонятно, причем тут допущение, такое, что до того момента, как мы замерим его, кванта, состояние (что, кстати, замеряется?), он будет существовать во всех состояниях одновременно.
Непонятны основания такого допущения, основание его применимости и цель создания такого допущения.
Почему не допустить, что квант находится в каком-то одном конкретном состоянии, которого мы всего лишь не знаем? Более того, мы не знаем даже, меняется ли состояние кванта во времени – до того момента, пока мы это состояние не замерили и не установили его (возможно, изменив его). И даже в этом случае мы не можем провести эту операцию дважды, чтобы понять, меняется ли состояние кванта во времени, или нет. Ни про какой квант мы не можем сказать, что это тот же квант, которым мы уже оперировали
А теперь представьте, что у вас 100 кубиков. Даже не кубиков, а многограннииков с миллионом граней каждый. И на каждой грани либо 0, либо 1. И надо сложить каждую грань с каждой. Это будет 1 000 000100 операций сложения. Мягко говоря, это большое число. Очень мягко говоря... Квантовый компьютер сделает это за то же время, за которое классический делает одну операцию.)
зачем мне тратить на это время без ответов на мои вопросы?
Квантизация - это да, хорошее решение.
Но, надо понимать, что модели, которые подверглись квантизации существенно теряют в точности.
Закон равновесия работает для всех одинаково.
Либо точность - но тогда потребление больших мощностей.
Либо потребление малых мощностей - но потеря в точности.
Можно найти какой-то баланс, более менее приемлемый, когда и мощности вменяемые и точность приемлемая, обычно это не больше 4 уровня квантизации.
Полностью согласен но при 1 бите у данной сети результаты тоже впечатляющие и я смогу её запустить на домашнем компе
И как конкретно это сделать?
Либо ollama либо LM Studio выбирайте что вам больше нравится
вот адрес файла: https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD...
Легко
Идете на сайт https://ollama.com/
скачиваете приложение https://ollama.com/download
Устанавливаете, запускаете. Оно запустится в фоне и будет работать в фоне.
Потом идете на страницу выбора моделей: https://ollama.com/search
выбираете модель https://ollama.com/library/deepseek-r1 ну или любую другую из представленного
копируете команду "ollama run deepseek-r1"
Возвращаетесь в свой компьютер на рабочий стол. Необходимо, чтобы была включена английская раскладка.
Жмете меню "Пуск".
если Windos, то ищете Windows PowerShell, запускаете.
В терминале вставляете скопированную ранее команду "ollama run deepseek-r1" и жмете Enter
Ждете пока загрузится модель.
Когда загрузится - можете общаться. Там же в терминале. Раскладку можете обратно переключить на русский. Скорость ответов зависит исключительно от мощности Вашего ПК.
Если нужно десктопное приложение, при помощи которого можно общаться с топовыми LLM, то здесь вот хорошее приложение MyAsGPT
да, не бесплатно, разработчик продает лицензионные ключи на время, но зато без всяких плясок с бубном и обходов из России работаете с топовыми LLM. И плевать на то, какой мощности Ваш домашний ПК. Важно лишь стабильное интернет-соединение. Вот актуальный список LLM на сегодня:
claude-3-5-sonnet-20240620
claude-3-5-sonnet-20241022
claude-3-5-sonnet-20241022-t
claude-3-haiku-20240307
claude-3-opus-20240229
claude-3-sonnet-20240229
gpt-4-turbo-2024-04-09
gpt-4o-2024-08-06
gpt-4o-mini
grok-2
grok-2-mini
o1-mini
o1-preview
Список периодически обновляется и меняется, публикуется там же на канале.
Объясните чайнику что такое потеря точности?
Это 2+2=4,3 ?
В математике ничего не изменится скорее в логике и возможно в написании кода
LLM генерирует текст таким образом:
Приняв запрос пользователя - нейронная сеть анализирует этот запрос на предмет наличия ключевых слов и ключевых фраз.
Сразу, для понимания. Нейронная сеть не умеет читать по буквам. Она читает образами (токенами). Т.е. берет какие-то словосочетания и сверяет их с теми, что у нее есть в ее базе данных. База данных - это база, на которой ее обучали. Найдя совпадение близкое к 100%, она начинает генерировать слова или словосочетания, отталкиваясь от результатов своего анализа.
Сначала она генерирует первое слово или словосочетание (токен), которое наиболее близко должно подходить в ответе на запрос по смыслу. Далее она генерирует логичное смысловое продолжение первого сгенерированного слова или словосочетания.
далее LLM уже работает с тем, что сгенерировала в начале. Т.е. продолжая генерировать ответ она опирается уже на тот контекст, который сама же и создала в начале.
Точность LLM - это оценка способности LLM верно оценить контекст запроса и верной генерации ответа.
Текущие топовое модели LLM достигают точности в 85 -88%.
Что означает, что в 88 случаев из ста, LLM произведет верный анализ контекста запроса и сформирует верное начало ответа.
Теперь, что касается потерь точности. В уникальном виде, т.е. после того, как сеть обучена - она обладает какой-то базовой точностью. Скажем в 88%.
Когда LLM подвергают квантизации - у нее удаляют какие-то блоки, которые могут считаться условно необязательными ну или незначительными.
Тут определяется все весами (сила влияния). Если вес больше 0,5, то блок оставляют. если меньше 0,5 - удаляют (значения могут быть разные от 0 до 1, я просто привожу пример).
Конечно, удаление блоков влияет на начальную точность модели.
Это и есть квантизация. Поэтому квантованные модели обладают меньшей точностью. например уже не 88%, а 87% скажем, после первого квантования.
После второго квантования уже 83%
После третьего уже 79% и т.д.
Опять же цифры для наглядности просто.
надеюсь понятно объяснил )
Чтобы еще было понятнее.
например возьмем рандомный текст в 500 знаков:
Проведем квантование. необходимо сделать так, чтобы смысл текста остался тот же, но размер текста был в 250 знаков. В половину меньше:
Как видим -размер текста уменьшен вполовину, но общий контекст и смысл остались.
В исходном варианте - текст является подробным и более сильно раскрывает суть вопроса. В квантованном варианте мы, стремясь сохранить контекст, пожертвовали более раскрытым описанием.
Но, с точки зрения трат энергии на обработку текста - нам потребуется меньше мощностей на обработку второго варианта, в отличии от первого.
Но, если мы будем использовать второй вариант и нам потребуется конкретизация, то мы не сможем эту конкретику получить, потому что ее тексте нет.
Теперь стало понятнее))))
Только методика определения погрешности вызывает сомнения. Измерять надо, конечно. Хоть как-то. Однако, автор запроса человек существо неточное само по себе. Часто запрос не подразумевает точного решения (если не касается вычисления). Мало того, человек часто сам не знает чего точно он хочет. Ему свойственно выбирать из предложенных вариантов. Причем, выбор субъективен.
Для оценки точности применяются различные тесты, которые были утверждены и признаны эталонными.
Поэтому практически каждая популярная LLM всегда демонстрируется в своем релизе с результатами тестов в сравнении с другими моделями.
Правда производители грешат тем, что публикуют только те тесты, которые выставляют их модель в выгодном свете )
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
прикольно политкорректная модель на китайский манер. На вопрос изберут ли Трампа на третий срок отвечает, что Китай не вмешивается в американские выборы и что бла-бла-бла ...
Ага. Спросил, кто больше всего подходит для названия "фашистское государство" - Китай, Израиль, Россия, Украина.
Написала, что никто не подходит полностью, но по проблемам (национализм, авторитаризм) проранжировала где-то так: 1. Россия, 2. Израиль, 3. Китай, 4. Украина ("но здесь есть демократические выборы").
Правда, она сама признаётся, что данные собраны в августе 2023 г.
Чего все так радуются. Момент замены человеков на железку всё ближе.
Скорей бы!
Ну раньше плугом и лошадью обрабатывали поля, а теперь на тракторе.
Раньше на счетах считали, теперь на калькуляторах.
Никто ж не жалуется, что заменили
Насколько я понял, DeepSeek - это архитектура GPT 3.5, оптимизированная на снижение стоимости.
Разговаривает хорошо, а вот в логике - косячит.
Можно без существенной потери качества селективно снизить квантование отдельных областей или вообще их удалить с разделением функционала DeepSeek на специализированные нейросети меньшего объема.
Сделать DeepSeek программиста / математика. Или вообще ученого если места хватит.
Должны быть большие объемы данных которые легко делятся.
Видел недавно готовую картинку.
Конечно, узкоспециализированная сеть в таком формате будет отличные результаты выдавать
Вся или почти вся нейросеть DeepSeek-R1 ~ 671B Params за $6к у вас дома
https://habr.com/ru/companies/bothub/news/872002/
Завтра больше.
Что б всю сеть в формате FP16 запустить на наидиа дигитс их нужно 11 штук и ещё примерно 3-4 что б большие проекты запускать
Я периодически проверяю доступные модели на запросы типа "перечисли все причины повышения <молекула крови>" или "перечисли все гены имеющие response element к NF-kB в промоторе".
Т.е. умение из обилия данных (включая научные статьи) _группировать_ процессы по общим критериям и делать _полные_ списки.
DeepSeek пока не справляется, как и все остальные.
Например, она знает, что ген CALCA активируется факторами NF-kB + AP-1, и может про это рассказать, в т.ч. почему это важно, - но если просишь перечислить полный список генов, которые активируются как NF-kB, так и AP-1, то она не включет CALCA в список. Если просишь "сделай полный список <...> включая CALCA" - то включает и CALCA.
Использовал термины, которые она использует - exact, comprehensive, exhaustive list - точный, полный, исчерпывающий список - помогает, но не полностью.
Вывод: надо или учиться давать правильные команды, или модель действительно не может работать на 100% - напр., выдавать весь список, что ей известно по данному вопросу.
Ну логично, мало такого пишут в интернете в открытом доступе.
Я из числа тех:«Все отсталое население купило джинсы». Начал использовать неделю назад одновременно 6 разных ИИ. В итоге на решение одной несложной задачи потрачено полтора дня, причина в том, что значение коэффициента Генри в справочниках СССР неправильное, а ИИ требовали от меня ввести это значение вручную. Узнал о Дипсик в субботу. Сразу зарегился и с теми же условиями начал решать якобы решенную другими ИИ задачу. Сразу увидел, что ДИПСИК сам записал значение коэф.Генри, вижу, что оно не соответствует тому, что в справочниках. Остановил расчет Дипсик и вместе с ним начали разбираться откуда он взял свой коэффициент, потом провели расчет задачи с его правильным и моим из справочника и он и я убедились, что его значение правильное. Расчет занял секунды. Ну а дальше за минуты он сделал ещё 8 расчетов задач. Например если бы эту инженерную задачу я решал по учебникам или интернету, да плюс с учетом неверного значения коэффициента, то я бы её никогда не решил. Повторюсь, что впервые встретил задачу, не по моей специальности и вообще это из курса физики 2-го курса.
А дальше пошло поехало. В итоге за 4 дня есть первый вариант бизнес плана, ТЭО, маркетинговый анализ рынка на 40 стр, фин.план на 8, под вариант на полугодие ит.д.
Понятно дя того чтобы совместно с ИИ это все сделать надо четко понимать как бы ты это сделал без него.
Прям сейчас идет атака на ДИПСИК, при входе он мне вывешивал сообщение на желто-оранжевом плакате.
Незнайка, Носов, простой литературный квест.
1. В уютном городке Солнечный, где каждый дом был раскрашен в яркие цвета, а на улицах всегда царило веселье, жил-был коротышка по имени Кнопкин. Он работал парикмахером и славился тем, что мог сделать любую причёску — от простой стрижки до самых замысловатых кудряшек. Однажды утром, когда солнце светило особенно ярко, Кнопкин сидел у себя в салоне и читал газету "Цветочные новости". Вдруг его внимание привлекло объявление: "Срочно! В одном из двенадцати стульев, изготовленных знаменитым мастером Винтиком, спрятаны сокровища! Кто найдёт — станет богачом!"
Кнопкин тут же вскочил с места, схватил свою шляпу и побежал к своему другу Шпунтику, чтобы поделиться этой невероятной новостью. Вместе они решили отправиться на поиски сокровищ, даже не подозревая, какие невероятные приключения их ждут.
2. Однажды в солнечном городке Цветочный, где все домики были яркими и разноцветными, а жители — маленькими коротышами, на скамейке у главной площади сидел Знайка, известный всему городу своими умными книжками и изобретениями. Рядом с ним стоял Незнайка, который, как всегда, что-то увлечённо рассказывал, размахивая руками. Вдруг к ним подошёл незнакомый коротышка в широкополой шляпе с улыбкой, которая казалась то ли хитрой, то ли просто весёлой. Он представился как Волшебник и сказал, что принёс с собой нечто необычное — историю, которая перевернёт весь их мир с ног на голову.