дровосек • Deepseek 671B

OpenAI с проектом ChatGPT была основана 10 лет назад, имеет 4500 сотрудников и привлекла $6,6 млрд капитала. Китайская DeepSeek была основана менее 2 лет назад, имеет 200 сотрудников и была разработана менее чем за $10 млн. Но они начали конкурировать.

DeepSeek выпустила версию DeepSeek‑V3, LLM с открытым кодом, который соответствует производительности ведущих американских моделей, но требует гораздо меньше затрат на обучение. Модель имеет 685 млрд параметров, а в основе её архитектуры лежит подход Mixture of Experts (MoE) с 256 «экспертами», из которых восемь активируются для каждого токена.

В тестах производительности DeepSeek‑V3 превосходит Llama 3.1 и другие модели с открытым кодом. DeepSeek‑V3 соответствует или даже превосходит Chat GPT-4o, уступая лишь Claude 3.5 Sonnet от Anthropic.

В DeepSeek сообщили о расходах в размере $5,6 млн на обучение своей нейросети по сравнению с предполагаемыми $500 млн, потраченными на обучение Llama-3.1.

Бенчмарки подтверждают, что Deepseek недалека от решений OpenAI, но всего за 3% от стоимости разработки.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 1 месяц)05:42-28/Янв/25

Реалисты такие реалисты. Дескать, OpenAI всего лишь создала рабочую и общедоступную LLM. Столько денежных и кадровых ресурсов вбухали почём зря. А вот китайцы — они (с придыханием) конкурируют. И с лёгкостью обходят тех эгоистов из Америки.

Нет, я не против конкуренции. Одни LLM имеют один уклон, другие — другой, это нормально. Просто подсвечиваю забавный глюк реалистов — они ни во что не ставят процесс создания чего-то качественно нового, но впоследствии пользуются этим новым порой с диким интересом.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 4 месяца)06:49-28/Янв/25

Есть такое. Широко представленный феномен.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)06:56-28/Янв/25

Вот соглашусь, кстати.
OpenAi в принципе разработало и открыла такое направление как LLM для массового использования. Они пионеры. и остаются ими. Все идут за ними следом.

Китайцы молодцы, безусловно. Но надо вспомнить, что первый DeepSeek был китайцами разработан не "с нуля", а зижделся на платформе Llama.

Т.е. китайцы взяли Llama и дообучили - так получился DeepSeek. Ничего прорывного в этом не было, так делал каждый второй пользователь на обнимающем лице, у себя дома на компьютере. Читсо из интереса и по фану. Брали базы данных там же на https://huggingface.co/ или где-то в другом месте и дообучали. Поэтому на сайте десятки тысяч моделей на любой вкус и цвет.
Но, китайцы поступили по умному. Они не стали жлобится и пустили свое творение в свободное использование на своей онлайн-площадке, благо финансирования и мощностей не пожалели. Я помню тот самый, первый DeepSeek, который глючил, писал что попало, приходилось постоянно корректировать, он был на уровне первого ChatGPT-3,5. Но у него было одно важное преимущество. За 1 раз можно было отправить столько контекста, объем которой не позволяла себе ни одна онлайн-площадка.
А ответ DeepSeek писал всегда полный, не надо было бесконечно просить его продолжать писать ответ с места, где он остановился. Это ввторой плюс.

Правда, когда ответ был слишком длинный, то DeepSeek тупо забывал с чего начал, забывал контекст и шпарил все что угодно.

Так китайцы обучили новый DeepSeek, сотни тысяч пользователей своей работой с ним обучили китайцам их LLM.

Безусловно, китайцы молодцы - что добились своей цели, грамотно использовав наработки своих конкурентов.

Но удивляет этот дискурс, который продвигается. В котором вдруг почему-то OpenAi и иже с ними выставляются эдакими недотепами и лохами. Когда это далеко не так.

Именно OpenAi снова была первой, кто ввел рассуждения, за счет чего повысилась точность и за счет чего DeepSeek оказался в тройке лидеров.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(3 года 12 месяцев)09:57-28/Янв/25

Т.е. китайцы взяли Llama и дообучили - так получился DeepSeek.

DeepSeek это RL модель с совсем другой архитектурой.

Это все равно, что говорить, вот китайцы взяли обычный автомобиль и сделали электромобиль. А так они очень похожи. Те же 4 колеса и кузов.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 10 месяцев)07:09-28/Янв/25

Модель имеет 685 млрд параметров

А написана она с использованием нескольких сотен машинных кодов.

Не многовато ли параметров для т.н. ИИ?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 8 месяцев)06:49-28/Янв/25

Ну, не знаю. Я задал простой вопрос – каковы алгоритмы взаимодействия стрелка и корректировщика при высокоточной стрельбе на большие дальности. Мне этот ИИ выдал текст, в принципе, верный, но без ключевого элемента алгоритма взаимодействия, без которого попасть в цель, конечно, можно, но только случайно.

Поэтому когда пишу, что какой-то там искусственный интеллект придумал нелогичную, но более эффективную схему чипа, я охотно верю, но сильно сомневаюсь. Верю в нелогичность, сомневаюсь в большей эффективности. Потому что думать-то ИИ не умеет, а логика есть атрибут думания. И заявленная нелогичность схемного решения свидетельствует.

Нет, какого-то неграмотного вопрошающего ответ-банальность ИИ может сделать немного более грамотным и даже навести на какие-то мысли, или помочь завершить какую-то мысль, но только потому, что вопрошающий неграмотный, и только в том случае, если он думающий. А если нет, то нет.

И я, честно, не понимаю восторга в отношении ИИ. Опасность понимаю, а восторга никак не понимаю.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)07:25-28/Янв/25

Вот что ответил DeepSeek:

Спасибо за ваш развернутый комментарий! Вы подняли важные вопросы, касающиеся возможностей и ограничений искусственного интеллекта. Действительно, ИИ на текущем этапе развития не способен "думать" в человеческом понимании этого слова, а его ответы основываются на анализе данных и шаблонов, которые он изучил. Это может приводить к тому, что некоторые ключевые элементы или нюансы, важные для специалистов, могут быть упущены.

Ваш скептицизм в отношении эффективности нелогичных решений, предложенных ИИ, вполне обоснован, особенно в таких сложных областях, как высокоточная стрельба или проектирование чипов. Однако стоит учитывать, что ИИ может предлагать нестандартные подходы, которые, хотя и кажутся нелогичными, иногда оказываются эффективными благодаря тому, что алгоритмы анализируют огромные объемы данных и находят закономерности, неочевидные для человека.

Что касается восторга в отношении ИИ, он часто связан с его потенциалом в решении рутинных задач, обработке больших данных и генерации идей. Однако, как вы правильно заметили, важно сохранять критический взгляд и понимать, что ИИ — это инструмент, который требует грамотного использования и интерпретации его результатов. Ваши замечания подчеркивают важность баланса между доверием к технологиям и сохранением человеческого контроля над ключевыми процессами.

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(5 лет 3 месяца)09:39-28/Янв/25

5-! :))
Минус за попытку угодить "пользователю", скрыть его недостатки/глупость.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 11 месяцев)16:14-28/Янв/25

Судя по ответу, нейросети учат на журналистских статьях - максимум знаков в тексте, побольше воды, потеря интереса через пару предложений : )

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 3 месяца)07:00-28/Янв/25

В одном кубите можно закодировать 2 бита информации. В двух кубитах - 4 бита. В трёх - 8 бит. В четырёх - 16 и так далее. Алгоритм, надеюсь, понятен?

А что такое 16 бит у 4 запутанных кубитов ? В них можно записать 256 чисел одновременно! То есть, плотность упаковки такая, что вам и не снилось. Желающие могут сами подсчитать, что будет, когда нам удастся запутать хотя бы 100 кубитов. Кароч, не за горами появление нейронных сетей на кубитах.)

Комментарий администрации:

*** отключен (невменяемое общение) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 8 месяцев)07:57-28/Янв/25

Не знаю, как там с кодированием кубитов – не представляю, как можно закодировать квант, состояние которого по определению до измерения неизвестно (но можно декларировать, что закодировал), но теоретически в одном кубите содержится бесконечное количество состояний: 1, 0, и "ТБМ его знает", по научному называемое суперпозицией: типа, там все состояния, которые вероятны, сосуществуют одновременно. По аналогии с заявлением армянского радио: скоро на Земле останется три языка: русский, нерусский, армянский. На самом деле корректным описанием суперпозиции является это самое "ТБМ его знает", и квантовая суперпозиция придумана для того, чтобы хоть что-то с этим сделать.

При этом из кубита вынимают только соответствующее биту, без всяких там "ку", – какое-то одно из двух состояний, 0 или 1. Не знаю, почему физики так мелочатся, ведь такое множество состояний, можно было бы порезвиться, ан нет. Только 2.

Я думаю, это потому, что реальная обработка информации происходит на обычных или, там, супер- компьютерах. А они – так исторически сложилось – остались в рамках двоичной логики. Троичная почему-то не прокатила.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 6 месяцев)09:13-28/Янв/25

троичная прокатила, но приводила к двум истинам - это если утрировано :)

и это бы вскрыло слишком много "заплаток" шматрицы.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Скрытый комментарий (c обсуждением)

(1 год 3 месяца)10:24-28/Янв/25

Запишем в кубит два числа: 6 и 8. Для этого нормализуем их: 6/sqrt(6²+8²)=0,6 и 8/sqrt(6²+8²)=0,8

Комментарий администрации:

*** отключен (невменяемое общение) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 3 месяца)10:20-28/Янв/25

Это амплитуды. Чтобы узнать вероятность надо возвести их в квадрат: 0,6²=0,36 и 0,8²=0,64

Комментарий администрации:

*** отключен (невменяемое общение) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 8 месяцев)10:24-28/Янв/25

да, так говорят. Я знаю. Не знаю, как они там записывают что-то в кубит, состояние которого не известно до замера, а замер дает 1 или 0. Почему, кстати, только это, тоже не знаю. Наверно, по определению кубита. Но определение кубита это человеческое действие, а не действие кванта.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 3 месяца)10:39-28/Янв/25

Возьмём кубик и нарисуем на двух гранях 6, а на четырёх 8. Если мы подбросим его 600 раз, то 6 выпадет около 200 раз, а 8 около 400. Теперь понятно?)

Комментарий администрации:

*** отключен (невменяемое общение) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 8 месяцев)11:04-28/Янв/25

Это понятно.

Непонятно, причем тут квант. Или зачем тут квант, если то же можно решать на кубике.

Непонятно, причем тут допущение, такое, что до того момента, как мы замерим его, кванта, состояние (что, кстати, замеряется?), он будет существовать во всех состояниях одновременно.

Непонятны основания такого допущения, основание его применимости и цель создания такого допущения.

Почему не допустить, что квант находится в каком-то одном конкретном состоянии, которого мы всего лишь не знаем? Более того, мы не знаем даже, меняется ли состояние кванта во времени – до того момента, пока мы это состояние не замерили и не установили его (возможно, изменив его). И даже в этом случае мы не можем провести эту операцию дважды, чтобы понять, меняется ли состояние кванта во времени, или нет. Ни про какой квант мы не можем сказать, что это тот же квант, которым мы уже оперировали

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 3 месяца)13:48-28/Янв/25

А теперь представьте, что у вас 100 кубиков. Даже не кубиков, а многограннииков с миллионом граней каждый. И на каждой грани либо 0, либо 1. И надо сложить каждую грань с каждой. Это будет 1 000 000¹⁰⁰ операций сложения. Мягко говоря, это большое число. Очень мягко говоря... Квантовый компьютер сделает это за то же время, за которое классический делает одну операцию.)

Комментарий администрации:

*** отключен (невменяемое общение) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 год 8 месяцев)13:51-28/Янв/25

зачем мне тратить на это время без ответов на мои вопросы?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)07:02-28/Янв/25

Квантование до 1 бита — это важный шаг в оптимизации больших языковых моделей для использования на устройствах с ограниченными ресурсами.

Квантизация - это да, хорошее решение.

Но, надо понимать, что модели, которые подверглись квантизации существенно теряют в точности.

Закон равновесия работает для всех одинаково.
Либо точность - но тогда потребление больших мощностей.
Либо потребление малых мощностей - но потеря в точности.

Можно найти какой-то баланс, более менее приемлемый, когда и мощности вменяемые и точность приемлемая, обычно это не больше 4 уровня квантизации.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)07:12-28/Янв/25

Полностью согласен но при 1 бите у данной сети результаты тоже впечатляющие и я смогу её запустить на домашнем компе

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 10 месяцев)08:08-28/Янв/25

и я смогу её запустить на домашнем компе

И как конкретно это сделать?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)08:34-28/Янв/25

Либо ollama либо LM Studio выбирайте что вам больше нравится

вот адрес файла: https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD...

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)08:28-28/Янв/25

Легко
Идете на сайт https://ollama.com/
скачиваете приложение https://ollama.com/download
Устанавливаете, запускаете. Оно запустится в фоне и будет работать в фоне.

Потом идете на страницу выбора моделей: https://ollama.com/search

выбираете модель https://ollama.com/library/deepseek-r1 ну или любую другую из представленного

копируете команду "ollama run deepseek-r1"

Возвращаетесь в свой компьютер на рабочий стол. Необходимо, чтобы была включена английская раскладка.
Жмете меню "Пуск".

если Windos, то ищете Windows PowerShell, запускаете.
В терминале вставляете скопированную ранее команду "ollama run deepseek-r1" и жмете Enter

Ждете пока загрузится модель.

Когда загрузится - можете общаться. Там же в терминале. Раскладку можете обратно переключить на русский. Скорость ответов зависит исключительно от мощности Вашего ПК.

Если нужно десктопное приложение, при помощи которого можно общаться с топовыми LLM, то здесь вот хорошее приложение MyAsGPT

да, не бесплатно, разработчик продает лицензионные ключи на время, но зато без всяких плясок с бубном и обходов из России работаете с топовыми LLM. И плевать на то, какой мощности Ваш домашний ПК. Важно лишь стабильное интернет-соединение. Вот актуальный список LLM на сегодня:

claude-3-5-sonnet-20240620
claude-3-5-sonnet-20241022
claude-3-5-sonnet-20241022-t
claude-3-haiku-20240307
claude-3-opus-20240229
claude-3-sonnet-20240229
gpt-4-turbo-2024-04-09
gpt-4o-2024-08-06
gpt-4o-mini
grok-2
grok-2-mini
o1-mini
o1-preview

Список периодически обновляется и меняется, публикуется там же на канале.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)07:16-28/Янв/25

Объясните чайнику что такое потеря точности?

Это 2+2=4,3 ?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)07:21-28/Янв/25

В математике ничего не изменится скорее в логике и возможно в написании кода

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)07:44-28/Янв/25

LLM генерирует текст таким образом:

Приняв запрос пользователя - нейронная сеть анализирует этот запрос на предмет наличия ключевых слов и ключевых фраз.
Сразу, для понимания. Нейронная сеть не умеет читать по буквам. Она читает образами (токенами). Т.е. берет какие-то словосочетания и сверяет их с теми, что у нее есть в ее базе данных. База данных - это база, на которой ее обучали. Найдя совпадение близкое к 100%, она начинает генерировать слова или словосочетания, отталкиваясь от результатов своего анализа.

Сначала она генерирует первое слово или словосочетание (токен), которое наиболее близко должно подходить в ответе на запрос по смыслу. Далее она генерирует логичное смысловое продолжение первого сгенерированного слова или словосочетания.

далее LLM уже работает с тем, что сгенерировала в начале. Т.е. продолжая генерировать ответ она опирается уже на тот контекст, который сама же и создала в начале.

Точность LLM - это оценка способности LLM верно оценить контекст запроса и верной генерации ответа.

Текущие топовое модели LLM достигают точности в 85 -88%.
Что означает, что в 88 случаев из ста, LLM произведет верный анализ контекста запроса и сформирует верное начало ответа.

Теперь, что касается потерь точности. В уникальном виде, т.е. после того, как сеть обучена - она обладает какой-то базовой точностью. Скажем в 88%.

Когда LLM подвергают квантизации - у нее удаляют какие-то блоки, которые могут считаться условно необязательными ну или незначительными.

Тут определяется все весами (сила влияния). Если вес больше 0,5, то блок оставляют. если меньше 0,5 - удаляют (значения могут быть разные от 0 до 1, я просто привожу пример).

Конечно, удаление блоков влияет на начальную точность модели.

Это и есть квантизация. Поэтому квантованные модели обладают меньшей точностью. например уже не 88%, а 87% скажем, после первого квантования.
После второго квантования уже 83%

После третьего уже 79% и т.д.

Опять же цифры для наглядности просто.

надеюсь понятно объяснил )

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)07:55-28/Янв/25

Чтобы еще было понятнее.

например возьмем рандомный текст в 500 знаков:

Курение — это опасная привычка, которая наносит непоправимый вред здоровью. Никотин, содержащийся в сигаретах, вызывает зависимость, а токсичные вещества, такие как смолы и угарный газ, разрушают легкие, сердце и сосуды. Курение повышает риск развития рака, хронических заболеваний дыхательной системы и инфарктов. Пассивное курение также опасно, особенно для детей и беременных женщин. Отказ от курения — это шаг к здоровой жизни, полной энергии и ярких моментов. Берегите себя и своих близких!

Проведем квантование. необходимо сделать так, чтобы смысл текста остался тот же, но размер текста был в 250 знаков. В половину меньше:

Курение вредит здоровью: никотин вызывает зависимость, а смолы и угарный газ разрушают легкие и сердце. Повышает риск рака, болезней дыхания и инфарктов. Пассивное курение опасно для детей и беременных. Отказ от сигарет — шаг к здоровой жизни. Берегите себя и близких!

Как видим -размер текста уменьшен вполовину, но общий контекст и смысл остались.

В исходном варианте - текст является подробным и более сильно раскрывает суть вопроса. В квантованном варианте мы, стремясь сохранить контекст, пожертвовали более раскрытым описанием.

Но, с точки зрения трат энергии на обработку текста - нам потребуется меньше мощностей на обработку второго варианта, в отличии от первого.
Но, если мы будем использовать второй вариант и нам потребуется конкретизация, то мы не сможем эту конкретику получить, потому что ее тексте нет.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 11 месяцев)07:54-28/Янв/25

Теперь стало понятнее))))

Только методика определения погрешности вызывает сомнения. Измерять надо, конечно. Хоть как-то. Однако, автор запроса человек существо неточное само по себе. Часто запрос не подразумевает точного решения (если не касается вычисления). Мало того, человек часто сам не знает чего точно он хочет. Ему свойственно выбирать из предложенных вариантов. Причем, выбор субъективен.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)07:57-28/Янв/25

Для оценки точности применяются различные тесты, которые были утверждены и признаны эталонными.

Поэтому практически каждая популярная LLM всегда демонстрируется в своем релизе с результатами тестов в сравнении с другими моделями.

Правда производители грешат тем, что публикуют только те тесты, которые выставляют их модель в выгодном свете )

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Скрытый комментарий (без обсуждения)

(56 лет 2 месяца)07:07-28/Янв/25

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Лидеры (владелец Повелитель Ботов)

Комментарий администрации:

*** Это легальный, годный бот ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(14 лет 1 месяц)08:30-28/Янв/25

прикольно политкорректная модель на китайский манер. На вопрос изберут ли Трампа на третий срок отвечает, что Китай не вмешивается в американские выборы и что бла-бла-бла ...

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 4 месяца)11:12-28/Янв/25

Ага. Спросил, кто больше всего подходит для названия "фашистское государство" - Китай, Израиль, Россия, Украина.

Написала, что никто не подходит полностью, но по проблемам (национализм, авторитаризм) проранжировала где-то так: 1. Россия, 2. Израиль, 3. Китай, 4. Украина ("но здесь есть демократические выборы").

Правда, она сама признаётся, что данные собраны в августе 2023 г.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(3 года 9 месяцев)08:37-28/Янв/25

Чего все так радуются. Момент замены человеков на железку всё ближе.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)08:40-28/Янв/25

Скорей бы!

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 10 месяцев)08:41-28/Янв/25

Ну раньше плугом и лошадью обрабатывали поля, а теперь на тракторе.

Раньше на счетах считали, теперь на калькуляторах.

Никто ж не жалуется, что заменили

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 1 месяц)08:52-28/Янв/25

Насколько я понял, DeepSeek - это архитектура GPT 3.5, оптимизированная на снижение стоимости.
Разговаривает хорошо, а вот в логике - косячит.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 5 месяцев)09:10-28/Янв/25

Можно без существенной потери качества селективно снизить квантование отдельных областей или вообще их удалить с разделением функционала DeepSeek на специализированные нейросети меньшего объема.

Сделать DeepSeek программиста / математика. Или вообще ученого если места хватит.

Должны быть большие объемы данных которые легко делятся.

Видел недавно готовую картинку.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)10:26-28/Янв/25

Конечно, узкоспециализированная сеть в таком формате будет отличные результаты выдавать

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 5 месяцев)11:31-28/Янв/25

Вся или почти вся нейросеть DeepSeek-R1 ~ 671B Params за $6к у вас дома

https://habr.com/ru/companies/bothub/news/872002/

Завтра больше.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)19:12-28/Янв/25

Что б всю сеть в формате FP16 запустить на наидиа дигитс их нужно 11 штук и ещё примерно 3-4 что б большие проекты запускать

Комментарий администрации:

*** отключен (систематические набросы) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 4 месяца)11:06-28/Янв/25

Я периодически проверяю доступные модели на запросы типа "перечисли все причины повышения <молекула крови>" или "перечисли все гены имеющие response element к NF-kB в промоторе".

Т.е. умение из обилия данных (включая научные статьи) _группировать_ процессы по общим критериям и делать _полные_ списки.

DeepSeek пока не справляется, как и все остальные.

Например, она знает, что ген CALCA активируется факторами NF-kB + AP-1, и может про это рассказать, в т.ч. почему это важно, - но если просишь перечислить полный список генов, которые активируются как NF-kB, так и AP-1, то она не включет CALCA в список. Если просишь "сделай полный список <...> включая CALCA" - то включает и CALCA.

Использовал термины, которые она использует - exact, comprehensive, exhaustive list - точный, полный, исчерпывающий список - помогает, но не полностью.

Вывод: надо или учиться давать правильные команды, или модель действительно не может работать на 100% - напр., выдавать весь список, что ей известно по данному вопросу.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(14 лет 1 месяц)16:17-28/Янв/25

Ну логично, мало такого пишут в интернете в открытом доступе.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 1 месяц)15:07-28/Янв/25

Я из числа тех:«Все отсталое население купило джинсы». Начал использовать неделю назад одновременно 6 разных ИИ. В итоге на решение одной несложной задачи потрачено полтора дня, причина в том, что значение коэффициента Генри в справочниках СССР неправильное, а ИИ требовали от меня ввести это значение вручную. Узнал о Дипсик в субботу. Сразу зарегился и с теми же условиями начал решать якобы решенную другими ИИ задачу. Сразу увидел, что ДИПСИК сам записал значение коэф.Генри, вижу, что оно не соответствует тому, что в справочниках. Остановил расчет Дипсик и вместе с ним начали разбираться откуда он взял свой коэффициент, потом провели расчет задачи с его правильным и моим из справочника и он и я убедились, что его значение правильное. Расчет занял секунды. Ну а дальше за минуты он сделал ещё 8 расчетов задач. Например если бы эту инженерную задачу я решал по учебникам или интернету, да плюс с учетом неверного значения коэффициента, то я бы её никогда не решил. Повторюсь, что впервые встретил задачу, не по моей специальности и вообще это из курса физики 2-го курса.

А дальше пошло поехало. В итоге за 4 дня есть первый вариант бизнес плана, ТЭО, маркетинговый анализ рынка на 40 стр, фин.план на 8, под вариант на полугодие ит.д.

Понятно дя того чтобы совместно с ИИ это все сделать надо четко понимать как бы ты это сделал без него.

Прям сейчас идет атака на ДИПСИК, при входе он мне вывешивал сообщение на желто-оранжевом плакате.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(14 лет 1 месяц)16:58-28/Янв/25

Незнайка, Носов, простой литературный квест.

1. В уютном городке Солнечный, где каждый дом был раскрашен в яркие цвета, а на улицах всегда царило веселье, жил-был коротышка по имени Кнопкин. Он работал парикмахером и славился тем, что мог сделать любую причёску — от простой стрижки до самых замысловатых кудряшек. Однажды утром, когда солнце светило особенно ярко, Кнопкин сидел у себя в салоне и читал газету "Цветочные новости". Вдруг его внимание привлекло объявление: "Срочно! В одном из двенадцати стульев, изготовленных знаменитым мастером Винтиком, спрятаны сокровища! Кто найдёт — станет богачом!"

Кнопкин тут же вскочил с места, схватил свою шляпу и побежал к своему другу Шпунтику, чтобы поделиться этой невероятной новостью. Вместе они решили отправиться на поиски сокровищ, даже не подозревая, какие невероятные приключения их ждут.

2. Однажды в солнечном городке Цветочный, где все домики были яркими и разноцветными, а жители — маленькими коротышами, на скамейке у главной площади сидел Знайка, известный всему городу своими умными книжками и изобретениями. Рядом с ним стоял Незнайка, который, как всегда, что-то увлечённо рассказывал, размахивая руками. Вдруг к ним подошёл незнакомый коротышка в широкополой шляпе с улыбкой, которая казалась то ли хитрой, то ли просто весёлой. Он представился как Волшебник и сказал, что принёс с собой нечто необычное — историю, которая перевернёт весь их мир с ног на голову.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Deepseek 671B

Комментарии