Новая вы­со­ко­про­из­во­ди­тель­ная ней­ро­сеть по­треб­ля­ет всего 13 Вт энер­гии, что со­по­ста­ви­мо с пи­та­ни­ем элек­три­че­ской лам­поч­ки - бла­го­да­ря новым ал­го­рит­мам

Аватар пользователя Topmember

Устра­няя самый до­ро­го­сто­я­щий с точки зре­ния вы­чис­ле­ний эле­мент боль­шой язы­ко­вой мо­де­ли, ин­же­не­ры зна­чи­тель­но по­вы­ша­ют энер­го­эф­фек­тив­ность при со­хра­не­нии про­из­во­ди­тель­но­сти, со­об­ща­ет news.ucsc.edu

До­ка­за­но, что боль­шие язы­ко­вые мо­де­ли, такие как ChaptGPT, спо­соб­ны вы­да­вать уди­ви­тель­но ин­тел­лек­ту­аль­ные ре­зуль­та­ты, но энер­ге­ти­че­ские и де­неж­ные за­тра­ты, свя­зан­ные с за­пус­ком этих мас­штаб­ных ал­го­рит­мов, за­об­лач­но вы­со­ки. По по­след­ним оцен­кам, за­пуск ChatGPT 3.5 об­хо­дит­ся в 700 000 дол­ла­ров в день в виде за­трат на элек­тро­энер­гию и остав­ля­ет после себя огром­ный уг­ле­род­ный след.


В новом пре­прин­те ис­сле­до­ва­те­ли из Ка­ли­фор­ний­ско­го уни­вер­си­те­та в Санта-​Крус по­ка­зы­ва­ют, что можно ис­клю­чить самый до­ро­го­сто­я­щий с точки зре­ния вы­чис­ле­ний эле­мент за­пус­ка мо­де­лей боль­шо­го языка, на­зы­ва­е­мый мат­рич­ным умно­же­ни­ем, при со­хра­не­нии про­из­во­ди­тель­но­сти.

Из­ба­вив­шись от мат­рич­но­го умно­же­ния и за­пу­стив свой ал­го­ритм на спе­ци­а­ли­зи­ро­ван­ном обо­ру­до­ва­нии, ис­сле­до­ва­те­ли об­на­ру­жи­ли, что они могут обес­пе­чить ра­бо­ту язы­ко­вой мо­де­ли с мил­ли­ар­дом па­ра­мет­ров всего на 13 ват­тах, что при­мер­но равно энер­гии, по­треб­ля­е­мой лам­поч­кой и более чем в 50 раз эф­фек­тив­нее, чем [это де­ла­ет] обыч­ное обо­ру­до­ва­ние.

Даже при упро­щен­ном ал­го­рит­ме и го­раз­до мень­шем по­треб­ле­нии энер­гии новая мо­дель с от­кры­тым ис­ход­ным кодом до­сти­га­ет той же про­из­во­ди­тель­но­сти, что и со­вре­мен­ные мо­де­ли, такие как Meta Llama.

«Мы по­лу­чи­ли ту же про­из­во­ди­тель­ность при го­раз­до мень­ших за­тра­тах — все, что нам при­шлось сде­лать, это в корне из­ме­нить прин­цип ра­бо­ты ней­рон­ных сетей», — го­во­рит Джей­сон Эш­ра­ги­ан, до­цент ка­фед­ры элек­тро­тех­ни­ки и вы­чис­ли­тель­ной тех­ни­ки в Школе ин­же­не­рии Бас­ки­на и ве­ду­щий автор ста­тьи. «Затем мы сде­ла­ли еще один шаг впе­ред и со­зда­ли спе­ци­аль­ное обо­ру­до­ва­ние».

По­ни­ма­ние сто­и­мо­сти

До сих пор все со­вре­мен­ные ней­рон­ные сети — ал­го­рит­мы, на ос­но­ве ко­то­рых стро­ят­ся боль­шие язы­ко­вые мо­де­ли, — ис­поль­зо­ва­ли тех­ни­ку, на­зы­ва­е­мую мат­рич­ным умно­же­ни­ем.

В боль­ших язы­ко­вых мо­де­лях слова пред­став­ля­ют­ся в виде чисел, ко­то­рые затем ор­га­ни­зу­ют­ся в мат­ри­цы. Мат­ри­цы умно­жа­ют­ся друг на друга для со­зда­ния языка, вы­пол­няя опе­ра­ции, ко­то­рые взве­ши­ва­ют важ­ность опре­де­лён­ных слов или вы­де­ля­ют связи между сло­ва­ми в пред­ло­же­нии или пред­ло­же­ни­я­ми в аб­за­це. Язы­ко­вые мо­де­ли более круп­но­го мас­шта­ба со­дер­жат трил­ли­о­ны таких чисел.

“Ней­рон­ные сети, в неко­то­ром смыс­ле, яв­ля­ют­ся про­слав­лен­ны­ми ма­ши­на­ми для умно­же­ния мат­риц”, — ска­зал Эш­ра­ги­ан. “Чем боль­ше ваша мат­ри­ца, тем боль­ше­му ко­ли­че­ству вещей может на­учить­ся ваша ней­рон­ная сеть”.

Чтобы ал­го­рит­мы могли пе­ре­мно­жать мат­ри­цы, мат­ри­цы необ­хо­ди­мо где-​то хра­нить, а затем из­вле­кать, когда при­дет время вы­чис­ле­ния.

Это ре­ша­ет­ся путем хра­не­ния мат­риц на сот­нях фи­зи­че­ски раз­де­лен­ных гра­фи­че­ских про­цес­со­ров (GPU), ко­то­рые пред­став­ля­ют собой спе­ци­а­ли­зи­ро­ван­ные схемы, пред­на­зна­чен­ные для быст­ро­го вы­пол­не­ния вы­чис­ле­ний на очень боль­ших на­бо­рах дан­ных, раз­ра­бо­тан­ные та­ки­ми ап­па­рат­ны­ми ги­ган­та­ми, как Nvidia.

Чтобы умно­жить числа из мат­риц на раз­ных гра­фи­че­ских про­цес­со­рах, дан­ные необ­хо­ди­мо пе­ре­ме­щать — про­цесс, ко­то­рый со­зда­ет боль­шую часть за­трат ней­рон­ной сети с точки зре­ния вре­ме­ни и энер­гии.

Отказ от мат­рич­но­го умно­же­ния

Ис­сле­до­ва­те­ли раз­ра­бо­та­ли стра­те­гию, поз­во­ля­ю­щую из­бе­жать ис­поль­зо­ва­ния мат­рич­но­го умно­же­ния, ис­поль­зуя два ос­нов­ных ме­то­да. Пер­вый — это метод, поз­во­ля­ю­щий за­ста­вить все числа внут­ри мат­риц быть тро­ич­ны­ми, что озна­ча­ет, что они могут при­ни­мать одно из трех зна­че­ний: от­ри­ца­тель­ное, ну­ле­вое или по­ло­жи­тель­ное. Это поз­во­ля­ет све­сти вы­чис­ле­ния к сум­ми­ро­ва­нию чисел, а не к умно­же­нию.

С точки зре­ния ин­фор­ма­ти­ки эти два ал­го­рит­ма можно за­ко­ди­ро­вать со­вер­шен­но оди­на­ко­во, но метод ко­ман­ды Эш­ра­гя­на поз­во­ля­ет из­бе­жать массы за­трат на ап­па­рат­ную часть.

«С точки зре­ния раз­ра­бот­чи­ка схем, вам не нужны рас­хо­ды на умно­же­ние, ко­то­рые вле­кут за собой целую кучу за­трат», — го­во­рит Эш­ра­гян.

Вдох­но­ве­ни­ем для этой стра­те­гии по­слу­жи­ла ра­бо­та ком­па­нии Microsoft, ко­то­рая по­ка­за­ла воз­мож­ность ис­поль­зо­ва­ния тро­ич­ных чисел в ней­рон­ных сетях, но не зашла так да­ле­ко, чтобы из­ба­вить­ся от умно­же­ния мат­риц или вы­ло­жить свою мо­дель на все­об­щее обо­зре­ние. Для этого ис­сле­до­ва­те­ли из­ме­ни­ли стра­те­гию вза­и­мо­дей­ствия мат­риц друг с дру­гом.

Вме­сто того чтобы умно­жать каж­дое число в одной мат­ри­це на каж­дое число в дру­гой мат­ри­це, как это обыч­но бы­ва­ет, ис­сле­до­ва­те­ли раз­ра­бо­та­ли стра­те­гию, поз­во­ля­ю­щую по­лу­чить те же ма­те­ма­ти­че­ские ре­зуль­та­ты. При таком под­хо­де мат­ри­цы на­кла­ды­ва­ют­ся друг на друга, и вы­пол­ня­ют­ся толь­ко самые важ­ные опе­ра­ции.

«По срав­не­нию с умно­же­ни­ем мат­риц это до­воль­но лег­кая опе­ра­ция», — го­во­рит Руй-​Цзе Чжу, пер­вый автор ста­тьи и ас­пи­рант в груп­пе Эш­ра­гя­на. «Мы за­ме­ни­ли до­ро­го­сто­я­щую опе­ра­цию более де­ше­вой».

Несмот­ря на со­кра­ще­ние ко­ли­че­ства опе­ра­ций, ис­сле­до­ва­те­ли смог­ли со­хра­нить про­из­во­ди­тель­ность ней­рон­ной сети, внед­рив в про­цесс обу­че­ния мо­де­ли вы­чис­ле­ния, ос­но­ван­ные на вре­ме­ни.

Это поз­во­ля­ет сети со­хра­нять в “па­мя­ти” важ­ную ин­фор­ма­цию, ко­то­рую она об­ра­ба­ты­ва­ет, по­вы­шая про­из­во­ди­тель­ность. Этот метод оправ­дал себя — ис­сле­до­ва­те­ли срав­ни­ли свою мо­дель с уль­тра­со­вре­мен­ным ал­го­рит­мом Meta под на­зва­ни­ем Llama и смог­ли до­стичь той же про­из­во­ди­тель­но­сти даже в мас­шта­бе мил­ли­ар­дов па­ра­мет­ров мо­де­ли.

Ин­ди­ви­ду­аль­ные/поль­зо­ва­тель­ские чипы

Ис­сле­до­ва­те­ли раз­ра­бо­та­ли свою ней­рон­ную сеть для ра­бо­ты на гра­фи­че­ских про­цес­со­рах, по­сколь­ку они стали по­все­мест­но ис­поль­зо­вать­ся в ин­ду­стрии ИИ, что поз­во­ли­ло сде­лать про­грамм­ное обес­пе­че­ние ко­ман­ды лег­ко­до­ступ­ным и по­лез­ным для всех, кто за­хо­чет его ис­поль­зо­вать.

На стан­дарт­ных гра­фи­че­ских про­цес­со­рах ней­рон­ная сеть по­треб­ля­ла в 10 раз мень­ше па­мя­ти и ра­бо­та­ла на 25 % быст­рее, чем дру­гие мо­де­ли. Со­кра­ще­ние объ­е­ма па­мя­ти, необ­хо­ди­мо­го для за­пус­ка мощ­ной язы­ко­вой мо­де­ли боль­шо­го объ­е­ма, могло бы про­ло­жить путь к тому, чтобы ал­го­рит­мы ра­бо­та­ли на пол­ную мощ­ность на устрой­ствах с мень­шим объ­е­мом па­мя­ти, таких как смарт­фо­ны.

Nvidia, ве­ду­щий ми­ро­вой про­из­во­ди­тель гра­фи­че­ских про­цес­со­ров, раз­ра­ба­ты­ва­ет свое обо­ру­до­ва­ние таким об­ра­зом, чтобы оно было мак­си­маль­но оп­ти­ми­зи­ро­ва­но для вы­пол­не­ния мат­рич­но­го умно­же­ния, что поз­во­ли­ло ему до­ми­ни­ро­вать в от­рас­ли и сде­лать ее одной из самых при­быль­ных ком­па­ний в мире. Од­на­ко это обо­ру­до­ва­ние не пол­но­стью оп­ти­ми­зи­ро­ва­но для тро­ич­ных опе­ра­ций.

Чтобы до­бить­ся еще боль­шей эко­но­мии энер­гии, ко­ман­да в со­труд­ни­че­стве с до­цен­том Да­сти­ном Рич­мон­дом и пре­по­да­ва­те­лем Ита­ном Сиф­фер­ма­ном с фа­куль­те­та ком­пью­тер­ных наук и ин­же­не­рии Baskin Engineering со­зда­ла спе­ци­аль­ное обо­ру­до­ва­ние.

В те­че­ние трех недель ко­ман­да со­зда­ла про­то­тип сво­е­го ап­па­рат­но­го обес­пе­че­ния на схеме с ши­ро­ки­ми воз­мож­но­стя­ми на­строй­ки, на­зы­ва­е­мой про­грам­ми­ру­е­мой вен­тиль­ной мат­ри­цей (FPGA). Это обо­ру­до­ва­ние поз­во­ля­ет им в пол­ной мере ис­поль­зо­вать все функ­ции энер­го­сбе­ре­же­ния, ко­то­рые они за­про­грам­ми­ро­ва­ли в ней­рон­ной сети.

Бла­го­да­ря этому ап­па­рат­но­му обес­пе­че­нию мо­дель пре­вос­хо­дит че­ло­ве­ко­чи­та­е­мую про­из­во­ди­тель­ность, то есть вы­да­ет слова быст­рее, чем чи­та­ет че­ло­век, по­треб­ляя всего 13 ватт энер­гии. 

Ис­поль­зо­ва­ние гра­фи­че­ских про­цес­со­ров по­тре­бо­ва­ло бы около 700 Вт энер­гии, а это озна­ча­ет, что спе­ци­аль­ное обо­ру­до­ва­ние до­стиг­ло более чем в 50 раз боль­шей эф­фек­тив­но­сти, чем гра­фи­че­ские про­цес­со­ры.

Ис­сле­до­ва­те­ли счи­та­ют, что при даль­ней­шей раз­ра­бот­ке они смо­гут еще боль­ше оп­ти­ми­зи­ро­вать тех­но­ло­гию для по­вы­ше­ния энер­го­эф­фек­тив­но­сти.

«Эти цифры уже очень со­лид­ные, но их очень легко сде­лать го­раз­до лучше», — го­во­рит Эш­ра­гян. «Если нам удаст­ся уло­жить­ся в 13 ватт, толь­ко пред­ставь­те, что мы смо­жем сде­лать с вы­чис­ли­тель­ной мощ­но­стью це­ло­го цен­тра об­ра­бот­ки дан­ных. У нас есть все эти ре­сур­сы, но да­вай­те ис­поль­зо­вать их эф­фек­тив­но».

Ис­точ­ник пе­ре­во­да: newsstreet.ru

 

Боль­ше ин­те­рес­ных ста­тей, ко­то­рые я не успе­ваю пе­ре­во­дить, но ко­то­рые можно по­чи­тать через онлайн-​перевод, можно найти здесь: t.me/murrrzio

Ав­тор­ство: 
Ав­тор­ская ра­бо­та / пе­ре­во­ди­ка
Ком­мен­та­рий ре­дак­ции раз­де­ла Аль­тер­на­тив­ный Ин­тел­лект

Комментарии

Аватар пользователя ТШУ
ТШУ (2 года 2 месяца)

Ос­но­во­по­ла­га­ю­щи­ми по­ня­ти­я­ми со­вре­мен­ной ма­те­ма­ти­ки яв­ля­ют­ся по­ня­тия схо­ди­мо­сти и пре­де­ла.

От­сут­ствие схо­ди­мо­сти - боль­шая про­бле­ма. И не толь­ко в ма­те­ма­ти­ке.

Функ­ция раз­ви­тия че­ло­ве­че­ства и функ­ция его же взрос­ле­ния - по­хо­же  функ­ции рас­хо­дя­щи­е­ся. При­зна­ки этого мно­жат­ся.

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

Функ­ция раз­ви­тия че­ло­ве­че­ства и функ­ция его же взрос­ле­ния - по­хо­же  функ­ции рас­хо­дя­щи­е­ся. При­зна­ки этого мно­жат­ся.

Добро по­жа­ло­вать в ци­ви­ли­за­ци­он­ный кол­лапс и необ­ра­ти­мое из­ме­не­ние че­ло­ве­че­ства. 

smile3.gifsmile3.gifsmile3.gif

Аватар пользователя ДеМонтаж
ДеМонтаж (2 года 11 месяцев)

Добро по­жа­ло­вать в ци­ви­ли­за­ци­он­ный кол­лапс и необ­ра­ти­мое из­ме­не­ние че­ло­ве­че­ства. 

Вот уме­е­те Вы под­нять на­стро­е­ние!... smile3.gif

Но ведь надо что-​то де­лать... ;-)

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

Но ведь надо что-​то де­лать... ;-)

Зачем? smile8.gif smile3.gif

Аватар пользователя Siberian
Siberian (6 лет 3 месяца)

Функ­ция раз­ви­тия че­ло­ве­че­ства и функ­ция его же взрос­ле­ния - по­хо­же  функ­ции рас­хо­дя­щи­е­ся

всего че­ло­ве­че­ства или все же толь­ко неко­то­рых стран?

Аватар пользователя Сергей Чернышев

Неко­то­рые стра­ны де­гра­ди­ру­ют мед­лен­нее и это вы­да­ют за про­гресс.

Аватар пользователя ДеМонтаж
ДеМонтаж (2 года 11 месяцев)

Есть вот такое пред­став­ле­ние об ис­то­ри­че­ском раз­ви­тии. :-)

https://aftershock.news/?q=node/1224547&ts=0&comment_requested_thread=0e.00.00.00.01.00.00.00.00/#comments

Аватар пользователя father_gorry
father_gorry (9 лет 3 месяца)

Есть еще ин­де­тер­ми­низм, неста­биль­ность, нерав­но­вес­ность. 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

На ап­па­рат­ном уровне ре­ин­кар­на­ция Се­ту­ни. 

Вот толь­ко не очень по­нят­на се­ман­ти­ка. Если вме­сто умно­же­ния нуля на еди­ни­цу сло­жить "-1" и "+1" будет тот же ноль. Но если к нену­ле­во­му зна­че­нию при­ба­вить ноль, то это не то же самое, что умно­же­ние на ноль - на вы­хо­де будет нену­ле­вое зна­че­ние вме­сто нуля.

Сама по себе тро­ич­ная ло­ги­ка нор­маль­но ра­бо­та­ет, но вот когда на неё на­хло­бу­чить сло­же­ние вме­сто умно­же­ния, то это уже как бы не ши­зо­фре­ния.

  • Там, где умно­же­ние вы­да­ет "0", что можно ин­тер­пре­ти­ро­вать как ХЗ (нет дан­ных) че­ты­ре раза, то сло­же­ние вы­да­ет "0" толь­ко три раза, что уве­ли­чи­ва­ет ко­ли­че­ство зна­чи­мых от­ве­тов там, на самом деле ХЗ.
  • И сло­же­ние про­пи­сы­ва­ет ХЗ на место двух от­ри­ца­тель­ных от­ве­тов, ко­то­рые вы­да­ёт умно­же­ние.

Так что как бы не ока­за­лось, что ре­бя­та из Мик­ро­соф­та не зря не стали за­ме­нять умно­же­ние на сло­же­ние.

В общем, из тек­ста не оче­вид­но, что они де­ла­ют, и за счёт чего эко­но­мия. Может, во­об­ще про­пус­ка­ют опе­ра­ции над ячей­ка­ми, со­дер­жа­щи­ми ноль? Но, опять же, что с се­ман­ти­кой?

Аватар пользователя Topmember
Topmember (12 лет 11 месяцев)

По­дроб­но­сти долж­ны быть тут: https://arxiv.org/abs/2406.02528

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

По диа­го­на­ли гля­нул, вроде как они эко­но­мят за счёт того, что тро­ич­ность ком­пакт­ней (это со вре­мён Се­ту­ни из­вест­но), и ра­бо­та­ют с ре­зуль­та­та­ми вы­чис­ле­ний в тро­ич­ной форме, а не со сло­я­ми гро­мозд­ких под­ле­жа­щих мат­риц. Сложение-​вычитание вме­сто умно­же­ния вроде как су­гу­бо ути­ли­тар­но, при раз­ве­сов­ке, в этом слу­чае оно нор­маль­но ра­бо­та­ет.

Пусть Ака­де­мия Наук раз­би­ра­ет­ся, они за это бапки по­лу­ча­ют. Ну или Кор­рек­тор при­бе­жит, он как юрист-​антрополог объ­яс­нит, что это озна­ча­ет син­гу­ляр­ность.

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

Пусть Ака­де­мия Наук раз­би­ра­ет­ся, они за это бапки по­лу­ча­ют. Ну или Кор­рек­тор при­бе­жит, он как юрист-​антрополог объ­яс­нит, что это озна­ча­ет син­гу­ляр­ность.

Я не знаю что это. Но ваши от­сыл­ки к ис­то­рии "Се­тунь" мне ка­жут­ся оши­боч­ны­ми. 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Я от­сы­лал не к ис­то­рии Се­ту­ни, а к пер­вой на пла­не­те Земля ап­па­рат­ной ре­а­ли­за­ции тро­ич­ной ло­ги­ки в Се­ту­ни.

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

Я пре­крас­но вас понял на­счет тро­ич­ной ло­ги­ки. Я еще помню ис­то­рию элек­тро­ни­ки в СССР. Но на мой взгляд, вы пу­та­е­те тепло и мяг­кое. 

Прак­ти­че­ская суть мо­де­лей LLM в фор­ми­ро­ва­нии "от­ра­же­нии" ре­аль­ной дей­стви­тель­но­сти по­сред­ством его пря­мо­го за­им­ство­ва­ния из "от­ра­же­ния" ма­те­ри­аль­ной куль­ту­ры че­ло­ве­че­ства. Зер­ка­ло от­ра­жа­ю­щее зер­ка­ло. А какая там ло­ги­ка, это уже дру­гой во­прос.

На самом деле мы не знаем что собой в дей­стви­тель­но­сти пред­став­ля­ет наше "от­ра­же­ние" со­дер­жа­ще­е­ся в ма­те­ри­аль­ной куль­ту­ре об­ще­ства. Это мы про­сто на­учи­лись со­зда­вать LLM как "от­ра­же­ния" на­ше­го языка. Но более важно, что мы пока не по­ни­ма­ем что в дей­стви­тель­но­сти от­ра­жа­ет "от­ра­же­ние от­ра­же­ния", по­сколь­ку на се­го­дня у нас нет адек­ват­ных ме­то­дов ма­те­ма­ти­че­ско­го ана­ли­за ма­те­ри­аль­ной куль­ту­ры об­ще­ства. Мы толь­ко пы­та­ем­ся их со­здать. Но самый важ­ный во­прос - Что такое "ори­ги­нал"? Ко­то­рый "от­ра­жа­ют" все эти от­ра­же­ния.

При­чем в дан­ном слу­чае все "от­ра­же­ния" это толь­ко си­сте­мы мо­де­лей. И даже сама "ло­ги­ка" это толь­ко мо­дель. Мы не знаем какая мо­дель "ло­ги­ка" в дей­стви­тель­но­сти со­от­вет­ству­ет ре­аль­но­сти. Но думаю все разом, и не одна пол­ная. Но вся­кая мо­дель имеет опре­де­лен­ную сте­пень до­сто­вер­но­сти. 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Как и ожи­да­лось, при­шёл юрист-​антрополог, и всё объ­яс­нил.

Аватар пользователя utx
utx (9 лет 3 месяца)

Да класть на "ло­ги­ку мо­де­лей". Тут суть чтоб за­пих­нуть в FPGA ал­го­ритм при­шлось ис­поль­зо­вать тро­ич­ную си­сте­му как на Се­туне. А даль­ше хай­по­вые за­го­лов­ки с chatGPT и про­чим. Так то ки­тай­цы долж­ны на ка­ме­ры с рас­по­зна­ва­ни­ем лиц мо­лит­ся на­чи­нать. Этож где это ви­дан­но мо­дель с GPU за­пих­ну­ли на FPGA, ни­ко­гда та­ко­го не было.

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

Этож где это ви­дан­но мо­дель с GPU за­пих­ну­ли на FPGA, ни­ко­гда та­ко­го не было.

По­нят­но что так можно сде­лать. Непо­нят­но можно ли так ре­а­ли­зо­вать LLM. Как ми­ни­мум мне не по­нят­но что будет в слу­чае такое ре­а­ли­за­ции. 

Аватар пользователя utx
utx (9 лет 3 месяца)

Будет оп­ти­ми­за­ция при ра­бо­те с пла­ва­ю­щей за­пя­той и па­мя­тью на же­ле­зя­ках без софта. Суть упи­хать как можно боль­ше опе­ра­ций на кри­ста­ле без про­ме­жу­точ­но­го хра­не­ния дан­ных во внеш­ней па­мя­ти. 

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

Я понял в чем оп­ти­ми­за­ция, я не по­ни­маю какой будет ре­зуль­тат в слу­чае LLM. На­сколь­ко по­лу­чит­ся ре­а­ли­зо­вать точ­ную мо­дель че­ло­ве­че­ско­го языка таким ме­то­дом, и со­от­вет­ствен­но, какая по­лу­чит­ся "вир­ту­аль­ная ней­рон­ная сеть" вто­ро­го уров­ня?

Аватар пользователя utx
utx (9 лет 3 месяца)

Ну по их гра­фи­кам все кра­си­во ) И чем боль­ше мо­дель тем кра­си­вее. На­сколь­ко это мас­шта­би­ру­ет­ся, во­прос ) 

Аватар пользователя Корректор
Корректор (7 лет 12 месяцев)

На­сколь­ко это мас­шта­би­ру­ет­ся, во­прос ) 

Тут во­прос даже не в мас­шта­би­ро­ва­нии, а в смыс­ле мас­шта­би­ро­ва­ния. :)))

Аватар пользователя utx
utx (9 лет 3 месяца)

Кон­спи­ро­лог on

Может чтоб про­дать боль­ше Intel PAC FPGA Stratix 10 SX или Xeon Gold 6138P ?!

Кон­спи­ро­лог off )

Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 5 месяцев)

Во всём этом - два со­сто­я­ния.
Тре­тье, и любое дру­гое ко­ли­че­ство из­ме­ре­ний об­ра­ба­ты­ва­ет­ся пе­ре­во­дом в дво­ич­ную си­сте­му.

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

За пе­ре­вод ко­мис­сию берут.

И если пе­ре­во­ды из­ме­ря­ют эк­с­афлоп­са­ми, то надо атом­ную элек­тро­стан­цию к ро­зет­ке под­клю­чать. От­сю­да воз­ни­ка­ет есте­ствен­ное же­ла­ние ми­ни­ми­зи­ро­вать пе­ре­во­ды. 

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Ап­па­рат­но в Се­ту­ни как раз обыч­ная дво­ич­ная ло­ги­ка ра­бо­та­ла, тро­ич­ность эму­ли­ро­ва­лась.

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Как-​то свою мысль раз­вер­нуть и ар­гу­мен­ти­ро­вать мо­же­те?

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Пре­дель­но упро­щая - ни­ка­ких тро­ич­ных ап­па­рат­ных три­ге­ров и эле­мен­тов И-​ИЛИ-НЕ в Се­ту­ни не было. Тро­ич­ный бит (как сиг­нал при пе­ре­да­че дан­ных из одной об­ла­сти в дру­гую) не по одной линии шел, а по двум. Всё.

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Ну, ре­а­ли­зо­ва­ли как смог­ли на том тех­ни­че­ском уровне.

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Тогда о какой ап­па­рат­ной ре­а­ли­за­ции можно вести речь? С таким же успе­хом это можно было ре­а­ли­зо­вать чисто про­грамм­но, мо­ди­фи­ци­ро­вав какой-​либо ЯВУ, либо со­здав новый. В ре­ля­ци­он­ной ло­ги­ке SQL тро­ич­ность при­сут­ству­ет в пол­ный рост и для этого не тре­бу­ет­ся ни­ка­кой ап­па­рат­ной под­держ­ки. Ну и по ме­ло­чи, куча скрип­то­вых язы­ков любят огра­ни­чен­ную тро­ич­ность - true/false/undefine. Ко­ро­че, до­сти­же­ние, ко­то­рое не было до­сти­же­ни­ем и в мо­мент су­ще­ство­ва­ния не при­го­ди­лось. 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Если вы­дви­гать усло­вие всё впих­нуть в один эле­мент, то не тро­ич­но. А если это усло­вие снять, то в Се­ту­ни ап­па­рат­ная ре­а­ли­за­ция тро­ич­ной ло­ги­ки.

Что ка­са­ет­ся про­грамм­ной эму­ля­ции, то ставь­те пе­ре­клю­ча­тель хоть на nn - про­бле­ма не в эму­ля­ции, а в ин­тер­пре­та­ции. Тро­ич­ная ло­ги­ка ин­тер­пре­ти­ру­ет­ся есте­ствен­ным об­ра­зом "Да/Нет/Пшёл на й", что по­рож­да­ет столь же есте­ствен­ное же­ла­ние под это дело под­су­нуть ап­па­рат­ную ре­а­ли­за­цию.

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Ну, хотя бы пе­ре­да­чу бита по одной линии сде­ла­ли, а то по­лу­чи­ли за свои день­ги себе же ге­мор­рой с удво­е­ни­ем линий. Меня имен­но этот факт боль­ше всего удив­ля­ет. 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Если по одной линии, то тре­бу­ет­ся 3-х сту­пен­ча­тый сиг­нал. Ре­ши­ли, что два шнур­ка ки­нуть проще. чем на один шну­рок три уров­ня сиг­на­ла по­да­вать и три уров­ня с него счи­ты­вать. Тогда дру­гая эле­мен­тая база была.

Аватар пользователя utx
utx (9 лет 3 месяца)

А эти сде­ла­ли) Они про­сто от­бра­сы­ва­ют сред­нее со­сто­я­ние. И ра­бо­та­ют в би­нар­ной ло­ги­ке с 2/3 дан­ных. ) 

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Ну, если бы Се­тунь де­ла­ли, что на­зы­ва­ет­ся "как надо", то там тоже не ме­ша­ло бы за ноль при­нять +0.5В - -0.5В, за еди­ни­цу - +5В, за тре­тье со­сто­я­ние - -5В (или как-​то так, по ана­ло­гии). 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

А потом удив­ля­ют­ся бре­до­ге­не­ра­ции - при­чём за­ши­ва­ют её на уро­вень ра­бо­ты с мат­ри­ца­ми, а по­верх того по­ли­ру­ют ве­ро­ят­но­стя­ми, типа пра­виль­но то, что более часто, а не то, что перед поль­зо­ва­те­лем в реале.

Аватар пользователя utx
utx (9 лет 3 месяца)

Не ну они что-​то воз­вра­ща­ют при об­рат­ном рас­про­стра­не­нии а дру­гое уби­ра­ют ) Ех скоро это все во­об­ще уйдет в ко­роб­ку к коту Шре­ден­ге­ра, вой­дет в су­пер­во­зи­цию и че­ло­ве­че­ство по­лу­чит очень до­ро­гой ге­не­ра­тор слу­чай­ных чисел ) Про­сто все эти танцы все боль­ше на­по­ми­на­ет уве­ли­че­ние эн­тро­пии при хе­ши­ро­ва­нии путем пе­ре­ме­ши­ва­ния.

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Они по умол­ча­нию спи­сы­ва­ют нули в незна­чи­мое - хотя с точки зре­ния се­ман­ти­ки часть нулей может сто­ять на месте зна­чи­мых дан­ных, ко­то­рых недо­бра­ли.

Ну и чем тут об­рат­ное рас­про­стра­не­ние по­мо­жет?

Пол­ный отрыв вы­чис­ле­ний от пред­мет­ных об­ла­стей,  при­чём за­ши­ва­ют отрыв на уро­вень вы­чис­ли­тель­но­го ядра си­сте­мы.

Аватар пользователя utx
utx (9 лет 3 месяца)

Ну и чем тут об­рат­ное рас­про­стра­не­ние по­мо­жет?

Ну в одном ка­на­ле при­знак вы­клю­ча­ет­ся в дру­гом он же уси­ли­ва­ет­ся. А при ите­ра­ции об­рат­но­го рас­про­стра­не­ния все может по­ме­ня­ет­ся во всех N ка­на­лах при­знак может уси­лит­ся ну или пол­но­стью вы­клю­чить­ся. 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Они же ре­ду­ци­ру­ют мат­ри­цы,  в этом их фишка - от­бро­сить нули. Ну и что куда об­рат­но рас­про­стра­нять,  если об­рез­ки в му­сор­ке?

Аватар пользователя utx
utx (9 лет 3 месяца)

Чест­но не раз­би­рал­ся как они dW рас­ки­ды­ва­ют, и ак­ти­ви­ру­ют ли шо нить взад, про­сто пред­по­ло­жил )

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Есть спе­ци­аль­но обу­чен­ные люди, до­цен­ты с кан­ди­да­та­ми вся­кие, бапки по­лу­ча­ют, вот и пусть раз­би­ра­ют­ся.

Но при взгля­де по диа­го­на­ли слиш­ком много во­про­сов про увяз­ку с ин­тер­пре­та­ци­ей в тро­ич­ной ло­ги­ке "Да/Нет/Пшёл на й" и с се­ман­ти­кой пред­мет­ных об­ла­стей.

Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 5 месяцев)

В ре­ля­ци­он­ной ло­ги­ке SQL тро­ич­ность при­сут­ству­ет
Там при­сут­ству­ет всё, что угод­но. Вклю­чая ло­ги­ку любой раз­мер­но­сти.
Один во­прос - смысл это де­лать?
Как это уско­рит ре­а­ли­за­цию глав­но­го: Select... From... Where.... ?

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Один во­прос - смысл это де­лать?

Смысл в упро­ще­нии ло­ги­ки за­про­са. Не надо от­дель­но усло­вия про­ве­рять на NULL, ибо его на­ли­чия ра­бо­та­ет как некое... супер-​false, ав­то­ма­ти­че­ски учи­ты­ва­ет­ся как от­лич­ное от false не ис­тин­ное зна­че­ние. Удоб­но. Это же и в скрип­тин­ге по­лез­но, в том же Perl всё очень гра­мот­но про undef сде­ла­но, без него го­раз­до менее удоб­но (в том же bash-​скрипте - ох, как же этого не хва­та­ет).
 

Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 5 месяцев)

Рас­ска­жи­те это раз­ра­бот­чи­кам 1с )

Аватар пользователя Harsky
Harsky (12 лет 11 месяцев)

Бог ми­ло­вал, мимо меня это сча­стье про­ско­чи­ло, хотя с SAP'ом (неко­то­ры­ми про­дук­та­ми) и при­шлось по­знать всю боль мира в свое время... )))

Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 5 месяцев)

Бог ни при­чём.
Про­грам­ми­сты 1с sql за­про­сы не пишут.
Их фор­ми­ру­ет 1с :)

Аватар пользователя utx
utx (9 лет 3 месяца)

Как я понял они ис­поль­зу­ют тро­ич­ные веса те вес у них может быть 1 0 -1 тогда опе­ра­ция sum(xi*wi) за­ме­ня­ет­ся сло­же­ни­ем )

xi if wi==1

0 if wi==0

-xi if wi==-1

Во­об­щем мат­ри­цу чисел с пла­ва­ю­щей за­пя­той умно­жа­ют на мат­ри­цу тро­ич­ных битов и за­ме­ня­ют умно­же­ние сло­же­ни­ем.

Так как там ис­поль­зу­ет­ся BF16 то они силь­но эко­но­мят на блоке умно­же­ния fp 

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Не знаю. Если так, то по­месь ло­ги­ки в одной мат­ри­це и аб­со­лют­ных зна­че­ний в дру­гой мат­ри­це. 

А если xi и wi оба зна­че­ния тро­ич­ные в ло­ги­ке "Да/Нет/ХЗ", то, как сле­ду­ет из таб­ли­чек в моем за­глав­ном ком­мен­те, се­ман­ти­ка умно­же­ния xi*wi и се­ман­ти­ка сло­же­ния xi+wi раз­ные - при умно­же­нии пять раз по­лу­ча­ет­ся "0", оно же на уровне бы­то­вой оли­го­фре­нии ло­гич­ное и ин­тер­пре­ти­ру­е­мое ХЗ, а при сло­же­нии "Да/Нет/ХЗ" пе­ре­ме­ши­ва­ют­ся и те­ря­ют ис­ход­ные ХЗ, что при ло­ги­че­ской ин­тер­пре­та­ции от­кро­вен­ная шиза. 

Аватар пользователя utx
utx (9 лет 3 месяца)

А если xi и wi оба зна­че­ния тро­ич­ные в ло­ги­ке "Да/Нет/ХЗ",

Нее толь­ко wi тро­ич­ная, на тре­тей стра­ни­це в самом низу общая фор­му­ла. Они от­ки­ды­ва­ют все xi где wi == 0 а потом вы­чи­та­ют/скла­ды­ва­ют две остав­ши­е­ся мат­ри­цы.

то по­месь ло­ги­ки в одной мат­ри­це и аб­со­лют­ных зна­че­ний в дру­гой мат­ри­це. 

лево-​право пошел нафиг )

Как по мне во­прос на­сколь­ко это мас­шта­би­ру­е­мо при боль­шом N.

Аватар пользователя Doc_Mike
Doc_Mike (7 лет 2 месяца)

Да у меня тоже была ги­по­те­за, что эко­но­мия идёт за счёт иг­но­ра и ком­прес­сии.

А если с точки зре­ния се­ман­ти­ки, как в той же ме­ди­цине, то идёт ак­ку­му­ля­ция оши­бок - если ХЗ, то надо до­би­рать про­пу­щен­ную инфу, лег­кие постучать-​послушать-снимок сде­лать, а не ста­вить ди­а­гноз "тем­пе­ра­ту­ра + ка­шель = ОРВИ", про­пу­стив ту­бер­ку­лёз или аб­сцесс лег­ких.

Страницы