Новая вы­со­ко­про­из­во­ди­тель­ная ней­ро­сеть по­треб­ля­ет всего 13 Вт энер­гии, что со­по­ста­ви­мо с пи­та­ни­ем элек­три­че­ской лам­поч­ки - бла­го­да­ря новым ал­го­рит­мам

Аватар пользователя Topmember

Устра­няя самый до­ро­го­сто­я­щий с точки зре­ния вы­чис­ле­ний эле­мент боль­шой язы­ко­вой мо­де­ли, ин­же­не­ры зна­чи­тель­но по­вы­ша­ют энер­го­эф­фек­тив­ность при со­хра­не­нии про­из­во­ди­тель­но­сти, со­об­ща­ет news.ucsc.edu

До­ка­за­но, что боль­шие язы­ко­вые мо­де­ли, такие как ChaptGPT, спо­соб­ны вы­да­вать уди­ви­тель­но ин­тел­лек­ту­аль­ные ре­зуль­та­ты, но энер­ге­ти­че­ские и де­неж­ные за­тра­ты, свя­зан­ные с за­пус­ком этих мас­штаб­ных ал­го­рит­мов, за­об­лач­но вы­со­ки. По по­след­ним оцен­кам, за­пуск ChatGPT 3.5 об­хо­дит­ся в 700 000 дол­ла­ров в день в виде за­трат на элек­тро­энер­гию и остав­ля­ет после себя огром­ный уг­ле­род­ный след.


В новом пре­прин­те ис­сле­до­ва­те­ли из Ка­ли­фор­ний­ско­го уни­вер­си­те­та в Санта-​Крус по­ка­зы­ва­ют, что можно ис­клю­чить самый до­ро­го­сто­я­щий с точки зре­ния вы­чис­ле­ний эле­мент за­пус­ка мо­де­лей боль­шо­го языка, на­зы­ва­е­мый мат­рич­ным умно­же­ни­ем, при со­хра­не­нии про­из­во­ди­тель­но­сти.

Из­ба­вив­шись от мат­рич­но­го умно­же­ния и за­пу­стив свой ал­го­ритм на спе­ци­а­ли­зи­ро­ван­ном обо­ру­до­ва­нии, ис­сле­до­ва­те­ли об­на­ру­жи­ли, что они могут обес­пе­чить ра­бо­ту язы­ко­вой мо­де­ли с мил­ли­ар­дом па­ра­мет­ров всего на 13 ват­тах, что при­мер­но равно энер­гии, по­треб­ля­е­мой лам­поч­кой и более чем в 50 раз эф­фек­тив­нее, чем [это де­ла­ет] обыч­ное обо­ру­до­ва­ние.

Даже при упро­щен­ном ал­го­рит­ме и го­раз­до мень­шем по­треб­ле­нии энер­гии новая мо­дель с от­кры­тым ис­ход­ным кодом до­сти­га­ет той же про­из­во­ди­тель­но­сти, что и со­вре­мен­ные мо­де­ли, такие как Meta Llama.

«Мы по­лу­чи­ли ту же про­из­во­ди­тель­ность при го­раз­до мень­ших за­тра­тах — все, что нам при­шлось сде­лать, это в корне из­ме­нить прин­цип ра­бо­ты ней­рон­ных сетей», — го­во­рит Джей­сон Эш­ра­ги­ан, до­цент ка­фед­ры элек­тро­тех­ни­ки и вы­чис­ли­тель­ной тех­ни­ки в Школе ин­же­не­рии Бас­ки­на и ве­ду­щий автор ста­тьи. «Затем мы сде­ла­ли еще один шаг впе­ред и со­зда­ли спе­ци­аль­ное обо­ру­до­ва­ние».

По­ни­ма­ние сто­и­мо­сти

До сих пор все со­вре­мен­ные ней­рон­ные сети — ал­го­рит­мы, на ос­но­ве ко­то­рых стро­ят­ся боль­шие язы­ко­вые мо­де­ли, — ис­поль­зо­ва­ли тех­ни­ку, на­зы­ва­е­мую мат­рич­ным умно­же­ни­ем.

В боль­ших язы­ко­вых мо­де­лях слова пред­став­ля­ют­ся в виде чисел, ко­то­рые затем ор­га­ни­зу­ют­ся в мат­ри­цы. Мат­ри­цы умно­жа­ют­ся друг на друга для со­зда­ния языка, вы­пол­няя опе­ра­ции, ко­то­рые взве­ши­ва­ют важ­ность опре­де­лён­ных слов или вы­де­ля­ют связи между сло­ва­ми в пред­ло­же­нии или пред­ло­же­ни­я­ми в аб­за­це. Язы­ко­вые мо­де­ли более круп­но­го мас­шта­ба со­дер­жат трил­ли­о­ны таких чисел.

“Ней­рон­ные сети, в неко­то­ром смыс­ле, яв­ля­ют­ся про­слав­лен­ны­ми ма­ши­на­ми для умно­же­ния мат­риц”, — ска­зал Эш­ра­ги­ан. “Чем боль­ше ваша мат­ри­ца, тем боль­ше­му ко­ли­че­ству вещей может на­учить­ся ваша ней­рон­ная сеть”.

Чтобы ал­го­рит­мы могли пе­ре­мно­жать мат­ри­цы, мат­ри­цы необ­хо­ди­мо где-​то хра­нить, а затем из­вле­кать, когда при­дет время вы­чис­ле­ния.

Это ре­ша­ет­ся путем хра­не­ния мат­риц на сот­нях фи­зи­че­ски раз­де­лен­ных гра­фи­че­ских про­цес­со­ров (GPU), ко­то­рые пред­став­ля­ют собой спе­ци­а­ли­зи­ро­ван­ные схемы, пред­на­зна­чен­ные для быст­ро­го вы­пол­не­ния вы­чис­ле­ний на очень боль­ших на­бо­рах дан­ных, раз­ра­бо­тан­ные та­ки­ми ап­па­рат­ны­ми ги­ган­та­ми, как Nvidia.

Чтобы умно­жить числа из мат­риц на раз­ных гра­фи­че­ских про­цес­со­рах, дан­ные необ­хо­ди­мо пе­ре­ме­щать — про­цесс, ко­то­рый со­зда­ет боль­шую часть за­трат ней­рон­ной сети с точки зре­ния вре­ме­ни и энер­гии.

Отказ от мат­рич­но­го умно­же­ния

Ис­сле­до­ва­те­ли раз­ра­бо­та­ли стра­те­гию, поз­во­ля­ю­щую из­бе­жать ис­поль­зо­ва­ния мат­рич­но­го умно­же­ния, ис­поль­зуя два ос­нов­ных ме­то­да. Пер­вый — это метод, поз­во­ля­ю­щий за­ста­вить все числа внут­ри мат­риц быть тро­ич­ны­ми, что озна­ча­ет, что они могут при­ни­мать одно из трех зна­че­ний: от­ри­ца­тель­ное, ну­ле­вое или по­ло­жи­тель­ное. Это поз­во­ля­ет све­сти вы­чис­ле­ния к сум­ми­ро­ва­нию чисел, а не к умно­же­нию.

С точки зре­ния ин­фор­ма­ти­ки эти два ал­го­рит­ма можно за­ко­ди­ро­вать со­вер­шен­но оди­на­ко­во, но метод ко­ман­ды Эш­ра­гя­на поз­во­ля­ет из­бе­жать массы за­трат на ап­па­рат­ную часть.

«С точки зре­ния раз­ра­бот­чи­ка схем, вам не нужны рас­хо­ды на умно­же­ние, ко­то­рые вле­кут за собой целую кучу за­трат», — го­во­рит Эш­ра­гян.

Вдох­но­ве­ни­ем для этой стра­те­гии по­слу­жи­ла ра­бо­та ком­па­нии Microsoft, ко­то­рая по­ка­за­ла воз­мож­ность ис­поль­зо­ва­ния тро­ич­ных чисел в ней­рон­ных сетях, но не зашла так да­ле­ко, чтобы из­ба­вить­ся от умно­же­ния мат­риц или вы­ло­жить свою мо­дель на все­об­щее обо­зре­ние. Для этого ис­сле­до­ва­те­ли из­ме­ни­ли стра­те­гию вза­и­мо­дей­ствия мат­риц друг с дру­гом.

Вме­сто того чтобы умно­жать каж­дое число в одной мат­ри­це на каж­дое число в дру­гой мат­ри­це, как это обыч­но бы­ва­ет, ис­сле­до­ва­те­ли раз­ра­бо­та­ли стра­те­гию, поз­во­ля­ю­щую по­лу­чить те же ма­те­ма­ти­че­ские ре­зуль­та­ты. При таком под­хо­де мат­ри­цы на­кла­ды­ва­ют­ся друг на друга, и вы­пол­ня­ют­ся толь­ко самые важ­ные опе­ра­ции.

«По срав­не­нию с умно­же­ни­ем мат­риц это до­воль­но лег­кая опе­ра­ция», — го­во­рит Руй-​Цзе Чжу, пер­вый автор ста­тьи и ас­пи­рант в груп­пе Эш­ра­гя­на. «Мы за­ме­ни­ли до­ро­го­сто­я­щую опе­ра­цию более де­ше­вой».

Несмот­ря на со­кра­ще­ние ко­ли­че­ства опе­ра­ций, ис­сле­до­ва­те­ли смог­ли со­хра­нить про­из­во­ди­тель­ность ней­рон­ной сети, внед­рив в про­цесс обу­че­ния мо­де­ли вы­чис­ле­ния, ос­но­ван­ные на вре­ме­ни.

Это поз­во­ля­ет сети со­хра­нять в “па­мя­ти” важ­ную ин­фор­ма­цию, ко­то­рую она об­ра­ба­ты­ва­ет, по­вы­шая про­из­во­ди­тель­ность. Этот метод оправ­дал себя — ис­сле­до­ва­те­ли срав­ни­ли свою мо­дель с уль­тра­со­вре­мен­ным ал­го­рит­мом Meta под на­зва­ни­ем Llama и смог­ли до­стичь той же про­из­во­ди­тель­но­сти даже в мас­шта­бе мил­ли­ар­дов па­ра­мет­ров мо­де­ли.

Ин­ди­ви­ду­аль­ные/поль­зо­ва­тель­ские чипы

Ис­сле­до­ва­те­ли раз­ра­бо­та­ли свою ней­рон­ную сеть для ра­бо­ты на гра­фи­че­ских про­цес­со­рах, по­сколь­ку они стали по­все­мест­но ис­поль­зо­вать­ся в ин­ду­стрии ИИ, что поз­во­ли­ло сде­лать про­грамм­ное обес­пе­че­ние ко­ман­ды лег­ко­до­ступ­ным и по­лез­ным для всех, кто за­хо­чет его ис­поль­зо­вать.

На стан­дарт­ных гра­фи­че­ских про­цес­со­рах ней­рон­ная сеть по­треб­ля­ла в 10 раз мень­ше па­мя­ти и ра­бо­та­ла на 25 % быст­рее, чем дру­гие мо­де­ли. Со­кра­ще­ние объ­е­ма па­мя­ти, необ­хо­ди­мо­го для за­пус­ка мощ­ной язы­ко­вой мо­де­ли боль­шо­го объ­е­ма, могло бы про­ло­жить путь к тому, чтобы ал­го­рит­мы ра­бо­та­ли на пол­ную мощ­ность на устрой­ствах с мень­шим объ­е­мом па­мя­ти, таких как смарт­фо­ны.

Nvidia, ве­ду­щий ми­ро­вой про­из­во­ди­тель гра­фи­че­ских про­цес­со­ров, раз­ра­ба­ты­ва­ет свое обо­ру­до­ва­ние таким об­ра­зом, чтобы оно было мак­си­маль­но оп­ти­ми­зи­ро­ва­но для вы­пол­не­ния мат­рич­но­го умно­же­ния, что поз­во­ли­ло ему до­ми­ни­ро­вать в от­рас­ли и сде­лать ее одной из самых при­быль­ных ком­па­ний в мире. Од­на­ко это обо­ру­до­ва­ние не пол­но­стью оп­ти­ми­зи­ро­ва­но для тро­ич­ных опе­ра­ций.

Чтобы до­бить­ся еще боль­шей эко­но­мии энер­гии, ко­ман­да в со­труд­ни­че­стве с до­цен­том Да­сти­ном Рич­мон­дом и пре­по­да­ва­те­лем Ита­ном Сиф­фер­ма­ном с фа­куль­те­та ком­пью­тер­ных наук и ин­же­не­рии Baskin Engineering со­зда­ла спе­ци­аль­ное обо­ру­до­ва­ние.

В те­че­ние трех недель ко­ман­да со­зда­ла про­то­тип сво­е­го ап­па­рат­но­го обес­пе­че­ния на схеме с ши­ро­ки­ми воз­мож­но­стя­ми на­строй­ки, на­зы­ва­е­мой про­грам­ми­ру­е­мой вен­тиль­ной мат­ри­цей (FPGA). Это обо­ру­до­ва­ние поз­во­ля­ет им в пол­ной мере ис­поль­зо­вать все функ­ции энер­го­сбе­ре­же­ния, ко­то­рые они за­про­грам­ми­ро­ва­ли в ней­рон­ной сети.

Бла­го­да­ря этому ап­па­рат­но­му обес­пе­че­нию мо­дель пре­вос­хо­дит че­ло­ве­ко­чи­та­е­мую про­из­во­ди­тель­ность, то есть вы­да­ет слова быст­рее, чем чи­та­ет че­ло­век, по­треб­ляя всего 13 ватт энер­гии. 

Ис­поль­зо­ва­ние гра­фи­че­ских про­цес­со­ров по­тре­бо­ва­ло бы около 700 Вт энер­гии, а это озна­ча­ет, что спе­ци­аль­ное обо­ру­до­ва­ние до­стиг­ло более чем в 50 раз боль­шей эф­фек­тив­но­сти, чем гра­фи­че­ские про­цес­со­ры.

Ис­сле­до­ва­те­ли счи­та­ют, что при даль­ней­шей раз­ра­бот­ке они смо­гут еще боль­ше оп­ти­ми­зи­ро­вать тех­но­ло­гию для по­вы­ше­ния энер­го­эф­фек­тив­но­сти.

«Эти цифры уже очень со­лид­ные, но их очень легко сде­лать го­раз­до лучше», — го­во­рит Эш­ра­гян. «Если нам удаст­ся уло­жить­ся в 13 ватт, толь­ко пред­ставь­те, что мы смо­жем сде­лать с вы­чис­ли­тель­ной мощ­но­стью це­ло­го цен­тра об­ра­бот­ки дан­ных. У нас есть все эти ре­сур­сы, но да­вай­те ис­поль­зо­вать их эф­фек­тив­но».

Ис­точ­ник пе­ре­во­да: newsstreet.ru

 

Боль­ше ин­те­рес­ных ста­тей, ко­то­рые я не успе­ваю пе­ре­во­дить, но ко­то­рые можно по­чи­тать через онлайн-​перевод, можно найти здесь: t.me/murrrzio

Ав­тор­ство: 
Ав­тор­ская ра­бо­та / пе­ре­во­ди­ка
Ком­мен­та­рий ре­дак­ции раз­де­ла Аль­тер­на­тив­ный Ин­тел­лект

Комментарии

Аватар пользователя utx
utx (9 лет 3 месяца)

При 60Mhz на те­сто­вой карте за +-10K$ ) А дру­гая часть про­дол­жа­ет счи­тать­ся на GPU )

Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 6 месяцев)

У SSD на­ко­пи­те­лей есть один су­ще­ствен­ный недо­ста­ток - малое ко­ли­че­ство за­пи­сей.
Ячей­ки флеш-​памяти NAND вы­дер­жи­ва­ют огра­ни­чен­ное ко­ли­че­ство цик­лов пе­ре­за­пи­си.
Од­но­бит­ная SLC на этапе анон­са тех­но­ло­гии NAND вы­дер­жи­ва­ла 100 тысяч цик­лов пе­ре­за­пи­си, двух­бит­ная MLC/DLC — уже 10 тысяч.
Это на самом деле немно­го если знать, что винда при каж­дом об­ра­ще­нии к файлу пе­ре­за­пи­сы­ва­ет его ат­ри­бу­ты (не всё!) ))

Аватар пользователя Иван Жуков
Иван Жуков (10 лет 5 месяцев)

Ал­го­рит­мы - наше все! Да. Упро­ще­ние са­мо­го числа, т.е. со­кра­ще­ние/упро­ще­ние ман­тис­сы - то, что нужно для задач ней­ро­се­тей. "Оп­ти­маль­щи­ки" этим давно за­ни­ма­ют­ся для по­лу­че­ния на­чаль­ных при­бли­же­ний при по­ис­ке ло­каль­ных ми­ни­му­мов слож­ных функ­ци­о­на­лов. Рост эф­фек­тив­но­сти ал­го­рит­мов на пару по­ряд­ков - вполне ре­аль­но.

Аватар пользователя utx
utx (9 лет 3 месяца)

Ну те раз­го­вор идет о том что для вы­кра­и­ва­ния бюд­же­та на FPGA тя­же­лые блоки за­ме­ни­ли более лег­ки­ми, а сам вы­иг­рыш в энер­го­по­треб­ле­нии это пе­ре­ход с об­ще­вы­чис­ли­тель­ных процов на FPGA. Что как бы де­ла­ет­ся по­сто­ян­но и в куче мест.

Аватар пользователя Y.Polanski
Y.Polanski (7 лет 7 месяцев)

Непо­нят­но, что об­суж­дать. Обыч­ный обмен точ­но­сти на быст­ро­дей­ствие. Вме­сто ве­со­вых ко­эф­фи­ци­ен­тов но­ли­ки и еди­нич­ки рас­ста­ви­ли. Во­прос, как это будет ра­бо­тать, если и вес мил­ли­он и вес один за­ме­нить на один. Вот тут то и кро­ет­ся ко­рень хайпа. Вся идео­ло­гия со­зда­ния, так на­зы­ва­е­мо­го "ин­тел­лек­та" - во­пло­ще­ние "ме­то­да тыка" . Этот во­прос будут долго ис­сле­до­вать, де­сят­ки ста­тей на­пи­шут и, лет через пять, после пе­ре­ва­ри­ва­ния денег на ис­сле­до­ва­ния, нам рас­ска­жут, что того же ка­че­ства язы­ко­вой мо­де­ли уда­лось до­бить­ся за счёт уве­ли­че­ния числа сло­же­ний в 1000 раз. 

Аватар пользователя guliaka
guliaka (11 лет 1 месяц)

Коде для GPU лежит здесь, FPGA кода пока нет, коли кому ин­те­рес­но: https://github.com/ridgerchu/matmulfreellm

Аватар пользователя одессит 2.0
одессит 2.0 (2 года 1 неделя)

До­ка­за­но, что боль­шие язы­ко­вые мо­де­ли, такие как ChaptGPT, спо­соб­ны вы­да­вать уди­ви­тель­но ин­тел­лек­ту­аль­ные ре­зуль­та­ты

Че­ло­век спо­со­бен вы­да­вать на­мно­го луч­шие ре­зуль­та­ты. Но для на­ча­ла надо стать Че­ло­ве­ком и тре­ни­ро­вать свой ин­тел­лект. ИИ - обыч­ный демон ни чем не огра­ни­чен, кроме нрав­ствен­но­сти про­грам­ми­ста и за­да­ва­е­мым им ал­го­рит­мов.

Че­ло­век, с со­от­вет­ству­ю­щей нрав­ствен­но­стью и стро­ем пси­хи­ки, для об­ра­бот­ки ин­фор­ма­ции ис­поль­зу­ет ин­тел­лект, чув­ства, ин­ту­и­цию, со­весть, раз­ли­че­ние от Все­выш­не­го. Обыч­ный каль­ку­ля­тор ИИ, ли­шён­ный всего этого. Для спе­ци­фи­че­ских задач по­дой­дет. За­да­ча ИИ быст­ро сме­ши­вать крас­ки, зная где они лежат, пока че­ло­век тво­рит. 

Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 6 месяцев)

Пусть ИИ от­ве­тит на про­стой во­прос:
По­че­му все нетри­ви­аль­ные (то есть име­ю­щие нену­ле­вую мни­мую часть) нули дзета-​функции Ри­ма­на имеют дей­стви­тель­ную часть 1/2.

Аватар пользователя srha
srha (1 год 2 месяца)

Ин­те­рес­но, но пока не по­нят­но. Не по­нят­но ка­че­ство по­лу­чив­ше­го­ся ИИ. В от­ли­чии от про­из­во­ди­тель­но­сти о ка­че­стве ни слова?

И, да, думаю всем же по­нят­но, что че­ло­ве­че­ский мозг не за­ни­ма­ет­ся умно­же­ни­ем на пря­мую (типа мат­рич­но­го, как в схе­мо­тех­ни­ке) в том числе и  под­би­рая слова - все же му­ча­лись изу­чая таб­ли­цу умно­же­ния (думаю, что те, кто не му­чил­ся - про­пу­сти­ли эту ста­тью) и умно­же­ние стол­би­ком?

Аватар пользователя BobbyDigital
BobbyDigital (3 года 10 месяцев)

700к бак­сов в день, чтоб я по­лу­чил этот ответ 🥴

Аватар пользователя clinch63
clinch63 (8 лет 9 месяцев)

Вы не тот во­прос за­да­ли. Вот там пред­ла­га­ют под­пи­сать­ся на канал про тех­но­ло­гии @naebnet. По­это­му я и задал со­от­вет­ству­ю­щий во­прос: naebnet ili ne naebnet? Ответ был кра­ток: naebnet.

Аватар пользователя MaikCG
MaikCG (4 года 3 месяца)

ИИш­ни­кам вы­ки­нуть преды­ду­щие си­сте­мы нви­дии и ку­пить новые, в 50 раз эф­фек­тив­нее.

Аватар пользователя кругосвет
кругосвет (10 месяцев 2 недели)

Вот вот, Nvidia is new dotcom , enron ) Чув­ствую, уро­нят они биржу ) 

Ком­мен­та­рий ад­ми­ни­стра­ции:  
*** от­клю­чен (ин­фо­му­сор, дикие го­ло­слов­ные об­ви­не­ния) ***
Аватар пользователя Andrew74-22
Andrew74-22 (5 лет 6 месяцев)

Не уро­нят.
Они в прин­ци­пе не стоят даже одной Мар­те­нов­ской печи.

Скрытый комментарий Повелитель Ботов (без обсуждения)

Страницы