Почему забрасывание данных в черные ИИ ящики - не всегда работает

Аватар пользователя RomanSmirnov

Писал как то про проект одного германского профессора ( заметка "Закат не начавшейся эпохи интернет коллективизьма" "https://aftershock.news/?q=node/1147709"  )  с визуализаций гроз онлайн - https://map.blitzortung.org/#1.3/0/8

По аналогичной схеме работают и в яндексе, они на днях выкатили статью на хабре про то, как делают прогноз "гроз"...  вдобавок к классике "триангуляции с железок" - был организован чорный ИИ ящик, куда закидывали данные...

наверно расчитывали на "восхищение" высокими технологиями.  Кроме хабра и на ixbt тоже появилось - https://www.ixbt.com/news/2025/06/19/gde-sverkaet-jandeks-pogoda-predskazhet-grozu-s-vysokoj-tochnostju-i-predupredit-ob-opasnosti.html

Но в камментах пошли жалобы, что стало все намного хуже. бгг. Вот.

img #44

https://habr.com/ru/companies/yandex/articles/919492/

Не удивительно.

Очередной пример как "нейросети" разжижают мозги своим удобством. Не нужны сложные модели - сделаем коробку ( пускай и супер-пупер под капотом, но один раз), туда все закинем, числодробилку по мощнее и вытащим готовенькое.... данных только побольше надо.

Какой еще момент - монополисты с чудовищными ресурсами (в т.ч. админ) типа яндекса стягивают еще и свежие мозги в одно место...  да, хорошо платят, но "практики" какие то унифицированные что ли из-за этого становятся, что объяснимо доступом там к гигантским озерам данных и вычмоще. 

Этот подход с "черными ящиками" он сейчас, не только в "бизнесе" ( заметка - про чипсики и бигбиз - https://aftershock.news/?q=node/1512694 ) , но и в полугуманитарке все активней используется... эх. 

Имхо оптимальна "умная" комбинация, но для этого не только "ит" шники, но и профильные специалисты желательны... причем институализированные, что не так то просто даже с "бюджетом" сделать.

P.S.

Субъективно и правда по "нотам" синоптики стали попадать гораздо хуже - интересно кто нить ведет статистику ошибок... 

P.S. 

еще "красивое"  - https://meteorad.ru/static/phenomena24.gif 

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя Географ глобус пропил

Да какие чудовищные метеоресурсы у яндекса - поди агрегирует предсказания разных метеоцентров из интернета плюс добавил доклады с мест, что, как видим, ухудшило точность. Общие затраты точно меньше человеко-года прогерского труда.

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

Речь, не про метео, а про просто ресурсы - они у них колоссальные, не только финансовые, но и кадровые (что не всегда деньгами измеряется) и "железо" в совокупности уж точно одно из мощнейших в России.

Админ ресурс у них тоже есть... 

То что "тянут" вполне вероятно - надо сравнивать этот германский опенсорс проект и яндексовские данные (лень конечно) - возможно вторые берут у первых... 

Аватар пользователя Географ глобус пропил

В принципе да - яндекс пользуется монополизмом на местном рынке плюс экономит на R&D, копируя западные продукты. Вообще говоря, это модель инноваций всей России и поэтому фундаментальную науку в России не финансируют 

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

Ну если можно скопировать, то почему нет...   сократив иногда серьезные затраты на это самое R&D и потратив время с ресурсом на целевое _обучение_ кадров, вместо набития ими шишок в процессе.

Теряется элемент тренировки... может быть, но это надо учитывать не ахти какая сложная задача.

Аватар пользователя Географ глобус пропил

Это экономит ресурсы, но навечно фиксирует технологическое отставание.

Аватар пользователя balmer
balmer(8 лет 2 месяца)

Я пробовал нейросети (ради интереса) для тривиальнейшей задачи Убрать шум с сетки.

Даже на ней оно работает очень медленно, и не всегда сходится к решению.

Т.е. да, получить от нейросети хороший результат совсем не так просто, как кажется.

Естественно простой математикой эта задача решается легко.

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

а на чем запускали? 

что под капотом... 

"медленное" это может быть про железку - все таки разница между cpu и даже самыми слабыми gpu (с cuda)  серьезная

Аватар пользователя balmer
balmer(8 лет 2 месяца)

Да всё обычное. Pytorch + CUDA + GeForce 3060. Просто задача очень простая, и поэтому можно легко увидеть "плохоизлечимые" косяки технологии. Т.е. мы должны как-то затачиваться, что у нас не особо точные рассчёты и придумывать под это входные/выходные данные нейросети. Должны думать нед тем, как обеспечить сходимость обучения. Вобщем нейросети - совсем нетривиальная технология даже в простейших случаях.

Но это неважно. Решение через классическую минимизацию min|A*b-x| (A - матрица, b,x - вектора) работает естественно сильно лучше и не имеет неожиданных проблем с точностью. И для этого достаточно обычного CPU и милисекунд времени.

Аватар пользователя Sokrat
Sokrat(13 лет 9 месяцев)

Я жду ярких результатов замены кожаных дата-аналитиков на ИИ - ожидаю в этой теме такую феерию, что вся индустрия вздрогнет и побежит собирать за любые деньги оставшихся в живых специалистов "старой школы". smile7.gif

Аватар пользователя Феофан Пургелин

Уже. Старошкольные окопались, рубят деньги на нормальной бигдате и посылают всех лесом. У них вообще отличный бизнес подход - заряжать конский ценник тем, кто уже подорвался на внедрении имитаторов интеллекта. И гоготать в лицо при подписании договора.

Аватар пользователя mse
mse(8 лет 6 месяцев)

Да... Олды должны помнить, FuzzyLogic. Не надо этих ваших моделей, арифметики с матаном, подбирай коэффициентики и вотанощастя!!!11111

Аватар пользователя balmer
balmer(8 лет 2 месяца)

FuzzyLogic и нейросетки - это очень близкие понятия.

Нейросеть это и есть FuzzyLogic в чистом виде, но очень большая FuzzyLogic.

Обучение нейросети это автоматический подбор коэффициэнтов FuzzyLogic на основе данных.

Аватар пользователя Escander
Escander(7 лет 2 месяца)

 Кста, таки порой согласен...лет 10 состоял в аварийно восстановительном отряде.... до сих пор приходят рассылки МЧС в т.ч. о погодных экстремумах ... последний раз дней 5 назад обещали ветер с порывами свыше 25, грозы, ливень, град.... был небольшой дождь

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

и это серьезно удивляет - потому что все обмазано сейчас датчиками, спутниками, датацентрами... в теории прогноз можно на каждую координату делать чуть ли не с минутной точностью... но нет. 

и экономика еще и влетает постоянно на стихийные бедствия как в 17 ом веке.

Аватар пользователя Dirk Diggler
Dirk Diggler(9 лет 11 месяцев)

в теории прогноз можно

нельзя. Погода относится к тому классу явлений, который предсказуем только численными методами с принципиальной неустойчивостью относительно погрешностей - ошибки нарастают экспоненциально.

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

эээ

на исторических данных (в академсекторе) у всех все хорошо

вон с Novel Approach на ML  так сказать 

за 2025 ый год публикации соответствующие прочитал... 

https://www.mdpi.com/2073-4433/16/5/587

https://agupubs.onlinelibrary.wiley.com/doi/full/10.1029/2024EA003613

https://www.nature.com/articles/s41586-024-08252-9

https://arxiv.org/html/2501.06907v1

прям чудеса какие то должны быть... 

Аватар пользователя Escander
Escander(7 лет 2 месяца)

потому что использование матмоделей заменили псевдо-ИИ... кста, на гисметео ранее была ссылка про то как они делают долгосрочный прогноз, если кратко: среднее от 5-6 расчетов по разным моделям - уже хрень ещё та.

Аватар пользователя vmarvin
vmarvin(10 лет 5 месяцев)

Про ухудшение прогнозов чисто субъективно подтверждаю.

Также в копилку: Алиса с годами только тупеет. Даже просто распознавание речи всё чаще глючит...

Аватар пользователя Маргинал

Алиса с годами только тупеет

гы. народ вокруг накупил детям колонок, чтоб своими бесконечными детскими вопросами задалбывали их, а не родителей. радость длилась недолго. дети стали жаловаться, что алиса тупая. или сами родичи послушали, какую дичь она порет и изъяли некогда волшебные устройства

Аватар пользователя Поручик Арбузов

гы

Эффект старшего брата, когда при рождении младшего   пространство опять заполняется "детскостью" , а младшего больше интересуют  красивые "игрушки" старшего.  Однако, там по IQ  (а сравнивали так, но на больших данных)  явная, но незначительная разница, примерно в 1 задание теста.

Аватар пользователя Niss
Niss(11 лет 8 месяцев)

типа яндекса стягивают еще и свежие мозги в одно место...  да, хорошо платят

в яндексе хорошо платят? Туда уже давно идут только ради лычки ex-Yandex

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

ну формально выше чем средняя по рынку - https://dreamjob.ru/employers/25903/zarplata?sort=-average&esfrp%5Bcities%5D=%5B%5D&esfrp%5Byears%5D=%5B%5D&esfrp%5Bvacancies%5D=%5B%5D

а так хз, это кстати далеко не ИТ компания давно

Аватар пользователя Niss
Niss(11 лет 8 месяцев)

Ну это крайне формально) Для обычного старшего разраба там дадут 250-300, когда в большинстве бигтехов 350-400. А если про топовых говорить, те ещё и на международку могут легко податься чуть ли не с удвоением по з\п. Так что мозги если туда и попадают, то потом за пару-тройку лет прочухивают уровень оплаты и сваливают.

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

ну может и так - публичных то данных все равно нет - на хехе.ру стали все убирать цифирки из

Аватар пользователя IgnisSanat
IgnisSanat(9 лет 10 месяцев)

Было дело лет, наверное, 35 назад. Метеоролог рассказывал. У них прогнозы делали путем решения кучу дифуров. В которых константы - не константы, а оценки оных на базе неких статистик. Больше наблюдений в идеале - более точные константы. Оттого и выгода от большого числа измерительных пунктов. Конечно, это не отменяет, говорит, возможность различного решение если данная константа чуточку, но все так в рамках погрешности, не та. Написали в модели что 3, решение одно, написали что 3.1 - другое. А если их много этих констант? Вот почему, говорит, прогнозы ошибаются, даже если модели сами по себе - хорошие.

А в теплой части года - еще хуже. там воздух - как кипящая вода, попробуй спрогнозировать точное положение конкретного пузырка через день

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

поэтому у всех соблазн - кинуть все с датчиков, снимков и прч сразу в ML комбайн... и вытащить готовенькое

истина где то посередине и комбинированный подход наверняка даже сложнее, чем просто "аналоговый" - поэтому на публике так мало успешных подходов к "штанге" 

хотя попытки с нейросетями и "пузырьками" (гидродинамикой и прч), идут чуть ли не с момента их первой активной разработки  90ых

Аватар пользователя Doc_Mike
Doc_Mike(7 лет 11 месяцев)

В Канаде практически перестал пользоваться прогнозами погоды, кроме радарной карты с осадками и направлением ветра на 3 часа вперёд.

Что касается ИТ части, такое впечатление, что  полностью забили на причинно-следственные связи и вытекающие из них знания-правила "если... то...", что требует экспертных знаний в предметной области, и полностью перешли на автоподобор корреляций "всё влияет на всё на всех уровнях всех систем" в больших данных.  Правда, корреляции бывают ложные, классика, когда в середине прошлого века скандинавы показали корреляцию между количеством аистов и деторождений, а то и другое коррелировало с числом домохозяйств в сельской местности.

Плюс корреляции смещённые из-за гетерогенности выборок - "Любит не любит 50 на 50, плюнет поцелует 50 на 50, даст не даст 50 на 50, итого гандон с вероятностью 87,5% на первое свидание брать не надо. Частотность считали на малолетках раннего пубертатного возраста, рекомендации даны поручику Ржевскому при визите к мадам "Да, ужас. Но ведь не ужас-ужас-ужас!!!"". Из-за чего в той же медицине в клинических исследованиях колоссальные усилия вбухивают в обеспечение гомогенности выборок по всем параметрам, кроме исследуемых.

А в БЯМах докидывают дополнительные  косяки, когда перебор корреляций пытаются усекать в контексте, а контекст задаётся порядком слов. 

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

то что читал из свежего, чтобы ложные корреляции отбрасывать стали "критических агентов" внедрять и прч.

выглядит конечно как "шиза" со стороны, но не знаю на практике может и работает (с не предсказуемым в отличии от "аналоговых" подходов, результатом)

Аватар пользователя Doc_Mike
Doc_Mike(7 лет 11 месяцев)

А критические агенты всё те же БЯМы с теми же косяками.

Тут интересней недавнее интервью директора Хуайвея, в котором он анонсировал подключение спецов-предметников.

Аватар пользователя Pilm
Pilm(11 лет 10 месяцев)

В Канаде практически перестал пользоваться прогнозами погоды, кроме радарной карты с осадками и направлением ветра на 3 часа вперёд

В Скандинавии та же история. Норвежские, правда, ещё иногда поглядываю. А так - CAPPI наше всё. На 3-5 часов вперёд.

Аватар пользователя Маргинал

но для этого не только "ит" шники, но и профильные специалисты желательны... причем институализированные, что не так то просто даже с "бюджетом" сделать.

для профильных специалистов потребен не только бюджет, но и система образования. со всеми профильными научно-исследовательскими и прикладными "институциями". и время. которое тоже деньги. в итоге - даже по сравнению с самыми супер-современными числодробилками - это на порядки большие бюджеты. для любой страны существенные.

плюс вопросик мотивации... большое кол-во разумных людей, как следствие развитой системы образования - проблема для любых современных правящих "элит", которым не нужна интеллектуальная, а потом и политическая конкуренция со стороны всякой "черни". Взращивать своих могильщиков за собственный счёт - им явно не сильно улыбается

Аватар пользователя Sdubanah
Sdubanah(10 лет 3 месяца)

Причина эпичного обсера яндекса, всего лишь, в том, что в обучении модели не принимали участие метеорологи (!!!). Там много треша и угара, про это писали много и интересно.

В ИИ работает безотказно простое правило: г-но на входе дает гно на выходе.

Аватар пользователя MKV
MKV(10 лет 4 месяца)

Многие наверняка читали в 2023-м на Хабре статью под названием "Нейросетевая революция в метеорологии. Как машинное обучение может навсегда изменить прогноз погоды" (ссылку даю не для рекламы, она действительно интересная). Если вкратце - гугл  представил свою модель прогнозирования погоды – GraphCast, её особенность заключается в том, что она способна рассчитывать погоду на 10 дней вперёд без понимания «физики» атмосферных процессов и даёт весьма точные прогнозы. Так же даётся сравнение нескольких численных моделей расчёта погоды, причём отечественная  (ПЛАВ) занимает 10-е место по качеству расчёта (точность -  79%), а первое - европейская ECMWF (точность - 91%), причём, якобы, если ECMWF перестанет развиваться, то наша догонит её только через 19 лет (звучит странно, непонятно как просчитали такое).

С другой стороны - читаю про нашего климатолога Владимира Клименко и его климатическую модель 90-х годов (не модель погоды, а именно климата).

И вот что пишут про него:

Несмотря на кажущуюся простоту объяснений, клименковская модель очень непроста математически. Ее отработка и накопление уникальной базы данных для расчетов заняли 12 лет. Разрабатывалась модель еще в те доисторические времена, когда на свете жили 286-е компьютеры (молодежь, конечно, не помнит). Так вот, 286-й компьютер считал первые варианты программы в течение нескольких суток. На пентиуме расчет одного варианта «от кнопки» занимает примерно час. «Расчет одного варианта» — это, например, прогноз климата зимних сезонов московского региона на несколько ближайших десятилетий.

Точность модели — удивительная. В 1994 году Клименко рискнул и впервые опубликовал прогноз климатических изменений до 2005 года. Для средних пяти— и десятилетних значений прогноз сбылся с точностью до 0,02 °C, то есть с такой же точностью, с какой климатологи измеряют среднеглобальную и среднеполушарную температуру. И надо бы точнее, да некуда! С 1996 года в лаборатории сделали 12 успешных прогнозов на 12 сезонов — зима, весна, лето, осень — по московскому региону.

С той же невероятной точностью — до одной сотой градуса — клименковцы предсказали среднепланетарный климат 1990-х годов! Их прогноз давал +0,4 градуса от климатической нормы XX столетия, в то время как общепринятая точка зрения научного сообщества климатологов давала прогноз плюс 1–2 градуса от нормы. То есть мировые климатические модели, расчет которых происходит на суперкомпьютерах, ошиблись в 2–4 раза. Клименко на пентиуме попал.

Странно всё это - погоду не можем предсказать на 10 дней, а климат в общем - запросто.

Аватар пользователя RomanSmirnov
RomanSmirnov(11 лет 8 месяцев)

Ссылка в комментарии про настройку iptables... а статью да читали...  

климат легче, чем погода так как усредняется на долгосроке

Аватар пользователя MKV
MKV(10 лет 4 месяца)

Мдаа, с ссылкой ошибся, с Хабра двадцать вкладок открыто с техническими статьями.

Аватар пользователя stschel
stschel(4 года 11 месяцев)

Был один метеоролог (Лоренц?). Решил построить модель движения сферического коня в вакууме воздушных масс. Получил систему в частных производных и численно решил. Решение устойчивое, фокус в другом.
Вопрос о существовании функции многих переменных решен и, кажется, панацея в виде универсального аппроксиматора - нейросети - найдена. Вот только "функция" там не совсем функция.
Но попытка - не пытка.