(оффтоп) Костры из миллионов человекочасов

Аватар пользователя RomanSmirnov

Благодаря достижениям науки и техники, помимо появления непосредственно супер механизмов возгонки человечьего внимания, также становятся доступны простые инструменты для быстрого и относительно точного анализа больших массивов информации с этих механизмов, причем без особых ресурсных затрат, что позволяет делать реально быстро прикидки по условно говоря “ментальному полю”, что важно всему и что называется не вставая с дивана.

Одним из таких инструментов является выделение из текста именованных сущностей.

Т.е. закидываешь в анализатор обычный текст он тебе возращает структурированную информацию – людей, места, даты и прч. ( т. н. NER )

Соответственно потом можно наложить категоризацию по моделям и уже сразу перейти к укрупненной аналитике.

Как сервис этот NER предоставляет например Google Cloud и IBM Watson пробовал оба – работают – гугл чуть получше, но они платные (на больших объемах вполне ощутимо) и работают удалено.

Есть и бесплатные библиотеки-парсеры из академической среды или яндексовский тамитапарсер например – но пользоваться неудобно и работают кстати гораздо хуже, чем сервисы, к тому же у того же Watson уже есть инструмент для построения моделей следующего уровня, работающих с _категориями_ , впрочем ладно сегодня не об этом.

Сейчас же появилась отечественная библиотека ( https://github.com/natasha/natasha  ) от Кукушкина ( https://lab.alexkuk.ru/  ) . Удобно.

Вот к ней простенький враппер – на вход текст на выходе json с нормализованными фамилиями-именами из текста

https://github.com/SmirnovRoman/NLPNatashaWrapper/blob/main/ner2json.py 

и тоже самое только в режиме http сервера для распараллеливания задач обработки (+можно на нескольких серверах запустить для скорости)
https://github.com/SmirnovRoman/NLPNatashaWrapper/blob/main/ner2json_server.py 

Второй не совсем технический аспект “прогресса” это появление так называемых “медиа агрегаторов” т.е. в медиа пространстве распространилась практика продвижения “людей”, “каналов” и прч, которые приглашают к себе других людей (или тематические передачи о ком то), используя определенный “фильтр”, настраиваемый от концпеции канала или его аудитории, хотя иногда и от балды, или же “люди” сами на них выходят — по разному, не суть важно.

И вот здесь уже начинается механика. Информационное поле так устроено, что о “врагах” либо плохо, либо ничего – соответственно возникает асимметрия и анализируя эту самую асимметрию можно уже начинать что то понимать.

Кстати приглашение того или иного человечка в канал это уже “упоминание” как таковое.

Так вот по поводу ментального поля – тут примечателен феномен ты-тупа, когда на плечах атлантов массового сознания - музычки, видосиков про рыбалку и машинки в головы широких народных масс (ШНМ) полезла политота, порой причем самая жестяная, которая бы раньше никуда дальше своей же узкой тусовки не вылезла, при всем желании, аналогично действует дубайский телесрам — на плечах сервиса обмена личными сообщениями, насаживается чудовищный деградационный механизм «каналов» (односторонний «обмен» информацией (точнее он двухсторонний конечно, но обратно только техническая идет — кто, где и когда, что) — прекрасно для создания пресловутых «ментальных пузырьков».

Основное назначение всего этого чудовищного по размерам механизма (на вскидку в России причем он раздут больше, чем в других административных контурах) это конечно канализация энергии психов, чтобы не мешали Людям деньги зарабатывать и дела делать, но в эти сети затягивает и нормальных человечков, даже если разделить «просмотры-подписчики» на десять (а то и на сто - так как работает бизнес схема с получением финансирования под часто рисованные цифирки) — все равно остается достаточно много.

Тем более с определенной акцентуацией на идейность, ибо кстати относительно нее, не так уж важно какая именно часть спектра втягивается.

И вот тут как мне кажется собака то и порылась. Ибо вроде бы канализация-утилизация не факт что так уж полезна.

Чем интересен идейный — он может делать что то бесплатно и с большой вероятностью с бОльшей отдачей, чем не идейный. Ключевое слово тут «делать».

Т.е. технически несколько тысяч хорошо структурированных идейных это ведь формально практически корпорация с «многомиллиардной капитализацией» даже без реальных активов. Многие корпорации это именно, что кадровый состав в несколько десятков, максимум сотен человек менеджмента, которые понимают, что и для чего они делают на своем уровне. И вместо создания подобных «корпораций» (партий), заодно кстати структурирующих социум, мы имеем в лучшем случае раскрутку на донатики с торговлей бессмысленными в гипер-информационную эпоху «книгами», а также наполнение массовки на.

Сложно сказать может так и надо, легче с атомизированными работать, да и попробуй потом сгустки завязавшиеся контролируй…

Ну ладно это все лирика, давайте посмотрим физику.

Спектральный анализ так сказать.

К сожалению, гуглоиды не так давно грохнули несколько действительно мощных «агрегаторов» - «Соловьева» (взял с ру-тупа что есть), «Радио Аврора» и некоторых других… которые пропускали через себя серьезный поток, поэтому взял на вскидку следующий список из 19 каналов (половину наугад, просто из рейтинга) и загрузил информацию о "видео".

20220730232534_mceclip0.png

Почему кстати именно видосы — субъективно Людям современное медиа разжижает мозг и они перестают читать в принципе даже интернет…

Для ты-тупа брал из названия и описания. Хорошо бы субтитры конечно — но они не для всех видео сгенерированы.

Итак разблюдовка:

верхняя часть топа ( название канала в скобах количество упоминаний )

20220730233421_mceclip4.png

Нижняя

20220730233624_mceclip5.png

Отдельные, по годам 

20220730232752_mceclip1.png

20220730232832_mceclip2.png

20220730232941_mceclip3.png

20220730232941_mceclip3.png

20220730235957_mceclip0.png

 

 

Что то вроде этого рисуют полупрофессиональные инструменты вроде медиалогии, ну и более расширенные профессиональные (там где есть стата не только по тем, кто показывает, но и по тем кто смотрит, бгг https://aftershock.news/?q=node/1116553 ), ну и как минимум там конечно учитывается кол-во просмотров каждой записи, чтобы реальные веса посчитать …

Как запись по отдельному персонажу выглядит

20220730234148_mceclip6.png

Короче, не буду грузить. Даже отработки набросаных на коленке за полчаса скриптов хватает, чтобы общую картинку ухватить.

Какой основной вывод — если отбросить реальных политиков и _старые_ мемы, то можно увидеть, что почти всю ты-туп медиа сферу с уклоном в политоту накрывает реально небольшое кол-во персонажей в ротации и так как ничего особо в этой сфере не происходит уже много-много лет, то получается, что они как часть Механизма вообщем то со своей ролью справляются. Там на круг всего, за например 5 лет засветилось около 5 тысяч человечков, а особо буйные, которые весь эфир забивают, так и вобще в сотку уложатся, не так уж и дорого.

В академической среде в принципе почти так же.

Возможно конечно контекст сейчас переломит как то ситуацию в т.ч. отключение ты-тупа как такового, правда вопрос стоит ли… может быть действительно кроме утилизации «внимания» ничего полезного с этой энергией и не сделать.

Ну как энергией  по сути временем человечков - ну сколько там ... если просмотры перемножить на мощность медиа потока - ежедневно сжигается как минимум несколько миллионов человекочасов. Не, все таки хорошо бы, чтобы по скорее ты-туп этот отключили. Статистику можно и с рутупа срисовать.

Надеюсь у читателей, вот это вот все, хотя бы фоном крутится по дороге на работу например или в спортзале.

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя Замполит
Замполит(10 лет 7 месяцев)

отключат тытуп и все сразу начнут сеять разумное доброе ?

не для того его приспосабливали

одни изучали энергию атомов а потом другие придумали толстяков и малышей

Аватар пользователя Zukkertort
Zukkertort(6 лет 11 месяцев)

Я вот на Youtube смотрю научно-технические обзоры, образовательные программы (по физике, например), слушаю музыку и озвучку книг. smile7.gif

Каждый получает на Youtube ту информацию, которую хочет увидеть. Биг-дата глобальна, информация о ваших интересах собирается, актуализируется и перепродается игроками информационного рынка непрерывно,  24/7/365.

 Так что не стоит удивляться, если у вас Youtube лезет "полититота" или там "инвестиции в крипту"  -  никакой ошибки, это лишь  отражение ваших же интересов. smile16.gif

Девушку из деревни вывезти можно, но деревню из девушки  -  никогда.

Закрывать Youtube чтобы лишить жаждущих источника востребованной ими же информации глупо и контрпродуктивно  -  "свинья везде грязь найдет" найдут в другом месте.

Комментарий администрации:  
*** отключен (злостная дезинформация, набросы) ***
Аватар пользователя Tetracon
Tetracon(8 лет 4 дня)

Вот кстати соглашусь. Я вообще себе поставил плагин Pocket Tube, там есть возможносто во первых делать категории\папки и разносить каналы по ним. А во вторых агрегировать себе рекомендованные из своих собственных подписок, при желании можно видеть только обновления тех каналов\собственных рубрик, на которые по каким-то причинам подписался ( у меня в меню ютуба просто добавилось еще пара пунктов). А если заходить через обычную кнопку в меню , то там уже показывает рекомендованные из моих подписок и уже цепляет что-то похожее с других - на которые я не подписан, по анализу моих просмотров. 

 

Аватар пользователя Strim
Strim(11 лет 6 месяцев)

каждому -по потребностям

а вот "информационная колея" в которую тебя сажает ютуб, подсовывая постоянно одни и те же видео- это да.

к счастью, нам же вроде как вернули тор :)

Аватар пользователя Скурлатий Магома

а вот "информационная колея" в которую тебя сажает ютуб, подсовывая постоянно одни и те же видео-​ это да

Что мешает не полениться и отметить "не интересует"?  К примеру, ряд тем, что меня просто раздражают (к примеру спорт или юмор вместе с разной музычкой) у меня вообще больше не появляются в рекомендациях.

Аватар пользователя Брандмейстер Битти

Ты прав. 

Комментарий администрации:  
*** отключен (Безумный шизик: "Украинские города следует заливать напалмом и кислотами, закидывать вакуумными бомбами и жечь огнеметами" (с)) ***
Аватар пользователя Лукич
Лукич(7 лет 9 месяцев)

Что мешает не полениться и отметить "не интересует"?  К примеру, ряд тем, что меня просто раздражают (к примеру спорт или юмор вместе с разной музычкой) у меня вообще больше не появляются в рекомендациях.

это не решит проблему полностью. Это как с людьми, которые говорят, что не смотрят телевизор. И чо? Вы ведь общаетесь с людьми, которые телевизор смотрят.

Аватар пользователя kaiter
kaiter(3 года 10 месяцев)

Ну да, " по потребностям," держи карман. Ежели б ничего кроме удовлетворения потребностей эта шарманка не удовлетворяла, то её бы и выдумывать не стали. А так имхо изучение ваших Естественных потребностей и Формирование Нужных владельцам и хозяевам потребностей из того что изучено. ( Эт когда вам в вроде как пока ещё "вашу" информационную колею, грамотные специалисты подсыпать  чего надо начнут, чтоб сия колея, на нужном промежутке времени в заданном направлении пролегла. Ну и опять же "утилизация внимания" пелевенская.)

Страшно представить какое раздражение и степень агрессии в обществе будет, ежели его сей привычной опции утилизации единомоментно и безальтернативно лишить. Интернетные стдла врядли в библиотеки и кинотеатры с газетами- журналами шахматами и пивнушками перетащить быстро удастся...

Аватар пользователя Another_jim
Another_jim(9 лет 5 месяцев)

Очень здорово.

Я то думал, что им везде Путин мерещится. У людей подписанных на определённые каналы: Путин, царь, Путин, Путин, Собянин, Путин, Путин, император и тд.

Есть ещё всякие штуки - Protegé, например, для построения онтологий. И дерева знаний.

Можно BERT натравить на вытаскивание сущностей, или новую сетку от Яндекса.

 

Есть же ещё всякие околополитичсекие штуки, например, употребление мяса, животные из приюта, бег, саморазвитие и вред, блин, сахара. Как под копирку. Даже, иногда страшно.

 

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

да в принципе готовые ( и самое главное бесплатные и простые в использовании) инструменты уже сносно задачи решают и достаточно все доступно, интересен второй уровень - сейчас распространяются т.н. low code платформы для экспертов, чтобы они уже все в "онтологии" укладывали....

по тематике - там да еще "стройка",  "автомобили" , "похудение" и прч Люди (если доверять просмотрам конечно) бесконечно смотрят всякую немного полезную (а иногда и вредную) ересь...

Аватар пользователя ovod
ovod(12 лет 2 месяца)

А какой процент от порно и котиков вся это политота по просмотрам составляет?

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

На глазок процентов пять

В топ1000

https://aftershock.news/?q=node/1129455

Основная масса встречается в второй сотне

Точно сказать сложно потому что политоту явно крутят в т.ч. сами платформы.

Более менее реальная цифра это то, что во время стримов отрбражается

Аватар пользователя Иван Петровский

последние картинки ясно показывают ЦА каналов, собсно, неудивительно с учетом того, кто видосики предпочитает текстам

В сетевом мире выживают жизнеспособные и это не "партийные" структуры. Эффективно раскидывать инфу в народ через условно "большие сиськи" после генерации и фильтрации контента на специальных площадках  

Аватар пользователя atorn
atorn(6 лет 8 месяцев)

не вставая с дивана.

Диван при этом остаётся важным элементом ментального взаимодействия в современном мире.

Аватар пользователя Doc_Mike
Doc_Mike(6 лет 8 месяцев)

"всего, за например 5 лет засветилось около 5 тысяч человечков, а особо буйные, которые весь эфир забивают, так и вобще в сотку уложатся, не так уж и дорого".

Ну и? Дедушки Ильичи на броневике, готовые перехватить рухнувшую власть "Есть такая партия!", или очередная тусовочка по попилу на теме, в данном случае на политоте?

Философически, есть две концепции влияния маркетинга на поведение потребителей. Одна, так называемая, сильная концепция, утверждает, что если интесивно рекламировать, что козлиное молоко полезней козьего, то 17% потребителей будут спрашивать в магазинах именно козлиное молоко. Другая, слабая концепция влияния, исходит из того, что сколько бы бабла не вбрасывать в рекламу, 83% потребителей козлиное молоко игнорируют.

То же самое можно проверить на исторических масштабах бескрайних просторов нашей необъятной Родины.

Так, после 1917 ширнармассы посчитали, что им интересней реклама "землю крестьянам, фабрики рабочим, мир народам", а не "белая армия черный барон снова готовят нам царский трон". В 1941 ширнармассы предпочли "Вставай, страна огромная", а не на освобождение России от большевиков при содействии Гитлера. Во второй половине ширнармассы не могли понять, почему пропить зарплату можно, а купить на неё орудия производста и работать на благо социума и себя это эксплуатация, как интенсивно рекламировали от средней школы до аспирантуры. На это наложилось перекрытие социальных лифтов "Может ли сын полковника стать генералом? Нет, потому что у генерала есть свой сын" - и стадионы запели "Мы ждем перемен".

Если вернуться от философического на технический уровень, то надо еще отслеживать соответствие рекламы потребностям ширнармасс. Что указанный софт не делает.

Ну и для понимания контекста, ИБМ со своим Ватсоном попробовал использовать структуризацию текстов и обработку частотности для построения общедиагностического медицинского ИИ. В итоге срыли в тину, списали убытки и остались только в сегменте обработки медицинских изображений. 

Потому что тупой гуглеж на частотности с полным игнором семантики. В 80-ые пытались делать лингвистические процессоры с разбором синтаксиса, семантики, логики и аналогий, оттуда тянуться спеллеры для ворда и прочих опен офисов. А потом пришел массовый интернет, ну и нафуа гра на каждый запрос вешать лингвистический процессор, когда можно тупо частотность посчитать, что там с чем в одну кучу идет? И для гуглежа оно работает. Оборотная сторона "превед медвед" в качестве языковой нормы, патамушта часто, и медицинский ИИ от ИБМ с Ватсоном "миллионы мух не могут ошибаться, это действительно анализ кала на дисбактериоз, и миллионы участковых теток тоже не могут ошибаться, это действительно диагностика и лечение уровня участковых теток". Вот сколько за свою жизнь участковая тетка видит муковисцидозов или сепсисов у новородков, чтобы частотность такой патологии посчитать? И, с другой стороны, нафуа гра участковым теткам ИИ, который ставит только диагнозы "острый бронхит - астма - ХОБЛ - пневмония" которые сами участковые тетки ставят на автопилоте в полубессознательном состоянии после 40 пациентов в смену в сезон?

 

Аватар пользователя Устал
Устал(2 года 2 месяца)

Не уловил ваш посыл...

От меня ускользает мысля, повторно прочитал коммент но...

Всё равно не втыкаюсь...

 

Комментарий администрации:  
*** отключен (систематический срач, засорение эфира) ***
Аватар пользователя ylazab
ylazab(2 года 2 месяца)

Всё равно не втыкаюсь...

не вникай, там словесный понос.

Комментарий администрации:  
*** отключен (агрессивный инфомусор) ***
Аватар пользователя Doc_Mike
Doc_Mike(6 лет 8 месяцев)

Посыл такой, что сто человек, оккупировавших тему, о которых пишет Роман, просто очередная тусовка, которая ни на что не влияет, кроме освоения бюджета по теме. Поэтому отслеживать с помощью типа искусственного типа интеллекта генерируемый ими шум, занятие столь же ни на что не влияющее, кроме освоения очередного бюджета.

 

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

ну тут скорее про эффективность - техника уже сейчас позволяет сгенерировать оптимальные с точки зрения многих задач вот эти вот "разговоры в студии" и дать скрипт с разметкой для болтовни в оной говорящей голове или даже и саму голову нарисовать.

из-за новой цифровой механистичности кстати все и застыло + начало деградировать - раньше ( 1990, 1917, 1960 ну и до этого + у других) , более живая "сцена" была явно

сейчас основная масса того что "несут" это рекомбинация старья разного, плюс ресентимент конечно под разными соусами

и "несет" очень мало людей  - условно говоря раньше клубы для обсуждений на каждом районе были ...

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

А само обсуждение, тем более живое  это уже динамичный процесс гораздо кстати более полезный чем "просмотр"

Аватар пользователя Doc_Mike
Doc_Mike(6 лет 8 месяцев)

А они как раз эффективность не меряют.  

Вот как измерить эффективность рекламы козлиного молока? По "top of mind", что первое вспомнилось?  Ну, я до сих пор помню, что еще пару лет назад, и далее обратно во времени  до потерялось в исторической мгле, на Взгляде, который вроде как излагает повесточку от Администрации Президента,  по графику примерно 3 раза в неделю появлялось "Познер заявил...". Ну а по какому поводу, и что именно Познер заявил, и почему именно Познер,  а не Света из Иванова не в курсе. Просто потому,  что и Познер, и Света из Иванова это про козлиное молоко, и мои реальные интересы не затрагивает, чтобы тратить на это свое внимание.

Ну а что на техническом уровне из себя представляет частотный гуглеж я вдумчиво разбирался, когда мне при регистрции моего патента на медицинский ИИ в качестве известного аналога Роспатент выкатил именно медицинский ИИ на Ватсоне от ИБМ. В комменте ниже товарищ, работавший в конторе по автоматическому мониторингу социологии в сети заявил ровно то же самое про техническую часть - биг дата отдельно, смысл отдельно.

Если суммировать, по уровню реального влияния на ширнармассы это про козлиное молоко, а с технической точки зрения ложь,  гуглёж и попилёж.

 

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

Эффективность какой задачи?

Для профессиональной узкоспециализированной  инструмент соответствующего уровня необходим.

А чтобы прикинуть размер "сцены" или как выражаются "сеттинг"а по Российской политоте вполне и разметка частотности медиасетки в крупных агрегаторах сойдет...

Аватар пользователя Doc_Mike
Doc_Mike(6 лет 8 месяцев)

Это да. Достаточно выборки по базе данных.

 

Аватар пользователя MAGNUS8
MAGNUS8(5 лет 11 месяцев)

Работал в компании, профессионально занимающейся этой темой. 

Технологии NER (named entity recognition, распознавание поименованных сущностей) -- 100 лет в обед. От NER и разных частотных анализов в соц. медиа и до более-менее реального полезного практического анализа ментального поля -- как раком до Китая. Пару часов или день работы живого аналитика по соц. медиа, который в контексте и отслеживает тематику, не перебить никакими NERами и обсчетами социальных графов, контекстов и упоминаний. 

Раньше казалось (и даже появились целые науки типа "цифровой социологии", "вычислительной социологии" и тому подобные), что можно спарсить кучу биг-даты из соушиал мидиа, натравить алгоритмы мышиного обучения, прикрутить поверх всего этого кокпит или дэшбоард (буээ... дальше не буду эти слова использовать) -- и ты король цифровой вселенной. На эту тему куча грантов, книг, семинаров и прочего было проведено и освоена куча бабла. И много довольно специализированного умного софта было создано, с использованием самых передовых технологий обработки данных. В реальности же -- даже самые сложные алгоритмы и методы анализа социальных медиа выдают довольно банальные или почти бесполезные результаты. Точнее, так -- использование этих инструментов является частью довольно серьезного исследовательского процесса, который проводит группа аналитиков, и эти инструменты косвенно подтверждают или опровергают некие заранее сформированные предположения в рамках исследования. Ключевое слово -- косвенно, т.к. от анализа социальных сетей до реальной социологии -- пропасть, которую непонятно как преодолеть, вряд ли это вообще возможно. Хайп на эту тему вроде уже отгремел, соответствующими игрушками наигрались, поняли их реальное место (весьма незначительное и узкое), и на спад всё это пошло. Но гуманитарии, наслушавшиеся про "биг дату как новую нефть" и невероятные возможности анализа соц. медиа, продолжают бредить и плодить симулякры, разгонять фейковые истории типа Cambridge Analytica помогала выбирать президентов, в т.ч. Трампа и т.д. 

 

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

Да тут не про технику,  впрочем раньше такой не было - ты же не будешь отсматривать все тексты и что гораздо сложнее видео-аудио, на бумажку выписывать ФИО и кто где и сколько упоминался - это в научной и околонаучной литературе было принято "индексы" лепить в конце, особенно в книгах-журналах начала века прошлого.

, а сейчас раз и вся болтовня на сотни человекочасов просмотра в одном файле и два - список всех и всего, кто в ней и когда (а иногда и в каком контексте) упоминался в другом.

можно уже делать выводы о мощности и связях - наличие устойчивых групп или правилах появления новых персонажей на арене.

 

Тут не только NER (ему и правда сто лет в обед)  - API стали предоставлять , дополнительную rdf разметку делать и прч

Аватар пользователя MAGNUS8
MAGNUS8(5 лет 11 месяцев)

Роман, я всего лишь хотел отметить, что на самом деле такой анализ, как вы описали (и на порядки более сложные, которыми мы занимались в специализированной компании), при всей внешней умозрительной привлекательности, на самом деле мало что может сказать о социуме, влиянии и таком прочем. Ну да, можно делать грубый подсчёт показателей упоминаемости, контекста упоминаемости, географии, динамики и т.д., если такое требуется, но даже к таким показателям нужно подходить очень аккуратно. Так называемая социосфера в соц. сетях и соц. медиа -- это клоака, кишащая ботами, манипуляциями, искусственными и раздутыми сущностями и прочее, поэтому что-то там вычислить и на основе этого, ничтоже сумняшеся, делать какие-то умозаключения о всём социуме, настроениях и всем таком -- это, мягко говоря, не научный подход. Сейчас и классическая социология терпит крах в нашу эпоху тотального постмодерна, а уж через искажённое зеркало соц. сетей что-то там анализировать и понимать -- это ещё умножить на 10 все проблемы. Все понимают, что нужны какие-то новые теории и методы понимания общества, но пока таковых нет в зрелом виде. 

RDF, OWL, semantic networks, ontologies на Protégé и тому подобный web 3.0 -- в своё время на эти технологии были потрачены огромные ресурсы, ученым и инженерам реально казалось, что это тот самый путь к computable knowledge, AGI (artificial general intelligence) и светлому будущему. На практике довольно быстро выяснилось, что реальные такие семантические сети получаются 1) огромными, 2) недостаточно жесткими для проведения на них вычислений по причине неоднозначности/многозначности слов и понятий. При попытке же выстроить именно формальную структуру значений и взаимосвязи, ученые столкнулись с той же проблемой, что и Бурбаки в свое время при попытке сделать то же самое для математики -- отсутствие методологии такого структурирования, экспоненциальное разрастание определений при попытке одни термы выразить формально строго через другие и т.д. Тем не менее, на этом поприще довольно много перспективных и интересных направлений и технологий было разработано, на мой взгляд, controlled natural language -- очень интересное направление. 

NER и прочие такие технологии успешно применяется для быстрого прочесывания огромных массивов текстов, например, СМИ или научных архивов, для поиска упоминаний и прочих такого рода несложных задач. Но пока что попытки сделать "следующий шаг" в этом направлении -- понимать смысл -- пока неуспешны. Да, современные методы NLP и ML/AI научились простейшему пониманию и генерированию "правдоподобных" текстов. На мой субъективный взгляд, действительно серьезный прорыв может быть в тематике controlled natural language (например, на основе сильно обрезанного английского языка с сильным ограничением и формализацией смысла слов), построении на его основе полностью вычисляемых онтологий частных предметных областей, сначала узко-технических, затем может и какой-то универсумальной онтологии всего и вся. С последующим выходом и закреплением этого языка из сугубо технических областей применений в гуманитарию и обыденное применение. Но этим всем бредили лучшие ученые и философы ещё с древности, пытались создавать какие-то искусственные более строгие языки, пытались строить универсумальные онтологии (как Гегель), но это всё так и оставалось на уровне философских "вечных двигателей", "эликсиров бессмертия" и "машин времени". Посмотрим, может очередной штурм этой крепости будет успешным..

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

Все правильно написали, только именно это (иллюзорность интернета в общем случае) одна из причин почему взял "видосы" студий.

Если очистить от мемов или публичных Людей мы получим список ведущих, экспертов которые реально встречались между собой (ок выходили на связь по скайпу) или же выставлялись в медиасетку.

Все таки видео от первичных источников пока еще отличается от постов "телесрама" хоть какой то связью с реальностью.

 

Интересно было в частности именно посмотреть кол-во вовлеченных  в механизм людей.

Аватар пользователя Иван Петровский

от анализа социальных сетей до реальной социологии

Соцопросы - это же реальная социология? Если речь о сложности установить соответствие между людьми и соцсетями, то вряд ли эта сложность будет преодолена потому что люди для соцсетей заведут персональных ботов и проч. Но с другой стороны

 Cambridge Analytica помогала выбирать президентов

Когда голоса распределяются 50 на 50, даже тысяча дополнительных голосов после профилирования избирателей в отдельном штате дают "экономический" эффект 

Аватар пользователя MAGNUS8
MAGNUS8(5 лет 11 месяцев)

Вас это может удивить, но социология -- довольно строгая научная дисциплина, основательно полагающаяся на математический аппарат статистики. В статистике есть такой эффект, как закон больших чисел. Не утруждая деталями и теорией, можно сказать, что вы не можете при бросании монетки точно сказать, что выпадет. Но бросая монетку тысячу или миллион раз, можно с ужасающей точностью предсказать результаты. Это суть закона больших чисел -- в каждом конкретном случае ничего заранее не понятно, но когда случаев много, то начинают вырисовываться закономерности и можно делать довольно точные умозаключения. В социологии есть разные протоколы социологических исследований, разной сложности/трудоёмкости, для разных целей и, соответственно, разной точности (которая заранее известна в виде доверительных интервалов и прочих показателей - в этом суть научности социологии, а не в том, ошибается ли она или не ошибается). 

Отношение "аккаунт-человек" в соц. сетях -- это отношение "многие-ко-многим". Плюс огромное количество аккаунтов ведётся (полу)автоматизированными сущностями, причём сейчас даже сама платформа не может понять, бот это или человек (грубо говоря, разработчики ботов знают все методы детекции ботов, плюс интеракции с платформой делают не через API или другие интерфейсы автоматизации, боты выдерживают тайминги, имеют новейшие инструменты Natural Language Processing, автоматически массово рендерят страницы платформ в памяти и "виртуально ходят" по ним, скрейпят контент и делают интеракции (пишут/нажимают), т.е. даже для самой платформы неотличимы от живого человека, не говоря уже для стороннего наблюдателя). 

Изучать в соц. сетях какую-либо социологию, тем более автоматизированными инструментами -- это надо очень хорошо понимать всю соответствующую ограниченность и ущербность такого подхода ввиду очевидных проблем и с репрезентативностью, и с достоверностью, и с кучей остальных проблем. Тем более, что сейчас и классическая социология испытывает огромные проблемы, что было наглядно продемонстрировано на последних выборах в США (а в США наиболее развитая культура социологических исследований и соответствующей теории и практики). 

Аватар пользователя Иван Петровский

матстатистика хороша за неимением лучшего

с развитием ИИ идентификаторам ботов будет все сложнее и сложнее и рано или поздно они проиграют ботам. Ситуация аналогична асимметрии между шифраторами и дешифраторами. 

"Трамп-Клинтон" свидетельствует о том, что социология не работает там, где в ней больше всего нуждаются.

 

Аватар пользователя Extremalist
Extremalist(7 лет 9 месяцев)

Для классификации по любому пространству параметров отлично работают банальные BERT-подобные сетки (после легкой обработки напильником).

Дьявол там в датасете на обучение - долго и дорого.

Вообще мне задачи аттрибутирования персонажа решать не приходилось, зато сгенерировать полноценный текст в стиле определенного автора на заданную тему - могу.

И да - SaaS - зло. Только свои кластера. Благо ASIC для NPU сейчас стали стоить копейки.

Аватар пользователя СергиоПетров

Какого рода текст? Статья? А худ лит смогёте? 

Комментарий администрации:  
*** отключен (систематический инфопонос и срач) ***
Аватар пользователя Extremalist
Extremalist(7 лет 9 месяцев)

Новостные заметки, мало отличимые от оригинала, но с другим посылом.

.... Это моя война.

Аватар пользователя СергиоПетров

Такое почти всё могут

Комментарий администрации:  
*** отключен (систематический инфопонос и срач) ***
Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

ну это первый уровень - структурировать, классифицировать (вон уже что есть https://you-right.ru/api#!/tab/220272245-6  ) - интересней инструменты второго уровня, которые позволяют описывать реакцию-скрипт с этими самыми данными

при равном доступе к ним, бизнес рано или поздно превратится в соревнование скорострельности и качества этих самых алгоритмов... впрочем уже

Аватар пользователя Extremalist
Extremalist(7 лет 9 месяцев)

Не соглашусь. Можно бить кувалдой по площадям, а можно - отверткой в уязвимое место.

Мне второй подход больше нравится.

Аватар пользователя Иван Петровский

Стиль, но не смысл. Понятно, что для обывателя сгенерированный сетью глубокого обучения бессмысленный "научный" текст будет неотличим от осмысленных обучающих образцов потому что процедура генерации основана на вариации того же частотного анализа

Аватар пользователя Extremalist
Extremalist(7 лет 9 месяцев)

Да нет, именно смысл.

Я эту проблему больше года решал - решил таки.

Так что теперь генерю фейк ньюс в ассортименте и стиле.

Аватар пользователя MAGNUS8
MAGNUS8(5 лет 11 месяцев)

Таких результатов, как у вас -- значимая часть от всего контента соц. медиа сейчас. На эту отрасль десятки миллиардов долларов тратятся и работают не единичные инженеры-энтузиасты, которые взяли какие-то опен-сорсные либы и что-то там сделали, а тысячи и тысячи лучших математиков, программистов и инженеров, коллективы в огромных корпорациях. 

Но сейчас эта война перешла на более тонкий и высокий уровень, чем просто массово срать человекоподобными текстами "по площадям" в соц. медиа против- или в поддержку чего-то там. Это война смыслов. На основе изучения страновых, исторических, языковых, этнических, религиозных, нравственных и даже обыденно-бытовых социосистем -- для поиска уязвимости, возможностей влияния вплоть до дезорганизации/разрушения социумов и стран (при необходимости). Понятно, что обнаружить и защититься от такого воздействия очень сложно, и в этом случае о свободе слова и выражения личного мнения тут не может быть и речи. Вот такое фундаментальное противоречие -- между безопасностью социума и т.н. "либеральной демократией", особенно в её "экспортном варианте". 

Аватар пользователя Иван Петровский

ок, я неточно выразился. Можно генерировать выдуманные события на основе произошедших и упаковывать их в конверт ошибки дизъюнкции, но до генерации значимого нового знания пока далеко  

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя Плиточник
Плиточник(10 лет 8 месяцев)

Не знаю как с текстами, но свои мысли ты точно формулировать не можешь

Комментарий администрации:  
*** отключен (дешевая политота, засорение эфира) ***
Аватар пользователя абра
абра(6 лет 9 месяцев)

Сформулируй ТТ - и ТС для тебя скрипт напишетsmile7.gif

Чтобы понятная мысль - в одном предложении.

Аватар пользователя ovod
ovod(12 лет 2 месяца)

Сначала подумал, что будет анализ по комментариям к видео, а инфа только из названий и описаний)

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

Можно да попробовать из субтитров но выборка не полной будет не все включают, а отправлять 30 тыщ видосов на NLP... там трафика одного будет норм... есть возможность?

Аватар пользователя zotona
zotona(6 лет 3 месяца)

вот для более экономичного анализа текста и засунули всех в телегу и тытуп. все сразу выгружается в структурированном json.

Аватар пользователя BlopAngin7
BlopAngin7(9 лет 6 месяцев)

Почему кстати именно видосы — субъективно Люди постепенно деградируют и перестают читать в принципе даже интернет…

Я бы небыл так категоричен. Разный формат подачи материала (текстовая, видео, картинка) лучше всего подходят под разные типы информации. В качестве примера могу привести ролик Клима Жукова про стоимость экипировки княжеской дружины. Отличная тема превратилась в мусорное видео из-за того, что он, вместо размещения банальной картинки с таблицей изменения стоимости вооружения по времени, начал зачитывать всю эту массу чисел

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

Видео в интернете это уникальная штука именно создающая иллюзию собеседника у человека, включает внутренний диалог или наоборот активирует "школьного учителя"... 

Идеально для манипуляций, разжижения мозга. 

Аудио подкасты (для фона) или просто текст (с картинками) в этом плане информативней/полезней.

 

Аватар пользователя t34rus
t34rus(7 лет 2 месяца)

кажется автор научился какие-то библиотеки использовать и строит из этого какие-то выводы
детский сад же
никто так тупо в лоб ничего не анализирует
сначала надо из текстов выбрать реально значимые авторские тексы а не те которые роботы пишут по ключевым словам

убрать весь шум и нормализацию провести
потом уже куда их передавать

да и кажется бум всего этого прошел давно... потому как если убрать весь шум там остается не так много полезной информации

Аватар пользователя RomanSmirnov
RomanSmirnov(10 лет 5 месяцев)

Вряд ли поточный машинный анализ нормальный сложный текст разберет корректно.

А вот для выделения персонажей и например оценки размера сцены вполне норм

Страницы