Как смотреть американский ты-туп или читать парижско-дубайский теле$рам, с голландским дзынем и не стать ту-пым

10.8K 20:14 - 6/Дек/24 Улучшенный аккаунт

(10 лет 11 месяцев)

Гауссовский "белый" ( и не очень ) шум в современных каналах ма$$ медиа просто зашкаливает, соответственно, чтобы хоть как то ими пользоваться, необходимы фильтры... причем не только на тупо "факт чекинг", но и некоторые более сложные моменты.

Теоретических работ достаточно много по вопросу, как извлекать даже из ложной информации не ложную (не без контекста конечно), есть и различные грубо говоря "платные" сервисы для обывателя, правда в реальности не так то все просто, да и в общем случае времени нет свободного, на вот это вот все.

Но есть и хорошие новости - если раньше обработка информации была доступна только профи, то сейчас в принципе относительно приемлемо можно делать даже дома на коленке.

Так как на самом деле необходимо смотреть видосики или тем более читать всякую интернет шнягу?

Практически любое информационное сообщение в интернете, пускай даже оно и замаскировано под "какой нить" извиняюсь "высер", раскладывается на вектор из упоминаний чего то или кого то с подведением соответствующей коннотации (обычно негативной ибо "просмотров больше").

Так как уровень "генераторов" падает и все чаще собственно эти сообщения строгают по заданным шаблонам нейросетки, то и обратную декомпозицию также можно выполнить с их помощью, заодно сэкономив время.

Итак - вместо траты время на просмотр "видоса" - можно реализовать следующий алгоритм.

Сохраняем видео (или аудио), если уже есть субтитры (одно время многие видеохостеры делали, но сейчас начали отключать - так понимаю экономят) сохраняем и субтитры, если нет, то генерируем свои, пропускаем субтитры через ПО для выделения сущностей ( люди, компании например ), так же можно выделить "коннотации" - т.е. негативный или позитивный контекст относительно "сущности" , потом заносим в БД и строим карту (можно трехмерную со временем), ну или матрицу если хотите.

Кто - про кого и про что, что сказал, с одним из измерений - "временем". Не обязательно это про "друг" про "дружку" должно быть, можно и относительно какого то "будущего" или "прошлого" - "мема" (все рано или поздно превращается увы в оные).

По результатам например заметно, как начинают как по команде на или за Пушкина, или заунывно трындеть про "демографию." ...

Как это может выглядеть на практике:

Чтобы, как называется никого случайно не задеть, для примера возьмем в наших условиях полуисторический ( наугад - сам и не смотрел, что там несут ) видос про русскую "литературу" 90-ых:

Ты-туп кстати тут уже выделил "людей" из видоса, разметил поток, что тоже удобно, для сравнения.

Итак.

Для сохранения видоса в папку - делаем так ( привел сразу если кому надо с проксей ) , сохраняем только аудиодорожку ( очень редко кто то показывает слайды, т.е. анализируем только аудиоряд )

yt-dlp -c --proxy "socks5://user:password@ip:port/" --sub-format vtt --write-auto-subs --write-info-json --sub-lang "ru.*" --no-abort-on-error --ignore-errors -x -f worstaudio --audio-format mp3 http://адрес_видоса -o "data/%(upload_date)s_%(id)s.%(ext)s"

Скачивается:

получаем набор файликов:

далее генерируем "субтитры" ( бесплатное ПО - whisper-ctranslate2 ) если их нет. Кстати последнее время уровень генерируемых самими видеохостингами субтитров как ни странно упал и это на фоне роста мощностей!.

В данном случае транскрипция от гугла действительно просто отвратительного качества:

соответственно делаем свою транскрипцию:

whisper-ctranslate2 $1 --model large-v3 --output_dir outmisc --language Russian > $2

и действительно странно, но достаточно тупая "домашняя" нейросетка оказалась лучше, чем у гуглоидов

----------

и для выделения сучностей раньше была библиотека от мистера Кукушкина [ https://lab.alexkuk.ru/ ] - Наташа

сейчас есть spacy - https://spacy.io/models/ru#ru_core_news_lg ( на его же "неруси" сделана )

Допустим сделаем простенький скрипт с ее использованием:

Результат прогона через него

Как видим уже больше, чем у хугля, ну не суть ( Возник первый же вопросик, как хугль отфильтровал, кого включать в свою подборку, отображаемую под видосом, а кого нет - ибо как видим набор то конкретно по "ширше" будет... ?)

Это все далее закидывается в соответствующую базу (последнее время предпочитаю clickhouse ибо он и правда _быстрый_ , хотя конечно лучше что нибудь импортозамещенное типа postgres от местных астрофизиков )

Например в таблицу с колонками:

[ время ] , [ канал ] , [ видос ] , [ тип объекта ] , [ время упоминания ] , [ коннотация ]

И так по всему, до чего дотянемся.

Соответственно со временем становится легко отслеживать, как поднимаются "когнитивные" волны по тому или иному "объекту", а так же появление новых или забытие "старых" "мемов".

Софт сейчас пишется быстро - много всего готового, легко допилить напильником. Выше просто пример того, насколько это все стало просто.

В чем может быть проблема при "бесплатной" реализации?

На одном "домашнем" присоединении Вы не сможете мониторить сразу действительно много каналов, скажем так бесплатно.

Что можно сделать - собрать docker образ, либо еще лучше все закомпилить в одно приложение (немного больше возни, с учетом количества сторонних библиотек , но тоже реализуемо вообщем то, в т.ч. на arm toolchain чтобы на мобилках гонять, бгг) и раздать его друзякам ( обычно раскладывается по разным хостингам ).

Где вот это все будет получать команды (типа выполнить анализ соответствующего url и вернуть результат), далее написать несложный сервер, который раздает клиентам задания и получает от них результаты обработки, через апи.

Таким образом "народный вариант" позволит фильтровать потоки бреда и не очень бреда, обрушиваемого на головы человечков медиа-корпами или "энтузиастами" (в т.ч. псевдо) и выделять из него только то, что действительно интересно, ну и заодно подсвечивать реальные векторы, выявлять "волны", "первичку" и прч.

Схематично вот выше.

С управлением очередью можно тоже особо не заморачиваться, а сделать на готовом - rabbitmq например, так как передается только обработанное, то требования к серверу минимальные...

У "рекламщиков" есть _конкретно_ продвинутые такие Машины, в т.ч. по скажем так не совсем публичным данным (особенно после того, как они интегрировались с телекомщиками и банкирами), которые "смотрят и читают всё".

Немного (реально не много) сложнее схема с символическими аллюзиями - это когда "широковещателем" подбирается что то похожее на, с учетом целевого контекста, но даже с учетом этого уровня все равно по итогу это все чистая механика. В подложке у которой лежит либо коммерция, заказ, либо тупо агрессия с вектором атаки. Из-за чего возникает агрессия, если это не заказ? Несоответствие контекстов? Вот тут уже интересней конечно. Насколько понял есть Модели и с ними...

Следующие уровни это смыкание "смотрящих машин" с социо-экономическими сгустками, имеющими реальные ресурсные возможности - причем порой из разных административных контуров.

А так же их разборки между собой, иногда выглядящие конкретно забавно.

Слайд из классики:

Зато даже поверхностный анализ производной от векторов позволяет хотя бы приблизительно, но все же восстановить реальные расклады.

Но это уже другая сказка... всем хороших выходных.

P.S.

Использованное ПО:

https://github.com/yt-dlp/yt-dlp

https://github.com/Softcatala/whisper-ctranslate2

https://spacy.io/models/ru#ru_core_news_lg

P.S. 2

Вывод из этой басни простой - следует крайне скептически относиться к любому, как сейчас говорят "контенту", производимому за денюжку, или просто ма$$овому, но не официальному - и раньше то это просто конкретно все было утилитарно, а сейчас, с развитием технологий превратилось, просто в "механику". Академический сектор пока еще держится, за счет института рецензирования и слабой обратной связи с размером аудитории, но тоже местами превратился в оную.

Авторство:

Авторская работа / переводика

@Публицистика и обсуждения#Мнение#Субботний оффтоп @Хроники

Блог пользователя RomanSmirnov | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Я, как подмножество людей, которые, скорее всего, не поняли что им написали, еще и не понял зачем это мне? В перерывах между попытками как-то спасти свои пенсионные накопления и поисками дешевой гречки, анализировать алгоритмы оболванивания и манипулирования? Как мне это поможет? Я знаю, что они есть. Мне кажется, этого достаточно.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)21:47-6/Дек/24

"Гречку" коммерсы-ритейлеры сейчас похоже рызгрывают алгоритмами, как раз в т.ч. на медиа и работа с ними могла бы помочь и обывателям....

Ну или хотя бы понимать, как все устроено, таи никакой конспирологии просто бизнес похоже.

Войдите или зарегистрируйтесь для комментирования

(6 лет 2 месяца)22:47-6/Дек/24

еще и не понял зачем это мне?

Присоединяюсь. Вообще... По возможности стараюсь (пытаюсь) ограждать себя от новостной информации, особенно политической. Абсолютно согласен с Павлом Щелиным, что действительно важные события мимо тебя не пройдут, даже если не смотреть ТВ, не ходить в тырнет и не слушать радио. Хотя сложно... Вечно лезешь послущать-глянуть.

... а в машине, на прогулке, в магазине и проч. пытаюсь слушать или аудиокниги классические, или популярные лекции по истории, физике, психологии и проч.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)23:32-6/Дек/24

И это правильно!

Новости давно из новостей превратились в что то странное...

Войдите или зарегистрируйтесь для комментирования

(11 лет 6 месяцев)20:57-6/Дек/24

Картинки, таблицы пропускаем, в пролетарскую суть вникаем.

Вывод из этой басни простой - следует крайне скептически относиться к любому, как сейчас говорят "контенту", производимому за денюжку, или просто ма$$овому - и раньше то это просто конкретно все было утилитарно, а сейчас, с развитием технологий превратилось, просто в "механику". Академический сектор пока еще держится, за счет института рецензирования и слабой обратной связи с размером аудитории, но тоже местами превратился в оную.

Войдите или зарегистрируйтесь для комментирования

(11 лет 12 месяцев)03:48-7/Дек/24

Ну вот же выжимка: Вывод из этой басни простой - следует крайне скептически относиться к любому, как сейчас говорят "контенту"

В том числе и к этой статье. Как там у Беркема - зачем ЭТО сказали, зачем это сказали ТЕБЕ, зачем это сказали тебе СЕЙЧАС.

Войдите или зарегистрируйтесь для комментирования

(8 лет 5 месяцев)20:45-6/Дек/24

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)20:51-6/Дек/24

Сам принцип создания видеоконтента таков, чтобы охватить как можно большую аудиторию по тематике. Соответственно, ему полагается быть популярно-доходчивым, ради чего можно (и нужно) жертвовать полнотой и сложностью информации. Да в принципе, и с текстовыми статьями то же самое. Берёшь, очерчиваешь тему и говоришь по ней то, что хочется в данный момент. А серьёзная информация — да, она на академическом уровне. И ещё «в секретных кабинетах».

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)21:27-6/Дек/24

Ну и смысл такое потреблять, если это не официальная информация?

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)21:40-6/Дек/24

Предположу, что далеко не все способны и хотят усваивать серьёзную, глубоко продуманную и проработанную информацию. Теоретические вещи уже отсекают многих, ориентированных на конкретику. И тем более дискурс о возможности той или иной теории — процент интересующихся на этом уровне исчезающе мал, потому что выше него нет ничего. В подавляющем большинстве случаев люди обходятся фрагментарным и необязательно истинным знанием, живут каждый в своём информационном пузыре и не понимают, зачем им знать и уметь что-то больше того, чем они повторяют каждый день. Это вопрос амбиций, и почему они у кого-то есть, а кому-то достаточно имеющегося — сие тайна великая есть.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)21:44-6/Дек/24

По моей субьективной оценке народ у нас достаточно сообразительный и без теории норм сам фильтрует на интуиции.

Триллиарды просмотров на площадках часто рисованные (особенно если они для отчетности).

Заметку написал может кому то пригодится в практическом плане... сам пользуюсь иногда удобно.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)21:53-6/Дек/24

народ у нас достаточно сообразительный и без теории норм сам фильтрует на интуиции

Есть разница, происходит ли такая фильтрация в моменте или на долгосроке. В моменте — да, согласен. Но по моей исследовательской тематике (субъективное строение человека) она не прокатывает. Нигде так не царят предрассудки, как в оценке других людей, но большинство-то считает, что они судят друг о друге истинно. Даже слово «объективно» вворачивают, ведь на поведение же смотрят. Ладно, сорри, отклоняюсь от темы.

Войдите или зарегистрируйтесь для комментирования

(7 лет 11 месяцев)21:18-6/Дек/24

Круто! Утащил в закладки!

Войдите или зарегистрируйтесь для комментирования

(12 лет 8 месяцев)21:19-6/Дек/24

Спасибо за наводку, как раз хотел радио мониторить - в облако слов по частоте упоминания.

Войдите или зарегистрируйтесь для комментирования

(2 года 5 месяцев)21:31-6/Дек/24

Можно попробовать "выделить сущность" очередного текста Романа Смирнова:

Основной вопрос: ... на самом деле необходимо ли смотреть видосики или тем более читать всякую интернет шнягу?

Смотреть видосики (видеоконтент) - себя не уважать, разве что ввиду крайней необходимости (популярности, доходчивости)!

Читать текстовые статьи - естественно, нужно по диагонали с целью "выделения сущности (сути, смысла).

Рассматривать необходимо и негативный и позитивный контекст относительно "сущности", в противном случае есть опасность оказаться вдруг и неожиданно в полном окружении бурно размножающейся либероидной мрази. Лучше - как-нибудь по возможности заранее приготовиться к этому.

Что касается литературы, без всяких натужных исследований, уже давно стало ясно, что она перестала занимать то место, которое она раньше занимала в нашей жизни. Остатки интереса у некоторых вызывают детективы (преступления, убийства, романтизация криминала), фантастика - фэнтези (необузданные измышления, романтизация причуд), любовный роман (перетряхивание грязного белья, подглядывание в разные "скважины", романтизация гламура и пошлости).

Войдите или зарегистрируйтесь для комментирования

(10 лет 4 месяца)22:20-6/Дек/24

Зачем создавать себе проблемы? Смотреть негодное, а потом (или до) рихтовать и пилить его.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)22:35-6/Дек/24

Годное тоже надо фильтровать иначе времени ни на что не хватит...

Войдите или зарегистрируйтесь для комментирования

(1 год 1 месяц)22:50-6/Дек/24

стандартные темы, у того же freeswitch, на базе которого почти вся ip-телефония (команда от астериска) есть готовые s2t и t2s (speech to text и наоборот) библиотеки, вообще в рилтайме стопслова ищешь или видит оператор какого-нибудь коллцентра, аналогично ему трафик видео-аудио для фильтрации натравливаешь.

текст жаль терать, оставляя только сущности-стопслова, поэтому используют хранилище с fts (full text search), где полноценные падежи, склонения, по корням можно найти и проч,

в природе остался жив только продукт lucene, его апач захапал, можно также от апача solr поставить, для небольших задач хватит, на побольше opensearch (бывший еластик) в нем же реализовать справочники разных сущностей в зависимости от задач или контекстов со ссылками на сами документы-контектсы, т.е. сущность 1 к многим указывает на документы и места, где употреблялась,

семантики толковой нет и не будет, тут придется с человеческм фактором самому.

а для дома хватит самой либы apache-lucene, только с питоном подружить через py4j, раз так струмент нравится.

вкрате обычно так делается в конторах, где спайдеры тырнет шерстят на предмет выявления тенденций.

и, уже имея справочники сущностей-стопслов уже более сложные алгоритмы выявления связей включаются, вплоть до вычисления узла, откуда вся ветка фейков стартовала.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)23:12-6/Дек/24

Есть ссылка на s2t ? Оно открыто?

Если это что то старое опенсорсное аля сфинкс, то там не очень...

Так то конечно у профи, чего только нет.

Войдите или зарегистрируйтесь для комментирования

(1 год 1 месяц)23:24-6/Дек/24

сфинкса много лет уже не видно, его так из монолита и не развили, это было как раз, когда закопали замечательную библиотеку на c++ для lucene и оставили в доступе только на жавастеке (уверен, что сишную развивают закрыто, все-таки максимально быстрая), тогда же войнушка и шла за FTS, очевидно было, что за этим будущее.

модулей для свича хватает, например вот

https://github.com/voicegain/mod_voicegain

вроде 4 года назад что-то меняли, есть старые станданртные, все открытый код, как и сам freeswitch

https://docs.freeswitch.org/ (doxygen)

можно вообще отдельные реализации s2t(stt) посмотреть, у яндекса были открыты исходники.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)23:31-6/Дек/24

Спасибо, сравню с виспером... после яндексовской открытой томиты ( https://yandex.ru/dev/tomita/ ) ничего у них не смотрю... (не очень оказалась), а апи не интересно

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)23:52-6/Дек/24

эээ, если правильно понял, там модуль по ссылке это обертка к api voicegain https://console.voicegain.ai/login ... не, такое не очень интересно.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)00:08-7/Дек/24

Зачетная техноэротика!

А дальше поверх clickhouse положить эластик с графовой агрегацией и оно красиво отрисует кто какие вбросы строил, кто повторял и т д )

А еще в clickhouse можно загнать сами векторы и уже по ним построит свой классификатор или банальный cosin )

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)00:12-7/Дек/24

именно,

но больше идея про асимметрию к возможности корпов, через распределенное приложение интересна...

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)00:18-7/Дек/24

про асимметрию к возможности корпов,

У https://laion.ai/ на гите где-то есть такой центр как вы описали, только они для картинок пользуют.

Войдите или зарегистрируйтесь для комментирования

(8 лет 1 неделя)11:11-7/Дек/24

А дальше поверх clickhouse положить эластик с графовой агрегацией и оно красиво отрисует кто какие вбросы строил, кто повторял и т д )

Если у вас нет теории объясняющей происходящее, то эти данные вам ничего не покажут. А ложный корреляций вы можете найти бесчисленное количество. Вычислительные возможности легко позволяют это теперь сделать.

И опять же, как эти данные представить адекватным доступным до человеческого восприятия образом? Ну построили вы "сеть сетей", "матрицу матриц" и "графы графов", а что потом с этим делать? Как это практически использовать.

Именно что получается:

Зачетная техноэротика!

Ну или информационная порнография. Увлекательно, технологично, но совершенно бессмысленно. Сложность ради сложности и как "любовь к искусству".

А какие забавные когнитивные искажения должны возникнуть от просмотра этого "искусства" это еще более интересный вопрос. И тут тоже можно построить "графы графов" и найти массу забавных корреляций.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)13:00-7/Дек/24

Увлекательно, технологично, но совершенно бессмысленно. Сложность ради сложности и как "любовь к искусству".

Вам что жалко что ли )?

А пример нормальный, +-также отслеживаются общественные настроения или делаются новостные триггеры для высокочастотной торговли )

Войдите или зарегистрируйтесь для комментирования

(8 лет 1 неделя)13:18-7/Дек/24

Мне не жалко. Но это как затея с "сети сетей" для CRM, можно, но не нужно никому.

И мне интересно, вдруг кто может предложить "как это понимать". У меня мозгов не хватает это понять. Хотя понимаю как подступиться к теории, но и понимаю свою ограниченность в понимании.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)13:26-7/Дек/24

Нифигасе не нужно ))) у бизнюков огромный арсенал таких инструментов...

Войдите или зарегистрируйтесь для комментирования

(8 лет 1 неделя)13:35-7/Дек/24

Ну и что это дает? Но готов освоить любой бюджет на этой затее. Еще с ходу могу подсказать массу других вариантов построения красивых презентаций.

Помнится я уже вам писал что в сложных системах рулит эмерджентность. Так что если вы не можете высчитать эмерджентность, не можете отличить ложные корреляции от истинных, грубо говоря если у вас нет общей теории, то вы можете осваивать любые бюджеты, находить бесконечные корреляции "длинны бороды и мировых цен на золото", но все это никак практически не применимо. Но доказать что в действительности "это не работает" не просто сложно, а фактически и технически невозможно. Потому что снова и снова будет возникать новые ложные корреляции. А том что все это не работает вы всегда узнаете постфактум. Когда эмерджентность аукнется.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)13:36-7/Дек/24

Если бы не давало не покупали, рынок огромный этих систем, все платформы используют.... смешно даже обсуждать.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)13:42-7/Дек/24

Хе хе достаточно знать, что конкурент верит в такие модели )))) А если серьезно то достаточно много методик для отсечения "бесконечные корреляции", прикол про огурцы и пиратов не на пустом месте вырос.

Войдите или зарегистрируйтесь для комментирования

(8 лет 1 неделя)13:48-7/Дек/24

Вам потребуется бесконечное количество методик. И все сложнее и сложнее. Пока вы сами не запутаетесь в вашем модельно-зависимом реализме.

Так что нужна функциональная теория.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)14:03-7/Дек/24

Ну человеки уже достаточно давно придумали всякие random forest, регресии и тд, для оценки важности переменных . Те выделение сильных или групп слабых переменных это так-то основа основ в аналитике.

Войдите или зарегистрируйтесь для комментирования

(8 лет 1 неделя)18:23-7/Дек/24

Я не просто так упомянул модельно-зависимый реализм. Вы забываете самое важное - наблюдатель тоже часть наблюдаемой системы.

Те выделение сильных или групп слабых переменных это так-то основа основ в аналитике.

Вот мы и вернулись к началу дискуссия. Без теории данные бессмысленные. Придется "выбрать" теорию для адекватного восприятия данных. Но любая теория будет модельно-зависимым реализмом. Сам факт модели уже меняет наблюдаемую систему.

И с чего и начали, на текущий момент никакой адекватной теории не существует.

А бесконечные корреляции позволяют создать бесконечное количество теорий. И получается никакого практического применения нет. Но можно сколько угодно заниматься "техноэротикой" просто из "любви к искусству". Сложность ради самой сложности. Просто потому что мы можем это сделать.

Все это я к тому, что наш антропоцентризм и антропоморфизм мешает нам увидеть суть явления и построить адекватные теории. У нас нет верной "системы координат" для понимания.

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)15:51-7/Дек/24

Сложность ради сложности и как "любовь к искусству

Пропустил слово "сложность" Так в том то и мякотка. Еще лет 15-20 назад эта статья превратился бы в огромный талмуд к программно аппаратному комплексу для сурового энтерпрайза, а сейчас ноутбук + пара скриптов. )

Войдите или зарегистрируйтесь для комментирования

(8 лет 1 неделя)18:26-7/Дек/24

Ну да, дети добрались до "забавных игрушек" и уровня экзофлоповой производительности. И теперь пробуют создавать разные "сложности". Но только это совсем не игра и не игрушки. История с появлением LLM явно намекает что это совсем не игра.

Войдите или зарегистрируйтесь для комментирования

(6 лет 4 месяца)03:07-7/Дек/24

Интересная прикладушка. Спасибо!

Войдите или зарегистрируйтесь для комментирования

(9 лет 4 месяца)03:27-7/Дек/24

Большое спасибо, Роман, очень хороший обзор, очень полезно _лично_ для меня

Войдите или зарегистрируйтесь для комментирования

(4 года 10 месяцев)04:25-7/Дек/24

Спасибо, очень интересный обзор технологии. Повеяло духом свободы древнего интернета. 😊

По идее, первичную информацию нельзя сплошняком читать даже профессиональным аналитикам, так как современные мозгопромывательные технологии промывают мозги уже вне зависимости воли читающего/смотрящего и стараются сломать, то что не могут промыть. Так что фильтры нужны даже для личной гигиены и наверно любопытно и полезно посмотреть, что же тебе на самом деле пытаются втюхать. 😊

Войдите или зарегистрируйтесь для комментирования

(4 года 9 месяцев)04:54-7/Дек/24

Только бумажные книжки переведенные в эпоху существования живых советских переводчиков, остальное невозможно читать.

Школьником поверил в машинный перевод, теперь собачий язык учить поздно.

Для работы хватает машинного.

Но литературу переводят как правило несведующие машины, а затем правят далекие от темы люди, получается нынче отвратненько, прямо скажем...

Войдите или зарегистрируйтесь для комментирования

(12 лет 1 неделя)07:55-7/Дек/24

живых советских переводчиков

К слову... Смотрел недавно американский фильм "Поезд на Юму" 1957г. Сначала начал смотреть с советским дубляжом... ну и, что-то прямо не так, что-то неуловимо нелогично... начал смотреть современный перевод... так и есть, косяки со словами т.к. перевод губной, вырезано куча кадров. Мда.

Войдите или зарегистрируйтесь для комментирования

(1 год 2 месяца)07:56-7/Дек/24

"Люби Бога и делай что хочешь."

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)12:01-7/Дек/24

уровень генерируемых самими видеохостингами субтитров как ни странно упал

это не падение, просто в том же английском есть 20 разных английских на которых теперь разговаривают люди со всё падающей культурой речи. Появилась куча динамического слэнга, и привет - от классического английского уже ничего не остаётся, наступила полная эрозия. Применили прямое фонетическое транскрибирование, но (внезапно) оказывается, что у людей и с дикцией-то всё не очень хорошо.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)13:31-7/Дек/24

Для нейросетей вроде как раз слэнг не проблема в отличии от классических распознавалок текста в аудио.

Но использованный whisper2 тоже на базе нейросети...

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)15:19-7/Дек/24

не, они тоже ж0стко фейлятся, и в общем случае, нейросеть должна на лету подхватить диалект, акцент, тематику, слэнг, это слишком дорого пока, наверное. Поэтому откатились на прямую транскрипцию. А виспер работает лучше, потому что там относительно классическая речь, это более простая задача. Ну и в русском эрозии не так много

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)16:04-7/Дек/24

Мне кажется наличие srt на ютубе всегда было связанно с системой рекомендаций. Когда классификатору стало достаточно упрощенной версии откатились на нее, экономика должна быть экономной. Ну и последние классификаторы смотрят не только на текст но и на всякие смены кадров, цветокор, эмоциональную наполненность и т д, там текст вообще не участвует.

Войдите или зарегистрируйтесь для комментирования

(10 лет 11 месяцев)16:14-7/Дек/24

это из комментов доставали, кмк

Войдите или зарегистрируйтесь для комментирования

(9 лет 3 месяца)16:18-7/Дек/24

Ну комменты да, но имхо больше уже для кластеризации полученных классов/векторов.

Войдите или зарегистрируйтесь для комментирования

Как смот­реть аме­ри­кан­ский ты-​туп или чи­тать парижско-​дубайский теле$рам, с гол­ланд­ским дзы­нем и не стать ту-​пым

Комментарии

Как смотреть американский ты-туп или читать парижско-дубайский теле$рам, с голландским дзынем и не стать ту-пым