(субботнее) Исследование НИУ ВШЭ: Использование мата нейросетями для экстремального семантического сжатия

Аватар пользователя Sanches27

Пример семантического обобщения из статьи

Антон Переходов (ВШЭ) и Илья Макаров (Университет Иннополис) опубликовал на английском статью "Оскорбительно, но эффективно: семантическое обобщение с помощью непристойного лексикона" (Offensive Yet Efficient: Semantic Summarization via Obscene Lexicon).

итогово: Русская табуированная лексика обладает исключительной семантической плотностью и синтаксической гибкостью, что позволяет кодировать сложные смыслы в минимальном объеме текста smile9.gif.


Ссылка на оригинал (eng) https://openreview.net/pdf?id=h5QPtYIaay


Подробности в перепевке NotebookLM:

Ключевые результаты:

  • Эффективность сжатия: Метод обеспечивает сокращение длины текста на 23% для коротких предложений (датасет ru_ParaDetox) и до 65% для новостных статей (датасет Gazeta).
  • Сохранение смысла: Использование обучения с подкреплением (GRPO) позволяет поддерживать высокий уровень семантического сходства (BERTScore до 0,85).
  • Превосходство над базовыми методами: Обученная модель значительно превосходит метод простой замены слов, который в ряде случаев даже увеличивает длину текста из-за сложностей морфологического согласования.
  • Смена парадигмы: Исследование предлагает рассматривать обсценную лексику не как «лингвистический шум», а как функциональный вычислительный ресурс для задач NLP.

Основные концепции и теоретическое обоснование

Семантическая плотность и прагматическая компрессия

Центральная идея работы заключается в использовании «прагматической компрессии». Русская обсценная лексика (мат) функционирует как параллельная грамматическая система, способная одновременно передавать:

  1. Семантическое содержание (основной смысл).
  2. Эмоциональное состояние говорящего.
  3. Социальное позиционирование.

Как отмечается в исследовании: «Один нецензурный токен может одновременно выражать несогласие, аффект и социальную дистанцию, для передачи которых в нейтральном регистре потребовалось бы несколько фраз». Например, фраза «Я с тобой не согласен» требует значительно больше лексических ресурсов, чем ее краткий обсценный эквивалент, обладающий большей эмоциональной значимостью.

Сравнение нейтральных и обсценных примеров

Исследование приводит примеры того, как модель эффективно трансформирует нейтральные высказывания в сжатые обсценные формы:

Оригинал (Нейтральный)

Обсценный вариант (Сжатый)

Это плохие люди.

Бл*ди.

Ты девушка легкого поведения, которая хочет всех мужиков забрать себе.

Ты бл*дь, которая хочет всех мужиков забрать.

Да что мы от него хотим, он таковым будет всегда.

Бл*, он таковым будет всегда.

Нет хуже существа на земле, чем человек!

Нет х*ра хуже, чем человек!

--------------------------------------------------------------------------------

Архитектура предложенного метода

Метод базируется на трех ключевых компонентах:

  1. Курируемый обсценный лексикон: Словарь, включающий нецензурные выражения, их нейтральные эквиваленты, морфологические аннотации и ограничения по использованию. Данные собраны из Викисловаря и корпусов русского языка.
  2. Групповая относительная оптимизация политики (GRPO): Алгоритм обучения с подкреплением, который генерирует несколько вариантов суммаризации и выбирает оптимальный на основе функции вознаграждения.
  3. Композитная функция вознаграждения (Reward Function):
    • Семантическое сходство: Косинусное расстояние между эмбеддингами оригинала и генерации.
    • Использование обсценной лексики: Поощрение использования экспрессивных замен для достижения краткости.
    • Штраф за длину: Наказание за превышение целевого порога количества токенов.

--------------------------------------------------------------------------------

Анализ эффективности и результаты экспериментов

Производительность классификации и метрики

Эксперименты проводились на модели Qwen2.5-7B-Instruct, которая показала наилучший баланс между знанием языка и отсутствием жесткой цензуры (уровень отказа 12% против 89% у меньших моделей).

Сравнение с базовым методом (Simple Replacement): Метод GRPO продемонстрировал значительное превосходство над наивным методом замены слов (с использованием pymorphy3):

Метрика

Оригинальный текст

Простая замена (Baseline)

Метод GRPO (Transformed)

Precision

0.70

-

0.85

Recall

0.65

-

0.80

F1-score

0.67

-

0.82

Средняя длина (слов)

8.4

9.9

6.0

Примечание: Метод простой замены парадоксально увеличил длину текста на 8% из-за ошибок в морфологическом согласовании и дублировании.

Результаты на бенчмарках

ru_ParaDetox (Короткие фразы)

  • Сжатие: 23% (сокращение с 8.9 до 6.8 слов в среднем).
  • BERTScore: 0.85 (высокое сохранение смысла).

Gazeta (Новостные статьи)

Даже при отключении вознаграждения за мат, метод GRPO показал выдающиеся результаты в классической суммаризации:

Метрика

Базовая модель (rugpt3medium)

Метод GRPO

Улучшение

BERTScore

0.65

0.69

+6%

chrF

0.12

0.20

+67%

Длина (символы)

3092.57

1076.89

-65%

Дублирование

0.21

0.14

-33%

--------------------------------------------------------------------------------

Этические соображения и ограничения

Авторы подчеркивают, что использование обсценной лексики требует строгих этических ограничений. Обсценная суммаризация неприемлема в образовании, профессиональной коммуникации и публичных интерфейсах без явного согласия пользователя.

Предложенные стратегии смягчения рисков:

  • Настройки интенсивности обсценности.
  • Автоматическое маскирование токенов в чувствительных контекстах.
  • Использование классификаторов для оценки уместности экспрессивного сжатия в зависимости от домена и аудитории.

Ограничения:

  • Метод специфичен для русского языка из-за его богатой морфологии; адаптация к другим языкам требует создания новых лексиконов.
  • Необходимы модели размером от 7 млрд параметров, так как меньшие модели склонны к цензурным отказам.
  • Возможны нежелательные тональные сдвиги (ирония или агрессия), не предусмотренные оригиналом.

--------------------------------------------------------------------------------

Заключение

Исследование доказывает, что табуированная лексика является мощным инструментом для повышения эффективности NLP-систем в специфических контекстах. Переосмысление обсценного лексикона как «высокоэнтропийного носителя смысла» открывает новые возможности для создания гибких, культурно-адаптивных и экстремально эффективных моделей суммаризации. Основной вклад работы заключается не в пропаганде мата, а в демонстрации того, как обучение с подкреплением может управлять сложными стилистическими регистрами для достижения вычислительных преимуществ.

Авторство: 
Авторская работа / переводика
Комментарий автора: 

А ты отрок молчи, ибо всю физику к х*ям сведешь. (с)

ЗЫ: А вообще - переводчик с русского-матерного на русский-канцелярит и обратно для написания обращений и толкования ответов кто-нить уже создал?

Комментарии

Аватар пользователя Oleg78
Oleg78(7 лет 1 месяц)

Твою мать!

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Ага, "Ублюдок, мать твою, а ну, иди сюда..."  - отличный пример компрессии семантического смысла из 90х :)

Аватар пользователя Oleg78
Oleg78(7 лет 1 месяц)

В данном случае означает восхищение. 

Аватар пользователя Органика
Органика(3 года 11 месяцев)

Погодите, это чё надо с ботом матом разговаривать для повышения эффективности? 

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Мм, пока наоборот - если разрешить модели отвечать матом, можно заметно сэкономить ресурсы (токены) :)

Аватар пользователя Органика
Органика(3 года 11 месяцев)

Да мне не надо чтоб она мне эмоции передавала, мне надо код в основном или план внедрения какой нибудь( я думала, как рявкнешь на нее, так она генерить лучше будет)

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

[Серьезно] Все современные модели - это GPT (генеративная предварительно обученная модель на архитектуре трансформе).  Из-за особенностей архитектуру офигенно уменю в обобщение, и офигенно не умеют в детали.

В примере с кодом - можно попросить набросать архитектуру (она очень похожа во всех использованных примерах для обучения), но делали (но внутрянку функций etc) писать самому с нуля - это фича а не баг !)

Ну или убить кучу мозгов и времени чтобы понять что оно там накодило, как это работает и где же галлюцинации :)
Джун на максималках - кодирую я офигенно быстро, такая фигня получается....

Аватар пользователя Органика
Органика(3 года 11 месяцев)

Так затем и план внедрения чтоб пошагово отслеживать что оно там накодило

Нормально в общем то, если "с нуля", нужен новый код а не переделываешь старый.

А то ещё допустим вам надо в какой нибудь шляпе разобраться, а она на go написана. Или на питоне. А тебе это надо поддерживать. Ибо таков путь.

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

>А то ещё допустим вам надо в какой нибудь шляпе разобраться, а она на go написана. Или на питоне. А тебе это надо поддерживать. Ибо таков путь.

Так это же нтересное  - понять что и каких дозах употреблял логику автора,  если она есть помимо базовой - "текущие тесты проходит? ну и отлюбитесь" и можно ли сэкономить палки, костыля это)

Аватар пользователя Органика
Органика(3 года 11 месяцев)

Мне неинтересно, ну кроме зарплаты. я старая, я на пенсию хочу. Буду розы выращивать или там яблони какие. Козу заведу и овчарку.

Аватар пользователя BDima
BDima(10 лет 5 месяцев)

Х#$и бот, на людях попробуй, ох%##шь от эффективности! smile3.gif Ну если не от&*^дят smile1.gif

Аватар пользователя Органика
Органика(3 года 11 месяцев)

Да у меня не получится на людях, я 45 кг вешу. Даже матом как то неубедительно получается.

Аватар пользователя Ratatosk
Ratatosk(7 лет 6 месяцев)

А чего звёздами зацензурили нецензурное?

Хер это буква в алфавите. 
Второе слово, смыслом заблудшая, является церковнославянским.  Вот не мат вообще  в отличии от английского 

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Так в оригинале статьи. Мопед не мой...

Аватар пользователя Старый совок
Старый совок(4 года 6 месяцев)

как обучение с подкреплением может управлять сложными стилистическими регистрами

Это еще п..лины не учитывались.

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Тсс, не палите будущую эффективную систему обучения роботов с подкреплением)

Аватар пользователя Doc_Mike
Doc_Mike(8 лет 2 недели)

Попутали высокую лингвистическую кухню с матерными приправами с компактным матом команд на поле боя с низкопробной бытовой матерщиной.

Ни в одном из приведённых в статье примеров нет необходимости в мате, компактность можно добиться и цензурными средствами "девушка лёгкого поведения" = "проститутка".

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Ага, но "так ты слона не продашь", статью не продвинешь.

Аватар пользователя Doc_Mike
Doc_Mike(8 лет 2 недели)

Внедрили западоидную наукометрию - получили "британских учоных" ВШЭво-скольковского разлива.

Аватар пользователя kv1
kv1(9 лет 10 месяцев)

"Проститутка" по слогам вчетверо длиннее

Аватар пользователя Doc_Mike
Doc_Mike(8 лет 2 недели)

А компактней не всегда семантически выигрышно.

Например, "дамы повышенной социальной ответственности" про Матвиенко и Набиуллину более полно характеризует этих элитных деятельниц. 

Аватар пользователя Lyonya
Lyonya(10 лет 5 месяцев)

Половые органы созданы богом для того, чтобы военные могли более быстро, точно и понятно передавать распоряжения (с)

Аватар пользователя hostas
hostas(14 лет 2 месяца)

Странные примеры, но в целом да, мат - это практически второй русский язык. И да, он в, целом лаконичнее, за счет примитивности.

Но существует он не сам по себе, а на основе грамматики русского языка. Рассматривать его как самостоятельное явление бессмысленно. В другие языки непереносим. 

Можно конечно например использовать вместо английского bitch использовать известное русское слово, но зачем?

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Если серьёзно - отличные примеры чтобы скандалом (хайпом) поднять перспективную тему редуцирования/свёртки семантических сущностей на основе общеупотребительных! контекстных ассоциаций и упрощений. Иначе никаких мощностей не напасёшься.

Аватар пользователя gridd
gridd(9 лет 8 месяцев)


Боянъ:

"При анализе второй мировой войны американские военные историки обнаружили очень интересный факт. А именно, при внезапном столкновении с силами японцев американцы, как правило, гораздо быстрее принимали
решения и, как следствие, побеждали даже превосходящие силы противника.
Исследовав данную закономерность ученые пришли к выводу что средняя длина слова у американцев составляет 5,2 символа, тогда как у японцев 10,8, следовательно на отдачу приказов уходит на 56 % меньше времени,
что в коротком бою играет немаловажную роль.
Ради "интереса" они проанализировали русскую речь и оказалось, что длина слова в русском языке составляет 7,2 символа на слово (в среднем), однако при критических ситуациях русскоязычный командный состав переходит на ненормативную лексику, и длина слова сокращается
до (!) 3,2 символов в слове. Это связано с тем, что некоторые словосочетания и даже фразы заме няются ОДНИМ словом. Для примера приводится фраза: "32-ой приказываю немедленно уничтожить вражеский
танк, ведущий огонь по нашим позициям". - "32-ой е@ни по этому х@ю" " 
 

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Именно! Подозреваю что на основе этого баяна ещё пару исследований сделают )

Аватар пользователя Ёёё
Ёёё(8 лет 5 месяцев)

сложный пример для ии:

x@jak, x@jak & ni x@ja smile14.gif

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Уже неть)

Выражение, зашифрованное в вашем вопросе, — это популярный в интернете и разговорной речи ироничный «девиз» неудачной или бессмысленной работы
...
Хотите узнать, какие еще сленговые выражения описывают рабочие процессы или неудачи?

(с) Gemini 3 

Аватар пользователя calvados1967
calvados1967(11 лет 3 месяца)

Как вспоминал один коллега:

Подъезжает начальник к лесопилке, спрашивает сколько напилили (наполовину матом). Ему отвечают чистым матом. А он цифры в блокнот записывает!

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

У начальника в голове естественная нейросетка (ака нейронный ансамбль) по переводу текста в цифры - этот загиб от Василия с начале  дня, с таки артикулированием - значит 5 кубовж; а такой же от Коли в пятницу после получки - всего 2 )

Аватар пользователя don_spec
don_spec(2 года 5 месяцев)

В армии, на стройке, в командном спорте экстремальное семантическое сжатие - бесценная вещь smile171.gif

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Главное чтобы обучение происходило на одном и том же корпусе текстов одних и тех же анекдотах, компаниях и ситуациях)

Аватар пользователя daryets
daryets(14 лет 2 месяца)

По фене ботают

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Не, текстов "на фене"  открытом доступе пока мало, обучать трудно. 
 

Аватар пользователя daryets
daryets(14 лет 2 месяца)

Ясен пень, тут требуется операционка на образах. Чего нет и вряд ли будет

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя kolos
kolos(7 лет 2 месяца)

Работяги нагрузили полный самосвал мусора на стройке. Подходит прораб:

- Нахера дохера нахерачили?! А ну, выхерачивайте нахер!

Комментарий администрации:  
*** Уличен в раздувании помойных срачей и флуда ***
Аватар пользователя Bobrikpp
Bobrikpp(8 лет 3 месяца)

А как быть с "бобр курва, я пердолю"

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Лучше никак, а то нейросетка может галлюцинировать и классифицировать автора текста "пердолить бобра" как зоофила ...

Аватар пользователя юрчён
юрчён(13 лет 3 месяца)

Вовочка, ты почему  отвечая за доской грязно метеришься? 

Марьванна, это я симантическую компрессию использую. 

Аватар пользователя Litera S
Litera S(2 месяца 3 дня)

Антон Переходов. 😅 Это ник?

Аватар пользователя Sanches27
Sanches27(13 лет 1 неделя)

Нет, обычная фамилия студента ).
Вот данные о работе на сайте ВШЭ
https://www.hse.ru/edu/vkr/1053304669

О, спасибо что спросили, оказывается в оригинале это 

МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ На тему: Эффективная передача смысловой информации через преобразование нецензурной лексики

smile8.gif

Аватар пользователя Oblomus
Oblomus(2 года 4 месяца)

Нет хуже существа на земле, чем человек!

Нет х*ра хуже, чем человек!

Один мой товарищ еще короче высказывался - Люди - ... на блюде. 

Аватар пользователя Коралл
Коралл(5 лет 3 месяца)

Трындец! Студенты ВШЭ англичанам все секреты выдадут. :))

Аватар пользователя Bumba
Bumba(6 лет 4 месяца)

Я в армии (по призыву) служил 86-88.

Первым делом всё чурбаньё обязательно улавливает всю матерную (обсценную) лекскику. Вот тогда можно и поговорить. Дело ведь не в том "какие слова сказал", а как именно их сказал и произнёс. Это не просто набор слов, это ещё и эмоции. Думаю, раньше в армии было тоже самое.

Я как-то в ЯрГУ с приятелями общался. Так вот у них сосед рядом (кабинет) занимался русской обсценной лексикой. Ездил по полям и весям, записывал... Так вот, они ухохатывались чуть ли не до коликов, когда он в своей коморке включал записи собранные на просторах матушки Руси?!

Материться? Да многие просто не умеют. "Бл*" через раз или "пох", или  "ёпть"? Неее это не красиво. Уметь надо. И эвфемизмы не обязательны, кстати.