Инструменты для анализа русских литературных текстов

Аватар пользователя PaulPaulu

Методика анализа описана здесь:
Авторский инвариант русских литературных текстов

Анализ проводится в два этапа (можно объединить в bat файле).

1. author_invariant.py <filename>.txt // Исходный файл в кодировке UTF-8 (переделывается в Notepad++при необходимости), выходной файл <filename>.dat

2. invariant_plotter.py <filename>.dat // На выходе графики в png

Листинги в конце.

ПРИМЕРЫ // Булгаков, Ильф и Петров.

1. 12 стульев

2. Белая Гвардия

3. Мастер и Маргарита

4. Роковые яйца

5. Собачье сердце

6. Том 1. Дьяволиада 

7. Золотой теленок

author_invariant.bat
author_invariant.py
invariant_plotter.bat
invariant_plotter.py

Авторство: 
Авторская работа / переводика
Комментарий автора: 

Если программы здесь выкладывать не формат, скажите, больше не буду.

Комментарии

Аватар пользователя AVSm
AVSm(7 лет 1 месяц)

Вопрос даже не к методике (см. близкие результаты у Леонова с Фединым) и "разброс" по ПСС Чехова и Шолохова... а к самим текстам - что есть авторский вариант? Изданный?! В какой версии? Например, "12 стульев" - есть черновой (частично легализованный через отдельные публикации *тогда*) и опубликованный, причем этих публикаций несколько... Какая версия использовалась?! И сравнивались ли *разные* версии одного текста? Собачье сердце было же похищено при обыске, о чем синеглазый аж Верховному писал и черновиков "не осталося".

ЗЫ: хороший тест на булгаковоеда (не опечатка) - сколько писем написал синеглазый прежде чем был звонок от самого? 

То, что версия о "якобы плагиате" - это неплохая пиар идея какой-то верной ученицы Омаровны (вряд ли третьей вдовы - артистки Булгаковой - хотя она бы оценила), на мой взгляд, очевидно. Спасибо. Но, что же следует из этих данных? Что стиль автора меняется? ;) что морфинизм это страшное заболевание? И кстати - Белая гвардия - это же фактически автобиографическая вещь - а тут спорное авторство, как и самое тяжёлое психическое состояние... И тогда уж и Дни Турбиных с Каббалой светош прогнать... Правда опять - какие варианты текста...

Аватар пользователя PaulPaulu
PaulPaulu(6 лет 1 месяц)

Это на скорую руку сделал к статье Молнируйте, Аткарск и горшановское пиво, или кто написал «12 стульев» и «Золотой теленок».

С Белой Гвардией промахнулся, захватил в конце пьесу и примечания. Просто показал, что метод работает.

Авторские инварианты, Булгакова и Ильфа-Петрова, похоже, разные.

Аватар пользователя AVSm
AVSm(7 лет 1 месяц)

Я понял к чему ;) и написал про талантливую ученицу Омаровны, которая приложила таки руку не только к возвращению имени, но и к текстам (а сейчас уже и к авторским правам).

Но я же написал - что делать с собранием сочинений Чехова? Там тоже авторский инвариант разный!!! Вы же сами в комментах опубликовали сводку по Шолохову - и вот как?!

И этому... автору я написал скромное замечание, что лично для меня авторство синеглазого морфиниста (два факта подряд) в том, что издается ныне как МиМ - вызывает некоторые сомнения - и после чтения черновиков, и обстоятельного знакомства с обильной булкаговоедной литературой и биографиями...

Аватар пользователя Проспер Альпанус

Да какая Амлински талантливая ученица Мариэтты Омаровны? Там, в её книжонке, анализ текста на уровне ощущений, примерно как у Фоменко иК при построении исторических гипотез. Из книги Амлински:

"Глава I. Уездный город N и его обитатели. «В уездном городе N было так много парикмахерских заведений и бюро похоронных процессий, что, казалось, жители города рождаются лишь затем, чтобы побриться, остричься, освежить голову вежеталем и сразу же умереть. А на самомделе в уездном городе N люди рождались, брились и умирали довольно редко. Жизнь города была тишайшей. Весенние вечера были упоительны, грязь под луною сверкала, как антрацит, и вся молодежь города до такой степени была влюблена в секретаршу месткома коммунальников, что это просто мешало ей собирать членские взносы. Вопросы любви и смерти не волновали Ипполита Матвеевича Воробьянинова, хотя этими вопросами, по роду своей службы, он ведал с 9 утра до 5 вечера ежедневно, с получасовым перерывом для завтрака. По утрам, выпив из причудливого (морозного с жилкой) стакана свою порцию горячего молока, поданного Клавдией Ивановной, он выходил из полутемного домика на просторную, полную диковинного весеннего света улицу имени товарища Губернского. Это была приятнейшая из улиц, какие встречаются в уездных городах. По левую руку, за волнистыми зеленоватыми стеклами, серебрились гробы похоронного бюро «Нимфа». Справа,за маленькими, с обвалившейся замазкой окнами, угрюмо возлежали дубовые, пыльные и скучные гробы, гробовых дел мастера Безенчука. Далее «Цирульный мастер Пьер иКонстантин» обещал своимпотребителям «холю ногтей» и «ондулянсион на дому». Еще дальше расположилась гостиница с парикмахерской, а за нею, на большом пустыре, стоял палевый теленок и нежно лизал поржавевшую, прислоненную к одиноко торчащим воротам вывеску: «Погребальная контора „Милости просим“». Еще к описанию достопримечательностей городка в главе «Слесарь, попугай и гадалка» читаем: «Были на доме еще два украшения, но уже чисто коммерческого характера. С одной стороны – лазурная вывеска «Одесская бубличная артель – «Московские баранки». На вывеске был изображен молодой человек в галстуке и коротких французских брюках. Он держал в одной, вывернутой наизнанку руке сказочный рог изобилия, из которого лавиной валили охряные московские баранки, выдававшиеся по нужде и за одесские бублики».

Первым звоночком, привлекшим мое внимание, была нежность в описании достопримечательностей уездного городка. Повествование проникнуто любовью, хотя ничем, на первый взгляд, эта любовь к провинциальному захолустью не могла быть вызвана. «Полная диковинного света улица», «весенние вечера были упоительны», «приятнейшая из улиц» – такими эпитетами одарил автор этот ничем не примечательный городок. Поэтому вывод напрашивался сам собой: чем-то это место было ему дорого. А теперь прочтем еще одно описание такого же маленького городка: «И вот я увидел их вновь, наконец, обольстительные электрические лампочки и главная улица городка, хорошо укатанная крестьянскими санями, улица, на которой, чаруя взор, висели – вывеска с сапогами, золотой крендель, изображение молодого человека со свиными наглыми глазками и с абсолютно неестественной прической, означавшей, что за стеклянными дверями помещается местный Базиль, за 30 копеек бравшийся вас брить во всякое время, за исключением дней праздничных, коими изобилует отечество мое». Зарисовка взята из рассказа «Морфий», в котором описан уездный город Вязьма. В этот городок был переведен из села Никольское молодой врач Михаил Булгаков, который проработал полтора года в деревне, не видел никого, кроме больных, фельдшера и двух акушерок, и радовался газете двухнедельной давности. Для Булгакова этот перевод в уездный город 8 означал возвращение к жизни, и потому, ничем не привлекательная (для любого непровинциального жителя) Вязьма, была так нежно, с любовью описана им. Привлекла внимание и вывеска «Цирульный мастер Пьер и Константин». А точнее буква «у» в слове «цирульный». Заинтересовало это тем, что тема безграмотного перевода названий улиц, магазинов и официальных учреждений с русского на украинский язык, волновала и возмущала писателя Булгакова, когда он находился в Киеве в 1918-1919 годах. Об этом он написал в очерке «Киев-Город», опубликованном в 1923 году: «Это киевские вывески. Что на них только написано, уму непостижимо. Оговариваюсь, раз и навсегда: я с уважением отношусь ко всем языкам и наречиям, но, тем не менее, киевские вывески необходимо переписать. Нельзя же, в самом деле, отбить в слове «гомеопатическая» букву «я» и думать, что благодаря этому аптека превратится из русской в украинскую. Нужно, наконец, условиться, как будет называться то место, где стригут и бреют граждан: «голярня», «перукарня», «цирульня», или просто-напросто «парикмахерская»! Как видишь, читатель, из рассказа Булгакова «Морфий» вывеска с золотым кренделем, преобразовавшаяся в вывеску бубличной артели, парикмахерская и молодой человек были «заимствованы» и использованы в романе «12 стульев». При этом мы не забываем, что булгаковский рассказ «Морфий» был опубликован в 1927 году, к моменту работы над разбираемым романом, учитываем нежность в описании городка (странную для одесситов Ильфа и Петрова, но логичную для Булгакова) и слово «цирульный», рассмотренное ранее. Предлагаю задуматься над этим и продолжить исследование романа «12 стульев»." 

Аватар пользователя И-23
И-23(10 лет 5 месяцев)

В обличениях Фоменко сотоварищи самое интересное в механизме обеспечения дисциплины соблюдения табу на обнаружение аналогичных по сути методов в исполнении его кагбы «антагонистов».

Например.

Аватар пользователя Ёёё
Ёёё(8 лет 5 месяцев)

  все книжки написаны с помощью ии, давно уже, Гоголь не даст соврать! smile32.gif 

А н н а А н д р е е в н а. Так вы и пишете? Как это должно быть приятно сочинителю! Вы, верно, и в журналы помещаете?

Х л е с т а к о в. Да, и на Анфтершоке в журналы помещаю. Моих, впрочем, много есть сочинений: «Женитьба Фигаро», «Роберт-Дьявол», «Норма». Уж и названий даже не помню. И всё случаем: я не хотел писать, но театральная дирекция говорит: «Пожалуйста, братец, напиши что-нибудь». Думаю себе: «Пожалуй, изволь, братец!» И тут же в один вечер, кажется, всё написал, всех изумил. У меня лёгкость необыкновенная в мыслях. Всё это, что было под именем барона Брамбеуса, «Фрегат „Надежды“» и «Московский телеграф»... всё это я написал.

А н н а А н д р е е в н а. Скажите, так это вы были PaulPaulu Брамбеус?

Х л е с т а к о в. Как же, я им всем поправляю статьи. Мне Алекс Смирдин даёт за это сорок тысяч.

А н н а А н д р е е в н а. Так, верно, и «Юрий Милославский» ваше сочинение?

Х л е с т а к о в. Да, это моё сочинение.

А н н а А н д р е е в н а. Я сейчас догадалась.

  — Вы слышали, доктор, Булгаков за одну ночь два романа накатал?!

  — И вы говорите, Пал Палыч...

   smile6.gif

Аватар пользователя Ути-пути
Ути-пути(2 года 7 месяцев)

А если использовать готовый стемминг (snowball) и анализировать не текст, а полученный вектор?

Аватар пользователя laserbeam
laserbeam(6 лет 9 месяцев)

Да полно всего сделали.

Те же служебные части речи необязательно искать регулярными выражениями - есть прекрасные морфермные анализаторы, например, древний PyMorphy2 (что там есть новое, давно тему не рыл)?


Для стемминга и/или лемматизации нужно что? Знать эти слова!
А если не знаешь, то регулярки по "сырому" тексту пойдут, и не все служебные части речи учитывать будут, которых поболее, чем в коде от ПолПола.