Методика поиска *текстов* книг

Аватар пользователя И-23

Практика недавних обсуждений показала, что мои представления об общеобязательном знании… не вполне соответствуют действительности. Печально. И повод постараться исправить данный уклон.

Предлагаемая методика хороша в первую очередь тем, что полезна не только жителям столиц («Есть в России три столицы: Москва, Питер, Луховицы!») и даже не только жителям городов-миллионников, но практически всем заинтересованным гражданам, независимо от места проживания.

В качестве предварительного замечания необходимо отметить существенное влияние фактора доступности информации. Но. С другой стороны нужно помнить и видоопределяющий признак Homo Sapiens (вторую сигнальную систему). И тот факт, что дёшево доставшееся недорого ценится. И именно в этом базисе должно рассматривать феномен советской книги.

Пробовал я именно что читать в библиотеке… НЯП три дня на неполные двести страниц уменьшенного формата. В нормальном режиме я бы читал это текст недели две.
И ляпы профессионалов гуманитарных профессий, порождённые той же проблемой, тоже помню.

Следующим значащим фактором является проблема правоторговли (напоминаю, что контроль над распространением информации — источник высшей Власти, и что как историческим меркам совсем недавно заинтересованные правоторговцы борцевали с таким социальным феноменом, как публичные библиотеки).

И вообще проблема управляемой эволюции технологий, усугубляемая антагонистичностью интересов пользователя и бизнеса.
В мире ПО проблема воплощена в тенденции к переходу от устанавливаемых приложений к клиент-серверной архитектуре и продаже доступа к сервисам.
Ну и применительно к теме статьи — в выводе из оборота понятия «файл», с подменой его понятием «сервис» (верификация содержимого ссылки на какой-нибудь ютубик — сказка). Доступ к которому куда проще и удобнее монетизируется. И который куда проще «прикрыть» (см. например любимую практику литреса по снятии с продажи файлов по факту продажи бумажных тиражей, наиболее злободневный пример — памфлет Дениса Соколова «Чёрные буйволы бизнеса»). Здравствуй светлое будущее, описанное Орвеллом.

Причём с сервисами налететь на… в лучшем случае потери информации можно легко и непринуждённо даже без прямого злоумышления.
Лучшим памятником проблеме является эволюция представлений любимого памфлета Альва в череде изменений интерфейса ресурса.
Или уже моя любимая тема: попытка правильного и полного чтения рекомендованной подборки Онегина (то есть начиная со статей по ссылкам из аннотации). В обсуждении другой нити товарищи справедливо указали на то, что статьи восстановлены из резервной копии на glav.su. Но они не указали, что восстановлен только текст, а в остальном ситуация вполне повторяет памфлет Альва.

Побочным эффектом данной тенденции стало то, что поисковые системы общего назначения превратились в инструмент бизнеса, мягко говоря не вполне удовлетворяющий потребности пользователя.


Случай простейший: файл. В плюсе: удобство доступности и свойство копируемости. То есть возможность зачитать книгу, бумажный оригинал которой недоступен, или промышление которого требует изрядных трудов и Времени. Например из актуального — «Малая война» М. Дробова и прогноз Авантюриста.

Принципиальных вариантов два: графический (наиболее распространённые форматы: djvu и в общем-то универсальный контейнер pdf, но может быть и tiff) и текстовые (стандартом де-факто для рунета является fb2).

Достоинствами графических форматов являются:
Во-1) трудоёмкость процесса получения «книги»-файла;
Во-2) соответствие печатному оригиналу.

Основной недостаток графики — неудобство чтения на маленьком экране (околостандартное оформление под размер страницы А4 на современном экране размера 6" читать можно только при наличии хорошего зрения, но даже с ним лучше воспользоваться устройством с хотя бы 8" экраном).

Главное достоинство текстовых форматов — масштабируемость *текста*, недостаток — усугубление качества набора ошибками распознания. Вопрос представления текстовых форматов в достаточной степени разобран в этой статье.

Вопрос справедливости пролоббированных материально-заинтересованной стороной (но при этом обязательных для всех) законов не рассматриваю. Описание методик их нарушения опускаю.

Моя позиция проста:
Любая причастность к производству коммерческих (производимых с целью получения коммерческой прибыли) художественных произведений должна вознаграждаться по нормам уголовного кодекса.

Проиллюстрирую проблему на примере научной фантастики начала прошлого века (С.Ф. Шарапов, цит. по современному переизданию «После победы славянофилов»):

— Сейчас? О Господи! Ну вычеркнул у вас цензор что — нибудь, хотя и не понимаю, как и что можно вычеркивать, раз говорится спокойно и серьезно… Ну, положим, вычеркнул! Вы печатаете остальное, что вам пропущено, и спите спокойно. А теперь дрожи за каждую строку. Наши суды положительно с ума сходят. Недавно одного почтенного человека и старого журналиста посадили на месяц в рабочий дом, как вы думаете, за что? За «предумышленный обман читателя в форме недобросовестной полемики». Слыхали в ваши времена о таких преступлениях? Дальше: закрыли газету за «злостное и постоянное вторжение в частную жизнь и общественный соблазн». А весь соблазн заключался в том, что был помешен роман с несколькими эффектными убийствами. И роман, который читался нарасхват!

— Но как же можно закрывать издание за роман?

— А вот подите же! Обвинитель представил мнение художественного общества, суд вызвал «сведущих людей», и издание запретили. У нас думают, что рассказы об убийствах и разных преступлениях действуют психически на публику, подготовляя преступления. Да, вы знаете ли, что у нас тащат к суду и налагают взыскания за простые сообщения о кражах и мошенничествах?

Хотя для начала можно довольствоваться и полумерами в виде обязательства материально-заинтересованных граждан и прочих юридических лиц явить народу исчерпывающий реестр своей «интеллектуальной собственности» и устранения привилегированного статуса оной в вопросе налогообложения.

При поиске текстовых файлов с высокой степенью вероятности достаточно проферить Ф. (если кто-то не вполне понимает используемых сокращений — рекомендую ознакомиться с историей).

Стараниями правоторговцев первичные доменные имена заблокированы, поэтому на всякий случай и без описания методики доступа привожу ключики из «даркнета»:
zmw2cyw2vj7f6obx3msmdvdepdhnw2ctc4okza2zjxlukkdfckhq.b32.i2p
flibusta.i2p
flibusta.lib

И показываю снимок экрана ресурса:

Ссылок на рабочие зеркала (а по крайней мере на этой неделе одно я видел) не привожу.

Успех в лоббировании блокировки популярнейшего книжного ресурса рунета (к которому даже жадный копираст Дулепа не смог высосать претензий) помимо зеркал стимулировал процесс создания отражений. В качестве одного из наиболее адекватных и при этом доступных на момент написания статьи стоит рекомендовать «кулёк».

Электронные версии научной литературы (как правило в графических форматах) следует искать на Генезисе. У которого, впрочем, помимо достоинств есть ряд недостатков: начиная с в общем-то закономерных тараканов администратора ресурса и заканчивая платёжеспособным спросом на блокировку. Поэтому следует отметить полезную преимущественно в букинистическом аспекте альтернативу в лице Национальной Электронной Библиотеки (НЭБ).

В новейшей истории для мотивации засовывания в устройство типа «книга» сетевой карты и стимуляции пользователя к пользованию ей разработали протокол для автоматического закачивания книги прямо в программу чтения (протокол зовут OPDS, нить алгоритма полагаю сугубо порочной и потому не описываю).

Поиск артефактов: случай, когда файла с требуемым текстом нет, или при наличии предпочтения человекочитаемых материальных носителей.

Практика показывает, что далеко не все заинтересованные граждане в курсе существования ресурса alib.ru.

По моему опыту — можно рекомендовать.

В случае редкого, почти уникального случая продажи файла, отсутствующего у «пиратов» необходимо помнить, что бизнесмены давно практикуют дополнения, решающие архи-насущную задачу идентификации покупателя конкретной копии.

И наконец полезное дополнение: анонс сервиса полнотекстового поиска:

Полнотекстовый поиск

Posted 03 сентября 2015, в 01:12:24 by azazar

Очень не хватало возможности поиска книг по ключевым словам, как в обычных поисковиках. Так сильно не хватало, что решил это исправить. Стало можно искать те книги, о существовании которых вы не подозревали - достаточно подобрать правильные ключевые слова. Не надо знать автора или название книги. Можно искать книги, в которых упоминается что-то, о чём хотелось бы почитать. Можно найти и книги малоизвестных авторов. Можно найти книги, название которых не получается вспомнить. И много чего ещё теперь можно.

Ссылка: fbsearch.ru. И почитайте инструкцию, прежде чем начать пользоваться.

Если у вас есть идеи или предложения по улучшению сайта - пишите в комментах.

Примеры запросов

"на нейросеть" содружество - книги по EVE-онлайн
поттер грейнджер дамблдор - фанфики по Гарри Поттеру
нанороботы - фантастика, в которой упоминаются нанороботы
annotation:(попаданец eve) - попаданцы в eve, поиск по аннотациям. Неудачный запрос, потому как мало таких аннотаций
очень длинный запрос - умники-попаданцы в фэнтези (запрос на мой вкус)

Примеры дурацких запросов (из логов):

гоблины с копьями - если это фраза, то стоило бы использовать кавычки. А вообще будут найдены все книги, где упоминаются гоблины и копья. Но с копьями будут не обязательно гоблины
занимательная гальваника - если это фраза, то стоило бы использовать кавычки. А вообще будут найдены все книги, где упоминается что-то занимательное, и упоминается гальваника
кот бегемот - если это фраза, то стоило бы использовать кавычки. А вообще будут найдены все книги, где упоминаются коты и бегемоты.
попаданец шиноби - это лучше искать в аннотациях, а ещё лучше искать по словам и фразам, которые в книгах про попаданцев есть почти всегда, вроде "другой мир" или "из другого мира"
детективы - кому-то и правда надо список книг в которых есть слово "детективы"?
фэнтези слэш - это лучше искать в жанрах
ночью приходит волшебник и забирает ГГ в параллельный мир обещая вернуть как только найдется наследник - на сервере нет искина, который бы разбирался в ваших кратких пересказах. Используйте ключевые слова

Авторство: 
Авторская работа / переводика
Комментарий автора: 

Рекомендуемому ресурсу (который и послужил первоисточником вдохновения данной статьи) дешёвая популярность ненужна.
Поэтому скромненько в блоги, да без активной ссылки.

Ну и очередное напоминание о полезности модуля экспорта в fb2 (см. замечание о судьбе графики в перипетиях восстановлений, сравните с fb2 оригинального прогноза Авантюриста).

Комментарии

Аватар пользователя Medved075
Medved075(6 лет 10 месяцев)

в торрентах книг достаточно много, но скачивать надо целыми пакетами произведений минимум одного автора. после читания ознаеомительных фрагментов у всяких там жиробасов.

Аватар пользователя И-23
И-23(9 лет 2 месяца)

На торрентах есть и слепки базы Ф.

Но для работы с ним нужно приложение типа «локальный каталогизатор».

А MyRuLib практически мёртв… ☹

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Да, и книжный торрент (НЯП booktracker.org) стараниями копирастов тоже того… заблокировали. ☹

Аватар пользователя hyptul
hyptul(7 лет 8 месяцев)

Библиотека генезиса весьма и весьма обширна, но всё равно неполна. У меня есть несколько десятков бумажных книг, которых в ней нет. А бумажные книги читать часто не так удобно, как электронные, из-за того, что в электронных может иметься поиск. Например, у меня есть два математических учебника на французском на одну и ту же тему. Но для одного есть электронная версия (из библиотеки генезиса) с полным поиском. А для другого есть только крайне усечённый поиск амазона. Покупать же ещё и электронную версию после покупки бумажной - это для меня чересчур.

alib-ом я неоднократно пользовался. Там иногда встречаются хорошие книги на иностранных языках, которые продаются дешевле, чем на abebooks. Да и книги на русском иногда лучше всего покупать там.

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Текстовый слой (и как следствие — поиск) в графических форматах встречается далеко не всегда.
И к нему в сугубой степени относятся замечания относительно погрешностей распознания.

Аватар пользователя neodim
neodim(11 лет 8 месяцев)

В торентах, например, 180 гб архив .txt файлов библиотеки либрусек. Искать по ключевoму слову MyHomeLib

Аватар пользователя Bledso
Bledso(11 лет 8 месяцев)

Там уже давно за 200 гигов. И такой же архив есть по Флибусте.

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Лично меня в этом подходе (распространение дампов на торрентах, с обновлениями) всегда интересовала судьба «удалённых» файлов (война правок бывает не только в википедии).
И связей (в смысле объединения файлов в пользу лучшей версии).

Аватар пользователя RusKaz
RusKaz(10 лет 7 месяцев)

Так вроде Флиб и создавался как легальное зеркало Либа, только потом он вроде как отделился, а так, "у вышеупомянутых ресурсов контент эквивалентен"...

Аватар пользователя И-23
И-23(9 лет 2 месяца)

У MyHomeLib есть один критический недостаток (см. описание принципа наименьших).

Тот же, что и у «стандартного» редактора fb2.

Аватар пользователя st251
st251(8 лет 1 месяц)

Спасибо Тс за ссылку на поиск текстов. По набору ключевых фраз: планета, песчинка, космос ,"чем хуже тем лучше";

нашел книгу которую давно хотел перечитать:"Звездные берега" Слепынин. Была в юности книжка бумажная, но потерялась...

 

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Пожалуйста ☺

Изначально предполагалось ей и ограничиться.
Но по результатам обсуждения [в других темах] проявилась необходимость дополнения.

В поиске по текстам необходимо учитывать, помимо проблем неидеальности набора и распознания, следствие кармадрочерства внутри книжного сообщества.
Когда для идентификации перенесённых прогрессивным методом copy&paste текстов (с переписыванием заголовка, по сути являющемся целью действа) местами осуществляется подмена кириллических букв на аналогичного начтертания латинские. В какой степени оно отрабатывается движком ресурса — не знаю.

Аватар пользователя dimakrad
dimakrad(12 лет 4 месяца)

Ёклмн! Первое что я попробовал найти был Слепынин "Звездный странник", и таки сразу нашёл по "тахионно-фотонному".

ТС спасибо!

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Тема в тему про «что делать, есть нужной книги нет в интернетах»: «Список востребованных книг».

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Агрегатор барахолок по ссылке с алиба: https://www.findlib.ru/

Аватар пользователя И-23
И-23(9 лет 2 месяца)

По всем признакам засада.
Я бы даже сказал ИВНР!

Эти… разгильдяи решили только половину задачи.
На обновление и синхронизацию баз (книги на alib.ru как добавляются, так и снимаются, причём регулярно, т.е. синхронизация потребна не реже раза в неделю) явным образом положен болт. Тот самый, на М16.

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Не в одной НЭБ (актуальное доменное имя проекта — https://rusneb.ru/) следует искать исторические книги.
На сайте РГБ (https://www.rsl.ru/) они тоже встречаются. Причём уникально (без реплицирования в НЭБ).

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Да, для [временно] проживающих вне территории Державы может быть полезен «белый» адрес Ф.

НЯП остановились (свернули практику забега по зеркалам) на исландском зеркале — flibusta.is

Аватар пользователя И-23
И-23(9 лет 2 месяца)

На примере данного сервиса можно наблюдать одну интереснейшую особенность поисковых систем в интернетах:

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Сюда же наверное стоит записать и предупреждение: уставшие гоняться за мотыльками неофф. проксей копирасты запилили *легальную* обманку.

Осторожно! Фальшивка:

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Анонс upstream'а:

На следующий год есть мысль приделать все-таки полнотекстовый поиск. Техника должна уже потянуть, по крайней мере в каком-то виде. Как минимум попробовать было бы интересно.