Вы здесь5077 сомнений.
Опубликовано пн, 18/08/2008 - 10:44 пользователем pkn
5077 сомнений. Ну вот. Начала, наконец, прожевываться перловка, скрипты хоть кое-как зафурычили, стремительным домкратом наросла библиотечка полезных сабрутинок, и в тумане перспективы стал вырисовываться первый результат: 5077. 5077 - это число книжек из AldLit (это, совместно, Альдебаран36163 и Литрес4415), которых, по нынешнему мнению скрипта-сравнилки, нет в Либрусеке. На самом деле множество из них таки в Либрусеке есть, и я хотел бы уменьшить это число 5077 - более правильным сравнением книг из AldLit и из Либрусека. Но тут я теряюсь в сомнениях. Помогите соображениями о возможных подводных камнях, братие и сестрие! По вот этим поводам. Деёфикация: Декавычкизация: Детирезация: Ещё я хочу спросить уважаемое сообщество про этавот, о книгах из AldLit, стоящих в первой очереди к заливке на Либрусек: 1. Конвертировать ли в UTF-8 те книги, которые сейчас в другой кодировке?
Updated: Предполагаемый порядок предзаливочной обработки (именно в изложенном порядке): 1. Записать в custom-info (не в history) предлибрусечное происхождение - Aldebaran36163 или Litres4415 (Perl script) 2. Инкрементировать версию на 3. Прогнать через FB2Fix (попутно конвертировать все файлы в кодировку UTF-8, конвертирование никуда не записывать) (FB2Fix) Используемая версия Fb2Fix 1.0.8. Содержимое options-файла: 4. Прогнать через fb2-renaming, по схеме: Familiya_Imya_(Serial-#)_Nazvanie_knigi.fb2 . При этом _(Serial-#) - опционально, вставляются только при наличии таковых в дескрипшне. Если авторов много, автор берется только первый. (Perl script) Updated: новое магическое число, после улучшения логики сравнивалки - 4511. Updated: Самое-самое последнее магическое число - 4509. Да и то благополучно закончилось :)) http://lib.rus.ec/sites/default/files/4509-list-by-title.txt 805.48 кб ---------------------------------
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 21 мин.
SparkySpirit RE:Прошу переформатировать, распознать, etc... 2 дня SparkySpirit RE:Жорж Санд - переводы 19 века 3 дня sem14 RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 дня Саша из Киева RE:Наш дом - СССР 4 дня babajga RE:Чернушка. Повести 4 дня Саша из Киева RE:Сказки далёких островов 6 дней babajga RE:Лопоухий бес 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя babajga RE:Ежик покидает дом 1 неделя babajga RE:Сказки бабушки Черепахи 1 неделя babajga RE:Свист диких крыльев 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 2 недели Isais RE:Не тот автор 3 недели xieergai60 RE:Продление подписки 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Isais RE:Древняя Греция. Читаем... 4 недели Впечатления о книгах
Niarbagem про Пехов: Птицеед (Фэнтези, Самиздат, сетевая литература)
30 12 Классический Пехов, легко читается, интересный мир, ничего нового для тех кто знаком с творчеством, добротное фэнтези. Буду ждать продолжения! Оценка: хорошо
Chernovol про Дуган: Предательство истины (Публицистика, Документальная литература, Спецслужбы)
28 12 Бред сивой кобылы. Автор, специалист по сибирской язве, забыл описать боевых комаров. Оценка: нечитаемо
Дей про Петровичева: Девушка без имени [litres] (Любовная фантастика, Попаданцы)
28 12 Не смогла читать после того, как ГГ, никого и ничего не знающая о мире, в который попала, ушла от спасшего её человека, от которого видела лишь добро, только потому, что он инквизитор. Истории о бабах-дурах и истеричках меня не привлекают. Оценка: плохо
Chernovol про Жан Саван
28 12 Не очень удачный перевод. В стихе слово "Люба" написано с большой буквы, хотя это не имя а люба, т.е. любимая.
Chernovol про Широкорад: Битва за Крым. От противостояния до возвращения в Россию (Публицистика)
28 12 Пропагандистский лубок, в большинстве фактов документально ничем не подтвержденный. Оценка: нечитаемо
Синявский про Вадим Абрамов
27 12 26 декабря 2024 года в Санкт-Петербурге похоронили историка Вадима Розенберга. Он был настоящим знатоком спецслужб. Его книги издавались под псевдонимом Вадим Абрамов.
Саша из Киева про Ефим Семёнович Ефимовский
27 12 Надо чтобы кто-нибудь добавил сюда ещё книги "Приключения юнната Синичкина Игната" и "Приключения юнната Синичкина Игната в зоопарке". Их можно взять с Флибусты.
decim про Людмила Захаровна Уварова
27 12 Этот вечно бухой пошляк был сам собой пародия. Раскрепощённый - как в объявлении тех же лет: "требуются раскрепощённые девушки". Сейчас начинающий так стендапер тут же и закончит карьеру, а тогда ничё, пипл хавал. Автора рекомендую. Нормальный человек, что редкость.
decim про Кольцов: За гранью возможного (Героическая фантастика)
27 12 Без задушевных разговоров только лучше было бы: изложение идеи и способов её реализации. Получился бы нормальный научпоп. "Оживление и утепление" темы делают креатив подражанием Немцову, был такой "фантаст" в начале 50-х. ……… Оценка: нечитаемо
decim про Кольцов: Три сказки про царя Никиту… или «Хрущёвская оттепель» (Публицистика, Документальная литература)
27 12 Хрущёв у нас уже мифологизирован по самое некуда. Автор твердит как заведенный "госдеп, госдеп", словно это некие всемогущие волшебники. Очень удобно всё на них свалить, не видя собственного головотяпства. А кто приучил ……… Оценка: плохо
Foset про Людмила Захаровна Уварова
27 12 А. Иванов пародию на её произведения сделал https://www.youtube.com/watch?v=ifTzAEqeTVQ ?
miri.ness_ про Еще не поздно
25 12 Двоякое впечатление. У автора, возможно, в родственниках или их друзей есть взрослые люди, крепко обиженные Ангстремом. Но много знающие про электронику и микроэлектронику тех лет - отсюда и довольно глубокие познания, правда ……… |
||||||||||
Комментарии
Отв: 5077 сомнений.
Вот это дело. "+1", "За" и всё такое.
Отв: 5077 сомнений.
На основные вопросы ответов дать, к сожалению, не могу. Не копенгаген...
Но на вот на парочку:
2. Конвертировать все файлы в кодировку UTF-8 (и записать это действие в history?).
Конвертировать и не прописывать. Никому не интересно.
4. Прогнать через fb2-renaming, по схеме: Familiya_Imya_Otchestvo_(Niknejm)_(Serial-#)_Nazvanie_knigi.fb2 . При этом _Otchestvo, _(Niknejm), и _(Serial-#) - опциональны, вставляются только при наличии таковых в дескрипшне. Если авторов много, автор берется только первый.
Не поняла цели переименования - на сайте файлы как только не названы. При скачке обзываются по собственной схеме.
Но если она (цель) всё же имеется, то предлагаю сократить название до Familiya_Imya_(Serial-#)_Nazvanie_knigi.fb2. Вполне достаточно для идентификации.
Отв: 5077 сомнений.
ОК.
Да вот как раз потому что многие жаловались, что при скачке после распаковки имя у fb2-файла бывает очень неудобное для сортировок. Да я и сам это вижу.
ОК.
Отв: 5077 сомнений.
Иными словами, для сравнения книг годятся любые издевательства над кодировками, fb2fix'ы и т.д. - но сухой остаток лучше выкладывать в оригинальном виде.
Отв: 5077 сомнений.
Останутся вопросиками, ясный пень - это уже вопрос вычитки.
И сухой остаток имеет смысл держать в UTF-8 - относительно независит от языка и, потому, допускает поиск, разбор и т.п. операции в "языконезависимом" виде.
Только не забыть XML-заголовок исправить (charset)...
Отв: 5077 сомнений.
Естественно нет. Для немецкой или скажем польской книги кодировка cp1251 некорректна. Поэтому и лучше один стандартный utf8.
Но книги с неправильной кодировкой ( скажем немецкие в cp1251, с вопросиками вместо умляутов ) придется вычитывать и править вручную. Скрипт тут все равно не спасет.
Отв: 5077 сомнений.
Там вопрос про преобразование в юникод был. Т.е. исходные "умляуты" уже убиты.
Отв: 5077 сомнений.
Вот только теперь понял, что Вы правы. Я-то думал (почему-то) что Либрусек хранит fb2-файлы с названиями как они были залиты, и выдает их так же. Ан нет:
Скачался зип Stokou_Korovyi.119533.fb2.zip в нем внутре - Mettyu_Stokou_Korovyi.fb2 А заливался файл и вовсе такой: stokou_myettyu_korovy.FROM_ALD36163.NOT_ON_LIBRUSEC.fb2
Получается, Либрусеку пофиг как обзываются заливаемые fb2-файлы. И в схеме предзаливочной обработки шаг "fb2-renaming" - лишний. Разве что из эстетических соображений ренейминг делать.
Отв: 5077 сомнений.
Совершенно верно. Я давно перестала заморачиваться и, поскольку заливаю ручками, обзываю их попроще - по-русски кириллицей. Всё равно при скачке они переименовываются. Или даже при закачке.
Потому что после заливки появляется сообщение "книга добавлена" и рядом стоит имя файла - транскрипция из дескрипшена.
Отв: 5077 сомнений.
Я не могу ручками, шибко много... и кириллицы у меня нет...
В принципе, то, что Либрусек берет ренейминг на себя - логика здравая. Заливщикам доверься, они такого назаливают... в кириллице... ;) а потом при скачивании начнется - та система не поддерживает то, эта не поддерживает это...
Жалко только что ренейминг по неудачной схеме сделан - Imya_Familiya_Nazvanie, вместо Familiya_Imya_Nazvanie, я вот собственно именно этот момент хотел обойти. Ну нет так нет, одним шагом обработки меньше...
Отв: 5077 сомнений.
1. Конвертировать ли в UTF-8 те книги, которые сейчас в другой кодировке?
А зачем? Вот из UTF-8 в другую - ненадо, могут потерятся ударения и т.п. А если книга лежит в Russian ANSI (1251), то конвертация в UTF-8 ничего, кроме увеличения размера в два раза не даст.
2. Писать ли в history, и если писать, то что?
Конвертирование точно писать не надо :)
3. Прошу прокомментировать предполагаемый порядок предзаливочной обработки, может я чего упустил.
Да вроде правильно все...
4. Самый кривой вопрос... как, черт побери, формируются зипы, которые на http://lib.rus.ec/allbooks и http://lib.rus.ec/all/daily/ ? Я имею в виду... скажем, если книгу из Либрусека удалили или заменили на лучший вариант, в зипах ведь она всё равно остаётся, зипы ведь не переформировываются заново?
Очень просто - добавлением. Старые "кривые" книги никуда не деваются и по прежнему лежат в архивах.
Отв: 5077 сомнений.
В одном из холиваров по поводу кодировки Ларин сказал, что предпочтительнее utf-8 и что проблем с размещением файлов, бОльших по размеру, нет.
С тех пор я стараюсь не забывать перекодировать все книШки, которые проходят через мои руки, в utf-8. ;)
Отв: 5077 сомнений.
Да проблем то нет. Но зачем я не понимаю. Любая читалка читает и то и то. Просто для единообразия?
Отв: 5077 сомнений.
Не знаю. Знаю только, что немецкие книги корректно изображаются только в utf-8. Может, речь идёт о специальных знаках?
Честно говоря, не владею до конца этим вопросом. Просто приняла во внимание мнение сведущих. ;)
Отв: 5077 сомнений.
Есть подозрение, что пересохранение в утф не спасет данные знаки в книгах, если они уже были сохранены в другой кодировке и благополучно похерились.
Имхо, только для вновь создаваемых книг во избежание появления кракозябров и вопросиков в тексте, утф полезен.
Отв: 5077 сомнений.
Есть подозрения, что подобные книги вряд ли кто-нибудь будет сохранять в CP1251 или KOI8-R. А зная исходную кодировку перекодировать в UTF8 очень просто.
Отв: 5077 сомнений.
Книги с ударениями, французским текстом и т.п. итак лежат в UTF-8. А вот если книга не содержит спец символов, а просто содержит русский текст, то конвертация бесполезна. Других преимуществ, кроме поддержки дополнительных символов, у UTF-8 нет. А если книга содержала спец символы, которые убились при конвертации в 1251 к примеру, то обратная конвертация скриптом эти символы не восстановит. А вручную конвертировать около 3к+ книг дураков нет.
Отв: 5077 сомнений.
уже отвечал ранее в ветке про utf-8, повторюсь
при грамотной конверсии в utf-8 можно различать тире и длинное тире, угловые кавычки, неразрывные пробелы, символы ударения (хотя последнее, конечно, спорно, кажется никто из читалок его не умеет различать). Ну и если есть, скажем, сноски на французском, как в "Войне и мире", при последующей вычитке можно поставить корректные буквы с диакритикой.
Отв: 5077 сомнений.
Все это различаяет и Russian ANSI(кроме ударений). Однако, если в исходнике этого нет, от "грамотной" конвертации оно не появится. Или вы подразумеваете ручную правку 3к+ книг?
Отв: 5077 сомнений.
Может быть это вас удивит, но xml (а значит и fb2) поддерживает юникод в полном объеме независимо от кодировки. Можно сохранить юникодный текст в любой кодировке и потом снова преобразовать его в юникод - никакой разницы не будет. Если разница есть - это проблема софта, который некорректно работает с xml документами.
Отв: 5077 сомнений.
Блин. Я уже в третий раз пытаюсь обьяснить, что если книга уже некорректно преобразована в Russian ANSI, то преобразование(хоть двести раз корректное) ничего не даст, кроме увеличения размера, следовательно не имеет смысла. Вместо значков будут вопросики - "?" Я понятно выражаюсь?
Отв: 5077 сомнений.
Ага. А кто-то спорит?
Отв: 5077 сомнений.
ОК, понял, спасибо.
Отв: 5077 сомнений.
Деёфикация, Декавычкизация, Детирезация - а как иначе-то сравнивать?
А вот по поводу FB2Fix... В идеале хорошо бы залить сначала без него, внести в файлы ссылки на предыдущие версии, а потом уже с ним. Потому как после автоматических скриптов вычитывать труднее, чем если в файле только ошибки ОСR.
Отв: 5077 сомнений.
(завистливо) Вам хорошо, а я это вот только сейчас понял.
А вот про это можно подробнее? Насколько могу вспомнить, на FB2Fix вроде бы не жаловались.
Отв: 5077 сомнений.
Я, к сожалению, не пользуюсь скриптами и не ориентируюсь в том какие именно из них гадят тексты. А поскольку скрипты никакой подписи после своей работы не оставляют, то приходится подозревать все. :-) Если вы уверены в том что FB2Fix работает идеально, то можете заливать так. Но даже сам автор такой гарантии не даёт.
Отв: 5077 сомнений.
Отв: 5077 сомнений.
От деёфикации видимо никуда не уйти, а все остальные нестандартные знаки я бы предложил в процедуре сравнения просто не учитывать. Оставить только буквы и цифры, перевести их в верхний регистр и так сравнивать.
Отв: 5077 сомнений.
Так. Применил Деёфикацию, Декавычкизацию и Детирезацию, пересчитал - список сократился до 4631.
Но.
"История болезни или Игры, которые играют в людей" и "История болезни, или игры, которые играют в людей" по-прежнему считаются разными книгами. Тогда я озверел и пошел по Вашему пути: применил Дезапятизацию и вообще всеобщую Дезнакизацию. То бишь, прибил нафиг все, кроме букв и цифр (там пришлось поплясать вокруг некоторых украинских и беларусских букв, но вроде прошло).
Новое магическое число - 4511. От него и буду плясать.
Отв: 5077 сомнений.
Вот черт... Гоняя FB2Fix, случайно обнаружил, что она не всегда приподнимает версию, хотя в опциях стоит /incversion+ :(( Придется своими скриптами доделывать...
Отв: 5077 сомнений.
...и в директории "Good"
Отв: 5077 сомнений.
Так. Процесс подготовки первой очереди закончен. В процессе обнаружилось ещё два внутренних дубля, так что магическое число теперь - 4509. Залито на пробу 500 штук. Процесс идет удовлетворительно, на 500 книг - всего с полдюжины дублей оказалось. Остальные четыре тысячи - завтра.
Отв: 5077 сомнений.
Кстати, а можно попросить, чтобы версия приподнималась на 0.001, а не на 0,01? Просто прогоняя весь либрусек через FB2Fix из заливая поверх литрес\альд в своей библиотеке, получил удобный признак "невалидности" книг - версию 1.01.
Отв: 5077 сомнений.
Ччерт... поздно, извини. Но эти 4509 можно легко отличить - у них у всех в custom-info есть либо "From collection Aldebaran36163" либо "From collection Litres4415".
А на последующие очереди заливки сделаю 0.001
Отв: 5077 сомнений.
Жаль :( А то, что у них в дескрипшене чего-то там есть это конечно хорошо, но мне бесполезно - FBLibrarian дескрипшен показывает после пары кликов, а не рядом с названием книги, как версию файла. В принципе ориентироваться все-равно смогу по аннотациям и обложкам, так что это не критично.
Если будет время, не мог бы ты написать скрипт, чтобы разделял русские\иностранные книги, ориентируясь по тегу ru? Когда выкачиваю новые поступления из librusec\all приходится сперва добавлять все кучей, а потом ручками тереть иностранцев. Оччень неудобно, да и база fdb после удаления не уменьшается в размере, приходится ее дополнительно перепаковывать.
Отв: 5077 сомнений.
То бишь, по тегу title-info -> lang ? Можно. В каком виде результат нужен?
Отв: 5077 сомнений.
Угу. Желательно в таком: русские в одну папку, иностранцы в другую(или удаляются сразу).
Отв: 5077 сомнений.
Понял, можно сделать без проблем. У тебя есть (или сможешь инсталлировать) на машине Перл? Если да, сможешь перловый скрипт запускать, он только из командной строки работает, естественно?
Отв: 5077 сомнений.
Погуглил немного и нашел. Да, скачать\установить - дело 10 минут.
Отв: 5077 сомнений.
ОК. (и кинулся чистить сорсы от мусора, дабы не позориться)
Отв: 5077 сомнений.
Сделал скрипт, прикрепил его к первому посту, файл kop-fb2-split-copy-by-lang.pl_.txt
Как работает: в командной строке ему надо указать директорий откуда брать fb2-файлы (в zip-ы лазить пока не умею, сори). Потом скрипт в текушем директории создает поддиректории "lang-ru" и "lang-other". В них он копирует исходные fb2-файлы, на русском (тег title-info -> lang "ru") в поддиректорий "lang-ru", остальные - в поддиректорий "lang-other".
Если запустить без параметров, он скажет короткую справку.
Для работы ему нужен естественно сам Perl, и вот ети модули Perl-а:
Cwd;
Encode;
File::Find;
File::Copy;
Time::HiRes
В принципе ети модули должны входить в стандартную инсталляцию Перла, но если каких-то из них не хватает, то можно переделать скрипт так, чтобы обходиться без них.
Запуск интерпретатора (командной строки) в Windows: Start Menu -> Run -> cmd.exe
Пример командной строки:
F:\test>C:\Perl\bin\Perl.exe F:\perlscripts\kop-fb2-split-copy-by-lang.pl F:\tt-fb2
Где:
F:\test - текущий директорий, здесь создаются поддиректории "lang-ru" и "lang-other" и в них копируются исходные файлы
C:\Perl\bin\Perl.exe - местонахождение самого Перла
F:\perlscripts\kop-fb2-split-copy-by-lang.pl - местонахождение скрипта
F:\tt-fb2 - директорий, откуда брать исходные fb2-файлы. Никаких изменений в этой директории не делается, оттуда только чтение. Файлы берутся рекурсивно, т.е. включая поддиректории. По маске "*.fb2", т.е. возьмутся все файлы с расширением .fb2, остальные проигнорируются.
Вроде все...
Отв: 5077 сомнений.
Спасибо! И отдельное спасибо за офигенный хелп . Я бы разобрался и так(имею горький опыт работы с fb2fix), но я уверен, скрипт будет полезен не только мне, так что хелп дело нужное.
Отв: 5077 сомнений.
Пожалуйста, конечно, но вообще-то не говори "Гоп" пока не проедешь Чоп... :)) Это я в том смысле, что ещё не факт, что оно заработает. Я в Перле плохо шурупаю, а в Перле для Windows и того хуже. Но будем, конечно, надеяться. Тестовые прогоны на моем винбоксе прошли ОК. Там стоит какой-то "Active Perl", версию навскидкку не помню.
Кстати, и тебе спасибо - делая этот скрипт, я отловил в одной из сабрутинок баг, который меня мучал как блоха кошку.
И ещё кстати - если будут нужны ещё какие-нибудь подобного типа скриптики - я готов.
Отв: 5077 сомнений.
Заметки для отметки:
De_Berzherak_Sirano_Inoj_svet_ili_Gosudarstva_i_imperii_Luny.fb2 непонятный жанр love_sf
De_Vita_Sheron_(Lyubovnyj_roman)_Neozhidannoe_schaste.fb2непонятный жанр love_sf
Dubchak_Anna_(Rasskazy)_Mariya_Petrovna.fb2непонятный жанр love_sfнепонятный жанр management
inflating: ocr/pkn/Fillips_E_(Zagadki_drevnih_civilizacij)_Mongoly_Osnovateli_imperii_Velikih_hanov.fb2
Наменование: Зимний излом. Том 2. Яд минувшего. Ч.1
Версия не лучше: Зимний излом. Том 2. Яд минувшего 1.1:1.01
inflating: ocr/pkn/Kataev_Valentin_(Rasskazy_Feletony)_Emelyan_Chernozemnyj.fb2непонятный жанр love_sfнепонятный жанр managementнепонятный жанр love_sfнепонятный жанр love_sfнепонятный жанр love_sfнепонятный жанр love_sfнепонятный жанр popular_business
Не найден файл ocr/pkn/Kartlend_Barbara_Tajna_gornoj_doliny.fb2. Беда...
Не найден файл ocr/pkn/Kartlend_Barbara_Tancuya_na_raduge.fb2. Беда...
Не найден файл ocr/pkn/Kasarego_Martin_Menya_ne_kupish.fb2. Беда...
Не найден файл ocr/pkn/Kassil_Lev_(Disko).fb2. Беда...
Не найден файл ocr/pkn/Kassil_Lev_(Transbalt).fb2. Беда...
Не найден файл ocr/pkn/Kassil_Lev_Absolyutnyj_sluh.fb2. Беда...
Наменование: Сквозь зеркало и что там увидела Алиса, или Алиса в Зазеркалье (Пер.Н.М. Демуровой)
Версия не лучше: Сквозь зеркало и что там увидела Алиса, или Алиса в Зазеркалье (Пер. Н.М. Демуровой) 1.2:1.01
nflating: ocr/pkn/Kompyuterra_(Kompyuterra-653)_Zhurnal_(Kompyuterra)_N_33_ot_12_sentyabrya_2006_goda.fb2непонятный жанр love_sfнепонятный жанр managementнепонятный жанр love_sfнепонятный жанр love_sfнепонятный жанр love_sfнепонятный жанр love_sfнепонятный жанр popular_business
Наменование: Журнал «Компьютерра» № 10 от 13 марта 2007 года
Проверяем 'Компьютерра'
file:zhurnal_Kompyuterra_Zhurnal_Kompyuterra_N_10_ot_13_marta_2007_goda
Файл zhurnal_Kompyuterra_Zhurnal_Kompyuterra_N_10_ot_13_marta_2007_goda уже есть в базе. Повторы недопустимы.
Отв: 5077 сомнений.
Что за... куда-то делся файл 2020... фтп сбойнул? Впрочем, ну его, завтра докую... спа-атеньки...
Отв: 5077 сомнений.
Пропеарюсь ещё раз: fb2tags.py :)
Умеет:
0. работать везде
1. работать пакетно
2. перекодировать (в т.ч. в транслит по ГОСТу)
3. готовить к переименованию (генерировать командный скрипт)
4. выделять текст без тэгов (для сравнения)
могу добавить деёфикацию, детирезацию
если кто скажет, как делать декавычизацию, сделаю и её.
P.S. деёфикацию, детирезацию и какую-то декавычизацию сделал.
Результат можно посмотреть так:
fb2tags.py -t -m no_Yo,quotes,no_dash TestFile.fb2 > TestFile.txt
Отв: 5077 сомнений.
Спасибо, но Питона у меня на машине нет, да и Перловые скрипты уже заработали.
Отв: 5077 сомнений.
Ссылки на питон (в т.ч. виндовый) есть на той же страничке...
Отв: 5077 сомнений.
Вот упорный... :)) Ну хорошо, тогда так. Вы думаете, что сведение шести перекрывающихся наборов книг в один (размером 40,000), и затем кросс-проверка его на Либрусечий набор (90,000 книг) - это за вчерашний вечер сделано? Я этим занимался несколько недель. На Перле - на языке, который я ненавижу, я вообще все скриптовые языки ненавижу, но с Перлом мне приходится мириться, потому что приобретенные в процессе знания о нём я имею хоть призрачный шанс применить ещё где-то. В процессе мне пришлось написать несколько тысяч строк на Перле. Первый вариант сравнивалки работал (работал бы, если б я ему дал) 300+ часов, а последний - два часа на подготовку хешей, а потом менее 20-ти минут на любое сравнение.
В процессе работы Перл, который я и без того ненавижу, надоел мне хуже горькой редьки, на аббревиатуры fb2 я не могу смотреть без содрогания, а в ночных кошмарах вижу неправильный byte order mark...
И теперь Вы хотите чтобы я все это бросил и принялся изучать ещё и Ваш !@ъ$%^ питон?!
Отв: 5077 сомнений.
В мемориз! "Адназначна"(С)! :)
Я ни в коей мере не пытаюсь навязаться (ну, может, самую малость :) - просто увидел в посте задачу, которую отчасти решает моё поделие (сделанное по желанию местных жителей)...
И Ваше отношение к Перлу я вполне разделяю :)
Да и программка предлагается "как есть" - т.е. в "готовом" виде, а не "для изучения" (могу допилить, если что).
Впрочем, может Питон-то Вам и глянется...
Да и не так уж они и бесполезны, скрипты эти, как мне кажется.
Я вот, по производственной нужде пишу сейчас на паскале (sic! и даже не на турбо/вижуал и не на фри, а на... не скажу каком) и ностальгирую активно :)
Страницы