Вы здесьДоска почета
Опубликовано вс, 12/04/2009 - 02:46 пользователем lankier
Продолжаем исследовать валидность файлов в библиотеке. Три последних архива по 1000 после удаления дублей. Проверка на внутреннюю консистентность. Сообщения об ошибках: not linked image - в файле присутствует изображение на которое нет ссылки в тексте. Соответственно изображение показано не будет. external image - ссылка на внешнее изображение. Не все (ни одна?) читалки умеют загружать внешние изображения. bad internal link - внутренняя ссылка, которая никуда не ведет. Есть href="#foo", но нет тега с соответствующим id. bad external link - неправильная внешняя ссылка. Правильная должна начинаться с "http:", "https:", "ftp:", "mailto:". Чисто теоретически возможны другие протоколы (например gopher), но они не проверяются. external note - внешняя сноска. empty link - пустая ссылка. очень много ошибок - ошибок слишком много. Чтобы не мусорить в эфире они не показаны. 137573-138420.zip Хэнкок - Следы богов bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/ (исправлено) 138421-139848.zip Фронтин - Стратегеммы. Военные хитрости очень много ошибок 139850-140188.zip Диккенс - Посмертные записки Пиквикского клуба bad internal link: #undefined (исправлено)
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Belomor.canal RE:Подайте бедному копеечку на книжку с литреса... 20 часов
laurentina1 RE:Ирина Александровна Велембовская - Немцы 1 день Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 дня Саша из Киева RE:Избранное 1 неделя Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя blahblahblah2024 RE:Беженцы с Флибусты 1 неделя sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 2 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 4 недели Oleg V.Cat RE:B343695 Александр. Книга 1 4 недели Isais RE:Калибрятина/Самиздатина 1 месяц md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах
андрей169 про Шалашов: Господин следователь 1 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
29 11 Забавная книга. Мне лично зашло хорошо. С продолжением обязательно ознакомлюсь. Оценка: хорошо
udrees про Баковец: Не тот господин 3 (Порно, ЛитРПГ, Самиздат, сетевая литература)
29 11 Книга строго для отдыха мозгов, тем кому нравится читать про влажные подростковые фантазии про гарем, воплощенные в реальность, и сексуальные подвиги, перемешанные с фэнтези. Герой настолько крут, что особо не заморачивается ……… Оценка: неплохо
udrees про Михайлов: Без пощады. Книга 3 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
29 11 Последняя книга из серии, но не последняя книга про месть киборга Вертинского. Написано в том же стиле, что и предыдущие книги. Описание во многом уделено экшену, поэтому всегда держит в тонусе, сражения, драки, убийства и ……… Оценка: отлично!
lukmak про Сочинения Иосифа Бродского в 7 томах
29 11 Бродский - гений. А кто его не понимает - что ж... Он непрост. Но, ребята, если вы его не понимаете - может, это ваша проблема?.. И пиндосы тут ни при чём.
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично!
decim про Осне Сейерстад
25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ………
tvv про Кич: Большой дом [СИ] (Ужасы, Мистика, Фанфик, Юмористическое фэнтези)
24 11 Совершенно замечательное "Оккультное Простоквашино".
decim про Галинакс: Женщина-рыцарь. Самые необычные истории Средневековья (Исторические приключения, История)
24 11 А вот это уже лучше. Подлинник на сей раз не знаю, а компиляция - явно автор чем-то вдохновлялся, но не ссылается на - получилась годная, и хорошо подобраны иллюстрации. Неплохо. Оценка: неплохо |
Комментарии
Отв: Доска почета
Если файлов не так много как ты пишешь то пожалуйста просто поправь а не разводи полемику :)
Отв: Доска почета
Это только три последних архива.
Отв: Доска почета
Исправлены:
Правдин - Море ясности
Гальего - Я сижу на берегу
Хэнкок - Следы богов
Иванов - Тайны гибели цивилизаций
Отв: Доска почета
Стерхов Андрей - Быть драконом 2 ушла в архив.
Отв: Доска почета
Исправлено:
Форсайт - Мститель
Отв: Доска почета
Заменил Лем - "Мгновение" на новую книжку с Литреса http://lib.rus.ec/b/144772.
Отв: Доска почета
Исправлено:
Волошин - Произведения 1925-1929 годов
Диккенс - Посмертные записки Пиквикского клуба
Отв: Доска почета
Прорез поправлю
Отв: Доска почета
Прорез - Спуск клинка - при замене выдает "В FB2 не найдено название книги. Такой FB2 нам не нужен". Название, разумеется, есть. Глюк
Прорез - Американский танто: феномен популярности - Поправил
Отв: Доска почета
Следующие пять архивов.
126783-129609.zip
Пратчетт - Правда bad internal link: #back_f_5
Талбот - Голографическая Вселенная not linked image: image017.jpg
Шварц - Дракон очень много ошибок
Шварц - Обыкновенное чудо очень много ошибок
Монтгомери - Энн в Инглсайде not linked image: _9.png
Ryman - Lust Or No Harm Done bad internal link: #F:\PDABooksAZ\tli.it
Горалик - Полая женщина. Мир Барби изнутри и снаружи not linked image: image007.jpg
Климов - Князь мира сего not linked image: cover_1992.jpg, not linked image: cover_1995.jpg, not linked image: cover_2004_2.jpg
Арестова - Последняя улика not linked image: Poslul02.png
МИРОНОВ - СТАТТЬИ, ВЫСТУПЛЕНИЯ очень много ошибок
Анчаров - Козу продам bad internal link: #pic_1.png
Pitman - A Chinese Wonder Book очень много ошибок
Руднев - Прочь от реальности: Исследования по философии текста bad internal link: #table01.png, bad internal link: #table02.png
129610-131221.zip
Довлатов - Соло на IBM not linked image: cover_2008.jpg
Каганов - Чёрная кровь Трансильвании bad internal link: #mailto: , bad internal link: #RemLinkWeb_1
AGA Rules Committee - Official AGA Rules of Go bad internal link: #http://www-2.cs.cmu.edu/~wjh/go/rules/AGA.html
Алехин - Ночное ограбление bad internal link: #AutBody_0anchor-1, bad internal link: #AutBody_0anchor-2, bad internal link: #AutBody_0anchor-3
Сикибу - Повесть о Гэндзи (Гэндзи-моногатари) bad internal link: #, external note: file://\\], bad internal link: #
Галина - Бард bad internal link: #mailto:г.@the-ebook.org
Шаляпин - Страницы из моей жизни. очень много ошибок
Miéville - Blizna bad internal link: #F:\fewidoczny
Архангельский - Тайм-драйв. Как успевать жить и работать очень много ошибок
Ерпылев - Расколотые небеса bad internal link: #_ftnref26
Фабри - Основы зоопсихологии очень много ошибок
Ионина - 100 великих картин (с репродукциями) not linked image: _53.jpg_0
Шаляпин - Маска и душа очень много ошибок
Перемолотов - Тень воина bad internal link: #undefined
None - Сатанаил not linked image: _2.jpg
Паулк - Модель зрелости процессов разработки программного обеспечения bad internal link: #http://www.ryabikin.com/
Ашкенази - 70 и еще 5 лет в строю. Книги. Наука и техника bad internal link: #http://n-t.ru/ri/as/70_p00.jpg
Saramago - O homem duplicado bad internal link: #_ftnref1
Heinlein - A Stranger in a Strange Land bad internal link: #11D277, bad internal link: #11D282, bad internal link: #11D28D, bad internal link: #11D298
Ситчин - Боги Армагеддона. Иногда они возвращаются… bad internal link: #sclex
Холдеман - Мост к разуму external image: cover.jpg, not linked image: cover.jpg
Рат-Вег - История человеческой глупости bad internal link: #fbw_updater
Завтра - Газета Завтра 210 (49 1997) bad internal link: #http://zavtra.ru/cgi//veil//data/zavtra/97/210/72letter.html
131222-131486.zip
None - В защиту науки (Бюллетень 1) очень много ошибок
131487-132658.zip
Латынина - 200 км танков. О российско-грузинской войне bad internal link: #http://www.yakochurov.ru, bad internal link: #http://www.aeronautics.ru, bad internal link: #http://www.newstube.ru/
БЕЛКОВСКИЙ - Апология Авена очень много ошибок
Сарамаго - Слепота external note: file:///C:/Program%20Files/Fiction%20Book%20Editor/note_1, external note: file:///C:/Program%20Files/Fiction%20Book%20Editor/note_2
Shaogong - A Dictionary of Maqiao bad internal link: #sticky
Веллер - Гражданская история безумной войны not linked image: pic_2.jpg
Современник - Журнал Наш Современник 2007 #7 очень много ошибок
Современник - Журнал Наш Современник 2008 #8 очень много ошибок
Гарифзянов Панова_ - Откровения Ангелов Хранителей _ 1_Начало bad internal link: #C:\OMKHU
Гарифзянов Панова - Откровения Ангелов Хранителей _ 10_Пирамиды-Космодром Инопланетян очень много ошибок
Гарифзянов Панова - Откровения Ангелов-Хранителей_8_Неизлечимых болезней нет. bad internal link: #_ftn1, bad internal link: #_ftnref1
Правдина - Я исполняю желания bad internal link: #_ftn1, bad internal link: #_ftn2, bad internal link: #_ftnref1, bad internal link: #_ftnref2
Раманантата - Упражнения йоги для глаз очень много ошибок
Татищев - «Возрождение ведической культуры» очень много ошибок
Татищев Б.Ю. - Советы Волхва очень много ошибок
Татищев Б.Ю. - Гиперборейское учение очень много ошибок
Данилов - Гражданская война в Испании (1936 – 1939). очень много ошибок
Даштенц - Зов пахарей очень много ошибок
Мориц - Букет котов очень много ошибок
Моисеев - Как я был «южнокорейским шпионом» очень много ошибок
Мориц - И в чёрных списках мне светло очень много ошибок
Мориц - Лицо очень много ошибок
Степанов - Число и культура очень много ошибок
Дольник - Непослушное дитя биосферы. Беседа третья и четвертая not linked image: dolnikcover.jpg, not linked image: doc2fb_image_02000001.jpg, not linked image: doc2fb_image_02000032.jpg
Andreasson - Iptables Tutorial 1.2.2 очень много ошибок
None - Журнал "Компьютерра" N760 очень много ошибок
Бурже - Ученик not linked image: unused_pic_3.png, not linked image: unused_pic_4.png, not linked image: unused__1.jpg
Сяолун - Закон триады bad internal link: #_ftn4, bad internal link: #_ftn5, bad internal link: #_ftn6
Meyer - Twilight bad external link: file:///C:/Program%20Files/Program%20FilesABC%20Amber%20Text%20Converterfansofrealitytv.com
Meyer - New Moon not linked image: Front.jpg
Ван Вогт - ФАТА-МОРГАНА 2 (Фантастические рассказы и повести) bad internal link: #_ftn1, bad internal link: #_ftn2, bad internal link: #_ftnref1, bad internal link: #_ftnref2
Завтра - Газета Завтра 212 (51 1997) очень много ошибок
132659-133498.zip
Олдисс - ФАТА-МОРГАНА 8 (Фантастические рассказы и повести) not linked image: _.jpg_0
Равалек - Ностальгия по черной магии not linked image: pic_2.jpg, not linked image: pic_3.jpg
Маковельский - История логики external image: [FIXME]
Лем - Операция "Вечность" (сборник) not linked image: unused_pic_1.png
Пол - Операция «Венера» ( Торговцы космосом) bad internal link: #http://fantlab.ru/work99072
Комацу - Продается Япония (сборник) очень много ошибок
Гамалей - Мой первый видеофильм от А до Я bad internal link: #n_1
Лермонтов - Полное собрание стихотворений очень много ошибок
Ющук - Блог. Создать и раскрутить очень много ошибок
Балаж - Космический госпиталь (сборник) bad internal link: #n_8, not linked image: unused_cover.png, not linked image: unused_i_002.jpg
Моррисон - Пиршество демонов not linked image: pic_1.png
Калюжный - Другая история литературы bad internal link: #undefined
Русанов - Ворлок из Гардарики очень много ошибок
Косидовский - Когда Солнце было богом очень много ошибок
Кузнецов - Кембрийский период (Часть 1 — полностью, часть 2 — главы 1–5) bad internal link: #mailto:
Отв: Доска почета
Лермонтов - Полное собрание стихотворений - файл с литреса:
* Schema validation *
Schemas validity ERROR: <string>:2742:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
ERROR: bad internal link: #n_2
ERROR: bad internal link: #n_3
ERROR: bad internal link: #n_4
ERROR: bad internal link: #n_5
ERROR: bad internal link: #n_6
ERROR: bad internal link: #n_7
ERROR: bad internal link: #n_8
ERROR: bad internal link: #n_9
ERROR: bad internal link: #n_10
ERROR: bad internal link: #n_11
ERROR: bad internal link: #n_12
ERROR: bad internal link: #n_13
ERROR: bad internal link: #n_14
ERROR: bad internal link: #n_15
ERROR: bad internal link: #n_16
ERROR: bad internal link: #n_17
ERROR: bad internal link: #n_18
Отв: Доска почета
И еще три файла с литреса:
Ющук - Блог. Создать и раскрутить
* Extra FB2 checkup *
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/ru.wikipedia.org/wiki/
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/humour.sysadminday.com.ru/read.phtml
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/pc-terms.com.ru/ru3.html
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/zcom.skyfamily.ru/st21.htm
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/27194.pbnet.ru/base/view/news/1097887076/9252/full
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/kag.sc.ru/teoria/slovar_virtualnogo_pilota.html
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/googlerussiablog.blogspot.com/2006/09/blog-post_18.html
Русанов - Ворлок из Гардарики
* Schema validation *
Schemas validity ERROR: <string>:3977:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
ERROR: bad internal link: #n_2
ERROR: bad internal link: #n_3
[и т.д.]
ERROR: bad internal link: #n_163
ERROR: bad internal link: #n_164
ERROR: bad internal link: #n_165
Гамалей - Мой первый видеофильм от А до Я
* Schema validation *
Schemas validity ERROR: <string>:1830:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
Похоже это война с ветряными мельницами.
Отв: Доска почета
Если бы прикрутить такую проверку при загрузке новых файлов, это не было бы так похоже на войну с ветряными мельницами. А, вообще, это технически возможно?
Отв: Доска почета
Я на(пере)писал этот скрипт на php, и Ларин вроде даже заинтересовался. Посмотрим.
Но тут еще вопрос: делать ли эту проверку обязательной - все файлы не прошедшие проверку отвергаются. Или как рекомендацию - выводить лог проверки, но файл принимать (возможно с занесением в базу данных статуса проверки). Мне (естественно :) больше нравится первый вариант.
Отв: Доска почета
Думаю что из за некорректно оформленной внешней ссылки, нестоит отвергать потенциально уникальный файл.
Все равно от книжек-недоделок, сляпаных коекакерами в букдизайнере, это не спасет - они абсолютно валидны.
Отв: Доска почета
Добросовестный человек, увидев сообщение об ошибке, быстренько её поправит и перезальет по новой. Это даже хорошо - для добросовестного. А те кто тяп-ляп - забьют, и это тоже хорошо - для библиотеки.
Отв: Доска почета
Ну дык кто спорит?
В библиотеке 44 тысячи книг, сделанных тяп-ляп. Она большая, стерпит. Повторяю - невалидность далеко не самая большая проблемма библиотеки. Файл с лишней картинкой, больше на 30 кб, невалиден с точки зрения скрипта, но читать его это не мешает. А файл в котором к примеру отсутствуют сноски, от этого не становится менее валидным, однако ж читать его порой затруднительно.
Отв: Доска почета
Кстати, тут вот такая мысль пришла. Пройти валидатором по всем fb2 файлам в библиотеке и все невалидные[*] файлы пометить в базе данных как невалидные. И дальше с ними ничего не делать. Не преобразовывать в другие форматы, не синхронизировать и т.п. Скачивайте как есть.
[*] Невалидные - те, кто не парсятся xml-парсером, на соответствие схеме можно пока не обращать внимание.
Отв: Доска почета
Ммм, а такие есть? Если книшка совсем не парсится, откуда библиотека возьмет о ней данные для занесения в базу?
А если ты про rusec-файлы, то я только за. Меньше будет вопросов из серии "Текст обрывается на середине!". Кстати обрывается он похоже исключительно из за знаков <>.
Отв: Доска почета
sax-парсер парсит последовательно и может обработать description до того как обломится.
Ага, именно. Таких файлов 5-6%. Но там не только librusec-kit.
Для dom-парсера могут быть критичны и другие ошибки. Видел ошибку с namespaces: в теге FictionBook указано xmlns:xlink="http://www.w3.org/1999/xlink", а используется l:href="..." (точнее там использовалось и l:href и xlink:href)
Отв: Доска почета
Я тут выступаю не защитником интересов читателей, а адвокатом движка библиотеки. Если бы все файлы в библиотеке были валидными - меньше было бы технических проблем. Например, можно было бы парсить файлы dom-парсером и синхронизировать базу данных и fb2 файл. (Если бы да кабы...)
А уникальный контент в любом случае лучше заливать как есть - больше информации сохранится.
Отв: Доска почета
Это смотря что за контент, что за формат и т.д.
Ну библиотека все-таки не "вещь в себе", а как бы для читателей...
*Мечтательно* Здорово бы было...
*Трезвея* Учитывая как "аккуратно" и "корректно" либрусек конвертирует fb2 в txt... Лучше наверное не надо. А то останется от того fb2 страниц 10, а потом будем локти кусать, кто виноват, да что делать...
Отв: Доска почета
Поэтому я и говорю про дом-парсер. Там код будет очень простой, не такой как в parser.inc, где используется sax.
К примеру, вот код получения фамилий авторов:
$xpath = new DOMXpath($dom);
$xpath->registerNamespace("m", "http://www.gribuser.ru/xml/fictionbook/2.0");
$elements = $xpath->query("/m:FictionBook/m:description/m:title-info/m:author/m:last-name");
foreach ($elements as $element) {
print "$element->nodeName: $element->nodeValue\n";
}
(Куда-то я не в ту степь ушел... Ну да ладно :)
Отв: Доска почета
Ну и мне, естественно, тоже. :))
Но, видимо, все же разумней - второй, с автоматической пометкой по результатом проверки. Я не очень наглею в своих пожеланиях и надеждах? Просто меня потряс результат первой проверки - при постоянном исправлении книг - примерно 1% улучшения. Ужас кошмарный, триллерно-апокаплиптический.
Отв: Доска почета
Много книг... и мало активных юзеров.
Отв: Доска почета
В списках были книжки Шварца - Дракон и Обыкновенное чудо - с диагнозом "много ошибок". Может кто найдет еще ошибки, но я обнаружил только прикрепленные к файлу дополнительные 5-7 обложек. Не видные при чтении, ссылок на них нету нигде, поэтому кипешь и возник, как я понимаю. Зачем-то автор файла это сделал. Ну прошелся я FBEем и удалил лишние рисунки. Тоже операция вызывающая сомнение, может лучше было ссылки на них в конце где-то сделать? Но что так уж в файле изменилось? Ничего.
Так что диагностика эта не так уж много говорит о работе над книгами.
Отв: Доска почета
Угу, именно так. В скрипте очень примитивный способ определения "много ошибок" - длина сообщения больше 200 символов.
Имхо надо было оставить и поместить в конец книги.
Отв: Доска почета
Обложки? В конец? Нафига?
Обложка это обложка, а не иллюстрация. Служит для выбора "чего бы прочесть". Отображается на странице книги. :) В конце ей делать совершенно нечего. И она должна быть одна. Имхо ;)
Отв: Доска почета
Почему одна? Я посмотрел, схема fb2 позваляет указывать несколько обложек:
< coverpage>
< image xlink:href="#cover_1.jpg"/>
< image xlink:href="#cover_2.png"/>
< /coverpage>
Отв: Доска почета
По эстетически соображениям.
Представь как оно к примеру будет отображаться в myhomelib или FBLibrarian.
Отв: Доска почета
Я почесал в репе и решил, что ничего ценного в этом множестве обложек нету. Их не требуется собирать, в общем-то, на фантлабе они приводятся во множестве. Например, для того же Шварца:
http://www.fantlab.ru/work120991
Стоит ли их все запихивать в книжку?
Отв: Доска почета
IMHO, не стоит. Я ориентируюсь на год издания отсканированной книги и выбираю нужную обложку. Если выходных данных нет, руководствуюсь собственным вкусом (а то!) и выбираю одну из имеющихся обложек.
Отв: Доска почета
Ух ты, как много. Действительно, лучше одну оставить. (Или сделать две книги "Книга" и "Книга (с обложками)" вместо иллюстраций :))
Отв: Доска почета
Целесообразность мешает. И я писала о разнице в количестве безошибочных файлов при проверке до и после удаления дублей, а не об общем количестве ошибочных. Очень бы хорошо эту проверку все же прикрутить к аплоуду.
Если обложки разные - в конце, если нет - ИМХО, Вы поступили совершенно верно.
Вес.
Прошу прощения, но, по-моему именно что говорит.
Отв: Доска почета
И затормозить и без того нещедрый поток заливок?
Упдате: Я уж не говорю о геморрое, в который превратятся любые пакетные заливки.
Упдате-2: Если бы сервер не был хронически перегружен, то, может быть, имела бы смысл отдельная от заливки функция "валидатор с указанием ошибок". Но увы...
Отв: Доска почета
Ну есть вариант "метить" :)
Сервер сильно грузить не будет, ибо не так часто идут заливки.
Но.
Невалидных книг не так много, ибо FBE громко ругается на ошибки, а букдизайнер сохраняет без лишних вопросов. Валидно.
Проблема увы не в невалидных книгах, а в сляпанных кое-как. Сляпанных букдизайнером, и потому валидных. Любой фильтр их пропустит.
Отв: Доска почета
Bullfear наезжает
а кто ты какой что-бы людям указывать чем их делать?
сделай уроки как делать книги в FBE , и только после этого можеть произносить хоть что-то против букдизайнера, и не отсылай к единствееной книги по созданию fb2
Bullfear обращаю твоё внимание делать книги только в FBE и только в нём
заранее знаю твой ответ, успехов наш холиварщик!
Отв: Доска почета
Научись сперва внятно выражать свои мысли.
Отв: Доска почета
Гм, а чем плохи 2(две) книги с описанием создания fb2 файлов от А до Я(http://lib.rus.ec/a/29957)!? Я могу конечно ошибатся но 90% fb'издателей учились именно на них)))
а букдизайнер хорошая программа, оооочень многие ошибки ПОЛЬЗОВАТЕЛЯ исправляет, но очень уж соплей много остается... ИМХО конечно
Отв: Доска почета
Делая заготовку к книге в BD, нужно прогонять ее через инвестигатор перед сохранением. Иначе букдизайнер легко и непринужденно сохранит и невалидный файл. А на проверенный в инвестигаторе и FBE ругаться не станет.
Если речь только о валидности.
А о проверке... лучше какая-то, чем никакой, нет?
Отв: Доска почета
А точно. Есть у него такой косяк. Давно просто не пользовался, уже подзабыл. Помоему периодически он делает вложенные стихи... Но как правило он просто в меру своего разумения исправляет невалидности. И у него часто это получается. Правда если заглянуть после этого в сорцы, хочется схватиться за голову...
Разумеется :)
Отв: Доска почета
А в чем гемор? Хорошие книги из пакета будут пропущены, для остальных рапорт об ошибках.
Валидация не требует больших ресурсов, и там нет обращений к базе данных.
upd: И там валидацию можно объединить с регистрацией. Т.е. тот dom, который мы получили в результате валидации, затем используем в регистрации книги в db и т.д. (Я там выше показал кусок кода)
Отв: Доска почета
Обложки разные, от разных книжек. Вес конечно возрос сильно, так как объем текста, как у одной обложки (обложки были по ~30К). Так что когда их 7...
Однозначного решения нет, можно и восстановить старую версию и сделать правку.
Отв: Доска почета
Подправил:
Арестова - Последняя улика http://lib.rus.ec/b/144824
Анчаров - Козу продам http://lib.rus.ec/b/144823
None - Сатанаил http://lib.rus.ec/b/144825
Отв: Доска почета
Отв: Доска почета
А каким программой проверялась валидность файлов?
Отв: Доска почета
Это самописный скрипт. Использует fb2utils. Там же лежит валидатор на php.
Отв: Доска почета
Два вопроса:
1) Как соотносятся результаты проверки с помощью вашего скрипта с валидатором FBE 2.0. Для цитированной книжки "Современник - Журнал Наш Современник 2001 #3 очень много ошибок" FBE показывает отсутствие ошибок.
2) Как запустить validation.py. Попробовал c:\Python26\python validation.py получил ошибку на line 14. cannot import name Fb2Parser
Отв: Доска почета
Не знаю. У меня линукс и нет FBE. Проверка схемы должна быть одинаковой. Проверяет ли FBE консистентность - не в курсе.
(Кстати, где-то внутри FBE должны лежать файлы схемы. Советую заменить FictionBookGenres.xsd вот этим, чтобы соответствовал списку жанров либрусека.)
Это странно. Там не только нарушение консистентности, но и нарушение схемы. Полный лог проверки.
Там надо запускать fb2validator.py. Что-то типа:
c:\Python26\python \path\to\fb2validator.py files|dirs
. Не обязательно из каталога fb2utils.А вот этого не должно быть в любом случае. Правда я под windows эти скрипты не тестировал, могут быть ошибки. Попробуйте обновиться.
Вообще, если кому-нибудь надо, могу собрать пакет для windows (не будет зависеть от установленного питона). Можно даже примитивное гуи прикрутить, что-то типа: кнопка "открыть файл", а под ней текстовое поле с результатом проверки.
upd: Если будут ошибки - не стесняйтесь сообщать или сюда или на странице googlecode :)
upd2: Забыл сказать о зависимостях. Кроме собственно питона нужен python-lxml и BeautifulSoup (файл BeautifulSoup.py кинуть в подкаталог fb2utils).
Отв: Доска почета
Если это не слишком трудно - сделайте. Дай бог здоровья. :)
Страницы