Вы здесьДоска почета
Опубликовано вс, 12/04/2009 - 02:46 пользователем lankier
Продолжаем исследовать валидность файлов в библиотеке. Три последних архива по 1000 после удаления дублей. Проверка на внутреннюю консистентность. Сообщения об ошибках: not linked image - в файле присутствует изображение на которое нет ссылки в тексте. Соответственно изображение показано не будет. external image - ссылка на внешнее изображение. Не все (ни одна?) читалки умеют загружать внешние изображения. bad internal link - внутренняя ссылка, которая никуда не ведет. Есть href="#foo", но нет тега с соответствующим id. bad external link - неправильная внешняя ссылка. Правильная должна начинаться с "http:", "https:", "ftp:", "mailto:". Чисто теоретически возможны другие протоколы (например gopher), но они не проверяются. external note - внешняя сноска. empty link - пустая ссылка. очень много ошибок - ошибок слишком много. Чтобы не мусорить в эфире они не показаны. 137573-138420.zip Хэнкок - Следы богов bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/, bad internal link: #http://reeed.ru/ (исправлено) 138421-139848.zip Фронтин - Стратегеммы. Военные хитрости очень много ошибок 139850-140188.zip Диккенс - Посмертные записки Пиквикского клуба bad internal link: #undefined (исправлено)
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 1 час
kopak RE:О группе Дятлова. О той самой, того самого... 12 часов Isais RE:Катя Водянова - Дом и два жениха в придачу 1 день Aleks_Sim RE:Прошу переформатировать, распознать, etc... 1 день kopak RE:Таинственная личность админа Флибусты 6 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 неделя Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 неделя Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 2 недели babajga RE:Белая княжна 3 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 3 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 4 недели zlyaka RE:С Новым годом! 4 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц Впечатления о книгах
Aleks_Sim про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 Лысенко Владимир Андреевич" - а что "Азов" это современный украинский мир ? Оценка: отлично!
Лысенко Владимир Андреевич про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 Нечитаемо, как хорошо убивать всех несогласных с русским миром, все наши правильные, а кто думает по другому должны быть убиты, осталось только Аляску захватить. Оценка: нечитаемо
Barbud про Фонд: Баба Люба. Вернуть СССР 4 (СИ) (Попаданцы, Самиздат, сетевая литература, Фантастика)
29 01 Дерьмище редкостной зловонности. Главное, что автор писать умеет, пишет образно, без "картона", коим грешат очень многие кропатели нетленки. Но боже мой, какую же херню он пишет! Первые две части осилил, остальные пролистнул по диагонали, ибо чушь. Оценка: нечитаемо
decim про Р. Дж. Баркер
29 01 Хорошо, а местами и отлично. Было бы совсем отлично, если бы автор не растянул историю на три тома, но это обычное дело.
mysevra про Баркер: Алые песнопения (Ужасы, Триллер, Детективы: прочее)
29 01 Как часть истории «Восставшего» - мило и познавательно. Но зачем такое изобилие обсценной лексики уличного разлива? Для реализьму, так сказать? Так у меня дл вас плохие новости, мои маленькие друзья, это лет 30 назад такое ………
lukyanelena про Гремучий ручей
29 01 Хотите серию про вампиров? Пожалуйста! Только забудьте про романтичные истории с загадочными красавцами и красавицами. Будет больно, будет страшно, будет неприятно, но я скорее поверю в таких тварей, чем в слащавых вампирчиков.
Лысенко Владимир Андреевич про Земляной: Игровой практикум [СИ] (Боевая фантастика, Фэнтези, ЛитРПГ)
29 01 Книга понравилась, читается легко, жду продолжения. Оценка: отлично!
Nicout про Сушков: "Ленинградское дело": генеральная чистка колыбели революции (Документальная литература)
29 01 Говорите, во время блокады Ленинграда руководство города голодало, как и остальные жители, а все рассказы про пирожные, колбасу и икру для коммуняк - вранье и клевета? Ну так прочтите что из себя представляли питерские деятели, ……… Оценка: отлично!
Синявский про Николай Егорович Дронников
28 01 На 95-м году жизни скончался Николай Дронников - советский и французский художник, график, скульптор, прозаик и издатель авторских книг, "летописец русской эмиграции".
ve51 про Чейз: Плоть орхидеи [The Flesh of the Orchid ru] (Крутой детектив)
27 01 Книга не входит в цикл "Дэйв Фэннер
Skyns71 про Гузман: Тропой священного козерога, или В поисках абсолютного центра (Современная проза, Биографии и Мемуары)
27 01 Господи... Жизнеописание наркомана.
sigor2000 про Бакман: Вторая жизнь Уве [En Man Som Heter Ove ru] (Современная проза)
27 01 Книга просто шикарна. По моему мнению в книге нет повесточки. Персонажи геи, мигранты это по факту то, что осталось от Швеции. Вместе со смерьтю ГГ умерла и та Швеция, которую мы знали, вот о чем пишет автор. Самое смешное, ……… Оценка: отлично! |
Комментарии
Отв: Доска почета
Если файлов не так много как ты пишешь то пожалуйста просто поправь а не разводи полемику :)
Отв: Доска почета
Это только три последних архива.
Отв: Доска почета
Исправлены:
Правдин - Море ясности
Гальего - Я сижу на берегу
Хэнкок - Следы богов
Иванов - Тайны гибели цивилизаций
Отв: Доска почета
Стерхов Андрей - Быть драконом 2 ушла в архив.
Отв: Доска почета
Исправлено:
Форсайт - Мститель
Отв: Доска почета
Заменил Лем - "Мгновение" на новую книжку с Литреса http://lib.rus.ec/b/144772.
Отв: Доска почета
Исправлено:
Волошин - Произведения 1925-1929 годов
Диккенс - Посмертные записки Пиквикского клуба
Отв: Доска почета
Прорез поправлю
Отв: Доска почета
Прорез - Спуск клинка - при замене выдает "В FB2 не найдено название книги. Такой FB2 нам не нужен". Название, разумеется, есть. Глюк
Прорез - Американский танто: феномен популярности - Поправил
Отв: Доска почета
Следующие пять архивов.
126783-129609.zip
Пратчетт - Правда bad internal link: #back_f_5
Талбот - Голографическая Вселенная not linked image: image017.jpg
Шварц - Дракон очень много ошибок
Шварц - Обыкновенное чудо очень много ошибок
Монтгомери - Энн в Инглсайде not linked image: _9.png
Ryman - Lust Or No Harm Done bad internal link: #F:\PDABooksAZ\tli.it
Горалик - Полая женщина. Мир Барби изнутри и снаружи not linked image: image007.jpg
Климов - Князь мира сего not linked image: cover_1992.jpg, not linked image: cover_1995.jpg, not linked image: cover_2004_2.jpg
Арестова - Последняя улика not linked image: Poslul02.png
МИРОНОВ - СТАТТЬИ, ВЫСТУПЛЕНИЯ очень много ошибок
Анчаров - Козу продам bad internal link: #pic_1.png
Pitman - A Chinese Wonder Book очень много ошибок
Руднев - Прочь от реальности: Исследования по философии текста bad internal link: #table01.png, bad internal link: #table02.png
129610-131221.zip
Довлатов - Соло на IBM not linked image: cover_2008.jpg
Каганов - Чёрная кровь Трансильвании bad internal link: #mailto: , bad internal link: #RemLinkWeb_1
AGA Rules Committee - Official AGA Rules of Go bad internal link: #http://www-2.cs.cmu.edu/~wjh/go/rules/AGA.html
Алехин - Ночное ограбление bad internal link: #AutBody_0anchor-1, bad internal link: #AutBody_0anchor-2, bad internal link: #AutBody_0anchor-3
Сикибу - Повесть о Гэндзи (Гэндзи-моногатари) bad internal link: #, external note: file://\\], bad internal link: #
Галина - Бард bad internal link: #mailto:г.@the-ebook.org
Шаляпин - Страницы из моей жизни. очень много ошибок
Miéville - Blizna bad internal link: #F:\fewidoczny
Архангельский - Тайм-драйв. Как успевать жить и работать очень много ошибок
Ерпылев - Расколотые небеса bad internal link: #_ftnref26
Фабри - Основы зоопсихологии очень много ошибок
Ионина - 100 великих картин (с репродукциями) not linked image: _53.jpg_0
Шаляпин - Маска и душа очень много ошибок
Перемолотов - Тень воина bad internal link: #undefined
None - Сатанаил not linked image: _2.jpg
Паулк - Модель зрелости процессов разработки программного обеспечения bad internal link: #http://www.ryabikin.com/
Ашкенази - 70 и еще 5 лет в строю. Книги. Наука и техника bad internal link: #http://n-t.ru/ri/as/70_p00.jpg
Saramago - O homem duplicado bad internal link: #_ftnref1
Heinlein - A Stranger in a Strange Land bad internal link: #11D277, bad internal link: #11D282, bad internal link: #11D28D, bad internal link: #11D298
Ситчин - Боги Армагеддона. Иногда они возвращаются… bad internal link: #sclex
Холдеман - Мост к разуму external image: cover.jpg, not linked image: cover.jpg
Рат-Вег - История человеческой глупости bad internal link: #fbw_updater
Завтра - Газета Завтра 210 (49 1997) bad internal link: #http://zavtra.ru/cgi//veil//data/zavtra/97/210/72letter.html
131222-131486.zip
None - В защиту науки (Бюллетень 1) очень много ошибок
131487-132658.zip
Латынина - 200 км танков. О российско-грузинской войне bad internal link: #http://www.yakochurov.ru, bad internal link: #http://www.aeronautics.ru, bad internal link: #http://www.newstube.ru/
БЕЛКОВСКИЙ - Апология Авена очень много ошибок
Сарамаго - Слепота external note: file:///C:/Program%20Files/Fiction%20Book%20Editor/note_1, external note: file:///C:/Program%20Files/Fiction%20Book%20Editor/note_2
Shaogong - A Dictionary of Maqiao bad internal link: #sticky
Веллер - Гражданская история безумной войны not linked image: pic_2.jpg
Современник - Журнал Наш Современник 2007 #7 очень много ошибок
Современник - Журнал Наш Современник 2008 #8 очень много ошибок
Гарифзянов Панова_ - Откровения Ангелов Хранителей _ 1_Начало bad internal link: #C:\OMKHU
Гарифзянов Панова - Откровения Ангелов Хранителей _ 10_Пирамиды-Космодром Инопланетян очень много ошибок
Гарифзянов Панова - Откровения Ангелов-Хранителей_8_Неизлечимых болезней нет. bad internal link: #_ftn1, bad internal link: #_ftnref1
Правдина - Я исполняю желания bad internal link: #_ftn1, bad internal link: #_ftn2, bad internal link: #_ftnref1, bad internal link: #_ftnref2
Раманантата - Упражнения йоги для глаз очень много ошибок
Татищев - «Возрождение ведической культуры» очень много ошибок
Татищев Б.Ю. - Советы Волхва очень много ошибок
Татищев Б.Ю. - Гиперборейское учение очень много ошибок
Данилов - Гражданская война в Испании (1936 – 1939). очень много ошибок
Даштенц - Зов пахарей очень много ошибок
Мориц - Букет котов очень много ошибок
Моисеев - Как я был «южнокорейским шпионом» очень много ошибок
Мориц - И в чёрных списках мне светло очень много ошибок
Мориц - Лицо очень много ошибок
Степанов - Число и культура очень много ошибок
Дольник - Непослушное дитя биосферы. Беседа третья и четвертая not linked image: dolnikcover.jpg, not linked image: doc2fb_image_02000001.jpg, not linked image: doc2fb_image_02000032.jpg
Andreasson - Iptables Tutorial 1.2.2 очень много ошибок
None - Журнал "Компьютерра" N760 очень много ошибок
Бурже - Ученик not linked image: unused_pic_3.png, not linked image: unused_pic_4.png, not linked image: unused__1.jpg
Сяолун - Закон триады bad internal link: #_ftn4, bad internal link: #_ftn5, bad internal link: #_ftn6
Meyer - Twilight bad external link: file:///C:/Program%20Files/Program%20FilesABC%20Amber%20Text%20Converterfansofrealitytv.com
Meyer - New Moon not linked image: Front.jpg
Ван Вогт - ФАТА-МОРГАНА 2 (Фантастические рассказы и повести) bad internal link: #_ftn1, bad internal link: #_ftn2, bad internal link: #_ftnref1, bad internal link: #_ftnref2
Завтра - Газета Завтра 212 (51 1997) очень много ошибок
132659-133498.zip
Олдисс - ФАТА-МОРГАНА 8 (Фантастические рассказы и повести) not linked image: _.jpg_0
Равалек - Ностальгия по черной магии not linked image: pic_2.jpg, not linked image: pic_3.jpg
Маковельский - История логики external image: [FIXME]
Лем - Операция "Вечность" (сборник) not linked image: unused_pic_1.png
Пол - Операция «Венера» ( Торговцы космосом) bad internal link: #http://fantlab.ru/work99072
Комацу - Продается Япония (сборник) очень много ошибок
Гамалей - Мой первый видеофильм от А до Я bad internal link: #n_1
Лермонтов - Полное собрание стихотворений очень много ошибок
Ющук - Блог. Создать и раскрутить очень много ошибок
Балаж - Космический госпиталь (сборник) bad internal link: #n_8, not linked image: unused_cover.png, not linked image: unused_i_002.jpg
Моррисон - Пиршество демонов not linked image: pic_1.png
Калюжный - Другая история литературы bad internal link: #undefined
Русанов - Ворлок из Гардарики очень много ошибок
Косидовский - Когда Солнце было богом очень много ошибок
Кузнецов - Кембрийский период (Часть 1 — полностью, часть 2 — главы 1–5) bad internal link: #mailto:
Отв: Доска почета
Лермонтов - Полное собрание стихотворений - файл с литреса:
* Schema validation *
Schemas validity ERROR: <string>:2742:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
ERROR: bad internal link: #n_2
ERROR: bad internal link: #n_3
ERROR: bad internal link: #n_4
ERROR: bad internal link: #n_5
ERROR: bad internal link: #n_6
ERROR: bad internal link: #n_7
ERROR: bad internal link: #n_8
ERROR: bad internal link: #n_9
ERROR: bad internal link: #n_10
ERROR: bad internal link: #n_11
ERROR: bad internal link: #n_12
ERROR: bad internal link: #n_13
ERROR: bad internal link: #n_14
ERROR: bad internal link: #n_15
ERROR: bad internal link: #n_16
ERROR: bad internal link: #n_17
ERROR: bad internal link: #n_18
Отв: Доска почета
И еще три файла с литреса:
Ющук - Блог. Создать и раскрутить
* Extra FB2 checkup *
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/ru.wikipedia.org/wiki/
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/humour.sysadminday.com.ru/read.phtml
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/pc-terms.com.ru/ru3.html
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/zcom.skyfamily.ru/st21.htm
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/27194.pbnet.ru/base/view/news/1097887076/9252/full
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/kag.sc.ru/teoria/slovar_virtualnogo_pilota.html
ERROR: bad external link: file:///D:/Program%20Files/Fiction%20Book%20Editor/googlerussiablog.blogspot.com/2006/09/blog-post_18.html
Русанов - Ворлок из Гардарики
* Schema validation *
Schemas validity ERROR: <string>:3977:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
ERROR: bad internal link: #n_2
ERROR: bad internal link: #n_3
[и т.д.]
ERROR: bad internal link: #n_163
ERROR: bad internal link: #n_164
ERROR: bad internal link: #n_165
Гамалей - Мой первый видеофильм от А до Я
* Schema validation *
Schemas validity ERROR: <string>:1830:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element '{http://www.gribuser.ru/xml/fictionbook/2.0}body': Missing child element(s). Expected is one of ( {http://www.gribuser.ru/xml/fictionbook/2.0}epigraph, {http://www.gribuser.ru/xml/fictionbook/2.0}section ).
fb2 validity check failed
* Extra FB2 checkup *
ERROR: bad internal link: #n_1
Похоже это война с ветряными мельницами.
Отв: Доска почета
Если бы прикрутить такую проверку при загрузке новых файлов, это не было бы так похоже на войну с ветряными мельницами. А, вообще, это технически возможно?
Отв: Доска почета
Я на(пере)писал этот скрипт на php, и Ларин вроде даже заинтересовался. Посмотрим.
Но тут еще вопрос: делать ли эту проверку обязательной - все файлы не прошедшие проверку отвергаются. Или как рекомендацию - выводить лог проверки, но файл принимать (возможно с занесением в базу данных статуса проверки). Мне (естественно :) больше нравится первый вариант.
Отв: Доска почета
Думаю что из за некорректно оформленной внешней ссылки, нестоит отвергать потенциально уникальный файл.
Все равно от книжек-недоделок, сляпаных коекакерами в букдизайнере, это не спасет - они абсолютно валидны.
Отв: Доска почета
Добросовестный человек, увидев сообщение об ошибке, быстренько её поправит и перезальет по новой. Это даже хорошо - для добросовестного. А те кто тяп-ляп - забьют, и это тоже хорошо - для библиотеки.
Отв: Доска почета
Ну дык кто спорит?
В библиотеке 44 тысячи книг, сделанных тяп-ляп. Она большая, стерпит. Повторяю - невалидность далеко не самая большая проблемма библиотеки. Файл с лишней картинкой, больше на 30 кб, невалиден с точки зрения скрипта, но читать его это не мешает. А файл в котором к примеру отсутствуют сноски, от этого не становится менее валидным, однако ж читать его порой затруднительно.
Отв: Доска почета
Кстати, тут вот такая мысль пришла. Пройти валидатором по всем fb2 файлам в библиотеке и все невалидные[*] файлы пометить в базе данных как невалидные. И дальше с ними ничего не делать. Не преобразовывать в другие форматы, не синхронизировать и т.п. Скачивайте как есть.
[*] Невалидные - те, кто не парсятся xml-парсером, на соответствие схеме можно пока не обращать внимание.
Отв: Доска почета
Ммм, а такие есть? Если книшка совсем не парсится, откуда библиотека возьмет о ней данные для занесения в базу?
А если ты про rusec-файлы, то я только за. Меньше будет вопросов из серии "Текст обрывается на середине!". Кстати обрывается он похоже исключительно из за знаков <>.
Отв: Доска почета
sax-парсер парсит последовательно и может обработать description до того как обломится.
Ага, именно. Таких файлов 5-6%. Но там не только librusec-kit.
Для dom-парсера могут быть критичны и другие ошибки. Видел ошибку с namespaces: в теге FictionBook указано xmlns:xlink="http://www.w3.org/1999/xlink", а используется l:href="..." (точнее там использовалось и l:href и xlink:href)
Отв: Доска почета
Я тут выступаю не защитником интересов читателей, а адвокатом движка библиотеки. Если бы все файлы в библиотеке были валидными - меньше было бы технических проблем. Например, можно было бы парсить файлы dom-парсером и синхронизировать базу данных и fb2 файл. (Если бы да кабы...)
А уникальный контент в любом случае лучше заливать как есть - больше информации сохранится.
Отв: Доска почета
Это смотря что за контент, что за формат и т.д.
Ну библиотека все-таки не "вещь в себе", а как бы для читателей...
*Мечтательно* Здорово бы было...
*Трезвея* Учитывая как "аккуратно" и "корректно" либрусек конвертирует fb2 в txt... Лучше наверное не надо. А то останется от того fb2 страниц 10, а потом будем локти кусать, кто виноват, да что делать...
Отв: Доска почета
Поэтому я и говорю про дом-парсер. Там код будет очень простой, не такой как в parser.inc, где используется sax.
К примеру, вот код получения фамилий авторов:
$xpath = new DOMXpath($dom);
$xpath->registerNamespace("m", "http://www.gribuser.ru/xml/fictionbook/2.0");
$elements = $xpath->query("/m:FictionBook/m:description/m:title-info/m:author/m:last-name");
foreach ($elements as $element) {
print "$element->nodeName: $element->nodeValue\n";
}
(Куда-то я не в ту степь ушел... Ну да ладно :)
Отв: Доска почета
Ну и мне, естественно, тоже. :))
Но, видимо, все же разумней - второй, с автоматической пометкой по результатом проверки. Я не очень наглею в своих пожеланиях и надеждах? Просто меня потряс результат первой проверки - при постоянном исправлении книг - примерно 1% улучшения. Ужас кошмарный, триллерно-апокаплиптический.
Отв: Доска почета
Много книг... и мало активных юзеров.
Отв: Доска почета
В списках были книжки Шварца - Дракон и Обыкновенное чудо - с диагнозом "много ошибок". Может кто найдет еще ошибки, но я обнаружил только прикрепленные к файлу дополнительные 5-7 обложек. Не видные при чтении, ссылок на них нету нигде, поэтому кипешь и возник, как я понимаю. Зачем-то автор файла это сделал. Ну прошелся я FBEем и удалил лишние рисунки. Тоже операция вызывающая сомнение, может лучше было ссылки на них в конце где-то сделать? Но что так уж в файле изменилось? Ничего.
Так что диагностика эта не так уж много говорит о работе над книгами.
Отв: Доска почета
Угу, именно так. В скрипте очень примитивный способ определения "много ошибок" - длина сообщения больше 200 символов.
Имхо надо было оставить и поместить в конец книги.
Отв: Доска почета
Обложки? В конец? Нафига?
Обложка это обложка, а не иллюстрация. Служит для выбора "чего бы прочесть". Отображается на странице книги. :) В конце ей делать совершенно нечего. И она должна быть одна. Имхо ;)
Отв: Доска почета
Почему одна? Я посмотрел, схема fb2 позваляет указывать несколько обложек:
< coverpage>
< image xlink:href="#cover_1.jpg"/>
< image xlink:href="#cover_2.png"/>
< /coverpage>
Отв: Доска почета
По эстетически соображениям.
Представь как оно к примеру будет отображаться в myhomelib или FBLibrarian.
Отв: Доска почета
Я почесал в репе и решил, что ничего ценного в этом множестве обложек нету. Их не требуется собирать, в общем-то, на фантлабе они приводятся во множестве. Например, для того же Шварца:
http://www.fantlab.ru/work120991
Стоит ли их все запихивать в книжку?
Отв: Доска почета
IMHO, не стоит. Я ориентируюсь на год издания отсканированной книги и выбираю нужную обложку. Если выходных данных нет, руководствуюсь собственным вкусом (а то!) и выбираю одну из имеющихся обложек.
Отв: Доска почета
Ух ты, как много. Действительно, лучше одну оставить. (Или сделать две книги "Книга" и "Книга (с обложками)" вместо иллюстраций :))
Отв: Доска почета
Целесообразность мешает. И я писала о разнице в количестве безошибочных файлов при проверке до и после удаления дублей, а не об общем количестве ошибочных. Очень бы хорошо эту проверку все же прикрутить к аплоуду.
Если обложки разные - в конце, если нет - ИМХО, Вы поступили совершенно верно.
Вес.
Прошу прощения, но, по-моему именно что говорит.
Отв: Доска почета
И затормозить и без того нещедрый поток заливок?
Упдате: Я уж не говорю о геморрое, в который превратятся любые пакетные заливки.
Упдате-2: Если бы сервер не был хронически перегружен, то, может быть, имела бы смысл отдельная от заливки функция "валидатор с указанием ошибок". Но увы...
Отв: Доска почета
Ну есть вариант "метить" :)
Сервер сильно грузить не будет, ибо не так часто идут заливки.
Но.
Невалидных книг не так много, ибо FBE громко ругается на ошибки, а букдизайнер сохраняет без лишних вопросов. Валидно.
Проблема увы не в невалидных книгах, а в сляпанных кое-как. Сляпанных букдизайнером, и потому валидных. Любой фильтр их пропустит.
Отв: Доска почета
Bullfear наезжает
а кто ты какой что-бы людям указывать чем их делать?
сделай уроки как делать книги в FBE , и только после этого можеть произносить хоть что-то против букдизайнера, и не отсылай к единствееной книги по созданию fb2
Bullfear обращаю твоё внимание делать книги только в FBE и только в нём
заранее знаю твой ответ, успехов наш холиварщик!
Отв: Доска почета
Научись сперва внятно выражать свои мысли.
Отв: Доска почета
Гм, а чем плохи 2(две) книги с описанием создания fb2 файлов от А до Я(http://lib.rus.ec/a/29957)!? Я могу конечно ошибатся но 90% fb'издателей учились именно на них)))
а букдизайнер хорошая программа, оооочень многие ошибки ПОЛЬЗОВАТЕЛЯ исправляет, но очень уж соплей много остается... ИМХО конечно
Отв: Доска почета
Делая заготовку к книге в BD, нужно прогонять ее через инвестигатор перед сохранением. Иначе букдизайнер легко и непринужденно сохранит и невалидный файл. А на проверенный в инвестигаторе и FBE ругаться не станет.
Если речь только о валидности.
А о проверке... лучше какая-то, чем никакой, нет?
Отв: Доска почета
А точно. Есть у него такой косяк. Давно просто не пользовался, уже подзабыл. Помоему периодически он делает вложенные стихи... Но как правило он просто в меру своего разумения исправляет невалидности. И у него часто это получается. Правда если заглянуть после этого в сорцы, хочется схватиться за голову...
Разумеется :)
Отв: Доска почета
А в чем гемор? Хорошие книги из пакета будут пропущены, для остальных рапорт об ошибках.
Валидация не требует больших ресурсов, и там нет обращений к базе данных.
upd: И там валидацию можно объединить с регистрацией. Т.е. тот dom, который мы получили в результате валидации, затем используем в регистрации книги в db и т.д. (Я там выше показал кусок кода)
Отв: Доска почета
Обложки разные, от разных книжек. Вес конечно возрос сильно, так как объем текста, как у одной обложки (обложки были по ~30К). Так что когда их 7...
Однозначного решения нет, можно и восстановить старую версию и сделать правку.
Отв: Доска почета
Подправил:
Арестова - Последняя улика http://lib.rus.ec/b/144824
Анчаров - Козу продам http://lib.rus.ec/b/144823
None - Сатанаил http://lib.rus.ec/b/144825
Отв: Доска почета
Отв: Доска почета
А каким программой проверялась валидность файлов?
Отв: Доска почета
Это самописный скрипт. Использует fb2utils. Там же лежит валидатор на php.
Отв: Доска почета
Два вопроса:
1) Как соотносятся результаты проверки с помощью вашего скрипта с валидатором FBE 2.0. Для цитированной книжки "Современник - Журнал Наш Современник 2001 #3 очень много ошибок" FBE показывает отсутствие ошибок.
2) Как запустить validation.py. Попробовал c:\Python26\python validation.py получил ошибку на line 14. cannot import name Fb2Parser
Отв: Доска почета
Не знаю. У меня линукс и нет FBE. Проверка схемы должна быть одинаковой. Проверяет ли FBE консистентность - не в курсе.
(Кстати, где-то внутри FBE должны лежать файлы схемы. Советую заменить FictionBookGenres.xsd вот этим, чтобы соответствовал списку жанров либрусека.)
Это странно. Там не только нарушение консистентности, но и нарушение схемы. Полный лог проверки.
Там надо запускать fb2validator.py. Что-то типа:
c:\Python26\python \path\to\fb2validator.py files|dirs
. Не обязательно из каталога fb2utils.А вот этого не должно быть в любом случае. Правда я под windows эти скрипты не тестировал, могут быть ошибки. Попробуйте обновиться.
Вообще, если кому-нибудь надо, могу собрать пакет для windows (не будет зависеть от установленного питона). Можно даже примитивное гуи прикрутить, что-то типа: кнопка "открыть файл", а под ней текстовое поле с результатом проверки.
upd: Если будут ошибки - не стесняйтесь сообщать или сюда или на странице googlecode :)
upd2: Забыл сказать о зависимостях. Кроме собственно питона нужен python-lxml и BeautifulSoup (файл BeautifulSoup.py кинуть в подкаталог fb2utils).
Отв: Доска почета
Если это не слишком трудно - сделайте. Дай бог здоровья. :)
Страницы