Вы здесьПроект по вычитке книг, подобный альдебарановскому и олдмаглибовскому.
Опубликовано пт, 04/04/2008 - 01:59 пользователем soshial
Форум пока очень неудобный для этого, так что пока будем обсуждать здесь...
Понятное дело, мы и сейчас вычитываем... некоторые люди. их мало. И это просто не очень организованно пока, кустарно что ли... ;)
я предлагаю "сплочиться" =D
просто собрать организованную кучку ocr-щиков и вычитывающих, которые будут друг другу помогать.)
Выглядеть все будет таким образом... кто-то заказывает (в смысле, предлагает ее для вычитывания) вычитку книги - кто-то эту вычитку выполняет.
СПИСКИ "НА ВЫЧИТКУ", "НА OCR" И СПИСОК УЧАСТНИКОВ - ЗДЕСЬ.
FAQ:
> Не сочтите за наглость но если работа предстоит с фантастикой/детективами/любовными романами то тогда извините но отказываюсь сразу.
Работа ведется во всех направлениях - любые жанры и стили литературы, даже не только художественной =)
что хотите то и выбираете)
> С каким форматом предстоит работать?
с fb2. наиболее распространенный в рунете и наиболее удобный формат для чтения и редактирования =)
общая информация здесь и тут
в нем нет ничего сложного, просто надо более-менее помнить теги. это просто. к тому же, вы будете эти теги коррекировать, а не создавать с нуля. ;)
1. общая информация о формате
2. описание тегов и простой пример книги.
3. как сделать книгу
4. Вычитка, редактура и создание fb2-файла с начала и до конца, с помощью FictionBook Designer 4.0 и не только
5. несколько статей и инструкций по fb2
6. Создание электронных книг в формате FictionBook 2.1: практическое руководство
> Условия, правила вычитки, форматирования?
правил форматирования почти нету за счет того, что инфа об абзацах, эпиграфах и т.д. хранится в тегах а не стилях (болд, италик и т.д.); правила вычитки только в процессе создания, пока прорабатывается. сейчас главное - вычитка.)
[quote]а теперь главное!
в этом посте: вносим свои предложения, предлагаем идеи, предлагаем книжки для вычитки, делимся планами, высказываем свои мысли и т.д.)) (не знаю, как выразиться лаконичнее)))[/quote]
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 19 часов
Саша из Киева RE:Детям о Ленине (Издание 1965 года) 2 дня Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 6 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней babajga RE:Белая княжна 1 неделя Nicout RE:Таинственная личность админа Флибусты 1 неделя Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 2 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 2 недели zlyaka RE:С Новым годом! 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели SparkySpirit RE:Прошу переформатировать, распознать, etc... 3 недели SparkySpirit RE:Жорж Санд - переводы 19 века 3 недели Саша из Киева RE:Наш дом - СССР 3 недели babajga RE:Чернушка. Повести 3 недели Саша из Киева RE:Сказки далёких островов 3 недели babajga RE:Лопоухий бес 4 недели babajga RE:Ежик покидает дом 4 недели babajga RE:Сказки бабушки Черепахи 1 месяц Впечатления о книгах
iggy71 про Житинский: Глагол «инженер» (Социальная фантастика)
19 01 Блистательно! Правдоподобно, реалистично, без всякой там фантасмогории, характерной для некоторых других его вещей, которая иногда утомляетЮ откровенно сказать. Как будто в молодость вернулся, короче. Когда грузинскую сцену прочитывал, ржал как лошадь. Оценка: отлично!
9333694 про Дроздов: Горящее небо Аорна [СИ] (Боевая фантастика, Социальная фантастика, Приключения в современном мире, Самиздат, сетевая литература)
18 01 Напоминает классику: Эдмон Мур Гамильтон "Звездные короли". Но совершенно самсостоятельное произведение. Прочитал с удовольствием. Немаловажно, что ГГ не злоупотреблял перепевом отечественной классики, чем автор иногда грешит Оценка: хорошо
Stager про Демина: Громов: Хозяин теней (СИ) (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
17 01 Написано с большой любовью к бандиту и демократии. Но бандит всё равно образцовое дерьмо. Зато не так занудно, как обычно. Оценка: плохо
Никос Костакис про Ланцов: Десантник на престоле [Шесть книг в одном томе] (Альтернативная история)
16 01 ...познаниями в области радиоэлектронике..." Так выпьем за кибернетике! (с)
marin029 про Поселягин: Тактик [СИ] (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
16 01 Где-то в середине книги есть такое: ..."полярная ночь, или северная. Говорят, тут постоянно так светло." Автор уточни получше. Ночью светло это летом, во время полярного, короткого лета. А зимой в заполярье почти постоянно темно.
mysevra про Глуховский: Сумерки (Ужасы, Триллер)
16 01 Я была в восхищении до середины книги, потом всё-таки начали закрадываться сомнения. Потрясающий язык, но, да простит меня автор, так по-ленивому все обосновать – это сплошное разочарование. Оценка: хорошо
DGOBLEK про Кивиряхк: Последний, кто знал змеиную молвь [Mees, kes teadis ussisõnu ru] (Фэнтези, Современная проза)
14 01 Огромнейшее спасибо! Цитаты с книги - Они, видишь ли, ноги мне отрубили да в море сбросили! Пусть катятся в задницу, такими детскими приёмчиками от меня не избавишься! Юной девушке трудно устоять перед косолапым — ……… Оценка: отлично!
Barbud про Фонд: Агитбригада 1 [СИ] (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
14 01 Написано вроде и неплохо, но анахронизмы глаз режут - тут тебе в 1927 году и дуст, и "Либертанго", и "учебник по истории КПСС". И это я только половину книги одолел. Похоже, автор (или коллектив авторов) в реалиях тех лет ……… Оценка: неплохо
Саша из Киева про Даррелл: Говорящий сверток [The Talking Parcel ru] (Природа и животные, Детская проза)
14 01 artak60, У меня эта книга тоже была именно с такими иллюстрациями. Правда, эта книга была не моя собственная - я брал её в нашей местной детской библиотеке. А сейчас у нас в Киеве со старыми книгами катастрофическая ситуация.
dolle про Пелевин: Круть [litres] (Современная проза)
14 01 Наверное не нужно рассматривать " Трансгуманизм " как цикл.Все книги концептуально разные , вызывающие разные вопросы и эмоции у читателя.После первой книги планка была поднята слишком высоко и у многих появились завышенные ……… Оценка: отлично!
Belomor.canal про Свечин: Месть – блюдо горячее (Исторический детектив, Исторические приключения)
13 01 Похоже автору Лыков надоел по полной! если выкинуть 100 тонн воды - многостраничные цитаты из газет того времени, описание международной обстановки и ещё куча всего, то останется мало интересная история поимки, похожая на ……… Оценка: неплохо
alexk про Древневосточная литература: Книга тысячи и одной ночи. Арабские сказки [litres] (Древневосточная литература, Мифы. Легенды. Эпос)
13 01 Неловкая попытка переиздания /b/436061 из БВЛ |
Комментарии
Отв: Проект по вычитке книг
"Видю!" (с) :)
ОК.
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Список есть. Но на сегодняшний день он почти весь отработан. Добавлений пока нет.
А конвертировать в fb2 Вы можете?
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Могу конвертировать. Могу не конвертировать. ;-) Давайте что надо сделать, вот тогда и увидим
Новая книга
Нашел в недрах книжку
Доленга-Мостович, Тадеуш
Карьера Никодима Дызмы.
Сейчас заканчиваю вычитку после ОКР.
В каком формате (fb2 пока не умею) и куда выкладывать?
Отв: Новая книга
Выкладывайте в rtf или doc. Мы конвертируем.
Спасибо.
Отв: Новая книга
Выложил только что в каталог Доленга-Мостовича.
В формате doc.
Жанр: Политическая сатира.
Почему-то получил сообщение:
"непонятный жанр политическая сатира"
Если не соответствует списку жанров, надо поправить либо жанр книжки, либо список.
Распознавал и вычитывал сам.
В начсле файла картинки с титульного листа.
Отв: Новая книга
Сейчас посмотрел, моей книги нет. Она дошла? Или снова выложить?
Выкладывал в каталоге "Доленга-Мостович через ссылку "выложить книгу.
Начал вычитывать Асприна. Для начала - Шуттовская рота.
Отв: Новая книга
http://lib.rus.ec/a/2597
Похоже, что не выложилась. Если не получится, шлите на мыло (дам в личку, если надо), я выложу.
Пометьте в названии книги "вычитывается" (в квадратных скобках). Может, кто-то предпочтёт подождать вычитанный вариант. :)
Отв: Новая книга
Асприн вообще находится в текстовом втде в ha-архивах. Видимо так, как было в SU.BOOKS. А там качество не ахти. Хочу довести до ума.
Только не понял, где нужно поставить "вычитывается"? Как туда попасть?
Отв: Новая книга
Идёте на страничку самой книги, нажимаете линк "исправить", в окошке "название книги" добавляете - [вычитывается] и нажимаете "сохранить". Всё. :)
Отв: Новая книга
"Ниччччего не понимаю" (с) колобки
Три недели назад, когда возникло желание перечитать Асприна решил посмотреть, нет ли фб-файлов на Либрусэке.
Нашел только ХА- архивы. Те, что по СУ.Букс проходили.
Шутта я еще 2 года назад вычитывал и печатал. Поэтому и решилдовести до конца.
А сегодня зашел на страницу Асприна и ...
Короче, все, что я хотел сделать уже сделано....(
Отв: Новая книга
"Аналогично, коллега!" (с) оттуда же ;)
Бывает и такое. А Донцову "вычистить" желания не имеете? Отсеять дубли и прочее?
Отв: Новая книга
Донцову не люблю!
Там в списке Буджолд свободный (Игры форов). Беру.
Только буду долго делать.
Если не страшно, пишите меня.
Хотел сам записаться, но не получилось.
По мере обнаружения в недрах еще чего-нибудь интересного, буду сканить и вычитывать.
Кстати, в учетных данных можно бы и реалнейм ввести.
Как необязательный пункт.
Отв: Новая книга
>Похоже, что не выложилась.
Судя по сегодняшней загрузке - я поменял жанр на "юмор" - дело было именно в этом.
Просмотрел список жанров. Сатира и юмор - это несколько разные вещи. Поэтому неплохо было бы такой жанр ввести. И сообщение о том, что жанр непонятный, дополнить рекомендацией жанр поменять, взяв название из списка жанров.
Проект по вычитке книг
Еще два тега:
(sup)верхний регистр(/sup)
(sub)нижний регистр(/sub)
Круглые скобки, естественно, должны быть заменены на треугольные.
Отв: Проект по вычитке книг, подобный альдебарановскому.
Спасибо за исправления, напоминаю что книги двух авторов
(Огай Игорь, Алексей Фомичев) из предыдущего сообщения
пока не исправлены .
Поправьте пожалуйста в книгах
к сожалению сам не могу использовать редакторы fb2,
текст (идущий в скобках не для поиска он описывает
проблему) в некоторых местах правильных вариантав нет
но править надо.
---------------------------------------------------------------------------------------------------------------
Дмитрий Воронин
Несущие свет
Несущие Свет. Противостояние
http://lib.rus.ec/b/109234
мерс мере
пальца им пальцами
Л ила Лила
оr (или зависит от кодировки) or от
Атак А так
Л ила Лила
лотом потом
сума с ума
от вечать отвечать
вдовушках в ловушках
отдел от дел
дадено
---------------------------------------------------------------------------------------------------------------
Вячеслав Грацкий
Сердце ангела
http://lib.rus.ec/b/111379
изтебя из тебя
наука паука
струдом с трудом
Подгруппы Полгруппы
---------------------------------------------------------------------------------------------------------------
Максим Варежкин
Каэхон
http://lib.rus.ec/b/110722
бить ? в бить ?
Прелостерегающи Предостерегающи
Они еще Она еще
службы этом службы в этом
веще вещей
всего его все его
---------------------------------------------------------------------------------------------------------------
Станислав Лем Условный Рефлекс Пиркс 2
http://lib.rus.ec/b/111403
говорить.Особенно (или зависит от кодировки)
говорить.0собенно (или) говорить.Oсобенно (правильный вариант) говорить. Особенно
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Исправлено всё (и из прошлого сообщения тоже), кроме "дадено". Это хоть и просторечие, но автор имеет право. ;)
Отв: Проект по вычитке книг
Две книги Льва Прозорова, бывшие в Doc-ах, заменены на FB2. Беру тайм-аут на пару дней. Но не надолго.
Скоро вернусь, кипя энтузиазмом! :))
Отв: Проект по вычитке книг
Спустя месяц, доделал наконец несносного зуева... Он меня просто достал! 84 сноски и очень много ошибок! теперь вроде все нормально, выставляю на ваш суд: http://lib.rus.ec/b/112462
вторую книгу уже заменили, видимо версией с литреса.
Отв: Проект по вычитке книг
Отлично, совсем другое дело :) И как Вам FBE? Отличная программа, правда?
Одно замечание (это так, на будущее): в русском тексте все-таки лучше использовать длинное тире (уникод 151), а не среднее (уникод 150).
Отв: Проект по вычитке книг
а мне больше среднйи нравится +)
хотя, средний короткий, а длинное уж слишком длинное((
есть чё нить среднее? ;)
ps. где можно узнать эти коды??
смотрел их на вики - они не такие - не 150 и 151 ((
Отв: Проект по вычитке книг
Здесь. §5.6.
Отв: Проект по вычитке книг
Предлагаю на распознавание pdf, вычитку, и сборку в fb2 книгу:
А.С. Пушкин - "Стихи не для дам" - http://hagen.ifolder.ru/7492089
Искал в гугле - везде только пдф, потому и предлагаю...
Отв: Проект по вычитке книг
Внесла в список на распознавание.
Отв: Проект по вычитке книг
Не надо на распознание. Все уже распознано, бОльшая часть есть здесь, а то чего нет, можно взять или на www.rvb.ru, или на feb-web.ru. Вру, предисловие - на распознание. И уменьшить обложку. Работа только в сборке fb2-файла. Но сам не возмусь, хочу на этой недели закончить сборку лицейской лирики того же автора.
Проект по вычитке книг
Пометьте, плз, взял на вычитку Забавы жестоких боговов Петрова Александра (http://lib.rus.ec/b/111004). Плюс еще переведу в fb2 Свет обратной стороны звезд того же автора.
Отв: Проект по вычитке книг
Ок.
Пастернак, Доктор Живаго
Пастернак, Доктор Живаго
старый: http://lib.rus.ec/b/77355
новый: http://lib.rus.ec/b/112543
Часть текста была пропущена. И по мелочи: опечатки, разрывы слов и пр.
Отв: Пастернак, Доктор Живаго
Класс! Спасибо большое.
Отв: Проект по вычитке книг
У меня тут возник вопрос по использованию неразрывного пробела. "28 июля 2008 года" - нужно его ставить после чисел или нет? А если так: "28-е июля"? А в словосочетаниях типа "2 года", "3 метра", "5 человек"?
Отв: Проект по вычитке книг
ИМХО можно, но не обязательно. Ставить нужно перед тире, а также в диалогах после тире в начале предложения.
А вот неразрывный дефис в "28-е июля" нужен точно :)
Отв: Проект по вычитке книг
Неразрывный пробел: Ctrl+Shift+пробел
Неразрывный дефис: Ctrl+Shift+дефис
Мягкий перенос: Ctrl+дефис
На всякий случай, для тех, кто как и я не любит справку офиса.
Отв: Проект по вычитке книг
Это в Ворде. А в FBE?
Для неразрывного дефиса я нашла только - &# 8209; (убрать пробел перед 8) в Source. А hotkey есть?
Отв: Проект по вычитке книг
Для неразрывного пробела в FBE работают те же клавиши. Для дефиса и переноса не работают, точнее - делают короткое тире.
За код для дефиса - спасибо.
Отв: Проект по вычитке книг
Небольшой Achtung! обычно непечатаемые знаки переносятся из doc в FBE. Но с неразрывным дефисом возникают проблемы: если в fb2 документе они образовались благодаря переносу из дока или подстановкой кода в сорце - при конвертации в rtf они превращаются в неопознаные квадратики. Наверно их лучше избегать.
Отв: Проект по вычитке книг
Ну, раз необязательно, то и не буду ставить :) Зачем себе работы прибавлять. А может, есть какой-нибудь скрипт для ленивых, который расставляет неразрывные пробелы?
Отв: Проект по вычитке книг
Угу. В FBI.
Book Cleaner --> load--> 2_Nbsp.dat --> apply
Отв: Проект по вычитке книг
Спасибо, попробую. Была у меня мысль, что я не все возможности FBI использую :)
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Для неразрывного пробела я знала, пользуюсь. Думала, что и для дефиса что-то есть. Придётся в сорцы каждый раз лезть. Неудобно. :(
Можно в блокнотике собрать
Можно в блокнотике собрать все необходимые символы (надёргать их из charmap), и вставлять через copy-paste, где хочется. Только этот вспомогательный текст нужно будет в юникоде сохранить.
Ян Грабовский. Муха с капризами
Ян Грабовский. Муха с капризами
старая: http://lib.rus.ec/b/20433
новая: http://lib.rus.ec/b/112598
добавлены иллюстрации, ёфикация и вычитка.
Отв: Ян Грабовский. Муха с капризами
Спасибо.
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Там же, первый скрипт - длинные тире.
Быстрое оформление в Ворде
Ну, это для тех, кто не знает или не пользовался. В диалоге замены можно подставлять следующие спец.символы:
Символ абзаца - ^p
Длинное тире - ^+
Неразрывный пробел - ^s
Неразрывный дефис - ^~ (обычно не пользуюсь вообще)
Я обычно первым делом натравливаю на текст следующие комбинации
(обычный пробел обозначен подчеркиванием, квадратные скобки не надо!):
1. [^p-_] на [^p^+^s] - заменяет дефис с пробелом в начале диалога на длинное тире - неразрывный пробел;
2. [_-_] на [^s^+_] - заменяет пробел-дефис-пробел на неразрывный пробел - длинное тире - пробел;
3. [.-_] на [.^s^+_] - заменяет точка-дефис-пробел на точка - неразрывный пробел - длинное тире - пробел;
4. [,-_] на [,^s^+_] - вариация 3 с начальной запятой;
5. [!-_] на [!^s^+_] - вариация 3 с начальным воскл.знаком;
6. [?-_] на [?^s^+_] - вариация 3 с начальным вопросительным знаком;
7. [_^p] на [^p] - убирает лишний пробел в конце абзаца (иногда бывает нужно).
Вот, после этого уже мало чего остается вручную править. Может кто еще полезные комбинации предложит..
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
В последней версии FBE куча скриптов, которые всё это делают. Рекомендую. ;)
Я ещё пользуюсь слизанными у Кондратовича регэкспами для замены кавычек на "ёлочки" (скрипт не всегда чисто работает):
(наружные квадратные скобки не надо!!!)
1. [^"] на [«] замена в начале строки
2. ["$] на [»] замена в конце строки
3. [([\s\(-])"] на [$1«] замена после пробела, дефиса или скобки
4. [(\S)"([\s\!\.\)-…,?:;])] на [$1»$2] замена перед пробелом, запятой, точкой, скобкой, вопросительным знаком, восклицательным знаком, дефисом, многоточием, двоеточием, семиколоном.
Не забывать ставить флажок на RegExp!
МихалЫч, а чего Вы не объедините Ваши 3-6 по типу моего 4?
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Скрипт хорош тем, что различает вложенные кавычки и заменяет их на "лапки". Я обычно делаю так: запускаю скрипт, когда скрипт говорит, что не знает, на что заменить кавычку, я жму на "прекратить", исправляю спорную кавычку вручную и опять запускаю скрипт.
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Ну да, когда правлю в FBE, пользуюсь скриптами. Про кавычки на "елочки", забыл, каюсь.
А насчет объединить, можно конечно. Я просто себе сделал макрос, который все это кучей выполняет и как-то не критично,
4 раза он пройдется с разными заменами или один раз с regexp'ом :)
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Да, я иногда тоже так делаю. Но бывает, что спорное место просто не нахожу. :( Приходится откатывать назад.
Но Вы правы, регэкспы не различают вложенные кавычки.
Отв: Проект по вычитке книг, подобный альдебарановскому и олдма
Отличный задел для FAQ по работе с редакторами. fb2 настолько ограничен по сравнению с doc, что работа с ним должна быть проще на порядок. Только из-за того, что нет внятных справок и 80% возможностей редакторов - скрытые, специалисты по fb2 становятся Посвященными. KFPanda - just empty sheet.
Все ухожу ухожу
Отв: Проект по вычитке книг
Здравствуйте!
Я раньше здесь не бывал, за исключением поиска чего-нибудь недоступного в других местах. Однако хомячковый инстинкт сгребать все под себя вынудил сгрузить Trauma Lib с небезызвестного torrents.ru. Приблизительно треть текстов там - с lib.rus.ec.
При попытке засасывания этого всего в FB2Librarian высыпалась куча ошибок. Из них большая часть - неправильный id документа, это правится программой FB2Fix. Последние версии этой программы позволяют проводить потоковую валидацию. Поэтому я хотел:
1. Отделить файлы с неверным id
2. Прогнать остаток через FB2Fix с целью выявления невалидных
3. Прогнать файлы с неверным id с целью выявлени невалидных и корректировки id
4. Запихать это все в FB2Librarian и радоваться жизни.
В принципе невалидных файлов не так уж и много.
Я обработал пока 20400 файлов - невалидных 392.
Из них ного невалидных из-за ошибок в схеме.
Я спрашивал у Trauma, интересно ли ему получить исправленные файлы, он сказал, что проще засылать их на либрусек, а он возьмет их при следующем обновлении.
В свете этого у меня пара вопросов:
1. У некоторых файлов в теге author есть тег id - соответственно валидатор кроет его матом.
2. У некоторых файлов в теге document-info есть тег publisher - соответственно валидатор кроет его матом.
3. У некоторых файлов в теге translator есть тег id - соответственно валидатор кроет его матом.
Я так понимаю - это недостатки схемы. Вопрос - какая схема правильная и чего делать с этими тегами.
4. Нужны ли Вам валидные файлы без дополнительной вычитки? (уж слишком это трудоемко, возможно, потом, после обработки основной библиотеки)
5. Нет ли какой краткой инструкции по вычитке? У меня нет филологического образования и дискуссии о длине дефиса и неразрывности пробела оказывают на меня угнетающее воздействие.
Страницы