Мастер-класс по сканированию

Аватар пользователя Антонина82

Сразу расставлю точки над ё: я выступаю в роли прилежной ученицы. Учителей будет, как мне представляется, несколько.
Итак, шаг первый. Купить сканер. Здесь более-менее всё понятно

шаг второй.
Я не знала в каком формате нужно сканировать. Наверное, столь очевидный вопрос в головах знатоков даже не возник. С помощью Голмы, выяснилось, что формат jpg Создала папку на компьютере с названием книги, указав на сканере данные куда направлять отсканированные страницы.

Шаг третий. Столкнулась с проблемой, что бумага «просвечивает», т.е. видно, что напечатано на следующей странице. Это плохо отражается на качестве скана. Необходимо подкладывать чёрный лист. В комплектацию сканера, у меня по крайней мере, файл предусмотрен.

Шаг четвёртый. По совету Голмы режим сканирования установила для страниц без картинок – серый 300dpi, для картинок – режим 600 dpi. Сразу скажу, скорость при втором режиме резко падает.

Шаг пятый: сканирование, самый трудоёмкий и несколько нудный и однообразный процесс. Кладёшь на стекло страницу, затем устанавливаешь режим просмотра. Если полученное изображение удовлетворяет моим требованиям о качестве (что может не совпасть с мнением бывалых людей) жму на кнопку -сканировать

Шаг шестой: Папку с файлами заархивировала и отправила на файлообменник, в надежде на то, что кто-то подхватит из моих рук скан и сделает книжку. Освоить сразу все профессии по изготовлению электронных книг, для меня представляется пока сложной задачей.

Теперь вопросы, которые у меня возникли:
1 Надо ли сканировать пустые листы? Я один раз пропустила пустой лист, и у меня количество страниц не совпадало с книгой.
2. Файлообменник – любой, или есть у опытных людей пожелания.
3 Если вдруг я пропустила страницу, какой порядковый номер у страницы должен быть

Моя первая отсканированная книжка детская Я.Акима – с символичным названием «Неумейка» файл лежит здесь здесь

Можно указывать, на что надо обращать внимание и на ошибки используя «Неумейку», как пример.
И вообще хочется узнать от бывалых людей, какие проблемы могут подстерегать новичков, и как с этим бороться.

Комментарии

Антонина82 написал:
Столкнулась с проблемой, что бумага «просвечивает» [..] Необходимо подкладывать чёрный лист.
ОЧЕНЬ чёрный. И самый матовый, какой есть. В идеале - внутренний пакет от фотобумаги, но где ж её купить? :-((((
Антонина82 написал:
Шаг четвёртый. [...] для страниц без картинок – серый 300dpi, для картинок – режим 600 dpi.
Сразу сюда же: яркость-контраст лучше так, чтобы ни по белому, ни по чёрному не было "перепора". Чтобы гистограмма плотностей ни слева, ни справа не упиралась в ограничители. Возможность глянуть гистограмму есть в практически любом картиночном вьюере или редакторе, на крайний случай можно и на глаз: бумага должна быть светло-светло-серой, а самые тёмные детали картинок - тёмно-тёмно-серыми.
Номер следующий: лучше сразу снять всю книгу, включая картинки, в 300 dpi, а потом на втором проходе снимать в 600 dpi только картинки (если картинка занимает только кусочек страницы - не лишне будет прихватить одну-две строки текста). Если софт автоматом правит поворот/перекос - на спроходе по тексту его включать, по картинкам - выключать.
Антонина82 написал:
устанавливаешь режим просмотра. Если полученное изображение удовлетворяет моим требованиям о качестве
Просмотр ловит не всё. Например, для некоторых картинок (растровая печать, чертежи) существенно изгадить результат можно банальным перекосом. Не помешает сделать пробный скан, рассмотреть его, при необходимости поправить и уже потом врубать скан потоком.
Шаг шестой: Папку с файлами заархивировала и отправила на файлообменник, в надежде на то, что кто-то подхватит из моих рук скан и сделает книжку. Освоить сразу все профессии по изготовлению электронных книг, для меня представляется пока сложной задачей.
Антонина82 написал:
Файлообменник – любой, или есть у опытных людей пожелания.
Предпочитаю ifolder.ru, притом удобно на нём зарегистрироваться и при выкладке указывать свои регистрационные данные - тогда по истечении месяца выложенное не удаляется, а переводится в "архив", откуда его при необходимости несложно извлечь. И скачивать с него удобнее, чем с какой-ньдь рапидшары - не ограничивает количество попыток при плохом коннекте и позволяет докачивать при обрыве.
Аватар пользователя Антонина82

У меня в комплекте со сканером была черная подкладка. Я её использую.
Что такое гистограмма и для чего она предназначена?

Антонина82 написал:
У меня в комплекте со сканером была черная подкладка. Я её использую.
Что такое гистограмма и для чего она предназначена?

Почитайте...
http://prophotos.ru/lessons/3113-gistogramma
http://akvis.com/ru/articles/levels-photoshop/histogram.php
Аватар пользователя Антонина82

Да, чем дальше в лес - тем толще партизаны. Я на фотоаппарате никогда не не меняла настройки. Как программа сделает - так и фотографировала. Вроде нормально получалось. Но мне кажется, эти советы по гистограмме для курса продвинутых сканировщиков. Здесь же курсы для начинающих.

Антонина82 написал:
Но мне кажется, эти советы по гистограмме для курса продвинутых сканировщиков. Здесь же курсы для начинающих.
Бывают серые книжки. Или желтые. Чтобы сканируемый текст легче распознавался, а у картинок был белый фон, легче всего использовать гистограмму, визуально выставив требуемые яркость и контрастность.
Два раза движки подвигать, и все поймете ;)

polarman написал:
Бывают серые книжки. Или желтые. Чтобы сканируемый текст легче распознавался, а у картинок был белый фон,
Э-ээ, а вот этого не надо! Границы букв один фиг распознаются не по уровню белого, а по максимальному градиенту яркости, т.е., задравши яркость до "перепора" по белому, угробишь тонкие детали - например, запятые будут через раз ловиться как точки.
Цветная картинка на желтоватом фоне - там перепор ещё хуже, либо напрочь убьёт детали в светах, либо изгадит им цвет. Желтизну удобнее (и проще) убирать играми с цветом. (А ИМХО ещё лучше вообще не трогать.)

Рыжий Тигра написал:
polarman написал:
Бывают серые книжки. Или желтые. Чтобы сканируемый текст легче распознавался, а у картинок был белый фон,
Э-ээ, а вот этого не надо! задравши яркость до "перепора" по белому, угробишь тонкие детали - например, запятые будут через раз ловиться как точки.)

А не перебарщивай. Чувство меры имей. ;)

Антонина82 написал:
У меня в комплекте со сканером была черная подкладка. Я её использую.
Что такое гистограмма и для чего она предназначена?

Если по простому, то это инструмент графической программы, который нужен для того, что бы подправить яркость-контрастность-насыщенность изображения.
В графической программе Photoshop это называется "Уровни" (Levels)
На ютубе полно видеоуроков, например: http://www.youtube.com/watch?v=YxKuop1mWso
Вот ваше изображение до применения этого инструмента:
http://i017.radikal.ru/1107/0d/ce91535d0615.jpg
Вот после:
http://s008.radikal.ru/i303/1107/62/84f70077b24f.jpg

Вот, создал новую тему
Ликбез: как установить программу DocumentExpressEditor (в картинках)
Всех, кто не может установить русский язык в этой проге или не может установить программу, прошу!

ой, ой, ой, как хорошо, что эта тема мне раньше на глаза не попалась))) а то я бы с перепугу расхотела сканировать))))
не знаю, зачем это все - гистограмма и тп, если даже текст, отсканенный на полном автомате и не через ФР, распознается замечательно? Хотя, может, потому что я сама свои сканы распознаю, потому и не придираюсь))))

Zadd, вот теперь то, что надо для начинающих. Я бы тоже сказал СПАСИБО за такое подробное объяснение.

Аватар пользователя Антонина82

У меня вопрос - какой формат предпочтительней djvu или pdf? Когда я прописывала книги с Либгена, там как правило есть варианты одной и той же книги в этих двух форматах, я отдавала предпочтение, чисто по эстетическим качествам, формату djvu. Но может помимо лучшей картинки конкретных книг есть другие приоритеты? Я сейчас имею ввиду книги, где много иллюстраций. Для книг, где преобладает текст - лидер fb2.

Для иллюстраций DjVu лучше.
Вот, например, http://www.cqham.ru/m2_scan.htm почитайте.
А вот если нужен ещё и текст распознанный внутри. Вот тут уже вопрос: что предпочесть. Как правило, PDF-ка ещё может быть распознанной, а вот дежавюшки распознанные попадаются гораздо реже. На это влияет ещё и тот факт, что если PDF от распознания станет меньше по объёму, то DJVU, наоборот, станет больше, а раз объем увеличивается, то многие считают это за ещё один довод, чтобы НЕ добавлять текстовый слой в дежавю.
В программе DjVuExpressEditor вообще-то есть встроенная распознавалка, но она справляется с распознаванием хуже, чем FineReader. А FineReader, в свою очередь, не записывает дежавюшки, только читает, зато может создать PDF с текстовым слоем(не голый скан, а распознанную)
Есть ещё утилита от Gencho называется DjVuOCR, она запихивает в текстовый слой дежавюшки то, что распознает в ней FineReader 8-й или 9-й версии, но не 10й: AbbYY специально поменяли формат файлов пакета, чтобы это стало невозможным. :(
Однако, есть и хорошая весть: в будущем(возможно в 11й версии) планируется сделать создание дежавю из FineReader'а. А сейчас: либо дежавю вообще без OCR, либо пробуем с плохоньким распознанием в программе DjVuExpressEditor, либо с хорошим распознанием через гибрид 2х программ: DjVuOCR+FineReader8или9. (С 10м не выйдет)

Zadd написал:
ещё и тот факт, что если PDF от распознания станет меньше по объёму,
Да ну. Может уменьшиться. А может и не. Я для последующей вычитки сохраняю и выкладываю картиночные .pdf'ы с нижележащим текстовым слоем, мне так удобнее и больше нравится.

Ну так тем более.
Хоть я и не видал такого файла PDF, чтобы был нераспознанный скан, а потом бы взял, да и увеличился бы от одного только распознавания.
Допускаю, что может остаться прежним, если в нем кроме картинок ничего нет.

Вот тема на Флибусте от bokonon83 Как сделать djvu книгу отличного качества.

я тут по всему топику называю программу DocumentExpressEditor программой DjVuExpressEditor. 2-е название для меня лично логичнее, но неправильное, а правильное, хотя и нелогичное - DocumentExpressEditor

Аватар пользователя Антонина82

Если долго мучиться и мучить других расспросами = получился Бибигон, правда в современном варианте, но на мой взгляд, он тоже хороший.

Сорри, что влезаю, но тут выше мелькнул призыв использовать для сканирования фотоаппарат. Не буду разбирать детали пагубности такого подхода. Но просто поверьте - не стоит того.
В качестве примера страница найденного в сети одного такого "скана".

так если специально заморачиватья фотки будут лучше.. да и фоткать не на мыльницу, а нужен норм фотоапарат.. хотя у меня и с мыльницы отлично распозновалось...

а по теме сканирования книг - я делал первую дежавюху по этой статье и вроде не плохо получилось

Аватар пользователя Антонина82

А как бороться с чёрной полосой посередине листа, если сканируешь две страницы сразу? Я пробовала класть белую полоску из бумаги, но некрасиво получается. И на цветных листах это не проходит.

Антонина82 написал:
А как бороться с чёрной полосой посередине листа, если сканируешь две страницы сразу? Я пробовала класть белую полоску из бумаги, но некрасиво получается. И на цветных листах это не проходит.
Сканкромсатором вырезать, если речь идёт о дежавю. Если о FB2, то тогда FR-у пофиг! (в смысле, не обращай внимания, эта полоса в документ не войдет)
А вот ежели эти 2 страницы нужно склеить, тогда не знаю, как быть.
Аватар пользователя Антонина82

Цитата:
Сканкромсатором вырезать

Можно инструкцию, желательно в картинках :)

Антонина82 написал:
Можно инструкцию, желательно в картинках :)
http://www.djvu-soft.narod.ru/kromsator/sk_5_91_melirius.htm
Вот тебе инструкция по кромсатору. Рисунков дофига!
Правда, версия не самая новая, но всё же почти новая, так что, отличий от реальности мало.
Обрати внимание на Draft Kromsate, вроде тебе как раз это нужно, т.е. расставить резаки, чтобы разрезать в середине скана с отрезанием некой ненужной области по всей книге.
Аватар пользователя Антонина82

Очень хорошая программа! Я, правда, не углублялась в теорию, но черную полосу она убирает очень хорошо. Мне удивительно, почему в сети много книг в djvu с этой полосой. Легко же обработать сканы. Или данная программа разработана недавно?

Антонина82 написал:
Очень хорошая программа! Я, правда, не углублялась в теорию, но черную полосу она убирает очень хорошо. Мне удивительно, почему в сети много книг в djvu с этой полосой. Легко же обработать сканы. Или данная программа разработана недавно?
Да нет, прога очень старая, конечно, всё время новые версии появляются, хотя разработчик как-то и сказал, что больше не хочет её разрабатывать, но вроде бы его уговорили продолжать это благородное дело.
Причина незнания об этой программе на Либрусеке просто в том, что здесь основным форматом считается FB2, а для FB2 эта прога как бы и не нужна.
По поводу почему много книг с черной полосой: меня это уже нисколько не удивляет. Чёрная полоса - это ещё не самое страшное. Взгляните хотя бы на «Мишку-ушастика», там же вообще нельзя без содрогания смотреть, сколько там грязи поналеплено. А эта программа позволяет сканы обрабатывать, чистить и пр.
А уж сколько сделанных тяп-ляп FB2!!! Тоже не удивляет. Если что-то можно сделать через жопу, то оно-таки будет сделано кем-нибудь именно через жопу.

Антонина82 написал:
А как бороться с чёрной полосой посередине листа, если сканируешь две страницы сразу?
Хм. Никогда не видел. Можешь показать?
Аватар пользователя Антонина82

Рыжий Тигра написал:
Хм. Никогда не видел. Можешь показать?

У меня с черной полосой только получается. Я даже специально чугунный утюг ставила на книжку, чтобы полосочка ровная была. А оказывается можно просто программой удалить полоску.


я сделала копию в формате jpg, а то радикал tif не хочет обрабатывать (какие пятна появились. На оригинальном скане их нет)

Антонина82 написал:
Рыжий Тигра написал:
Хм. Никогда не видел. Можешь показать?

У меня с черной полосой только получается.
А-аа, уловил. Сорри, был неправ - видел я такое и не раз, тень в сгибе. Просто развороты делаю редко, а если приходится, то ставлю книгу так, чтобы каретка шла вдоль сгиба. В крайнем случае, если всё равно тень, то коцаю её редактором изображений в файнридере.
Антонина82 написал:
радикал tif не хочет обрабатывать
Делай .png и скармливай программе Image Uploader http://zenden.ws/imageuploader_ru/ - оч' удобная штучка. (Я использую прошлогоднюю версию - в ней кривое ограничение на размер файлов для radikal.ru - 10 мег, вручную подправил на 50.)

Антонина82 написал:
я сделала копию в формате jpg, а то радикал tif не хочет обрабатывать (какие пятна появились. На оригинальном скане их нет)
Теперь понимаешь, как JPEG портит книжку? Конечно, на тексте это не так критично, разобраться можно, а вот картинка получается загублена JPEG'ом.
посмотрите Я нашел фотохостинг, на который можно выкладывать картинки в формате TIF, там я находил хостинг, куда можно TIFF'ы скидывать.

Zadd написал:
Антонина82 написал:
я сделала копию в формате jpg, а то радикал tif не хочет обрабатывать (какие пятна появились. На оригинальном скане их нет)
Теперь понимаешь, как JPEG портит книжку? Конечно, на тексте это не так критично, разобраться можно, а вот картинка получается загублена JPEG'ом.
посмотрите Я нашел фотохостинг, на который можно выкладывать картинки в формате TIF, там я находил хостинг, куда можно TIFF'ы скидывать.

Почитайте: Как почистить сканы книг и сделать книгу http://lib.rus.ec/b/313548
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро http://lib.rus.ec/b/312566
СканКромсатор v5.93 Пособие по программ http://lib.rus.ec/b/308790

Почитайте: Как почистить сканы книг и сделать книгу http://lib.rus.ec/b/313548
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро http://lib.rus.ec/b/312566
СканКромсатор v5.93 Пособие по программ http://lib.rus.ec/b/308790

Поздно тему прочитал. Отсканировав страниц 100 в книге "Пьесы" Грильпарцера, сам понял, что оптимальней серый 300 dpi. Даже при не очень хорошем качестве снимка и не очень качественном распознавании, есть шансы, что в серых тонах можно будет прочитать слова для правки.

Страницы

X