Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
monochka RE:Подайте бедному копеечку на книжку с литреса... 1 день
A5. RE:Не присылает пароль на почту 1 день kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя babajga RE:Плюмаж 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 2 недели alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
Саша из Киева про Тихомиров: Сказ об Иване Болотникове (Историческая проза)
13 04 Файл djvu этой книги почему-то не скачивается.
Саша из Киева про Татьяна Викторовна Полякова
13 04 nik_ol Смотрите внимательно биографию Татьяны Поляковой.
nik_ol про Донцова: Гризли в белых носочках [litres] (Иронический детектив, Детективы: прочее)
12 04 Неужели книги Донцовой стали выхожть раз в полгода? Сомневаюсь, я посмотрела, там много их снова у неё... Почему новое не выкладываете, уважаемые, а? Заждалась. ((( Оценка: неплохо
nik_ol про Полякова: Три с половиной оборота [litres] (Детективы: прочее)
12 04 А новых книг не будет больше, что ли?.. Оценка: отлично!
udrees про Мантикор: Сверхмиазмы (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
12 04 Хорошее продолжение серии. Она будет явно долгой, раз персонажи застряли на двадцатых уровнях, а упоминаются уровни сороковые и враги там тоже куда ужасающее. Сам персонаж так же друид и со своей лесной магией может удивить ……… Оценка: отлично!
udrees про Дорничев: Королям вход воспрещён. Том 6 [СИ] (Юмористическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
12 04 Примитивно написано, на уровне детских сказок для взрослых. Стилистика такая же – «пошел, взял, сделал…потому что…а значит». В книге много внимания уделяется внешности женского пола, например вот так: «Ворота города распахнулись ……… Оценка: плохо
udrees про Дорничев: Стражам вход воспрещён. Том 5 [СИ] (Фэнтези, Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
12 04 Написано примитивно, как детская сказка или пересказ компьютерной стратегической игры. Персонаж и его окружение развивают свою деревню, получают опыт, строят новые здания, прокачивают новичков, завоевывают и получают новых ……… Оценка: плохо
udrees про Михайлов: Запертый 2 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
12 04 Хорошо написано, продолжение истории сурвера Амадея Амоса. Описания красочные, рассуждения героя тоже под стать, над всем начинает витать политика. Жизнь героя в его руках и подчинена логике выживания – важно то, что полезно ……… Оценка: отлично!
udrees про Михайлов: Пепел доверия (Боевая фантастика, Социальная фантастика, Постапокалипсис, Самиздат, сетевая литература)
12 04 Очень хорошо написанная книга в стиле зомби-апокалипсиса. Традиционных зомби здесь нет, и в то же время есть. И сюжет отличный в стиле «НЕЧТО», когда никому нельзя доверять, когда любой может обратиться в зомби без видимой ……… Оценка: отлично!
udrees про Дюков: За что сражались советские люди. «Русский НЕ должен умереть» (Документальная литература)
12 04 ОЧЕНЬ тяжелая до ужаса книга. Конечно все знают, читали про зверства фашистов во время войны, но обычно все это бывает россыпью, кто-то в книге опишет эпизод, где-то несколько таких случаев описано, где-то чьи-то воспоминания. ……… Оценка: отлично!
udrees про Овчинников: Корни дуба. Впечатления и размышления об Англии и англичанах [с иллюстрациями] (Путешествия и география)
12 04 Не знаю насколько актуальна данная книга в наше время, я так понял, что написана она была в 1974-1978 годы, собственно все цитаты и изречения в конце каждой главы тоже датируются ранее этих дат, не позже. Поэтому я сейчас ……… Оценка: неплохо
udrees про Алексиевич: У войны — не женское лицо… (Публицистика)
12 04 Нужная книга со взглядом на самую страшную войну глазами женщины. Сама книга – сборник воспоминаний женщин, служивших в самых разных родах войск, а также во вспомогательных частях, в тылу, партизанах, подпольщицах. Читать ……… Оценка: неплохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.