Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
monochka RE:Подайте бедному копеечку на книжку с литреса... 41 мин.
sem14 RE:Координация сканирования и вычитки 4 дня Моржехрен RE:Помогите найти!.. #2 6 дней babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя Isais RE:Мои открытия 1 неделя kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя A5. RE:Не присылает пароль на почту 2 недели babajga RE:Плюмаж 3 недели babajga RE:Блошкинс и Фрю. Опасное путешествие 4 недели alexk RE:Багрепорт - 2 1 месяц babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц Впечатления о книгах
mysevra про Беляев: Потапыч (Ужасы, Триллер)
28 04 Очаровательно. Но рассчитано на юную аудиторию. Оценка: хорошо
mysevra про Серрителла: Призраки Гарварда [litres] (Ужасы, Триллер)
28 04 Это не ужасы. Интересным показались лишь подробности быта и учёбы. Концовка вообще скомкана и мелодраматична. Эпилог совсем не к месту, словно кто-то с помощью истории наскоро закрывал личный гештальт. Оценка: неплохо
mysevra про Соболева: Отдел "Т.О.Р." (Детективная фантастика)
28 04 Казалось бы, такая благодатная тема. Результат: чересчур наивное, просто какое-то школьное сочинение "на троечку". Оценка: плохо
monochka про Линч: Небо красно поутру [litres] (Историческая проза, Современная проза, Вестерн)
27 04 Густое, цепкое, щедрое письмо, очень кинематографично, чуть ли не галлюцинаторно в своей проработанной красоте. Персонажи, их черты и мотивации совершенно из средневековых ирландских текстов" - пишет редактор, и оно так и есть.
Олег Макаров. про Шелестов: Смерть Отморозка (Крутой детектив, Детективы: прочее, Современная проза)
27 04 Хорошо написано. Правдиво и реалистично. Смущают немного только пейджеры, с которых братки отправляют друг другу сообщения. Как это могло перепутаться в голове у автора, если он реально активно жил в те времена - непонятно. ……… Оценка: отлично!
Radozenih03 про Хохлов: Экзамен на разумность (Научная литература: прочее, Публицистика)
26 04 Автор поднимает вопросы, актуальные и сейчас... спустя 20 лет после издательства книги. Оценка: хорошо
vig11 про Видум: Настроение – Песец [СИ] (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
25 04 Да, уж. Книга получилась не очень к сожалению. Вместо интересного сюжета фентези сплошная грызня между князями. Оценка: плохо
Саша из Киева про Басовская: Жгучая Испания [Литрес] (Исторические приключения, История, Биографии и Мемуары)
24 04 Книга издана в 2022 году. А написана раньше.
Wild_XC70 про Новиков: Наномашины, сынок! Том 1 [СИ] (Юмористическая фантастика, Самиздат, сетевая литература)
24 04 Прикольно, местами смешно, но одноразово. Оценка: хорошо
Oleg68 про Куанг: Пылающий бог [litres] (Героическая фантастика, Фэнтези)
23 04 Мне понравилась книга. Окончание очень неожиданное. Оценка: отлично!
A5. про Норфолк: В обличье вепря [In the Shape of a Boar ru] (Современная проза)
22 04 Убеждаюсь: обалденный автор. Как и предполагалось, дикое количество объёмистых комментариев и пояснений в сносках отнюдь не облегчает процесс чтения сего опуса на ебуке. Но, как опять же и ожидалось, — удовольствие получено ……… Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.