Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Подайте бедному копеечку на книжку с литреса... 11 часов
Саша из Киева RE:Неудавшийся священник 15 часов Саша из Киева RE:Хочу быть лётчиком 1 день Саша из Киева RE:Бессмертен подвиг ваш 2 дня sem14 RE:Искатель жемчуга 3 дня Larisa_F RE:Жизнь не отменяется 3 дня Larisa_F RE:Из озера взметнулись молнии 4 дня babajga RE:На краешке чуда 1 неделя sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 неделя Саша из Киева RE:Ведомственный притон 1 неделя Саша из Киева RE:Хождение во власть. После путча 2 недели kusheyev RE:Заливка 2 недели sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 недели kusheyev RE:Багрепорт - 2 2 недели kusheyev RE:Доступ 2 недели kusheyev RE:Правила пользования библиотекой Либрусек 3 недели Саша из Киева RE:Секрет долголетия 3 недели serafim68 RE:Заязочка 3 недели Впечатления о книгах
Galina937 про Тилье: Фантомная память [La mémoire fantôme ru] (Полицейский детектив, Триллер)
19 04 Отличная книга. Понравилась
Bullfear про Пелевин: S.N.U.F.F. (Социальная фантастика, Современная проза)
18 04 На максимальном сучестве, сура внезапно повела себя как сука - бросила жирного, раскрутив его на деньги, и ушла к молодому и красивому. Итог немного предсказуем.
Старший про Владимир Симеонович Манчев
17 04 Высказывание о том,о чем автор не имеет ни малейшего представления,это идиотизм высшей степени.оценка"не читаемо".
ikravtso про Абрамчик: Скрытые улики (Детективы: прочее, Самиздат, сетевая литература)
16 04 Аннотация - огонь! Подходит примерно 100% всех имеющихся в природе детективов.
Wik@Tor про Ивахин: Оперативная деятельность и вопросы конспирации в работе спецслужб Т. 2 (Спецслужбы)
16 04 Когда ломают двери, разведчик или пускает себе пулю в лоб, или рассчитывает варианты. Из этой книги.
StrelaVV про Андрей Александрович Васильев (фантаст)
16 04 Автора боженька поцеловал при рождении - вот уж одарил талантом... Спасибо Андрею за доставленное удовольствие, прочитала всё и мечтаю о новых книгах.
Дей про Деньги не пахнут
16 04 Абсолютно беспринципный и безжалостный герой, идущий к цели по трупам. Все женщины хотят ГГ, но если бы автор описывал процесс, это хотя бы тянуло на эротику, а простые регулярные упоминания о том, как ГГ "занялся сексом, ………
Oleg68 про Мюссо: Сентрал-парк [Central Park ru] (Современная проза)
15 04 Книга хорошая. Необычный сюжет. Но, вот как-то не зацепила. Одна из многих. Оценка: хорошо
polyn про Ефимова: Никогда не играйте в смерть (Иронический детектив, Любовные детективы)
14 04 До сих пор мне очень нравились книги Ефимовой. Особенно интересен цикл "Миссия дилетант". И я никак не ожидала получить откровенную халтуру. Оценка: плохо
Barbud про Санфиров: Фармацевт [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
14 04 ...одноразовых шприцов у нас не имеется, рожей мы для них не вышли" - да в 66-м году при упоминании одноразовых шприцов советский доктор покрутил бы пальцем у виска и поинтересовался - что это, мол, такое за фантастика. За ………
Лысенко Владимир Андреевич про Ковтунов: Идеальный мир для Лекаря 15 [СИ] (Боевая фантастика, Юмор: прочее, Самиздат, сетевая литература)
14 04 Книги этой серии, переодические перечитываю, жду продолжения. Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.