Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Неудавшийся священник 4 часа
sem14 RE:«Уроки русского» 6 часов DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 6 дней babajga RE:Повесть о чудесном одуванчике 6 дней Саша из Киева RE:Ночной пассажир 1 неделя larin RE:Оплатила,но абонемент не отображается 1 неделя tvnic RE:Maxima-library - новый адрес 1 неделя Саша из Киева RE:Хождение во власть. После путча 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 неделя babajga RE:Алиса в стране чудес 2 недели tanyaguscha RE:Грушевое дерево 2 недели babajga RE:Ёжик, который хотел обнять Луну 2 недели babajga RE:Самый храбрый совёнок 2 недели babajga RE:Похититель домофонов 2 недели Саша из Киева RE:Хочу быть лётчиком 2 недели Саша из Киева RE:Бессмертен подвиг ваш 2 недели sem14 RE:Искатель жемчуга 2 недели Larisa_F RE:Жизнь не отменяется 2 недели Впечатления о книгах
udrees про Круз: Холод, пиво, дробовик (Боевая фантастика)
05 05 Отличная книга. Добротное описание обстановки, обстоятельные размышления героев, тщательное вырисовывание арсенала оружия, которым славится Круз. Хорошая обстановка – в меру фэнтези, мир где водятся всякие чудища, недружелюбная ……… Оценка: отлично!
udrees про Золотусский: Гоголь (Историческая проза)
05 05 Типовая биография, приводятся основные моменты жизни писателя. По некоторым произведениям дается довольно большой разбор – описание персонажей, символизм, скрытые намеки, критика. Это касается в основном Мертвых душ, но еще ……… Оценка: плохо
187 про Петров: Тайна Концептуальной Власти (Политика)
04 05 Я таки догадывюсь , что за чегт тянет свою когтистую пятегню на обложке))) Оценка: отлично!
187 про Петров: Тайны управления человечеством, или Тайны глобализации. Книга 1 [Книга в Федеральном списке экстремистских материалов (п. 1463)] (Политика)
04 05 Кто эти феерические чудаки, внёсшие эту замечательную книгу в список экстремистских? Рекомедую автора, респект залившему книги. Оценка: отлично!
Belomor.canal про Яковлева: Случай в Москве [Литрес] (Исторический детектив)
03 05 Самая короткая из 3-х повесть - на один вечер чтения! Это как бы начало расследований нашего гусара, то есть №3 идет перед №1, где ротмистр уже ранен и возвращается подлечится. Опять, надо не заморачиваться историческими не ……… Оценка: хорошо
Isais про Ло Гуаньчжун
01 05 Я скажу: 1) для обсуждения вопросов есть ФОРУМ, а не впечатления около книги; 2) за 17 лет существования Либрусека вопросы "где у авторов имя и куда что писать" были многократно урегулированы; 3) почему вам не ………
alexk про Ло Гуаньчжун
01 05 Не знаю, правильно ли это - записывать и имя и фамилию китайского автора в поле "фамилия" Что скажете, коллеги? 2 Isais. О, Ваш ответ, безусловно помог.
Isais про Эпосы, мифы, легенды и сказания: Серебряная дудочка Маккримонса [шотландские легенды] (Детские стихи, Мифы. Легенды. Эпос, Народные сказки)
01 05 Как человек, который вычитывал одни и те же шотландские легенды в двух разных переводах, имею право утверждать: перевод Мелитины Клягиной-Кондратьевой лучше -- атмосфернее, поэтичнее.
Isais про Горький: Дед Архип и Лёнька (Русская классическая проза, Детская проза)
01 05 Прочитав в соответствующем -- т.е. в младшем школьном возрасте -- этот рассказ, я искренне, от души, навсегда возненавидел Максима Горького.
tvnic про Селезнёв: Беспокоящий огонь (Публицистика, Спецслужбы)
01 05 Очередная пропагандистская хрень. Оценка: нечитаемо
gruin про Беличенко: Помещик. Книга 1 [СИ] (Альтернативная история, Самиздат, сетевая литература)
30 04 Дикая белиберда про стекло и чугун. Ни сюжета ни персонажей. Вонь Оценка: нечитаемо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.