Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 день
aldan RE:Багрепорт - 2 1 день Isais RE:Бушков умер. 1 день sem14 RE:Современная корейская литература. Книжная серия... 3 дня aldan RE:Подайте бедному копеечку на книжку с литреса... 4 дня sem14 RE:Семейственность в литературе 4 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя kopak RE:На 78-м году жизни скончался советский и российский... 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 недели Саша из Киева RE:Подводное течение 3 недели lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 4 недели konst1 RE:Переименовать ник (имя учетки) 1 месяц Larisa_F RE:Таррин Фишер 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 1 месяц miri.ness_ RE:Доступ 27 1 месяц bmusanov Оплатил, но абонемент не отображается 1 месяц Впечатления о книгах
lwowianin про Гончарова: Предназначение [litres] (Фэнтези, Историческое фэнтези)
01 10 Наконец-то Галине Дмитриевне удалась книга с правильной политической идеей - все русские хорошие, все иностранцы плохие и мечтают матушку Расею изничтожить! Браво, товарищ Гончарова! Оценка: плохо
wsx. про Драйзер: Стоик [The Stoic ru] (Классическая проза)
30 09 Наверное покажется странным, но мне эта трилогия напомнила "Жизнь двенадцати цезарей" Светония - сначала смотрим цезаря с плохой стороны, потом переворачиваем и смотрим с хорошей стороны. Эрго - казёл! Забавно. Оценка: неплохо
Синявский про Александр Александрович Бушков
29 09 29 сентября 2025 года. Известный российский писатель Александр Бушков умер на 70-ом году жизни в больнице от остановки сердца.
mysevra про Громыко: Крысявки. Крысиное житие в байках и картинках (Природа и животные, Биографии и Мемуары)
29 09 Книга написана с такой любовью и юмором! Я знала, что декоративные крыски умные, ласковые и чистоплотные, но не знала, что они такие хрупкие. Оценка: отлично!
mysevra про Петров: Крах атамана (Исторический детектив, Исторические приключения)
29 09 Какой прекрасный язык! Просто упивалась чтением. Тем не менее, только этого для меня оказалось недостаточно для оценки magnifique. Оценка: хорошо
mysevra про Ночкин: Пищевая цепочка (Боевая фантастика)
29 09 Понравилось чуть меньше, чем вторая, но в целом достойное завершение серии. Оценка: хорошо
obivatel про Номен: Гонки олегархов (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
29 09 Ну, налицо профессиональная деформация автора: о генераторах, котлах, турбинах и т.п. может рассказывать часами. Довольно интересно рассказывает, но уж слишком однообразно. Экшена сильно недостаёт. Помнится, читал раз про ……… Оценка: хорошо
Isais про Крупняков: Царёв город [сказание о нове городе на Кокшаге] (Историческая проза)
28 09 Даже удивительно, как хорошо прочиталась книга -- легко, с интересом, не спотыкаясь на совсем нерусских словах, без напряжения, без фейспалмов и воплей "не верю!" И это несмотря на откровенные и грубые ошибки, в т.ч. в попытках ……… Оценка: неплохо
decim про Варламов: Мысленный волк (Историческая проза)
28 09 Хорошая книга - но не первые 2 тома "Хождения по мукам". И не "Пирамида" Леонова. Но хорошая. Сравню, пожалуй, с "Авиатором" Водолазкина. Люди Серебряного века - это верхние 5%, что ли, грамотных горожан. Остальные 95% ……… Оценка: хорошо
tvv про Васильев: Куш [litres самиздат] (ЛитРПГ, Самиздат, сетевая литература)
27 09 На АТ уже девять книг в свободном доступе.
Lan2292 про Садов: Хозяин (Городское фэнтези, Мистика, Самиздат, сетевая литература)
27 09 Люблю такие истории,но это произведение не смогла и даже обьяснить в чем дело не могу, нечитаемо
dolle про Сорокин: Сказка (Современная проза)
27 09 Глупая и пустая аннотация. В новом романе мухи наыдут дерьмо ,а пчёлы свой мёд и в этот раз Сорокин не изменил себе. Одни будут искать скрытые смыслы и посылы , другие получат удовольствие от прочтения , да окончание великолепно. Сказка. Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.