Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
konst1 RE:Подайте бедному копеечку на книжку с литреса... 23 часа
sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 дня sem14 RE:Современная корейская литература. Книжная серия... 2 дня monochka RE:<НРЗБ> 6 дней sem14 RE:Серия "Символы времени" издательства "Аграф" 1 неделя sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 1 неделя sem14 RE:«Юмористическая серия» 1 неделя larin RE:Оплатил. Абонемент не отображается 1 неделя larin RE:Оплатил, но абонемент не отображается 2 недели nehug@cheaphub.net RE:DNS 3 недели alexk RE:Багрепорт - 2 3 недели Isais RE:Семейственность в литературе 1 месяц Violontan RE:Жан Батист Мольер воскрешенный 1 месяц sem14 RE:Гонкуровская премия 1 месяц Dead_Space RE:Беженцы с Флибусты 1 месяц Саша из Киева RE:Приключения белочки Рыжки 1 месяц alex-from RE:Оплатил два раза, но абонемента нет 1 месяц Kiesza RE:На 78-м году жизни скончался советский и российский... 1 месяц Впечатления о книгах
udrees про Панчин: Сумма биотехнологии. Руководство по борьбе с мифами о генетической модификации растений, животных и людей (Химия, Биология, Научная литература: прочее, Научпоп)
28 12 Книга очень хорошая, рассчитанная на широкий круг читателей по довольно сложной и злободневной теме – ГМО, генная инженерия, мутации и все с этим связанное. Много страшилок наверное эта книга снимет, хотя все равно многих ……… Оценка: отлично!
udrees про Корнев: Хмель и Клондайк. Эпилог (Фэнтези, Постапокалипсис)
28 12 Даже не верится что это писал автор Приграничья и что это эпилог. Какой-то невнятный скомканный рассказ на десяток страниц – просто перестрелка, разговор и кто-то переезжает на Аляску, и все – это конец книги якобы. Оценка: плохо
udrees про Шиленко: Искатель - 2 [СИ] (Фэнтези, Эротика, ЛитРПГ, Самиздат, сетевая литература)
28 12 Написано достаточно хорошо для развлекательной книги. Описания окружающей среды создают цельную картину мира и жизни в жанре литРПГ. Главный герой хоть и развивается по законам жанра, качается и получает новые уровни, а также ……… Оценка: неплохо
udrees про Морале: Проклятье, с*ка! Книга 4 (Городское фэнтези, Самиздат, сетевая литература)
28 12 В целом нормальное продолжение приключений главного героя, 4-я книга в общем и вторая книга про его приключения в Японии, замкнувшая временную петлю. Автор все действие описывает в Японии, правда опять скатывается в школьные ……… Оценка: неплохо
udrees про Морале: Проклятье, с*ка! Книга 3 [калибрятина] (Эротика, Самиздат, сетевая литература)
28 12 Смешная довольно книга про продолжение приключений попаданца в новом мире. Автор сюжет решил изменить и перекинуть его по времени на два года назад и еще и в Японию. Видимо автор питает слабость к Японию, поэтому все действие ……… Оценка: неплохо
udrees про Мантикор: Город, которого нет 6 [СИ] (Фэнтези, Самиздат, сетевая литература)
28 12 Книга продолжение предыдущей, заполняет пробел в долгой жизни героя и его прокачке перед будущим кризисом. Аж 6 лет займет, в книге время правда во многом спрессовано. Иногда просто написано, что прошла весна. Повествование ……… Оценка: хорошо
udrees про Каменистый: Кризис власти (Боевая фантастика, Фэнтези, Попаданцы, ЛитРПГ)
28 12 Смешное продолжение похождений Гедара. Автор расписывает все очень красочно и подробно. Юмор в книге изобилует в большом количестве. Это касается как описаний, рассуждений героя, так и диалогов. Вызывают улыбку упоминания ……… Оценка: отлично!
udrees про Джейкобсен: Ядерная война. Сценарий [Nuclear War. A Scenario ru] (Публицистика)
28 12 Книга очень похожа на фильм Бигелоу «Дом из динамита» или это фильм пересказывает книгу, не знаю. Но все выглядит идентично, этот отсчет поминутно с момента запуска ядерной ракеты, как действуют все государственные органы ………
RedRoses3 про Михалёва: Безупречные создания [litres] (Исторический детектив, Исторические любовные романы)
26 12 Очень неплохо. хорошо закрученная интрига и соввершенно неожиданный финал. Оценка: отлично!
Олег Макаров. про Василий Анатольевич Криптонов
26 12 Открытие для меня вчера этот автор Начал читать "Заметки на полях" — прямо восторг от стиля. Последние годы так было только с Капбой и Мусанифом. В общем, если вам важно не только "о чём" написано, но и "как" — рекомендую
vladimir1098 про Кинг: Не дрогни (Триллер)
25 12 Очень много ошибок, сложно читать, я решил подождать официальный перевод, тем не менее спасибо переводчикам за работу
alexk про Павлов: Древесный маг Орловского княжества 10 (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
25 12 Непонятно мне ни фига: стандартный скрипт FBE не превращает "кто-то" в "кто — то". Это руками тупо все дефисы на тире с пробелами меняются, или автор файла так над скриптом поизгалялся? |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.