Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Приключения белочки Рыжки 13 часов
alex-from RE:Оплатил два раза, но абонемента нет 2 дня sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 дня Kiesza RE:На 78-м году жизни скончался советский и российский... 3 дня Aliki RE:Подайте бедному копеечку на книжку с литреса... 3 дня Paul von Sokolovski RE:Бушков умер. 1 неделя lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 неделя mig2009 RE:Багрепорт - 2 2 недели Isais RE:Издательство "Медуза" 2 недели babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 4 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 месяц sem14 RE:Современная корейская литература. Книжная серия... 1 месяц sem14 RE:Семейственность в литературе 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц Саша из Киева RE:Подводное течение 1 месяц konst1 RE:Переименовать ник (имя учетки) 2 месяца Впечатления о книгах
RedRoses3 про Лагин: Старик Хоттабыч [litres] (Советская классическая проза, Сказка)
06 11 В 1938 году Лазарь Лагин написал детскую повесть-сказку «Старик Хоттабыч»! - хм... а со временем хороший писатель Александо Крон признался, что в молодости подрабатывал литрабом и Хоттабыча написал он... А Лагин так больше ничего выдающегося и не натворил....
Олег Макаров. про Карелин: Архитектор душ (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
05 11 Идея неплохая, но написано предельно нудно. Сюжет стоит на месте, буксует, шины визжат, но ничего не едет. Почти до конца первую книгу дочитал и бросил Оценка: плохо
Олег Макаров. про Анатолий Н. Патман
05 11 «боец СВО, оказавшийся, на удивление, наследником древней космической, и могущественной цивилизации» обожемой! какой полёт мысли у автора! какая акутальность шыдевра! какая смелая интерпретация событий! ну и так далее. Вот ………
Sanyok89 про Пелевин: A Sinistra | А Синистра | Левый Путь (Триллер, Современная проза)
05 11 Ну хоть одна более-менее читаемая книга из этого цикла. Завершать уже пора этот трансгуманизм, а то Санта Барбара какая то Оценка: неплохо
Олег Макаров. про Андрей Владимирович Курпатов
04 11 Доктор Курпатов, Доктор Курпатов, Доктор Курпатов - многократное повторение этого словосочетания создало у многих превратное представление о том, что А.Курпатов является доктором наук. На самом деле человек имеет только ………
Lena Stol про Искаженный мир
04 11 Прочитала обе книги, пропускала много, особенно во второй части, хороший сюжет, но уж очень автор растянул. Если из двух книг сделать одну, будет интереснее.
udrees про Михеенков: Маргелов (Биографии и Мемуары)
04 11 В книге встречаются интересные упоминания, например про новобранцев с Западной Украины, «командиры были им не рады», они ненавидели оба режима, были коллаборантами, вообще удивительно, как они воевали в рядах Красной Армии, ……… Оценка: неплохо
udrees про Вальтер: Реквием [СИ litres] (Боевая фантастика, Социальная фантастика, Приключения: прочее, Самиздат, сетевая литература)
04 11 Вот и завершилась история четверки отморозков, что портили воздух после начала Армагеддона. Таких отбитых персонажей еще надо поискать, но у автора есть еще похожие циклы произведений с таким же отребьем в роли главных героев. Книга ……… Оценка: неплохо
udrees про Келли: Сатана. Биография (История, Религиоведение, Религия)
04 11 Просто какая-то религиозная муть, что я могу сказать про эту книгу. Автор конечно проделал большую работу, достойную кандидатской или даже докторской диссертации, изучил множество источников, анализировал, сопоставлял, делал ……… Оценка: плохо
udrees про Мантикор: Город, которого нет 2 [СИ] (Фэнтези, Самиздат, сетевая литература)
04 11 Книга все больше начинает напоминать серию книг автора – Покоривший Стену. По крайней мере начинаешь встречать знакомую терминологию – энергет, изнанка, пустотная магия, мертвая магия, цветы эдельвейс, артефакты некоторые. ……… Оценка: отлично!
udrees про Мантикор: Город, которого нет (СИ) (Фэнтези, Самиздат, сетевая литература)
04 11 Первая книга серия захватывает с первых страниц, потому что без предисловий герой, как и в серии книг из Покоривший Стену, просыпается уже в новом мире, в новой Игре. Так что амнезия на старте и изучение непонятного мира, ……… Оценка: отлично!
Belomor.canal про Маттиоли: Темные финансы. Неликвидность и авторитаризм на окраинах Европы [Dark Finance: Illiquidity and Authoritarianism at the Margins of Europe ru] (История, Экономика)
03 11 Впечатляет, что смогли провернуть шустрые македонцы, вместе с евродепутатами! "Скопье 2014" - евро откаты и как это делается в развитой демократии. Оценка: отлично! |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?