Курьезы сканировщика
Опубликовано вс, 31/07/2011 - 09:26 пользователем Алексей_Н
Forums: Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
kopak RE:Таинственная личность админа Флибусты 18 часов
Isais RE:Не тот автор 1 день xieergai60 RE:Продление подписки 3 дня TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 6 дней Isais RE:Древняя Греция. Читаем... 6 дней laurentina1 RE:Ирина Александровна Велембовская - Немцы 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя Саша из Киева RE:Избранное 2 недели Alligatoreader RE:Багрепорт - 2 2 недели fedor.de RE:Отображение страницы Librusek 2 недели Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 2 недели blahblahblah2024 RE:Беженцы с Флибусты 3 недели sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 3 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 1 месяц Oleg V.Cat RE:B343695 Александр. Книга 1 1 месяц Isais RE:Калибрятина/Самиздатина 1 месяц md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц Впечатления о книгах
Sello про Розенблат: Рассказы [СИ] (Проза, Эссе, очерк, этюд, набросок)
08 12 Я не знаю, где живет сейчас этот товарищ, но, по указанной дате под рассказиками, в 2016г. он пребывал в Израиле. Вот проблема. "Писатель" выставляет перед некоторыми текстами эпиграфы из Набокова, а собственно само написанное ……… Оценка: нечитаемо
Dongel про Шалашов: Господин следователь 1 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
07 12 Дочитал четвертую книгу цикла. Мне очень понравилось! Во-первых, автор проделал колоссальную работу, собирая исторические и архивные материалы. Во-вторых, все повествование очень увлекательно, почти нигде нет "провисающих" ……… Оценка: отлично!
Саша из Киева про Шатирян: Музыкантская команда (Детская проза)
07 12 Кто-нибудь сможет преобразовать эту книгу из djvu в fb2?
Олег Макаров. про Мусаниф: Во имя рейтинга (Юмористическая фантастика)
07 12 Великолепная книга. Как, в общем-то и все остальные у Мусанифа. Что касается мнения уважаемой Vetrenitsa «я категорически не согласна с тем, что, что по телевизору покажут, в то люди и поверят» — думаю, последние три ……… Оценка: отлично!
Isais про Велипольский: Три «Остапа» [СИ] (Научная фантастика, Самиздат, сетевая литература)
06 12 Это, надо заметить, очень редкая птица — научная фантастика, которую следовало бы написать и издать в 1924-м. Или, по крайней мере, в 1956-м. А она каким-то странным образом залетела в 2016-й... Выходит, и среди рассказов бывают «попаданцы».
Mila_48 про Сорока: Чорна Рада, 1663 [uk] (История)
06 12 С благодарностью верстальщику за возможность прочитать эту книгу. Удачи! Оценка: отлично!
дядя_Андрей про Горбатенко: Диверсант. Искусство активной разведки (Публицистика, Спецслужбы)
06 12 kyns71, ну, можете не друг друга. Можете на "куклах" учиться
Skyns71 про Горбатенко: Диверсант. Искусство активной разведки (Публицистика, Спецслужбы)
05 12 Великолепные советы! Особенно впечатлил совет учиться рукопашному бою, избивая друг друга в полную силу "по ключицам, по зубам, по ребрам". А так же делать это деревянными дубинками. Как говорится, был бы мозг - было бы ………
Isais про Ткачёв: Всё ж силу слов пусть борет сила слов (Ироническая фантастика, Сатира)
04 12 Для тех, кому непонятны толстые намеки сатиры "для своих": Мещера и Казань на культурной карте России рядом, сказал "Мещера" -- звучит почти "Казань". Так что Мещерзанцев -- это... да, почти всемирно знаменитый советский ………
Stanislaw Wartownik про Мюссе: Гамиани, или Две ночи сладострастия [Gamiani ru] (Классическая проза, Эротика)
04 12 Понятно почему это явилось таким скандальным романом в своё время - 1833 год, однако! Довольно лихая эротика: необузданные бурлящие страсти, оральный секс, групповой секс, зоофилия (пёс вместо мужчины, ...бррр!) ……… Оценка: неплохо
Barbud про Птица: Аксум (Альтернативная история, Исторические приключения)
04 12 Точно другой мир, не нашенский - оказывается, слова "Кассиопея" и "птеродактиль" в нем имеют не греческое, как у нас, а латинское происхождение))
decim про Мадер: Отто Скорцени - диверсант №1. Взлет и падение гитлеровского спецназа (История, Биографии и Мемуары, Публицистика, Спецслужбы)
04 12 Взята хорошая старая книга Юлиуса Мадера "По следам человека со шрамом", скомпилирована с материалами других авторов - не указывая, кто какую часть написал. Начало - из книги В.Г.Чернявского "Операции советской разведки. Вымыслы ……… |
Отв: Курьезы сканировщика
И у меня тут недавно при распознавании курьёз случился.
Отв: Курьезы сканировщика
Шля - Галя
Отв: Курьезы сканировщика
У меня наоборот, были гнойные пидеры, а стали - гнойные лидеры! :=)
Отв: Курьезы сканировщика
Милое и привычное «н»=«п»
вошел в гостиничный помер
раздавили бунтовщиков тапками
высокопоставленные чипы
члепы Политбюро
Отв: Курьезы сканировщика
"ветхий дом с голубыми наяичниками"
Отв: Курьезы сканировщика
По-моему, это прекрасно: чеболыпой костерок = небольшой костерок.
Отв: Курьезы сканировщика
Замечательная ошибка просто.
Сноска: «Баффи — потребительница вампиров» — американский телесериал о девушке...
Отв: Курьезы сканировщика
Мальчик-с-нальчик
Отв: Курьезы сканировщика
Отлично!! Это про Билана!
Отв: Курьезы сканировщика
сканировщик - онанировщик
Отв: Курьезы сканировщика
(задумчиво) а в чем-то оно право....
Отв: Курьезы сканировщика
докус та вместо до куста, голов удержит вместо голову держит
Отв: Курьезы сканировщика
Писхолог отрицательно покачал пальцем.
Причем так и на бумаге. И не понятно, блин, опечатка или автор над психологом приколоться решил. Придется так оставить.
Отв: Курьезы сканировщика
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.
Представил себе картинку. Это прямо ужастик какой-то выходит...
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)
Отв: Курьезы сканировщика
А, может, вараны? Тоже неплохой ужастик просматривается. Такие громадные... С высунутыми языками...
Отв: Курьезы сканировщика
"Пенис священнослужителей" вместо "Пение священнослужителей".
Отв: Курьезы сканировщика
В тексте достаточно часто появляется фамилия Стиханов, фр упорно распознаёт её Стаханов. "наряду" у него "народу", но есть ошибки которые практически невозможно выловить),напр. вместо "исписанные",распознаёт "написанные". У меня развивается маниакальная подозрительность к его распознаванию.))
Отв: Курьезы сканировщика
Что-то в Эбби начудили в последних версиях ФР.
До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.
Если со всякими неудобствами в более старых версий ФР вроде лишней ручной работы можно смириться, то такое корежение текста в новых версиях, которое зачастую вообще ничем не выловишь - нафиг-нафиг.
UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.
Отв: Курьезы сканировщика
согласно кивает собственной ГН головой
Отв: Курьезы сканировщика
Это от исходного материала зависит. Есть такие книжки, где буквы н, и, п, ц даже глазом различить трудно. И с, о, е тоже. Вот в них-то такие лулзы и встречаются.
Отв: Курьезы сканировщика
Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д.
Можем с тобой провести эксперимент: распознать один и тот же текст разными версиями и сравнить результат (без доп. обработки).
Есть книги, где едва наберётся с десяток ошибок распознавания (при хорошем качестве скана), а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит). Такшта... ;)
Отв: Курьезы сканировщика
У меня даже была одна фотканная книга, где было менее 10 ошибок.
Отв: Курьезы сканировщика
Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )
Мне эти фразы типа ...качество "намного выше" а потом "еще намного выше" ни о чем не говорят )
Поскольку 8 версия ФР распознает нормальные сканы и так прекрасно, если шрифт более-менее стандартный и бумага - не газета 100-летней давности, содранная из-под обоев )
Отв: Курьезы сканировщика
Ну, так, чтобы смысл текста менялся - у меня такого не было. А "сложные", когда приходится внимательно смотреть и частенько править, - изволь:
14 стр.
Выложи экпорт после распознавания, а я выложу свой. Сравним. :)
К тому же ФР11 работает в несколько раз быстрее, чем предыдущие версии (даже ФР10), но оставим это за скобками. ;)
Отв: Курьезы сканировщика
Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.
Попозже выложу получившееся (отметил косяки распознавания красным болдом), дома инет побыстрее )
Отв: Курьезы сканировщика
Ну, если порядка 10, то можно и не выкладывать. У меня приблизительно столько же. Может, 8. Может, 7. Не слишком принципиально.
Большинство из них вылавливается при помощи скрипта "поиск по регэкспам", который ты, собственно, и заполнил большей частью. ;)
Но поверь мне, 11-я версия - это качественный скачок вперёд даже по сравнению с 10-й. У меня-то есть опыт работы с каждой, начиная с 6-й. И последняя значительно отличается от всех остальных. Хоть и со своими "заскоками", отрицать не буду.
Я не уговариваю тебя переходить на неё, но говорить о том, что 8-я лучше... э-э-э... м-м-м... ну, неправильно, скажем так. ;)
Отв: Курьезы сканировщика
Кинь в меня рабочей версией, плиз, (можно в личку), я ее посмотрю параллельно )
Качественный скачок говоришь? )
Я бы рад согласиться, но только и слышу, начиная с 10 версии, ФР о "чудесах" распознавания, включая полную отсебятину в тексте, массы дурацких стилей, потерю кусков текста, потерю сносок и проч.
Каждый раз читаю такие топики про новые ФР и удивляюсь, все было ок с распознаванием, а тут такие косяки лезут.
Оно мне надо?
Скорость распознавания в новых версиях выросла?
Зато потом прочитать от корки до корки придется каждое слово?
Оно мне зачем?
Я поставил распознаваться 500 страниц и пошел курить или чай-кофе пить )
3 минуты мне погоды не сделают )
Зато уверен, что текст не будет искорежен )
Отв: Курьезы сканировщика
Угу.
У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.
Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.
И ещё мне очень не хватает отменённой возможности добавлять в словарь все парадигмы слова. Но это терпимо. Многие и не пользовались этой возможностью вовсе.
ФР11 можно взять, например, здесь.
Отв: Курьезы сканировщика
1) Не понял, в чем тут скачок? Позволяет тем, кто хочет тяп-ляп, сразу получить фб2, и закинуть в инет?
Пользуюсь после ФР вордом со скриптами и ФБД, заодно отлавливаются разные кривые концовки предложений и проч. Потом уже в ФБЕ.
2) В чем скачок тут? На 8 версии никогда не наблюдал проблем с сохранением или добавлением руками болдов-италиков. Только что проверил в 8 версии - прекрасно сохраняется и добавляется.
3) Уж не помню, когда последний раз были проблемы с тире в диалогах. ЕМНИП - может, в 6 версии сталкивался, да и то нечасто.
4) Сама понимаешь, сомнительный аргумент. Склейка отслеживается в ФР без проблем. Разорванные легко лечатся скриптами ворда, фбе и т.п.
5) Чистка и правка текста никуда не денется. Мне, например, многое сильно проще скриптами и регэкспами в ворде поймать. И потом все равно найти еще какие-то буковки для правки в ФБЕ )
6) Насколько быстрее? Компенсирует ли это отсебятину в тексте? (подлинным - по длинным и подобное)?
7) Назвать хорошим распознавание, когда надо следить, не пропал ли текст, я назвать не могу при всем желании.
Для меня это главный кошмар, когда надо за ФР еще проверять, весь ли текст распознается и передается.
Для чего возня со стилями - в чем преимущество вообще в их наличии в ФР? Можно ли выключить стили совсем (не потеряв болдов-курсивов) и не переживать за сохранность кусков текста?
8) Обработка сносок - существенный момент, когда их много.
В итоге - очень сомнительные преимущества лично для меня.
Спс, гляну )
Отв: Курьезы сканировщика
Ну и ладно. Зачем мне переубеждать всем довольного ТаКира? В-)
Отв: Курьезы сканировщика
Да, я ретроград )
Как в том анекдоте - "только ради бога, ничего не трогай, ничего не меняй" )
(Привет Тигра)
Но 11 ФР качаться поставил, спасибо )
Отв: Курьезы сканировщика
Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?
Отв: Курьезы сканировщика
Нет. Разрыв строки и мягкий перенос - как и в предыдущих версиях.
Отв: Курьезы сканировщика
А у меня остались ностальгически-светлые воспоминания об FR5.
Возможно он и проигрывает нынешним версиям в скорости и где-то в качестве распознавания, но у него были и огромные преимущества, например, на автомате очень точно подбирал яркость так, чтобы тень в развороте книги (в ямке) не сливалась с текстом, т.е. не было ни кляксы, ни белой дырки. Это позволяло сканировать книги довольно бережно, не разворачивая и не прижимая их так сильно, как часто требовалось в более поздних версиях. Проблем с диалогами было меньше, потому что оформление их списками появилось позже, начиная с версии 6. И главное, ни разу не было, чтобы какой-то кусок страницы (особенно последние строки) вдруг просто проигнорировался, как сейчас бывает. А тогда я сканировал реально помногу. Сейчас-то только балуюсь иногда.
Отказаться от FR5 пришлось (с огромным сожалением) только из-за перехода на новые версии Windows.
И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?
Отв: Курьезы сканировщика
Задумалась. У меня ФР11 лицензионный. Может, и правда дело в этом?
Отв: Курьезы сканировщика
Разбираюсь с ФР 11.
Есть вопросы по алгоритму )
Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после?
Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера.
Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2.
Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия?
Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2?
Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально.
(Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах).
Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!
Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п.
Отв: Курьезы сканировщика
Добавила. :)
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Исследовал явление "отсебятинга" на книге "Сироты квартала Бельвилль". Буковки тоненькие, FR постоянно путает "и", "н" и "п". Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов. :-( Занёс слово "Рири" в словарь и прогнал распознавалку по новой - как рукой сняло. :-)
Отв: Курьезы сканировщика
Я при обнаружении подобной постоянной ошибки делаю массовую замену - с учетом регистра и - в подходящем случае "только слово целиком".
Фокус со словарём мне несколько раз не помог, поэтому я им не пользуюсь.
Спасибо за нормализацию сайта!
Спасибо администрации Либрусека за нормализацию функционирования Библпотеки! Теперь можно вернуться
Отв: Курьезы сканировщика
Я использую FR11 выпуск 11.02.102.583 - практически никаких проблем. В последних книгах плохо распознавал сочетание "гр" выдавал, например, вместо гроб - фоб.
Отв: Курьезы сканировщика
При проблемах с распознаванием ФР ищет ближайшее слово в словаре. Отсюда эти курьезы. При хороших сканах ничего подобного не наблюдается. На сайте Twirx скачал две книги. Кто-то залил не проверяя. Видно прямо из ФР. Там по всему тексту вместо "гр" - "ф", "ыо" - "ью", "JI или J1 - Л" и т. п.
Отв: Курьезы сканировщика
(del)
Отв: Курьезы сканировщика
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))
А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск
Отв: Курьезы сканировщика
У меня нет советов в данном случае. :( Не сталкивалась. Может, кто-то другой подскажет.
Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.
Отв: Курьезы сканировщика
в настройках экспорта djvu поставил 150dpi...
Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...
Страницы