Как правильно отсканировать?

Есть сканер, есть Файнридер, есть книга, которую хочу выложить, точно знаю, что в сети её нет. Посоветуйте правильные настройки при сканировании (разрешение, цвет...) и в каком формате лучше сохранять? Я пытался в ПДФ, но он даже при скромных размерах книги получается почти 60 мег. Что я делаю не так?

Комментарии

Разрешение при обычном шрифте - 300, при мелком или если есть мелкий, приходится ставить 600, но это, обычно, медленней выходит. Цвет - если печать четкая, контрастная, лучше выбрать черно-белый, если бумага не особенно белая и печать не фонтан, то приходится ставить серый. Яркость придется подбирать опять же, если качество плохое.
Сохранять конечно в Word с опцией "форматированный текст" (точную копию, редактируемую копию не делать - задолбаешься чистить идиотское форматирование). В опциях убрать всякие сохранять деление на строки, страницы и проч.

Да, картинки, похоже, лучше сканировать отдельно и отдельно обрабатывать, а потом воткнуть сразу в fb2.

разрешение 300 dpi и в градациях серого (gray scale),
ну а FR умеет и в формат MS Word сохранять, из которого можно и txt и html сделать

Совершеноо правильно. Это наилучшие параметры для распознавания FR при нормальном шрифте и качестве оригинала.
При большем разрешении (600) начинает вылезать много "лишних" букв, полученных из точек, запятых и просто пятнышек на бумаге. Если с качеством что-то не так, или нужно не распознавание, а сохранение в графике (djvu, pdf) - необходимы эксперименты для достижения наилучшего результата. Если предполагается после сканирования распознать, а вы сами не уверены в своем умении получить валидный fb2, то, возможно, лучше выложить в Сеть сразу графику после сканирования в FR, или, по крайней мере, doc. Кто-нибудь доделает; djvu, pdf для перевода в fb2 потребует нового распознавания. Только не говорите, плз, по txt и html ! Финал любой электронной книги на сегодня - fb2 ! Без этого книга будет невалидна в коллекции, поддерживаемой автоматически, в том числе и на Либрусеке, и тогда - грош ей цена. Иные форматы - только djvu и pdf, в случае, если необходимо (множество формул или картинок). Предпочтительно djvu, т.к. не все в состоянии качать pdf в десятки Мб.

а чем фб2 печатать? при том что оно будет печататься не в оригинальном размере и отнюдь не на бумажке формата а4. а перед этим хорошо переделано??

Элементарно, Ватсон! ;) Почти каждая приличная читалка (к примеру, AllReader) достаточно корректно переводит fb2 в txt и html - печатайте на здоровье, и в любом формате! Для изменения форматов при печати есть специальные программы, иногда весьма заумные (если Word не устраивает). А вот наоборот, сделать хороший fb2 из txt - это если и не "высокое искусство", то уж не для чайников, точно ;). Опять же, если на Либрусеке файл в fb2, то вы по желанию можете скачать его в txt или html. Но не наоборот!
А теперь встречный вопрос. У меня в библиотеке примерно 50000 книг. Чем их каталогизировать, если они будут не в fb2? :( Таким образом, ваши любимые форматы - только для тех, кто печатает (таких не так уж много, дороговастенько, извините, и зачем мне печатная книге, если есть e-book или КПК), а fb2 - для всех :). А уж если точно нужен размер оригинала, разметки по страницам и т.п. - так это djvu или pdf. Только к чему это? Читателю в основном интересен текст, а не размер и цвет обложки ;).
Опережая возражения - fb2 не идеал, и не для всех книг подходит, и уж подавно не всегда корректно сделан, увы :(. Но это на сегодня - меньшее из всех зол. С прискорбием вижу, что на Либрусеке появляется все больше txt и html файлов, которые никто и не думает переводить в fb2, и они лежат мертвым грузом. Понятно, что библиотекари не справляются с большими потоками загрузок (я не силен в этом деле, да и времени нет помогать, тем более, что наезды со стороны специалистов, например, на peshehodrost, что, мол, ваш fb2 хуже атомной войны, отбивают и охоту пробовать ;).

computers написал:
... наезды со стороны специалистов,....

Это Вы не про недавнее ли выступление Анархиста? ;)

Нет, это было раньше, месяц или два назад, когда кто-то забанил peshehodrost за заливку нескольких невалидных fb2 файлов, потом извинился, и пошел флейм на неделю :(.

Мертвым грузом??? Я предпочитаю читать в HTML, PDF, DOC или даже DJVU, чем не читать вообще. Качаю обычно HTML а не FB2.

Вам следовало чуть внимательнее прочитать мой пост ;). При наличии в библиотеке fb2 он может быть скачан в html, а наоборот - нет! Вы можете предпочитать что угодно, но не запрещайте того же и другим, плз! Многие предпочитают как раз fb2 благодаря наличию автоматической обработки таких файлов.
И, пожалуйста, не начинайте очень старый спор: я сам всегда отстаивал позицию, что лучше любой файл, чем никакой, вы говорите то же самое. Но в дальнейшем все файлы должны быть конвертированы в валидные fb2.
Кстати, библиотекари! Как раз сейчас/сегодня кто-то масcово льет невалидные fb2 на Либрусек. Озадачьтесь, плз, и обработайте!

Для начала определитесь, хотите Вы текст распознавать или нет? (при условии конечно, что это вообще возможно) Если да, то никакого PDF, правильные инструкции дали выше. Если без разпознавания, то сканировать в черно-белый 600dpi и собирать в djvu. Цветные картинки, если есть, вставлять отдельно.

Вообще, смотря что сканировать. Часто хватает и 200 дпи...
И ещё... не всё так радужно. Отсканировать - это пара пустяков... Распознать тоже. А вот собрать всё вместе, намного сложнее. Может я и сам чего-то не понимаю... Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса...
И вообще... Проблемы с переходом со страницы на страницу...
Не знаю кто как. я же состряпал кучу макросов, чтобы полуавтоматизировать процесс обработкт после сканирования...

leoparrd написал:
Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса...

Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху. Останется только ликвидировать мягкие переносы в Word'е. Но часто область текста сильно "плавает" и все номера страниц отсечь не удается.

oldvagrant написал:

Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху.

Эта функция появилась в 9ой версии, чем существенно облегчила жизнь)
Вот только я не совсем понимаю - а зачем сканинь? Это ж прошлый век... Книжка гнется, сканер тарахтит. По-моему, проще прикупить простенький цифровик, пульт к нему, а штативчик для книг можно сготовить самому...
Требования: автофокус, макросъёмка, подешевле.
На мой взляд, самый идеальный для этого аппарат:

как обладатель фотика говорю что сканить удобнее.
так как при нормальном сканировании нет завалов страниц. а штатив - он нормальный стоит дороже чем сканер. который еще к тому же может сканить немаленькие запасы старой пленки.

Сканер который стоит дешевле нормального штатива не сможет нормально отсканировать негативы, т.к. несмотря на наличие слайд модуля для этого в общем-то не предназначен.

У фотоаппарата тоже немало проблем, но он по крайней мере значительно ускоряет процесс сканирования.

Простенький фотик ускоряет процесс получения снимков страниц (покетбук 400 страниц - за полчаса), но последующие проблемы с получением качественного результата распознавания сводят на нет всю эту скорость.
Особенно при съемке текста на фиговой бумаге, текста с большим кол-вом курсива или некачественной печати книги.

Если гнать текст в тхт, то на многие вышеуказанные проблемы можно смело забить, но однозначного рецепта тут нет.
Крупный текст без кусивов и болдов, без сносок и индексов на приличной бумаге дешевыми фотиками берутся на ура.
На остальных процент ошибок распознавания доходит иногда до 10-15 штук на страницу (против 0-1 на сканере).
Так что быстрота съемки оборачивается заметно более долгой правкой в ФР, если делать качественно, а не гнать в фб2 текст как есть.

корректные номера страниц влегкую удаляются подходящим макросом или за минуту заменой.
Переносы - надо еще в ФР пройтись поиском связки дефис+разрыв строки, их обычно не так уж много, и про переносы можно забыть.

Макросы, ес-но, рулят.

http://www.djvu-soft.narod.ru/ - вот хороший ресурс.

Отсканировать - и распознать пол-беды...
Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания.
Во многих книгах встречаются именно недочёты связанные со стыковкой текста.
Вот бы я и мог поделится опытом....
1. Приёмы сканирования, на что обратить внимание
2. Как лучше всего распознать
3. Как провести предварительную проверку.
4. Что делать в Word, после экспорта в него текста
5. На что обратить внимание. Как полуавтоматизировать стыковку.
6. Какие функции нужны и как написать макросы для их выполнения.
Ну и ещё множество мелочей...
Хотя многие сами с усами... Но ошибки остаются...

leoparrd написал:
Отсканировать - и распознать пол-беды...
Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания.
Во многих книгах встречаются именно недочёты связанные со стыковкой текста.
Вот бы я и мог поделится опытом...
...Хотя многие сами с усами... Но ошибки остаются...

Почему бы и нет. Даже у тех многих, которые с усами, какие-то моменты могут быть упущены. А те, кто без усов - получат меньше синяков и шишек. :)
Маленький ликбез - это хорошо.

1.. ну тут во что гаразд - многое зависит от исходного материала и сканера. елси реально - сразу снести не сканируя всякие номера страниц и верхние повторяющиеся строки - просто заданием области сканирования.
2.1. желательно распозанвать с 1 языком ну или двумя по типу "русский, цифры". распознание "русский, цифры, английский" пройдет уже хуже. и с каждым новым языком все хуже и хуже.
2.2. обучение (создание пользовательского шаблона) имеет смысл только если количество страниц распознавания перевалили за 15-20. иначе чаще всего проще поправить руками...
2.3. после проведения анализа блоков просмотреть полученное и переделать - чем меньше реально блоков на странице тем лучше. то етсь файнридер при приличном расстоянии между абзацами выделит их как два блока. лучше сделать один. мусор потомо можно убрать а вот если файнридер начнет при выводе швыряться фреймами - будет не весело. исправление перекоса - включать только по необходимости - то есть если сканировались книжные развороты. то же с раделением страниц.
ну а остальное вроде как уже написал в предыдущем посте...
p/s еще сильно рулят сканеры с автоподачей - сиильно выручают ( на работе такой) иногда для получения толковой копии проще распотрошить имеющуюся книгу и потом заново ее сшить. или вообще распечатать по новой. при правильной обработке качество получите куда как приличней. или, как минимум, нехуже...

Ликбезы из закладок (отсортировано по возрастанию детальности):

http://oldsf.ufacom.ru/OCR.html
http://militera.lib.ru/ocr/index.html
http://vgershov.lib.ru/OCR/_Ocr.html
http://yanko.lib.ru/scan.html

к стати, господа, а почему все умалчивают о том чтот бороться с переносами проще всего как раз оставив форматирование неизменным - то есть пусть себе лепит файн ридер разрывы строк и ентеры везде где подозревает. потом в ворде набрасывается простенькая приблуда, которая бахнет сочетания типа тире + разрыв страницы и тире разрыв строки... и всего делов то...
вот я например с форматированием левых текстов борюсь так:
в основном абзацные отсупы приемлимо отформатированы в большинстве файлов. например пробелами или табуляторами. в примитиве абзацный отступ заменяется на символ которого с гарантией нет в тексте, если форматирование пробелами и больше например 4 то замену проводить взяв за отступ на 1 меньше чем приято в файле - на всякий с лучай (чаще всего проходит тот же табулятор - предварительно проверив а есть ли он) после данного мероприятия сносятся лишние переносы и прочие радости как я уже писал выше, убираются разрывы строк или заменяются на ентер если это надо. потом проводится забавный фортель - все ентеры и разрывы строк заменяются на пробел. после чего табулятор меняется на ентер. все. осталась доводка - снести парные строки, парные пробелы, убрать лишние пробелы вокруг знаков припинания. пробелы в абзацном отсупе и все...
Если же форматирование абзаца явно не задано - часто вполне прилично получается использовать ентер/разрыв строки+отступ либо отступ и первая большая буква в слове...

ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают.

leoparrd написал:
ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают.

Кто сказал "не надо"? Надо, конечно. И про макросы тоже. ;)

Переносы и разрывы строк совершенно не критичны, если из ворда в фб2 переводить через БД-ФБД.
Или ocr pad использовать.
Но лучше сразу отключать это в ФР, конечно.
Ну и поиском в ФР по дефис-разрыв строки пробегаться.
Занимает пару минут, зато потом все чисто.

Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной:

1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ...

2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ?

3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ?

4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ?

5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ?

Lord KiRon написал:
Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной:
1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ...

Я частенько хватаю картинку вместе с надписью к ней каким-либо screenshot-м, а затем в фоторедакторе надпись выделяю, максимально увеличиваю, и тогда она остается элементом картинки. Таким же образом можно увеличивать отдельные плохо различимые элементы изображения, если нужно, в схемах, например.

Lord KiRon написал:
2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ?

Еще можно (помимо того, что рассказала Голма) позагонять все сноски в квадратные скобки (или фигурные) возле слов, которые они поясняют. Затем воспользоваться скриптом "примечания из {} или []. Бояться экспериментировать не нужно - Вы же можете наделать кучу копий своего файла и поиздеваться над каждым. А посмотрев на результат издевательств уже решить, как Вам поступать в дальнейшем.

Lord KiRon написал:
3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ?

Таблицы в fb2 - беда. Только картинками. Можно попробовать увеличить шрифт в исходнике и взять с экрана. Отдельные эл. можно увеличить, но да - fb2 для них не слишком удобен.
Lord KiRon написал:
4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ?

Можно цитатой, как пишет Голма, обратите внимание - субтитлом. Можно вместо цитаты выделить этот текст болдом. Можно поэкспериментировать и сделать в виде картинки.

Lord KiRon написал:
5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ?

Лишних body лучше не разводить, а пользоваться все же вложением секций. Тогда проще в читалках будет переходить по содержанию к нужному пункту. В FBE (версии 2.0) есть инструмент, расположенный под структурой документа. C помощью этих стрелочек легко корректируется вложенность секций.

Спасибо, единственное что по пред последнему пункту - болдом лучше ничего не делать - большинство конвертеров включают болд на все автоматом "чтобы лучше выглядело".
Да, кстати , когда делаю ссылку [1] или что то типа такого то "1" становится суперскриптом - это нормально ?

Техническая литература нетривиальной сложности делается в djvu. О переводе в fb2 можно сразу забыть, так как во-первых: fb2 не поддерживает необходимое оформление и во-вторых: результат никому нафиг не будет нужен.

А чем djvu лучше чем текстовый PDF ?
Кстати о последнем , думал вообще то в нем делать но столкнулся с такими проблемами 9-го файнридера :

- он мне с пару тысяч стилей понаделал как это все приивести к 3-м фонтам с 2-3-мя размерами в каждом кроме как "ручками" не понятно, причем там один и та же комбинация фонта/размера/межбуквенного растояния/"выделения" все равно может выглядеть в зависимости от стиля не одинаково, иногда такие огромные буквы получаю ...

- при переносе в PDF или DOC(X) (кстати все 3 дают разные результаты что весьма раздражает, особенно разница между DOC и DOCX) некоторые строчки "вылазят" за страницу. Как это чинить не понятно, если в Файнридере включить показ невидимых символов то можно видеть что там для перехода на другую строчку используется значок выглядящий стрелкой вроде enter-а а иногда (чаще в конце абзацев) значек выглядящий как прописная буква "П". В тех местах где ни одного из вышеперечисленных значков нет получается длинная строка. Впрочем даже если добавлять значек enter руками то возникают проблемы с расположением начала следующей строки, похоже там свои невидимые символы и правила. Короче фигня получается... :(

У кого есть идеи по борьбе с вышеперечисленными проблемами ?

>>А чем djvu лучше чем текстовый PDF ?

Идеального текстового естественно ничем не лучше. Но беда как раз в том, что техническую литературу как правило невозможно перевести в приличную текстовую форму. Приходится вставлять большие куски картинками. Поэтому правильный вопрос звучит так: А чем djvu лучше чем "картиночный" PDF? Например размером - в 5-10 раз меньше.

Достоинства djvu кроме того: нет потерь информации (отображение документа один к одному), сохраняется целиком авторское оформление, не требуется вычитка. Тем самым дается гарантия отсутствия ошибок сканировщика, которые в технической литературе смерти подобны. Именно по этой причине научная/техническая литература должна сканироваться только в графические форматы, никакой fb2 и иже с ним недопустимы.

Спасибо , а чем его djvu вообще делаю и где "это" взять ?

Цитата:
Спасибо , а чем его djvu вообще делаю и где "это" взять ?

Lizardtech Document Express Editor

Взять можно у jurgennt:
http://reeed.ru/prog_djvu_ee.php

или у Ulenspiegel:
http://www.onlinedisk.ru/file/40608/
http://www.onlinedisk.ru/file/40612/
http://www.onlinedisk.ru/file/40613/

Ну и до кучи:
Ни корысти ради...Конвертация PDF to DJVU-1
Прошу помочь с формирование .djvu

Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками, правда размер действительно более чем в 7 раз меньше.
Да кстати вторая группа линков чо вы дали ( от Ulenspiegel) - померли :(

>>Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками

Значит что-то не так.. Вы, надеюсь, в tiff сканировали? Выложите куда-нибудь одну страничку, попробую сам сконвертировать.

TIF , 300 dpi , результаты все тут в либрусеке:
http://lib.rus.ec/b/137391
http://lib.rus.ec/b/142440
огромный PDF и DJVU , источники понятно еще больше. Качество скана хреновенькое , но книга редкая , дорогая и "уезжала" вечером так что сканил в спешке. PDF понятно уже и сам немного "пожатый" по сравнению с оригиналом из которого делал DJVU но все равно на порядок лучше.
Кстати, как бы их вместе обеденить , чтобы книга была одна и два формата для даунлоада.

Ух. Там размер не в семь, а в 45 раз меньше! 275 MB pdf против 6 MB djvu. С либрусековской скоростью 10 KB/s я этот pdf до посинения качать буду. А нельзя просто пару страниц исходного скана выложить? Чтобы перегнать в djvu и сравнить с Вашим результатом.

Вот глянь : http://rapidshare.com/files/210615338/0210.tif
это не совсем оригинал , это после того как ФайнРидером deskew сделал и страницы порезал пополам , но оригинала сейчас тут у меня нет - дома.
Теперь глянь на страницу 9 в DJVU - как видишь серьёзно попорчено, особенно раздражает что текст пошел какой то гребенкой.

И не удивительно, что попорчено :)) Это, простите, не скан, а некое у..хм..божество. По пунктам:

1) Невалидный формат, его не открывает ни Photoshop CS2, ни Кромсатор.
2) Отсканирован в цвета серого. Перевод из серого в ч/б без "лесенки" невозможен.
3) Ну и само качество. Как надо было извернуться, чтобы текст пошел волнами и пятнами?

Из такого действительно сложно сделать что-то приличное. Странно, что получилось еще вполне читаемо и сравнительно небольшого размера. Вот пример djvu, каким он должен быть (не считая OCR слоя): http://lib.rus.ec/b/119872

P.S. Кстати pdf можно тогда из библиотеки наверное удалить?

1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net.

2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF , типа в графике только картинки, может еще и сделаю, просто задолбался из за неудобства ФайнРидера (см. выше первый пост).

3. Ну тут уж как получилось :) очень спешил , там 400 страниц и отсканировать надо было на медленном сканере за часов 5. Щас кстати себе на день рождения :) заказал Plustek - посмотрим что выйдет но этой книге это уже не поможет :(.

Насчет удалить PDF ..., не знаю, можно наверно , залил в принципе в надежде что может кто то сделает на его основе что получше.

Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый.

>>1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net.

TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так.

>>2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF

Да, для OCR иногда имеет смысл. Но djvu делается всегда в ч/б, за исключением каких-то специальных картинок, фотографий ит.д. Ну и если в ч/б просто не получается по причине ветхости книги или дурости сканера..

>> Щас кстати себе на день рождения :) заказал Plustek

Удачи с ним :) Будем посмотреть на результаты.

>>Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый.

Значит просмотрщик неправильно настроен. Возьми WinDjView и поиграй с увеличением, у меня например на 125% абсолютно четкий вид. Можешь поставить максимальное увеличение и посмотреть на края букв - они все ровные. Качество того файла близко к лучшему из возможных.

Stiver написал:

TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так.

Эээ.... Tagged Image File Format ? Пан ничего не путает ?

>>Пан ничего не путает ?
Что именно? :) Что у меня он не открывается? Нет, не путаю. У кого время есть, проверьте кстати - вдруг у меня одного Photoshop и Kromsator такие странные. Или что TIF - контейнер? Тоже не путаю, по формату можно внутрь хоть JPG запихнуть, если очень хочется.

Ну вообще то JPEG внутри TIF называется EXIF JPEG :) а TIF действительно бывают разные - uncompressed , LZH compressed (это самые распространенные) и так далее вплоть до TIF с JPEG2K lossless , приведенный выше файл открывается даже видовским Paint , правда глянув на него внутрь пришел к выводу что это похоже вообще BMP которому FineReader зачем то дал extension TIF.

Именно WinDejavu и смотрел , на FitPage на 22" мониторе с 1600х1280 , впрочем на 135% действительно смотрится получше, размазанность почти не заметна если не искать.

1. image title, насколько я понимаю, это тот текст, который показывается при наведении курсора на картинку. Не знаю читалку, которая это поддерживает.
Я пишу название под картинкой и выделяю в зависимости от особенностей книги то ли emphasis'ом, то ли subtitle'ом.

2. Вообще не поняла. Есть скрипт - добавить примечание (или вставить примечание, если какое-то была пропущено). В нём есть разные варианты добавления. Удобно пользоваться "с вводом", но если в сноске несколько абзацев, он обрежет текст после первого. В этом случае (или если в тексте сноски много форматированного текста) удобнее пользоваться "с переходом".

3. Таблицы - в виде картинок.

4. Можно попробовать выделить тэгом cite и посмотреть, как выглядит. Или emphasis'ом, в крайнем случае.

5. Тоже не поняла. А чем плохи вложенные секции? Зачем нужно несколько body?

1. Спасибо , попробую хотя это не лучший вариант.

2. Хм... про скрипт не знал, их там если честно сильно много и пробовать вподряд страшно :) интересно кстати посмотреть как оно реализованно, есть подозрение что внутри будет то что я делал вручную .

3. Хреновенько , видно потом плохо особенно на маленьких девайсах , ну если других вариантов нет ..

4. Попробуем... спасибо.

5. Ну как бы так правильней структуру передовать а впрочем фиг меня знает зачем я так начал :)

Аватар пользователя Captain Scarlett

2. Внутри будет так:
< body name="notes" >
< section id="n_1">
< title >
< p>1< /p>
< /title>
< p>
Текст сноски
< /p>
< /section>
и т.д, на каждую сноску по секции.
< /body>
В тексте делать ссылки на соотв. id: < a l:href="#n_1" type="note">[1]< /a>

Страницы

X