Неполные файлы в формате txt

Я скачиваю книги в формате txt (мне так удобнее). Но вот сейчас скачал Карамзина "История государства Российского" и обнаружил, что первые два тома:
http://lib.rus.ec/b/68209
http://lib.rus.ec/b/68210
уж очень маленького размера 46382 и 51866 соответственно (совершенно не соответствует размеру, указанному на странице - раз в 10 меньше). Беглый просмотр файлов также показал, что текст оборван на полуслове. При этом остальные тома нормального размера.
Сначала я подумал, что это сбой или, не дай бог, вредительство.
Но потом догадался скачать те же тома в формате fb2. И оказалось, что в этом формате тома имеют "правильный" размер: 394077 и 433997 соответственно.
Конечно, в данном конкретном случае я могу ограничиться тем, что скачал те же тома в другом формате. Но ведь теперь я уже не уверен, что и другие книги в формате txt (а может и других) правильны.
Например, я недавно скачал нескольких своих любимых авторов полностью ("про запас"))) в том же формате txt и теперь что, придется пересмотреть все скачанное, чтобы убедиться, что все тексты имеются полностью?
Поэтому хотелось бы понять, является ли это единичным сбоем или есть еще книги в формате txt, в которых не хватает текста?
Я, честно говоря, не знаю, как исправить книги только в одном формате. Но исправить бы надо. Может, и другие книги проверить?

Комментарии

foxm написал:
хотелось бы понять, является ли это единичным сбоем или есть еще книги в формате txt, в которых не хватает текста?

Если я правильно понимаю, то книги в Либрусеке не хранятся в разных форматах. Скачать книги в txt можно в двух случаях:
1). Книга на Либрусеке лежит изначально в txt. Тогда возле неё будет линк "(скачать txt)" и не будет линка "(читать)".
2). Книга на Либрусеке лежит в fb2, возле неё линк "(читать)" и "(скачать)" , и только при скачивании выбирается формат txt из пулл-даун меню. Если не ошибаюсь, при этом txt генерируется из fb2 на лету неким скриптом-конвертером.

У Вас, как я понимаю, второй случай. Тогда подозрение падает не только на на простой "недокач", что нередко бывает, но и на скрипт-конвертер из fb2 в txt.

Для того чтобы убедиться, что проблема не в недокаче (оборванном посередине сенасе скачивания), а в конвертере, я бы на Вашем месте сделал так:
1. Скачал в txt одну и ту же (хранящуюся в fb2) книгу раз пять-шесть.
2. Если во всех случаях текст обрывается строго на одном и том же месте - на подозрении конвертер, надо писать Ларину.
3. Если текст обрывается на разных местах, то это, скорее всего, недокач. Ничем помочь не смогу...

pkn написал:

3. Если текст обрывается на разных местах, то это, скорее всего, недокач. Ничем помочь не смогу...

Думаю, что недокач тут ни при чем, потому что я скачивал все 12 томов СРАЗУ, выделив их галочкой и нажав кнопку "Выкачать все выбранное". Я так понимаю, что прим этом вся обработка идет на сервере, а мне отправляется архив из уже сформированных книг, который скачался нормально.
Если я понимаю это неправильно, готов попробовать, как Вы сказали...

foxm написал:
Думаю, что недокач тут ни при чем, потому что я скачивал все 12 томов СРАЗУ, выделив их галочкой и нажав кнопку "Выкачать все выбранное". Я так понимаю, что прим этом вся обработка идет на сервере, а мне отправляется архив из уже сформированных книг, который скачался нормально.

Оп-па... тогда да, Вы все правильно написали, всё происходит на сервере, значит это не недокач... значит, fb2-to-txt конвертер глючит. Я бы на Вашем месте завел тему в форуме "Функциональность", детально описал происходящее (обязательно указать какие именно книги и точную последовательность Ваших действий - для отлова бага Ларину непременно нужна воспроизводимость), а потом написал Ларину в личку с просьбой обратить внимание на этот багрепорт.

(подумав) Но, честно говоря, на мгновенную реакцию я бы не очень рассчитывал. Все-таки основной формат - это fb2... и он таки несравнимо удобнее, чем txt. В общем, я бы на Вашем месте подумал - а не перейти ли на fb2.

Ещё может быть невалидный fb2. В некоторых случаях, когда непорядок с тегами <р>, книгу невозможно дочитать до конца (в онлайн-читалке).

BiblioManiak написал:
Ещё может быть невалидный fb2. В некоторых случаях, когда непорядок с тегами <р>, книгу невозможно дочитать до конца (в онлайн-читалке).

Возможно... хотя упомянутые А.А.Васильев История Византийской империи. Т.1 и Т.2
http://lib.rus.ec/b/74044
http://lib.rus.ec/b/74045
fb2 - валидны... по крайней мере по мнению FBE. Я как-то заметил, что файл на который FBI ругался, прошел валидацию в FBE. Бог его знает кто из них прав.

IMHO, больше достоин доверия FBI.

BiblioManiak написал:
IMHO, больше достоин доверия FBI.

Проверил FBI-ем - тоже валидны, са-б-баки...

Если просмотреть фб2 файл в текстовом редакторе, то можно заметить, что текстовый файл заканчивается аккурат в том месте, где начинается кусок текста на греческом.
То есть, скрипт обламывается при поптытке вставить в txt юникодные символы.

BiblioManiak написал:
Если просмотреть фб2 файл в текстовом редакторе, то можно заметить, что текстовый файл заканчивается аккурат в том месте, где начинается кусок текста на греческом.
То есть, скрипт обламывается при поптытке вставить в txt юникодные символы.

О. Это уже очень хороший задел Ларину для поиска бага.

Точно, каждый из закаченных файлов обрывался на юникодовском символе.
А вот здесь 10501 закачалось полностью. Нет юникода - нет проблем.

Вот сейчас обнаружил, что у А.А.Васильева История Византийской империи. Т.1 и Т.2
http://lib.rus.ec/b/74044
http://lib.rus.ec/b/74045
в формате txt тоже только кусок текста.

О_о
У меня вообще не получается скачать txt, только fb2. Это глюк браузера?
Опера 9.24 (джаваскрипт - вкл)

А у меня Опера 9.51. И в целом скачивается.

Обновил версию.
Все - ок.
Текстовые файлики действительно какие-то мелкие.
26кб против 562кб у Византийской Империи.

=/

почему можно помочь,
скачать книгу в fb2, а затем из неё сделать тхт

Ну в данном конкретном случае я так и сделал, но хотелось бы обойтись без лишних телодвижений...

Проверил на нескольких файлах разного размера и "валидности". Похоже, что редко закачивают в форматах отличных от фб, иначе бы давно заметили, что не один баг, а два.
Первый: текстовой файл обрезается во время подготовки файла. Остается 1/5 - 1/3 часть.
Второй: html генерируется полностью, только с тем же недостатком, что был раньше у читалки: открытый тег H3 остается незакрытым, поэтому весь текст идет как один большой заголовок.
Последнее проверил только на двух файлах, может на других все тип-топ.

X