Вы здесьМожно ли справиться с этой хреновиной?
Опубликовано сб, 07/10/2017 - 16:16 пользователем tvnic
Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
weis RE:Подайте бедному копеечку на книжку с литреса... 5 дней
Саша из Киева RE:СССР - великое содружество народов-братьев 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 неделя Саша из Киева RE:Латинская Америка 1 неделя Саша из Киева RE:Сказки старого филина 1 неделя Саша из Киева RE:Микроюморески со всего света 2 недели Саша из Киева RE:Звёзды на рейде 2 недели Trinki RE:Цензура в книжном магазине 2 недели Саша из Киева RE:Улицы моего города 2 недели Isais RE:Древний Рим. Подборка книг 2 недели Саша из Киева RE:Обновление FictionBook Editor 3 недели Саша из Киева RE:Лучезарный феникс 1 месяц PrePress RE:Что случилось с FTP? 1 месяц Саша из Киева RE:Нефритовый чайник эпохи Мин 1 месяц Саша из Киева RE:Ва-банк 1 месяц Саша из Киева RE:Ведомственный притон 1 месяц konst1 RE:Fb27 1 месяц nehug@cheaphub.net RE:Что случилось с либрусеком? 1 месяц Впечатления о книгах
Chita-Drita про Пирс: Yours Cheerfully [en] (Старинная литература: прочее)
19 03 Продолжение истории про Эмили Лейк. Война, Англия. Она вся такая помощница. Можно почитать, хотя не шедевр. Оценка: хорошо
Chita-Drita про Грубер: Смертный приговор [Todesurteil ru] (Триллер, Детективы: прочее)
19 03 Триллер на твердую четверку. Не шедевр, но прочитать можно. Оценка: хорошо
Chita-Drita про Старобинец: Лисьи броды [litres] (Ужасы)
19 03 Мне очень понравилось. Старобинец умеет писать, конечно. Весь этот мир, куча кусочков-паззлов, которые потом собираются в одну картинку. Было интересно. Оценка: отлично!
Chita-Drita про Диккер: Дело Аляски Сандерс [litres] (Триллер, Детективы: прочее)
19 03 Хуже, чем "Правда о деле Гарри Квеберта" и тем более "Книги Балтиморов". Но в целом прочесть можно. Загадка интересная. Герои уже полюбились. Для продолжения серии хорошо. Оценка: хорошо
Chita-Drita про Барри: Скрижали судьбы [The Secret Scripture ru] (Историческая проза, Современная проза)
19 03 Очень нудная книга. Много ненужных подробностей. Неправдоподобные события, финал тяп-ляп. Не понравилась. Оценка: плохо
Chita-Drita про Роуч: Секс для науки. Наука для секса [Bonk: The Curious Coupling of Science and Sex ru] (Психология, Научная литература: прочее, Секс и семейная психология)
19 03 Читать было интересно. У автора хорошее чувство юмора. И проделала она огромную работу для написания этой книги. Не могу сказать, что открыла для себя много нового. Но в целом потраченного времени не жалею. Оценка: хорошо
decim про Уоттс: Эхопраксия [Echopraxia ru] (Научная фантастика)
17 03 В подлиннике - отлично. Увы, не могу продраться через перевод. Без оценки.
udrees про Михайлов: Низший 7 [СИ litres] (Боевая фантастика, Героическая фантастика, Киберпанк, Самиздат, сетевая литература)
17 03 Раздражает иногда поведение главного героя, который шлет всех на три буквы, заслуженно или нет. Уважение какое-то испытывает только перед детьми, стариками и некоторыми женщинами. Герой просто безбашенный, сумасшедший ……… Оценка: отлично!
udrees про Михайлов: Низший 6 [СИ litres] (Боевая фантастика, Героическая фантастика, Киберпанк, Самиздат, сетевая литература)
17 03 На мой взгляд, книга слабее предыдущих двух. Все действие происходит в Зомбилэнде, герой все так же действует напролом, прямолинейно и жестоко. Описания довольно кровавые, часто отдают пошлостью, через слово в диалоге звучит ……… Оценка: отлично!
udrees про Михайлов: Низший 5 [СИ litres] (Боевая фантастика, Героическая фантастика, Киберпанк, Самиздат, сетевая литература)
17 03 1 и 2 книги были конечно шикарны, но герою тоже нужно расти, поэтому 3 и 4-я книги тоже по своему интересны, по мере продвижения героя вверх по миру. В этом плане 5-я книга выделяется своим сюжетом и описанием, которое отличается ……… Оценка: отлично!
Олег Макаров. про Павел Воронин
15 03 Lee321 «В феврале 2020 года была выпущена новеллизация первого сезона под названием «Триггер. Как далеко ты можешь зайти»[13], состоящая из 30 глав. Автором новеллизации выступил Павел Воронин, а предисловие написал Сергей Насибян» Wikipedia
decim про Стивенсон: Синдром отката [litres] (Социальная фантастика, Научная фантастика)
14 03 Неплохо. Не отлично и не хорошо, т.к. затянуто, многословно и к тому же автор натащил в креатив всё, что нынче носят, часто лишнее. Глобальное потепление, по автору, можно затормозить человеческой техникой - смело! Для ……… Оценка: неплохо |
Комментарии
RE:Можно ли справиться с этой хреновиной?
Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному.
purée — это purée, Nessán — Nessán, а Fénechus — Fénechus.
Когда станет понятен алгоритм заморочек, например, é — это é, можно запустить глобальную замену по тексту.
RE:Можно ли справиться с этой хреновиной?
А вот за совет спасибочки. Получается. Только беда - не всё.
Здесь, например, никакой закономерности не нашел.
AdnaÃ
UÃ
dÃguin
snádud
dálaigh
degree of ClÃ
RE:Можно ли справиться с этой хреновиной?
А может в другом формате поискать?
RE:Можно ли справиться с этой хреновиной?
Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.
RE:Можно ли справиться с этой хреновиной?
Пробовал это дело. Нормального варианта поиск не находит.
RE:Можно ли справиться с этой хреновиной?
Это результат неправильных действий при copy\paste
Когда текст в кодировке ср1252 отображался например в кодировке ANSI
Его не глядя скопировали в документ в Юникоде например.
То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты.
Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность.
RE:Можно ли справиться с этой хреновиной?
Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:
https://habrahabr.ru/post/147843/
RE:Можно ли справиться с этой хреновиной?
Спасибо.
В какой проге лучше менять кодировки?
RE:Можно ли справиться с этой хреновиной?
Штирлицом пробывали?
RE:Можно ли справиться с этой хреновиной?
Не-а. Что за зверь такой?
RE:Можно ли справиться с этой хреновиной?
Shtirlitz IV
специально для исправления сбитых кодировок
RE:Можно ли справиться с этой хреновиной?
Видимо это не мой случай. она ведь работает только с русским языком?
RE:Можно ли справиться с этой хреновиной?
Он работает не с языками, а с со сбившимися кодировками. Пробуйте.
RE:Можно ли справиться с этой хреновиной?
iconv
RE:Можно ли справиться с этой хреновиной?
Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры.
RE:Можно ли справиться с этой хреновиной?
Ну кто-то же его сделал.
Стандартными средствами после таких манипуляций восстановить символы можно не всегда.
Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё".
Программа AfterScan для этого хороша чрезвычайно.
RE:Можно ли справиться с этой хреновиной?
Попробую, что за зверь такой...
-----------------
Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки?
RE:Можно ли справиться с этой хреновиной?
Бросьте ссылку на HTML дайте другим побаловаться..)))
Не видя документа, трудно что-либо советовать...
RE:Можно ли справиться с этой хреновиной?
Файл здесь https://yadi.sk/d/mL09juhz3NxVdq
Смотрите в "Sanctuary by Peter Tremayne", там вроде больше всего этой хрени.
RE:Можно ли справиться с этой хреновиной?
UÃ=Uí (Uí Echach Cobo - историческая область в Ирландии)
Смотрим код htm
- следовательно
í
=íAdnaÃ=Adnaíd
Ãguin=díguin
degree of ClÃ=degree of Clí
===
á
=ásnádud=snádud
===
é
=édécor=décor
===
и добираемся до этой страницы - там есть расшифровки для крякозябров вашей htm
PS: вы можете открыть htm в Блокноте и произвести соответствующие замены. Когда избавитесь от всяких
Ã
, закройте Блокнот (сохраняя в utf-8)===
http://dropmefiles.com/gqPEU
RE:Можно ли справиться с этой хреновиной?
Да уж...
Значит алгоритм такой
В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь
Например в Rúinid ú = Atilde;ordm; = ù
В результате Rúinid = Rùinid
Так? Поправьте, если нет.
И можно ли как-то без таблиц узнавать, что ú=Atilde;ordm; или é=Atilde;copy; Я везде опустил символы &
--------
Если я привел пример правильно, то мне не ясно почему в Adnaà или dÃguin à обозначается Atilde;shy; Мягкий перенос - это потому-что символ à в данном слове сам по себе и не имеет рядом другой кракозябры?
RE:Можно ли справиться с этой хреновиной?
Еще раз.
Это результат неправильных действий при копировании\вставке.
Судя по всему, изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская).
В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним).
Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности.
RE:Можно ли справиться с этой хреновиной?
Так.
Но будьте внимательны: не ù, а ú (вы ошиблись строчкой).Забавно, но это может быть глюк сохранения/отображения уже на данной странице в браузере. Я дал ссылку - там уже исправленный файл (не исправил только символ копирайта - злобно).Только если известно точное соответствие, как в U* Echach Cobo = Uí Echach Cobo
Пример: The five kingdoms of *irinn - речь идет о древнем названии Ирландии. *irinn = Éirinn.
É
= É (в таблице этого нет)Остальное Drunkenmunky хорошо объяснил.
Проблема: данная таблица применима только для одного из многих вариантов подмены символов при распознании/сохранении в разных кодировках. И она неполная.
Но если вы будете и дальше встречаться с текстами такого типа - предположительно: спираченные из закрытой копирастами части ОткрытогоАрхива - то таблица может еще понадобиться. Сохраните ее.
PS: В тексте еще надо поменять -- на Em dash: —
RE:Можно ли справиться с этой хреновиной?
Всем благодарности. Проблема решена.
-----------
Не ругайтесь, если что. Но все-таки, непонятно.
Например,
В слове Rúinid два глючных символа - Ã и º Им соответствует двойная комбинация - Atilde; и ordm; (почему не 4 - по две на каждый символ?)
В слове dÃguin один глючный символ - Ã. Ему соответствует тоже двойная комбинация - Atilde; и shy; (почему именно shy; а не что-то другое?)
В первом случае получается Ã = Atilde; во втором Ã = Atilde;shy;
RE:Можно ли справиться с этой хреновиной?
(с опозданием) С ordm и shy все просто. Первый - код символа который отображается на странице, а второй - "мягкий перенос" - проявит себя только когда слово, где он есть, доберется до края страницы и станет обычным пере-
носом.
Сочетание двух кодов - это подмена одного неопознанного при вставке символа. Когда пара кодов состоит из отображаемых символов - вы видите два символа. Когда в паре один символ служебный - видите отображение только одного.
А вот почему неопознанный символ представлен сочетанием двух - долго буду объяснять и запутаю вас, так как и сам только догадываюсь. Приблизительно.
---
Вставил в текст сообщения три shy - на моем экране только один проявился ))) суслики - их не видят, а они есть.
RE:Можно ли справиться с этой хреновиной?
+++
RE:Можно ли справиться с этой хреновиной?
...я думаю, что мы много мудрим над этим текстом...
...там всего пять страничек, которые легко переводятся в Гугле...одна особенность...на украинский кракозябры переводит правильно...а на русский не хочет... Хи )))
RE:Можно ли справиться с этой хреновиной?
..ещё один...
RE:Можно ли справиться с этой хреновиной?
..ещё...
RE:Можно ли справиться с этой хреновиной?
Это ведь половинчатое решение, если вообще таковым можно назвать.
Мы же тексты стараемся делать не приблизительно, а как положено?..
RE:Можно ли справиться с этой хреновиной?
Серьёзно?
Над этим текстом сейчас только вы мудрите.
Уже постов десять решается вопрос - что делать если такая проблема возникнет в будущем - и ваш способ не годится.
RE:Можно ли справиться с этой хреновиной?
Произвести обратные действия описанным мною выше.
RE:Можно ли справиться с этой хреновиной?
Только в том случае, если точно известно с какими кодировками производились действия до. Кстати, вам удалось произвести обратные действия?
RE:Можно ли справиться с этой хреновиной?
Иначе не писал бы. Побахвалиться, конечно, дорогого стоит, но эта проблема элементарна.
RE:Можно ли справиться с этой хреновиной?
Да и я спросил не для того, чтобы подловить. Если бы вы описали, как делали переконвертацию - пригодилось бы в будущем.
- я не понял, как сделать первый шаг в обратном порядке
RE:Можно ли справиться с этой хреновиной?
Набросал тут код на php, все шаги в нем. Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем.
<?php
header('Content-type: text/html; charset=UTF-8');
$str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу
echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже
//http://php.net/manual/ru/function.html-entity-decode.php
?>
RE:Можно ли справиться с этой хреновиной?
А вот это отлично было бы!
Это же несложно? Для меня, например, тёмный лес.
RE:Можно ли справиться с этой хреновиной?
Побахвалиться, конечно, дорогого стоита вдруг заработаетRE:Можно ли справиться с этой хреновиной?
Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php)
Распакуйте например на флешку.
В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код выше.
Рядом положите HTML файл под именем "0605EQMM.htm"
Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому)
В вашем любимом браузере наберите "http://localhost/test.php"
RE:Можно ли справиться с этой хреновиной?
Спасибо.
Указанный адрес локалхоста у меня не открылся. Повторю полностью ваш рецепт с небольшой поправкой:
Сравнил с исходным файлом - всё исправлено.
Примечания:
Ссылка на страницу скачивания программы открылась только в браузере с обходом блокировки.
(mirror) Download USBWebserver V8.6 - работает только вторая ссылка.
RE:Можно ли справиться с этой хреновиной?
Если бы вы в настройках указали порт 80, то к локалхосту можно было бы ничего не дописывать. Тут ребята перемудрили.
Но и так тоже ничего.
RE:Можно ли справиться с этой хреновиной?
Вообще-то в таком виде этот текст лежит на сайте ЗДЕСЬ и таким мудрёным его сюда уже положили...и никакие скрипты не помогут...а только здравый смысл...)))