Можно ли справиться с этой хреновиной? | Либрусек

Вы здесь Главная » Блоги » Блог пользователя tvnic Можно ли справиться с этой хреновиной? Опубликовано сб, 07/10/2017 - 16:16 пользователем tvnic Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова purÃ©e AdnaÃ FÃ©nechus NessÃ¡n и т.д. Они поддаются расшифровке или восстановлению? Блог пользователя tvnic Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 00:47 пользователем working_clone Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному. purÃ©e — это purée, NessÃ¡n — Nessán, а FÃ©nechus — Fénechus. Когда станет понятен алгоритм заморочек, например, Ã© — это é, можно запустить глобальную замену по тексту. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 04:04 пользователем tvnic А вот за совет спасибочки. Получается. Только беда - не всё. Здесь, например, никакой закономерности не нашел. AdnaÃ UÃ dÃguin snÃ¡dud dÃ¡laigh degree of ClÃ RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 04:36 пользователем Lyka А может в другом формате поискать? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 08:21 пользователем sd Lyka написал: А может в другом формате поискать? Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 08:51 пользователем tvnic sd написал: Lyka написал: А может в другом формате поискать? скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте. Пробовал это дело. Нормального варианта поиск не находит. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 04:55 пользователем Drunkenmunky tvnic написал: никакой закономерности не нашел. Это результат неправильных действий при copy\paste Когда текст в кодировке ср1252 отображался например в кодировке ANSI Его не глядя скопировали в документ в Юникоде например. То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты. Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 05:04 пользователем golma1 Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей: https://habrahabr.ru/post/147843/ RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 06:58 пользователем tvnic golma1 написал: Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей: https://habrahabr.ru/post/147843/ Спасибо. В какой проге лучше менять кодировки? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 13:01 пользователем Lyka Штирлицом пробывали? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 13:59 пользователем tvnic Не-а. Что за зверь такой? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 14:32 пользователем Lyka Shtirlitz IV специально для исправления сбитых кодировок RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 15:04 пользователем tvnic Видимо это не мой случай. она ведь работает только с русским языком? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 16/10/2017 - 15:11 пользователем Lyka Он работает не с языками, а с со сбившимися кодировками. Пробуйте. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано ср, 18/10/2017 - 11:07 пользователем tigran.aivazian tvnic написал: В какой проге лучше менять кодировки? iconv RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 07:26 пользователем tvnic Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 07:41 пользователем Drunkenmunky tvnic написал: из имеющегося html-документа. В нем изначально были эти кракозябры. Ну кто-то же его сделал. Стандартными средствами после таких манипуляций восстановить символы можно не всегда. Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё". Программа AfterScan для этого хороша чрезвычайно. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 15/10/2017 - 15:16 пользователем tvnic Drunkenmunky написал: Программа AfterScan для этого хороша чрезвычайно. Попробую, что за зверь такой... ----------------- Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано ср, 18/10/2017 - 12:56 пользователем Foggycat Бросьте ссылку на HTML дайте другим побаловаться..))) Не видя документа, трудно что-либо советовать... RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано сб, 21/10/2017 - 14:34 пользователем tvnic Файл здесь https://yadi.sk/d/mL09juhz3NxVdq Смотрите в "Sanctuary by Peter Tremayne", там вроде больше всего этой хрени. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано сб, 21/10/2017 - 16:24 пользователем sd UÃ=Uí (Uí Echach Cobo - историческая область в Ирландии) Смотрим код htm - следовательно `Ã`=í AdnaÃ=Adnaíd Ãguin=díguin degree of ClÃ=degree of Clí === `Ã¡`=á snÃ¡dud=snádud === `Ã©`=é dÃ©cor=décor === и добираемся до этой страницы - там есть расшифровки для крякозябров вашей htm PS: вы можете открыть htm в Блокноте и произвести соответствующие замены. Когда избавитесь от всяких `&Atilde`, закройте Блокнот (сохраняя в utf-8) === http://dropmefiles.com/gqPEU RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано сб, 21/10/2017 - 19:33 пользователем tvnic Да уж... Значит алгоритм такой В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь Например в RÃºinid Ãº = Atilde;ordm; = ù В результате RÃºinid = Rùinid Так? Поправьте, если нет. И можно ли как-то без таблиц узнавать, что Ãº=Atilde;ordm; или Ã©=Atilde;copy; Я везде опустил символы & -------- Если я привел пример правильно, то мне не ясно почему в AdnaÃ или dÃguin Ã обозначается Atilde;shy; Мягкий перенос - это потому-что символ Ã в данном слове сам по себе и не имеет рядом другой кракозябры? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано сб, 21/10/2017 - 19:41 пользователем Drunkenmunky tvnic написал: мне не ясно почему в AdnaÃ или dÃguin Ã обозначается Ã Мягкий перенос - это потому-что символ Ã в данном слове сам по себе и не имеет рядом другой кракозябры? Еще раз. Это результат неправильных действий при копировании\вставке. Судя по всему, изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская). В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним). Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 22/10/2017 - 01:22 пользователем sd tvnic написал: Да уж... Значит алгоритм такой В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь Например в RÃºinid Ãº = Atilde;ordm; = ù В результате RÃºinid = Rùinid Так? Поправьте, если нет.? Так. ~~Но будьте внимательны: не ù, а ú (вы ошиблись строчкой).~~ Забавно, но это может быть глюк сохранения/отображения уже на данной странице в браузере. Я дал ссылку - там уже исправленный файл (не исправил только символ копирайта - злобно). tvnic написал: И можно ли как-то без таблиц узнавать, что Ãº=Atilde;ordm; или Ã©=Atilde;copy; Я везде опустил символы & Только если известно точное соответствие, как в *U Echach Cobo = Uí Echach Cobo Пример: The five kingdoms of irinn* - речь идет о древнем названии Ирландии. irinn = Éirinn. `Ã‰` = É (в таблице этого нет) Остальное Drunkenmunky* хорошо объяснил. Проблема: данная таблица применима только для одного из многих вариантов подмены символов при распознании/сохранении в разных кодировках. И она неполная. Но если вы будете и дальше встречаться с текстами такого типа - предположительно: спираченные из закрытой копирастами части ОткрытогоАрхива - то таблица может еще понадобиться. Сохраните ее. PS: В тексте еще надо поменять -- на Em dash: — RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано вс, 22/10/2017 - 05:40 пользователем tvnic Всем благодарности. Проблема решена. ----------- Не ругайтесь, если что. Но все-таки, непонятно. Например, В слове RÃºinid два глючных символа - Ã и º Им соответствует двойная комбинация - Atilde; и ordm; (почему не 4 - по две на каждый символ?) В слове dÃguin один глючный символ - Ã. Ему соответствует тоже двойная комбинация - Atilde; и shy; (почему именно shy; а не что-то другое?) В первом случае получается Ã = Atilde; во втором Ã = Atilde;shy; RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 04:12 пользователем sd (с опозданием) С ordm и shy все просто. Первый - код символа который отображается на странице, а второй - "мягкий перенос" - проявит себя только когда слово, где он есть, доберется до края страницы и станет обычным пере- носом. Сочетание двух кодов - это подмена одного неопознанного при вставке символа. Когда пара кодов состоит из отображаемых символов - вы видите два символа. Когда в паре один символ служебный - видите отображение только одного. А вот почему неопознанный символ представлен сочетанием двух - долго буду объяснять и запутаю вас, так как и сам только догадываюсь. Приблизительно. --- Вставил в текст сообщения три shy - на моем экране только один проявился ))) суслики - их не видят, а они есть. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 05:23 пользователем tvnic sd написал: С ordm и shy все просто. +++ RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 08:42 пользователем Foggycat ...я думаю, что мы много мудрим над этим текстом... ...там всего пять страничек, которые легко переводятся в Гугле...одна особенность...на украинский кракозябры переводит правильно...а на русский не хочет... Хи ))) Картинка: RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 08:40 пользователем Foggycat ..ещё один... Картинка: RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 08:52 пользователем Foggycat ..ещё... Картинка: RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 11:53 пользователем tvnic Это ведь половинчатое решение, если вообще таковым можно назвать. Мы же тексты стараемся делать не приблизительно, а как положено?.. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 10:22 пользователем sd Foggycat написал: ...я думаю, что мы много мудрим над этим текстом Серьёзно? Над этим текстом сейчас только вы мудрите. Уже постов десять решается вопрос - что делать если такая проблема возникнет в будущем - и ваш способ не годится. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 10:37 пользователем Drunkenmunky sd написал: что делать если такая проблема возникнет в будущем Произвести обратные действия описанным мною выше. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 10:45 пользователем sd Только в том случае, если точно известно с какими кодировками производились действия до. Кстати, вам удалось произвести обратные действия? RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 10:57 пользователем Drunkenmunky Иначе не писал бы. Побахвалиться, конечно, дорогого стоит, но эта проблема элементарна. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 11:05 пользователем sd Да и я спросил не для того, чтобы подловить. Если бы вы описали, как делали переконвертацию - пригодилось бы в будущем. Цитата: изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская). В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним). Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности. - я не понял, как сделать первый шаг в обратном порядке RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 11:33 пользователем Drunkenmunky sd написал: как сделать первый шаг в обратном порядке Набросал тут код на php, все шаги в нем. Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем. `<?php header('Content-type: text/html; charset=UTF-8'); $str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже //http://php.net/manual/ru/function.html-entity-decode.php ?>` RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 11:47 пользователем tvnic Drunkenmunky написал: Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем. А вот это отлично было бы! Это же несложно? Для меня, например, тёмный лес. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 11:53 пользователем sd ~~Побахвалиться, конечно, дорогого стоит~~ а вдруг заработает RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 12:16 пользователем Drunkenmunky Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php) Распакуйте например на флешку. В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код выше. Рядом положите HTML файл под именем "0605EQMM.htm" Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому) В вашем любимом браузере наберите "http://localhost/test.php" RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 15:36 пользователем sd Спасибо. Указанный адрес локалхоста у меня не открылся. Повторю полностью ваш рецепт с небольшой поправкой: Drunkenmunky написал: Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php) Распакуйте например на флешку. В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код `<?php header('Content-type: text/html; charset=UTF-8'); $str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже //http://php.net/manual/ru/function.html-entity-decode.php ?>` . Рядом положите HTML файл под именем "0605EQMM.htm" Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому) Откроется маленькое окно программы: Кликнуть Loсalhost, откроется страница в браузере, к адресу страницы (у меня: http://localhost:8080/) дописать test.php (получится: http://localhost:8080/test.php). Обновить. Сравнил с исходным файлом - всё исправлено. Примечания: Ссылка на страницу скачивания программы открылась только в браузере с обходом блокировки. (mirror) Download USBWebserver V8.6 - работает только вторая ссылка. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 15:45 пользователем Drunkenmunky Если бы вы в настройках указали порт 80, то к локалхосту можно было бы ничего не дописывать. Тут ребята перемудрили. Но и так тоже ничего. RE:Можно ли справиться с этой хреновиной? Постоянная ссылка (Permalink) Опубликовано пн, 23/10/2017 - 12:03 пользователем Foggycat Цитата: изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская). В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним). Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности. Вообще-то в таком виде этот текст лежит на сайте ЗДЕСЬ и таким мудрёным его сюда уже положили...и никакие скрипты не помогут...а только здравый смысл...)))	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Саша из Киева RE:Подайте бедному копеечку на книжку с литреса... 1 день Nicout RE:Прошу переформатировать, распознать, etc... 4 дня akorish RE:Регистрация 2 недели Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 2 недели Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 недели konst1 RE:Ух, как я не люблю спамеров! 2 недели tvv RE:DNS 1 месяц sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 месяц larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 2 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах akorish про Арчер: Бетонные джунгли (Боевая фантастика) 16 05 Прилетел поохотиться, а сам стал добычей. Хотел нае... всех, а нае.. самого себя. На самом деле книга отличная. Оценка: отлично! akorish про Арчер: Холодная война (Боевая фантастика) 16 05 Книг и фанфиков про хищника кратно меньше, чем про чужого, эта книга отлично раскрывает период времени, когда русофобия была скрытой, и была гонка вооружений. Тут нет откровенно злых-русских ))) Прочитать нужно, книга отличная. Оценка: отлично! akorish про Хищник 16 05 Диалоги есть, прочитать можно. akorish про Кварри: Хищник III [по мотивам фильма] (Боевая фантастика, Ужасы) 16 05 И снова перепечатка фильма на бумаге, прочитать стоит. Оценка: отлично! akorish про Кварри: Хищник II [по мотивам фильма] (Боевая фантастика, Ужасы) 16 05 Очень точно по фильму, почти фильм переложенный на бумагу. Оценка: отлично! akorish про Кордэйл: Хищник I (Боевая фантастика) 16 05 В далекие времена, после просмотра фильма, я - зафанател хищником, и в те годы для молодого пацаненка читать книжки было зашкваром, могла задразнить задротом, но мне досталась эта книжка и я стал читать! Мысль была такой, ……… Оценка: отлично! akorish про Фостер: Чужой-3 [Alien - 3 ru] (Научная фантастика) 16 05 Проходная книжка, 3й фильм мне тоже не сильно нравится, но прочитать следует. Оценка: хорошо akorish про Фостер: Чужой. Чужие. Чужой-3 [Авторский сборник] (Научная фантастика) 16 05 Прочитал как сценарий, ничего особенного, просто нужно это прочитать. Оценка: хорошо mysevra про Престон: Меч карающий [= Остров] [Riptide ru] (Приключения: прочее) 16 05 У автора редкий талант создавать приключенческие романы. Всегда что-то новое и неожиданное, изложенное ярко и живо. В конце традиционно какая-нибудь подстава. P.S. Переводчик записал амишей в индейцы, что удивило даже ……… Оценка: отлично! mysevra про Чекмарев: Пулемет над пропастью (Детективная фантастика, Космическая фантастика, Самиздат, сетевая литература) 16 05 Что-то не везёт в этот раз. Да, а с запятыми тут отдельная история, абсолютно непредсказуемая. Оценка: плохо mysevra про Шарапов: Вход только для мертвых (Боевик, Исторический детектив) 16 05 Самое интригующее в книге – это название, потом будет грустнее. Довольно подробно, скучно почти как в жизни, ждёшь-ждёшь чего-то. В общем, чисто за попытку стилизации. Оценка: хорошо akorish про Наумова: Наверху (Научная фантастика) 14 05 Рипли - посол Земли от Чужих ))) Альтернативная история. Очень интересная концовка альтернативной серии книг про разумных Чужих. Однозначно стоит прочитать. больше впечатлений