Можно ли справиться с этой хреновиной?

Аватар пользователя tvnic

Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова
purée
AdnaÃ
Fénechus
Nessán
и т.д.
Они поддаются расшифровке или восстановлению?

Комментарии

Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному.
purée — это purée, Nessán — Nessán, а Fénechus — Fénechus.
Когда станет понятен алгоритм заморочек, например, é — это é, можно запустить глобальную замену по тексту.

Аватар пользователя tvnic

А вот за совет спасибочки. Получается. Только беда - не всё.
Здесь, например, никакой закономерности не нашел.
Adnaí
Uí
díguin
snádud
dálaigh
degree of Clí

А может в другом формате поискать?

Аватар пользователя sd

Lyka написал:
А может в другом формате поискать?

Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.
Аватар пользователя tvnic

sd написал:
Lyka написал:
А может в другом формате поискать?
скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.

Пробовал это дело. Нормального варианта поиск не находит.
Аватар пользователя Drunkenmunky

tvnic написал:
никакой закономерности не нашел.

Это результат неправильных действий при copy\paste
Когда текст в кодировке ср1252 отображался например в кодировке ANSI
Его не глядя скопировали в документ в Юникоде например.
То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты.
Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность.
Аватар пользователя golma1

Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:

https://habrahabr.ru/post/147843/

Аватар пользователя tvnic

golma1 написал:
Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:
https://habrahabr.ru/post/147843/

Спасибо.
В какой проге лучше менять кодировки?

Штирлицом пробывали?

Аватар пользователя tvnic

Не-а. Что за зверь такой?

Shtirlitz IV
специально для исправления сбитых кодировок

Аватар пользователя tvnic

Видимо это не мой случай. она ведь работает только с русским языком?

Он работает не с языками, а с со сбившимися кодировками. Пробуйте.

tvnic написал:
В какой проге лучше менять кодировки?

iconv

Аватар пользователя tvnic

Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры.

Аватар пользователя Drunkenmunky

tvnic написал:
из имеющегося html-документа. В нем изначально были эти кракозябры.

Ну кто-то же его сделал.
Стандартными средствами после таких манипуляций восстановить символы можно не всегда.
Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё".
Программа AfterScan для этого хороша чрезвычайно.
Аватар пользователя tvnic

Drunkenmunky написал:
Программа AfterScan для этого хороша чрезвычайно.

Попробую, что за зверь такой...
-----------------
Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки?
Аватар пользователя Foggycat

Бросьте ссылку на HTML дайте другим побаловаться..)))
Не видя документа, трудно что-либо советовать...

X