Вы здесьМожно ли справиться с этой хреновиной?
Опубликовано сб, 07/10/2017 - 16:16 пользователем tvnic
Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 4 часа
kopak RE:О группе Дятлова. О той самой, того самого... 14 часов ProstoTac RE:Таинственная личность админа Флибусты 2 дня Isais RE:Кармен Мола - Пурпурная сеть [litres] 4 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 4 дня Isais RE:Катя Водянова - Дом и два жениха в придачу 1 неделя Aleks_Sim RE:Прошу переформатировать, распознать, etc... 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 3 недели Саша из Киева RE:Детям о Ленине (Издание 1965 года) 3 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 3 недели babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Впечатления о книгах
udrees про Жак: Нефертити и Эхнатон [Nefertiti et Akhenaton ru] (История, Биографии и Мемуары)
09 02 Небольшая по объему исследовательская книга про знаменитую чету из Древнего Египта. Про Нефертити – супругу фараона Эхнатона – я как-то со школы слышал, а про Эхнатона не очень. В книге автор постарался описать их жизнь и ……… Оценка: плохо
udrees про Мансуров: Под игом чудовища (Боевая фантастика, Героическая фантастика, Эротика, Самиздат, сетевая литература)
09 02 Очень добро написанная книга в жанре фэнтези, ну или близком к нему, магии только нет. Средневековый антураж с его мечами и стрелами после деградации человечества после какой-то катастрофы, случившейся видимо давно. Так давно, ……… Оценка: отлично!
udrees про Мансуров: Под игом чудовищ. Книга 2 (Боевая фантастика, Героическая фантастика, Эротика, Самиздат, сетевая литература)
09 02 Хорошо написанная 2-я книга про события в средневековом антураже, только действие происходит в будущем после какой-то катастрофы, когда люди скатились в варварство. Описания событий хорошие, подробные, сюжет захватывает, по ……… Оценка: отлично!
udrees про Корнев: Аспект белее смерти [СИ] (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
09 02 Хорошо написанная книга про приключения беспризорника в жестоком фэнтезийном мире. Напоминает чем-то серию книг Шелега Дмитрия «Нелюдь», там такое же описание дна жизни банды малолетних беспризорников в жестоком видимо средневековом ……… Оценка: отлично!
udrees про Корнев: Лед. Кусочек юга (Альтернативная история, Боевая фантастика)
09 02 Прекрасное завершение серии про Льда. Написано все в таком же динамичном стиле, описания хорошие, диалоги тоже не раздражают. Экшен присутствует постоянно, практически без передышек. На сей раз действие по большей части проходит ………
udrees про Корнев: Чистильщик [litres] (Боевая фантастика)
09 02 Наконец-то приключения Льда, он вернулся, основательно отъевшийся и загоревший. Хорошее описаний очередных приключений, но на сей раз уже не в Приграничье, а уже в реальном мире, но конечно связанное с расследованием разных ……… Оценка: отлично!
udrees про Корнев: Там, где тепло [litres] (Боевая фантастика, Технофэнтези, Попаданцы)
09 02 Продолжение похождений персонажа Апостола, правда про Льда тоже присутствует немного. Написано живо, читается легко, динамично. Диалоги тоже развлекают. Единственно все действия проходят очень сжато, буквально «как скучно ……… Оценка: отлично!
udrees про Корнев: Ледяная Цитадель [litres] (Боевая фантастика, Технофэнтези)
09 02 Новая книга уже не про похождения Льда, теперь вместо него другой персонаж со способностями к ясновидению. Книга написана хорошо, диалоги не утомляют. Сюжет конечно крутится вокруг интриг между группировками внутри Форта, ……… Оценка: отлично!
udrees про Корнев: Черный полдень (Боевая фантастика)
09 02 Продолжение написано хорошо. Все время происходит действие, диалоги тоже не напрягают. Описание оружия не утомляет читателя. Но в данной книге описания тварей Приграничья – самый минимум. Всю книгу персонаж и его друзья бегают ……… Оценка: отлично!
udrees про Корнев: Чёрные сны (Боевая фантастика)
09 02 Хорошо написано в приключенческо-фантастическом жанре. Продолжение истории про Льда в мире Приграничья. Описания достаточно для воссоздания картинки мира. В отличие боковой ветви Корнева с Крузом А.про приключения Хмеля и ……… Оценка: отлично!
udrees про Мантикор: Принцесса ионитов (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
09 02 Динамичное описание, в основном сражения и приключения. Написано достаточно увлекательно. Персонаж – друид, который развился до очень мощного героя в начальных книгах, но что отрадно, теперь ему попадаются такие враги, сражения ……… Оценка: отлично!
udrees про Мантикор: Чернота (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
09 02 Очень занимательная книга, отряд героя спускается до двадцать третьего уровня. Здесь угрозы уже под стать уровням персонажей и даже выше их. В этом плане нет дисбаланса, главный герой уже не такой супергерой, который всех ……… Оценка: отлично! |
Комментарии
RE:Можно ли справиться с этой хреновиной?
Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному.
purée — это purée, Nessán — Nessán, а Fénechus — Fénechus.
Когда станет понятен алгоритм заморочек, например, é — это é, можно запустить глобальную замену по тексту.
RE:Можно ли справиться с этой хреновиной?
А вот за совет спасибочки. Получается. Только беда - не всё.
Здесь, например, никакой закономерности не нашел.
AdnaÃ
UÃ
dÃguin
snádud
dálaigh
degree of ClÃ
RE:Можно ли справиться с этой хреновиной?
А может в другом формате поискать?
RE:Можно ли справиться с этой хреновиной?
Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.
RE:Можно ли справиться с этой хреновиной?
Пробовал это дело. Нормального варианта поиск не находит.
RE:Можно ли справиться с этой хреновиной?
Это результат неправильных действий при copy\paste
Когда текст в кодировке ср1252 отображался например в кодировке ANSI
Его не глядя скопировали в документ в Юникоде например.
То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты.
Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность.
RE:Можно ли справиться с этой хреновиной?
Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:
https://habrahabr.ru/post/147843/
RE:Можно ли справиться с этой хреновиной?
Спасибо.
В какой проге лучше менять кодировки?
RE:Можно ли справиться с этой хреновиной?
Штирлицом пробывали?
RE:Можно ли справиться с этой хреновиной?
Не-а. Что за зверь такой?
RE:Можно ли справиться с этой хреновиной?
Shtirlitz IV
специально для исправления сбитых кодировок
RE:Можно ли справиться с этой хреновиной?
Видимо это не мой случай. она ведь работает только с русским языком?
RE:Можно ли справиться с этой хреновиной?
Он работает не с языками, а с со сбившимися кодировками. Пробуйте.
RE:Можно ли справиться с этой хреновиной?
iconv
RE:Можно ли справиться с этой хреновиной?
Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры.
RE:Можно ли справиться с этой хреновиной?
Ну кто-то же его сделал.
Стандартными средствами после таких манипуляций восстановить символы можно не всегда.
Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё".
Программа AfterScan для этого хороша чрезвычайно.
RE:Можно ли справиться с этой хреновиной?
Попробую, что за зверь такой...
-----------------
Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки?
RE:Можно ли справиться с этой хреновиной?
Бросьте ссылку на HTML дайте другим побаловаться..)))
Не видя документа, трудно что-либо советовать...
RE:Можно ли справиться с этой хреновиной?
Файл здесь https://yadi.sk/d/mL09juhz3NxVdq
Смотрите в "Sanctuary by Peter Tremayne", там вроде больше всего этой хрени.
RE:Можно ли справиться с этой хреновиной?
UÃ=Uí (Uí Echach Cobo - историческая область в Ирландии)
Смотрим код htm
- следовательно
í
=íAdnaÃ=Adnaíd
Ãguin=díguin
degree of ClÃ=degree of Clí
===
á
=ásnádud=snádud
===
é
=édécor=décor
===
и добираемся до этой страницы - там есть расшифровки для крякозябров вашей htm
PS: вы можете открыть htm в Блокноте и произвести соответствующие замены. Когда избавитесь от всяких
Ã
, закройте Блокнот (сохраняя в utf-8)===
http://dropmefiles.com/gqPEU
RE:Можно ли справиться с этой хреновиной?
Да уж...
Значит алгоритм такой
В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь
Например в Rúinid ú = Atilde;ordm; = ù
В результате Rúinid = Rùinid
Так? Поправьте, если нет.
И можно ли как-то без таблиц узнавать, что ú=Atilde;ordm; или é=Atilde;copy; Я везде опустил символы &
--------
Если я привел пример правильно, то мне не ясно почему в Adnaà или dÃguin à обозначается Atilde;shy; Мягкий перенос - это потому-что символ à в данном слове сам по себе и не имеет рядом другой кракозябры?
RE:Можно ли справиться с этой хреновиной?
Еще раз.
Это результат неправильных действий при копировании\вставке.
Судя по всему, изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская).
В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним).
Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности.
RE:Можно ли справиться с этой хреновиной?
Так.
Но будьте внимательны: не ù, а ú (вы ошиблись строчкой).Забавно, но это может быть глюк сохранения/отображения уже на данной странице в браузере. Я дал ссылку - там уже исправленный файл (не исправил только символ копирайта - злобно).Только если известно точное соответствие, как в U* Echach Cobo = Uí Echach Cobo
Пример: The five kingdoms of *irinn - речь идет о древнем названии Ирландии. *irinn = Éirinn.
É
= É (в таблице этого нет)Остальное Drunkenmunky хорошо объяснил.
Проблема: данная таблица применима только для одного из многих вариантов подмены символов при распознании/сохранении в разных кодировках. И она неполная.
Но если вы будете и дальше встречаться с текстами такого типа - предположительно: спираченные из закрытой копирастами части ОткрытогоАрхива - то таблица может еще понадобиться. Сохраните ее.
PS: В тексте еще надо поменять -- на Em dash: —
RE:Можно ли справиться с этой хреновиной?
Всем благодарности. Проблема решена.
-----------
Не ругайтесь, если что. Но все-таки, непонятно.
Например,
В слове Rúinid два глючных символа - Ã и º Им соответствует двойная комбинация - Atilde; и ordm; (почему не 4 - по две на каждый символ?)
В слове dÃguin один глючный символ - Ã. Ему соответствует тоже двойная комбинация - Atilde; и shy; (почему именно shy; а не что-то другое?)
В первом случае получается Ã = Atilde; во втором Ã = Atilde;shy;
RE:Можно ли справиться с этой хреновиной?
(с опозданием) С ordm и shy все просто. Первый - код символа который отображается на странице, а второй - "мягкий перенос" - проявит себя только когда слово, где он есть, доберется до края страницы и станет обычным пере-
носом.
Сочетание двух кодов - это подмена одного неопознанного при вставке символа. Когда пара кодов состоит из отображаемых символов - вы видите два символа. Когда в паре один символ служебный - видите отображение только одного.
А вот почему неопознанный символ представлен сочетанием двух - долго буду объяснять и запутаю вас, так как и сам только догадываюсь. Приблизительно.
---
Вставил в текст сообщения три shy - на моем экране только один проявился ))) суслики - их не видят, а они есть.
RE:Можно ли справиться с этой хреновиной?
+++
RE:Можно ли справиться с этой хреновиной?
...я думаю, что мы много мудрим над этим текстом...
...там всего пять страничек, которые легко переводятся в Гугле...одна особенность...на украинский кракозябры переводит правильно...а на русский не хочет... Хи )))
RE:Можно ли справиться с этой хреновиной?
..ещё один...
RE:Можно ли справиться с этой хреновиной?
..ещё...
RE:Можно ли справиться с этой хреновиной?
Это ведь половинчатое решение, если вообще таковым можно назвать.
Мы же тексты стараемся делать не приблизительно, а как положено?..
RE:Можно ли справиться с этой хреновиной?
Серьёзно?
Над этим текстом сейчас только вы мудрите.
Уже постов десять решается вопрос - что делать если такая проблема возникнет в будущем - и ваш способ не годится.
RE:Можно ли справиться с этой хреновиной?
Произвести обратные действия описанным мною выше.
RE:Можно ли справиться с этой хреновиной?
Только в том случае, если точно известно с какими кодировками производились действия до. Кстати, вам удалось произвести обратные действия?
RE:Можно ли справиться с этой хреновиной?
Иначе не писал бы. Побахвалиться, конечно, дорогого стоит, но эта проблема элементарна.
RE:Можно ли справиться с этой хреновиной?
Да и я спросил не для того, чтобы подловить. Если бы вы описали, как делали переконвертацию - пригодилось бы в будущем.
- я не понял, как сделать первый шаг в обратном порядке
RE:Можно ли справиться с этой хреновиной?
Набросал тут код на php, все шаги в нем. Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем.
<?php
header('Content-type: text/html; charset=UTF-8');
$str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу
echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже
//http://php.net/manual/ru/function.html-entity-decode.php
?>
RE:Можно ли справиться с этой хреновиной?
А вот это отлично было бы!
Это же несложно? Для меня, например, тёмный лес.
RE:Можно ли справиться с этой хреновиной?
Побахвалиться, конечно, дорогого стоита вдруг заработаетRE:Можно ли справиться с этой хреновиной?
Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php)
Распакуйте например на флешку.
В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код выше.
Рядом положите HTML файл под именем "0605EQMM.htm"
Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому)
В вашем любимом браузере наберите "http://localhost/test.php"
RE:Можно ли справиться с этой хреновиной?
Спасибо.
Указанный адрес локалхоста у меня не открылся. Повторю полностью ваш рецепт с небольшой поправкой:
Сравнил с исходным файлом - всё исправлено.
Примечания:
Ссылка на страницу скачивания программы открылась только в браузере с обходом блокировки.
(mirror) Download USBWebserver V8.6 - работает только вторая ссылка.
RE:Можно ли справиться с этой хреновиной?
Если бы вы в настройках указали порт 80, то к локалхосту можно было бы ничего не дописывать. Тут ребята перемудрили.
Но и так тоже ничего.
RE:Можно ли справиться с этой хреновиной?
Вообще-то в таком виде этот текст лежит на сайте ЗДЕСЬ и таким мудрёным его сюда уже положили...и никакие скрипты не помогут...а только здравый смысл...)))