Вы здесьМожно ли справиться с этой хреновиной?
Опубликовано сб, 07/10/2017 - 16:16 пользователем tvnic
Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
ostap79 RE:Подайте бедному копеечку на книжку с литреса... 1 день
nehug@cheaphub.net RE:«Македонский роман XXI века 2 дня Iron Man RE:Курьезы сканировщика 6 дней babajga RE:Рассказы Южных морей 6 дней tvv RE:Абрахам Вергезе - The Covenant of Water 1 неделя Larisa_F RE:Эрнесто и его кролики 1 неделя Саша из Киева RE:Горящие паруса 1 неделя Саша из Киева RE:Американская мозаика 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 неделя babajga RE:Осторожно - волшебное! 2 недели Саша из Киева RE:Улыбнись, малыш! 2 недели Саша из Киева RE:Букет колючек 2 недели alexej36 RE:Maxima-library - переезд 2 недели Саша из Киева RE:Анфас и в профиль 2 недели Саша из Киева RE:Три минуты истории 2 недели Саша из Киева RE:С того света 2 недели darkvova RE:librusec.pro 3 недели Саша из Киева RE:Счастливая скамейка 3 недели Впечатления о книгах
decim про Годфри-Смит: Метазоа. Зарождение разума в животном мире [litres] (Биология)
10 06 Если вам понравилась "Удивительная палеонтология" Еськова, советую прочесть и эту книгу. Качественный научпоп, качественный перевод. Оценка: хорошо
decim про Вагнер: Кто не спрятался. История одной компании (Триллер)
08 06 Действительно неважно, кто убил. Мотив есть у всех женщин, и они-то пытаются выяснить - кто из них? Мужчины же, не понимая, что творится вообще, бухают и дерутся - все, кроме одного, которому это не положено по работе. ……… Оценка: хорошо
Александр Лагода про Носов: Том 1. Рассказы о природе, рыбалке (Советская классическая проза, Природа и животные, Публицистика)
08 06 Подготавливая FB2, обнаружил, что в b/530187 отсутствует с. 375. Нет ли у кого книги в бумаге?
Oleg68 про Улицкая: Даниэль Штайн, переводчик (Современная проза)
07 06 Книга читалась тяжело. Вставки с описанием молитв, обрядов католицизма-перегружают книгу. Оценка: хорошо
obivatel про Поселягин: «Колонист» [litres] (Фэнтези, Попаданцы)
07 06 Рука-лицо. Во-первых, Павел Первый был в очень хороших отношениях с Наполеоном и в очень плохих с наглами. Он не искал с ними этих плохих отношений, он просто начал налаживать торговлю с Францией минуя фунт-стерлингов. ……… Оценка: плохо
дядя_Андрей про Надеждин: Сонька Золотая Ручка - королева воров (Биографии и Мемуары)
06 06 Никакой "своей интерпретации" автор не приводит. Он просто свалил в кучу всё. что мог, половину безбожно переврав. После чего сделал глубокомысленный вывод:"Доказательств нет. Может быть было, а может и не было". За всё ……… Оценка: неплохо
bp306 про Гуринов: Типичная практика [СИ] (Фэнтези, Самиздат, сетевая литература)
06 06 Мне понравилось. У автора довольно богатая фантазия. Впрочем думаю найдётся достаточно хейтеров, так как если захотеть то можно найти достаточно много недостатков. Но по-моему это одна из лучших книг автора. В целом его мастерство растёт. Оценка: отлично!
obivatel про Федин: Комсомолец. Часть 3 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
05 06 1. Упоротый препод, который слабо разбирается в предмете или просто игнорирующий ответы? Дык на кафедре пишешь заяву или в деканате, и всё: тебе назначают комиссию из пары-тройки профессоров и они тебя экзаменуют. Делал так ……… Оценка: хорошо
nik_ol про Донцова: Ступа с навигатором (Иронический детектив)
05 06 Что-то, при всём уважении и несмотря на то, что эти книжки отвлекают от повседневности меня уже лет 15 - ну уж очень часто повторяется развязка сейчас, только персонажи меняются! Обычно это морально-нравственные чудовища-дети ……… Оценка: плохо
дядя_Андрей про Каллиников: Мощи (Историческая проза, Эротика, Секс)
04 06 Ну, что тут скажешь. Отличный роман, просто великолепный. Язык изложения, сочный, яркий, образный. Немного напоминает раннюю прозу Алексея Толстого. Почему его сочли порнографическим и антисоветским, ума не приложу. Ничего ……… Оценка: отлично!
voronin345 про Заикин: Гранит науки [litres] (Альтернативная история, Боевая фантастика, Героическая фантастика)
03 06 детская литература. для дебильных школьников Оценка: плохо
Саша из Киева про Григорий Исаакович Полянкер
03 06 Мне довелось лично знать Григория Исааковича Полянкера. Когда я учился в Международном Соломоновом университете в Киеве (с 1993 по 1998), Григорий Исаакович преподавал у нас спецкурс "История еврейской культуры на языке идиш". ……… |
Комментарии
RE:Можно ли справиться с этой хреновиной?
Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному.
purée — это purée, Nessán — Nessán, а Fénechus — Fénechus.
Когда станет понятен алгоритм заморочек, например, é — это é, можно запустить глобальную замену по тексту.
RE:Можно ли справиться с этой хреновиной?
А вот за совет спасибочки. Получается. Только беда - не всё.
Здесь, например, никакой закономерности не нашел.
AdnaÃ
UÃ
dÃguin
snádud
dálaigh
degree of ClÃ
RE:Можно ли справиться с этой хреновиной?
А может в другом формате поискать?
RE:Можно ли справиться с этой хреновиной?
Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.
RE:Можно ли справиться с этой хреновиной?
Пробовал это дело. Нормального варианта поиск не находит.
RE:Можно ли справиться с этой хреновиной?
Это результат неправильных действий при copy\paste
Когда текст в кодировке ср1252 отображался например в кодировке ANSI
Его не глядя скопировали в документ в Юникоде например.
То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты.
Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность.
RE:Можно ли справиться с этой хреновиной?
Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:
https://habrahabr.ru/post/147843/
RE:Можно ли справиться с этой хреновиной?
Спасибо.
В какой проге лучше менять кодировки?
RE:Можно ли справиться с этой хреновиной?
Штирлицом пробывали?
RE:Можно ли справиться с этой хреновиной?
Не-а. Что за зверь такой?
RE:Можно ли справиться с этой хреновиной?
Shtirlitz IV
специально для исправления сбитых кодировок
RE:Можно ли справиться с этой хреновиной?
Видимо это не мой случай. она ведь работает только с русским языком?
RE:Можно ли справиться с этой хреновиной?
Он работает не с языками, а с со сбившимися кодировками. Пробуйте.
RE:Можно ли справиться с этой хреновиной?
iconv
RE:Можно ли справиться с этой хреновиной?
Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры.
RE:Можно ли справиться с этой хреновиной?
Ну кто-то же его сделал.
Стандартными средствами после таких манипуляций восстановить символы можно не всегда.
Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё".
Программа AfterScan для этого хороша чрезвычайно.
RE:Можно ли справиться с этой хреновиной?
Попробую, что за зверь такой...
-----------------
Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки?
RE:Можно ли справиться с этой хреновиной?
Бросьте ссылку на HTML дайте другим побаловаться..)))
Не видя документа, трудно что-либо советовать...
RE:Можно ли справиться с этой хреновиной?
Файл здесь https://yadi.sk/d/mL09juhz3NxVdq
Смотрите в "Sanctuary by Peter Tremayne", там вроде больше всего этой хрени.
RE:Можно ли справиться с этой хреновиной?
UÃ=Uí (Uí Echach Cobo - историческая область в Ирландии)
Смотрим код htm
- следовательно
í
=íAdnaÃ=Adnaíd
Ãguin=díguin
degree of ClÃ=degree of Clí
===
á
=ásnádud=snádud
===
é
=édécor=décor
===
и добираемся до этой страницы - там есть расшифровки для крякозябров вашей htm
PS: вы можете открыть htm в Блокноте и произвести соответствующие замены. Когда избавитесь от всяких
Ã
, закройте Блокнот (сохраняя в utf-8)===
http://dropmefiles.com/gqPEU
RE:Можно ли справиться с этой хреновиной?
Да уж...
Значит алгоритм такой
В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь
Например в Rúinid ú = Atilde;ordm; = ù
В результате Rúinid = Rùinid
Так? Поправьте, если нет.
И можно ли как-то без таблиц узнавать, что ú=Atilde;ordm; или é=Atilde;copy; Я везде опустил символы &
--------
Если я привел пример правильно, то мне не ясно почему в Adnaà или dÃguin à обозначается Atilde;shy; Мягкий перенос - это потому-что символ à в данном слове сам по себе и не имеет рядом другой кракозябры?
RE:Можно ли справиться с этой хреновиной?
Еще раз.
Это результат неправильных действий при копировании\вставке.
Судя по всему, изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская).
В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним).
Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности.
RE:Можно ли справиться с этой хреновиной?
Так.
Но будьте внимательны: не ù, а ú (вы ошиблись строчкой).Забавно, но это может быть глюк сохранения/отображения уже на данной странице в браузере. Я дал ссылку - там уже исправленный файл (не исправил только символ копирайта - злобно).Только если известно точное соответствие, как в U* Echach Cobo = Uí Echach Cobo
Пример: The five kingdoms of *irinn - речь идет о древнем названии Ирландии. *irinn = Éirinn.
É
= É (в таблице этого нет)Остальное Drunkenmunky хорошо объяснил.
Проблема: данная таблица применима только для одного из многих вариантов подмены символов при распознании/сохранении в разных кодировках. И она неполная.
Но если вы будете и дальше встречаться с текстами такого типа - предположительно: спираченные из закрытой копирастами части ОткрытогоАрхива - то таблица может еще понадобиться. Сохраните ее.
PS: В тексте еще надо поменять -- на Em dash: —
RE:Можно ли справиться с этой хреновиной?
Всем благодарности. Проблема решена.
-----------
Не ругайтесь, если что. Но все-таки, непонятно.
Например,
В слове Rúinid два глючных символа - Ã и º Им соответствует двойная комбинация - Atilde; и ordm; (почему не 4 - по две на каждый символ?)
В слове dÃguin один глючный символ - Ã. Ему соответствует тоже двойная комбинация - Atilde; и shy; (почему именно shy; а не что-то другое?)
В первом случае получается Ã = Atilde; во втором Ã = Atilde;shy;
RE:Можно ли справиться с этой хреновиной?
(с опозданием) С ordm и shy все просто. Первый - код символа который отображается на странице, а второй - "мягкий перенос" - проявит себя только когда слово, где он есть, доберется до края страницы и станет обычным пере-
носом.
Сочетание двух кодов - это подмена одного неопознанного при вставке символа. Когда пара кодов состоит из отображаемых символов - вы видите два символа. Когда в паре один символ служебный - видите отображение только одного.
А вот почему неопознанный символ представлен сочетанием двух - долго буду объяснять и запутаю вас, так как и сам только догадываюсь. Приблизительно.
---
Вставил в текст сообщения три shy - на моем экране только один проявился ))) суслики - их не видят, а они есть.
RE:Можно ли справиться с этой хреновиной?
+++
RE:Можно ли справиться с этой хреновиной?
...я думаю, что мы много мудрим над этим текстом...
...там всего пять страничек, которые легко переводятся в Гугле...одна особенность...на украинский кракозябры переводит правильно...а на русский не хочет... Хи )))
RE:Можно ли справиться с этой хреновиной?
..ещё один...
RE:Можно ли справиться с этой хреновиной?
..ещё...
RE:Можно ли справиться с этой хреновиной?
Это ведь половинчатое решение, если вообще таковым можно назвать.
Мы же тексты стараемся делать не приблизительно, а как положено?..
RE:Можно ли справиться с этой хреновиной?
Серьёзно?
Над этим текстом сейчас только вы мудрите.
Уже постов десять решается вопрос - что делать если такая проблема возникнет в будущем - и ваш способ не годится.
RE:Можно ли справиться с этой хреновиной?
Произвести обратные действия описанным мною выше.
RE:Можно ли справиться с этой хреновиной?
Только в том случае, если точно известно с какими кодировками производились действия до. Кстати, вам удалось произвести обратные действия?
RE:Можно ли справиться с этой хреновиной?
Иначе не писал бы. Побахвалиться, конечно, дорогого стоит, но эта проблема элементарна.
RE:Можно ли справиться с этой хреновиной?
Да и я спросил не для того, чтобы подловить. Если бы вы описали, как делали переконвертацию - пригодилось бы в будущем.
- я не понял, как сделать первый шаг в обратном порядке
RE:Можно ли справиться с этой хреновиной?
Набросал тут код на php, все шаги в нем. Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем.
<?php
header('Content-type: text/html; charset=UTF-8');
$str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу
echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже
//http://php.net/manual/ru/function.html-entity-decode.php
?>
RE:Можно ли справиться с этой хреновиной?
А вот это отлично было бы!
Это же несложно? Для меня, например, тёмный лес.
RE:Можно ли справиться с этой хреновиной?
Побахвалиться, конечно, дорогого стоита вдруг заработаетRE:Можно ли справиться с этой хреновиной?
Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php)
Распакуйте например на флешку.
В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код выше.
Рядом положите HTML файл под именем "0605EQMM.htm"
Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому)
В вашем любимом браузере наберите "http://localhost/test.php"
RE:Можно ли справиться с этой хреновиной?
Спасибо.
Указанный адрес локалхоста у меня не открылся. Повторю полностью ваш рецепт с небольшой поправкой:
Сравнил с исходным файлом - всё исправлено.
Примечания:
Ссылка на страницу скачивания программы открылась только в браузере с обходом блокировки.
(mirror) Download USBWebserver V8.6 - работает только вторая ссылка.
RE:Можно ли справиться с этой хреновиной?
Если бы вы в настройках указали порт 80, то к локалхосту можно было бы ничего не дописывать. Тут ребята перемудрили.
Но и так тоже ничего.
RE:Можно ли справиться с этой хреновиной?
Вообще-то в таком виде этот текст лежит на сайте ЗДЕСЬ и таким мудрёным его сюда уже положили...и никакие скрипты не помогут...а только здравый смысл...)))