Вы здесьМетаграммы
Опубликовано пн, 10/09/2012 - 03:04 пользователем golma1
Название темы - условное, для лучшего поиска. На самом деле метаграмма - вид шарады. Но к нашей теме косвенное отношение имеет. А собственно тема - об улучшении качества fb2-файла (а о чём же ещё? Примеры: "грех - трех", "свечка - овечка", "липа - лица".
Когда-нибудь, возможно, появится скрипт, выискивающий такие слова, пока их (при желании) можно включить в "Поиск по регэкспам" (частично они уже там присутствуют). К сожалению, словаря на эту тему не существует (или я плохо искала?), поэтому предлагаю собирать их здесь. Для того, чтобы в момент появления скрипта (надеюсь, он всё-таки когда-нибудь появится) было бы чтó ему "скормить".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Не удаётся добавить книгу 3 часа
Саша из Киева RE:Живу я в мире только раз... 9 часов Саша из Киева RE:Герои Израиля 1 день macs1112 RE:Подайте бедному копеечку на книжку с литреса... 3 дня Саша из Киева RE:Соха и Пятикнижие 3 дня Саша из Киева RE:Этот контрастный мир 4 дня sibkron RE:Международная Букеровская премия (лауреаты) 5 дней Саша из Киева RE:Братья родные 5 дней nehug@cheaphub.net RE:не открывается книга 1 неделя nehug@cheaphub.net RE:Доступ 1 неделя sibkron RE:«Македонский роман XXI века 1 неделя sem14 RE:Рассказы Южных морей 2 недели weis RE:Прошу переформатировать, распознать, etc... 2 недели arkadybi RE:Абонемент 2 недели babajga RE:Комната в башне 2 недели babajga RE:сиреневая звезда 2 недели babajga RE:Сказки Папоротникового Леса 2 недели sem14 RE:вопрос 3 недели Впечатления о книгах
polyn про Калинина: Проклятая картина (Детективная фантастика, Ужасы, Триллер, Самиздат, сетевая литература)
12 07 Змечательный мистический триллер. Жду продолжения. Оценка: отлично!
дядя_Андрей про Стригин: В гостях у ведьмы [CИ] (Фэнтези, Детская фантастика, Сказочная фантастика, Самиздат, сетевая литература)
10 07 Очень хорошая сказка. Как бы и не лучше "Повести о дружбе и не дружбе" АБС, хотя герои младше года на 4. Оценка: хорошо
Bibliofile про Глуховский: ПОСТ [litres] (Боевая фантастика, Героическая фантастика, Социальная фантастика)
09 07 Не плохо, очень. Неожиданно, как и сама книга. Оценка: отлично!
Aleks_Sim про Дубнов: Книга жизни [воспоминания и размышления] (Биографии и Мемуары)
08 07 offe00 про Дубнов: Книга жизни [воспоминания и размышления] - Просьба перевести эту книгу в другой, читаемый формат - ЕСЛИ возьметесь за вычитку fb-формата то я дам ссылку на файл
Стармех про Осадчук: Поход [СИ] (Боевая фантастика, Героическая фантастика, Фэнтези, Самиздат, сетевая литература)
08 07 Хорошая серия, буду ждать продолжения Оценка: отлично!
Добила про Андрей Вичурин
07 07 Не читаемо. Не осилил даже первой части! Автор скачет по двум героям,а сам сюжет ни в одной из линий не развивается,нудятина ни о чём,читать невозможно!
alexk про Еленец: Равновесие [litres] (Боевая фантастика, Детективная фантастика)
07 07 Контробандист " ? Правда чтоле? так прям и издали?
decim про Щепетнёв: Освобождение (Альтернативная история, Социальная фантастика, Рассказ)
07 07 Потыкали ботву носом в нелёгкую реальность, ботва пищит: "мы не ср*м!". Не подозревают убогие, что именно оно за реальность считают и в том признались. Оценка: хорошо
decim про Волина: Точное будущее. Лучшая фантастика – 2024 [сборник litres] (Боевая фантастика, Космическая фантастика, Социальная фантастика, Научная фантастика)
07 07 Сборник хороший, за двумя исключениями. Лукьяненко - исписался в край и уже не может работать даже приманкой. Казаков - нечто, похожее на эссе "про всё хорошее" из далёких 60-х. Остальное хорошо. Социальный пессимизм ……… Оценка: хорошо
polyn про Ивлиева: Триггер убийства [litres] (Полицейский детектив, Триллер)
07 07 Очень удачное знакомство с новым автором. Ивлиева, прежде известная своими сказками, теперь представляет детективы. Ее дебют в этом жанре оказался удачным. Книга увлекательная, легкая и быстро читается. Особенно выделяется ……… Оценка: отлично!
Старший про Поселягин: Док [litres] (Фэнтези, Попаданцы)
06 07 Сказка с очень большими роялями.Оценка неплохо.
udrees про Михайлов: Инфер-9 [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Самиздат, сетевая литература)
06 07 Написано хорошо, значительно отличаясь от предыдущих книг серии. По идее, 8-я книга могла стать последней в серии, но добавилась 9-я, где все опять вернулось к истокам. Гоблин Оди снова один, без своих компаньонов, и снова ……… Оценка: отлично! |
Комментарии
Отв: Метаграммы
Я обработала почти 70%, но если Вы продвинулись дальше, то уступлю.
Отв: Метаграммы
А еще нужно учесть формы слова (падежи и т.п.), если очевидно, что ошибка будет "срабатывать" на всех или нескольких, то нужно добавлять и их.
Например, ворона - борона (нужно добавлять все падежи).
Врага - врата (только так, лишнего не надо).
Врата - брага (аналогично).
Врага - брага (здесь нужно перебрать падежи, на которых "сработает": враги - браги; враге - браге (-брате); врагу - брагу (-брату). Все перебрали, на других формах сработать не должно).
Отв: Метаграммы
Извините меня, ради Бога, я не знала, что вы делаете, иначе бы не стала браться. Очень сожалею, что так получилось. Я по алфавиту расставила, проверила в FBE орфографией и набором регэкспов, сейчас начала перебирать все падежные формы. После этого занятия с огромной, нет, с огромнейшей радостью отдам все в хорошие руки. Как вы решите. Если продвинулись дальше, или хотите сами сделать, я не буду настаивать. Могу выложить результаты, чтобы можно было сравнить.
Отв: Метаграммы
Я действительно очень сожалею, это неприятно, когда делаешь работу и кто-то переходит дорогу. Еще раз прошу прощения. Просто хотела побыстрее этот скрипт попробовать.
Отв: Метаграммы
Ничего страшного не произошло. Скорей я виновата, не известила о том, что начала делать. Но я придерживаюсь такого правила - не сообщать о недоделках.
Успехов Вам в работе.
Отв: Метаграммы
Тааак...
Не получится ли теперь, что никто теперь не будет делать? :(
Отв: Метаграммы
Я продолжаю. Но очень много вариантов. А нельзя по неизменяемой основе искать. Например, волевой - болевой, искать по — волев - болев. Без:
волевой - болевой
волевая - болевая
волевые - болевые
волевое - болевое
волевым - болевым
волевого - болевого
волевому - болевому
волевом - болевом
Если что, я не специалист и имею право на глупость :).
При перечислении всех вариантов количество слов увеличится в разы.
Отв: Метаграммы
Полагаю, что можно aka в словарях, типа:
волев~ - болев~
Авось, товарисчь, который возмётся варганить скрипт, с пониманием отнесётся к данной промблеме. :)
Отв: Метаграммы
Болдом выделены слова как они были предложены в теме. Курсивом выделена основа для поиска. Если все-таки нужно будет сделать все варианты, без проблем, только завтра.
Отв: Метаграммы
Водной - в одной
Водном - в одном (где там скрипт "слипшиеся слова" или как его там, может быть в подобных случаях он поможет?).
Отв: Метаграммы
Не, скрипт Слипшиеся слова ругнулся только на один случай отсутствия пробела перед дефисом, все остальное его устроило. И вообще я думала, что в скрипт будут входить только выловленные оригинальные "метаграммы", иначе бы тихо сидела себе в уголке. У меня вчера голова вспухла, я давно забыла, что такое спряжения, падежи и подобное.
Отв: Метаграммы
Ну вот это как раз реально выловленные:
Водной - в одной
Водном - в одном
и бороны - вороны тоже...
Отв: Метаграммы
Класс! Спасибо большое.
Уведомлю нашего уважаемого скриптописальщика. ;)
Отв: Метаграммы
Я подумала, может быть, зная, на каких буквах спотыкается FR, пособирать теоретически возможные случаи. Разумеется, не впадая в крайность. Например:
калан - калач
капитель - канитель
казак - казан
кадета - надета
кабак - кабан
платью - платно
лестью - лестно
голой - юлой
рыбкой - рыбной
Любимая FR замена буквы с на е в конце слова вполне может сработать в слове каперс — капере.
Или это лишнее?
Отв: Метаграммы
На мой взгляд, отличная идея. :)
Отв: Метаграммы
Тогда я сначала выложу варианты сюда, если возражений не будет, внесу в список.
Отв: Метаграммы
Водной - в одной
Водном - в одном
есть в списке, а
Борона - ворона
я добавлю, не заметила, что этого слова нет в списке, приняла только как пример, в предыдущих постах его не было. Извините, что не поняла вас.
Отв: Метаграммы
Вот, встретилось: полетать - под стать.
Редкость, наверное.
Отв: Метаграммы
Ну, метограммы все можно перебором из словаря выбрать программно... Не понимаю смысла составления этого Метограмматона... Вариантов подмены букв очень много и зависят они от качества скана, ШРИФТА!, программы распознающей и тп. Я уж не говорю про многоязычные книги или книги, где язык сознательно исковеркан (например, для передачи картавости, заикания...)
А по опыту, действительно - Файнридер порой такие перлы выдает, - кажется он неисчерпаем, как атом - без бутылки не разберешь, куда там регэкспами вылавливать)))
Отв: Метаграммы
Если по какой-то причине книга не вычитывается, этот скрипт позволит выловить хотя бы часть "метаграмм". И совесть успокоит. А сложные книги лучше вычитывать, здесь скрипт не понадобится. ИМХО.
То есть вариантов, естественно, было больше. Решите, что нужно оставить, или может быть добавить?
Отв: Метаграммы
Только что нарвался в новой книге Фоллетта
войны- воины
Отв: Метаграммы
Кстати, это встречается часто. И с падежами.
Отв: Метаграммы
Может быть, и даже скорее всего, уже было:
стальные / стильные - и все морфологические варианты;
мечты / менты - заглавие "Роковые менты" меня сильно порадовало :))
Отв: Метаграммы
Хотелось бы узнать: кто-нибудь что-нибудь делает по решению данного вопроса? Или...
Отв: Метаграммы
Да, собственно скрипт готов. Осталось его всесторонне потестировать и можно "выдавать". Если автор даст добро, можно выложить для массового тестирования.
Уточню.
Отв: Метаграммы
Я "вручную" пополняю Ваш, Голма, справочник. Мне кажется, нужно только в предложенном списке (может это уже реализовано) вначале ставить неправильный или "любимый ФР" вариант слов, а затем правильный. К примеру, в книгах издательства МГ, ФР№ 11 категорически не замечает букву "щ". Поэтому при варианте чаше-чаще я бы поставила, как ошибку "чаше".
Сейчас попалось: мешанина - мещанина. То есть у данного скрипта будет возможность "под себя" подстроить?
Отв: Метаграммы
Этим скриптом занимается Evernet, поэтому у меня нет ответов на Ваши вопросы.
Знаю только, что словарь для скрипта может пополняться пользователем. Давайте подождём ответа автора.
Отв: Метаграммы
Скрипт скоро будет представлен публике. Наполнением списка давно занимается Evernet. По этому вопросу лучше обратиться к ней. Замечу, что как располагать "правильный - неправильный" значения не имеет. Для этого используется символ $. Т.е. в вашем случае конкретно так: чаше-чаще$ и мешанина - мещанина$
Как видите - полная подстройка под нужды пользователя.
Отв: Метаграммы
Хорошо, буду ждать. А то очень сложно бывает выловить ошибки, которые подчас и смысл текста меняют
Отв: Метаграммы
FR11, в основном на гарнитуре таймс и неплохих по качеству сканах
Отв: Метаграммы
Архив со скриптом и необходимыми файлами выложен здесь: http://ge.tt/5fl904b/v/0 и здесь: http://rusfolder.com/35464421
Инструкция пользователя внутри архива.
Часть метаграмм УМЫШЛЕННО не обозначена символом $ — как априори верные.
В иных случаях возможно обсуждение необходимости простановки, перемещения либо удаления знака $.
Подготовкой xml-файла метаграмм и составлением инструкции пользователя занималась Evernet при участии Alex2L.
Она же занималась тестированием, за что ей отдельное спасибо!
Отв: Метаграммы
Можно уточнить по интрукции
У меня на диск "H", когда я нажимаю, пишет "вставьте диск"?
Отв: Метаграммы
Да куда захотите! Любой диск с правами на чтение-запись. Например, D:
Кстати в инструкции маленькая неточность:
вместо 'H://Metagramma//4OTHER//' следует понимать как 'H://4OTHER//'
В вашем случае, скажем, 'D://4OTHER//'
(4OTHER - можите ПЕРЕОБОЗВАТЬ)
Отв: Метаграммы
Поняла.Следующий вопрос
Как точно файл называется? У меня нет названия "Метаграмма-контекст.js" С окончанием "js" есть 5 файлов в папке "js"
Отв: Метаграммы
В файле инструкции "Метаграмма-контекст.rtf" написано:
т.е. в папка 4FBE - Метаграмма-контекст.js. В нём "D://XML//Metagramma//" - меняем на тот, куда распаковали!
Сам фвйл переносим в FB-скриптам.
Отв: Метаграммы
Вопрос: прописала 'D://4OTHER//'
![](http://s020.radikal.ru/i709/1303/28/c25fc1d1aede.jpg)
2. Файл "Метаграмма-контекст.js" поместила в подпапку "Scripts"
3.Открыла FBE. В разделе скрипты появился раздел: метаграмма-контест. Нажимаю: пишет-
Отв: Метаграммы
Что прописано в 21-й сверху строке "Метаграмма-контекст.js" ? Так: var MetagrammaPath = 'D://4OTHER//'; ?!
А файл "metagramma.xml" гиде лежит? Тут: 'D:\4OTHER' ?!
Отв: Метаграммы
Спасибо, заработало. Я одну палочку в адресе не поставила.
Отв: Метаграммы
Антонина82, вы говорили, что пополняете словарик. Можете выложить ваши метаграммы, чтобы можно было добавить в свой?
Может быть у кого-нибудь еще появились новые, неплохо было бы писать сюда. А желающие уже будут добавлять в свой словарь.
Отв: Метаграммы
Слова, которые я добавляю в скрипт регэспов (кто придумал такое дурацкое словцо), практически перечислены выше.
Опробовала новый скрипт. Для меня он не очень подходит. Объясню почему. Дело в том, что все книги я прочитываю, сравнивая с бумажным экземпляром. Расценивайте это, как чудачество, при наличии сканов, но это так. Поэтому проверять повторно с помощью метаграмм, мне не очень хочется. Вчера потеряла несколько часов, проверяя с помощью этой программы, ранее сделанную книгу. Ни одной ошибки! Это не значит, что я вычитываю безошибочно. Наверняка, спустя год, прочитав ранее сделанную книгу, их обнаружу. Но, уверена, их количество не будет критичным.
Для себя вывела способ, как сократить количество ошибок. Надо брать одну-две-три серии книг одного издательства и сними работать. Примерно на 5-6-7 книге, вы будете знать "родовые" проблемы ФР при распознавании текста данного издания. К примеру, книги серии ЖЗЛ,как я писала выше, приобретают после работы ФР,"белорусский" акцент, т.е. букву "щ" превращают в в "ш". И получается "мешанина" вместо "мещанина" (: В книгах, серии "Живая история", обязательно надо проверить, если в конце предложения стоит буква "к" наличие точки. И 6 (шестерка) постоянно заменяется буквой "б". Я думаю, что Голма может привести значительно больше подобных примеров из практики. Ну, конечно, зацикливаться на книгах одной серии я не собираюсь, а то у меня в мозгах "сумбур биографий классиков".
Поэтому программа "метаграмм" будет хорошо работать и помогать тем книгоделам, кто не читает текстов. ФР покажет ошибки распознавания, а "метаграммы" покажут ошибки ФР.
Отв: Метаграммы
Это я ставил вопрос про спелчекер и вычитку. Поставил. Сделал даже под него иконку. Кого заинтересует здесь http://yadi.sk/d/vN5f9PtO3ITwL . Попробовал работать. По моему получается довольно параноидально. При проверке обнаружилось больше 500!!! слов. Только слово «более» имеет 105 вхождений. Проверка всех слов займет времени больше, чем вычитка. А по мере увеличения словаря будет еще хуже. Это первое впечатление. Посмотрим, что будет дальше.
Отв: Метаграммы
Что параноидально, эт точно! Сам когда увидел первые рез-ты - офигел, сколько слов оказывается в метаграммных связях замечены.
Насчет "более" - кто-то написал, что так у него "боже" распозналось. Наверное, так и было. С "далее" - та же, похоже, история. Тут два выхода - или переделать словарь "под себя", выкинув лишнее. Либо при прверке протокола не обращать на часть слов внимания в принципе, особенно тех, где кол-во повторений много. Кстати Это кол-во не вхождений данного слова в текст в целом, а кол-во параграфов, где встретилось это слово. Т.е. на самом деле их может быть больше. Уменьшение размеров словаря - путь к ускорению обработки. Оставить только типа "негр - неф" и т.п. Скрипт по большому счету для отпетых педантов. А что делать?! На джаваскриптах искусственные интелект не соорудить. ИМХО.
Отв: Метаграммы
Всего скрипт насчитал больше 4800 вхождений. Если, на просмотр каждого потратить 5 сек, то получится 24000 сек= 400 мин= 6,6 часов. Я эту книгу 400 стр. прочту за 8.
Страницы