Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 11 часов
babajga RE:Блошкинс и Фрю. Опасное путешествие 22 часа aldan RE: 1 день kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя alexk RE:Багрепорт - 2 6 дней babajga RE:Удивленная сова 2 недели Larisa_F RE:Серия «Квадрат» издательства «Текст» 2 недели Aleks_Sim RE:Беженцы с Флибусты 2 недели edvud RE:Прошу переформатировать, распознать, etc... 2 недели monochka RE:С 8 Марта! 3 недели babajga RE:Книга чуДОМищ 3 недели ProstoTac RE:Подборка о Первой Мировой 3 недели babajga RE:Нержавеющая сабля 4 недели sem14 RE:«Уроки русского» 4 недели Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц babajga RE:Сказки Сени Малины 1 месяц babajga RE:Сказки 1 месяц Впечатления о книгах
Синявский про Ален Жобер
30 03 В возрасте 84 лет скончался французский деятель культуры, известный как режиссер, писатель, актер, продюсер и переводчик — Ален Жобер. Об этом информирует портал Telerama. Жобер являлся коренным парижанином, в столице ………
dolle про Михайлов: Пепел доверия (Боевая фантастика, Социальная фантастика, Постапокалипсис, Самиздат, сетевая литература)
30 03 Продолжение в следующей книге может быть о крушении "пластмассового" мира , когда люди избавляются от всей лишней шелухи цивилизации, когда бывший офисный планктон матереет и борется за выживание в новых реалиях одновременно ……… Оценка: отлично!
Barbud про Ларин: Петров, к доске! (Альтернативная история, Юмор: прочее, Попаданцы, Самиздат, сетевая литература)
29 03 Это читать невозможно. Автор старается выписать так много деталей и подробностей разных рядовых событий, что за ними просто скрывается сюжет и действие не развивается, стреноженное этими подробностями. Характеры и поступки ……… Оценка: нечитаемо
msnaumov про Демиденко: Мастерство работы с ChatGPT 4: Полный гид для новичков и профессионалов (Учебные пособия, самоучители)
29 03 75 страниц общих рассуждений о необыкновенной пользе ИИ, полное отсутствие практической стороны.
Г.Гуслия про Влас Лещенко
29 03 про Лещенко: Узловой мир. Графомания с совершенно необязательными плевками в сторону Украины. Наверно иначе такое фуфло не напечатали бы. А уж ошибок - мама не горюй. ГГ уколы ставит под ряд (это где такое растет?), а ………
DGOBLEK про Короткевич: Дикая охота короля Стаха. Оружие. Цыганский король. Седая легенда [Сборник. Книга не полностью] (Исторический детектив, Историческая проза)
28 03 Книга не полностью. Отсутствует - Владимир Захаров. Певец седых легенд и народных поверий (послесловие), стр. 399-412
DGOBLEK про Короткевич: Дикая охота короля Стаха. Оружие. Цыганский король. Седая легенда [Книга не полностью] (Исторический детектив, Историческая проза)
28 03 Книга не полностью. Отсутствует - Владимир Захаров. Певец седых легенд и народных поверий (послесловие), стр. 399-412
pulochka про Халиди: Столетняя война за Палестину (История, Политика, Публицистика)
28 03 Вранье от первого до последнего слова! Оценка: нечитаемо
obivatel про Ковтунов: Идеальный мир для Лекаря. Книга 28 [СИ] (Боевая фантастика, Юмористическая фантастика, Фэнтези, Самиздат, сетевая литература)
28 03 Откровенно говоря, оно конечно такая долгоиграющая жвачка очень хорошо, но приелось уже. Так что при всём уважении и благодарности к автору за проделанную работу, цикл пора завершать. ИМХО ессно. Оценка: хорошо
Синявский про Лиза Джейн Смит
27 03 Л. Джейн Смит, автор романов «Дневники вампира», умерла в возрасте 66 лет. Писательница страдала от редкого аутоимунного заболевания.
Г.Гуслия про Плут
26 03 Очень неплохой ЛитРПГ. Читается без напряга, как раз то, что надо для отдыха. Оценка: твердое хорошо.
decim про Бенедикт Константинович Лившиц
26 03 Убит в 1938. А переводы печатались и до сих пор печатаются. Насчёт невостребованности. Самое невостребованное было - недаровитых авторов 1950-х. В букинистике, были одно время до потолка стопки всякого "Рассвета в степи" ……… |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Закончил книгу, где использовал данный скрипт. Призведя вычитку, убедился. что ляпов практически нет. Скрипт сработал на отлично. В тексте осталась только замена "ьщ" на "ыц". Ещё раз спасибо TaKir, да и вообще всем, принявшим участие в его создании.
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно выпало: "щей" вместо "шеи".
Можно и не заметить, оба слова в словаре присутствуют.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот еще, из довольно частых: Айда - Аида, ай - аи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Добавляю:
Ищет смесь регистров (кириллица ) проимерно так: проБа или ПРоба. Не трогает имена собственные
addRegExp("[а-яё][А-ЯЁ]","","Найдено: смесь регистров");
addRegExp("[А-ЯЁ][А-ЯЁ][а-яё]","","Найдено: смесь регистров");
Слипшиеся слова....А то..., .....И то
tagRegExp("(?< ![а-яё])ато(?![а-яё])","i","Найдено: слово \"ато\" (\"а то\" с опечаткой).");
tagRegExp("(?< ![а-яё])ито(?![а-яё])","i","Найдено: слово \"ито\" (\"и то\" с опечаткой).");
Удалить пробелы перед восклицательным знаком (!)
Отв: Типичные ошибки распознавания - собираем статистику ...
А вообще - убойный скрипт!! Ещё раз спасибо Такиру и Склексу!!
Может кому пригодится - я задублировал три таких скрипта - с небольшими изменениями, каждый на своей кнопке. Это касается украинских, болгарских букв ( у меня они выставлены в ФР и я частенько забываю их откл/вкл)), специальных знаков итд. В общем - каждый себе может подобрать набор. ОЧЕНЬ убыстряет и улучшает
Отв: Типичные ошибки распознавания - собираем статистику ...
Полагаю, стоит включить версию скрипта с регэкспами ТаКир'а в следующий релиз FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
+1.
Отв: Типичные ошибки распознавания - собираем статистику ...
вес - все
Круглов - Круглое
Валет - Балет
рот - рог
Отв: Типичные ошибки распознавания - собираем статистику ...
Случайно обнаружил, что скрипт не ищет буква+знак препинания+цифра
Это могут быть цифры пропущенных сносок примерно в таком виде:
Текст,3...Текст)3... Текст.3... Текст»3....
Предлагаю добавить:
addRegExp("[A-Za-zА-яЁё»).,][0-9]","","Найдено:Подозрение на пропущенную сноску");
К сожалению не получилось добавит сюда комп. кавычки - начинает выдавать ошибку скрипта.
Для целенаправленного поиска только таких цифр можно проводить и рег. выражением:
[A-Za-zА-яЁё"»).,][\d]
УПД: Если сделать так: addRegExp("[A-Za-zА-яЁё\"»).,][0-9]","","Найдено:Подозрение на сноску"); То комп.кавычку+цифра находится нормально (пришлось дополнительно вставить слеш)
Отв: Типичные ошибки распознавания - собираем статистику ...
В регэкспе была ошибка, поправил:
addMacros("<откр-закр-em-str>","<emphasis>|</emphasis>|<strong>|</strong>");
tagRegExp("([а-яёa-z]<откр-закр-em-str>*)*?[а-яёa-z]<откр-закр-em-str>*(<emphasis>|</emphasis>)<откр-закр-em-str>*([а-яёa-z]<откр-закр-em-str>*)+","i","Найдено: курсивность части слова.");
(Заменил один плюс на звездочку.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Упс. Вместо "ответить" кликнул на "изменить", в итоге затер старое сообщение. Или форум сглючил? Вряд ли.
Отв: Типичные ошибки распознавания - собираем статистику ...
Хорошо бы добавить точку с запятой (;) в конце абзаца. Иногда вместо двоеточия перед прямой речью выскакивает.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да неплохо бы!
Всем привет. Когда починят добавлялку?
Отв: Типичные ошибки распознавания - собираем статистику ...
вамп = вами
II = И
попятно = понятно
Отв: Типичные ошибки распознавания - собираем статистику ...
первое и третье можно будет добавить, а вот со вторым проблемы могут возникнуть. Скрипт будет показывать ВСЕ вхождения "И" (как отдельно стоящего слова) и боюсь их может быть многовато (((
Я вот ещё думаю, может добавить V+любую цифру? Довольно часто встречается вместо дроби (напр. 1/2
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипт нужно добавить не "И", а "II" с пробелами с обоих сторон.
Отв: Типичные ошибки распознавания - собираем статистику ...
И скрипт будет останавливаться на каждом “II”?
Боюсь для исторических текстов с обилием имен типа Екатерина II это не совсем хорошо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас скрипт останавливается на каждой "б" (частица), "яи" (в словах типа "хозяин"), и эти случаи встречаются чаще, чем "Екатерина II".
Отв: Типичные ошибки распознавания - собираем статистику ...
Насчет "хозяина", "яиц" и т.п. спорить не буду, а вот одиночная "б" встречается довольно редко, поэтому не раздражает.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, я наверное не так понял. У меня просто чаще встречается ошибка, когда вместо римской цифры - выдаёт "И" ))
tagRegExp("(?< ![а-яё])вамп(?![а-яё])","i","Найдено: слово \"вамп\" (\"вами\" с опечаткой).");
tagRegExp("(?< ![а-яё])попятно(?![а-яё])","i","Найдено: слово \"попятно \" (\"понятно\" с опечаткой).");
tagRegExp("(?< ![а-яё])II(?![а-яё])","i","Найдено: слово \"II\" (\"И\" с опечаткой).");
Хочу ещё раз подчеркнуть - скрип целесообразно иметь не один. Лучше его поделить на несколько, оставив в каждом необходимые+специфические. Ведь всё-таки есть разница по частоте ошибок в разных жанрах - свои словечки (жаргонизмы) есть в фантастике, свои слова в политической, научной или другой литературе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Здравствуйте, все!
Большое спасибо Sclex-у за срипты, а TaKir-у - что открыл эту тему!
Попробовал - очень полезно!
И, конечно, уже дополнил кое-чем, о чём вспомнил. Вот это дополнение.
В файле скрипта от Sclex-а "Поиск по набору регэкспов_TaKir_24_01_2011.js" после строки
// -------------конец блока TaKir - регэкспы:---------------
я добавил следующие (прошу строго не судить - чайник):
// -------------начало блока F.CYXOB - регэкспы:--------------
tagRegExp("(ыо)","i","Найдено: часть слова \"ыо\" (\"ью\" с опечаткой?).","",1);
tagRegExp("(ыш)","i","Найдено: часть слова \"ыш\" (\"ьни\" с опечаткой?).","",1);
tagRegExp("(?#(![а-яё])ужо(?![а-яё])","i","Найдено: слово \"ужо\" (\"уже\" с опечаткой, если это не просторечие).","",1);
addRegExp("^[Л][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Л вместо А в начале строки");
addRegExp("^[Л][.,:;!\?]","i","Найдено: буква Л вместо А в начале строки");
addRegExp("^[Д][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Д вместо А в начале строки");
addRegExp("^[Д][.,:;!\?]","i","Найдено: буква Д вместо А в начале строки");
addRegExp("^[Н][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Н вместо И в начале строки");
addRegExp("^[Н][.,:;!\?]","i","Найдено: буква Н вместо И в начале строки");
addRegExp("[\\x20][.,:;!\?]","i","Найдено: пробел перед знаком препинания");
addRegExp("[\\x20][»”’]","i","Найдено: пробел перед закрывающей кавычкой");
addRegExp("[…][.,]","i","Найдено: трёхточие с прилегающим справа знаком препинания");
// ~~~~~~~~~~ идея про строчные в начале предлож. от Рыжего Тигры. С усовершенствованием от F.CYXOB'а:
addRegExp("^[a-zа-яё]","","Найдено: строчная буква в начале строки");
addRegExp("[A-Za-zА-яЁё][….!\?][\\x20][a-zа-яё]","","Найдено: строчная буква в начале предложения.");
// ~~~~~~~~~~ идея про сноски от shokons. С усовершенствованием от F.CYXOB'а:
addRegExp("[A-Za-zА-яЁё][»….,:;!\?«)(\"”“][0-9]","i","Найдено: Подозрение на пропущенную сноску");
// -------------конец блока F.CYXOB - регэкспы:---------------
Пару символов "#(" в третьей строке tagRegExp надо заменить на левую угловую скобку.
Конечно, старшие товарищи меня пусть поправят, если что...
Спасибо!
Отв: Типичные ошибки распознавания - собираем статистику ...
По ходу работы над очередной книгой, выискиваются еще случаи:
отда, вместо отца конда, вместо конца лидами, вместо лицами
Отв: Типичные ошибки распознавания - собираем статистику ...
Встретил сегодня ф вместо гр.
А еще у меня истоия вот такая открылась, может уже здесь и писал кто:
Я раньше не особо не обращал внимания на точки и запятые перед тире в прямой речи. Вдруг обратил и огорчился. Например предложение:
"— Ты же меня знаешь — гнили не подсуну, — ответил взводный, — Драться умеют все."
И в книге и по-правилам: "— Ты же меня знаешь — гнили не подсуну, — ответил взводный. — Драться умеют все."
То-есть перед заглавной буквой должна стоять точка, А перед маленькой запятая:
"— Как букашку под микроскопом — вот что я хотел сказать, — буркнул он."
В книгах проставлено верно, а наши вычитывальщики вместо точки перед заглавной часто ставят запятую. Или файнридер им ставит. Но не обращают внимания.
Нельзя ли это как-то скриптом находить?
Отв: Типичные ошибки распознавания - собираем статистику ...
А не пробовали использовать скрипт "Точка, тире, буква"?
Отв: Типичные ошибки распознавания - собираем статистику ...
СПАСИБО, ДОБРЫЙ ЧЕЛОВЕК! Так и пришлось 2.5 ставить. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Смешные очепатки - ЖЗЛ Гулыга "Гегель" http://lib.rus.ec/b/188976/read
"Неловкий, старообразный, неряшливо одетый, у женщин он успехом используется."
Узнаем что Гегель учился на геологическом факультете
"Это не мешает Гегелю в двадцать лет стать магистром философии. По заведенному на геологическом факультете"
Который он закончил не много ни мало в осенью 4793 года!!!
"Консисториальный экзамен осенью 4793 года — последняя дань пребыванию на студенческой скамье."
И ещё Fr10 устойчиво фамилию Бальтазар распознавал как Бсихьтазар или Балыпазар
Отв: Типичные ошибки распознавания - собираем статистику ...
"еше" вместо "еще"
Я себе уже сама добавила. Подглядела, как ТаКир сделал. ;)
Но коль скрипт в этом виде собираются добавлять в следующий релиз, то не мешало бы включить и эту весьма распространённую ошибку. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Есть вопрос. Номера строк в стихотворных произведения сильно отвлекают (мешают) при чтении. Я представил эти номера над строкой и мне очень понравилось (кому интересно, можно посмотреть http://lib.rus.ec/b/269388). Так вот нужно ли и можно ли это автоматизировать? Делать это ручками можно, но занимает много времени. Прошу извинить за то, что не совсем в тему.
Отв: Типичные ошибки распознавания - собираем статистику ...
Если опишете поподробней, как вы себе представляете функциональность и интерфейс такого скрипта, может, когда-нибудь сделаю.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не помню, отмечалось или нет:
"Аза" вместо "А за".
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
это проверяется спелчеком. если это вставлять (вы представляете СКОЛЬКО частоупотребляемых слов с дефисами есть в русском языке?) затормозим работу скрипта до полного аута
Отв: Типичные ошибки распознавания - собираем статистику ...
Почему "часто употребляемых"?
Слов, типа "чтото, какогото" и т. п. в русском языке нет. И если скрипт поможет выявить эти ошибки - прекрасно. Скрипт ведь будет искать не слова с дефисами, а именно случаи без дефисов.
Отв: Типичные ошибки распознавания - собираем статистику ...
Виноват невнимательно прочитал и не вник. (((
Алексей, если имеется ввиду окончание слов на "то". То может быть. Правда много будет и холостых срабатываний (просто, запросто, итд)
Но мне довольно часто попадаются слитные - какнибудь, какойлибо итд. В своё время мне Склекс присылал выборку слов с дефисами в тхт (надо поискать куда засунул) так этот тхт весил немерянно.
ПС кстати - изза - в исходном скрипте есть
Отв: Типичные ошибки распознавания - собираем статистику ...
нот -> вот
Отв: Типичные ошибки распознавания - собираем статистику ...
"чю" вместо "что"
Отв: Типичные ошибки распознавания - собираем статистику ...
Слово "полста" часто распознается как "полета".
Отв: Типичные ошибки распознавания - собираем статистику ...
+1. Надо бы в скрипт добавить. Сейчас делаю книгу, автор любит слово полста...
Отв: Типичные ошибки распознавания - собираем статистику ...
06 - вместо "об"
01 - вместо "от"
Отв: Типичные ошибки распознавания - собираем статистику ...
эго = это
И вот это: "но" после слова и в обрамлении пробелов, скорее всего нужно "по".
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, тоже хотела про "но" написать. Как правильно такую строчку прописать в скрипте, чтобы она не искала все подряд "но"? А именно сочетание "конец слова" + пробел + но + пробел.
Отв: Типичные ошибки распознавания - собираем статистику ...
"[а-я] но "
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, попробую.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не годится. После запятой (если это правильно "но") тоже стоит пробел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Годится. Запятая в множество [а-я] не входит. Пользуюсь давно - работает. Причём это один из наиболее упускаемых даже при хорошей вычитке багов.
Отв: Типичные ошибки распознавания - собираем статистику ...
Хммм... Напиши тогда полную строку, пожалуйста.
Отв: Типичные ошибки распознавания - собираем статистику ...
Пытался - не выходит. Режется.
Единственное, я делал это под оператором addRegExp а не tagRegExp.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получается. :(
А в тэге "code" тоже режется? Или сделай вместо круглых скобок фигурные. Очень бы хотелось пользоваться.
По поводу пропущенных точек: есть отдельный скрипт, но он останавливается перед каждый именем собственным. Я пользуюсь "точка, тире, буква" - он ищет неправильные знаки в прямой речи.
Твой может больше?
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("[а-яё] (но) ","i","Найдено: слово "но" ("но " без запятой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
О, спасибо, Миша. Я не увидела и сама пыталась писать.
Твой скрипт действительно находит в указанном месте, а в следующем уже нет. :(
"вид но"
Как такое может быть?
Я написала addRegExp, но он ВСЕ "но" ищет. :( А мне нужно только те, у которых до пробела нет запятой.
Страницы