Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 мин.
ostap79 RE:Подайте бедному копеечку на книжку с литреса... 1 день babajga RE:Белая княжна 4 дня Nicout RE:Таинственная личность админа Флибусты 6 дней Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 неделя mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 неделя zlyaka RE:С Новым годом! 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя SparkySpirit RE:Прошу переформатировать, распознать, etc... 2 недели SparkySpirit RE:Жорж Санд - переводы 19 века 2 недели Саша из Киева RE:Наш дом - СССР 2 недели babajga RE:Чернушка. Повести 2 недели Саша из Киева RE:Сказки далёких островов 2 недели babajga RE:Лопоухий бес 3 недели babajga RE:Ежик покидает дом 3 недели babajga RE:Сказки бабушки Черепахи 3 недели babajga RE:Свист диких крыльев 3 недели Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 4 недели Впечатления о книгах
alexk про Кича: Большая книга по истории Ближнего Востока. Комплект из 5 книг [litres] (Исторические приключения, История)
11 01 Очень странное издание. И с каких это пор Афганистан стал Ближним Востоком?
behemmoth про Круз: В центре урагана (Социальная фантастика, Самиздат, сетевая литература)
09 01 Долго думал, писать ли отзыв или aut bene aut nihil. Но тем не менее. "Ветер над островами" был, пожалуй, самой "взрослой" серией Андрея, в которой наконец-то хоть чем то была разбавлена набившая оскомину парадигма "война ……… Оценка: плохо
Barbud про Ларин: Прощай СССР (Приключения: прочее, Самиздат, сетевая литература)
09 01 Дочитал... Да, местами смешно, читать можно. Жаль, концовка какая-то невнятная - ГГ вкупе с заклятыми братьями по сверхразуму исчез ХЗ куда, вожатую и ненормального пионера - "кровь-кишки-распидорасило", итог лагерной "Зарницы" остался непроясненным))
mysevra про Дойч: Метроном. История Франции, рассказанная под стук колес парижского метро (Историческая проза, Публицистика, Документальная литература)
09 01 По этой книге Фабрисом Урлие снят замечательный 4-серийный документальный фильм - яркое визуальное дополнение. Оценка: отлично!
nik_ol про Джентльмен сыска Иван Подушкин
08 01 Выложите уже, пожалуйста, новое от Донцовой что-то, а то от Пелевина уже ум за разум заходить начал)))).
Анни-Мари про Потомокъ
08 01 Замечательная серия. Любопытно, будет ли продолжение? В целом, все логически завершено, но! Такое ощущение, что автор допускает, да.
pulochka про Френкель: Бог, которого не было. Красная книга (Проза)
08 01 Это бред сумасшедшего? Как ЭТО вообще можно читать? Оценка: нечитаемо
decim про Серяков: Русы во времена великих потрясений (История, Научпоп)
08 01 Весьма любопытные гипотезы. Однако судить о бесписьменном народе, каким в те поры были предки современных славян(русами их назвал Ибн-Фадлан гораздо позже, и не были ли то Ruotsi, варяги? собственно славян соседи по Балтике ………
Barbud про Ларин: Назад в СССР (Детская фантастика, Самиздат, сетевая литература)
07 01 Чушь какая-то. Автор, вероятно, молодой молокосос, не имеющий понятия о том, как общались пионеры в то время и каких слов и оборотов они вообще не знали. Да и ведут они себя абсолютно неестественно для тогдашних реалий. Затяжной ……… Оценка: неплохо
RusD про Елманов: Серый ангел [litres] (Попаданцы, Историческое фэнтези)
07 01 Это, похоже, 2я часть книги "Последний шанс империи
Вита Бревис про Руслан Владимирович Жуковец
07 01 То что я прочла и поняла - хорошо. Отсюда я заключаю, что и все остальное - тоже. Я прочитала характеристику Порфирия Иванова. Великолепно. И глубина , и анализ, и все такое.
mysevra про Выставной: Тварь (Боевая фантастика)
07 01 Насколько была увлекательной первая книга, настолько же неинтересна вторая. P.S. Здорово, что вы есть, я безумно скучала. Оценка: неплохо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Возможно, это никакая не проблема. Попробуйте ткнуть мышкой где-нибудь в начале текста (т.е. «установить фокус ввода» внутри документа) и запустите скрипт. Я уже попадался и тоже спрашивал.
Отв: Типичные ошибки распознавания - собираем статистику ...
А какой сейчас последний регэсп? По ссылке http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384 версия 2.6 но она стерта.
Отв: Типичные ошибки распознавания - собираем статистику ...
Из группы ФБЕ
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/363ae2a696beefca
Александр Клюквин пишет
В процессе работы со словарем внезапно (с) выяснилось, что с кодировкой
словаря KOI8-R пора завязывать. Мне понадобилось выделить кое-какие
приставки. Нужны были однобайтовые символы в большом количестве, приставок
не просто много, их до хрена. А эти символы просто закончились, KOI8-R не
понимает половины использованных мной обозначений.
Благодаря исключительно терпеливой поддержке Сенса, я внес в программу
необходимые изменения (одна строка в описании, не более), скомпилировал и
построил инсталляшку. В результате в этой версии словарь для FBE
присутствует в кодировке UTF-8. В данной сборке включен словарь на сегодня,
27 ноября 2011 года. В нем грандиозные изменения, о них подробно я напишу в
ветке о словаре 1 декабря.
Прошу скачивать, пробовать, писать о неполадках. Одно "но" - вряд ли я
смогу их поправить. Повторюсь, изменение одно: была кодировка KOI8-R, стала
UTF-8, в остальном все должно быть так же, как и прежде. Проверьте словарь.
То есть можно скачать новую FictionBook Editor Release v2.6 (build 27 Nov).exe отсюда: http://code.google.com/p/fictionbookeditor/downloads/list
Изменения в словаре в новой версии:
Отв: Типичные ошибки распознавания - собираем статистику ...
Вчера столкнулся с замечательным пёрлом от OCR.
Улыбнуло.
Отв: Типичные ошибки распознавания - собираем статистику ...
Путаница "п", "л", "д" - это врожденное у FR.
Аналогично часто путает "е" и "с", "к" и "н".
Амперсант "&" часто вставляется как amp;
Потому приводить все примеры смысла нет.
У меня чаще всего"Юнкерс" и "Абрамс" - распознаются как "Юнкере" и "Абраме" , "Pratt & Whitney" как "Pratt amp;Whitney".
Еще частая ошибка в распознавании вместо "Л" - "JI". Обычно в абревиатурах и инициалах, например: "М.Л. Миль" и "Ле Бурже" распознается как "М.JI. Миль" и "JIе Бурже"
Отв: Типичные ошибки распознавания - собираем статистику ...
Добавила в скрипт поиска по регэкспам две строки (стали часто попадаться в последнее время):
tagRegExp("(?<![а-яё])ноя(?![а-яё])","i","Найдено: слово "ноя" ("но я" с опечаткой).","",1);
tagRegExp("(?<![а-яё])ия(?![а-яё])","i","Найдено: слово "ия" ("и я" с опечаткой).","",1);
Отв: Типичные ошибки распознавания - собираем статистику ...
Вычитываю книгу "Последнее дело Трента", сверяюсь с книгой,вот что попалось интересного в 3-х главах..)
"мистер Копплс позволил себе несколько минут насладиться ландшафтом, включающим в себя... - в книге включавшим
У нее необычно твердый характер - необычайно
"У мистера Копплса был извиняющий тон" - извиняющийся
Мило.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Не в тему.
Это - ошибки(?) переводчика или редактора, или разница в бумажных изданиях, или ошибки первого верстальщика, но никак не ошибки автоматического распознавания текста и исправления этих ошибок средствами FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Переводчика? Смешно,текст абсолютно идентичен.Или Вы думаете он два раза переводил?) Что такие огрехи при перепечатке книг,ну не знаю... В любом случае у меня первое издание журнала "Север" 1990 года, всё-таки может быть стоит на него ориентироваться? Темой я не ошиблась, я считаю,что это Файнридер подменяет слова.
Отв: Типичные ошибки распознавания - собираем статистику ...
Первая еще так-сяк может сойти, остальные вряд ли. Больше на редакторские правки похоже. С какого издания делали уже не узнать.
Отв: Типичные ошибки распознавания - собираем статистику ...
С последней,так по тексту нет сомнений,человек оправдывается,конечно "извиняющийся". Я что-то засомневалась,считаете ли Вы,что такие ошибки нужно исправлять? Какая-то странная реакция. И если их нужно исправлять, сразу спрошу,могу ли я поменять обложку книги?
Отв: Типичные ошибки распознавания - собираем статистику ...
(почесав репу) Наверное да. Раз незнамо с чего делалось, то и обложка от балды прицеплена. А так всё законно будет. Тогда в publish-info надо будет Ваш журнал вписать. Но это по-моему, кто-то может и не согласиться.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это не ошибки FR, Есть небольшие отличия журнального варианта 1974 года и прибалтийского издания 1992 года.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вы меня удивили и запутали,ладно,бросаю вычитку.
Отв: Типичные ошибки распознавания - собираем статистику ...
Зачем же бросать, в петрозаводском издании 90-го года все как в журнале, поэтому правильным будет считать журнал эталоном...
Отв: Типичные ошибки распознавания - собираем статистику ...
Да ладно. :)) Мелочи это всё. А дело нужное. Как сделаете, так и будет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ок. Если вычитаю до конца *угрожающе*),обложку поменяю.
Отв: Типичные ошибки распознавания - собираем статистику ...
Как в скрипт поиска по регэкспам добавить латинское on (часто распознается вместо он), но так чтобы поиск работал в русскоязычном тексте и не искал это словосочетание в латинице?
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("(?<![а-яё]) no (?![а-яё])","i","Найдено: слово "no" (вместо "он").","i",1);
Поскольку слово, скорее всего, будет внутри предложения, можно "i" из кавычек убрать, останется только:
tagRegExp("(?<![а-яё]) no (?![а-яё])","i","Найдено: слово "no" (вместо "он").","",1);
Отв: Типичные ошибки распознавания - собираем статистику ...
Голма, я бестолково сформулировала вопрос. На свежую голову: Как сделать, чтобы искало слово on полностью? Если я вставляю строку, по аналогии с той, что Вы приводите в примере, то ищется и часть слова, к примеру le non-finito.
Заодно вопрос. Файнридер временами гонит халтуру, я не имею ввиду распознавание. Мне надо заменить часто встречаемое ошибочно написанное слово. Делаю замену дважды:направление - вперед и назад. Как показывает практика, замена не всегда срабатывает. Поэтому повторно проделываю поиск с заменой в FBE.Там пока такой проблемы не возникало. Как бороться с ФР11, чтобы замена происходила полностью? А то мне приходится вести словарик слов, которые я заменяла в ФР11, чтобы перепроверить их наличие в FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Во-первых, я сделала ошибку: должно быть on, а не no. Во-вторых, Вы правы, ищет не так, как хочется.
Пробуйте так:
addRegExp("[а-я] \on\ [а-я]","","Найдено: on латиницей");
Насчёт замены в ФР. Проверьте, чтобы при массовой замене ("заменить все") курсор не стоял внутри нужного слова. Должен быть или до или после него.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, получилось. Кстати, no - тоже встречается, вместо русского по.
С ФР,чтобы он сделал полную замену нужных слов, я только разве ж не вприсядку танцую. Не помогает. Может зависит от размера текста? С большими объемами ФР не справляется, С Залёй, например ((( Тем более это издание начала 60-х годов. Ошибок распознавания ужас сколько.
Отв: Типичные ошибки распознавания - собираем статистику ...
Продублируйте строку и вставьте no вместо on. Тогда будет искать оба варианта.
Насчёт ФР ничего не могу подсказать, я с такой проблемой не сталкивалась. Все замены происходят штатно.
Единственный момент, который ещё приходит в голову, - это переносы. То есть, если "варан" заменять на "баран", то "ва-ран" не заменится.
А издания 50-60-хх годов - это кошмар OCR-щика. Ужасные шрифты, плохое качество печати. Очень знакомо. Сочувствую.
Отв: Типичные ошибки распознавания - собираем статистику ...
Проверила Ваше предположение. Это действительно так. Слово с переносом - не заменяется. Так что, чем больше объем книги, тем больше вероятность, что 100% замены ошибочного слова может не случиться. Поэтому эту операции буду делать только в FBE.
ЗЫ: проверку осуществляла со словом г-на Виарга. ФН заменил его на привычное Виагра.
Отв: Типичные ошибки распознавания - собираем статистику ...
Если Вы убираете в ФР дефисы, заменяя их на мягкие переносы (по методу ТаКира), то можно делать массовую замену после этого. С другой стороны, всё равно пришлось бы вести список замененных слов, можно тогда сразу и в ФБЕ делать.
По поводу списка: ФР хранит в маске поиска/замены последние 20 слов. Если замен было меньше, список слов можно брать оттуда.
И ещё. В ФБЕ служба "Слова" покажет Вам все те слова, в которых сохранился ненужный дефис. Обзор довольно наглядный.
Другими словами: попробуйте разные способы и выберите тот, который Вам наиболее по душе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо за советы. Буду на Золе тренироваться.Но мне кажется, в FBE меньше телодвижений придётся делать.
Отв: Типичные ошибки распознавания - собираем статистику ...
При направлении "вперед" - замена срабатывает. При направлении "назад" - не срабатывает, замены не происходит. Вот такая закономерность. У меня, во всяком случае. Во избежание всегда выхожу в начало текста. А вот свежий вопрос - со вчера после очередного обновления Аваста он (Аваст) при попытке запустить Файнридер удаляет экзешник - типа вирус и типа в карантин. Хелп!!! Сижу с отключенным антивирусом, неуютненько как-то. Вариант "игнорировать" или "исключение"не проходит.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это глюк. Так не должно быть.
Насчёт exe-файла: посмотрите в настройках Аваста, где внести исключения, и впишите туда папку ФР.
Отв: Типичные ошибки распознавания - собираем статистику ...
В "исключения" вписала первым делом. Увы, не помогло. Папку-то он не трогает, только экзешник из нее утаскивает.
Отв: Типичные ошибки распознавания - собираем статистику ...
Хммм... Вообще-то, если папка в исключениях, он её совсем не должен проверять.
Может, не так вписана? Обычно прописывается путь к папке. Но я не знаю, как это выглядит в Авасте.
Отв: Типичные ошибки распознавания - собираем статистику ...
Путь прописан стандартно
Выглядит как-то так
Отв: Типичные ошибки распознавания - собираем статистику ...
Тогда не знаю. :(
Единственное, что ещё приходит в голову: на скриншоте длинный путь, содержащий кириллицу.
Я бы попробовала оставить просто ABBYY и убрала бы эту "Новую папку". Знаю программы, чувствительные к такого рода записям. Относится ли к ним Аваст, не в курсе.
Отв: Типичные ошибки распознавания - собираем статистику ...
От жеж.
Мёдом что ли, вам эти противки мажут, что вы никак оторватьсяч от них не можете?
Поставь нормальную реестрозаписываемую версию, сразу от кучи проблем избавишься! Или как вариант, как Антонина, купи лицензионную!
Тема на РуБорде, где можно взять кряк и скачать на максимально быстрой скорости по прямой ссылке прямо с оф.сайта. По-моему, так самый лучший метод: быстро скачиваешь большой файл ФайнРидера с оф.сайта и в это же время скачиваешь масенький такой кряк с файлопомойки. Всё максимально быстро.
А что касается
противокпсевдопортативок, то серут в реестр они побольше, чем реестрозаписываемый FR, кроме того, что очень важно, запускаются из копии папки, и папку TEMP тоже ищут в своей папке. Конкретно эта папка имеет название ...\ThinApp\FineReader\,(точно не помню, но что-то подобное, я один раз даже обалдел, когда узнал ГДЕпротивныйпротативный Файнридер ищет файл для передачи в протативный OpenOffice) а не та папка, в которую вы её "установили".Короче, выброси противку и установи нормальную версию и будет тебе счастье!
Отв: Типичные ошибки распознавания - собираем статистику ...
Распаковала архив ФР непосредственно в корень
с тем же результатом. Утаскивает сразу после разархивации
может потому что пиратский?
Ушла плакать
Отв: Типичные ошибки распознавания - собираем статистику ...
А вот эти две нижние строки - "добавить файл", "пометить файл" - не помогают?
Потом я вижу процесс WinRar, значит, Аваст срабатывает при распаковке. Тогда ещё один совет.
Отключить Аваст, распаковать файл, включить распакованную папку в исключения и пользоваться exe-шником только из этой папки, не распаковывая каждый раз. Лучше даже сделать ярлык на рабочем столе и запускать оттуда.
Вообще-то, это действительно может быть результатом неудачной сборки портабельной версии. Имеет смысл поискать другую.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это на свежеобновлённой базе avast!-a выскакивать стало. Помогает, если в avast!-е в меню "Открыть интерфейс пользователя" и далее в Настройки, затем Глобальные исключения и Обзор добавить путь на папку с ПЧ (он-же FR).
Отв: Типичные ошибки распознавания - собираем статистику ...
После всех танцев с бубном пришлось-таки поставить эту самую реестрозаписываемую версию. Спасибо всем за участие)
Отв: Типичные ошибки распознавания - собираем статистику ...
Не могу найти, хотя где-то уже было (((
Когда в скрипте поиска по регэкспам часто появляется надпись:"сценарий этой страницы замедляет работу Internet Explorer...", что надо сделать чтобы это сообщение не появлялось?
Отв: Типичные ошибки распознавания - собираем статистику ...
Evernet в инструкции Метаграмма-контекст.rtf писала:
...Также в папке находится файл «Отключение окна “сценарий замедляет работу.reg”». Возможно вам приходилось сталкиваться с сообщением, что работа такого-то скрипта замедляет работу системы. Чтобы избавиться от этого надоедливого окошка и нужен этот файл. Запускаем его (ОДНОКРАТНО) и соглашаемся на все.
Подробнее читай: https://groups.google.com/forum/?fromgroups=#!topic/fiction-book-editor/tHAO5U0lU4Q в сообщении от 12-01-11.
Выглядит вообще говоря так (Regedit-ом достаточно поменять один ключ):
Windows Registry Editor Version 5.00
[HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Styles]
"MaxScriptStatements"=dword:ffffffff
Удачи!
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня не в программе "метаграммы", а "В поиск ошибок текста" это случилось. Или неважно, алгоритм один и тот же?
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, одно и тоже. Собственно это просчёт Microsoft-а, ими же и залатанный.
RE:Отв: Типичные ошибки распознавания - собираем статистику ...
Тема с обновленным на 06-09-2019 скриптом "Поиск по набору регэкспов": http://lib.rus.ec/node/733790
аналогичная тема на Флибусте http://www.flibusta.is/node/441303
Просьба тестировать новую версию и отписываться в новой теме.
Страницы