Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 14 часов
Саша из Киева RE:Сказки далёких островов 1 день babajga RE:Лопоухий бес 2 дня SparkySpirit RE:Жорж Санд - переводы 19 века 3 дня SparkySpirit RE:Прошу переформатировать, распознать, etc... 3 дня kopak RE:Таинственная личность админа Флибусты 4 дня babajga RE:Ежик покидает дом 4 дня babajga RE:Сказки бабушки Черепахи 4 дня babajga RE:Свист диких крыльев 4 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 1 неделя Isais RE:Не тот автор 2 недели xieergai60 RE:Продление подписки 2 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Isais RE:Древняя Греция. Читаем... 3 недели laurentina1 RE:Ирина Александровна Велембовская - Немцы 3 недели Саша из Киева RE:Избранное 1 месяц Alligatoreader RE:Багрепорт - 2 1 месяц Впечатления о книгах
decim про Овалов: Демон революции. Жизнь и приключения Розалии Землячки (Биографии и Мемуары)
25 12 Рерайтинг имеющейся здесь же книги Овалова "Январские ночи", снабжённый манким заголовком. Оценка: хорошо
lorealke про Матвеев: Ниочёма-3 [СИ] (Юмор: прочее, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
24 12 Автор постоянно долбит про злобную Европу и обижаемую Империю, да царя-батюшку. Читаешь и прямо физически ощущаешь, как тебе промывают мозги. Короче, вместо нормальной бояръаниме получилась какая-то полу-пропагандистская херня. Оценка: плохо
дядя_Андрей про Костин: О чём молчал Атос (Критика, Литературоведение, Самиздат, сетевая литература)
23 12 Karl-Ieronim, конечно же "Последний кольценосец" Еськова
Олег Макаров. про Николай Владимирович Беляев (самиздат)
23 12 Серия «Серебряная осень» Качественно, интересно
Саша из Киева про Краминов: В орбите войны [записки советского корреспондента за рубежом, 1939-1945 годы] (Биографии и Мемуары)
23 12 Огромное спасибо всем, кто сделал и добавил эту книгу!
Лысенко Владимир Андреевич про Емельянов: Японская война 1904. Книга 2 (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
23 12 Серия очень понравилась, прочитал не отрываясь. Буду ждать продолжения. Оценка: отлично!
Саша из Киева про Даниил Фёдорович Краминов
23 12 На Флибусте есть книга Даниила Краминова "В орбите войны. Записки советского корреспондента за рубежом. 1939-1945 годы". Надо бы добавить её сюда. Я попробовал добавить - почему-то не получилось. А книга интересная. Я читал ………
miri.ness_ про Забелин: Домашний быт русских цариц в XVI и XVII столетиях [Литрес] (История)
22 12 Книга отличная, только один минус - издано в 1869 г. в серии Non-Fiction. Большие книги
alexk про Флинн: В стране слепых [litres] [In the Country of the Blind ru] (Социальная фантастика, Научная фантастика)
22 12 На первый взгляд, литресный перевод похуже перевода 95-го года.
Fori про Панов: Пре(восход)ство [СИ litres] (Киберпанк, Социальная фантастика, Самиздат, сетевая литература)
22 12 Зачем выкладывать ознакомительные огрызки Литреса?
Лысенко Владимир Андреевич про Трапезников: Вагнер – в пламени войны [litres] (О войне)
22 12 Как лучше убивать за деньги, ничего личного только деньги. Оценка: нечитаемо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире".
Отв: Типичные ошибки распознавания - собираем статистику ...
TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
Добавил в поиск "мусора" ®°™εє
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки )
addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки");
Отв: Типичные ошибки распознавания - собираем статистику ...
Понял. Прикольно. )))
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо! :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!
Отв: Типичные ошибки распознавания - собираем статистику ...
А какие именно, не могли бы подсказать? ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки
Отв: Типичные ошибки распознавания - собираем статистику ...
Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, TaKir!
Отв: Типичные ошибки распознавания - собираем статистику ...
Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Проверил.
"П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах")
Прилипшее тире - если это был примерно такой текст
То таки да - я такое не ищу, а меняю массово регеспом, который писал выше.
Меняет на такое:
То-есть вставляет пробел между последней буквой и тире
Так, что наверное вы просто ошиблись ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Скорее всего.
Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?
Отв: Типичные ошибки распознавания - собираем статистику ...
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?
Отв: Типичные ошибки распознавания - собираем статистику ...
< p>< style name="a0">Да, она была умна. В первом же стихотворении, с которым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах безумной, пьяной страсти во всех подробностях — и эротичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в первый раз понял, что такое настоящее искусство.< /style>< /p>
< p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «маленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнаменованием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Вандраг. Мне казалось, что жизнь обязательно должна подарить мне такую любовь.< /style></p>
Это ещё приличный вид. Бывает внутри строки стиль меняется. :(
Бывает только при копипасте.
Отв: Типичные ошибки распознавания - собираем статистику ...
Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.
Отв: Типичные ошибки распознавания - собираем статистику ...
И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! ((((
Отв: Типичные ошибки распознавания - собираем статистику ...
Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы?
Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей
UPD
Оставил сообщение в Группе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Какие исходники? Дока после ФР?
Отв: Типичные ошибки распознавания - собираем статистику ...
его самого, если сохранились, конечно.
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу. Я как раз пробовала на небольшом файле.
Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля.
http://www.multiupload.com/TPF5MG47VW
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad
Отв: Типичные ошибки распознавания - собираем статистику ...
Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании?
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, там с абзацами не всё в порядке получается.
А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd!
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше.
Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем).
Отв: Типичные ошибки распознавания - собираем статистику ...
Может кому потребуется:
addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem");
Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов.
Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение
Попробую
Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом
Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено
-title -subtitle -stanza -poem");
А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые.
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо TaKir!
Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее.
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ
Отв: Типичные ошибки распознавания - собираем статистику ...
По ТМ (trade mark) я уже писал:
Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------
И замените её на эту
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых)
Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ.
Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.
Отв: Типичные ошибки распознавания - собираем статистику ...
Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Твои варианты лечатся банальной генуборкой и данным скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4.
http://scripts.fictionbook.org/
Страницы