Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ | Либрусек

Вы здесь Главная » Блоги » Блог пользователя TaKir Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: пе (не), оп (он), пи (ни), ва (за), пее (нее), опа (она)... Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Собранная статистика еще больше упростит отлов косяков сканирования и, соответственно, позволит более качественно и быстро делать верстку отсканенных книг и быстрее находить косяки в уже сделанных книгах тем, кто занимается их правкой-вычиткой. Сейчас данный скрипт у меня ищет: - смесь латиницы с кириллицей во всех вариантах, - смесь букв с цифрами, - неправильные дефисы-тире, - мусор после скана, - концы строк без знаков препинания - неполный курсив слова - указанные выше типичные ошибки распознавания и другие подозрительные места. Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ. Блог пользователя TaKir Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 12:59 пользователем Алексей_Н Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 23/01/2011 - 12:53 пользователем shokons TaKir Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки"); Добавил в поиск "мусора" ®°™εє addRegExp("[/\\>\|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана"); Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 23/01/2011 - 13:32 пользователем TaKir shokons написал: TaKir Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки"); Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки ) addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки"); Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 23/01/2011 - 13:52 пользователем shokons Понял. Прикольно. ))) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 02:07 пользователем chas XtraVert написал: Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы. Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 03:03 пользователем TaKir Вот мой вариант на сегодня: http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 03:56 пользователем golma1 TaKir написал: Вот мой вариант на сегодня: http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html Спасибо! :) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 05:07 пользователем chas TaKir написал: Вот мой вариант на сегодня: http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 05:41 пользователем shokons час написал: Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем! А какие именно, не могли бы подсказать? )) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 07:37 пользователем Tanja45 TaKir написал: Вот мой вариант на сегодня: http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 08:27 пользователем shokons Tanja45 написал: TaKir написал: Вот мой вариант на сегодня: http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать? Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 10:04 пользователем s_Sergius Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 12:01 пользователем Sclex Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 03:35 пользователем chas Спасибо, TaKir! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 06:24 пользователем chas Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 07:25 пользователем shokons час написал: Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел. Проверил. "П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах") Прилипшее тире - если это был примерно такой текст Цитата: господином Кроевым— вступила То таки да - я такое не ищу, а меняю массово регеспом, который писал выше. Меняет на такое: Цитата: господином Кроевым — вступила То-есть вставляет пробел между последней буквой и тире Так, что наверное вы просто ошиблись )) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 14:28 пользователем chas shokons написал: ...Так, что наверное вы просто ошиблись )) Скорее всего. Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 14:58 пользователем Tanja45 Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 15:28 пользователем golma1 Tanja45 написал: Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR? Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :( Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 15:37 пользователем TaKir А о чем конкретно речь? Можно пример привести? Сорцы там или скриншот из боди? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 15:43 пользователем golma1 TaKir написал: А о чем конкретно речь? Можно пример привести? Сорцы там или скриншот из боди? < p>< style name="a0">Да, она была умна. В первом же стихотворении, с которым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах безумной, пьяной страсти во всех подробностях — и эротичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в первый раз понял, что такое настоящее искусство.< /style>< /p> < p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «маленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнаменованием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Вандраг. Мне казалось, что жизнь обязательно должна подарить мне такую любовь.< /style></p> Это ещё приличный вид. Бывает внутри строки стиль меняется. :( Бывает только при копипасте. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 25/01/2011 - 00:22 пользователем Алексей_Н Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 16:42 пользователем Tanja45 golma1 написал: Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :( Благзаинф. :( Останусь на 2.4. Только я все равно не понимаю, что туда можно добавить из более поздних версий, а что не заработает. Скрипт Sclex-а/TaKir-а запихаю - вот этот http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html. А что еще? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 20/02/2011 - 13:41 пользователем sd golma1 написал: Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :( Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 22/02/2011 - 14:15 пользователем golma1 sd написал: golma1 написал: Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :( Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились. Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 22/02/2011 - 14:29 пользователем Tanja45 golma1 написал: sd написал: golma1 написал: Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :( Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились. Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало. И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! (((( Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 22/02/2011 - 22:36 пользователем sd Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы? Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей UPD Оставил сообщение в Группе. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 00:50 пользователем golma1 sd написал: Не выложите где-нибудь исходники, потестиовать бы? Какие исходники? Дока после ФР? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 02:00 пользователем sd его самого, если сохранились, конечно. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 02:30 пользователем golma1 sd написал: его самого, если сохранились, конечно. Угу. Я как раз пробовала на небольшом файле. Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля. http://www.multiupload.com/TPF5MG47VW Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 05:10 пользователем sd Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 05:15 пользователем Алексей_Н Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 05:27 пользователем sd Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 05:29 пользователем Алексей_Н Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 06:00 пользователем sd Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 23/02/2011 - 06:44 пользователем golma1 Алексей_Н написал: Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE. Нет, там с абзацами не всё в порядке получается. А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 19/04/2011 - 05:03 пользователем JonVic sd написал: открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится. *Точно! Помогает.* Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо. TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки... Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 15:42 пользователем TaKir У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше. Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем). Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 16:57 пользователем shokons Может кому потребуется: addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem"); Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов. Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение Цитата: . Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать Попробую Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено -title -subtitle -stanza -poem"); А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 16:39 пользователем Tanja45 Большое спасибо TaKir! Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 24/01/2011 - 16:57 пользователем s_Sergius Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 26/01/2011 - 08:51 пользователем Belomor.canal У меня кроме ^TM именно trade mark) ещё постоянное превращение Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 26/01/2011 - 10:04 пользователем shokons Belomor.canal написал: У меня кроме ^TM именно trade mark) ещё постоянное превращение Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ По ТМ (trade mark) я уже писал: Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------ И замените её на эту addRegExp("[/\\>\|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана"); Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых) Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ. Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 07:45 пользователем Рыжий Тигра Знак препинания и после него тире без пробела (обычного или неразрывного). Пробел перед знаком препинания. [\.:\?…][^А-Яа-я][а-я] - строчная буква в начале предложения. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 07:46 пользователем golma1 Рыжий Тигра написал:* Знак препинания и после него тире без пробела (обычного или неразрывного). Пробел перед знаком препинания. [\.:\?…][^А-Яа-я][а-я] - строчная буква в начале предложения. Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :( Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 08:00 пользователем Рыжий Тигра golma1 написал:* такое впечатление, что ты актуальными скриптами совсем не пользуешься. :( Юзаю FBE 2.4 - всё, что сверх того, на win2000 отказывается работать. :-( Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 08:48 пользователем TaKir Твои варианты лечатся банальной генуборкой и данным скриптом. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 09:03 пользователем Рыжий Тигра TaKir написал: Твои варианты лечатся банальной генуборкой и данным скриптом. "Генеральная уборка" гадит: превращает ошибку сканирования - паразитный дефис после знака препинания - в полноценное тире с отбивкой пробелами, потом его хрен найдёшь, кроме как глазами. :-( Твой скрипт от 24/01 не берёт, более свежие пока не пробовал. Кстати, "[,:;][^А-Яа-я][А-Я]" - эти тоже не берёт. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 09:23 пользователем golma1 Рыжий Тигра написал:* TaKir написал: Твои варианты лечатся банальной генуборкой и данным скриптом. "Генеральная уборка" гадит: превращает ошибку сканирования - паразитный дефис после знака препинания - в полноценное тире с отбивкой пробелами, потом его хрен найдёшь, кроме как глазами. :-( Твой скрипт от 24/01 не берёт, более свежие пока не пробовал. Кстати, "[,:;][^А-Яа-я][А-Я]" - эти тоже не берёт. Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 27/01/2011 - 08:52 пользователем golma1 Рыжий Тигра написал:* golma1 написал: такое впечатление, что ты актуальными скриптами совсем не пользуешься. :( Юзаю FBE 2.4 - всё, что сверх того, на win2000 отказывается работать. :-( Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4. http://scripts.fictionbook.org/ Страницы « первая ‹ предыдущая 1 2 3 4 5 6 7 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Larisa_F RE:Кто сможет раздобыть и оцифровать нужные мне книги? 9 часов ostap79 RE:Подайте бедному копеечку на книжку с литреса... 2 дня babajga RE:Белая княжна 5 дней Nicout RE:Таинственная личность админа Флибусты 6 дней Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 неделя mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 неделя zlyaka RE:С Новым годом! 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя SparkySpirit RE:Прошу переформатировать, распознать, etc... 2 недели SparkySpirit RE:Жорж Санд - переводы 19 века 2 недели Саша из Киева RE:Наш дом - СССР 2 недели babajga RE:Чернушка. Повести 2 недели Саша из Киева RE:Сказки далёких островов 2 недели babajga RE:Лопоухий бес 3 недели babajga RE:Ежик покидает дом 3 недели babajga RE:Сказки бабушки Черепахи 3 недели babajga RE:Свист диких крыльев 3 недели Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 1 месяц Впечатления о книгах svetik489 про Дмитриев: Записки нечаянного богача – 3 (Социальная фантастика, Городское фэнтези, Самиздат, сетевая литература) 12 01 перенесите книгу к (Donteven) http://lib.rusec.net/a/200576 Оценка: неплохо Barbud про Берг: Война (Детективная фантастика, Самиздат, сетевая литература) 12 01 По сравнению с первой частью весьма затянуто и скучно. Размышлизмы и исторические справки совершенно заполонили текст и вынуждают читать по диагонали. Степан от книги к книге становится все глупей и глупей. И кстати - "...я, ……… Оценка: хорошо alexk про Кича: Большая книга по истории Ближнего Востока. Комплект из 5 книг [litres] (Исторические приключения, История) 11 01 Очень странное издание. И с каких это пор Афганистан стал Ближним Востоком? behemmoth про Круз: В центре урагана (Социальная фантастика, Самиздат, сетевая литература) 09 01 Долго думал, писать ли отзыв или aut bene aut nihil. Но тем не менее. "Ветер над островами" был, пожалуй, самой "взрослой" серией Андрея, в которой наконец-то хоть чем то была разбавлена набившая оскомину парадигма "война ……… Оценка: плохо Barbud про Ларин: Прощай СССР (Приключения: прочее, Самиздат, сетевая литература) 09 01 Дочитал... Да, местами смешно, читать можно. Жаль, концовка какая-то невнятная - ГГ вкупе с заклятыми братьями по сверхразуму исчез ХЗ куда, вожатую и ненормального пионера - "кровь-кишки-распидорасило", итог лагерной "Зарницы" остался непроясненным)) mysevra про Дойч: Метроном. История Франции, рассказанная под стук колес парижского метро (Историческая проза, Публицистика, Документальная литература) 09 01 По этой книге Фабрисом Урлие снят замечательный 4-серийный документальный фильм - яркое визуальное дополнение. Оценка: отлично! nik_ol про Джентльмен сыска Иван Подушкин 08 01 Выложите уже, пожалуйста, новое от Донцовой что-то, а то от Пелевина уже ум за разум заходить начал)))). Анни-Мари про Потомокъ 08 01 Замечательная серия. Любопытно, будет ли продолжение? В целом, все логически завершено, но! Такое ощущение, что автор допускает, да. pulochka про Френкель: Бог, которого не было. Красная книга (Проза) 08 01 Это бред сумасшедшего? Как ЭТО вообще можно читать? Оценка: нечитаемо decim про Серяков: Русы во времена великих потрясений (История, Научпоп) 08 01 Весьма любопытные гипотезы. Однако судить о бесписьменном народе, каким в те поры были предки современных славян(русами их назвал Ибн-Фадлан гораздо позже, и не были ли то Ruotsi, варяги? собственно славян соседи по Балтике ……… Barbud про Ларин: Назад в СССР (Детская фантастика, Самиздат, сетевая литература) 07 01 Чушь какая-то. Автор, вероятно, молодой молокосос, не имеющий понятия о том, как общались пионеры в то время и каких слов и оборотов они вообще не знали. Да и ведут они себя абсолютно неестественно для тогдашних реалий. Затяжной ……… Оценка: неплохо RusD про Елманов: Серый ангел [litres] (Попаданцы, Историческое фэнтези) 07 01 Это, похоже, 2я часть книги "Последний шанс империи больше впечатлений