Курьезы сканировщика
Опубликовано вс, 31/07/2011 - 09:26 пользователем Алексей_Н
Forums: Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 мин.
lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 37 мин. Моржехрен RE:Помогите найти!.. #2 20 часов babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 день Isais RE:Мои открытия 3 дня aldan RE:Подайте бедному копеечку на книжку с литреса... 3 дня kopak RE:О группе Дятлова. О той самой, того самого... 5 дней A5. RE:Не присылает пароль на почту 1 неделя babajga RE:Плюмаж 2 недели babajga RE:Блошкинс и Фрю. Опасное путешествие 3 недели alexk RE:Багрепорт - 2 4 недели babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц Впечатления о книгах
A5. про Норфолк: В обличье вепря [In the Shape of a Boar ru] (Современная проза)
22 04 Убеждаюсь: обалденный автор. Как и предполагалось, дикое количество объёмистых комментариев и пояснений в сносках отнюдь не облегчает процесс чтения сего опуса на ебуке. Но, как опять же и ожидалось, — удовольствие получено ……… Оценка: отлично!
A5. про Топор: Зима под столом [L'Hiver sous la table ru] (Комедия)
22 04 A5 в 12:30 ( 01:00) 30-01-2018, Оценка: отлично! Драма абсурда. Она бы и была просто весёлой, милой драмой абсурда с видимостью плавного перехода в комедию, если бы автор не приделал к ней вот такую концовку. Присовокупил ………
A5. про Якобсен: Чистая вода [Det nye vannet ru] (Современная проза)
22 04 A5 в 10:11 ( 02:00) / 16-07-2017, Оценка: отлично! Оченно понравилось. Атмосферно - скандинавия, дождь, снег, зябко, мрачно, безысходно, дух смятенный, характеры, исчезновение одного персонажа... Любителям холодной скандинавщинки ……… Оценка: хорошо
Barbud про Шалашов: Господин следователь. Книга 7 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
21 04 Продолжается ровное и неторопливое повествование без особых драматизьмов, потрясений и неожиданных поворотов сюжета. Можно читать на сон грядущий, слегка убаюкивает. Отметил один анахронизм - ГГ лакомится пошехонским сыром, ………
Lan2292 про Сластин: Первый пользователь. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
21 04 если вам нравится пересказ бродилки, может и зайдет, скучно.
mysevra про Свечин: Завещание Аввакума [litres] (Исторический детектив)
21 04 Интересно написано, декорации понравились даже больше собственно "детектива". Всё так степенно и благополучно, и руководство ценит, осыпает наградами и обучает - милота. Оценка: хорошо
mysevra про Нури: Волчий остров [СИ litres] (Ужасы, Самиздат, сетевая литература)
21 04 Изложено хорошо, истории занятные, но нет никаких завязка-развитие-кульминация-развязка, просто эпизоды. Оценка: неплохо
mysevra про Кейли: Жатва [litres] (Триллер, Детективы: прочее)
21 04 Невнятно описанный театр абсурда. Сплошной сумбур, и всё слишком узнаваемо, чтобы быть новым и оригинальным. Даже редактору поленились показать: автору все равно что "отринула", что "отпрянула"; какие-то скрепы в цепи и пр. Оценка: плохо
jefomit.olga@yandex.ru про Степанова: Корень зла среди трав [litres] (Классический детектив, Детективы: прочее)
20 04 Серия неинтересная, какая то надуманная и далека от реальности Оценка: хорошо
nik_ol про Донцова: Кладбище чужих секретов (Иронический детектив, Детективы: прочее)
17 04 Спасибо огромное, что выложили! (❁´◡`❁) Оценка: хорошо
Sello про Раззаков: Другой Владимир Высоцкий (Биографии и Мемуары)
17 04 Литературный говномеситель. Мертвые сраму не имут. Тем более, что и ответить говномесителю покойный не может. Оценка: нечитаемо
Iron Man про Писарев: «Евгений Онегин» (Публицистика)
17 04 Почему эту статью не изучают в школе? Почему школьники до сих пор пишут бесконечные сочинения про эту якобы "энциклопедию русской жизни"? Оценка: отлично! |
Отв: Курьезы сканировщика
И у меня тут недавно при распознавании курьёз случился.
Отв: Курьезы сканировщика
Шля - Галя
Отв: Курьезы сканировщика
У меня наоборот, были гнойные пидеры, а стали - гнойные лидеры! :=)
Отв: Курьезы сканировщика
Милое и привычное «н»=«п»
вошел в гостиничный помер
раздавили бунтовщиков тапками
высокопоставленные чипы
члепы Политбюро
Отв: Курьезы сканировщика
"ветхий дом с голубыми наяичниками"
Отв: Курьезы сканировщика
По-моему, это прекрасно: чеболыпой костерок = небольшой костерок.
Отв: Курьезы сканировщика
Замечательная ошибка просто.
Сноска: «Баффи — потребительница вампиров» — американский телесериал о девушке...
Отв: Курьезы сканировщика
Мальчик-с-нальчик
Отв: Курьезы сканировщика
Отлично!! Это про Билана!
Отв: Курьезы сканировщика
сканировщик - онанировщик
Отв: Курьезы сканировщика
(задумчиво) а в чем-то оно право....
Отв: Курьезы сканировщика
докус та вместо до куста, голов удержит вместо голову держит
Отв: Курьезы сканировщика
Писхолог отрицательно покачал пальцем.
Причем так и на бумаге. И не понятно, блин, опечатка или автор над психологом приколоться решил. Придется так оставить.
Отв: Курьезы сканировщика
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.
Представил себе картинку. Это прямо ужастик какой-то выходит...
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)
Отв: Курьезы сканировщика
А, может, вараны? Тоже неплохой ужастик просматривается. Такие громадные... С высунутыми языками...
Отв: Курьезы сканировщика
"Пенис священнослужителей" вместо "Пение священнослужителей".
Отв: Курьезы сканировщика
В тексте достаточно часто появляется фамилия Стиханов, фр упорно распознаёт её Стаханов. "наряду" у него "народу", но есть ошибки которые практически невозможно выловить),напр. вместо "исписанные",распознаёт "написанные". У меня развивается маниакальная подозрительность к его распознаванию.))
Отв: Курьезы сканировщика
Что-то в Эбби начудили в последних версиях ФР.
До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.
Если со всякими неудобствами в более старых версий ФР вроде лишней ручной работы можно смириться, то такое корежение текста в новых версиях, которое зачастую вообще ничем не выловишь - нафиг-нафиг.
UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.
Отв: Курьезы сканировщика
согласно кивает собственной ГН головой
Отв: Курьезы сканировщика
Это от исходного материала зависит. Есть такие книжки, где буквы н, и, п, ц даже глазом различить трудно. И с, о, е тоже. Вот в них-то такие лулзы и встречаются.
Отв: Курьезы сканировщика
Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д.
Можем с тобой провести эксперимент: распознать один и тот же текст разными версиями и сравнить результат (без доп. обработки).
Есть книги, где едва наберётся с десяток ошибок распознавания (при хорошем качестве скана), а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит). Такшта... ;)
Отв: Курьезы сканировщика
У меня даже была одна фотканная книга, где было менее 10 ошибок.
Отв: Курьезы сканировщика
Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )
Мне эти фразы типа ...качество "намного выше" а потом "еще намного выше" ни о чем не говорят )
Поскольку 8 версия ФР распознает нормальные сканы и так прекрасно, если шрифт более-менее стандартный и бумага - не газета 100-летней давности, содранная из-под обоев )
Отв: Курьезы сканировщика
Ну, так, чтобы смысл текста менялся - у меня такого не было. А "сложные", когда приходится внимательно смотреть и частенько править, - изволь:
14 стр.
Выложи экпорт после распознавания, а я выложу свой. Сравним. :)
К тому же ФР11 работает в несколько раз быстрее, чем предыдущие версии (даже ФР10), но оставим это за скобками. ;)
Отв: Курьезы сканировщика
Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.
Попозже выложу получившееся (отметил косяки распознавания красным болдом), дома инет побыстрее )
Отв: Курьезы сканировщика
Ну, если порядка 10, то можно и не выкладывать. У меня приблизительно столько же. Может, 8. Может, 7. Не слишком принципиально.
Большинство из них вылавливается при помощи скрипта "поиск по регэкспам", который ты, собственно, и заполнил большей частью. ;)
Но поверь мне, 11-я версия - это качественный скачок вперёд даже по сравнению с 10-й. У меня-то есть опыт работы с каждой, начиная с 6-й. И последняя значительно отличается от всех остальных. Хоть и со своими "заскоками", отрицать не буду.
Я не уговариваю тебя переходить на неё, но говорить о том, что 8-я лучше... э-э-э... м-м-м... ну, неправильно, скажем так. ;)
Отв: Курьезы сканировщика
Кинь в меня рабочей версией, плиз, (можно в личку), я ее посмотрю параллельно )
Качественный скачок говоришь? )
Я бы рад согласиться, но только и слышу, начиная с 10 версии, ФР о "чудесах" распознавания, включая полную отсебятину в тексте, массы дурацких стилей, потерю кусков текста, потерю сносок и проч.
Каждый раз читаю такие топики про новые ФР и удивляюсь, все было ок с распознаванием, а тут такие косяки лезут.
Оно мне надо?
Скорость распознавания в новых версиях выросла?
Зато потом прочитать от корки до корки придется каждое слово?
Оно мне зачем?
Я поставил распознаваться 500 страниц и пошел курить или чай-кофе пить )
3 минуты мне погоды не сделают )
Зато уверен, что текст не будет искорежен )
Отв: Курьезы сканировщика
Угу.
У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.
Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.
И ещё мне очень не хватает отменённой возможности добавлять в словарь все парадигмы слова. Но это терпимо. Многие и не пользовались этой возможностью вовсе.
ФР11 можно взять, например, здесь.
Отв: Курьезы сканировщика
1) Не понял, в чем тут скачок? Позволяет тем, кто хочет тяп-ляп, сразу получить фб2, и закинуть в инет?
Пользуюсь после ФР вордом со скриптами и ФБД, заодно отлавливаются разные кривые концовки предложений и проч. Потом уже в ФБЕ.
2) В чем скачок тут? На 8 версии никогда не наблюдал проблем с сохранением или добавлением руками болдов-италиков. Только что проверил в 8 версии - прекрасно сохраняется и добавляется.
3) Уж не помню, когда последний раз были проблемы с тире в диалогах. ЕМНИП - может, в 6 версии сталкивался, да и то нечасто.
4) Сама понимаешь, сомнительный аргумент. Склейка отслеживается в ФР без проблем. Разорванные легко лечатся скриптами ворда, фбе и т.п.
5) Чистка и правка текста никуда не денется. Мне, например, многое сильно проще скриптами и регэкспами в ворде поймать. И потом все равно найти еще какие-то буковки для правки в ФБЕ )
6) Насколько быстрее? Компенсирует ли это отсебятину в тексте? (подлинным - по длинным и подобное)?
7) Назвать хорошим распознавание, когда надо следить, не пропал ли текст, я назвать не могу при всем желании.
Для меня это главный кошмар, когда надо за ФР еще проверять, весь ли текст распознается и передается.
Для чего возня со стилями - в чем преимущество вообще в их наличии в ФР? Можно ли выключить стили совсем (не потеряв болдов-курсивов) и не переживать за сохранность кусков текста?
8) Обработка сносок - существенный момент, когда их много.
В итоге - очень сомнительные преимущества лично для меня.
Спс, гляну )
Отв: Курьезы сканировщика
Ну и ладно. Зачем мне переубеждать всем довольного ТаКира? В-)
Отв: Курьезы сканировщика
Да, я ретроград )
Как в том анекдоте - "только ради бога, ничего не трогай, ничего не меняй" )
(Привет Тигра)
Но 11 ФР качаться поставил, спасибо )
Отв: Курьезы сканировщика
Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?
Отв: Курьезы сканировщика
Нет. Разрыв строки и мягкий перенос - как и в предыдущих версиях.
Отв: Курьезы сканировщика
А у меня остались ностальгически-светлые воспоминания об FR5.
Возможно он и проигрывает нынешним версиям в скорости и где-то в качестве распознавания, но у него были и огромные преимущества, например, на автомате очень точно подбирал яркость так, чтобы тень в развороте книги (в ямке) не сливалась с текстом, т.е. не было ни кляксы, ни белой дырки. Это позволяло сканировать книги довольно бережно, не разворачивая и не прижимая их так сильно, как часто требовалось в более поздних версиях. Проблем с диалогами было меньше, потому что оформление их списками появилось позже, начиная с версии 6. И главное, ни разу не было, чтобы какой-то кусок страницы (особенно последние строки) вдруг просто проигнорировался, как сейчас бывает. А тогда я сканировал реально помногу. Сейчас-то только балуюсь иногда.
Отказаться от FR5 пришлось (с огромным сожалением) только из-за перехода на новые версии Windows.
И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?
Отв: Курьезы сканировщика
Задумалась. У меня ФР11 лицензионный. Может, и правда дело в этом?
Отв: Курьезы сканировщика
Разбираюсь с ФР 11.
Есть вопросы по алгоритму )
Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после?
Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера.
Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2.
Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия?
Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2?
Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально.
(Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах).
Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!
Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п.
Отв: Курьезы сканировщика
Добавила. :)
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Исследовал явление "отсебятинга" на книге "Сироты квартала Бельвилль". Буковки тоненькие, FR постоянно путает "и", "н" и "п". Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов. :-( Занёс слово "Рири" в словарь и прогнал распознавалку по новой - как рукой сняло. :-)
Отв: Курьезы сканировщика
Я при обнаружении подобной постоянной ошибки делаю массовую замену - с учетом регистра и - в подходящем случае "только слово целиком".
Фокус со словарём мне несколько раз не помог, поэтому я им не пользуюсь.
Спасибо за нормализацию сайта!
Спасибо администрации Либрусека за нормализацию функционирования Библпотеки! Теперь можно вернуться
Отв: Курьезы сканировщика
Я использую FR11 выпуск 11.02.102.583 - практически никаких проблем. В последних книгах плохо распознавал сочетание "гр" выдавал, например, вместо гроб - фоб.
Отв: Курьезы сканировщика
При проблемах с распознаванием ФР ищет ближайшее слово в словаре. Отсюда эти курьезы. При хороших сканах ничего подобного не наблюдается. На сайте Twirx скачал две книги. Кто-то залил не проверяя. Видно прямо из ФР. Там по всему тексту вместо "гр" - "ф", "ыо" - "ью", "JI или J1 - Л" и т. п.
Отв: Курьезы сканировщика
(del)
Отв: Курьезы сканировщика
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))
А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск
Отв: Курьезы сканировщика
У меня нет советов в данном случае. :( Не сталкивалась. Может, кто-то другой подскажет.
Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.
Отв: Курьезы сканировщика
в настройках экспорта djvu поставил 150dpi...
Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...
Страницы