Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 1 день
RAINBOWJOSE RE:Домен и сертификаты 5 дней Саша из Киева RE:Меж двух Америк 6 дней Саша из Киева RE:Красная каска 6 дней Isais RE:Семейственность в литературе 1 неделя sem14 RE:Баг сервиса "Координация сканирования и вычитки" 1 неделя Isais RE:Древний Рим. Подборка книг 2 недели konst1 RE:Сборник - Антология сатиры и юмора России XX века. Том 3. ... 2 недели tvnic RE:Багрепорт - 2 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 недели larin RE:не открывается книга 3 недели Саша из Киева RE:Всё - даже свою жизнь! 1 месяц sem14 RE:«Блуждающие звезды», серия издательства «Книжники» 1 месяц Саша из Киева RE:Мир на рубеже XXI века. Международная панорама 1 месяц Nicout RE:СПАСТИ FB2 на винте 1 месяц Саша из Киева RE:Америка. Разговор по душам 1 месяц nehug@cheaphub.net RE:Доступ 1 месяц Саша из Киева RE:Помни их имена 1 месяц Впечатления о книгах
lvovich48 про Иванов: Я — матрос «Гангута»! (История, Биографии и Мемуары)
19 09 Такие личности остаются в памяти тех, кто знал и встречался с ними. Время их прошло, но им есть, чем гордиться. Думаю, что эти люди свято верили в то, что делали. В моей детской памяти остались впечатления о встрече с ……… Оценка: хорошо
Kiesza про Поселягин: Целитель [litres] (Фэнтези, Попаданцы)
19 09 Эта серия более-менее просматриваемая за счет неуёмной фантазии и динамики. Логика, как и в других опусах данного автора, отсутствует напрочь; разные МВД/КГБ и другие структуры не более чем детсадовские выпекатели пирамидок ……… Оценка: неплохо
Олег Макаров. про Волшебник
18 09 Обожемой, какой бред. СССР погубили торгаши, которые мешали славным коммунистам строить коммунизм. У автора в голове не каша, а какое-то конфетти
svengali про Книга дебютов
18 09 Совершенно бездарное и безграмотное графоманство. У автора представления о политике и истории как у десятилетнего школьника. Уровень детской литературы для среднего школьного возраста, но автор совершенно не знает русского ………
Barbud про Иванов: Здравствуй, 1984-й [litres] (Попаданцы)
17 09 Начал читать, одолел примерно пятую часть, потом как-то смутно появилось понимание, что это уже мною читано лет пару назад. Настолько незапоминающийся опус, что не сразу его и узнал... Оценка: неплохо
xZiminxx про Евдокимов: Попал так попал. Том 1 [СИ] (Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
17 09 проплаченная гадасть. все враги одна росия правильная страна Оценка: нечитаемо
Lan2292 про Земляной: Кудесник [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
16 09 да. сказка. я бы даже сказала мечта и не одного человека, воплощенная на бумаге, класс Оценка: отлично!
pulochka про Ефиминюк: Ускользающий мир (Любовная фантастика)
16 09 Ужасно. От начала до конца. Невнятный ,занудный сюжет. Герои никакие .Порывалась бросить несколько раз. Закончила из чистого упрямства. И конец не порадовал! А ведь многие книги автора стали любимыми! Наверно нужно Марине ……… Оценка: нечитаемо
Лысенко Владимир Андреевич про Земляной: Князь Серединного мира [СИ] (Боевая фантастика, Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
15 09 Огромная благодарность за книгу! Жду продолжения серии Страж. Оценка: отлично!
Shelest2000 про Земляной: Синий пепел [СИ] (Постапокалипсис, Самиздат, сетевая литература)
15 09 жмека ,увидишь рядом бусик - беги :)
Sello про Труайя: Екатерина Великая (Историческая проза, Биографии и Мемуары)
15 09 В который раз убеждаюсь в таланте этого писателя, умевшего связывать факты, события и необходимое беллетрическое повествование точными и емкими словами, расписывать их яркими сочными красками. Оценка: отлично!
udrees про Александр: Королева Виктория [La Dernière Reine. Victoria 1819–1901 ru] (История, Биографии и Мемуары)
14 09 Впечатление неоднозначное. С одной стороны подробное изложение ее жизни, с разными подробностями личной жизни. С другой стороны, упор сделан на описание удобств что ли, в карете со сколькими лошадями она ехала, какую шляпку ……… Оценка: плохо |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?