Техническая тема о распознавании скриншотов | Либрусек

Вы здесь Главная » Блоги » Блог пользователя Verdi1 Техническая тема о распознавании скриншотов Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1 Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь. Блог пользователя Verdi1 Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:00 пользователем laurentina1 Вот мне тоже интересно. Иногда все же получается, но так редко Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:20 пользователем Isais Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась. ...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного. Подойдет ли к гуглобуксу - ХЗ. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:12 пользователем HEPO через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то? Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:17 пользователем Verdi1 HEPO написал: откуда хоть пытаетесь выдирать то? Для начала из Kindle for PC, как метод альтернативный снятию DRM. Но есть интересная библиотечка, к которой я давно присматриваюсь - http://www.tatknigafund.ru/. Там книги тоже в таком вот графическом виде. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:32 пользователем HEPO На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий.. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:20 пользователем justserge Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:36 пользователем Verdi1 justserge написал: Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет. Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста. А программка полезная, пригодится. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:54 пользователем justserge Verdi1 написал: justserge написал: Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет. Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста. А программка полезная, пригодится. Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах). Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150. Прожка полезная. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 12:19 пользователем Verdi1 Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт? Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 13:12 пользователем sem14 У меня скриншоты с Адоберидера на ура распознались. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 13:22 пользователем Verdi1 sem14 написал: У меня скриншоты с Адоберидера на ура распознались. По-английски? Я в данный момент конкретно с английским текстом вожусь. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 13:51 пользователем sem14 Нет, на русском. Шрифты увеличивать пробовали? Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 22:04 пользователем Verdi1 sem14 написал: Нет, на русском. Шрифты увеличивать пробовали? Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении. В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 13:58 пользователем justserge В FastStone Photo Resizer. 1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё. 2. В закладке «dpi» ставим галку и выбираем dpi 150×150. 3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 13:45 пользователем Verdi1 Скриншот выглядит примерно так (уменьшенный, понятное дело): открыть Распознанный текст вот такой: открыть To his surprise, the screen showed the twin seals of the International Astronautical Authority and the New Morality Censorship Board. Before Grant could react, it flicked off, to be replaced by a lengthy document headed with the Words SECRECY AGREEMENT. Grant saw that Tavalera’s eyes were bulging. “I’d better go to my bunk and read this on my personal handheld," Grant said. “I guess you better,” Tavalera said in a small voice. As Grant brushed past him to step out into the passageway, Tavalera said, “I never figured you for an NM agent.” “I’m not,” Grant blurted, wishing it were true. “Yeah. Sure.” Grant headed for the claustrophobic compartment he shared with Tavalera, while the young engineer went the other way, toward the observation blister. Once alone in his cramped bunk, Grant read the secrecy agreement very carefully. Twice. Three times. He was being ordered to sign it. The document did not leave him any choice. If he failed to sign, the New Morality could cancel his Public Service contract and have him returned to Earth “at the convenience of the IAA personnel on-station.” That meant all the time in transit to Jupiter w'ould have been totally wasted. And all the time spent waiting for transport back to Earth, and the transit time itself, w'ould also be w'asted. Worse yet, Grant got the distinct feeling that once back home he would be assigned the lowliest, meanest, dirtiest Public Service job that the authorities could find for him. They dealt harshly with dissenters and objectors. So he signed the secrecy agreement. In essence, it was a simple document. It stated that any and all information, data, knowledge, and facts that he acquired w'hile serving his Public Service obligation were classified Secret and were not to be divulged to any person, agency, or computer network. Under punishment of law. Grant felt whipsawed. The New' Morality wanted him to report on what the scientists were doing; the IAA wanted to swear him to secrecy. Then a new' understanding dawned within him: They don’t trust each other! The IAA and the New' Morality may share the responsibility for running station Gold, but they don’t trust each other. They don’t even like each other. And they’ve put me in the middle. Whatever I do, I’m going to be in trouble, he realized. Wishing both sides w'ould just leave him alone, w'ondering exactly w'hat w^ras going on among the researchers at Gold that had to be kept so secret, Grant signed the document and—as directed by the automated legal program—held his palm-size computer to first his right eye and then his left, so that w'hoever w'as registering his agreement recorded both his retinal prints. All these precautions left Grant feeling baffled, w'orried, and more than a little angry. They had one good effect, however. Once Roberts established its co-orbital rendezvous with the space station and Grant toted his one travelbag dowTi to the airlock hatch, Tavalera said goodbye to him with newfound respect in his eyes. It’s almost funny, Grant thought. For most of the trip out here I w'as halfway cominced that Raoul w'as a New' Morality informer. Now he’s certain that I’m one. Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания. Лично мне это напоминает диверсию и саботаж. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 13:56 пользователем justserge Verdi1 написал: Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания. Лично мне это напоминает диверсию и саботаж. Стрёмные буквы W в этом шрифте. А нельзя его поменять в читалке на рубленый (без засечек)? Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 15:07 пользователем golma1 justserge написал: Стрёмные буквы W в этом шрифте. А нельзя его поменять в читалке на рубленый (без засечек)? О, и я о том же. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 15:06 пользователем golma1 Verdi1 написал: Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания. Лично мне это напоминает диверсию и саботаж. Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка. Попробуйте пройтись с обучением. Научить распознавать именно "w". Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 14:04 пользователем polarman Verdi1 написал: FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. Используйте Corel Capture и будет вам счасте ) Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 15:13 пользователем laurentina1 Где взять? Чтоб чего лишнего не прихватить Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 15:20 пользователем Старый опер Скриншот сохранять не в JPEG, а в TIFF. И потом уже с ним работать. Отв: Техническая тема о распознавании скриншотов Постоянная ссылка (Permalink) Опубликовано чт, 19/07/2012 - 15:28 пользователем laurentina1 Хм, а если у меня только в ping сохраняет?	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии PipboyD RE:Подайте бедному копеечку на книжку с литреса... 3 дня sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 6 дней TaKir RE:Валерия Сергеевна Черепенчук   А. Н. Николаева - Мифы... 1 неделя Oleg V.Cat RE:B343695 Александр. Книга 1 1 неделя Isais RE:Калибрятина/Самиздатина 1 неделя md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 2 недели SergL197 RE:Регистрация 2 недели ejik.v RE:Viva Stiver! 2 недели RedRoses3 RE:Флибуста конец? 2 недели Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 4 недели Isais RE:B157704 Черепаха Киргала 4 недели sem14 RE:Литературная премия «Ясная Поляна» 4 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 1 месяц Isais RE:Обновление FictionBook Editor 1 месяц Впечатления о книгах gruin про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература) 08 11 Сения не сказать отличная, но читать можно. Многовато рассуждений описаний. Оценка: неплохо gruin про Прядеев: Позывной «Курсант» (Альтернативная история, Попаданцы) 08 11 По идее последняя в серии, а не первая. В остальных о предшестаующих событиях в детдоме, они хуже. А эта вполне читабельна. Но только та, которая "Курсант. На Берлин", на флибусте Оценка: неплохо obivatel про Назипов: Ингвар. Книга 1 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература) 08 11 ГГ классический лох (человек, не умеющий «устроиться» и приспособиться к изменениям жизни и в результате обычно небогатый), а лох это судьба. Какие бы плюшки ему вселенная ни накидала, он про профукает, пролопухает, про"№%т. ……… Оценка: нечитаемо Oleg68 про Кобен: Нарушитель сделки [Deal Breaker ru] (Крутой детектив) 08 11 Хороший триллер- детектив. Автор, как всегда на высоте. Буду продолжать читать серию. Оценка: отлично! Isais про Берд: Тошнит от колец [Bored of The Rings ru] (Юмористическое фэнтези) 07 11 Поверьте, после этого реально тошнит от колец — после той работы, что пришлось проделать для минимальной удобопонятности этого нестареющего образчика студенческого юмора. Оценка: нечитаемо Isais про Капельгородская: Зарубежный детектив [энциклопедия] (Энциклопедии, Литературоведение) 07 11 Когда-то покупал эту книгу (печатную) для работы и пользовался ее информацией без претензий и с полным доверием, но только лет через 10, когда появился Тырнет, узнал, что в ней есть довольно много ошибочных сведений, в основном ……… Оценка: хорошо Barbud про Савинков: Николай I Освободитель. Книга 8 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература) 07 11 Кое-как, без интереса и по диагонали листая через десяток страниц, домучил восьмую часть. Девятую, наверное, и начинать читать не буду - опус все скучней и скучней. Кстати, судя по последним строкам, автор смылся из Киева ……… Оценка: нечитаемо Дей про Старатель 07 11 В целом понравилось. Урал, тайга, охота, рыбалка, вот этот колорит и всё такое. Не понравилось в изложении: манера всякий раз вычурно обставлять диалоги. Почему хотя бы иногда не писать прямую речь без дополнений. Кто ……… vig11 про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература) 07 11 Отличная книга. Огромное спасибо. Оценка: отлично! Lan2292 про Вайс: На границе миров. Том 1 (Космическая фантастика, Самиздат, сетевая литература) 07 11 Сумбурно и под конец сдалась. Не рекомендую Igrina про Ирина Борисовна Ратушинская 06 11 Ну, Ратушинская вообще слабый поэт и чудовищный прозаик, так что... И очень много брешет, кстати! badbag про Барчук: Колхоз: Назад в СССР [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература) 06 11 Не рекомендую читать ночью, во время приема пищи и любых жидкостей. Чревато. Оценка: хорошо больше впечатлений