Что делать с книгами, в которых нет текстового слоя
Опубликовано чт, 17/12/2009 - 21:38 пользователем Zadd
Forums: Ситуация такая: есть книги в форматах DJVU и PDF, картинок нет, только текст, НО этот текст закодирован в виде картинок
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
ProstoTac RE:О группе Дятлова. О той самой, того самого... 2 часа
DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 23 часа Isais RE:Катя Водянова - Дом и два жениха в придачу 3 дня Aleks_Sim RE:Прошу переформатировать, распознать, etc... 3 дня kopak RE:Таинственная личность админа Флибусты 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 неделя Саша из Киева RE:Детям о Ленине (Издание 1965 года) 2 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 2 недели babajga RE:Белая княжна 3 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 3 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц Впечатления о книгах
mysevra про Степанов: Дезертир [полный вариант] (Боевая фантастика)
01 02 Первая книга - на отлично! Вторая не стоит затраченого времени. Оценка: отлично!
mysevra про Левицкий: Воины Зоны (Боевая фантастика)
01 02 Неплохой язык, простоватый сюжет, много описаний армейской бытовухи. На любителя. Оценка: плохо
Barbud про Риддер: Учитель. Назад в СССР (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
01 02 Скучища редкостная. Автор (или соавторы) пытаются писать живо и образно, изредка местами это даже получается, но в целом действие еле тащится обдолбанной улиткой и эта вялая неторопливость отвращает от дальнейшего чтения. ……… Оценка: нечитаемо
скунс про Алмазов: Мечников. Живое проклятье (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
31 01 Хорошо написано,читать интересно Оценка: хорошо
Kiesza про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
31 01 ...длительное время осваивающего технику китайского боевого искусства вин-чун..." ............ Ой, не смешите мои тапочки! Сам из Донецкой области, тамошние парни по зубам врезать горазды, но "длительно осваивают" ……… Оценка: нечитаемо
obivatel про Игра [Земляной]
31 01 Кооперативные движения обеспечивающие 40% ВВП в 1978 (эпиграф ко второй главе) это, безусловно, параллельная реальность. Такое могло сложиться только если Сталин не умер в 53 и Берия стал преемником. Очень параллельная реальность, ………
Belomor.canal про Свечин: Пуля времени [litres] (Детективная фантастика, Исторический детектив, Попаданцы)
31 01 Вполне читаемо, хотя местами ну уж очень затянуто. Маловато фактуры, а хотелось бы - таки центр Москвы в 12 году можно было и более детально описать - первые авто, гаражи и конки... Посмотрим, что во второй части Оценка: неплохо
Chernovol про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 При чем тут "гражданская война"? Разве что граждане рф пришли убивать граждан Украины. Оценка: нечитаемо
Aleks_Sim про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 Лысенко Владимир Андреевич" - а что "Азов" это современный украинский мир ? Оценка: отлично!
Лысенко Владимир Андреевич про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 Нечитаемо, как хорошо убивать всех несогласных с русским миром, все наши правильные, а кто думает по другому должны быть убиты, осталось только Аляску захватить. Оценка: нечитаемо
Barbud про Фонд: Баба Люба. Вернуть СССР 4 (СИ) (Попаданцы, Самиздат, сетевая литература, Фантастика)
29 01 Дерьмище редкостной зловонности. Главное, что автор писать умеет, пишет образно, без "картона", коим грешат очень многие кропатели нетленки. Но боже мой, какую же херню он пишет! Первые две части осилил, остальные пролистнул по диагонали, ибо чушь. Оценка: нечитаемо
decim про Р. Дж. Баркер
29 01 Хорошо, а местами и отлично. Было бы совсем отлично, если бы автор не растянул историю на три тома, но это обычное дело. |
Отв: Что делать с книгами, в которых нет текстового слоя
?
Отв: Что делать с книгами, в которых нет текстового слоя
А списочек книжек (желательно со ссылками на файлообменники и т.п.) можно? А то ведь может кто (в том числе и я) заинтересуется и OCR-ить поможет?
Отв: Что делать с книгами, в которых нет текстового слоя
http://depositfiles.com/files/kon5m6qr1
http://depositfiles.com/files/t5np6gf08
моя Опера на эти ссылки показывает,будто они неправильные, но переходит по ним нормально.
Я в этих ссылках применил технологию для быстрого скачивания с депозита и летитбита:
если слева от ссылки в браузере на файл депозита или летитбита приставить "sfrom.net/" то файл будет скачан на полной скорости.
Такие ссылки я и написал сначала, но не учел, что ссылки расположены не в командной строке браузера, а на сервере Либрусека, соответственно sfrom.net тоже искался на Либрусеке. Тогда я приставил к адресам ещё один начальный http и все заработало!
Ссылки теперь ведут на быструю скачку файлов с депозита на полной скорости через sfrom.net(видимо у них есть Голд-аккаунты на депозите и летитбите, а вот на Рапиде нету)
Отв: Что делать с книгами, в которых нет текстового слоя
Перевести в джипеги и сделать OCR.
Отв: Что делать с книгами, в которых нет текстового слоя
Технологию процесса - в студию !!!
Отв: Что делать с книгами, в которых нет текстового слоя
"Переконвертить" нельзя. Нужно распознать текст так, как мы распознаем отсканированные картинки.
Нет, не поможет. Поможет только OCR. Переводить в джипеги не нужно, Файнридер (по крайней мере, последние его версии) прекрасно понимает pdf.
Отв: Что делать с книгами, в которых нет текстового слоя
И дежавю тоже ФР понимает. С 9 версии.
Вообще, забавный товарищ.
Как он себе представляет, книги (в виде текстов) в сеть попадают?
Тетеньки машинистки перепечатывают? )))
Отв: Что делать с книгами, в которых нет текстового слоя
Мой девятый не распознаёт. Приходится переводить в PDF.
Отв: Что делать с книгами, в которых нет текстового слоя
Это странно, потому что должен.
http://www.abbyy.ru/support/finereader/90/product_info/FF
Кроме Home Edition. (Но у Вас же не хоум, потому что хоум и pdf не понимает).
Отв: Что делать с книгами, в которых нет текстового слоя
Вообще-то где-то есть файл, который надо положить в специальную папочку, и тогда ФР9 научается распознавать и djvu. Но я что-то не могу его найти. :(
Попробуйте посмотреть здесь. Там внизу есть ещё пара линков.
Отв: Что делать с книгами, в которых нет текстового слоя
UPD
И правда всемогущество! Написала этот пост я, Tanja45. Но вот сайт уверяет меня, что я вовсе даже и не Tanja45, а совсем даже напротив - JuliaVS. Но я пока ему не верю, я точно знаю, что я не JuliaVS.
Отв: Что делать с книгами, в которых нет текстового слоя
На самом деле это представление справедливо для многих видов деят-ти, обычно связанных с компом.
Я называю это "знание о волшебной кнопке". Или программе.
Которая делает все сама. Моментально, красиво и с учетом любых тараканов-пожеланий в мозгу этого знающего.
Отв: Что делать с книгами, в которых нет текстового слоя
А нам? А книжникам? А мы тоже хотим! Это нечестно!
Отв: Что делать с книгами, в которых нет текстового слоя
O, в каком-то фантастическом сериале видела инопланетный девайс для сканирования книг: проводишь им по корешку и через несколько секунд вся книга отсканирована.
UPD Вот, нашла: http://www.youtube.com/watch?v=9CSPW-VUQis Начиная с 8:25 :)
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
Это обо мне что ли?
я например как увижу где в сети текстик txt, html, doc так сразу этот текстик ручками перенабираю в "блокноте" весь текст целиком. добавляю туда тегов и получается fb2 файл. а потом ещё дописываю на клавиатуре binary - коды обложки, я же ведь графических редакторов не знаю
с редакторами FB2 совершенно не знаком
Отв: Что делать с книгами, в которых нет текстового слоя
Уточнение - с билда 724.
Отв: Что делать с книгами, в которых нет текстового слоя
вообще-то "виртуальный принтер"- это такая программа, которая конвертит любые файлы в PDF. Для конвертации нужно эту программу поставить "принтером по умолчанию" и из любой другой программы(из Ворда,Пэйнта,браузера, Блокнота и т.п.) отправить что-то на печать, как это "что-то" конвертится в PDF.
Вот я и подумал, что может есть такой виртуальный принтер, который картинку в PDF переведет в текст в PDF.
Отв: Что делать с книгами, в которых нет текстового слоя
Я в курсе, что такое виртуальный принтер.
Вы поймите, что есть только один способ перевести картинку в текст: ocr (распознавание). Ну, можно еще набрать текст вручную :))
Отв: Что делать с книгами, в которых нет текстового слоя
Вообще-то "виртуальный принтер" - это программа, которая переводит файл на язык, понятный принтеру. Как реальному, так и виртуальному. Её цель именно в этом - что бы принтер понял, как печатать файл. И для целей принтера совершенно не нужен распознанный файл. Его цель - понять, как печатать то, что есть (подгружать шрифты, или печатать их растром; с каким разрешением печатать; цветное или черно-белое, и т.д.). Выходной файл виртуального принтера - .prn или .ps
То, о чем Вы говорите - "конвертит любые файлы в PDF" - это делает программа Acrobat Distiller. Её цель - преобразовать файл .ps в файл .pdf, что бы можно было увидеть глазами то, что мы увидим на печати.
То, что из прикладных программ это делается в один этап, а не в два, не означает, что процесс один. Это просто видимость, результат работы встроенного дистиллера.
В этом и загвоздка - не нужно принтеру, для того, что бы печатать - распознавать. Да и язык Postscript не позволяет (насколько я знаю).
То, что Вы хотите - это не виртуальный принтер, а виртуальный OCR. Что бы программа типа файнридера сделала всю работу, но Вы бы этого даже не заметили, а потом ещё и результат OCR заново записала в pdf. Чисто технически это наверное возможно реализовать. Только зачем?
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
Это подстановка одних шрифтов вместо других. Процесс более простой, чем OCR.
Функция "печатать шрифт как растр" действительно существует. Но это очень простая операция. А вот "растр как текст" - это уже OCR. Процесс сложный и не нужный для целей принтера.
На самом деле я очарован вашей идеей. Действительно, почему нет автоматического аналога этого процесса.
Ведь что мы делаем в Finereader:
1. Открываем изображения.
2. Анализируем текст (рисуем области).
3. Распознаем текст.
4. Сохраняем во внешнее приложение.
Почему же нельзя это автоматизировать, сделать одним процессом. Где мы просто укажем - входной файл - распознать - выходной файл.
Наверное потому, что это не очень нужно - ведь результат получится грязный. Потому что файнридер позволяет на каждом этапе своих процессов контролировать и поправлять результат.
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
niksi, спасибо за подробное разъяснение.
Отв: Что делать с книгами, в которых нет текстового слоя
в комменте http://lib.rus.ec/node/198011#comment-123124 указал ссылки на 2 книжки Малколма Гладуэлла(на Либрусеке есть на англ., а эти на русском)
"Озарение" и "Переломный момент"
Отв: Что делать с книгами, в которых нет текстового слоя
FR Portable 9 распознает без всяких лишних манипуляций )
Отв: Что делать с книгами, в которых нет текстового слоя
А у меня и не Portable, и тоже распознает без всяких манипуляций. Как установился, так и стал распознавать. Но у меня ХР. А у Вас, Игорёк, Vista?