Как правильно отсканировать? | Либрусек

Вы здесь Главная » Блоги » Блог пользователя thirteen Как правильно отсканировать? Опубликовано сб, 14/03/2009 - 12:36 пользователем thirteen Есть сканер, есть Файнридер, есть книга, которую хочу выложить, точно знаю, что в сети её нет. Посоветуйте правильные настройки при сканировании (разрешение, цвет...) и в каком формате лучше сохранять? Я пытался в ПДФ, но он даже при скромных размерах книги получается почти 60 мег. Что я делаю не так? Блог пользователя thirteen Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 13:58 пользователем oldvagrant Разрешение при обычном шрифте - 300, при мелком или если есть мелкий, приходится ставить 600, но это, обычно, медленней выходит. Цвет - если печать четкая, контрастная, лучше выбрать черно-белый, если бумага не особенно белая и печать не фонтан, то приходится ставить серый. Яркость придется подбирать опять же, если качество плохое. Сохранять конечно в Word с опцией "форматированный текст" (точную копию, редактируемую копию не делать - задолбаешься чистить идиотское форматирование). В опциях убрать всякие сохранять деление на строки, страницы и проч. Да, картинки, похоже, лучше сканировать отдельно и отдельно обрабатывать, а потом воткнуть сразу в fb2. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 14:01 пользователем astr разрешение 300 dpi и в градациях серого (gray scale), ну а FR умеет и в формат MS Word сохранять, из которого можно и txt и html сделать Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 21:30 пользователем computers Совершеноо правильно. Это наилучшие параметры для распознавания FR при нормальном шрифте и качестве оригинала. При большем разрешении (600) начинает вылезать много "лишних" букв, полученных из точек, запятых и просто пятнышек на бумаге. Если с качеством что-то не так, или нужно не распознавание, а сохранение в графике (djvu, pdf) - необходимы эксперименты для достижения наилучшего результата. Если предполагается после сканирования распознать, а вы сами не уверены в своем умении получить валидный fb2, то, возможно, лучше выложить в Сеть сразу графику после сканирования в FR, или, по крайней мере, doc. Кто-нибудь доделает; djvu, pdf для перевода в fb2 потребует нового распознавания. Только не говорите, плз, по txt и html ! Финал любой электронной книги на сегодня - fb2 ! Без этого книга будет невалидна в коллекции, поддерживаемой автоматически, в том числе и на Либрусеке, и тогда - грош ей цена. Иные форматы - только djvu и pdf, в случае, если необходимо (множество формул или картинок). Предпочтительно djvu, т.к. не все в состоянии качать pdf в десятки Мб. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:29 пользователем mahury а чем фб2 печатать? при том что оно будет печататься не в оригинальном размере и отнюдь не на бумажке формата а4. а перед этим хорошо переделано?? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:02 пользователем computers Элементарно, Ватсон! ;) Почти каждая приличная читалка (к примеру, AllReader) достаточно корректно переводит fb2 в txt и html - печатайте на здоровье, и в любом формате! Для изменения форматов при печати есть специальные программы, иногда весьма заумные (если Word не устраивает). А вот наоборот, сделать хороший fb2 из txt - это если и не "высокое искусство", то уж не для чайников, точно ;). Опять же, если на Либрусеке файл в fb2, то вы по желанию можете скачать его в txt или html. Но не наоборот! А теперь встречный вопрос. У меня в библиотеке примерно 50000 книг. Чем их каталогизировать, если они будут не в fb2? :( Таким образом, ваши любимые форматы - только для тех, кто печатает (таких не так уж много, дороговастенько, извините, и зачем мне печатная книге, если есть e-book или КПК), а fb2 - для всех :). А уж если точно нужен размер оригинала, разметки по страницам и т.п. - так это djvu или pdf. Только к чему это? Читателю в основном интересен текст, а не размер и цвет обложки ;). Опережая возражения - fb2 не идеал, и не для всех книг подходит, и уж подавно не всегда корректно сделан, увы :(. Но это на сегодня - меньшее из всех зол. С прискорбием вижу, что на Либрусеке появляется все больше txt и html файлов, которые никто и не думает переводить в fb2, и они лежат мертвым грузом. Понятно, что библиотекари не справляются с большими потоками загрузок (я не силен в этом деле, да и времени нет помогать, тем более, что наезды со стороны специалистов, например, на peshehodrost, что, мол, ваш fb2 хуже атомной войны, отбивают и охоту пробовать ;). Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:46 пользователем ew computers написал: ... наезды со стороны специалистов,.... Это Вы не про недавнее ли выступление Анархиста? ;) Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 10:23 пользователем computers Нет, это было раньше, месяц или два назад, когда кто-то забанил peshehodrost за заливку нескольких невалидных fb2 файлов, потом извинился, и пошел флейм на неделю :(. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 06:47 пользователем Serg_BV Мертвым грузом??? Я предпочитаю читать в HTML, PDF, DOC или даже DJVU, чем не читать вообще. Качаю обычно HTML а не FB2. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 10:30 пользователем computers Вам следовало чуть внимательнее прочитать мой пост ;). При наличии в библиотеке fb2 он может быть скачан в html, а наоборот - нет! Вы можете предпочитать что угодно, но не запрещайте того же и другим, плз! Многие предпочитают как раз fb2 благодаря наличию автоматической обработки таких файлов. И, пожалуйста, не начинайте очень старый спор: я сам всегда отстаивал позицию, что лучше любой файл, чем никакой, вы говорите то же самое. Но в дальнейшем все файлы должны быть конвертированы в валидные fb2. Кстати, библиотекари! Как раз сейчас/сегодня кто-то масcово льет невалидные fb2 на Либрусек. Озадачьтесь, плз, и обработайте! Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 14:55 пользователем Stiver Для начала определитесь, хотите Вы текст распознавать или нет? (при условии конечно, что это вообще возможно) Если да, то никакого PDF, правильные инструкции дали выше. Если без разпознавания, то сканировать в черно-белый 600dpi и собирать в djvu. Цветные картинки, если есть, вставлять отдельно. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 16:52 пользователем leoparrd Вообще, смотря что сканировать. Часто хватает и 200 дпи... И ещё... не всё так радужно. Отсканировать - это пара пустяков... Распознать тоже. А вот собрать всё вместе, намного сложнее. Может я и сам чего-то не понимаю... Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса... И вообще... Проблемы с переходом со страницы на страницу... Не знаю кто как. я же состряпал кучу макросов, чтобы полуавтоматизировать процесс обработкт после сканирования... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 17:27 пользователем oldvagrant leoparrd написал: Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса... Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху. Останется только ликвидировать мягкие переносы в Word'е. Но часто область текста сильно "плавает" и все номера страниц отсечь не удается. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:08 пользователем KOMODOR oldvagrant написал: Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху. Эта функция появилась в 9ой версии, чем существенно облегчила жизнь) Вот только я не совсем понимаю - а зачем сканинь? Это ж прошлый век... Книжка гнется, сканер тарахтит. По-моему, проще прикупить простенький цифровик, пульт к нему, а штативчик для книг можно сготовить самому... Требования: автофокус, макросъёмка, подешевле. На мой взляд, самый идеальный для этого аппарат: Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:33 пользователем mahury как обладатель фотика говорю что сканить удобнее. так как при нормальном сканировании нет завалов страниц. а штатив - он нормальный стоит дороже чем сканер. который еще к тому же может сканить немаленькие запасы старой пленки. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 13:37 пользователем AnGord Сканер который стоит дешевле нормального штатива не сможет нормально отсканировать негативы, т.к. несмотря на наличие слайд модуля для этого в общем-то не предназначен. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 13:42 пользователем AnGord У фотоаппарата тоже немало проблем, но он по крайней мере значительно ускоряет процесс сканирования. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 14:30 пользователем TaKir Простенький фотик ускоряет процесс получения снимков страниц (покетбук 400 страниц - за полчаса), но последующие проблемы с получением качественного результата распознавания сводят на нет всю эту скорость. Особенно при съемке текста на фиговой бумаге, текста с большим кол-вом курсива или некачественной печати книги. Если гнать текст в тхт, то на многие вышеуказанные проблемы можно смело забить, но однозначного рецепта тут нет. Крупный текст без кусивов и болдов, без сносок и индексов на приличной бумаге дешевыми фотиками берутся на ура. На остальных процент ошибок распознавания доходит иногда до 10-15 штук на страницу (против 0-1 на сканере). Так что быстрота съемки оборачивается заметно более долгой правкой в ФР, если делать качественно, а не гнать в фб2 текст как есть. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 12:40 пользователем amyat корректные номера страниц влегкую удаляются подходящим макросом или за минуту заменой. Переносы - надо еще в ФР пройтись поиском связки дефис+разрыв строки, их обычно не так уж много, и про переносы можно забыть. Макросы, ес-но, рулят. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 04:36 пользователем Funt http://www.djvu-soft.narod.ru/ - вот хороший ресурс. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 12:15 пользователем leoparrd Отсканировать - и распознать пол-беды... Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания. Во многих книгах встречаются именно недочёты связанные со стыковкой текста. Вот бы я и мог поделится опытом.... 1. Приёмы сканирования, на что обратить внимание 2. Как лучше всего распознать 3. Как провести предварительную проверку. 4. Что делать в Word, после экспорта в него текста 5. На что обратить внимание. Как полуавтоматизировать стыковку. 6. Какие функции нужны и как написать макросы для их выполнения. Ну и ещё множество мелочей... Хотя многие сами с усами... Но ошибки остаются... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 14:26 пользователем Tanja45 leoparrd написал: Отсканировать - и распознать пол-беды... Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания. Во многих книгах встречаются именно недочёты связанные со стыковкой текста. Вот бы я и мог поделится опытом... ...Хотя многие сами с усами... Но ошибки остаются... Почему бы и нет. Даже у тех многих, которые с усами, какие-то моменты могут быть упущены. А те, кто без усов - получат меньше синяков и шишек. :) Маленький ликбез - это хорошо. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 03:54 пользователем blackvova 1.. ну тут во что гаразд - многое зависит от исходного материала и сканера. елси реально - сразу снести не сканируя всякие номера страниц и верхние повторяющиеся строки - просто заданием области сканирования. 2.1. желательно распозанвать с 1 языком ну или двумя по типу "русский, цифры". распознание "русский, цифры, английский" пройдет уже хуже. и с каждым новым языком все хуже и хуже. 2.2. обучение (создание пользовательского шаблона) имеет смысл только если количество страниц распознавания перевалили за 15-20. иначе чаще всего проще поправить руками... 2.3. после проведения анализа блоков просмотреть полученное и переделать - чем меньше реально блоков на странице тем лучше. то етсь файнридер при приличном расстоянии между абзацами выделит их как два блока. лучше сделать один. мусор потомо можно убрать а вот если файнридер начнет при выводе швыряться фреймами - будет не весело. исправление перекоса - включать только по необходимости - то есть если сканировались книжные развороты. то же с раделением страниц. ну а остальное вроде как уже написал в предыдущем посте... p/s еще сильно рулят сканеры с автоподачей - сиильно выручают ( на работе такой) иногда для получения толковой копии проще распотрошить имеющуюся книгу и потом заново ее сшить. или вообще распечатать по новой. при правильной обработке качество получите куда как приличней. или, как минимум, нехуже... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 05:24 пользователем Jolly Roger Ликбезы из закладок (отсортировано по возрастанию детальности): http://oldsf.ufacom.ru/OCR.html http://militera.lib.ru/ocr/index.html http://vgershov.lib.ru/OCR/_Ocr.html http://yanko.lib.ru/scan.html Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 03:45 пользователем blackvova к стати, господа, а почему все умалчивают о том чтот бороться с переносами проще всего как раз оставив форматирование неизменным - то есть пусть себе лепит файн ридер разрывы строк и ентеры везде где подозревает. потом в ворде набрасывается простенькая приблуда, которая бахнет сочетания типа тире + разрыв страницы и тире разрыв строки... и всего делов то... вот я например с форматированием левых текстов борюсь так: в основном абзацные отсупы приемлимо отформатированы в большинстве файлов. например пробелами или табуляторами. в примитиве абзацный отступ заменяется на символ которого с гарантией нет в тексте, если форматирование пробелами и больше например 4 то замену проводить взяв за отступ на 1 меньше чем приято в файле - на всякий с лучай (чаще всего проходит тот же табулятор - предварительно проверив а есть ли он) после данного мероприятия сносятся лишние переносы и прочие радости как я уже писал выше, убираются разрывы строк или заменяются на ентер если это надо. потом проводится забавный фортель - все ентеры и разрывы строк заменяются на пробел. после чего табулятор меняется на ентер. все. осталась доводка - снести парные строки, парные пробелы, убрать лишние пробелы вокруг знаков припинания. пробелы в абзацном отсупе и все... Если же форматирование абзаца явно не задано - часто вполне прилично получается использовать ентер/разрыв строки+отступ либо отступ и первая большая буква в слове... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 05:44 пользователем leoparrd ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 06:16 пользователем golma1 leoparrd написал: ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают. Кто сказал "не надо"? Надо, конечно. И про макросы тоже. ;) Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 07:08 пользователем TaKir Переносы и разрывы строк совершенно не критичны, если из ворда в фб2 переводить через БД-ФБД. Или ocr pad использовать. Но лучше сразу отключать это в ФР, конечно. Ну и поиском в ФР по дефис-разрыв строки пробегаться. Занимает пару минут, зато потом все чисто. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 09:31 пользователем Lord KiRon Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной: 1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ... 2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ? 3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ? 4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ? 5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 13:53 пользователем Tanja45 Lord KiRon написал: Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной: 1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ... Я частенько хватаю картинку вместе с надписью к ней каким-либо screenshot-м, а затем в фоторедакторе надпись выделяю, максимально увеличиваю, и тогда она остается элементом картинки. Таким же образом можно увеличивать отдельные плохо различимые элементы изображения, если нужно, в схемах, например. Lord KiRon написал: 2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ? Еще можно (помимо того, что рассказала Голма) позагонять все сноски в квадратные скобки (или фигурные) возле слов, которые они поясняют. Затем воспользоваться скриптом "примечания из {} или []. Бояться экспериментировать не нужно - Вы же можете наделать кучу копий своего файла и поиздеваться над каждым. А посмотрев на результат издевательств уже решить, как Вам поступать в дальнейшем. Lord KiRon написал: 3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ? Таблицы в fb2 - беда. Только картинками. Можно попробовать увеличить шрифт в исходнике и взять с экрана. Отдельные эл. можно увеличить, но да - fb2 для них не слишком удобен. Lord KiRon написал: 4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ? Можно цитатой, как пишет Голма, обратите внимание - субтитлом. Можно вместо цитаты выделить этот текст болдом. Можно поэкспериментировать и сделать в виде картинки. Lord KiRon написал: 5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ? Лишних body лучше не разводить, а пользоваться все же вложением секций. Тогда проще в читалках будет переходить по содержанию к нужному пункту. В FBE (версии 2.0) есть инструмент, расположенный под структурой документа. C помощью этих стрелочек легко корректируется вложенность секций. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 02:24 пользователем Lord KiRon Спасибо, единственное что по пред последнему пункту - болдом лучше ничего не делать - большинство конвертеров включают болд на все автоматом "чтобы лучше выглядело". Да, кстати , когда делаю ссылку [1] или что то типа такого то "1" становится суперскриптом - это нормально ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 02:35 пользователем Stiver Техническая литература нетривиальной сложности делается в djvu. О переводе в fb2 можно сразу забыть, так как во-первых: fb2 не поддерживает необходимое оформление и во-вторых: результат никому нафиг не будет нужен. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 06:56 пользователем Lord KiRon А чем djvu лучше чем текстовый PDF ? Кстати о последнем , думал вообще то в нем делать но столкнулся с такими проблемами 9-го файнридера : - он мне с пару тысяч стилей понаделал как это все приивести к 3-м фонтам с 2-3-мя размерами в каждом кроме как "ручками" не понятно, причем там один и та же комбинация фонта/размера/межбуквенного растояния/"выделения" все равно может выглядеть в зависимости от стиля не одинаково, иногда такие огромные буквы получаю ... - при переносе в PDF или DOC(X) (кстати все 3 дают разные результаты что весьма раздражает, особенно разница между DOC и DOCX) некоторые строчки "вылазят" за страницу. Как это чинить не понятно, если в Файнридере включить показ невидимых символов то можно видеть что там для перехода на другую строчку используется значок выглядящий стрелкой вроде enter-а а иногда (чаще в конце абзацев) значек выглядящий как прописная буква "П". В тех местах где ни одного из вышеперечисленных значков нет получается длинная строка. Впрочем даже если добавлять значек enter руками то возникают проблемы с расположением начала следующей строки, похоже там свои невидимые символы и правила. Короче фигня получается... :( У кого есть идеи по борьбе с вышеперечисленными проблемами ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 08:03 пользователем Stiver >>А чем djvu лучше чем текстовый PDF ? Идеального текстового естественно ничем не лучше. Но беда как раз в том, что техническую литературу как правило невозможно перевести в приличную текстовую форму. Приходится вставлять большие куски картинками. Поэтому правильный вопрос звучит так: А чем djvu лучше чем "картиночный" PDF? Например размером - в 5-10 раз меньше. Достоинства djvu кроме того: нет потерь информации (отображение документа один к одному), сохраняется целиком авторское оформление, не требуется вычитка. Тем самым дается гарантия отсутствия ошибок сканировщика, которые в технической литературе смерти подобны. Именно по этой причине научная/техническая литература должна сканироваться только в графические форматы, никакой fb2 и иже с ним недопустимы. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 08:39 пользователем Lord KiRon Спасибо , а чем его djvu вообще делаю и где "это" взять ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 09:06 пользователем rr3 Цитата: Спасибо , а чем его djvu вообще делаю и где "это" взять ? Lizardtech Document Express Editor Взять можно у jurgennt: http://reeed.ru/prog_djvu_ee.php или у Ulenspiegel: http://www.onlinedisk.ru/file/40608/ http://www.onlinedisk.ru/file/40612/ http://www.onlinedisk.ru/file/40613/ Ну и до кучи: Ни корысти ради...Конвертация PDF to DJVU-1 Прошу помочь с формирование .djvu Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 11:24 пользователем Lord KiRon Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками, правда размер действительно более чем в 7 раз меньше. Да кстати вторая группа линков чо вы дали ( от Ulenspiegel) - померли :( Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 11:50 пользователем Stiver >>Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками Значит что-то не так.. Вы, надеюсь, в tiff сканировали? Выложите куда-нибудь одну страничку, попробую сам сконвертировать. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 16:52 пользователем Lord KiRon TIF , 300 dpi , результаты все тут в либрусеке: http://lib.rus.ec/b/137391 http://lib.rus.ec/b/142440 огромный PDF и DJVU , источники понятно еще больше. Качество скана хреновенькое , но книга редкая , дорогая и "уезжала" вечером так что сканил в спешке. PDF понятно уже и сам немного "пожатый" по сравнению с оригиналом из которого делал DJVU но все равно на порядок лучше. Кстати, как бы их вместе обеденить , чтобы книга была одна и два формата для даунлоада. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 03:09 пользователем Stiver Ух. Там размер не в семь, а в 45 раз меньше! 275 MB pdf против 6 MB djvu. С либрусековской скоростью 10 KB/s я этот pdf до посинения качать буду. А нельзя просто пару страниц исходного скана выложить? Чтобы перегнать в djvu и сравнить с Вашим результатом. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 04:03 пользователем Lord KiRon Вот глянь : http://rapidshare.com/files/210615338/0210.tif это не совсем оригинал , это после того как ФайнРидером deskew сделал и страницы порезал пополам , но оригинала сейчас тут у меня нет - дома. Теперь глянь на страницу 9 в DJVU - как видишь серьёзно попорчено, особенно раздражает что текст пошел какой то гребенкой. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 04:30 пользователем Stiver И не удивительно, что попорчено :)) Это, простите, не скан, а некое у..хм..божество. По пунктам: 1) Невалидный формат, его не открывает ни Photoshop CS2, ни Кромсатор. 2) Отсканирован в цвета серого. Перевод из серого в ч/б без "лесенки" невозможен. 3) Ну и само качество. Как надо было извернуться, чтобы текст пошел волнами и пятнами? Из такого действительно сложно сделать что-то приличное. Странно, что получилось еще вполне читаемо и сравнительно небольшого размера. Вот пример djvu, каким он должен быть (не считая OCR слоя): http://lib.rus.ec/b/119872 P.S. Кстати pdf можно тогда из библиотеки наверное удалить? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 04:50 пользователем Lord KiRon 1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net. 2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF , типа в графике только картинки, может еще и сделаю, просто задолбался из за неудобства ФайнРидера (см. выше первый пост). 3. Ну тут уж как получилось :) очень спешил , там 400 страниц и отсканировать надо было на медленном сканере за часов 5. Щас кстати себе на день рождения :) заказал Plustek - посмотрим что выйдет но этой книге это уже не поможет :(. Насчет удалить PDF ..., не знаю, можно наверно , залил в принципе в надежде что может кто то сделает на его основе что получше. Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 05:24 пользователем Stiver >>1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net. TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так. >>2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF Да, для OCR иногда имеет смысл. Но djvu делается всегда в ч/б, за исключением каких-то специальных картинок, фотографий ит.д. Ну и если в ч/б просто не получается по причине ветхости книги или дурости сканера.. >> Щас кстати себе на день рождения :) заказал Plustek Удачи с ним :) Будем посмотреть на результаты. >>Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый. Значит просмотрщик неправильно настроен. Возьми WinDjView и поиграй с увеличением, у меня например на 125% абсолютно четкий вид. Можешь поставить максимальное увеличение и посмотреть на края букв - они все ровные. Качество того файла близко к лучшему из возможных. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:00 пользователем Ulenspiegel Stiver написал: TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так. Эээ.... Tagged Image File Format ? Пан ничего не путает ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:13 пользователем Stiver >>Пан ничего не путает ? Что именно? :) Что у меня он не открывается? Нет, не путаю. У кого время есть, проверьте кстати - вдруг у меня одного Photoshop и Kromsator такие странные. Или что TIF - контейнер? Тоже не путаю, по формату можно внутрь хоть JPG запихнуть, если очень хочется. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:30 пользователем Lord KiRon Ну вообще то JPEG внутри TIF называется EXIF JPEG :) а TIF действительно бывают разные - uncompressed , LZH compressed (это самые распространенные) и так далее вплоть до TIF с JPEG2K lossless , приведенный выше файл открывается даже видовским Paint , правда глянув на него внутрь пришел к выводу что это похоже вообще BMP которому FineReader зачем то дал extension TIF. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:33 пользователем Lord KiRon Именно WinDejavu и смотрел , на FitPage на 22" мониторе с 1600х1280 , впрочем на 135% действительно смотрится получше, размазанность почти не заметна если не искать. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 11:30 пользователем golma1 1. image title, насколько я понимаю, это тот текст, который показывается при наведении курсора на картинку. Не знаю читалку, которая это поддерживает. Я пишу название под картинкой и выделяю в зависимости от особенностей книги то ли emphasis'ом, то ли subtitle'ом. 2. Вообще не поняла. Есть скрипт - добавить примечание (или вставить примечание, если какое-то была пропущено). В нём есть разные варианты добавления. Удобно пользоваться "с вводом", но если в сноске несколько абзацев, он обрежет текст после первого. В этом случае (или если в тексте сноски много форматированного текста) удобнее пользоваться "с переходом". 3. Таблицы - в виде картинок. 4. Можно попробовать выделить тэгом cite и посмотреть, как выглядит. Или emphasis'ом, в крайнем случае. 5. Тоже не поняла. А чем плохи вложенные секции? Зачем нужно несколько body? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 13:09 пользователем Lord KiRon 1. Спасибо , попробую хотя это не лучший вариант. 2. Хм... про скрипт не знал, их там если честно сильно много и пробовать вподряд страшно :) интересно кстати посмотреть как оно реализованно, есть подозрение что внутри будет то что я делал вручную . 3. Хреновенько , видно потом плохо особенно на маленьких девайсах , ну если других вариантов нет .. 4. Попробуем... спасибо. 5. Ну как бы так правильней структуру передовать а впрочем фиг меня знает зачем я так начал :) Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 05:08 пользователем Captain Scarlett 2. Внутри будет так: < body name="notes" > < section id="n_1"> < title > < p>1< /p> < /title> < p> Текст сноски < /p> < /section> и т.д, на каждую сноску по секции. < /body> В тексте делать ссылки на соотв. id: < a l:href="#n_1" type="note">[1]< /a> Страницы 1 2 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 день kopak RE:Таинственная личность админа Флибусты 3 дня kopak RE:О группе Дятлова. О той самой, того самого... 3 дня babajga RE:Ласси возвращается домой 4 дня sem14 RE:Подборка о Первой Мировой 5 дней Isais RE:удаление "двойников" 6 дней Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 3 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 4 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц Впечатления о книгах tlittle про Никитин: Бешеный лев (Фэнтези) 20 02 Примитивно. Очень примитивно. Такое впечатление, что художественные "изыски" добавляли в рассказ при втором проходе, они выглядят чужеродными. При этом куча (просто хренова гора) примитивных орфографических ошибок. "Ни как", ……… Оценка: плохо Barbud про Семин: Конструктор (Попаданцы, Самиздат, сетевая литература) 20 02 Малоинтересное чтиво без художественных достоинств и исторической достоверности. Автор поднаторел на написании сказок с магией и прочими вытребеньками, где не нужно знать историю и следить за отсутствием анахронизмов, поэтому ……… Оценка: нечитаемо nik_ol про Донцова: Дезертир из рая [litres] (Иронический детектив, Детективы: прочее) 19 02 Ребятки, а что так редко стали выкладывать Донцову, Луганцеву и Полякову? Ну, Полякова-то понятно, там её невестка как бы сейчас книги пишет, а Донцова? Скучаю уже, я её между Пелевеным читаю, например, для разгузки мозга))). Оценка: хорошо decim про Ксенз: Золотая стена (Современная проза, Публицистика) 19 02 Автор не буйный , это хорошо. Больше ничего хорошего. Ну там Фаэтон, Гиперборея, Атлантида... а Чёрное море, должно быть, выкопали на сдачу. Потомков ассуров(так в книге) сдали на съедение Горбачёв с Волкогоновым. Который ……… Оценка: нечитаемо mysevra про Зорич: Очень мужская работа [HL] (Боевая фантастика) 19 02 Здесь больше Зорича, чем Жарковского. «Тварь» показалась интереснее. Оценка: плохо mysevra про Жарковский: Времена смерти [litres] (Космическая фантастика, Научная фантастика) 19 02 Это было необычно, мне бы хотелось продолжения. Оценка: хорошо alexk про Скабер: Двойник Короля 5 (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 19 02 Неужели так сложно понять, что если аннотация не отображается, то в ней присутствуют символы, которые сайт либрусека игнорирует? И поправить залитый файл? Я уж не мечтаю о том, что вы будете заливать валидные файлы сразу... decim про Бобров: Эпоха мертворожденных [= Украина в огне] (Альтернативная история) 19 02 Автор не взял тяжёлую тему. Надорвался при первом подходе. Можно усвоить, что война была неизбежна. В данном раскладе да. И что мы усвоим ещё - что автор любит боёвку, аж пищит, и не любит баб как пол. И всё! Что ……… Nicout про Владимирский: На киевском направлении (Военная документалистика) 18 02 Сколько погибло советских солдат при взятии Киева? По немецким данным, под Киевом к 24 сентября было взято в плен 665 тысяч человек. По данным, опубликованным в 1993 году Генштабом Вооружённых Сил РФ, советские потери ……… pulochka про Малиновская: Под колпаком у ректора [litres] (Фэнтези, Юмористическое фэнтези) 18 02 Книга сама неплоха, НО....я не мазохистка! Серия из одной книги??Это уже из рук вон какое гадство! Нельзя так измываться над читателем. Я прямо спрашиваю автора: Где окончание и почему на самом актуальном месте ......ничего ……… Оценка: неплохо Belomor.canal про Ширвиндт: Мемуары двоечника (Биографии и Мемуары) 17 02 Текст, написанный сыном известного артиста, который с ранних лет был частью артистической среды. Вечеринки заканчивались в три часа ночи, а иногда и позже. Всё это происходило под руководством Маркуши Захарова из «Ленкома», ……… Оценка: хорошо Aleks_Sim про Владимирский: На киевском направлении (Военная документалистика) 17 02 Книга сделана и перезалита на основе текста из militera.lib.ru больше впечатлений