Вы здесьМастер-класс по сканированию
Опубликовано сб, 23/07/2011 - 05:48 пользователем Антонина82
Сразу расставлю точки над ё: я выступаю в роли прилежной ученицы. Учителей будет, как мне представляется, несколько. шаг второй. Шаг четвёртый. По совету Голмы режим сканирования установила для страниц без картинок – серый 300dpi, для картинок – режим 600 dpi. Сразу скажу, скорость при втором режиме резко падает. Шаг пятый: сканирование, самый трудоёмкий и несколько нудный и однообразный процесс. Кладёшь на стекло страницу, затем устанавливаешь режим просмотра. Если полученное изображение удовлетворяет моим требованиям о качестве (что может не совпасть с мнением бывалых людей) жму на кнопку -сканировать Шаг шестой: Папку с файлами заархивировала и отправила на файлообменник, в надежде на то, что кто-то подхватит из моих рук скан и сделает книжку. Освоить сразу все профессии по изготовлению электронных книг, для меня представляется пока сложной задачей. Теперь вопросы, которые у меня возникли: Моя первая отсканированная книжка детская Я.Акима – с символичным названием «Неумейка» файл лежит здесь здесь Можно указывать, на что надо обращать внимание и на ошибки используя «Неумейку», как пример.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Подайте бедному копеечку на книжку с литреса... 3 дня
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 6 дней TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 1 неделя Oleg V.Cat RE:B343695 Александр. Книга 1 1 неделя Isais RE:Калибрятина/Самиздатина 1 неделя md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 2 недели SergL197 RE:Регистрация 2 недели ejik.v RE:Viva Stiver! 2 недели RedRoses3 RE:Флибуста конец? 2 недели Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 4 недели Isais RE:B157704 Черепаха Киргала 4 недели sem14 RE:Литературная премия «Ясная Поляна» 4 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 1 месяц Isais RE:Обновление FictionBook Editor 1 месяц Впечатления о книгах
gruin про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
08 11 Сения не сказать отличная, но читать можно. Многовато рассуждений описаний. Оценка: неплохо
gruin про Прядеев: Позывной «Курсант» (Альтернативная история, Попаданцы)
08 11 По идее последняя в серии, а не первая. В остальных о предшестаующих событиях в детдоме, они хуже. А эта вполне читабельна. Но только та, которая "Курсант. На Берлин", на флибусте Оценка: неплохо
obivatel про Назипов: Ингвар. Книга 1 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
08 11 ГГ классический лох (человек, не умеющий «устроиться» и приспособиться к изменениям жизни и в результате обычно небогатый), а лох это судьба. Какие бы плюшки ему вселенная ни накидала, он про профукает, пролопухает, про"№%т. ……… Оценка: нечитаемо
Oleg68 про Кобен: Нарушитель сделки [Deal Breaker ru] (Крутой детектив)
08 11 Хороший триллер- детектив. Автор, как всегда на высоте. Буду продолжать читать серию. Оценка: отлично!
Isais про Берд: Тошнит от колец [Bored of The Rings ru] (Юмористическое фэнтези)
07 11 Поверьте, после этого реально тошнит от колец — после той работы, что пришлось проделать для минимальной удобопонятности этого нестареющего образчика студенческого юмора. Оценка: нечитаемо
Isais про Капельгородская: Зарубежный детектив [энциклопедия] (Энциклопедии, Литературоведение)
07 11 Когда-то покупал эту книгу (печатную) для работы и пользовался ее информацией без претензий и с полным доверием, но только лет через 10, когда появился Тырнет, узнал, что в ней есть довольно много ошибочных сведений, в основном ……… Оценка: хорошо
Barbud про Савинков: Николай I Освободитель. Книга 8 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
07 11 Кое-как, без интереса и по диагонали листая через десяток страниц, домучил восьмую часть. Девятую, наверное, и начинать читать не буду - опус все скучней и скучней. Кстати, судя по последним строкам, автор смылся из Киева ……… Оценка: нечитаемо
Дей про Старатель
07 11 В целом понравилось. Урал, тайга, охота, рыбалка, вот этот колорит и всё такое. Не понравилось в изложении: манера всякий раз вычурно обставлять диалоги. Почему хотя бы иногда не писать прямую речь без дополнений. Кто ………
vig11 про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
07 11 Отличная книга. Огромное спасибо. Оценка: отлично!
Lan2292 про Вайс: На границе миров. Том 1 (Космическая фантастика, Самиздат, сетевая литература)
07 11 Сумбурно и под конец сдалась. Не рекомендую
Igrina про Ирина Борисовна Ратушинская
06 11 Ну, Ратушинская вообще слабый поэт и чудовищный прозаик, так что... И очень много брешет, кстати!
badbag про Барчук: Колхоз: Назад в СССР [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 11 Не рекомендую читать ночью, во время приема пищи и любых жидкостей. Чревато. Оценка: хорошо |
Комментарии
Отв: Мастер-класс по сканированию
1 - то, что количество страниц не совпадает с книгой, имхо, не страшно.
3 - любой, чтобы встал между двумя имеющимися. Скажем, пропущена страница между 12 и 13 - значит, ее номер должен быть 12a (а латиская, разумеется). ИМХО, опять же.
Книжку сейчас погляжу :)
Да, Антонина, правильная ссылка на файл будет выглядеть как http://ifolder.ru/24838124 :)
Потому что иначе ее не увидят те, у кого нет акканута на mail.ru :)
Скачала :)
первое и самое важное, имхо :)
при сканировании можно выделить "область сканирования" - этим надо пользоваться. Чтобы на получившейся картинке была только страница книги и не было черных полей сканера. Иначе обработка, особенно если речь идет не о FB2, а о djvu или pdf, становится неоправданно времязатратной. Ну и в такую книгу я бы подкладывала не черный, а белый лист. Иначе, опять же, чистить картинки от просвечивающего черного - дополнительная работа. ИМХО, в именно этом случае белый был бы лучше. Хотя это на любителя. :)
Книжку сделать? :) Или Вы ее просто для примера выложили?
Отв: Мастер-класс по сканированию
Я сначала подкладывала белый лист, но он не помог. Страницы просвечивали.
Если не трудно сделайте, пожалуйста книгу. Я сканировала, но те ми же ошибками, очень хорошую книжку Если у вас есть возможность, я бы дала ссылку. Мне удивительно, что книги такого замечательного автора в сети отсутствуют
Отв: Мастер-класс по сканированию
А картинок во второй много? Если не очень, то сделаю, не проблема, она небольшая :) Сканы у Вас хорошие получаются :) Эту сделаю сегодня :)
Отв: Мастер-класс по сканированию
Лично я подкладываю черный лист (на лазерном принтере "залил" черным страницу) - получается гораздо лучше - слабо-сероватый фон легко убирается в графических редакторах.
Отв: Мастер-класс по сканированию
Да, вот что еще забыла сказать :)
Чаще всего, оптимальным является сканирование не постранично, а разворота. Если размер книги позволяет, разумеется. В этом случае не приходится каждый раз устанавливать область сканирования, а просто возвращаете книгу в то же место и сканируете :))
Отв: Мастер-класс по сканированию
После сканирования я использую СканКромсатор. Он Обрезает поля и заменяет их чистым белым цветом. Просвечивающийся текст с обратной страницы убирается автоматически.
Отв: Мастер-класс по сканированию
А мне кажется, что такие книги стоит делать в djvu, но никак не в fb2. По весу будет тоже самое, а зачем такие тяжелые fb2? Плюс книга от формата djvu только выиграет.
Антонина, загляните сюда, очень грамотный мануал по сканированию. Ну, а, если захочется, потом по djvu и pdf - сюда.
Отв: Мастер-класс по сканированию
Спасибо за ссылки. Давний мой друг Лорд делится опытом :) Обязательно изучу.
Отв: Мастер-класс по сканированию
Я посмотрела, как Лорд советует делать pdf. Мне не понятно - с форматом djvu надо делать также как с pdf? Я отсканировала книжку Маршака "Рассказ о неизвестном герое" там всего 18 листов. (цвет 600- tiff). Какой следующий шаг?
Отв: Мастер-класс по сканированию
(схватила себя за голову; долго думала) Ё-моё... Хорошо, что я нифига таких умных слов не знала, когда взялась сканировать понравившуюся книжку. (с умной мордой) Надо просто делать, спрашивая по ходу дела мэтров. :))))
Отв: Мастер-класс по сканированию
1. Конкретно для этой книги сделано более чем достаточно, что бы передать ее на дальнейшую обработку другим спешиалистам.
2. Сканы после сканирования лучше все-таки обрезать. Делается так. Перед этим надо создать копию пакета на всякий случай. Затем выбрать в "Файнридере" "Редактор изображений, и:
3. Но в вашем случае это не получится. Потому что вы не прижимали при сканировании к одному и тому же углу. Или прижимали к одному и тому же, но то вверх ногами, то вниз. Подозреваю, что из-за подкладывания черной бумаги.
4. Надо ли вообще подкладывать? Давайте разберемся. Выложите пожалуйста одну и ту же страницу - без, с черной и с белой подкладкой.
Вот одна из ваших картинок, обработанная быстро в Photoshop:
Хочу посмотреть, удастся ли приемлемо убрать просветку.
5. Коллеги, а для чего сканировать в 600, если при дальнейшей обработке картинка все равно будет ужиматься?
Отв: Мастер-класс по сканированию
Так велит великий и ужасный РТ.
))))
Наверно, с несжатым материалом лучше работать.
Отв: Мастер-класс по сканированию
Стоит ли оно того, что бы сканировщик в два раза дольше корпел над книгой? Большие есть сомнения у меня.
Отв: Мастер-класс по сканированию
Для цветных картинок - стоит точно. Я сейчас их обрабатываю - и так зачищаю, что на мелком скане будут просто проблемы. Покажу через полчасика результат.
Отв: Мастер-класс по сканированию
Я за 2,5 года что сканирую, не отсканил ни одной книги с цветными картинками. Поэтому тут я не спец конечно.
Но, с другой стороны, постоянно сканю и обрабатываю обложки. И чем плохи мои обложки, отканенные в 300 dpi и ужатые до 600 точек по горизонтали?
Например:
http://lib.rus.ec/node/310119
http://lib.rus.ec/node/310129
http://lib.rus.ec/node/320807
Отв: Мастер-класс по сканированию
До 600 точек - никакой разницы :) А я сейчас делаю детскую книжку - начнаю с 4000 пикселей по высоте :)))) С учетом того, что требуется зачистка фона - очень правильное разрешение... :)
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
1) Проще чистить - хорошо видно, где мусор, где потёртая краска или соринка в бумаге, а где деталь изображения. Особенно если сканер не ахти (вроде моего HP 2410) и/или раздолбанный.
2) Если это растровая печать (в т.ч. цветная) - c 300 dpi очень трудно убирать муар, разве что чрезмерным размытием; с 600 dpi - downsize'ом в 4-5 раз убирается на ура. Примеры навскидку: http://lib.rus.ec/node/277231
Отв: Мастер-класс по сканированию
Это не из-за невнимательности, а из-за особенности сканера. Он позиционируется как книжный. И книга кладется по-разному, четные страницы - к одному краю сканера, а нечётные к другому. Программа переворачивает изображение в одну сторону, но к разным краям страницы. На этом сканере еще есть возможность "book pilot", там обрабатывается целиком книга, но я эту функцию ещё не освоила. В инструкции очень корявый перевод.
Отв: Мастер-класс по сканированию
Сканер с моего юзерпика :)
У Лорда вроде такой же. Тогда надо его пытать как сделать так, что бы можно было после сканирования автоматом ровно обрезать. Это важно - ровно обрезать. 16 страничную книгу порезать можно и руками, а 400 страниц - вряд ли это весело.
Отв: Мастер-класс по сканированию
Что за игры с обрезанием? Зачем? Уже не в первый раз слышу. Сама ничего такого никогда не делала.
Отв: Мастер-класс по сканированию
Наверно только я так делаю. Все предпочитают задавать область сканирования. Буду пробовать как все.
Отв: Мастер-класс по сканированию
Ты сканируешь на всю длиноширину стекла, не оглядываясь на размеры книги?
Отв: Мастер-класс по сканированию
Совершенно правильно. И совершенно не правильно. В смысле понято правильно, а делаю неправильно. :)
Отв: Мастер-класс по сканированию
Хм. Совсем не обязательно гонять книгу по стеклу. Скажем, выбираем правую сторону сканера, кладем книгу (разворот из середины) вплотную к границе сканирования (стык пластика и стекла), запускаем предварительный просмотр и фиксируем в программе область сканирования. Всё. Дальше кладем книгу только в эту область, выравнивая по границе справа. Естественно страницы будут чередоваться: то правильно, то вверх ногами. Файнридеру можно поставить задачу определять ориентацию страницы, ПО вашего сканера тоже это умеет.
Я так сканировала большие книги, которые разворотом отсканировать было нельзя, только постранично.
Отв: Мастер-класс по сканированию
Я это поняла сама, но после того как раз сто или больше переместила книгу из угла в угол :)
Отв: Мастер-класс по сканированию
А я вообще использую горизонтально закреплённый над столом фотоаппарат Ricoh CX1. В настройках есть съёмка с заданным интервалом, снимает каждые пять секунд. Всё, что требуется - каждые пять секунд, услышав бибикание, переворачивать страницу. 10 мегапикселей вполне хватает для распознавания. 100 страниц сканируются примерно за 4 минуты. Важно выставить экспокоррекцию на +1
Отв: Мастер-класс по сканированию
Еще лучше - с иллюстрациями и образцами "фотосканов"... :)
Я намереваюсь отразить Ваш опыт в ЧаВо по книгам и ограничился бы обычной вставкой линка... но Ваш здешний пост, увы, не фокусируется... :(
Отв: Мастер-класс по сканированию
ППКС. Есть еще пара коллег, предпочитающих фото. Надо будет их пригласить в тему.
Отв: Мастер-класс по сканированию
Ну я предпочитаю)))
Поскольку верстаю сама и сканы неземной красоты мне не нужны, особо не заморачиваюсь.
Штатива нет, на книгу уходит минут 20-30, с учетом копирования на комп и замены батареек.
Фаня-10 распознает без проблем.
Сканер есть, но используется для обложек и цветных иллюстраций.
Отв: Мастер-класс по сканированию
Несколько поздно. Отрабатывал технологию.
Итак, сделал раму на стойках высотой с полметра. На раме закрепил две лампы дневного света и фотоаппарат Ricoh CX1, объективом вниз. Выставил автоматическую съёмку каждые пять секунд, экспокоррекцию +1, чтобы лист на снимке выглядел белым, а не серым. Самую узкую диафрагму, ISO 100 (чтобы было выше разрешение).
После того как фотоаппарат снимает разворот страницы (сопровождается бибиканием), есть пять секунд, чтобы перевернуть страницу. Номера страниц закрываются указательными пальцами, хотя вроде Finereader 11 умеет их убирать и самостоятельно.
После того, как съёмка закончена, все JPEG-и загружаются в Finereader 11. Из его плюсов - справляется с искажениями текста на развороте книги.
Из примеров книг, отсканнированных по этой технологии: Анастасия Цветаева "Воспоминания" (http://lib.rus.ec/b/355407). Книга на 800 страниц сканнировалась 45 минут. Юрий Ерзинкян "Невыдуманные истории. Веселые страницы из невеселого дневника кинорежиссера" (http://lib.rus.ec/b/353523) - книга сканнировалась 15 минут.
Отв: Мастер-класс по сканированию
Спасибо. Не могли бы выложить на обменник парочку сканов для посмотреть?.. :)
Отв: Мастер-класс по сканированию
Ответ неверный!
В свое время niksi уже спорил со мной по этому поводу. Спор заключался вот в чем: как нам говорит вики и другие авторитетные источники, формат JPEG НЕ предназначен для распознавания текстов и что для этих целей больше подходит TIFF. niksi же утверждал, что я неправ и формат JPEG практически почти не дает искажений и в то же время файл в формате jpeg занимает в 1.5 раза меньше места. Он обозвал меня идиотом и создал новую тему под названием JPEG vs TIFF. В этой теме было предложено сканировать в формате дежавю. Я творчески переработал эту мысль и написал сообщение JPEG vs DJVU, где сказал
И вот с этим niksi внезапно согласился.
Кроме того, если собираетесь делать дежавю никогда не сканируйте в JPEG, потому что этот JPEG, чтобы вставить в DjVu, придется сперва перекодировать в TIFF, а уж потом прога вставит полученный TIFF как страничку в дежавю.
Отв: Мастер-класс по сканированию
Лично ты можешь сканировать в чем угодно, как угодно, где угодно. Как я и говорил, меня убедит только статистика, доказывающая, что тифы распознаются лучше, чем джпеги. Размышления о том, что лучше в сферическом вакууме не имеют отношения к реальной практике.
Насчет сохранения в дежавю - для моих регулярных задач это все-таки экзотично. В итоге я предпочел не воспользоваться этим советом.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Спасибо что успокоил. А то я уж испереживался, что неправильно сохраняю отсканированное. Нервный стал, злой, и чуть в запой не ушел.
Отв: Мастер-класс по сканированию
Такой статистики не будет по очевидным причинам. Никто не будет сканировать одну и ту же книгу одновременно и в jpg и в tiff, после чего оба варианта распознавать. Причем проделывать это не с одной книгой, иначе ни о какой статистике речь идти не может. Точно так же вы бы не нашли статистики, гласящей почему для забивания гвоздей лучше молоток, а не микроскоп.
Если все-таки чуть-чуть знать особенности компрессии, выйдет что особенности JPG, которые так замечательно подходят для полноцветных фото, на тексте проявляют свои худшие стороны:
1. Артефакты по краям букв (чем больше контраст между соседними пикселями, тем больше искажения).
2. Крайняя нежелательность редактирования. Каждое новое сохранение jpg дает помехи.
3. На однобитных изображениях jpg бессмысленен из-за больших артефактов и неважной компрессии. Тогда уж лучше tif, gif, png, да что угодно, лишь бы без потери качества. TIFF с lzw компрессией практически идеален.
Понятно что распознавалки текста умеют как-то бороться с артефактами jpg-компрессии. Это как в анекдоте: "ему было легче отдаться, чем разъяснить почему не хочу".
Вот перевод отличного примера от XCKD, как раз в тему
http://joyreactor.ru/post/8157
Отв: Мастер-класс по сканированию
По условиям задачи двойное сканирование не требуется. Сканируем в FR. Затем сохраняемся в тифы и джпеги. Остальное - справедливо.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Минздрав предупреждает: DJVU - это вариация на тему JPEG!
Т.е. сжатие с потерями.
Без потерь (в общем случае) - это TIFF, PNG, GIF...
Для распознавания, как такового, наличие потерь при сжатии несущественно!
Главное - "чёткость" изображения текста.
Объём файлов можно снизить, например, за счёт оптимизации палитры (делайте в 256 градаций серого и LZV-сжатие в том же TIFF'е).
Хотите JPEG - не экономьте на пиксельном разрешении (главное - не переуседствовать и особенно не лезть в интерполяцию, задирая циферки выше физических способностей сенсора).
И вообще, это тут [:]|||[:] уже - и захожу нечасто, но каждый раз натыкаюсь на эти споры...
Отв: Мастер-класс по сканированию
Надоело слушать баян? – Милости просим на Флибусту)))
Вам достаточно произнести «Ля-ля» и ансамбль балалаечников подхватит мелодию. Репертуар, исполняемый признанными мастерами, просто огромен. Они могут исполнить всё - начиная с гимна
заканчивая шлягером – на кулинарные темы :
Большим успехом у слушателей пользуются народные песни:
И эта –
Вне конкуренции – русская народная песня «Во поле березка стояла». Один исполнитель очень здорово выводит –
В руках у него в это время что-то блестит, знающие люди говорят – рашпиль. А ещё он замечательно исполняет песню –
У слушателей - слёзы умиления выступают.
Ансамбль может исполнить и лизгинку, и народные мелодии Ливии, Сирии и т.п. Никаких ограничений в репертуаре. Впрочем, если надоест слушать современные мелодии, солист ансамбля, подыгрывая себе на кифаре, споет вам что-нибудь из Гомера или Виргилия.
Вход на Флибусту абсолютно бесплатный. Только выйти оттуда достаточно сложно. Кругом болота – погрязнуть в них –ничего не стоит.
ЗЫ: на Либрусеке
Отв: Мастер-класс по сканированию
Мать... мать... мать... - привычно откликнулось эхо. © поручик Ржевский.
Отв: Мастер-класс по сканированию
Вы немного не в теме ;)
Вы наверно, не слышали о сканировании в DjVu без потерь. Удивительно, но факт! Я уже об этом писал, так что принимайте очередной боян [:]|||[:]
В программе DjVuExpressEditor есть разные профили кодирования DjVu. Большинство из них с потерями, но есть один профиль, который называется фотография, так вот, в этом профиле TIFF кодируется без потерь, а DjVu при этом занимает меньше места, чем TIFF и/или JPEG.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Вот только про GIF не надо тут ля-ля
Я вот, когда сохраняю в GIF, мне Paint сразу предупреждение:
Цитата не точная, но смысл такой. И действительно, цвет делается 8-битным, картинка ухудшается, многие цвета имитируются разным цветом рядом стоящих пикселов.
Отв: Мастер-класс по сканированию
Это так да не так. По сути DjVu как раз изначально сделан для книг. Изображение обрабатывается и разделяется на слоя, у каждого слоя в зависимости от особенностей выбирается свой тип компрессии. Т.е. для контрастного текста идет компрессия без потерь, для фона - с потерями, какие-то участки становятся однобитными, какие-то остаются 24-битными. Что позволяет получить очень маленький объем при максимальной сохранности оригинала. Кстати, в PDF какое-то время тоже научились делать подобные трюки.
В целом я с вами согласен, просто хочу стать на защиту отличного DjVu. Кстати, него есть еще OCR Layers, т.е. текст местами может быть распознан и идти поверх оригинального оформления.
Отв: Мастер-класс по сканированию
Отв: Мастер-класс по сканированию
Короче, нету там Светличков-Близненцов.djvu
Хотя есть вероятность, что есть, но только для украинцев, а меня из России просто не пускает.
Отв: Мастер-класс по сканированию
Грабли заметны на 11-й странице, например.
Отв: Мастер-класс по сканированию
А что, именно эта книга нужна? Можно поискать.
Книга с "Читанки". Книг там много, но хоть бери и пересканируй.
IMXO такую детскую литературу в Djvu хранить не стоит. Потом ничего не переделаешь. Но с другой стороны... Сканы занимают столько места... И сильно не ужмешь. Свои храню в JPG 60%, и то выходит от 1 до 3 метров на страницу. А в TIFF цветные - есть и 25 метров.
Страницы