Вы здесьКоординация сканирования и вычитки
Опубликовано пт, 03/12/2010 - 02:59 пользователем larin
Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 1 день
TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 дня Oleg V.Cat RE:B343695 Александр. Книга 1 3 дня Isais RE:Калибрятина/Самиздатина 5 дней md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 1 неделя SergL197 RE:Регистрация 1 неделя ejik.v RE:Viva Stiver! 1 неделя RedRoses3 RE:Флибуста конец? 1 неделя Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 3 недели Isais RE:B157704 Черепаха Киргала 3 недели sem14 RE:Литературная премия «Ясная Поляна» 3 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 4 недели Isais RE:Обновление FictionBook Editor 1 месяц Alex_61 RE:Windows 7 безопасна благодаря помощи NSA??? 1 месяц Впечатления о книгах
Дей про Гаврик: Закуска с характером (Любовная фантастика, Попаданцы, Самиздат, сетевая литература)
03 11 А ведь и правда хорошо. Отличная женская сказка, не стыдно посоветовать. Оценка: хорошо
ikravtso про Вячеслав Александрович Каликинский
03 11 Романы про Агасфера интересные, хотя первый очень "рваный", сложно понять, что за чем происходит, время действия постоянно скачет. А вот фразы на иностранных языках - это некое "твоя моя не понимай". Даже гугль-перевод лучше ………
Дей про Шах: Купеческая дочь замуж не желает (Фэнтези, Попаданцы, Самиздат, сетевая литература)
02 11 Молочный ряд был богатым, представлено все разнообразие молочной продукции здешних краев. Просто молоко, сметана, творог, масло, различные сыры — полутвердые, овечьи, козий сыр. Не заметила плавленого сыра. И кисломолочных ……… Оценка: плохо
Sello про Аллен: Побочные эффекты [Авторский сборник] [Side Effects ru] (Современная проза)
02 11 Его тексты - как если бы, скажем, идя в обратном направлении, посмотреть фильм "Голый пистолет" и после того по нему написать рассказ. Сюр с элементами специфического юмора или, наоборот, юмор с вкраплениями сюра. Но есть ……… Оценка: хорошо
Её Лунная Тень про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Грузите запятые бочками. Братья Куромазовы". Автор - двоечник и графоман. Оценка: нечитаемо
andmalin про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Довольно неплохо , если первую еле одолел , то вторую и третью прочитал с удовольствием . Оценка: хорошо
decim про Ансари: Цивилизация рассказчиков: как истории становятся Историей [litres] (История, Публицистика, Обществознание)
31 10 За несколько веков на кострах были сожжены десятки тысяч ведьм" - автор повторяет кровавый навет протестантов на католиков, пошедший со времени соперничества Англии и Испании, и убедительно расписанный Шарлем де Костером. ……… Оценка: плохо
udrees про Кронин: Замок Броуди [litres] [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Кронин: Замок Броуди [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Дебрецени: Холодный крематорий. Голод и надежда в Освенциме [litres] (Биографии и Мемуары, Публицистика)
30 10 Жутковатая книга про жизнь в лагере смерти, написана со всеми подробностями, ужасами быта, зверствами, убийствами. Поражает, что хотя Освенцим советские войска освободили еще в конце февраля 1945 года, тем не менее автор книги ……… Оценка: хорошо
udrees про Быкова: Самостоятельный ребенок, или Как стать «ленивой мамой» (Педагогика, Детская психология)
30 10 Книга психолога о том как можно воспитать самостоятельного ребенка. Инструкции и советы интересные, жалко что требуют много времени и усилий. Я думаю не каждая мама и тем более папа смогут иногда терпеть мнение ребенка, но ……… Оценка: хорошо
udrees про Быкова: Развивающие занятия «ленивой мамы» (Педагогика, Детская психология)
30 10 Простенькое пособие для мам как развлекать своих маленьких детей, какие придумать, использовать игры, которые улучшат память, мышление, воображение, сделают творческой и самостоятельной личностью. В принципе все эти игры реальны ……… Оценка: хорошо |
Комментарии
Отв: Координация сканирования и вычитки
(кагбэ между прочим) А у меня опять выходные...
Отв: Координация сканирования и вычитки
Там laurentina1 ждёт-не дождётся какую-ту книгу. ;)
Отв: Координация сканирования и вычитки
Мне проще делать это, и еще многое другое скриптом EmEditor, который абсолютно нагляден, прост, дополняется по мере вычитывания книг, поскольку можно включать новые и новые ошибки.
Вот кусочек этого скрипта:
\!\l - поиск восклицательный знак-нижний регистр
\?\l - поиск вопросительный знак-нижний регистр
\!\u - поиск восклицательный знак-верхний регистр
\?\u - поиск вопросительный знак-верхний регистр
Отв: Координация сканирования и вычитки
Мммм...
Это, во-первых, ещё одна программа, которую нужно запускать. А во-вторых, в ФР у Вас есть возможность сразу сравнить с исходным текстом. С моей точки зрения, это громадное преимущество по сравнению с другими программами.
А что значит в этом скрипте "нижний/верхний регистр"?
Отв: Координация сканирования и вычитки
!а ?а !А ?А
Зачем мне вычитывать глазами технические ошибки OCR FR, если скрипт это сделает быстрее и надежнее? Учитывая, что FR способен насажать уйму собственных ошибок, без всяких указаний на таковые. Лучше я потрачу время именно на вычитывание, то бишь на смысловые ошибки, которые не выявит ни один из существующих редакторов.
Отв: Координация сканирования и вычитки
Тогда я не поняла, что именно он ищет. Мы, кажется, говорили о склеенных абзацах?
Конечно. Если у Вас есть скрипт, который исправляет технические ошибки OCR (мы ведь не о "Поиске по регэкспам" в ФБЕ говорим, не так ли? Хотя он делает именно это), то быстрее скрипт это сделает ужо всяко. Насчёт надёжнее не знаю, надо сравнивать.
"Смысловые ошибки" - это я опять не поняла. Вы про вычитку текста, что ли?
Отв: Координация сканирования и вычитки
Ищет нечто вроде опе!чатка или А?збука. Такие ошибки бывают, а что до абзацев, то там анализ идет по регистру буквы/запятой/ и следующему Enter, или дефис-Enter, или Enter-дефис, когда FR вместо тире лепит дефис в прямой речи. Я же говорил, это только кусочек для примера, на самом деле, в скрипте длииииная строчка, которая постоянно пополняется.
Да. Где поезд поет вместо ухода :-)
Отв: Координация сканирования и вычитки
Поскольку народ проявил некоторый, хотя и очень робкий интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor, вот реальный пример, который можете использовать, добавляя или убавляя необходимое:
[^а-яА-Яa-zA-Z0-9\s\.\,\—\?\!\-\*\(\)\«\»\;\:]
При поиске с данным скриптом пропускаются все русские буквы (оба регистра, кроме ё), все латинские буквы (оба регистра), все цифры, пробелы, точки, запятые, тире, вопросительные и восклицательные знаки, дефисы, "звездочки", скобки, кавычки, точки с запятой и двоеточия. Остальные знаки будут подсвечены. Если что-то нужно добавить или убавить, это легко делается, ибо наглядно. Знак ^ в начале служит отрицанием, то есть, ^а-я - НИ одна из букв русского алфавита (кроме ё) в нижнем регистре и т.д. При добавлении любого другого знака, перед ним ставится \ (бэкслэш). Допустим, нужно исключить из поиска апостроф, это будет так: \'
По мере отработки скрипта, продолжение следует...
Отв: Координация сканирования и вычитки
GMAP, Вы так свой продукт рекламировать собрались?
Отв: Координация сканирования и вычитки
Угу. А еще ФайнРидер, АфтерСкан, ОРФО, Ворд, WinXР и еще мно-о-ого чего по части своего программного обеспечения. Можно было сразу догадаться и не напрягать себе топтанием батонов.
Отв: Координация сканирования и вычитки
*зевая* Этого продукта все равно нет
на рынкев сборке FBE. Так что его синтаксис как-то... Пусть хоть обрекламится.Отв: Координация сканирования и вычитки
Иногда у сканировщиков возникают ситуации, когда отсканировано много книг, и непонятно, кто и когда их будет распознавать, верстать и вычитывать. Ну, или просто нашёлся скан, которым самому заниматься неохота или руки не доходят, а отдать некому.
Предлагаю рассмотреть возможность выкладывать сканы на стадии "отсканировал". Наверное, в виде единого архива.
Соответственно, сканы может скачать любой зарегистрированный user, доступившись к карточке книги.
После того, как книга залита сканы можно будет с сайта убрать и слить в долговременное хранилище, на тот случай, "чтобы были".
Думаю, что выгоды от реализации такого предложения будет достаточно: во-первых, затраченный на сканирование труд гарантированно не пропадёт и будет использован теми, кто однажды начнёт распознавать и верстать книгу, а во-вторых постепенно появится хранилище сканов, которые можно будет использовать при последующей вычитке.
Отв: Координация сканирования и вычитки
Ничего тут не гарантировано. Люди скачают, и будут читать со сканов. Или засунут в FR, быстро конвертнут в док/фб2, прочтут книгу как есть, с ошибками, да и удалят. Если вы не против такого обращения со своими сканами, то вольному - воля.
А насчет хранилища... могу слить туда штук 400x200мб=80гб. Кто-то готов расшарить под меня 80 гигабайт на случай, если вдруг когда-нибудь кто-нибудь что-нибудь захочет вычитать?
Отв: Координация сканирования и вычитки
1) Сто человек скачают-прочитают-выкинут, а сто первый сделает книгу. Я лично не против.
2) 80 Гб - это не много. Это очень даже МАЛО. При этом не забывайте, что сканы от уже выложенных книг хранить на сервере не нужно. Они должны подниматься по запросу на последующую вычитку.
3) Если идея приемлема в принципе, то предлагаю (товарищу под ником larin) реально оценить общую потребность в физических ресурсах (storage) и сообщить мне цифру (money). Дальше обсудим, стоит ли овчинка выделки.
Отв: Координация сканирования и вычитки
Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.
Отв: Координация сканирования и вычитки
Возможно, я невнятно изложил своё предложение. Попробую пояснить.
Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.
Отв: Координация сканирования и вычитки
Ясно. Не противник вашей идеи, но сильно сомневающийся. Успехов.
И вряд ли мы найдем такого человека/человек, которые будут хранить и выдавать сканы.
-------
В качестве идеи (или в порядке бреда?). Сделать отдельный ресурс: библиотека сканов. С сылкой на либрусеке на этот ресурс.
В карточку постить ссылку на этот ресурс (вручную?). Еще можно сделать ссылку на странице книги на Л: "у этой книги имеются сканы".
Основная проблема: диски. Потому что идея эта носится в воздухе. И не реализовано до сих по причине деньгозатратности, видимо.
ЗЫ. Сканы сканам рознь. Если мои весят 200 мб. на книгу, то скачал сейчас не свои фотосканы - 700 мб. на книгу 440 страниц.
Отв: Координация сканирования и вычитки
лично я все сканы перевожу в джвю, размеры до 100 мег (самый большой был) и храню на двд-болвашках... на всякий пожарный т.с.
это раньше - стирал... :(
Отв: Координация сканирования и вычитки
Не так давно проносился слух, что на либрусеке теперь не только текстовые, но и аудиокниги будут. Одна аудиокнига - от 200 до 1000 метров, то есть, сравнимо со сканом. Так что я не думаю, что диски - это основная проблема. Основатель википедии на возражения, касающиеся ограниченности места, всегда отвечал "hard disks are cheap". Проблема, да, но не основная. Просто, я думаю, что хранение аудиокниг привносит в библиотеку новое измерение, а вот новаторство хранилища сканов не так очевидно.
И вообще, у нас тут сообщество энтузиастов. Кому сильно захочется, тот и бумажную книжку купит, чтобы особо грязный текст вычитать. Я лично так делал уже не один раз.
Отв: Координация сканирования и вычитки
Мне, честно говоря, идея тоже не кажется очень привлекательной, но обсудить можно - вдруг Ларин захочет осуществить. В-)
Первым же пунктом: зачем хранить сканы после заливки книги? Достаточно хранить pdf или djvu, сделанные из сканов. Объём минимум раз в 10 меньше.
Отв: Координация сканирования и вычитки
Не каждый может сделать такой красивый pdf, как ты :)
Наверное надо разделить вопросы, чтобы что-то решить.
1. Главный: Нужна ли библиотека сканов тех книг, которых нет. Надо ее делать? как?
2. Второстепенный. Нужна ли библиотека сканов или pdf/djvu файлов уже сделанных книг? Как ее сделать?
Отв: Координация сканирования и вычитки
А что мешает человеку, желающему с книгой ознакомиться раньше, обратиться к верстальщику. Один отсканировал, второй сверстал, третий (видимо, желающий книгу) вычитал. При других обстоятельствах сомнительная перспектива.
Отв: Координация сканирования и вычитки
А идея неплоха, часто требуется скан, которого уже нет, стерт. Только где сделать такое хранилище?
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
VolgoDon, а что Вам мешает потестировать свою идею? Это вам сканы девать некуда? Если речь о ваших сканах, так постите ссылки на файлообменники в карточках, и понаблюдайте в течение пары месяцев - сколько скачивают, и сколько сканов превратилось в книги. Может оно того и не стоит. И лучше как сейчас некоторые делают - пробовать через форум пристраивать.
Отв: Координация сканирования и вычитки
Мешает то, что я не сканировщик. Я - user чужих сканов. Беру у тех, кто пристраивает через форум. Или просто вычитываю книги, залитые другими.
Отв: Координация сканирования и вычитки
Давайте оценим расходы.
1) Пусть в работе одновременно 3000 карточек. По 1 Гб на книгу. Итого 3 Тб дискового пространства на сервере. Цена этого счастья 300 USD одноразово.
2) Пусть в месяц делается 3 000 новых книг. Итого 3 Тб Blu-Ray дисков. Или 120 Blu-Ray болванок. Я не знаю сколько они стоят оптом. Но допустим, 1 USD. Итого 120 USD в месяц.
Подправьте расчёты, если я в чём-то ошибаюсь.
Отв: Координация сканирования и вычитки
Книги делает/вычитывает довольно узкий круг людей, у каждого своей работы хватает, и делать хранилище сканов в расчете на гипотетического помощника, который возможно захочет что-то вычитать - затея сомнительная. На практике -проще найти помощника через форум.
Мой вариант - распознать и сделать фб2, текст, и пдф с распознанным слоем. Все делается в одной программе(файнридер), фоном к основной работе на компьютере. Занимает мало места, можно хранить до оказии, или отдать на вычитку(если повезет и найдется охотник.).
Отв: Координация сканирования и вычитки
Давайте оценим риски.
1) Копирастия набирает обороты.
Как бы далеко не находился Эквадор, разумно ли подвешивать еще одну приманку в виде хранилища сканов?
2) Оборудование ломается.
Что если диски посыпятся? Возможно ли полное восстановление утраченной информации? Сколько сканов пропадет безвозвратно?
Отв: Координация сканирования и вычитки
как вариант заводить сканировщикам фековые акки на дропбокс/яндексдиск и т.п. и давай в карточках уже ссылки на файлы с них.. Правда я не помню есть там ограничение на период хранения или нет)
Кажется на Ф., пол года - год назад, кто то создавал темку что собирает сканы книг, но щас её откопать думаю проблематично будет(
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Мне кажется, тема форума о предоставлении сканов должна быть одна: "Я такой-то предлагаю сканы..." и давать ссылку на свой блог или другую тему форума. И закрепить эту тему где-нибудь на видном месте. А то действительно, некоторые темы о предоставлении сканов затерялись.
Отв: Координация сканирования и вычитки
Самая лучшая идея, на мой взгляд. И вынести эту тему туда же, где темы о вычитке и т.п. Чтоб было наглядно и доступно
Отв: Координация сканирования и вычитки
На сканировщика, правда ляжет труд следить:
1) какие сканы отданы в работу и кому, а какие продолжают ждать своего распознавателя-верстальщика
2) действительно ли тот, кто взял скан, работает над ним. И если признаки работы отсутствуют - надо искать нового распознавателя
3) какие сканы обработаны, и заботиться о них в дальнейшем не нужно.
Короче говоря, это вся та работа, которая выполняется "Координацией сканирования и вычитки". При небольшом количестве сканов её можно проводить вручную. Как только сканов станет больше, начнутся проблемы с каждым из этапов.
Отв: Координация сканирования и вычитки
Да. Предложение хорошее. Согласен.
Отв: Координация сканирования и вычитки
отдельную ссылку после Сканирования и Вычитки или сверху между Блоги и Форумы
что-то типа "Сканы" (хинт - предлагаю готовые сканы в обработку)
а вот как следить, работает ли человек над сканом или просто выпросил читать?
Отв: Координация сканирования и вычитки
В качестве иллюстрации карточек, работа над которыми не может продолжаться из-за отсутствия сканов
http://lib.rus.ec/node/312403
Отв: Координация сканирования и вычитки
Поподробнее можно... Каким способом это сделать? Нагрянуть домой с проверкой?
Отв: Координация сканирования и вычитки
Мне кажется, карточки, находящиеся без движения больше года, автоматически должны аннулироваться. А то карточек становится всё больше и полный список делается необъятным. Висит такая карточка, книга вроде делается, а на самом деле о ней уже давно все забыли.
Отв: Координация сканирования и вычитки
Не, такого не надо. Книги быстро-то не делаются. Я, например, помню, что просил, вычитываю, отсканировал. Тогда непонятно будет у кого, что есть. Например, не нашлось времени за год у сканировщика взять книгу, а другой не взялся. А у меня через год нашлось время.
Отв: Координация сканирования и вычитки
Если в карточке есть какой-нибудь статус, то да. А простые "заявки", на которые никто не среагировал, нужно удалять. Это лишний балласт, тут я согласна с Алексеем_Н.
Отв: Координация сканирования и вычитки
Без статусов, согласен.
Отв: Координация сканирования и вычитки
Да и с карточками со статусом тоже надо что-то делать, если они лежат без движения больше года. Конечно же, не надо их удалять. Но вот написать в личку сообщение такого типа было бы неплохо:
Я не испытываю иллюзий, что такая напоминалка что-то сильно изменит, но и недооценивать её тоже не следует.
Отв: Координация сканирования и вычитки
Присоединяюсь. Пустые карточки-заявки нужно периодически удалять.
Да никак. Все на доверии и здравом смысле, и гарантий никто не дает. Человек которому ты отдаешь книги может пропасть, книга может всплыть где угодно и в каком угодно виде. У кого-то действительно форс-мажор, и книга зависает на неопределенное время, кто-то тупо взял "на почитать" и большего ему не нужно. Риск есть всегда, поэтому этот сервис вспомогательный, да и сама идея следить за кем-то мне странна.
Отв: Координация сканирования и вычитки
Что значит возобновить или передать другому. Заявка, она и есть заявка. Или выполняется, или удаляется.
На практике, если книга по заявке не появляется в течение полугода, ее появление в интернете становится чисто вероятностным, как и у тысяч других книг. И заявка, в это смысле, ничего не решает.
Повторюсь, речь идет о пустых карточках-заявках.
Отв: Координация сканирования и вычитки
Много ли книг сделано по пустым карточкам-заявкам... наверное только случайные совпадения... если отданы сканы в работу - по моему через пару месяцев стоит поинтересоваться как идут дела. А если "пользы" у человека нет - то вообще не стоит сканы высылать... ясно что ничего не умеет.
Отв: Координация сканирования и вычитки
А еще бывает, что книга уже выложена, а карточка со статусами продолжает висеть. Хорошо, если кто-то случайно это обнаружит и удалит карточку, но в ряде случаев это так и может остаться незамеченным.
Отв: Координация сканирования и вычитки
После добавления книги выдается: книгу давно уже ждут и два поля, одно уже со ссылкой на залитую книгу. Во второе вносишь её же, карточка вроде закрывается, но потом смотришь в Сканировании и вычитке - нет. Приходится и там закрывать... Не знаю, у кого как, я у меня так постоянно почему-то...
Отв: Координация сканирования и вычитки
Не нужно второму полю уделять внимание если первое верное.
Отв: Координация сканирования и вычитки
вы не поняли... у меня почему-то выдает два одинаковых поля lib.rus.ec/b/пусто и скажем lib.rus.ec/b/хххххх со ссылкой на свежезалитую книгу... заполняй верхнее, не заполняй, всё равно идёшь на сканирование и вычитка и видишь висящую карточку с пустым полем-ссылкой...
поэтому я сразу иду туда и там даю ссылку на книгу (для закрытия карточки)
Страницы