(OMG!) Координация сканирования и вычитки - черт ногу сломает | Либрусек

Вы здесь Главная » Блоги » Блог пользователя Psychedelic (OMG!) Координация сканирования и вычитки - черт ногу сломает Опубликовано пн, 05/08/2013 - 15:26 пользователем Psychedelic Когда у меня есть свободное время, я сканирую\распознаю\верстаю fb2. Ребят, функционал "Координация сканирования и вычитки", назовем КСВ, - это просто песня и настоящий квест. Это просто классический пример как нельзя делать интерфейсы. Вся фишка в том, что нихрена не понятно, при этом каждый день на работе мне встречаются и более сложные квесты, типа разбор чьего-нибудь asm кода. Насколько я понимаю ЦЕЛЬ этой фичи - в том, чтобы быстро найти книжную работу - сканировать, распознать, вычитать, исправить битый fb2 итп. с регистрацией того, кто будет ее делать, а также для того, чтобы не пересекались работы, т.к. чтобы Вася не делал ту же книгу, что делает сейчас Петя. Возможно конечно преследовались другие цели, к примеру ТОЛЬКО сбор статистики работы - тогда да (сарказм), этот функционал полностью покрывает цель, т.к. сколько я не рылся, я видел только одну статистику - кто че сделал. Но все таки меня терзаю смутные сомненья, что такой громоздкий и "грандиозный" GUI придумали не только для статистики, постоянная ссылка вверху как бы тоже намекает. Итак подробно: Я ищу что бы сделать. Открываю, первое что я вижу громадный фильтр, - все радиобатоны установлены на "Любой" т.к. я вижу это "впервый раз", я не могу точно предсказать что же покажет фильтр, но RB "любой" как бы намекает что мне покажут "свободные" файлы (т.е. Книги которые НЕ достали) - т.к. первая цель КСВ именно найти НЕ занятую кем то работу (я сомневаюсь, что юзеры заходят туда, чтобы насладиться никами людей, которые сейчас "достают"). Первая ошибка в том, что фильтр (значение "любое" на все колонки) находит людей которые: 1. достают (??) 2. могут сверстать 3. достали 4. сканируют Больше ничего. Из всех предложенных вариантов, логичным выглядит ни один вариант. Понятно почему?! Т.к. я не могу начать работу, которую ищу здесь, но я конечно рад что кто-то, где-то достает бум. книгу (а не требует чтобы кто-то ее нашел), верстает fb2 (а не просит чтобы кто то сверстал), достал (но не отсканировал блеать!), сканирует (но еще не отсканировал блеать!). Но мне это как то ~~до ж~~ неинтересно. Ок, давайте поиграемся с фильтром. Моя цель найти: 1. Готовый скан 2. Электронный текст НЕ в книжных форматах (doc, rtf). Я обрадованно заметил колонку Распознать, со значениями могу, распознаю, распознал. В ту секунду я даже не представлял, какое меня ждет разочарование.. Как же удобно они сделали, - подумал я, нажимая "Распознать" > могу (в надежде что мне фильтр даст список заявок-книг, которые нужно распознать и из которых я смогу выбрать нужную). Как же я удивился, когда мне просто показали ники тех, кто... просто "может". Next Если бы моя цель была достать, то я бы выбрал.... что же выбрать то. Эмм.. Дано: Я хочу достать книжку. Достать : 1. Нет (Нет книжки? Нет заказчика? Нет того кто будет искать? 2. Есть (аналогично ) 3. Могу (достать) 4. Достаю - могу достать и достаю это по факту одно и то же 5. Достал Так еще раз, прочитаем все пункты... А может это (про вариант НЕТ и вариант ЕСТЬ )... боже мой, это же бл логическая(!) конструкция: "if not (Есть or могу or достаю or достал)"! И означает отсутствие всех указанных статусов). Как хорошо что у меня тех. специальность, будь я гуманитарием, я б потратил еще 20-30 минут или просто забросил бы. Итак после 5 минут трехэтажных натягиваний нервов (т.е. методом тыка, не того результата и снова тыка), я наконец понял как найти нужное. По логике вещей нужно сделать следующее: Достать = любой (ну хоть в этом случае фильтр понимает приоритеты) Сканировать = отсканировал Распознать = нет (всмысле никто не взял работу - так и напишите чтоли, чтоб не гадали) Вычитать = нет Сверстать = нет Жмем "фильтровать", и аллилуйя!, нам показывается список книг, которые народ уже достал и отсканировал. Заходим в задание, и ищем pdf - где же он, тут нету, может зайти на автора, кликаем по автору, ищем название книги в списке его книг, странно нету... (http://lib.rus.ec/node/472579) Зато ниже пишется что книга в работе. Вернемся обратно, а наверное надо нажать "Могу распознать"! и тебе сразу дадут. Тоже нихрена, почитаем.... ниче не написано, зайдем на ник того кто "распознал" может там список - нету... Основная мысль сего сабжа: Я не нашел pdf\djvu\doc\fb2 итп файла (ни одного) - его нигде нет, хотя статус о том что он отсканирован есть. . Сейчас я, как и раньше, захожу в поиск выбираю pdf понравившийся и уже с ним работаю. Сейчас КСВ тупо работает как сервер статистики, а тратить время чтобы "вписать наши имена" — ~~нах~~ не вижу смысла. На данный момент эта фича полезна только тем, кто достает, они могут отследить заявки, выполнить их и отметиться - остальным же (сканировать\распознать\вычитать\сверстать) — только для статистики. * — Все, я устал, я ухожу.. — А может написать в бложик?.. — Ну его, время тратить, и без этого куча работы.. — Ну может кому то поможет эта инфа, ~~а кого то может пнут хорошенько, чтобы не ставил ссыль с недоделанным инструментом на главную~~.. — А может он работает, но в каких то других измерениях? Как пишет физик-теоретик Хокинг - мол видишь суслика? И я не вижу, но квантовая теория поля доказывает что он там есть... Сори за ошибки, проверять лень\спешу\села батарея\и вообще пробки. Блог пользователя Psychedelic Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано пн, 05/08/2013 - 15:55 пользователем Isais 1) Оно, конечно, караул, но не караул-ужас-убивают. Гуманитарий (то бишь я) с двух пинков находит. Если не лень. 2) А варианты? Т.е. спасибо, что поделились эмоциями, но... других межсайтовых сервисов по информированию о верстке fb2 что-то не наблюдается. Будет где-то более удобная, дружелюбная и неглючная страничка с такой инфой - все будут ходить туда, http://lib.rus.ec/ocr тихо увянет; но пока же нет(?). Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано пн, 05/08/2013 - 17:23 пользователем tvnic Длинно как-то все. Есть, наверно, минусы в координации. Почему бы не предложить решение по улучшению? Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано пн, 05/08/2013 - 17:32 пользователем niksi Цитата: Основная мысль сего сабжа:[/] Я не нашел pdf\djvu\doc\fb2 итп файла (ни одного) - его нигде нет, хотя статус о том что он отсканирован есть. . Т.е. по факту я по старинке захожу в поиск выбираю pdf понравившийся и уже с ним работаю. Сейчас КСВ тупо работает как сервер статистики, а тратить время чтобы "вписать наши имена" — ~~нах~~ не вижу смысла. Основная мысль сервиса: "я купил, покупаю, сканирую книгу. Ребята, если вам это интересно, то сообщаю об этом, можете не тратить деньги на эту же книгу, а купить другую. Но если вам нефиг делать, то покупайте такую же, фиг с вами, дублируйте мою работу". Деньги сэкономить и друг друга не дублировать - основная мысль. А по всем интересующим вас вопросам вы можете списаться в личку с человеком, нафигачившим статусы в карточке. Отличный сервис, вообще-то. Чего не устраивает - не вкурил. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано пн, 05/08/2013 - 19:58 пользователем sibkron Хороший сервис, если разобраться:) Вообще можно поиграться ещё со ссылками напротив позиций: Книги в работе, Заказы, Статусы. Например, нужны нулевые карточки без статусов. Смотрим позицию - Заказы, жмем, например, По поступлению и вуаля - http://lib.rus.ec/ocr/null Получили список нулевых карточек. Можно и другие ссылки напротив позиции "Заказы" понажимать. Фильтры это для карточек со статусами. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано пн, 05/08/2013 - 22:16 пользователем sem14 Цитата: Основная мысль сего сабжа: Я не нашел pdf\djvu\doc\fb2 итп файла (ни одного) - его нигде нет, хотя статус о том что он отсканирован есть. Мысль хорошая, но этого не было в ТЗ при создании сервиса. Обычно решалось и решается в личке. Без ОМГ и громких стенаний на форуме. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 03:18 пользователем Like Indigo А искать книги не в текстовых форматах для конвертации вообще не тут нужно. Они в книгах уже, и можно выбрать любой файл, скачать и конвертнуть. Если конечно его еще не конвертнули до. Я в основном достаю и сканирую книги. И мне удобнее оставить статус, а не файл. Увидев статус Отсканировал, чел придет ко мне в личку и я адресно пошлю ему сканы. А не вывалю в пространство инета в надежде, что кто-нибудь когда-нибудь их возьмет в работу. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 06:50 пользователем Psychedelic Цитата: А не вывалю в пространство инета в надежде, что кто-нибудь когда-нибудь их возьмет в работу. 1. Не надо вываливать куда-то. Нужно просто залить pdf\djvu (или на худой конец 7z пак с jpeg картинками, по размеру он еще меньше pdf) на либрусек в список книг автора - это в идеале. Кстати ежедневно на либрусек заливается куча pdf книг. Найти их можно через поиск, логично и необходимо чтобы КСВ был связан с такими файлами. Человек интуитивно подразумевает связь с файлами сканов, когда видит КСВ. Обращаться к кому то, чтобы выслали скан - это долго (пока человек прочитает, ответит, зальет - в среднем мин. сутки), у большинства свободное время есть сейчас, когда он зашел на либрусек, в поисках файла для работы (выходные например), вечером или завтра его уже может не быть. Цитата: в надежде, что кто-нибудь когда-нибудь их возьмет в работу. А что с системой координации какая то другая надежда появляется? :) Все тоже - "в надежде что кто-нибудь когда-нибудь их возьмет в работу". Понятно что КСВ+ файлы намного удобнее -- упорядоченная статистика с заявками + удобство работы и приоритеты (кто -то попросил вычитать fb2 или распознать pdf итп ) - чтобы работы не пересекались, иначе надежды нет. Имхо тогда нужно написать так: Координация сканирования и вычитки (только статистика).. Еще раз: На данный момент эта фича реально полезна только тем, кто достает, они могут отследить заявки, выполнить их и отметиться - остальным же (сканировать\распознать\вычитать\сверстать) — только трата времени для добавления своей статистики в КСВ. Трата - потому что средняя, ненаучная книга (с готового хорошего скана) делается за вечер (включая программную вычитку). Поэтому смысла регистрироваться на распознавание там нет. Но КСВ служил бы хорошей системой для поиска приоритетных книг, которые нужно распознать\исправить (для поиска заявок). P.s. Кстати, тот кто достает книгу, обычно ее и сканирует. Имхо пункты Достать\сканировать нужно объеденить, также как и пункты "могу достать" и "достаю". Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 08:41 пользователем Like Indigo Psychedelic написал: А что с системой координации какая то другая надежда появляется? :) Все тоже - "в надежде что кто-нибудь когда-нибудь их возьмет в работу". Я обычно сканирую книги, судьба которых мне не безразлична. Стало быть, если долго не найдется желающий забрать сканы, я сделаю их сама. Опять же, отдавая сканы одному человеку, я почти уверена, что книгу сделает он. Оставляя их в сети/библиотеке, я не знаю, кто их взял, взял ли кто. Многим (в т.ч. мне) лень отмечаться в карточках, так вполне возможна ситуация, что несколько человек скачают мои сканы и будут делать задвоенную работу. В общем, мне нравится так, как сейчас, с небольшими недостатками, но в целом все устраивает. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 06:50 пользователем XtraVert Напомню еще раз: в первую очередь, сервис создан для удобства и минимизации трат времени/денег сканировщиков, а не для тех, кто хочет "вотпрямщас" что-нибудь вычитать. Чаще всего пдф остается сырым полуфабрикатом, потому-что книги на вычитку берут или уже распознанные, или в сканах. Перераспознавать пдф заново занятие бессмысленное и глупое. То-же самое можно сказать о выкладывании сырых пдф и сканов в библиотеку(откуда они обязательно расползутся по сети.) С таким же успехом можно выкладывать невычитанные фб2 болванки сразу из ФайнРидера... Естественно я не имею в виду те книги которые предназначены для выкладки в пдф. Если кто-то хочет вычитать книгу - он маякнет в личку. Нет - значит ему это не так важно. К тому же в координации участвует много других библиотек, и существующий порядок вещей, может быть и неидеальный, всех устраивает. Делать все красиво и удобно лично для вас , никто не будет. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 07:33 пользователем golma1 XtraVert написал: Напомню еще раз: в первую очередь, сервис создан для удобства и минимизации трат времени/денег сканировщиков, а не для тех, кто хочет "вотпрямщас" что-нибудь вычитать. +500! Это была основной идеей, и она отлично работает. Желающие конвертировать/вычитывать могут воспользоваться инструментами по закладке Статистика. Выбрав тип файла, можно найти книги для конвертирования (если целесообразно). Выбрав оценку файла, можно найти книги для вычитки. Или заглянуть на Максиму: Список запросов на конвертацию Список запросов на вычитку Файлы, как правило, в обеих библиотеках идентичные. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 07:13 пользователем Psychedelic Цитата: Перераспознавать пдф заново занятие бессмысленное и глупое. То-же самое можно сказать о выкладывании сырых пдф Я может вас удивлю, большинство сканов художки в pdf\djvu - это именно не распознанный pdf, в pdf его собирают для удобства - чтобы сканы были в одном файле, и все сканы можно быстренько смотреть. Наоборот распознавать в худ книге текст сохраняя его в отдельном слое в контейнере pdf -- это глупое занятие если вы делаете так, не делайте, - вы тратите свое время. Т.к. во первых этот распознанный текст все равно не вытащишь без слитых абзацев, потерянного курсива, жирности и сносок(FineReader во время распознавания сноски определяет автоматом, и сохраняет их в fb2 как сноски) . Во вторых распознают его тяп-ляп, "по-бырику", полагаясь на автомат, без шаблонов обучения и подстройки под язык - короче с кучей ошибок. Поэтому в любом случае (что со слоем текста, что без) pdf, будущий fb2\epub итп, все равно нужно распознавать. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 07:26 пользователем XtraVert Цитата: Я может вас удивлю, большинство сканов художки в pdf\djvu - это именно не распознанный pdf, в pdf его собирают для удобства - чтобы сканы были в одном файле, и все сканы можно быстренько смотреть. Вы мне прямо глаза открыли... Цитата: Наоборот распознавать в худ книге текст сохраняя его в отдельном слое в контейнере pdf -- это глупое занятие если вы делаете так, не делайте, - вы тратите свое время. Т.к. во первых этот распознанный текст все равно не вытащишь без слитых абзацев, потерянного курсива, жирности и сносок(FineReader во время распознавания сноски определяет автоматом, и сохраняет их в fb2 как сноски) . Во вторых распознают его тяп-ляп, "по-бырику", полагаясь на автомат, без шаблонов обучения и подстройки под язык. Поэтому в любом случае (что со слоем текста, что без) pdf, будущий fb2\epub итп, все равно нужно распознавать. Давайте я вас тоже удивлю. Текст из пдф можно не вытаскивать. Можно (та-даам!) прямо из ФР сохранить его в в любом другом формате с сохранением форматирования, курсивов, сносок и т.д. А пдф остается лишь подспорьем. Впрочем, делайте так, как привыкли. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 14:35 пользователем Psychedelic Цитата: Текст из пдф можно не вытаскивать. Можно (та-даам!) прямо из ФР сохранить его в в любом другом формате с сохранением форматирования, курсивов, сносок и т.д. Ага-ага. Сам Adobe Acrobat не может толково сохранить текст ИЗ pdf без искажений (абзацы), а все потому, что исходный текст (текстовый слой) там, как правило, делается полностью на автомате (без вычитки, без курсива и жирности, без размеров шрифтов и цвета.) А нужен текстовый слой pdf для того (и он задумывался для этого), чтобы скопировать кусок текста в буфер. Да кстати, даже если бы текстовый слой извлекался идеально, с курсивами без ошибок, без слитых абзацев, то остаются еще проблемы, который все перечеркивают -- сноски придется делать вручную, и главное - в текст добавляется нумерация страниц и колонтитул** (надпись вверху-внизу с названием книги и автора). Искать их и удалять вручную оч. долго и нудно. P.s. Сними галочку в FR с "Автоматически распознавать" - она по дефолту включена. Когда забрасываешь pdf он сразу анализируется и распознается (именно с картинки, не со слоя). Включи "Отключить анализ и распознавание". Потом загрузи текстовый pdf и попробуй сохрани в текстовый формат и удивись в второй раз. Отв: (OMG!) Координация сканирования и вычитки - черт ногу ... Постоянная ссылка (Permalink) Опубликовано вт, 06/08/2013 - 14:34 пользователем XtraVert Дался вам этот пдф... Мы, вроде, о сервисе координации говорили, не?	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Isais RE:Катя Водянова - Дом и два жениха в придачу 9 часов Aleks_Sim RE:Подайте бедному копеечку на книжку с литреса... 13 часов Aleks_Sim RE:Прошу переформатировать, распознать, etc... 1 день kopak RE:Таинственная личность админа Флибусты 5 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 неделя Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 неделя Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 2 недели babajga RE:Белая княжна 3 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 3 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 3 недели zlyaka RE:С Новым годом! 4 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 4 недели SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц babajga RE:Лопоухий бес 1 месяц Впечатления о книгах decim про Р. Дж. Баркер 29 01 Хорошо, а местами и отлично. Было бы совсем отлично, если бы автор не растянул историю на три тома, но это обычное дело. mysevra про Баркер: Алые песнопения (Ужасы, Триллер, Детективы: прочее) 29 01 Как часть истории «Восставшего» - мило и познавательно. Но зачем такое изобилие обсценной лексики уличного разлива? Для реализьму, так сказать? Так у меня дл вас плохие новости, мои маленькие друзья, это лет 30 назад такое ……… lukyanelena про Гремучий ручей 29 01 Хотите серию про вампиров? Пожалуйста! Только забудьте про романтичные истории с загадочными красавцами и красавицами. Будет больно, будет страшно, будет неприятно, но я скорее поверю в таких тварей, чем в слащавых вампирчиков. Лысенко Владимир Андреевич про Земляной: Игровой практикум [СИ] (Боевая фантастика, Фэнтези, ЛитРПГ) 29 01 Книга понравилась, читается легко, жду продолжения. Оценка: отлично! Nicout про Сушков: "Ленинградское дело": генеральная чистка колыбели революции (Документальная литература) 29 01 Говорите, во время блокады Ленинграда руководство города голодало, как и остальные жители, а все рассказы про пирожные, колбасу и икру для коммуняк - вранье и клевета? Ну так прочтите что из себя представляли питерские деятели, ……… Оценка: отлично! Синявский про Николай Егорович Дронников 28 01 На 95-м году жизни скончался Николай Дронников - советский и французский художник, график, скульптор, прозаик и издатель авторских книг, "летописец русской эмиграции". ve51 про Чейз: Плоть орхидеи [The Flesh of the Orchid ru] (Крутой детектив) 27 01 Книга не входит в цикл "Дэйв Фэннер Skyns71 про Гузман: Тропой священного козерога, или В поисках абсолютного центра (Современная проза, Биографии и Мемуары) 27 01 Господи... Жизнеописание наркомана. sigor2000 про Бакман: Вторая жизнь Уве [En Man Som Heter Ove ru] (Современная проза) 27 01 Книга просто шикарна. По моему мнению в книге нет повесточки. Персонажи геи, мигранты это по факту то, что осталось от Швеции. Вместе со смерьтю ГГ умерла и та Швеция, которую мы знали, вот о чем пишет автор. Самое смешное, ……… Оценка: отлично! mysevra про Лэнган: Рыбак [The Fisherman ru] (Ужасы) 27 01 Хороший язык. Но, во-первых, рассказ выжившего - а как же интрига? А во-вторых - и это самое главное - к середине книги до жути я так и не добралась, зато узнала подробно о жене, алкоголизме и рыбалке. Подробно, многословно ……… Оценка: плохо Gilean про Бесноватый цесаревич 26 01 Тяжело читается, бросил на второй книге. Приехал в столицу - нагрубил, сослали. На придумывал ништяков позвали в столицу - нагрубил, сослали. Так и хочется вспомнить фразу - "украл, выпил в тюрьму" и так по кругу. Раньше ……… Barbud про Ратманов: Вперед в прошлое 7 (Попаданцы, Самиздат, сетевая литература) 26 01 ГГ тычется, как слепой щенок, пытаясь сделать что-то, что должно отсрочить или отменить войну в будущем. Не маялся бы дурью, а ехал в Питер - там в 93-м заммэра еще без серьезной охраны ходит. больше впечатлений