(OMG!) Координация сканирования и вычитки - черт ногу сломает

Когда у меня есть свободное время, я сканирую\распознаю\верстаю fb2.
Ребят, функционал "Координация сканирования и вычитки", назовем КСВ, - это просто песня и настоящий квест.
Это просто классический пример как нельзя делать интерфейсы.
Вся фишка в том, что нихрена не понятно, при этом каждый день на работе мне встречаются и более сложные квесты, типа разбор чьего-нибудь asm кода.

Насколько я понимаю ЦЕЛЬ этой фичи - в том, чтобы быстро найти книжную работу - сканировать, распознать, вычитать, исправить битый fb2 итп. с регистрацией того, кто будет ее делать, а также для того, чтобы не пересекались работы, т.к. чтобы Вася не делал ту же книгу, что делает сейчас Петя.

Возможно конечно преследовались другие цели, к примеру ТОЛЬКО сбор статистики работы - тогда да (сарказм), этот функционал полностью покрывает цель, т.к. сколько я не рылся, я видел только одну статистику - кто че сделал.
Но все таки меня терзаю смутные сомненья, что такой громоздкий и "грандиозный" GUI придумали не только для статистики, постоянная ссылка вверху как бы тоже намекает.

Итак подробно:
Я ищу что бы сделать. Открываю, первое что я вижу громадный фильтр, - все радиобатоны установлены на "Любой" т.к. я вижу это "впервый раз", я не могу точно предсказать что же покажет фильтр, но RB "любой" как бы намекает что мне покажут "свободные" файлы (т.е. Книги которые НЕ достали) - т.к. первая цель КСВ именно найти НЕ занятую кем то работу (я сомневаюсь, что юзеры заходят туда, чтобы насладиться никами людей, которые сейчас "достают").

Первая ошибка в том, что фильтр (значение "любое" на все колонки) находит людей которые:
1. достают (??) 2. могут сверстать 3. достали 4. сканируют
Больше ничего.
Из всех предложенных вариантов, логичным выглядит ни один вариант. Понятно почему?!
Т.к. я не могу начать работу, которую ищу здесь, но я конечно рад что кто-то, где-то достает бум. книгу (а не требует чтобы кто-то ее нашел), верстает fb2 (а не просит чтобы кто то сверстал), достал (но не отсканировал блеать!), сканирует (но еще не отсканировал блеать!). Но мне это как то   до ж  неинтересно.

Ок, давайте поиграемся с фильтром. Моя цель найти: 1. Готовый скан 2. Электронный текст НЕ в книжных форматах (doc, rtf).
Я обрадованно заметил колонку Распознать, со значениями могу, распознаю, распознал. В ту секунду я даже не представлял, какое меня ждет разочарование..
Как же удобно они сделали, - подумал я, нажимая "Распознать" > могу (в надежде что мне фильтр даст список заявок-книг, которые нужно распознать и из которых я смогу выбрать нужную).
Как же я удивился, когда мне просто показали ники тех, кто... просто "может".


Next
Если бы моя цель была достать, то я бы выбрал.... что же выбрать то. Эмм..
Дано:
Я хочу достать книжку.


Достать :
1. Нет (Нет книжки? Нет заказчика? Нет того кто будет искать?
2. Есть (аналогично )
3. Могу (достать)
4. Достаю - могу достать и достаю это по факту одно и то же
5. Достал


Так еще раз, прочитаем все пункты...
А может это (про вариант НЕТ и вариант ЕСТЬ )... боже мой, это же бл логическая(!) конструкция: "if not (Есть or могу or достаю or достал)"! И означает отсутствие всех указанных статусов).

Как хорошо что у меня тех. специальность, будь я гуманитарием, я б потратил еще 20-30 минут или просто забросил бы.

Итак после 5 минут трехэтажных натягиваний нервов (т.е. методом тыка, не того результата и снова тыка), я наконец понял как найти нужное.


По логике вещей нужно сделать следующее:
Достать = любой (ну хоть в этом случае фильтр понимает приоритеты)
Сканировать = отсканировал
Распознать = нет (всмысле никто не взял работу - так и напишите чтоли, чтоб не гадали)
Вычитать = нет
Сверстать = нет


Жмем "фильтровать", и аллилуйя!, нам показывается список книг, которые народ уже достал и отсканировал.
Заходим в задание, и ищем pdf - где же он, тут нету, может зайти на автора, кликаем по автору, ищем название книги в списке его книг, странно нету... (http://lib.rus.ec/node/472579) Зато ниже пишется что книга в работе.
Вернемся обратно, а наверное надо нажать "Могу распознать"! и тебе сразу дадут. Тоже нихрена, почитаем.... ниче не написано, зайдем на ник того кто "распознал" может там список - нету...


Основная мысль сего сабжа: Я не нашел pdf\djvu\doc\fb2 итп файла (ни одного) - его нигде нет, хотя статус о том что он отсканирован есть. . Сейчас я, как и раньше, захожу в поиск выбираю pdf понравившийся и уже с ним работаю. Сейчас КСВ тупо работает как сервер статистики, а тратить время чтобы "вписать наши имена" —   нах  не вижу смысла.
На данный момент эта фича полезна только тем, кто достает, они могут отследить заявки, выполнить их и отметиться - остальным же (сканировать\распознать\вычитать\сверстать) — только для статистики.


***
— Все, я устал, я ухожу..
— А может написать в бложик?..
— Ну его, время тратить, и без этого куча работы..
— Ну может кому то поможет эта инфа, а кого то может пнут хорошенько, чтобы не ставил ссыль с недоделанным инструментом на главную..
— А может он работает, но в каких то других измерениях? Как пишет физик-теоретик Хокинг - мол видишь суслика? И я не вижу, но квантовая теория поля доказывает что он там есть...


Сори за ошибки, проверять лень\спешу\села батарея\и вообще пробки.

Комментарии

Аватар пользователя Isais

1) Оно, конечно, караул, но не караул-ужас-убивают. Гуманитарий (то бишь я) с двух пинков находит. Если не лень.
2) А варианты? Т.е. спасибо, что поделились эмоциями, но... других межсайтовых сервисов по информированию о верстке fb2 что-то не наблюдается. Будет где-то более удобная, дружелюбная и неглючная страничка с такой инфой - все будут ходить туда, http://lib.rus.ec/ocr тихо увянет; но пока же нет(?).

Длинно как-то все.
Есть, наверно, минусы в координации. Почему бы не предложить решение по улучшению?

Цитата:
Основная мысль сего сабжа:[/] Я не нашел pdf\djvu\doc\fb2 итп файла (ни одного) - его нигде нет, хотя статус о том что он отсканирован есть. . Т.е. по факту я по старинке захожу в поиск выбираю pdf понравившийся и уже с ним работаю. Сейчас КСВ тупо работает как сервер статистики, а тратить время чтобы "вписать наши имена" —   нах  не вижу смысла.

Основная мысль сервиса: "я купил, покупаю, сканирую книгу. Ребята, если вам это интересно, то сообщаю об этом, можете не тратить деньги на эту же книгу, а купить другую. Но если вам нефиг делать, то покупайте такую же, фиг с вами, дублируйте мою работу". Деньги сэкономить и друг друга не дублировать - основная мысль. А по всем интересующим вас вопросам вы можете списаться в личку с человеком, нафигачившим статусы в карточке.
Отличный сервис, вообще-то. Чего не устраивает - не вкурил.

Хороший сервис, если разобраться:) Вообще можно поиграться ещё со ссылками напротив позиций: Книги в работе, Заказы, Статусы.

Например, нужны нулевые карточки без статусов. Смотрим позицию - Заказы, жмем, например, По поступлению и вуаля - http://lib.rus.ec/ocr/null

Получили список нулевых карточек. Можно и другие ссылки напротив позиции "Заказы" понажимать. Фильтры это для карточек со статусами.

Цитата:
Основная мысль сего сабжа: Я не нашел pdf\djvu\doc\fb2 итп файла (ни одного) - его нигде нет, хотя статус о том что он отсканирован есть.

Мысль хорошая, но этого не было в ТЗ при создании сервиса.
Обычно решалось и решается в личке. Без ОМГ и громких стенаний на форуме.

А искать книги не в текстовых форматах для конвертации вообще не тут нужно. Они в книгах уже, и можно выбрать любой файл, скачать и конвертнуть. Если конечно его еще не конвертнули до.
Я в основном достаю и сканирую книги. И мне удобнее оставить статус, а не файл. Увидев статус Отсканировал, чел придет ко мне в личку и я адресно пошлю ему сканы. А не вывалю в пространство инета в надежде, что кто-нибудь когда-нибудь их возьмет в работу.

Цитата:
А не вывалю в пространство инета в надежде, что кто-нибудь когда-нибудь их возьмет в работу.

1. Не надо вываливать куда-то. Нужно просто залить pdf\djvu (или на худой конец 7z пак с jpeg картинками, по размеру он еще меньше pdf) на либрусек в список книг автора - это в идеале.
Кстати ежедневно на либрусек заливается куча pdf книг. Найти их можно через поиск, логично и необходимо чтобы КСВ был связан с такими файлами. Человек интуитивно подразумевает связь с файлами сканов, когда видит КСВ.
Обращаться к кому то, чтобы выслали скан - это долго (пока человек прочитает, ответит, зальет - в среднем мин. сутки), у большинства свободное время есть сейчас, когда он зашел на либрусек, в поисках файла для работы (выходные например), вечером или завтра его уже может не быть.

Цитата:
в надежде, что кто-нибудь когда-нибудь их возьмет в работу.

А что с системой координации какая то другая надежда появляется? :) Все тоже - "в надежде что кто-нибудь когда-нибудь их возьмет в работу".
Понятно что КСВ+ файлы намного удобнее -- упорядоченная статистика с заявками + удобство работы и приоритеты (кто -то попросил вычитать fb2 или распознать pdf итп ) - чтобы работы не пересекались, иначе надежды нет.

Имхо тогда нужно написать так: Координация сканирования и вычитки (только статистика)..

Еще раз:
На данный момент эта фича реально полезна только тем, кто достает, они могут отследить заявки, выполнить их и отметиться - остальным же (сканировать\распознать\вычитать\сверстать) — только трата времени для добавления своей статистики в КСВ.
Трата - потому что средняя, ненаучная книга (с готового хорошего скана) делается за вечер (включая программную вычитку). Поэтому смысла регистрироваться на распознавание там нет.
Но КСВ служил бы хорошей системой для поиска приоритетных книг, которые нужно распознать\исправить (для поиска заявок).


P.s. Кстати, тот кто достает книгу, обычно ее и сканирует. Имхо пункты Достать\сканировать нужно объеденить, также как и пункты "могу достать" и "достаю".

Psychedelic написал:

А что с системой координации какая то другая надежда появляется? :) Все тоже - "в надежде что кто-нибудь когда-нибудь их возьмет в работу".

Я обычно сканирую книги, судьба которых мне не безразлична. Стало быть, если долго не найдется желающий забрать сканы, я сделаю их сама. Опять же, отдавая сканы одному человеку, я почти уверена, что книгу сделает он. Оставляя их в сети/библиотеке, я не знаю, кто их взял, взял ли кто. Многим (в т.ч. мне) лень отмечаться в карточках, так вполне возможна ситуация, что несколько человек скачают мои сканы и будут делать задвоенную работу. В общем, мне нравится так, как сейчас, с небольшими недостатками, но в целом все устраивает.

Напомню еще раз: в первую очередь, сервис создан для удобства и минимизации трат времени/денег сканировщиков, а не для тех, кто хочет "вотпрямщас" что-нибудь вычитать.
Чаще всего пдф остается сырым полуфабрикатом, потому-что книги на вычитку берут или уже распознанные, или в сканах. Перераспознавать пдф заново занятие бессмысленное и глупое. То-же самое можно сказать о выкладывании сырых пдф и сканов в библиотеку(откуда они обязательно расползутся по сети.) С таким же успехом можно выкладывать невычитанные фб2 болванки сразу из ФайнРидера...
Естественно я не имею в виду те книги которые предназначены для выкладки в пдф.

Если кто-то хочет вычитать книгу - он маякнет в личку. Нет - значит ему это не так важно.
К тому же в координации участвует много других библиотек, и существующий порядок вещей, может быть и неидеальный, всех устраивает. Делать все красиво и удобно лично для вас , никто не будет.

XtraVert написал:
Напомню еще раз: в первую очередь, сервис создан для удобства и минимизации трат времени/денег сканировщиков, а не для тех, кто хочет "вотпрямщас" что-нибудь вычитать.

+500!

Это была основной идеей, и она отлично работает.

Желающие конвертировать/вычитывать могут воспользоваться инструментами по закладке Статистика.
Выбрав тип файла, можно найти книги для конвертирования (если целесообразно).
Выбрав оценку файла, можно найти книги для вычитки.

Или заглянуть на Максиму:
Список запросов на конвертацию
Список запросов на вычитку

Файлы, как правило, в обеих библиотеках идентичные.

Цитата:
Перераспознавать пдф заново занятие бессмысленное и глупое. То-же самое можно сказать о выкладывании сырых пдф

Я может вас удивлю, большинство сканов художки в pdf\djvu - это именно не распознанный pdf, в pdf его собирают для удобства - чтобы сканы были в одном файле, и все сканы можно быстренько смотреть.
Наоборот распознавать в худ книге текст сохраняя его в отдельном слое в контейнере pdf -- это глупое занятие если вы делаете так, не делайте, - вы тратите свое время.
Т.к. во первых этот распознанный текст все равно не вытащишь без слитых абзацев, потерянного курсива, жирности и сносок(FineReader во время распознавания сноски определяет автоматом, и сохраняет их в fb2 как сноски) .
Во вторых распознают его тяп-ляп, "по-бырику", полагаясь на автомат, без шаблонов обучения и подстройки под язык - короче с кучей ошибок.
Поэтому в любом случае (что со слоем текста, что без) pdf, будущий fb2\epub итп, все равно нужно распознавать.

Цитата:
Я может вас удивлю, большинство сканов художки в pdf\djvu - это именно не распознанный pdf, в pdf его собирают для удобства - чтобы сканы были в одном файле, и все сканы можно быстренько смотреть.

Вы мне прямо глаза открыли...
Цитата:
Наоборот распознавать в худ книге текст сохраняя его в отдельном слое в контейнере pdf -- это глупое занятие если вы делаете так, не делайте, - вы тратите свое время.
Т.к. во первых этот распознанный текст все равно не вытащишь без слитых абзацев, потерянного курсива, жирности и сносок(FineReader во время распознавания сноски определяет автоматом, и сохраняет их в fb2 как сноски) .
Во вторых распознают его тяп-ляп, "по-бырику", полагаясь на автомат, без шаблонов обучения и подстройки под язык.
Поэтому в любом случае (что со слоем текста, что без) pdf, будущий fb2\epub итп, все равно нужно распознавать.

Давайте я вас тоже удивлю. Текст из пдф можно не вытаскивать. Можно (та-даам!) прямо из ФР сохранить его в в любом другом формате с сохранением форматирования, курсивов, сносок и т.д. А пдф остается лишь подспорьем.
Впрочем, делайте так, как привыкли.

Цитата:
Текст из пдф можно не вытаскивать. Можно (та-даам!) прямо из ФР сохранить его в в любом другом формате с сохранением форматирования, курсивов, сносок и т.д.

Ага-ага.
Сам Adobe Acrobat не может толково сохранить текст ИЗ pdf без искажений (абзацы), а все потому, что исходный текст (текстовый слой) там, как правило, делается полностью на автомате (без вычитки, без курсива и жирности, без размеров шрифтов и цвета.)
А нужен текстовый слой pdf для того (и он задумывался для этого), чтобы скопировать кусок текста в буфер.

Да кстати, даже если бы текстовый слой извлекался идеально, с курсивами без ошибок, без слитых абзацев, то остаются еще проблемы, который все перечеркивают -- сноски придется делать вручную, и главное - в текст добавляется нумерация страниц и колонтитул (надпись вверху-внизу с названием книги и автора). Искать их и удалять вручную оч. долго и нудно.


P.s. Сними галочку в FR с "Автоматически распознавать" - она по дефолту включена. Когда забрасываешь pdf он сразу анализируется и распознается (именно с картинки, не со слоя). Включи "Отключить анализ и распознавание".
Потом загрузи текстовый pdf и попробуй сохрани в текстовый формат и удивись в второй раз.

Дался вам этот пдф...
Мы, вроде, о сервисе координации говорили, не?

X