Вы здесьГоре оцифровщики или проблема соурсов
Опубликовано вт, 10/11/2009 - 10:52 пользователем Lord KiRon
В который раз сталкиваюсь с проблемой горе-оцифровщиков, сейчас это был "Владыка Сардуора" Зыкова - количество ошибок просто огромно, формат местами потерян полностью, местами у отдельных параграфов отсутствует конец (известный баг Файнридера) , кое какой текст повторяется 2 раза и т.д. ... Собственно попросту говоря файл не вычитали. Я не хочу наезжать на тех кто оцифровывал - иметь книгу даже в таком виде лучше чем вообще не иметь, однако передо мной возникла следующая проблема: А почему бы не завести возможность на Либрусеке например "присоединения" сканов к тексту книги?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Прошу переформатировать, распознать, etc... 4 часа
Telly RE:Подайте бедному копеечку на книжку с литреса... 1 день kopak RE:Таинственная личность админа Флибусты 2 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 дня Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 6 дней Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 неделя Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 неделя babajga RE:Белая княжна 2 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 2 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 3 недели zlyaka RE:С Новым годом! 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 недели SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц babajga RE:Лопоухий бес 1 месяц babajga RE:Ежик покидает дом 1 месяц Впечатления о книгах
Wik@Tor про Назимов: Имперский хакер (Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
26 01 Морские волны мерно ударялись о бунгало. Это как? Б/О
Skyns71 про Тютелов: Славянская здрава (Эзотерика, Здоровье)
25 01 Еще одна отчаянная попытка высосать из пальца "великое прошлое" и "тайны национальной эзотерики" - причем повторяя типично западноевропейскую моду. Только с отставанием примерно лет на сто.
Саша из Киева про Муранов: У світі водоспадів (Легенди і правда про водоспади) [uk] (Геология и география)
25 01 Эта книга в оригинале написана на русском языке. Неужели она была издана только в переводе на украинский?
Sello про Акопян: Кавалер Ордена Золотого Руна (Юмористическая проза)
24 01 Читать не буду, даже если выяснится, что написано божественным языком. Меня интересует другое: что за жлобство наблюдается в последнее время, привлекать к себе внимание, используя известные имена в литературе, тех, кто прославился ……… Оценка: нечитаемо
decim про Шамбаров: Почему мы дошли до Берлина? Параллельная история Второй мировой войны (Исторические приключения, О войне)
24 01 Популярно стало мымыкать от имени отцов и дедов - они сами уже ничего не скажут. И выглядит это как "позор джунглям!" из-за спины Шер-Хана...
Barbud про Рейхсфюрер 1943
23 01 Гм... "Первый том неоднократно удостоился сравнения с лучшими работами великого Олега Рыбаченко" - да уж, это такая рекомендация, что после нее все сомнения "читать-не читать" отпали начисто))
mysevra про Мори: Пустой человек (Космическая фантастика, Социальная фантастика, Ужасы)
23 01 Стóящий сборник, есть оригинальные истории, рассказанные хорошим языком. Но немного депрессивно; послевкусие от прочтения не приятно-жутенькое, а стыло-обречённое. Оценка: хорошо
Wild_XC70 про Дроздов: Интендант третьего ранга. Herr Интендантуррат [Дилогия] (Альтернативная история, Попаданцы)
22 01 Мне понравилось. Живой сюжет. Хороший слог. Оценка: отлично!
Wild_XC70 про Дроздов: Зубных дел мастер (Попаданцы, Самиздат, сетевая литература)
22 01 Начало интересное. Жду проду. Оценка: хорошо
Wild_XC70 про Дроздов: Командировка в ад [СИ] (Боевая фантастика, Приключения: прочее, Самиздат, сетевая литература)
22 01 Редкостное нечитабельное гуано. Писал не Дроздов а Матвиенко. Оценка: нечитаемо
Columbus про Мир вашему дому!
22 01 дядя_Андрей а ничего, что никаких "Татарстана, Хакассии, Мордовии, Удмуртии, Коми, Чувашии, Ханты-Мансийска" просто не существовало до прихода туда Русских людей? Не забудь об этом, когда будешь говорить о "покорении ………
V_E про Бегоунек: 7 недель в полярных льдах (Путешествия и география)
22 01 Жанры указаны - путешествия и география. Киберпанк я не указывал. Даже не знаю такого жанра. |
Комментарии
Отв: Горе оцифровщики или проблема соурсов
Здравая мысль. Я за. Вопрос где выкладывать?
Отв: Горе оцифровщики или проблема соурсов
Вот так, например?
Хотя... а поможет? ИМХО "правильный" OCR'щик сам проверит на ляпы, а ленивый и скан не выложит. :(
Отв: Горе оцифровщики или проблема соурсов
А что мешает в данном случае (Зыков) обратиться непосредственно к автору оцифровки? http://huge-library.ru/user/Hornet/
Отв: Горе оцифровщики или проблема соурсов
Тем что Зыков это только последний пример, а на такое натыкаешься постоянно.
Отв: Горе оцифровщики или проблема соурсов
Действительно, проще спросить-попросить (на форумах, в либах) скинуть сканы отдельных страниц, чем каждую книгу в виде сканов в сеть тащить.
Отв: Горе оцифровщики или проблема соурсов
Если честно то от тебя я такого не ожидал.
Скажи какие именно ты будешь страницы просить и как? - Номера то не сохраняются. Ну предположим куски текста будешь давать -ты считаешь это "не сложно"?
И это если таких страниц штук пять еще можно, а если их много?
Не говоря уже про то что это поможет только исправить ошибки и недостающие слова, а как форматирование проверять?
Плюс, на каких таких форумах? Особенно если книга редкая так вообще...
Отв: Горе оцифровщики или проблема соурсов
Ага, так и делал, когда надо было.
Сколько надо, столько и просил. Или доставал книгу и правил по ней.
На разных. Зависит от книги.
Но обычно на околокнижных, как ни странно )
На альде, на фикшене, на ебуках, тут...
По своей тематике - на собачьих форумах...
Т.е. когда это надо не для каждой книги, а для некоторых, да еще и не раритетных (которые легко купить на том же алибе), проще найти источник и сверить с ним.
А совсем редкости, конечно, надо в дежавю, тут без вопросов.
А учитывая, что сабжевая книга стоит 100+ р и свободно доступна для заказа (http://www.findbook.ru/search/d1?title=%C2%EB%E0%E4%FB%EA%E0+%D1%E0%F0%E4%F3%EE%F0%E0&r=0&s=1&viewsize=15&startidx=0) - вообще проблемы не вижу.
Как раз сейчас делаю книгу, которой в продаже нет. (Нигде не нашел за пару лет.) А у меня был исходник без иллюстраций.
Поднял задницу, пошел в ленинку, заплатил и переснял все, что было нужно.
А что делать, охота пуще неволи ))
Отв: Горе оцифровщики или проблема соурсов
Делается книга Djvu. Заливается в качестве дубля. Обьединяется с fb2. Все. В базе есть, в новинках\книгах не видна. При необходимости можно скачать и свериться. Механизм для этого уже есть, ничего нового придумывать не надо. Как вариант(предпочтительный) заливается на файлообменник и ссылка поститься в комментах или аннотации.
Отв: Горе оцифровщики или проблема соурсов
В принципе да, но в результате "пухнет" база, ежедневные дополнения и т.д., да и если честно при отсутствии "кнопочки" на которую человек посмотрев сможет подумать "а это что такое и для чего?" большинство сканеровщиков/оцифровщиков просто не подумают что нужно залить, тем более когда еще с ФТП "мучатся" и коменты писать ...
Психология она такая штука... ну как с кнопкой "donate" - всегда можно было перевести деньги но в месяц всего несколько сотен набиралось а последнее время и того поменьше, а как повесили на главной и с описанием "на что" то сразу за 3 дня $900 накидали.
А с файлообменника кстати файлы имеет склонность исчезать.
Сомнительно
Идея-то полезная... Но, это надо: чтобы сканировал, распознавал, и вычитывал один человек; чтобы заливал он изначально именно на либрусек (а не, к примеру, на БСЧ:)); чтобы он умел собирать "правильные" djvu. Со всеми можно договориться и всему научиться, но ты ж сам писал: "Психология она такая штука..." В результате, функция будет если и реализована, то очень мало востребована - овчинка выделки не стоит.
Отв: Сомнительно
Угу, но если функция не будет реализована то вообще никто делать не будет - святых и трудоголиков втоде TaKir-а ;) не так то много.
А так может хоть что то будет.
Отв: Сомнительно
Боюсь, что не поможет. Тут верно говорили: добросовестный оцифровщик проверит свою работу, недобросовестный - никакого ДежавВю ни делать ни заливать не станет.
Хотя, если у того же "недобросовестного" целенаправленно попросить исходники конкретного файла, то он скорее всего их пришлет.
Так что, ИМХО, не сильно поможет в вычитке добавление такой функции, не стоит овчинка выделки. А жаль.:(
Отв: Сомнительно
К сожалению, БСЧ по функционалу к Либрусеку не приблизится (а вот чисто визуально мне там приятнее), но опять-таки таких случаев как с Зыковым и Беккером там точно не будет (по крайней мере пока новинки проходят через меня). Соответственно, сканов там не будет (и неважно, что функционала под это нет, (смеётся)), однако в принципе, всё что я сам сканировал, у меня на винте и при желании может быть залито на либрусек.
Но в целом скажу так: 1) идея неплохая б) халтурщики могут и забить на это, как забивают на вычитку в) качественно вычитанные книги в "мелком" дажавю смысла имеют мало, если только действительно проверить оформление г) заливка больших сканов вызывает вопрос места, так как использование файлообменников не выдерживает никакой критики, так как встаёт большущая проблема с умиранием ссылок.
Где-то так.
P.S. Я бы всё-таки первоочередной необходимой идеей назвал перекрёстную базу "кто чего сканирует/планирует". Хотя бы в виде ссылок на форумы различных библиотек. И желательно без флуда в соответствующих темах.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что-то не пойму - а зачем все эти костыли?
Зачем исправлять кривизну чужих рук? Если сделал кто-то криворукий кривую книжку, можно считать что ее просто нет.
Отв: Горе оцифровщики или проблема соурсов
Тебе очень хочется делать двойную работу? То есть вместо того чтобы просто вычитать еще и лишний раз купить, отсканировать и т.д.
Отв: Горе оцифровщики или проблема соурсов
Да не делай, вычитай то, что у тебя есть под рукой или свои сканы.
А то, чего у тебя нет, сделает кто-то другой )
Отв: Горе оцифровщики или проблема соурсов
Да. Я лучше сам сделаю работу с нуля, чем буду за кем-то разгребать
Отв: Горе оцифровщики или проблема соурсов
Вычитал. В одном месте, где была действительно непонятка, просто зашёл в соседний книжный магазин. Единственный повторяющийся кусок убрал. Возможно где-то не смог полностью восстановить изначальный книжный формат, но на удобство прочтения это никак повлиять не должно.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://lib.rus.ec/b/76475
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://www.libex.ru/detail/book299242.html
160р. всего
Отв: Горе оцифровщики или проблема соурсов
Кстати, а почему только одно предложение? Я как-то летом на алибе искал - было больше десятка. Ну, я честно каждому продавцу выслал письмо с просьбой эти страницы отсканить или хоть сфоткать. Все честно признались, что нечем / не умеют / не получилось, и только один - что сканы не рассылает в принципе. :)
Отв: Горе оцифровщики или проблема соурсов
В порядке справки. Летом доставка книги из Донецка в Россию (несколько дальше Москвы) ценной бандеролью обошлась всего в 70-80 рублей. Книга дошла в пункт назначения дней за 10 (может меньше, точно не помню).
Не так уж все и страшно :)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
:)) и чтоб каждая книга в двух экземплярах, один из них - контрольный в несгораемом сейфе. А храниться они будут в Эквадоре, в книжном кафе у Ильи, книги для которого он просил присылать.
Кстати, да. Вся проблема в том, что из процесса оцифровки никак не исключить злополучный человеческий фактор. Остается решать вопрос с каждой книгой в индивидуальном порядке.
Отв: Горе оцифровщики или проблема соурсов
Короче как всегда вместо обсуждения о том как решать имеющуюся проблему получил два варианта стандартных ответов: 1.А я такой герой что и без этого обхожусь. 2.Все равно большинство пользоваться не будет а я ...(дальше см 1).
Дело ваше конечно, но насчет первого флаг вам в руки, дальше комментировать не буду, а насчет второго... ну и вычитывают то единицы, большинство не вычитывает, так можем и загрузку новых версий отменим, все равно мало кто вычитывает, а кому надо могут и библиотекарям на мыло послать - это по этой же логике.
Короче как хотите, я предложение высказал, его как всегда обосрали, ну и... собственно мне оно тоже не сильно надо, хотелось как лучше...
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что касается тебя так это вообще не к тебе тема :), после твоих вычитываний ошибок почти не остается а если и попадаются то совсем не такие что требуют сорсы.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Да понятно всем, что ты хотел как лучше. Никто и не собирался твоё предложение обсирать, идея-то хорошая, особенно если тексты сюда приходили бы только через OCR. Просто тут даже при наличии такой опции, которую ты предлагаешь, перед OCR-щиком встаёт психологическая проблема о признании собственной работы некачественной (требующей ещё и PDF/DJVU-дополнения), а на это не у каждого хватит духа. В итоге получим, что добросовестные OCR-щики будут кроме своего качественного FB2 выкладывать ещё и PDF/DJVU (просто на всякий случай - а вдруг они где-нибудь ошиблись), а недобросовестные продолжать лепить корявые FB2 и считать, что так правильно.
А ещё не надо забывать, что тексты сюда приносят не только оцифровщики - такие пользователи при всём желании не смогут воспользоваться этим сервисом, зато потом имеют шанс получить от ревнителей чистоты наезд типа: "А почему выложили невычитанный текст, а скан к нему не приложили?"
Отв: Горе оцифровщики или проблема соурсов
У Вас взгляд на вопрос не правильный :) не надо думать что "работа не качественная" надо думать:
а. Добавление скана повышает "коллаборацию" - ну не было у оцифровщика сил вычитывать вот он и дает другим "отполировать" :)
б. Это еще и сохранение источника, на будущее, вдруг кого заинтересует не только текст а именно сама книга, ее оформление скажем, фонты и т.д.
Отв: Горе оцифровщики или проблема соурсов
Интересно, насколько это востребовано.
Всегда делаю djvu со своих сканов. С удовольствием бы их куда-нибудь вывалил. В основном для таких любителей. Как бы понять, стоит ли.
Отв: Горе оцифровщики или проблема соурсов
Вроде логично... может стоит такое завести?
Отв: Горе оцифровщики или проблема соурсов
Понимаю о чём речь,но... Последнее время читаю новинки исключительно в редакторе и попутно исправляю найденные ошибки. Хотя бы для собственной библиотеки. Зыкова почти закончил и не встретил особых трудностей. А уж дубль-текст убрать ума особо не надо. Единственная проблема с некоторыми словами написанными курсивом. Я его убрал, как не имеющего смысловой нагрузки. Проблему вычитки можно решить проще. Достаточно в примечаниях писать: вычитано - не вычитано.
Отв: Горе оцифровщики или проблема соурсов
"Вычитано" тоже разной степени бывает ;)
Отв: Горе оцифровщики или проблема соурсов
Согласен. Но всё же это лучше, чем ничего и значительно проще сделать, чем сканы выкладывать. Либо надо отменять принцип "вики", чтобы выкладывали только библиотекари. А это противоречит политике либрусека.
Отв: Горе оцифровщики или проблема соурсов
Тут, кстати о сканах, с "Башней шутов" http://lib.rus.ec/node/157773 проблема образовалась.
Отв: Горе оцифровщики или проблема соурсов
Я вот что хочу сказать: Качество вычитки напрямую зависит от качества ОКР, а качество ОКР зависит... правильно,от качества сканирования.
А происходит это потому, что сканируют люди пользуясь установками по умолчанию. А здесь и разрешение 200 дпи, и полноцвет, который файнридеру и на фиг не нужен, и лезущий везде, где только сумеет, фон.
Отсюда и...
Давно хотел поговорить на эту тему.
Могу поделиться опытом получения качественных сканов со сложных оригиналов. Это кому-нибудь надо?
Отв: Горе оцифровщики или проблема соурсов
Ну конечно надо. Всегда полезно узнать что-то новое.
Для хорошего сканирования, кроме разрешения и проч. ещё важно хорошо открывать и прижимать книгу. Книгу надо предварительно "поломать". Сначала открыть на максимум на середине (слышится приятный хруст). Потом на середине от середины - в ту и другую сторону, и т. д. раз десять. Ну вот, книга уже выглядит непрезентабельно, а значит к сканированию готова.
Отв: Горе оцифровщики или проблема соурсов
Ну, за недельку-другую напишу. Сейчас просто дома сканер недоступен.
А куда выложить? Рассылать во все стороны не смогу.
Ау! Библиотекари! Это, наверное, относится к ЧаВо?
Отв: Горе оцифровщики или проблема соурсов
Можно в ЧаВо, можно в своём блоге сделать тему, а библиотекари внесут в ЧаВо. Как Вам удобнее.
Лишь бы написали. ;)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Боюсь не соглашусь с вами, точнее да, но качество "ленивой" вычитки когда быстренько так набегом просматривают. При нормальной вычитке, когда читают все, а затем еще и сверяют форматирование - такой проблемы нет.
Хотя хорошие сканы это всегда хорошо конечно, экономит кучу времени и облегчает работу.
Отв: Горе оцифровщики или проблема соурсов
Если строго подойти к вопросу, то звучать это должно так:
Чем выше качество сканирования, тем меньше ошибок распознавания, тем меньше придется вычитывающему вносить исправлений. Вычитка будет достаточно быстрой и комфортной, то есть, ошибок будет пропущено меньше.
А в случае выкладывания невычитанного текста, тем более!
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon а нельзя в следующий раз сканировать, что-бы тире отображались?
Я об Академии вампиров. Осталось страниц 50.
А! Я понял это нарочно, что-бы я читал каждое слово.:(
Отв: Горе оцифровщики или проблема соурсов
Академия вампиров будет на Старом Чародее ( http://bomanuar.com/forum/index.php?topic=231.0 ) .
Сюда выложил очень поганого качества Dejavu для тех кому не терпится а так же для верификации ошибок в будущем. FB2 с него делать точно не надо.
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon это называется подлянка. Я сижу второй день и почти доделал, сверяю каждую букву.
А оказывается есть скан лучше. Очень нехорошо. Не по товарищески. Я даже не знаю как это назвать!
Отв: Горе оцифровщики или проблема соурсов
Это называется что нужно организовываться о чем я давно говорю. Тогда бы я не покупал те книги которые к тому моменту когда они приходят уже появляются в сети, никто бы не делал одну и ту же книгу два раза и т.д.
Но народ поднял крик в стиле "зачем это нужно" , "те кому надо и так знают" , "есть топик на форуме" , вот да кстати есть топик на форуме - кто вам виноват что вы на форум старого чародея не заглядываете ?;)
А серьёзно - это очень раздражает, да.
Страницы