Проект по вычитке книг, подобный альдебарановскому и олдмаглибовскому.

Форум пока очень неудобный для этого, так что пока будем обсуждать здесь... Понятное дело, мы и сейчас вычитываем... некоторые люди. их мало. И это просто не очень организованно пока, кустарно что ли... ;) я предлагаю "сплочиться" =D просто собрать организованную кучку ocr-щиков и вычитывающих, которые будут друг другу помогать.) Выглядеть все будет таким образом... кто-то заказывает (в смысле, предлагает ее для вычитывания) вычитку книги - кто-то эту вычитку выполняет. СПИСКИ "НА ВЫЧИТКУ", "НА OCR" И СПИСОК УЧАСТНИКОВ - ЗДЕСЬ. FAQ: > Не сочтите за наглость но если работа предстоит с фантастикой/детективами/любовными романами то тогда извините но отказываюсь сразу. Работа ведется во всех направлениях - любые жанры и стили литературы, даже не только художественной =) что хотите то и выбираете) > С каким форматом предстоит работать? с fb2. наиболее распространенный в рунете и наиболее удобный формат для чтения и редактирования =) общая информация здесь и тут в нем нет ничего сложного, просто надо более-менее помнить теги. это просто. к тому же, вы будете эти теги коррекировать, а не создавать с нуля. ;) 1. общая информация о формате 2. описание тегов и простой пример книги. 3. как сделать книгу 4. Вычитка, редактура и создание fb2-файла с начала и до конца, с помощью FictionBook Designer 4.0 и не только 5. несколько статей и инструкций по fb2 6. Создание электронных книг в формате FictionBook 2.1: практическое руководство > Условия, правила вычитки, форматирования? правил форматирования почти нету за счет того, что инфа об абзацах, эпиграфах и т.д. хранится в тегах а не стилях (болд, италик и т.д.); правила вычитки только в процессе создания, пока прорабатывается. сейчас главное - вычитка.) [quote]а теперь главное! в этом посте: вносим свои предложения, предлагаем идеи, предлагаем книжки для вычитки, делимся планами, высказываем свои мысли и т.д.)) (не знаю, как выразиться лаконичнее)))[/quote]

Комментарии

По первым трем пунктам: наличие id у автора и переводчика, а также присутствие издателя в document-info - означает, что эти книги готовились или планировались, скорей всего, на продажу и качество их должно быть соответсвующее. Смело заливайте их сюда. Только я не понял: "Приблизительно треть текстов там - с lib.rus.ec" - это опечатка? Иначе, какой смысл загонять обратно книги?
По пункту 4. Если этих книг нет в библиотеке - заливайте, но, пожалуйста, предварительно просмотрите их - читабельны ли они. Если в них есть грязь, то впишите в начало аннотации ваш вывод о качестве книги - "требует вычитки" "не раставлены сноски" и т.д.
По 5-му: сейчас и не припомню где взять такую инструкцию. Просмотрите начало первой страницы этого топика, может это вам поможет.

Я имел в виду, что всего в этом архиве на данный момент 70200 файлов, из них 1/3 - с либрусека. Из перебранных 20400 - 8119 с либрусека с плохими id. Из них 40 - невалидные. Я имел в виду именно их. Из оставшихся 12000 невалидны 352. Достаточно большая часть - именно из-за этих неувязок со схемой. Неверное, придется все эти теги в custom-info загнать.

Так все-таки какой схемой лучше всего пользоваться - или остаться на 2.0 ?

Karman написал:

Так все-таки какой схемой лучше всего пользоваться - или остаться на 2.0 ?

Насколько я понимаю, подавляющее большинство книг сделаны по 2.0. Я бы ею и стала пользоваться.

Заранее предупреждаю, что с процессом вычитки незнаком, поэтому не бейте сильно если что напутал =)

Имеются 2 книги "Игры форов", судя по всему разница в оформлении.
http://lib.rus.ec/b/97392
http://lib.rus.ec/b/66388

Вопрос - какой вариант считается более кошерным? Поскольку текст идентичен, то "остаться должен только один" (с).

KillerBeer написал:
Текст Игр Форов в обоих изданиях идентичен, разница только в оформлении - новый вариант кое-где использует более подходящие теги и угловые кавычки, что правильно, но помещает знаки препинания внутрь тегов emphasis, обрамляющих отдельные слова, что, ИМХО, не. Других различий нет.

В 97392 чуть меньше ошибок (проверяла скриптом "генеральная уборка").
Но и в том и другом ошибки есть. Непринципиально, какой оставить. Любой из них можно/нужно ещё править.

Ок. Тогда делаю "объединить", и оставляю 97392.
Как я понимаю, вычитывающие книги сами берут, или есть какой-то список, в который можно подкинуть сравнительно популярную книгу?

Список есть. Как не быть?
Тынц.

Добавить "Игры форов"? ;)

Выложил Петров Александр - Свет обратной стороны звезд (http://lib.rus.ec/b/112741).
Резюме 1: Черт попутал. Ни в жисть больше не возьмусь вычитывать авторский текст.

В общем и целом более-менее читабельно, но:
1. Аффтар имеет не совсем понятную склонность впихивать в текст где надо и не надо цифры вместо числительных, что выглядит.. как бы это помягче сказать.. не очень хорошо.
2. Аффтар испытывает "поразительную" тягу к "кавычкам", заключая в них все подряд.
3. Аффтар, по-видимому, является настоящим фанатом, запятых, нашпиговывая ими текст, в огромных, количествах. С другой стороны во многих местах где они на самом деле нужны почему-то наблюдается пустота..
В общем, я сломался после восьмой главы, дальше правил только орфографические ляпы.

Резюме 2: Тексту в обязательном порядке требуется пройти через руки/глаза профессионального корректора (я таковым не являюсь). Резюме 3: Аффтару крайне желательно ознакомиться с каким-нибудь руководством по русскому языку. Как минимум с тем, которое я в скором времени начну OCR-ить - "Говорите и пишите по-русски правильно" (автора не помню - нет сейчас этой книги перед глазами).

Если кому интересно, еще один показательный отзыв есть вот здесь - http://www.kubikus.ru/forum/topic.asp?cat_id=5&topic_id=5559&forum_id=49#rep179518

Люди, подскажите, плз, как правильно оформлять вложенные кавычки.
А то я встречал несколько вариантов и не знаю, какой из них правильный.
Т.е. внешние ставятся "ёлочки", а вот внутренние какие?
В FBE попробовал скрипт "Кавычки на ёлочки", так он собака, наоборот все поменял. Больше не рискну..

«„“»
double low-9 quotation mark + left double quotation mark

Спасибки. Больше не буду сомневаться :)

МихалЫч написал:
Люди, подскажите, плз, как правильно оформлять вложенные кавычки.
А то я встречал несколько вариантов и не знаю, какой из них правильный.
Т.е. внешние ставятся "ёлочки", а вот внутренние какие?
В FBE попробовал скрипт "Кавычки на ёлочки", так он собака, наоборот все поменял. Больше не рискну..

Наружные - "ёлочки", вложенные - & #8220; и & #8221; (поставила пробелы, чтобы Вы увидели коды, а то здесь они отображаются как-то странно). (см. пост ниже)

В FBE: Ctrl+ж, Ctrl+э - соответственно.
Речь идёт только о русском тексте. В иностранных языках - по-другому.

А в wiki написано, что внутренние - открывающая 8222 (две запятые внизу), закрывающая 8220 (две перевёрнутые запятые вверху).
http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D0%B2%D1%8B%D1%87%D0%BA%D0%B8

Да-да, я как раз вернулась, чтобы изменить своё сообщение, проконсультировавшись с Кондратовичем. ;) См. § 5.1.
Правильно:
& #8222; и & #8220; (конечно, без пробела)

Хотя hotkeys в FBE и дают другое сочетание.

Да все уже разъяснилось. Спасибо всем откликнувшимся!

Ну еще немножко :)
Попадалось такое тройное вложение:
«„,‘“»
comma + left single quotation mark
& #8217 + & #8216

Буду иметь в виду, хотя это уже изврат о)

никто не будет против моей редакции файла книги Сумерки Глуховского - http://lib.rus.ec/b/111388 ? а то такое впечатление, что после doc2fb2 его совсем не изменяли...

hagen написал:
никто не будет против моей редакции файла книги Сумерки Глуховского - http://lib.rus.ec/b/111388 ? а то такое впечатление, что после doc2fb2 его совсем не изменяли...

Внесла тебя в список.
Может, сделаешь ещё пометку в названии? Мол, "вычитывается".

ок

Сканера нет, но могу вычитывать любые книги. Давайте задание.

El_Parasito написал:
Сканера нет, но могу вычитывать любые книги. Давайте задание.

На сегодняшний день список невелик, почти всё (из известного) сделано или в работе.
Посмотрите, может, что-то из оставшегося Вас заинтересует.

golma1 написал:
El_Parasito написал:
Сканера нет, но могу вычитывать любые книги. Давайте задание.

На сегодняшний день список невелик, почти всё (из известного) сделано или в работе.
Посмотрите, может, что-то из оставшегося Вас заинтересует.

Так там вроде как все занято. Можно указать конкретную книгу?

El_Parasito написал:
Можно указать конкретную книгу?

Например:
http://lib.rus.ec/b/99159
http://lib.rus.ec/b/109343
http://lib.rus.ec/b/111703
http://lib.rus.ec/a/706
http://lib.rus.ec/b/112411

И нужно ещё вычистить дубли у Дарьи Донцовой:
http://lib.rus.ec/a/2623

О том, что нужно сделать в каждом конкретном случае, можно прочесть в списке. :)

golma1 написал:
El_Parasito написал:
Можно указать конкретную книгу?

Например:
http://lib.rus.ec/b/99159
http://lib.rus.ec/b/109343
http://lib.rus.ec/b/111703
http://lib.rus.ec/a/706
http://lib.rus.ec/b/112411

И нужно ещё вычистить дубли у Дарьи Донцовой:
http://lib.rus.ec/a/2623

О том, что нужно сделать в каждом конкретном случае, можно прочесть в списке. :)

Я хочу вычитать вот эту книгу: http://lib.rus.ec/b/109343
Как мне внести себя в список?

El_Parasito написал:

Как мне внести себя в список?

Я Вас внесу. :)
Сделала пометку в названии книги - "вычитывается". При заливке новой версии не забудьте заменить старую книгу на новую. Автоматические не получится (из-за разницы в названиях), а просто удалять старую не рекомендуется.

Базик, Гульянц "Что можно сделать из природного материала" - требовалось отредактировать невалидный файл. Новая версия книги: http://lib.rus.ec/b/112962 .

Razrblv написал:
Базик, Гульянц "Что можно сделать из природного материала" - требовалось отредактировать невалидный файл. Новая версия книги: http://lib.rus.ec/b/112962 .

Отмечу как сделанную. Спасибо большое. :)

Четыре файла Жаклин Уилсон сделаны.
http://lib.rus.ec/a/19838

Tanja45 написал:
Четыре файла Жаклин Уилсон сделаны.
http://lib.rus.ec/a/19838

Отметила. Спасибо. :)

Эдуард Багрицкий требовалось отформатировать оба файла... Пока сделал только один - Стихи. Мне вот просто интересно, кто стихи в строчку написал???

Razrblv написал:
Эдуард Багрицкий требовалось отформатировать оба файла... Пока сделал только один - Стихи. Мне вот просто интересно, кто стихи в строчку написал???

Это ошибки конвертации. Книги заливал робот.

Я правильно поняла, что вторую книгу Вы тоже сделаете? ;) Занесла в список.

Да, сделаю...

А как можно получить все версии книги?
Если я помню номер предыдущей версии, то можно прямо набрать его в адресной строке.
А как это сделать с другими книгами?

Эдуард Багрицкий - Стихотворения и поэмы. Отформатировал. но чего-то мне не нравиться как Либрусек этот файл читает... Во-первых не сохраняя форматирование и во-вторых приписка внизу страницы: [страница исправлена скриптом]. FBI и FBD пишут, что файл валидный. AlReader нормально отображает. Посмотрите пожалуйста...

Это известный баг онлайн-читалки. Если файл прошёл валидацию, значит, с ним всё в порядке.
За книгу спасибо. Отмечаю как сделанную.

А еще небольшой вопросик по этой же книге. Скрипт "Кавычки на елочки" находит аж третий уровень вложеных и это в названии стиха... Судя по всему появилась лишняя открывающая, ее как-нибудь можно вылавить или оставить просто "американские" кавычки?

Я, честно говоря, с большой осторожностью отношусь к этому скрипту. Он злоупотребляет "кавычками третьей вложенности". А уже в стихах - это вообще странно.
Можно пройтись вручную поиском, сверяя парность кавычек. Или можно заменить массово "лапки" на "кавычки", а потом воспользоваться регэкспами Кондратовича для замены кавычек на "ёлочки". Правда, парность при этом не проверяется.

Ок. Пасиб. Заменю на елочки и перезалью.

такое дело - никто не хочет вычитать и сконвертить в фб2 эту же книгу этого же автора - http://lib.rus.ec/b/112829 только на аглицком?
Alan F. Troop - Dragon De la Sangre

P.S. у меня вообще много книг на аглицком - если чего нада - спрашивайте

P.P.S. Сумерки делаю...

1.Вопрос по кавычкам: почему вы так настаиваете на "ёлочках". Они же некрасивые! Очень!
2.Голма, а с картинками что-нибудь сконвертить Вам не попадалось? А? Очень я люблю с картинками...:)

Tanja45 написал:
1.Вопрос по кавычкам: почему вы так настаиваете на "ёлочках". Они же некрасивые! Очень!
2.Голма, а с картинками что-нибудь сконвертить Вам не попадалось? А? Очень я люблю с картинками...:)

1. Положено. :Р
И у Кондратовича, и вообще... ;)
2. Нет. :(
Но буду иметь в виду. ;)

Аватар пользователя Captain Scarlett

1. A мне нравиццо :) И привычней так - все-таки в бумажных книгах именно "елочки".

2. А Вы умеете делать png с прозрачностью? И вообще привести картинке в более красивый вид, не сильно их при этом утяжеляя?

1.ФУ-ууу!
2.Умею-умею. Точнее, умею снижать их вес, не сильно снижая какчесво. Я так думаю, что умею:)

А зачем нужны в книгах png с прозрачностью? Вес больше, а смысл?

Аватар пользователя Captain Scarlett

Для читалок с небелым фоном. Смотрится лучше :) Естественно, нужно искать компромисс между красотой и размером файла.

читалок с небелым фоном. А разве есть такие? Знаете примеры?

Наверное имеется ввиду - с установленным в настройках небелым фоном. А не принципиально небелым.

На книгу со "знаком качества" нельзя
пожаловаться ('Файл достаточно хорош. Нет смысла в его улучшении').
А такая необходимость может возникнуть.

Пример. Берём книгу со "знаком качества"
http://lib.rus.ec/b/112971
и, бегло просмотрев "по диагонали" сей экземпляр, видим:
======
Это была какая-то интеллектуальная вакханалия, языческая оргия
мыслителей, фанатическое служение единственному в мире
богу - ФИЗИКЕ, Нас не покидало постоянное, ни на секунду не
ослабевающее напряжение - настолько неожиданным был ход мыслей Ангела.
**** После слова "ФИЗИКЕ" должна стоять точка
======
Тогда защищать нужно было не отдельных людей и не только свою семью</p>
<p>- всю страну. И он в первый же день отправился в военкомат -
записываться добровольцем.
**** лишний абзац
======
Я понял его и, продолжая кричать на Витьку</p>
<p>- правда, чуть потише - стал потихоньку подталкивать его к стулу.
**** лишний абзац
======
Действительно, дарить людям открытия</p>
<p>- что может быть благородней?
**** лишний абзац
======
<p>И я снова взялся за Шекспира и вдруг словно споткнулся, прочитав:</p>
<empty-line/>
<p>...жизнь - это тень, комедиант, </p>
<p>Паясничавший полчаса на сцене</p>
<p>И вмиг исчезнувший.</p>
<p>Это повесть, Которую пересказал дурак.</p>
<p>В ней много слов и страсти, нет лишь смысла.</p>
<empty-line/>
<p>Я закрыл книгу и встал.
**** не обработаны стихи
======
День, два, раз даже целую неделю, - а потом опять как телок на привязи.
Разбежался, дернулся, помычал от боли, подержался за шею</p>
<p>- и назад, травку пощипывать.
**** лишний абзац
======
It could be worse [могло быть хуже (англ.)],
**** оставлена inline-сноска
======
<p>- Теперь-то и сам вижу, что не надо было. Но, понимаешь,
ночью проснулся и подумал - вдруг что-то упустили? И все - сна ни
в одном глазу.</p>
<p>- Ольф помолчал и вдруг спросил: - Ты знаешь, почему я
бросил летать?</p>
**** лишний абзац, должно быть так:
<p>- Теперь-то и сам вижу, что не надо было. Но, понимаешь,
ночью проснулся и подумал - вдруг что-то упустили? И все - сна
ни в одном глазу.- Ольф помолчал и вдруг спросил: - Ты знаешь,
почему я бросил летать?
======
<p>Жанна не скрывала от Шумилова, что не любит его, но не говорила
ему, если он сам не принуждал «ее к этому.
А в первый год жизни в Долинске такие минуты, когда ей приходилось это
говорить, нет-нет да и случались. Тогда Шумилов молча наклонял голову
и прикрывал глаза. "Как страус", - однажды с жалостью подумала Жанна.
Но потом Шумилов научился избегать таких минут - и как будто все больше
боялся ее. То есть не ее, конечно, а того, что Жанна оставит его.</p>
**** лишняя кавычка перед фразой "ее к этому".
======
<p>- Полегче, полегче, - поднял он руку. - Пантагрюэльствовать
будем завтра, у меня дома: А пивка не найдется?</p>
<p>Пивка? Еще бы ему не найтись! Какое вам, Дмитрий
Александрович, - жигулевское, московское, рижское?</p>
<p>- А кто со мной за компанию?</p>
<p>Нет уж, увольте. Мы - сыты. По горло и даже выше.
Мы - нет. Мы - пас: Что означает эта лампочка?!</p>
**** Возможно, пропущены тире в диалоге
======
Вторая, более существенная причина</p>
<p>- такой аномальный пик может, в принципе, соответствовать
только резонансным состояниям с чрезвычайно коротким временем существования.
**** лишний абзац
======
<p>- Значит, - сказал Дмитрий, избегая изумленных взглядов
Ольфа и Жанны,</p>
<p>- мы можем в любое время получить машину?</p>
**** лишний абзац
======
<p>- У меня? Сколько угодно: - Он на секунду задумался и выдал:</p>
<p>Неустойчивость Мы - настойчивостью!</p>
<p>Мы - разбойничий Раз...</p>
<p>- ...а дальше нецензурно.</p>
<p>- Перестань дурака валять, - сердито оборвала Жанна.</p>
**** не обработаны стихи
======
<p>- Кретин! - завопил Ольф, трагически воздев руки
к потолку. - Растакудыттер! Тебя в паноптикум, в долговую яму,
в невесомость, в разбазараздер! Можно! Нужно! Должно! Других слов
ты не знаешь?! Гр-р-ры-ы!</p>
<p>- зарычал Ольф, не в силах выразить свое
возмущение. - Уз-зы его! Смотрите на его рожу! Это же
покойник! Покойник! Отстойник! Аб-бр-ре-виатур-р-ра! - даже
зубами заскрежетал Ольф.</p>
**** лишний абзац
======
Закрывающаяся дверь ударила его по-плечу, он покачнулся и выпустил Жанну.
**** по плечу
===========
Если вас эти орешки не устраивают,</p>
<p>- он кивнул на доску, - почему бы нет?
**** лишний абзац
======
<p>- Ну хорошо, хорошо, - сразу согласился
Ольф, - не мог так не мог, я же не упрекаю тебя. Ты
уезжал больным, и хорошо, что уехал, - торопился Ольф,</p>
<p>- мы, очевидно, были неправы, отговаривая тебя,
эта поездка здорово встряхнула тебя, выглядишь ты просто
отлично, но почему же тебе не поехать вместе со мной?</p>
**** лишний абзац
======
<p>- Вот шум-то теперь подымется, а? Нет, подумать
только, - такой фитиль поставить легиону ученых мужей! А этот
параноик еще чем-то недоволен! Посмотреть на этого чудика, так
можно подумать, что его постигло величайшее разочарование в
жизни! Или ты еще не уверен в своем "закрытии"?</p>
<p>- остановился он вдруг передо мной.</p>
**** лишний абзац
=====
Что моя работа будет признана
значительной, успешной и принесет известность и все такое прочее</p>
<p>- это я тоже знаю. Более того, я даже думаю,
что ничего более значительного - опять же с этих
позиций <вообще> - я не сделаю за всю свою оставшуюся жизнь.</p>
**** лишний абзац
=====
<p>- А пространство вокруг них сияло огромное,
светоносное, почти необъятное и совершенно пустое - если,
конечно, не считать такой ерунды, как материя, изучению
которой они посвятили всю свою недолгую прекрасную жизнь. И покидали
они его с сожалением, грустью и радостью: С сожалением</p>
<p>- ибо пространство сие прекрасно, а им более
не дано увидеть его.
**** лишний абзац
=====
А в сорок седьмом, когда им уже по пятьдесят
было, случайно встретились на улице и, представь себе, сразу
же узнали друг друга. Как оба уверяют - только по глазам. Проговорили
один вечер, другой</p>
<p>- и решили, что расставаться им не надо. Дети у обоих
были уже взрослые.
**** лишний абзац
=====
<p>Думать об этом было слишком больно, и он хотел
встать, чтобы заняться чем-нибудь, но посмотрел на часы
и увидел, что сейчас должна прийти Жанна,</p>
<p>- и остался лежать. Но когда она открыла дверь и,
торопливо сбросив на кресло пальто, сразу прошла к нему, он
даже не пошевелился.
**** лишний абзац
=====
И чтобы сделать первое па, надо завтра пойти к Дубровину и
сказать ему, что он согласен. Можно пойти и сейчас или хотя бы
позвонить: И Дмитрий набрал номер, послушал длинные гудки и не
сразу сообразил, что рабочий день уже давно закончился</p>
<p>- был восьмой час вечера. Ну что ж, завтра так завтра...</p>
**** лишний абзац, двоеточие вместо точки
=====
<p>- Смотри, ради кого мы старались: Что изображено на
этой личине? Ради чего мы облачились в лучшие свои одежды,
мудрили над яствами и питиями, сбивались с ног, стараясь успеть
к его приходу в час икс: Да ему не коньяк надо было
ставить, а портвейн за рупь тридцать две! Не цветы, а копеечную
открытку без марки и адреса! А посмотри, во что одет этот шаромыжник:
Можно подумать, что это пришел не доктор наук, а ночной сторож
после суточного дежурства. Все штаны в пепле, штиблеты не чищены:</p>
<p>- сокрушенно покачал головой Ольф.</p>
**** лишний абзац, двоеточия вместо точек или восклицательных знаков
=====
<p>- И сколько я, по-твоему, еще проживу? Десять лет?
Наверняка нет. Пять? И это сомнительно. Я дал себе три года, и, поверь,
буду считать, что мне повезло, если удастся прожить этот срок с ясным
умом, не впадая в старческий маразм, как тот же Михайловский. А у меня
еще очень много дел, Дима: Надо закончить свою работу, надо подыскать себе
преемника, привести в порядок архив, надо, в конце концов, съездить
на родину, побродить по старым местам, даже, черт возьми, перечесть
старые письма, но на это времени уже вряд ли хватит: Так что большой помощи
ждать от меня не надо. Разумеется, если приспичит, я брошу все и займусь
твоими делами, но, конечно, не ради любви к тебе, а ради твоих идей.
Но это на крайний случай, и дай-то бог, чтобы этого крайнего случая не
было. Так что - хочешь не хочешь, а придется тебе засучить рукава и
помахать кулаками. А мы уж с Алексеем рядышком, на подхвате: Так,
что ли? - Александр Яковлевич подмигнул Дубровину. - Где надо -
не погнушаемся и своими титулами тряхнуть, а их у меня побольше, чем
у Михайловского; понадобится</p>
<p>- и власть употребим, а она у меня пока что
тоже немалая: Но это, так сказать, антураж, а черновую работу тебе
придется самому делать.</p>
**** лишний абзац. двоеточия вместо точек
=====
noblesse oblige [положение обязывает (франц.)]
**** оставлена inline-сноска
======
<p>- Я?. Нет, наоборот, я слишком молод. И слишком
честен, - серьезно сказал Дубровин.</p>
**** Пропущена или добавлены точка: "Я?.." или "Я?"

============
Может, стоит разрешить на такие книги жаловаться? Или не надо торопиться с раздачей 'знаков качества'?

Страницы

X