Вы здесьКоординация сканирования и вычитки
Опубликовано пт, 03/12/2010 - 02:59 пользователем larin
Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 1 день
TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 2 дня Oleg V.Cat RE:B343695 Александр. Книга 1 3 дня Isais RE:Калибрятина/Самиздатина 5 дней md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 1 неделя SergL197 RE:Регистрация 1 неделя ejik.v RE:Viva Stiver! 1 неделя RedRoses3 RE:Флибуста конец? 1 неделя Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 3 недели Isais RE:B157704 Черепаха Киргала 3 недели sem14 RE:Литературная премия «Ясная Поляна» 3 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 4 недели Isais RE:Обновление FictionBook Editor 1 месяц Alex_61 RE:Windows 7 безопасна благодаря помощи NSA??? 1 месяц Впечатления о книгах
Дей про Гаврик: Закуска с характером (Любовная фантастика, Попаданцы, Самиздат, сетевая литература)
03 11 А ведь и правда хорошо. Отличная женская сказка, не стыдно посоветовать. Оценка: хорошо
ikravtso про Вячеслав Александрович Каликинский
03 11 Романы про Агасфера интересные, хотя первый очень "рваный", сложно понять, что за чем происходит, время действия постоянно скачет. А вот фразы на иностранных языках - это некое "твоя моя не понимай". Даже гугль-перевод лучше ………
Дей про Шах: Купеческая дочь замуж не желает (Фэнтези, Попаданцы, Самиздат, сетевая литература)
02 11 Молочный ряд был богатым, представлено все разнообразие молочной продукции здешних краев. Просто молоко, сметана, творог, масло, различные сыры — полутвердые, овечьи, козий сыр. Не заметила плавленого сыра. И кисломолочных ……… Оценка: плохо
Sello про Аллен: Побочные эффекты [Авторский сборник] [Side Effects ru] (Современная проза)
02 11 Его тексты - как если бы, скажем, идя в обратном направлении, посмотреть фильм "Голый пистолет" и после того по нему написать рассказ. Сюр с элементами специфического юмора или, наоборот, юмор с вкраплениями сюра. Но есть ……… Оценка: хорошо
Её Лунная Тень про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Грузите запятые бочками. Братья Куромазовы". Автор - двоечник и графоман. Оценка: нечитаемо
andmalin про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Довольно неплохо , если первую еле одолел , то вторую и третью прочитал с удовольствием . Оценка: хорошо
decim про Ансари: Цивилизация рассказчиков: как истории становятся Историей [litres] (История, Публицистика, Обществознание)
31 10 За несколько веков на кострах были сожжены десятки тысяч ведьм" - автор повторяет кровавый навет протестантов на католиков, пошедший со времени соперничества Англии и Испании, и убедительно расписанный Шарлем де Костером. ……… Оценка: плохо
udrees про Кронин: Замок Броуди [litres] [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Кронин: Замок Броуди [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Дебрецени: Холодный крематорий. Голод и надежда в Освенциме [litres] (Биографии и Мемуары, Публицистика)
30 10 Жутковатая книга про жизнь в лагере смерти, написана со всеми подробностями, ужасами быта, зверствами, убийствами. Поражает, что хотя Освенцим советские войска освободили еще в конце февраля 1945 года, тем не менее автор книги ……… Оценка: хорошо
udrees про Быкова: Самостоятельный ребенок, или Как стать «ленивой мамой» (Педагогика, Детская психология)
30 10 Книга психолога о том как можно воспитать самостоятельного ребенка. Инструкции и советы интересные, жалко что требуют много времени и усилий. Я думаю не каждая мама и тем более папа смогут иногда терпеть мнение ребенка, но ……… Оценка: хорошо
udrees про Быкова: Развивающие занятия «ленивой мамы» (Педагогика, Детская психология)
30 10 Простенькое пособие для мам как развлекать своих маленьких детей, какие придумать, использовать игры, которые улучшат память, мышление, воображение, сделают творческой и самостоятельной личностью. В принципе все эти игры реальны ……… Оценка: хорошо |
Комментарии
Отв: Координация сканирования и вычитки
Можно исправлять либрусекитовые файлы.
А можно брать книги в библиотеке.
Отв: Координация сканирования и вычитки
Да мало ли.. Можно расставлять отсутствующие жанры, аннотации, обложки, полно работы с базой
Отв: Координация сканирования и вычитки
По секрету и на ушко - не думайте, что электронные книги на Литресе супер-пупер-идеал. Даже несмотря на утверждения о тексте, переданном правобладателем. Надысь, а может давеча, прогнал купленную книгу через софты - это что-нибудь особенного! И не поймешь кто виноват - автор, редактор, корректор, фбдвушник или еще кто-то. Ошибок море, и даже окиян.И грамматика, и орфография, и очепятки, а может просто безграмотность. Поэтому, покупка файла на Литресе не есть финал, надо вычитывать.
Отв: Координация сканирования и вычитки
А может и правда, попробовать повычитывать? Я вот, читая многие книги ,вижу, что ошибок- море!Порой бывает, что невозможно читать! Попробовать что ли? Как это делается, через Ворд прогнать или через FBE , если файл fb2? Но дело в том еще, что мне очень нравится сканировать. Знаете, вот когда люди вяжут на спицах или крючком это их успокаивает или вот человек курит-это тоже примерно так же. У меня жизнь нервная, вот sem14 может примерно оценить, потому что знает. У каждого свои заморочки, поэтому я человек нервный, даже немного псих, наверно.((( И сканирование книг, сам ритуал- успокаивает и умиротворяет. И без книг я не могу-это как наркотик.)))
Отв: Координация сканирования и вычитки
если честно - терпеть не могу сканировать
а вот читать и вычитывать - с удовольствием
если вычитывается/правится фб2 файл - то только в ФБЭдиторе
тем более, что для либрусекитовых файлов надо править структуру
Отв: Координация сканирования и вычитки
Если нравится, то надо продолжать. Зачем отказывать себе в удовольствиях.
Отв: Координация сканирования и вычитки
Или в блокноте, или в любом текстовом редакторе, который не нарушит структуру файла, Ворд для этого слишком "интеллектуален": он знает, что файл .fb2 является XML-файлом, ну и, соответственно, может решить, что это его родной, Вордовский, XML, ну и понаделает из fb2 - ТАКОЕ…
Отв: Координация сканирования и вычитки
а вы на чем читаете? на компе/телефоне?
Отв: Координация сканирования и вычитки
А как узнать нуждается книга в вычитке или нет? Есть какой-то список?
Отв: Координация сканирования и вычитки
вопрос сложный, хотя Ларин как-то давал линк из статистики на файлы с черепушкой (трeбующие вычитки/верстки)
а захотите ли вы их читать? я, например, ни за какие коврижки не буду вычитывать ЖЮФ и ЛР
вы можете подключиться к сканировщикам и получить сканы на вычитку/верстку (Like Indigo, monochka)
Отв: Координация сканирования и вычитки
Надо создавать базу книг, нуждающихся в повторной вычитке)
Отв: Координация сканирования и вычитки
http://lib.rus.ec/stat/q/q1
Отв: Координация сканирования и вычитки
Касаемо методов вычитки. Могу рассказать как это делаю я. Без малейших претензий на непреложную истину, на владение всеми фичами FBE (скриптами) и всем прочим. Мне так удобно, если будут найдены более продвинутые методы - welcome! После сканирования, файлы передаются в FR11 с отключенным "интеллектом", иначе могут быть ошибки из-за подстановки словарных слов. Добавляются пустые страницы для соответствия номерам страниц во всей книге. Проверяются колонтитулы - чтобы всегда были отдельными зонами, иначе придется править в распознанном тексте, а оно надо? Удаляются зоны типографских листов, поскольку FR11 их не зачисляет в колонтитулы, придется удалять руками в тексте. Распознается текст, если нигде нет грязи, попавшей в зону текста, то сохраняется в txt и doc, если грязь есть, текст проверяется в самом FR11. Текстовый файл прогоняется через EmEditor с макросом (черновая вычитка) на предмет разрывов абзацев, ошибок в знаках (тире - дефис, табулятор) и т.д. Потом в AfterScan на предмет явных косяков, выправке пробелов и знаков препинания. Затем в ОРФО - проверка орфографии и грамматики (последнее самое нудное и спорное, верить нельзя никому и ничему!), все это был этап предварительной вычитки. Затем в Word с макросом - форматирование текста и еще одна предварительная проверка текста, потом конверт в doc2fb. Финал: либо в FBE и вычитка глазами и мозгами, либо текст из Word-а в программу TextStat на предмет поиска неверных уникальных слов, бывает крайне полезно, поскольку составляется полный список ВСЕХ слов и их частота. Дальше форматирование в FBE, все банально и многократно описано.
Отв: Координация сканирования и вычитки
Подскажите, как его отключить.
Отв: Координация сканирования и вычитки
Девелоперы такое выдали:
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет.
По идее, отключение "интеллекта", которого, ессно, нет и никогда не было, должно подавить ошибки типа мерс - мере, пидер - лидер и т.д. Иногда слова берутся вообще с потолка и тогда "Твой поезд ушел" превращается в "Твой поезд запел".
Респект и уважуха! Это Вы себя не жалеете :-). При таком подходе нужно каждое слово, каждую запятую проверить, вдобавок, зная все правила назубок. А я человек ленивый, мне проще перепоручить компу все действия, принимая решение только на конечной стадии.
Отв: Координация сканирования и вычитки
На добром слове спасибо. :)
А насчёт "каждое слово, каждую запятую", то я, как правило, имею дело с хорошими сканами, так что работы с распознаванием немного. Разве что последнее "пролистывание" на предмет поиска разорванных абзацев занимает чуть больше времени.
А всё остальное - скрипты, спеллчек.
Вот сегодня, например, было свободных 2 часа. Их хватила на всё про всё (сам документ распознала вчера - но это 10 минут, несчитово ;) )
Изумительный (как всегда) скан от Ronja_Rovardotter, в книге 508 страниц.
А Вам сколько нужно времени на все Ваши программы?
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Ой, тут я растерялась. Такой напор, я бы даже сказала агрессия... :(
Я сама перфекционистка и откровенные бумажные ляпы исправляю, так что меня в этом убеждать не надо. Но мне кажется, что мы говорили вовсе не об этом.
В целом, вся моя интенция в том, что ФР - это довольно сильный инструмент. Со своими недостатками, глюками, разумеется (как и все остальные программы). Но если о них (проблемах) знать и уметь их учитывать, то использовать его просто для распознавания текста - это, в моих глазах, равносильно забиванию гвоздей микроскопом.
Ну и совсем уж подытоживая: неважно, кто и как делает книги, важно - что получается в итоге.
Вам нравится работать с полудюжиной программ, я предпочитаю использовать меньше программ, но более интенсивно. Уверена, что у Вас получаются хорошие книги, но и свои мне не стыдно показать. В-) Так что, по сути, спорить нам не о чем.
Всего доброго.
Отв: Координация сканирования и вычитки
А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь.
Отв: Координация сканирования и вычитки
А можно - я? Ну, пожа-алуйста!!! Вот, свежую вчерашнюю прогоните, я хоть буду знать свой процент качества (даже учитывая его условность). http://lib.rus.ec/b/386460
А то меня хвалят за скорость - а вдруг она в ущерб качеству??? :(
Отв: Координация сканирования и вычитки
К сожалению, особого качества не наблюдается.
EmEditor
Преподобный Джой засмеялся, но так, как смелются над проделками глупого котенка, и, кто знае[']т, смеясь, он мог уже прикидывать, как бы засунут котенка в мешок, добавить пару камушков и прогуляться к реке.
Он завел глаза, чтобы разглядеть меня, — головы уже не[>]поднять, — и прошептал:
ОРФО
Преподобный Джой засмеялся, но так, как [смелются] над проделками глупого котенка, и, кто знает, смеясь, он мог уже прикидывать, как бы [засунут] котенка в мешок, добавить пару камушков и прогуляться к реке.
Попытайся я уцепиться за него на ходу, мне бы, наверное, руку [отюрвало].
Вновь она повернулась ко мне — медленно-мед[-]ленно.
Вид был такой — поджечь бы все это, а потом запахать золу и начать все заново, [чтоы] не мучиться.
Надо бы, подумала я, отвести Джинкс в сторону и объяснить ей, [чт] с верующими спорить нет смысла, потому что, если им не удастся тебя убедить, они будут [вязатьс] к тебе со своими доводами снова и снова, пока ты не уверуешь, не солжешь [ил я] не наложишь на [себ] руки, только бы отстали.
Его подготовили к погребению, созвали родных — и, [ко гда[ те собрались, мертвец внезапно ожил.
Он где-то рядом, вонючка, [застранец], он ищет нас.
— Вчера я чуть было не полезла в их тюк за спиртным. Со мной все было в порядке до прошлой ночи, пока я не учуяла этот запах, а тогда я готова была наброситься на эту милую [женшину] и драться с ней за глоток самогона, драться со всей их компанией.
Грамматику не стал проверять, ибо нудно, ну и вычитывать тоже не стал.
Отв: Координация сканирования и вычитки
Угу, спасибо. :) А эту не затруднит? http://lib.rus.ec/b/384703
Отв: Координация сканирования и вычитки
*недоумевая* Вообще-то все эти ошибки вылавливаются скриптами и спеллчеком.
update: кроме "смелются" - эта не выловится, поскольку такое слово есть в словаре.
Отв: Координация сканирования и вычитки
С этим никто не спорит. Но ведь не делают и не проверяют. Про грамматику вообще молчу, ее даже в издательствах не могут толком проверить, наверное, полностью доверяют афтару, который маститый, популярный и книг у него вышло мильён.
Отв: Координация сканирования и вычитки
Современные корректоры и редакторы - это отдельная больш(н)ая тема.
Если раньше, для того чтобы выяснить, как правильно пишется слово, достаточно было найти его в книге, то теперь... :(
Такое впечатление, что в издательствах даже простейшим спеллчеком не пользуются.
Встретив в последней книге слово "мучал", я решила, что это опечатка. Но потом оно четырежды повторилось. Катастрофа.
Может, я не в курсе, и правило было изменено? :(
Отв: Координация сканирования и вычитки
Зуб даю - либо не пользуются из-за наличия отсутствия присутствия, либо просто лень. А Инет под руками способен выдать практически любую инфу по любому вопросу. И как пишется, и что это такое :-) Ну, и где они, эти грамотные редакторы в издательствах? Не говорю уже о списках замеченных опечаток в виде вклейки к книге. Это было в бескомповую эру, но сейчас возможности возросли на порядки, ан нет, безграмотность издателей стала притчей во языцех.
Отв: Координация сканирования и вычитки
Ну, справедливости ради заметим, что в России сейчас в год издаётся больше названий, чем во всём СССР в пиковом для него по этому показателю 1974 году (статейку где-то встречал с такими данными). Так что некоторое падение качества вполне ожидаемо, а по сравнению с 1994-м, скажем, годом с качеством сейчас дела очень хорошо обстоят. А опечатки пираты исправят совершенно бесплатно, чего там.
Отв: Координация сканирования и вычитки
Смотря что подразумевать под "некоторым падением". Скромно тешу себя надеждой, что укладываюсь в корректорские нормы - одна ошибка на 40 000 знаков. Но ни одна вычитанная мной книга, даже близко к этому результату не подходит. Я уже не говорю про искусственно раздуваемый объем книги. Вроде бы, по старым меркам, 300-400 страниц - изрядно, но ежели насовать пустых страниц с несколькими словами или какой-нить виньеткой, да шрифт покрупнее, то получается в полтора, а то и два раза меньше. То есть работы корректору меньше, а результат - хуже. Не знаю, сколько в издательствах на редактора и корректора приходится книг в месяц. И за какую зряплату они трудятся.
Отв: Координация сканирования и вычитки
Уточнение: норма - одна ошибка на 20 000 знаков (две на авторский лист).
Отв: Координация сканирования и вычитки
EmEditor
мириться. <.. > На аэродроме
чайной ложечки. <.. > Стоял октябрь
исполнял паленке и мапале, но с ужа'сом ждал
а настоящим ковбоем“. <.. > Общаясь
Проверять в ОРФО не стал, время жалко :-) Как видите, чисто технические ошибки наличествуют и легко ловятся.
Отв: Координация сканирования и вычитки
Пожалуйста. Вот последняя
Мердок "Монахини и солдаты"
Отв: Координация сканирования и вычитки
Значительно лучше, нежели предыдущие. Техошибок, на мой взгляд. штуки три, скорее всего, связанных с различием в английском и русском, при цитировании писем. Одна ошибка, зато очень богатая :-) [Только пох perpetua…] - nox perpetua
Само собой, грамматику не проверял, и вычитку не делал.
Отв: Координация сканирования и вычитки
Чёрт. А мне казалось, что я все эти места выловила, их там несколько было. Надо отключать курсив - он "замыливает" ошибку.
Спасибо, теперь буду проверять тщательнЕе. ;)
А остальные? Можете их назвать?
Отв: Координация сканирования и вычитки
Мысли вслух.
Сейчас делаю книгу, где неграмотная служанка ведёт дневник.
В этом случае интенсивная подготовка текста в ФР (где можно сравнить проблематичные фрагменты со сканом), на мой взгляд, единственная возможность. Ну и, разумеется, скрипты - для вылова мусора, а вот с регэкспами и пр. придётся быть повнимательнее.
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Это в тексте так.
Отв: Координация сканирования и вычитки
Редакторский косяк? Насколько помню, в русском не начинают новую строку после запятых. Я бы исправил, чтобы по-нашему, по-бразильски смотрелось :-)
Отв: Координация сканирования и вычитки
На русском письма с обращением в начале большей частью передают таким образом. Ошибка это или нет - можно спорить (или НЕ спорить ;) ).
Для меня было важнее узнать, какие ошибки я пропускаю, в чём недостаток моего метода (Ваш "контроль" выглядит очень убедительно). Рада была выяснить, что пропустила всего одно место (и то - ДОЛЖНА была найти, явно мой косяк, а не метода).
Очень полезно было с Вами пообщаться. Да и результатом я довольна.
Кстати, для тех, кто тоже будет проверять фрагменты текста, написанные латиницей в курсиве: скрипт "Обзор и превращение элементов" при выборе "emphasis" показывает все курсивные слова. Там "пох" вместо "nox" можно будет увидеть.
Альтернатива - пройтись скриптом "переход на следующий курсив" и для проверки убрать курсив со слов, написанных латиницей.
Отв: Координация сканирования и вычитки
Да часто так письма офорляют.
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
раз пошла такая пьянка
http://lib.rus.ec/b/362294
Отв: Координация сканирования и вычитки
Как минимум:
«Встретимся у Филипп»[17], [—]думаю я
Тель-[а]вивского пляжа у нас нет
Они [маячут] у нас за спиной
Орфографическая норма сегодня: маячат. У Анненского - графическая рифма "маячут - плачут", авторское написание сохранено во многих современных изданиях.
— Планета десяти миллионов Снодлей, — сказал [Ян-кель].
Отв: Координация сканирования и вычитки
Таки больше нуля в достаточно насыщенном нерусскими словами тексте (спеллер ФБЭ поджигал чуть не каждое пятое слово).
И проколы - проглядел глазками.
Отв: Координация сканирования и вычитки
Хм, ни разу не видел, чтобы FR11 предпочел слово из словаря распознанному с ошибкой. "с" и "е" давно путаются при не очень качественной размытой печати. При чем тут интеллект? И он скорее "пидер" вместо "лидер" наOCRит. Небось каждый сталкивался с таким.
Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"...
Отв: Координация сканирования и вычитки
У этой сволочи есть "интеллект", но весьма своеобразный, девелоперы подтверждают. Самое простое доказательство - в тексте книги, где много раз встречается "мерс", ни разу оно не было распознано как "мерс", всегда как "мере". То же самое с пидером, который везде стал лидером, оба примера из старых книг Бушкова, распознавал не я. Второй пример: Юнкерс - Юнкере. И так далее, и тому подобное, включая подстановку тех слов, которых на скане нет и не было. Поэтому списать на плохое качество растра никак не получается. FR начинает подгонять слова под свой словарь, вот в этом и есть его "интеллект". А Ваши примеры его не касаются, одна буква для FR не повод ее исправлять, нет у него мозгов на самом деле :-) Это все его творцы выеживаются, чтобы в очередной раз заявить о небывалых процентах улучшения OCR в следующей версии.
Отв: Координация сканирования и вычитки
Очень бы хотелось пощупать это самому. Как-то не верится в описанное. Противоречит собственному опыту.
Может кто даст ссылочку на pdf/djvu книжку, в которой при распознании получались бы подобные артефакты?
Отв: Координация сканирования и вычитки
Попробовал сканировать и распознавать отключив словарь и выбрав новый язык. Ошибок стало на порядок больше. Например, очень большое количество букв "п" распозналось как "и". При этом да, "мерс и мере" стали отличаться. Но эта ошибка привычная и вылавливается скриптом "Поиск по набору регэкспов", а вот "п" и "и" менять почти в каждом слове очень утомительно. Поэтому вернулся к русскому и английскому со словарной поддержкой.
Отв: Координация сканирования и вычитки
Не жалеете Вы себя. В-)
Я пользуюсь только ФР и ФБЕ.
1. В ФР просматриваю каждую страницу, обращая внимание на неуверенно распознанные символы и подчёркнутые как ошибки слова.
2. После этого проверяю текст на склеенные абзацы - см. Советы TaKir'a.
3. Последняя версия ФР грешит разрывом абзацев в местах, где строка заканчивается точкой. Просматриваю ещё раз текст, включая непечатаемые символы, чтобы видеть конец абзаца.
4. Импортирую сразу в fb2.
5. Структурирование, форматирование и проверка скриптами (часть из которых позволяет исправить неверную пунктуацию и ошибки OCR) в ФБЕ.
6. Проверка орфографии при помощи встроенной опции ФБЕ.
Получается, кажется, неплохо. В-)
Отв: Координация сканирования и вычитки
Вот низашо мне не запомнить такие длинные алгоритмы...
Импортирую в fb2, потом структура-скрипты-вычитка-скрипты. Как правило, этого хватает.
Отв: Координация сканирования и вычитки
жму руку
Страницы