Координация сканирования и вычитки

Вы здесь Главная » Блоги » Блог пользователя larin Координация сканирования и вычитки Опубликовано пт, 03/12/2010 - 02:59 пользователем larin Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr Блог пользователя larin Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано вс, 22/07/2012 - 10:19 пользователем sem14 Можно исправлять либрусекитовые файлы. А можно брать книги в библиотеке. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано вс, 22/07/2012 - 10:28 пользователем laurentina1 Да мало ли.. Можно расставлять отсутствующие жанры, аннотации, обложки, полно работы с базой Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано вс, 22/07/2012 - 20:38 пользователем GMAP По секрету и на ушко - не думайте, что электронные книги на Литресе супер-пупер-идеал. Даже несмотря на утверждения о тексте, переданном правобладателем. Надысь, а может давеча, прогнал купленную книгу через софты - это что-нибудь особенного! И не поймешь кто виноват - автор, редактор, корректор, фбдвушник или еще кто-то. Ошибок море, и даже окиян.И грамматика, и орфография, и очепятки, а может просто безграмотность. Поэтому, покупка файла на Литресе не есть финал, надо вычитывать. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано вс, 22/07/2012 - 23:14 пользователем pulochka А может и правда, попробовать повычитывать? Я вот, читая многие книги ,вижу, что ошибок- море!Порой бывает, что невозможно читать! Попробовать что ли? Как это делается, через Ворд прогнать или через FBE , если файл fb2? Но дело в том еще, что мне очень нравится сканировать. Знаете, вот когда люди вяжут на спицах или крючком это их успокаивает или вот человек курит-это тоже примерно так же. У меня жизнь нервная, вот sem14 может примерно оценить, потому что знает. У каждого свои заморочки, поэтому я человек нервный, даже немного псих, наверно.((( И сканирование книг, сам ритуал- успокаивает и умиротворяет. И без книг я не могу-это как наркотик.))) Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пн, 23/07/2012 - 00:02 пользователем sem14 если честно - терпеть не могу сканировать а вот читать и вычитывать - с удовольствием если вычитывается/правится фб2 файл - то только в ФБЭдиторе тем более, что для либрусекитовых файлов надо править структуру Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пн, 23/07/2012 - 03:18 пользователем niksi pulochka написал: Но дело в том еще, что мне очень нравится сканировать. Если нравится, то надо продолжать. Зачем отказывать себе в удовольствиях. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 22:30 пользователем Zadd pulochka написал: А может и правда, попробовать повычитывать? Я вот, читая многие книги ,вижу, что ошибок- море!Порой бывает, что невозможно читать! Попробовать что ли? Как это делается, через Ворд прогнать или через FBE , если файл fb2? Никакого Ворда! Только в FBE. Или в блокноте, или в любом текстовом редакторе, который не нарушит структуру файла, Ворд для этого слишком "интеллектуален": он знает, что файл .fb2 является XML-файлом, ну и, соответственно, может решить, что это его родной, Вордовский, XML, ну и понаделает из fb2 - ТАКОЕ… Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пт, 27/07/2012 - 08:34 пользователем HEPO а вы на чем читаете? на компе/телефоне? Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пн, 23/07/2012 - 00:20 пользователем pulochka А как узнать нуждается книга в вычитке или нет? Есть какой-то список? Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пн, 23/07/2012 - 03:11 пользователем sem14 вопрос сложный, хотя Ларин как-то давал линк из статистики на файлы с черепушкой (трeбующие вычитки/верстки) а захотите ли вы их читать? я, например, ни за какие коврижки не буду вычитывать ЖЮФ и ЛР вы можете подключиться к сканировщикам и получить сканы на вычитку/верстку (Like Indigo, monochka) Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пн, 23/07/2012 - 01:51 пользователем Ergo80 Надо создавать базу книг, нуждающихся в повторной вычитке) Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано пн, 23/07/2012 - 03:13 пользователем sem14 http://lib.rus.ec/stat/q/q1 Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 02:39 пользователем GMAP Касаемо методов вычитки. Могу рассказать как это делаю я. Без малейших претензий на непреложную истину, на владение всеми фичами FBE (скриптами) и всем прочим. Мне так удобно, если будут найдены более продвинутые методы - welcome! После сканирования, файлы передаются в FR11 с отключенным "интеллектом", иначе могут быть ошибки из-за подстановки словарных слов. Добавляются пустые страницы для соответствия номерам страниц во всей книге. Проверяются колонтитулы - чтобы всегда были отдельными зонами, иначе придется править в распознанном тексте, а оно надо? Удаляются зоны типографских листов, поскольку FR11 их не зачисляет в колонтитулы, придется удалять руками в тексте. Распознается текст, если нигде нет грязи, попавшей в зону текста, то сохраняется в txt и doc, если грязь есть, текст проверяется в самом FR11. Текстовый файл прогоняется через EmEditor с макросом (черновая вычитка) на предмет разрывов абзацев, ошибок в знаках (тире - дефис, табулятор) и т.д. Потом в AfterScan на предмет явных косяков, выправке пробелов и знаков препинания. Затем в ОРФО - проверка орфографии и грамматики (последнее самое нудное и спорное, верить нельзя никому и ничему!), все это был этап предварительной вычитки. Затем в Word с макросом - форматирование текста и еще одна предварительная проверка текста, потом конверт в doc2fb. Финал: либо в FBE и вычитка глазами и мозгами, либо текст из Word-а в программу TextStat на предмет поиска неверных уникальных слов, бывает крайне полезно, поскольку составляется полный список ВСЕХ слов и их частота. Дальше форматирование в FBE, все банально и многократно описано. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 02:45 пользователем Алексей_Н Цитата: файлы передаются в FR11 с отключенным "интеллектом" Подскажите, как его отключить. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 05:43 пользователем GMAP Алексей_Н написал: Цитата: файлы передаются в FR11 с отключенным "интеллектом" Подскажите, как его отключить. Девелоперы такое выдали: Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет. По идее, отключение "интеллекта", которого, ессно, нет и никогда не было, должно подавить ошибки типа мерс - мере, пидер - лидер и т.д. Иногда слова берутся вообще с потолка и тогда "Твой поезд ушел" превращается в "Твой поезд запел". golma1 написал: Получается, кажется, неплохо. Респект и уважуха! Это Вы себя не жалеете :-). При таком подходе нужно каждое слово, каждую запятую проверить, вдобавок, зная все правила назубок. А я человек ленивый, мне проще перепоручить компу все действия, принимая решение только на конечной стадии. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 05:49 пользователем golma1 GMAP написал: Респект и уважуха! Это Вы себя не жалеете :-). При таком подходе нужно каждое слово, каждую запятую проверить, вдобавок, зная все правила назубок. А я человек ленивый, мне проще перепоручить компу все действия, принимая решение только на конечной стадии. На добром слове спасибо. :) А насчёт "каждое слово, каждую запятую", то я, как правило, имею дело с хорошими сканами, так что работы с распознаванием немного. Разве что последнее "пролистывание" на предмет поиска разорванных абзацев занимает чуть больше времени. А всё остальное - скрипты, спеллчек. Вот сегодня, например, было свободных 2 часа. Их хватила на всё про всё (сам документ распознала вчера - но это 10 минут, несчитово ;) ) Изумительный (как всегда) скан от Ronja_Rovardotter, в книге 508 страниц. А Вам сколько нужно времени на все Ваши программы? Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 14:20 пользователем GMAP golma1 написал: А Вам сколько нужно времени на все Ваши программы? Зависит от. Только не надо про суперскорость вычитки глазами и мозгами, она весьма конечна и ускорить ее ну никак не выйдет. Скрипту нужно минут 10-15 на книге среднего объема (400 страниц), АфтерСкан работает не быстро, минут 20 уходит, остальное как у всех. В общем и целом, часа три-четыре в общей сложности на книгу приходится тратить, а то и больше. От редакторов с корректорами тоже зависит. Но пока что безошибочных книг не попадалось, править приходится буквально все книги, где больше, где меньше, но все. И я в корне не согласен с утверждением, касаемо Волги впадающей в Тихий океан. Правил, правлю и буду впредь править все бумажные косяки. Меня не волнуют моральные проблемы, ибо файл не есть бумага, поэтому имею полное право на исправление любых косяков. Может это звучит кощунственно, но мне хочется чтобы глаз читающего не останавливался на явных ляпах. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 15:02 пользователем golma1 GMAP написал: golma1 написал: А Вам сколько нужно времени на все Ваши программы? Зависит от. Только не надо про суперскорость вычитки глазами и мозгами, она весьма конечна и ускорить ее ну никак не выйдет. Скрипту нужно минут 10-15 на книге среднего объема (400 страниц), АфтерСкан работает не быстро, минут 20 уходит, остальное как у всех. В общем и целом, часа три-четыре в общей сложности на книгу приходится тратить, а то и больше. От редакторов с корректорами тоже зависит. Но пока что безошибочных книг не попадалось, править приходится буквально все книги, где больше, где меньше, но все. И я в корне не согласен с утверждением, касаемо Волги впадающей в Тихий океан. Правил, правлю и буду впредь править все бумажные косяки. Меня не волнуют моральные проблемы, ибо файл не есть бумага, поэтому имею полное право на исправление любых косяков. Может это звучит кощунственно, но мне хочется чтобы глаз читающего не останавливался на явных ляпах. Ой, тут я растерялась. Такой напор, я бы даже сказала агрессия... :( Я сама перфекционистка и откровенные бумажные ляпы исправляю, так что меня в этом убеждать не надо. Но мне кажется, что мы говорили вовсе не об этом. В целом, вся моя интенция в том, что ФР - это довольно сильный инструмент. Со своими недостатками, глюками, разумеется (как и все остальные программы). Но если о них (проблемах) знать и уметь их учитывать, то использовать его просто для распознавания текста - это, в моих глазах, равносильно забиванию гвоздей микроскопом. Ну и совсем уж подытоживая: неважно, кто и как делает книги, важно - что получается в итоге. Вам нравится работать с полудюжиной программ, я предпочитаю использовать меньше программ, но более интенсивно. Уверена, что у Вас получаются хорошие книги, но и свои мне не стыдно показать. В-) Так что, по сути, спорить нам не о чем. Всего доброго. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 00:18 пользователем GMAP golma1 написал: спорить нам не о чем А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 01:02 пользователем Миррима GMAP написал: golma1 написал: спорить нам не о чем А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь. А можно - я? Ну, пожа-алуйста!!! Вот, свежую вчерашнюю прогоните, я хоть буду знать свой процент качества (даже учитывая его условность). http://lib.rus.ec/b/386460 А то меня хвалят за скорость - а вдруг она в ущерб качеству??? :( Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 02:47 пользователем GMAP Миррима написал: А то меня хвалят за скорость - а вдруг она в ущерб качеству??? :( К сожалению, особого качества не наблюдается. EmEditor Преподобный Джой засмеялся, но так, как смелются над проделками глупого котенка, и, кто знае[']т, смеясь, он мог уже прикидывать, как бы засунут котенка в мешок, добавить пару камушков и прогуляться к реке. Он завел глаза, чтобы разглядеть меня, — головы уже не[>]поднять, — и прошептал: ОРФО Преподобный Джой засмеялся, но так, как [смелются] над проделками глупого котенка, и, кто знает, смеясь, он мог уже прикидывать, как бы [засунут] котенка в мешок, добавить пару камушков и прогуляться к реке. Попытайся я уцепиться за него на ходу, мне бы, наверное, руку [отюрвало]. Вновь она повернулась ко мне — медленно-мед[-]ленно. Вид был такой — поджечь бы все это, а потом запахать золу и начать все заново, [чтоы] не мучиться. Надо бы, подумала я, отвести Джинкс в сторону и объяснить ей, [чт] с верующими спорить нет смысла, потому что, если им не удастся тебя убедить, они будут [вязатьс] к тебе со своими доводами снова и снова, пока ты не уверуешь, не солжешь [ил я] не наложишь на [себ] руки, только бы отстали. Его подготовили к погребению, созвали родных — и, [ко гда[ те собрались, мертвец внезапно ожил. Он где-то рядом, вонючка, [застранец], он ищет нас. — Вчера я чуть было не полезла в их тюк за спиртным. Со мной все было в порядке до прошлой ночи, пока я не учуяла этот запах, а тогда я готова была наброситься на эту милую [женшину] и драться с ней за глоток самогона, драться со всей их компанией. Грамматику не стал проверять, ибо нудно, ну и вычитывать тоже не стал. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 02:49 пользователем Миррима Угу, спасибо. :) А эту не затруднит? http://lib.rus.ec/b/384703 Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 02:49 пользователем golma1 Миррима написал: Угу, спасибо. недоумевая Вообще-то все эти ошибки вылавливаются скриптами и спеллчеком. update: кроме "смелются" - эта не выловится, поскольку такое слово есть в словаре. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 03:07 пользователем GMAP golma1 написал: все эти ошибки вылавливаются скриптами и спеллчеком С этим никто не спорит. Но ведь не делают и не проверяют. Про грамматику вообще молчу, ее даже в издательствах не могут толком проверить, наверное, полностью доверяют афтару, который маститый, популярный и книг у него вышло мильён. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 03:16 пользователем golma1 GMAP написал: Про грамматику вообще молчу, ее даже в издательствах не могут толком проверить, наверное, полностью доверяют афтару, который маститый, популярный и книг у него вышло мильён. Современные корректоры и редакторы - это отдельная больш(н)ая тема. Если раньше, для того чтобы выяснить, как правильно пишется слово, достаточно было найти его в книге, то теперь... :( Такое впечатление, что в издательствах даже простейшим спеллчеком не пользуются. Встретив в последней книге слово "мучал", я решила, что это опечатка. Но потом оно четырежды повторилось. Катастрофа. Может, я не в курсе, и правило было изменено? :( Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 03:29 пользователем GMAP golma1 написал: Такое впечатление, что в издательствах даже простейшим спеллчеком не пользуются. Зуб даю - либо не пользуются из-за наличия отсутствия присутствия, либо просто лень. А Инет под руками способен выдать практически любую инфу по любому вопросу. И как пишется, и что это такое :-) Ну, и где они, эти грамотные редакторы в издательствах? Не говорю уже о списках замеченных опечаток в виде вклейки к книге. Это было в бескомповую эру, но сейчас возможности возросли на порядки, ан нет, безграмотность издателей стала притчей во языцех. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 05:18 пользователем Verdi1 GMAP написал: Это было в бескомповую эру, но сейчас возможности возросли на порядки, ан нет, безграмотность издателей стала притчей во языцех. Ну, справедливости ради заметим, что в России сейчас в год издаётся больше названий, чем во всём СССР в пиковом для него по этому показателю 1974 году (статейку где-то встречал с такими данными). Так что некоторое падение качества вполне ожидаемо, а по сравнению с 1994-м, скажем, годом с качеством сейчас дела очень хорошо обстоят. А опечатки пираты исправят совершенно бесплатно, чего там. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 08:02 пользователем GMAP Verdi1 написал: что некоторое падение качества вполне ожидаемо Смотря что подразумевать под "некоторым падением". Скромно тешу себя надеждой, что укладываюсь в корректорские нормы - одна ошибка на 40 000 знаков. Но ни одна вычитанная мной книга, даже близко к этому результату не подходит. Я уже не говорю про искусственно раздуваемый объем книги. Вроде бы, по старым меркам, 300-400 страниц - изрядно, но ежели насовать пустых страниц с несколькими словами или какой-нить виньеткой, да шрифт покрупнее, то получается в полтора, а то и два раза меньше. То есть работы корректору меньше, а результат - хуже. Не знаю, сколько в издательствах на редактора и корректора приходится книг в месяц. И за какую зряплату они трудятся. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 16:22 пользователем sd GMAP написал: Скромно тешу себя надеждой, что укладываюсь в корректорские нормы - одна ошибка на 40 000 знаков. Уточнение: норма - одна ошибка на 20 000 знаков (две на авторский лист). Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 03:04 пользователем GMAP Миррима написал: А эту не затруднит? http://lib.rus.ec/b/384703 EmEditor мириться. <.. > На аэродроме чайной ложечки. <.. > Стоял октябрь исполнял паленке и мапале, но с ужа'сом ждал а настоящим ковбоем“. <.. > Общаясь Проверять в ОРФО не стал, время жалко :-) Как видите, чисто технические ошибки наличествуют и легко ловятся. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 02:43 пользователем golma1 GMAP написал: golma1 написал: спорить нам не о чем А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь. Пожалуйста. Вот последняя Мердок "Монахини и солдаты" Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 04:42 пользователем GMAP golma1 написал: Вот последняя Значительно лучше, нежели предыдущие. Техошибок, на мой взгляд. штуки три, скорее всего, связанных с различием в английском и русском, при цитировании писем. Одна ошибка, зато очень богатая :-) [Только пох perpetua…] - nox perpetua Само собой, грамматику не проверял, и вычитку не делал. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 05:28 пользователем golma1 GMAP написал: Одна ошибка, зато очень богатая :-) [Только пох perpetua…] - nox perpetua Чёрт. А мне казалось, что я все эти места выловила, их там несколько было. Надо отключать курсив - он "замыливает" ошибку. Спасибо, теперь буду проверять тщательнЕе. ;) А остальные? Можете их назвать? Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 07:47 пользователем golma1 Мысли вслух. Сейчас делаю книгу, где неграмотная служанка ведёт дневник. В этом случае интенсивная подготовка текста в ФР (где можно сравнить проблематичные фрагменты со сканом), на мой взгляд, единственная возможность. Ну и, разумеется, скрипты - для вылова мусора, а вот с регэкспами и пр. придётся быть повнимательнее. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 07:53 пользователем GMAP golma1 написал: GMAP написал: А остальные? Можете их назвать? Я уже удалил файлы. Разрывы абзацев в начале обращения в письмах, что-то вроде: Дорогой Том, пишу... Либо с большой буквы должна быть следующая строка, как это принято у них: Дорогой Том, Пишу... Либо Enter убрать, как это принято у нас: Дорогой Том, пишу... А так - ни нашим, ни вашим. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 08:11 пользователем UTC GMAP написал: Разрывы абзацев в начале обращения в письмах, что-то вроде: Дорогой Том, пишу... Это в тексте так. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 08:41 пользователем GMAP UTC написал: Это в тексте так. Редакторский косяк? Насколько помню, в русском не начинают новую строку после запятых. Я бы исправил, чтобы по-нашему, по-бразильски смотрелось :-) Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 08:53 пользователем golma1 GMAP написал: UTC написал: Это в тексте так. Редакторский косяк? Насколько помню, в русском не начинают новую строку после запятых. Я бы исправил, чтобы по-нашему, по-бразильски смотрелось :-) На русском письма с обращением в начале большей частью передают таким образом. Ошибка это или нет - можно спорить (или НЕ спорить ;) ). Для меня было важнее узнать, какие ошибки я пропускаю, в чём недостаток моего метода (Ваш "контроль" выглядит очень убедительно). Рада была выяснить, что пропустила всего одно место (и то - ДОЛЖНА была найти, явно мой косяк, а не метода). Очень полезно было с Вами пообщаться. Да и результатом я довольна. Кстати, для тех, кто тоже будет проверять фрагменты текста, написанные латиницей в курсиве: скрипт "Обзор и превращение элементов" при выборе "emphasis" показывает все курсивные слова. Там "пох" вместо "nox" можно будет увидеть. Альтернатива - пройтись скриптом "переход на следующий курсив" и для проверки убрать курсив со слов, написанных латиницей. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 09:39 пользователем J_Blood UTC написал: GMAP написал: Разрывы абзацев в начале обращения в письмах, что-то вроде: Дорогой Том, пишу... Это в тексте так. Да часто так письма офорляют. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 08:28 пользователем golma1 GMAP написал: golma1 написал: GMAP написал: А остальные? Можете их назвать? Я уже удалил файлы. Разрывы абзацев в начале обращения в письмах, что-то вроде: Дорогой Том, пишу... Либо с большой буквы должна быть следующая строка, как это принято у них: Дорогой Том, Пишу... Либо Enter убрать, как это принято у нас: Дорогой Том, пишу... А так - ни нашим, ни вашим. А, ясно. Спасибо. Нет, это не ошибка, так должно быть. Вторая строка вовсе не должна начинаться с большой буквы. Что радует, так это то, что скрипты это место тоже "вычисляют". Так что у нас с Вами параллельные курсы. :) Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 05:34 пользователем sem14 раз пошла такая пьянка http://lib.rus.ec/b/362294 Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 08:35 пользователем GMAP sem14 написал: раз пошла такая пьянка Как минимум: «Встретимся у Филипп»[17], [—]думаю я Тель-[а]вивского пляжа у нас нет Они [маячут] у нас за спиной Орфографическая норма сегодня: маячат. У Анненского - графическая рифма "маячут - плачут", авторское написание сохранено во многих современных изданиях. — Планета десяти миллионов Снодлей, — сказал [Ян-кель]. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 10:15 пользователем sem14 Таки больше нуля в достаточно насыщенном нерусскими словами тексте (спеллер ФБЭ поджигал чуть не каждое пятое слово). И проколы - проглядел глазками. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 17:38 пользователем c-rank GMAP написал: Алексей_Н написал: Цитата: файлы передаются в FR11 с отключенным "интеллектом" Подскажите, как его отключить. Девелоперы такое выдали: Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет. По идее, отключение "интеллекта", которого, ессно, нет и никогда не было, должно подавить ошибки типа мерс - мере, пидер - лидер и т.д. Иногда слова берутся вообще с потолка и тогда "Твой поезд ушел" превращается в "Твой поезд запел". ... Хм, ни разу не видел, чтобы FR11 предпочел слово из словаря распознанному с ошибкой. "с" и "е" давно путаются при не очень качественной размытой печати. При чем тут интеллект? И он скорее "пидер" вместо "лидер" наOCRит. Небось каждый сталкивался с таким. Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"... Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 00:42 пользователем GMAP c-rank написал: Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"... У этой сволочи есть "интеллект", но весьма своеобразный, девелоперы подтверждают. Самое простое доказательство - в тексте книги, где много раз встречается "мерс", ни разу оно не было распознано как "мерс", всегда как "мере". То же самое с пидером, который везде стал лидером, оба примера из старых книг Бушкова, распознавал не я. Второй пример: Юнкерс - Юнкере. И так далее, и тому подобное, включая подстановку тех слов, которых на скане нет и не было. Поэтому списать на плохое качество растра никак не получается. FR начинает подгонять слова под свой словарь, вот в этом и есть его "интеллект". А Ваши примеры его не касаются, одна буква для FR не повод ее исправлять, нет у него мозгов на самом деле :-) Это все его творцы выеживаются, чтобы в очередной раз заявить о небывалых процентах улучшения OCR в следующей версии. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 01:12 пользователем c-rank GMAP написал: c-rank написал: Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"... У этой сволочи есть "интеллект", но весьма своеобразный, девелоперы подтверждают. Самое простое доказательство - в тексте книги, где много раз встречается "мерс", ни разу оно не было распознано как "мерс", всегда как "мере". То же самое с пидером, который везде стал лидером, оба примера из старых книг Бушкова, распознавал не я. Второй пример: Юнкерс - Юнкере. И так далее, и тому подобное, включая подстановку тех слов, которых на скане нет и не было. Поэтому списать на плохое качество растра никак не получается. FR начинает подгонять слова под свой словарь, вот в этом и есть его "интеллект". А Ваши примеры его не касаются, одна буква для FR не повод ее исправлять, нет у него мозгов на самом деле :-) Это все его творцы выеживаются, чтобы в очередной раз заявить о небывалых процентах улучшения OCR в следующей версии. Очень бы хотелось пощупать это самому. Как-то не верится в описанное. Противоречит собственному опыту. Может кто даст ссылочку на pdf/djvu книжку, в которой при распознании получались бы подобные артефакты? Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано чт, 26/07/2012 - 02:46 пользователем Алексей_Н Попробовал сканировать и распознавать отключив словарь и выбрав новый язык. Ошибок стало на порядок больше. Например, очень большое количество букв "п" распозналось как "и". При этом да, "мерс и мере" стали отличаться. Но эта ошибка привычная и вылавливается скриптом "Поиск по набору регэкспов", а вот "п" и "и" менять почти в каждом слове очень утомительно. Поэтому вернулся к русскому и английскому со словарной поддержкой. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 02:56 пользователем golma1 GMAP написал: Касаемо методов вычитки. Могу рассказать как это делаю я. Без малейших претензий на непреложную истину, на владение всеми фичами FBE (скриптами) и всем прочим. Мне так удобно, если будут найдены более продвинутые методы - welcome! После сканирования, файлы передаются в FR11 с отключенным "интеллектом", иначе могут быть ошибки из-за подстановки словарных слов. Добавляются пустые страницы для соответствия номерам страниц во всей книге. Проверяются колонтитулы - чтобы всегда были отдельными зонами, иначе придется править в распознанном тексте, а оно надо? Удаляются зоны типографских листов, поскольку FR11 их не зачисляет в колонтитулы, придется удалять руками в тексте. Распознается текст, если нигде нет грязи, попавшей в зону текста, то сохраняется в txt и doc, если грязь есть, текст проверяется в самом FR11. Текстовый файл прогоняется через EmEditor с макросом (черновая вычитка) на предмет разрывов абзацев, ошибок в знаках (тире - дефис, табулятор) и т.д. Потом в AfterScan на предмет явных косяков, выправке пробелов и знаков препинания. Затем в ОРФО - проверка орфографии и грамматики (последнее самое нудное и спорное, верить нельзя никому и ничему!), все это был этап предварительной вычитки. Затем в Word с макросом - форматирование текста и еще одна предварительная проверка текста, потом конверт в doc2fb. Финал: либо в FBE и вычитка глазами и мозгами, либо текст из Word-а в программу TextStat на предмет поиска неверных уникальных слов, бывает крайне полезно, поскольку составляется полный список ВСЕХ слов и их частота. Дальше форматирование в FBE, все банально и многократно описано. Не жалеете Вы себя. В-) Я пользуюсь только ФР и ФБЕ. 1. В ФР просматриваю каждую страницу, обращая внимание на неуверенно распознанные символы и подчёркнутые как ошибки слова. 2. После этого проверяю текст на склеенные абзацы - см. Советы TaKir'a. 3. Последняя версия ФР грешит разрывом абзацев в местах, где строка заканчивается точкой. Просматриваю ещё раз текст, включая непечатаемые символы, чтобы видеть конец абзаца. 4. Импортирую сразу в fb2. 5. Структурирование, форматирование и проверка скриптами (часть из которых позволяет исправить неверную пунктуацию и ошибки OCR) в ФБЕ. 6. Проверка орфографии при помощи встроенной опции ФБЕ. Получается, кажется, неплохо. В-) Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 05:02 пользователем Миррима Вот низашо мне не запомнить такие длинные алгоритмы... Импортирую в fb2, потом структура-скрипты-вычитка-скрипты. Как правило, этого хватает. Отв: Координация сканирования и вычитки Постоянная ссылка (Permalink) Опубликовано ср, 25/07/2012 - 05:49 пользователем sem14 жму руку Страницы « первая ‹ предыдущая … 2 3 4 5 6 7 8 9 10 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 1 день TaKir RE:Валерия Сергеевна Черепенчук   А. Н. Николаева - Мифы... 2 дня Oleg V.Cat RE:B343695 Александр. Книга 1 3 дня Isais RE:Калибрятина/Самиздатина 5 дней md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 1 неделя SergL197 RE:Регистрация 1 неделя ejik.v RE:Viva Stiver! 1 неделя RedRoses3 RE:Флибуста конец? 1 неделя Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 3 недели Isais RE:B157704 Черепаха Киргала 3 недели sem14 RE:Литературная премия «Ясная Поляна» 3 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 4 недели Isais RE:Обновление FictionBook Editor 1 месяц Alex_61 RE:Windows 7 безопасна благодаря помощи NSA??? 1 месяц Впечатления о книгах Дей про Гаврик: Закуска с характером (Любовная фантастика, Попаданцы, Самиздат, сетевая литература) 03 11 А ведь и правда хорошо. Отличная женская сказка, не стыдно посоветовать. Оценка: хорошо ikravtso про Вячеслав Александрович Каликинский 03 11 Романы про Агасфера интересные, хотя первый очень "рваный", сложно понять, что за чем происходит, время действия постоянно скачет. А вот фразы на иностранных языках - это некое "твоя моя не понимай". Даже гугль-перевод лучше ……… Дей про Шах: Купеческая дочь замуж не желает (Фэнтези, Попаданцы, Самиздат, сетевая литература) 02 11 Молочный ряд был богатым, представлено все разнообразие молочной продукции здешних краев. Просто молоко, сметана, творог, масло, различные сыры — полутвердые, овечьи, козий сыр. Не заметила плавленого сыра. И кисломолочных ……… Оценка: плохо Sello про Аллен: Побочные эффекты [Авторский сборник] [Side Effects ru] (Современная проза) 02 11 Его тексты - как если бы, скажем, идя в обратном направлении, посмотреть фильм "Голый пистолет" и после того по нему написать рассказ. Сюр с элементами специфического юмора или, наоборот, юмор с вкраплениями сюра. Но есть ……… Оценка: хорошо Её Лунная Тень про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература) 01 11 Грузите запятые бочками. Братья Куромазовы". Автор - двоечник и графоман. Оценка: нечитаемо andmalin про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература) 01 11 Довольно неплохо , если первую еле одолел , то вторую и третью прочитал с удовольствием . Оценка: хорошо decim про Ансари: Цивилизация рассказчиков: как истории становятся Историей [litres] (История, Публицистика, Обществознание) 31 10 За несколько веков на кострах были сожжены десятки тысяч ведьм" - автор повторяет кровавый навет протестантов на католиков, пошедший со времени соперничества Англии и Испании, и убедительно расписанный Шарлем де Костером. ……… Оценка: плохо udrees про Кронин: Замок Броуди [litres] [Hatter's Castle ru] (Классическая проза) 30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо udrees про Кронин: Замок Броуди [Hatter's Castle ru] (Классическая проза) 30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо udrees про Дебрецени: Холодный крематорий. Голод и надежда в Освенциме [litres] (Биографии и Мемуары, Публицистика) 30 10 Жутковатая книга про жизнь в лагере смерти, написана со всеми подробностями, ужасами быта, зверствами, убийствами. Поражает, что хотя Освенцим советские войска освободили еще в конце февраля 1945 года, тем не менее автор книги ……… Оценка: хорошо udrees про Быкова: Самостоятельный ребенок, или Как стать «ленивой мамой» (Педагогика, Детская психология) 30 10 Книга психолога о том как можно воспитать самостоятельного ребенка. Инструкции и советы интересные, жалко что требуют много времени и усилий. Я думаю не каждая мама и тем более папа смогут иногда терпеть мнение ребенка, но ……… Оценка: хорошо udrees про Быкова: Развивающие занятия «ленивой мамы» (Педагогика, Детская психология) 30 10 Простенькое пособие для мам как развлекать своих маленьких детей, какие придумать, использовать игры, которые улучшат память, мышление, воображение, сделают творческой и самостоятельной личностью. В принципе все эти игры реальны ……… Оценка: хорошо больше впечатлений