Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 2 дня
TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 4 дня Oleg V.Cat RE:B343695 Александр. Книга 1 4 дня Isais RE:Калибрятина/Самиздатина 6 дней md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 1 неделя SergL197 RE:Регистрация 1 неделя ejik.v RE:Viva Stiver! 1 неделя RedRoses3 RE:Флибуста конец? 1 неделя Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 3 недели Isais RE:B157704 Черепаха Киргала 3 недели sem14 RE:Литературная премия «Ясная Поляна» 3 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 4 недели Isais RE:Обновление FictionBook Editor 1 месяц Alex_61 RE:Windows 7 безопасна благодаря помощи NSA??? 1 месяц Впечатления о книгах
Дей про Гаврик: Новая хозяйка блуждающей лавки [СИ] (Любовная фантастика, Самиздат, сетевая литература)
05 11 Какая же мерзость хахаль ГГ, вот уж воистину странные вкусы у некоторых дамочек. Оценка: плохо
Дей про Гаврик: Закуска с характером (Любовная фантастика, Попаданцы, Самиздат, сетевая литература)
03 11 А ведь и правда хорошо. Отличная женская сказка, не стыдно посоветовать. Оценка: хорошо
ikravtso про Вячеслав Александрович Каликинский
03 11 Романы про Агасфера интересные, хотя первый очень "рваный", сложно понять, что за чем происходит, время действия постоянно скачет. А вот фразы на иностранных языках - это некое "твоя моя не понимай". Даже гугль-перевод лучше ………
Дей про Шах: Купеческая дочь замуж не желает (Фэнтези, Попаданцы, Самиздат, сетевая литература)
02 11 Молочный ряд был богатым, представлено все разнообразие молочной продукции здешних краев. Просто молоко, сметана, творог, масло, различные сыры — полутвердые, овечьи, козий сыр. Не заметила плавленого сыра. И кисломолочных ……… Оценка: плохо
Sello про Аллен: Побочные эффекты [Авторский сборник] [Side Effects ru] (Современная проза)
02 11 Его тексты - как если бы, скажем, идя в обратном направлении, посмотреть фильм "Голый пистолет" и после того по нему написать рассказ. Сюр с элементами специфического юмора или, наоборот, юмор с вкраплениями сюра. Но есть ……… Оценка: хорошо
Её Лунная Тень про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Грузите запятые бочками. Братья Куромазовы". Автор - двоечник и графоман. Оценка: нечитаемо
andmalin про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Довольно неплохо , если первую еле одолел , то вторую и третью прочитал с удовольствием . Оценка: хорошо
decim про Ансари: Цивилизация рассказчиков: как истории становятся Историей [litres] (История, Публицистика, Обществознание)
31 10 За несколько веков на кострах были сожжены десятки тысяч ведьм" - автор повторяет кровавый навет протестантов на католиков, пошедший со времени соперничества Англии и Испании, и убедительно расписанный Шарлем де Костером. ……… Оценка: плохо
udrees про Кронин: Замок Броуди [litres] [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Кронин: Замок Броуди [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Дебрецени: Холодный крематорий. Голод и надежда в Освенциме [litres] (Биографии и Мемуары, Публицистика)
30 10 Жутковатая книга про жизнь в лагере смерти, написана со всеми подробностями, ужасами быта, зверствами, убийствами. Поражает, что хотя Освенцим советские войска освободили еще в конце февраля 1945 года, тем не менее автор книги ……… Оценка: хорошо
udrees про Быкова: Самостоятельный ребенок, или Как стать «ленивой мамой» (Педагогика, Детская психология)
30 10 Книга психолога о том как можно воспитать самостоятельного ребенка. Инструкции и советы интересные, жалко что требуют много времени и усилий. Я думаю не каждая мама и тем более папа смогут иногда терпеть мнение ребенка, но ……… Оценка: хорошо |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Отлично, давно было пора собрать до кучи все наработки.
Спасибо, TaKir!
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо. Давненько такие штучки не обновлялись.
Проверил на одном файле.
Редактор ругается на данную строку:
И часто появляется сообщение, что сценарий тормозит работу эксплорера.
В остальном всё норм.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
addRegExp("( кое[A-Za-zА-яЁё]{3})","i","Найдено: возможно, пропущенный дефис");
вот так должно быть, потерялась скобка перед "пробел+кое"
А про торможение эксплорера у меня ни разу не ругалось. Т.е. вообще с 2007 г никогда такого не было.
UPD. Ссылка на неругающийся файл обновлена в старт-посте.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо за обновление!
У меня в ФБЕ стоит версия 2.9, дополненная wotti, Roxana и другими. Материалы версии 2.9 вошли в предложенный релиз?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Выложи плиз свой файлик, я проверю. По идее придумывалось и собиралось все, что можно и тестировалось. Можно в личку, если так проще.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прикреплять здесь некуда, так что ссылка на Дропбокс: https://www.dropbox.com/s/j74awi24vigsvw2/04_Regexps_Search.zip?dl=0
Если ссылка окажется недоступной, скажите -- что-то Дроп глючит давно и по-свински.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо, скачал, при беглом взгляде - по содержанию - это довольно старая версия этого же скрипта, новый существенно расширен.
Но после выходных поизучаю более внимательно, если что в моем не учтено, добавлю.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Как под горкой под горой( торговал мужик золой.
Как под горкой под горой « торговал мужик золой .
Есть и другие, дойду до них, тогда тоже выложу.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице"
Тогда будет гораздо меньше лишних срабатываний.
Добавил эту рекомендацию в стартпост.
Но оторванную скобку и кавычку добавить в скрипт нет проблем, конечно.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прилипший дефис в конце строки в стихах не находит, а надо бы!
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прилипший дефис проверим! )
Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа:
млн. рублей
тыс. человек
добавлю в скрипт, чтобы пропускал такие вещи.
т.д. и т.п. уже учтены
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна.
http://new.gramota.ru/spravka/docs?layout=item&id=16_15
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
+100500!
Также не не нужна точка в сокращениях млрд, трлн, км, га -- то есть таких, которые сокращаются "фигурно" -- выбросили кусок слова в одном месте, потом в другом, осталось пара-тройка букв из разных мест -- вот такие слова не требуют точек в конце.
А вообще по сокращениям и как они пишутся есть довольно-таки толстый словарь с убористым текстом... Всё в скрипт не переписать. :(
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Если в книге уже написано "млн. руб." или "млрд. человек" - будем удалять точки? Или оставляем как "написано пером"? Какая политика партии?
Если мне не изменяет мой склероз, то при оцифровке всегда шли от презумпции "неприкосновенности" написанного, кроме, возможно, явных очепяток.
Скрипту планируется указать просто пропускать такие сокращения с точкой, буде они встретятся.
Просто частенько бывает слишком много стандартных сокращений в книге, и хотелось бы, чтобы скрипт их пропускал.
Никаких исправлений в тексте скрипт не делает, если кто еще не в курсе, он всего лишь останавливается на подозрительных местах.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Из найденного на скорую руку (речь о наиболее распространенных сокращениях, весь словарь нам не нужен, конечно).
в.
г.
вв.
гг.
млн.
млрд.
трлн.
тыс.
сокр.
и т.д.
т.к.
т.е.
т.п.
т.о.
т.ч.
н. э.
чел.
экз.
руб.
коп.
долл.
др.
пр.
проч.
см.
ср.
англ.
фр.
нем.
исп.
лат.
прим.
перев.
авт.
ред.
рук.
мин.
сек.
стр.
мм.
кг.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
"Мм" и "кг" относятся как раз к той разновидности сокращений, алгоритм для которой я написал выше: буквы выброшены выборочно, поэтому точки не нужны!
Если где-то есть -- это или ошибка, или соринка прилипла к бумаге.
И -- Вы куда-то выходили, когда я говорил, что ни в "ТРЛН", ни в "МЛН", ни в "МЛРД" точка не должна стоять?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно ли научить скрипт такое находить?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Да, конечно, без проблем.
addRegExp("[\\.]-","","Найдено: неправильные дефисы-тире");
В новой версии будет включено в поиск.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Думаю, в заголовках и подзаголовках это лишнее. Постоянно о римские цифры спотыкается.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно вот так скорректировать, чтобы скрипт искал после конца фразы и на заголовках и подзаголовках не тормозил.
addRegExp("([\\.!\\?][\\x20\\xA0\\t\\n\\r\\f])II(?![а-яё])","i", "Найдено: слово \"II\" (\"И\" с опечаткой)","-title -subtitle");
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Обновленная версия скрипта в шапке.
Дублирую тут тоже.
- Многое добавлено, переработано и исправлено.
- Все упоминавшиеся в теме тут и на Флибусте ошибки учтены.
- Сравнение с другими версиями скрипта произведено, там ничего не было, чего уже не было бы в полной версии.
- Добавлен пропуск сокращений, чтобы не было лишних срабатываний. (Очередной раз огромное спасибо Sclex!)
- Улучшен поиск кириллицы в латинице, в том числе в инициалах, англоязычных списках литературы.
На 26-09-2019 собрано 395 поисковых строк, из них рабочих - 385, макросов - 7 штук.
// заремленных поисковых строк - 10 штук (из-за частых лишних срабатываний.)
Ссылка на последнюю версию скрипта (26-09-2019):
https://my-files.ru/mkvr2n
Просьба тестировать.
Еще раз напоминаю, что скрипт НЕ ПРОИЗВОДИТ НИКАКИХ ИЗМЕНЕНИЙ В ФАЙЛЕ книги, а только останавливается на "подозрительных" местах в тексте. Все исправления делаются по необходимости руками, если действительно найдена ошибка.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно добавить... на плохих сканах бывает полезно. В основном замедляет проверку конечно...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не тестил, но в любом случае спасибо за проделанную работу.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо за проделанную работу!
Протестировал скрипт на уже вычитанной книге. Многократное нажатие горячей клавиши (поставил F4, так как рекомендуемая F2 уже зарезервирована) привело к опуханию пальца в конце работы из-за многочисленных ложных срабатываний. Но к разработчикам претензий нет, так как в таком сложном скрипте без этого не обойтись. Что было отмечено: как подозрительное выделяется слово ею (творительный падеж местоимения она); яиц (родительный падеж слова яйца), начало имени или инициалы после тире. Не совсем ясно, как все-таки будет с сокращениями. В книге на которой тестировался скрипт сокращения т (тонна) ц (центнер), написанные в соответствии с правилами, т.е. без точки, выделялись как ошибочные.
В качестве предложения хочу сказать следующее: расширить список воспринимаемых сокращений в том числе исторических. Например, слово Президент (с заглавной буквы в середине предложения) скрипт пропускал, а вот словосочетание ЦК (центральный комитет) выделял. Также известная аббревиатура ВКП(б) выделялась скриптом, хотя это сочетание известно всем, родившимся до 1985 года. Может и КПСС тоже выделит как ошибку? Да, и еще - неплохо бы решить проблему с религиозной терминологией. Сплошь и рядом слова бог, библия, господь, и т.д. пишут с заглавной буквы, хотя в печатных оригиналах эти слова писались и должны писаться строчными. Как будет скрипт реагировать на эти вещи?
В целом, несмотря на известное предубеждение в отношении скриптов и вообще автоматизации работы, считаю данный скрипт полезным, так как помимо бесчисленного количества ложных срабатываний он сумел найти и реальные ошибки, пропущенные в ходе двукратной вычитки. Хотя палец от многократных нажатий и болит.
Еще раз спасибо!
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо за отзыв!
Объясню немного логику работы этого скрипта:
Скрипт в основном заточен на работу с худлитом. Для научпопа его использовать можно, но может быть именно как у вас, палец устанет.
Скрипт не только выделяет сомнительные места в тексте, но и пишет в строке состояния, внизу экрана редактора, что именно найдено и почему.
"ею" - часто после скана это "его"
"яиц" - "лиц" и т.д.
Отдельно встречающиеся в тексте согласные скрипт воспринимает такие же как ошибки - "ц" - возможно "и", да и вообще, отдельно стоящие согласные довольно редко встречаются в реальных текстах.
Т.е. это именно частые ошибки распознавания, встречающиеся после файнридера.
Учтите, скрипт не человек, он не умеет анализировать смысл текста, ему все равно - "Президент" или "Бог" или "Библия".
Скрипт ищет "ошибки" по формальным признакам, например, после слова и точки в 99% случаев начинается новый абзац или новая фраза, а она чаще всего - с большой буквы. Вот если тут буква маленькая, то скрипт отмечает такое место.
Всякие ЦК скрипт находит как 2 согласных подряд, что тоже в текстах бывает крайне редко, часто в таких местах должно быть что-то другое. Скрипт не понимает, что это именно ЦК, там могло быть и ХЗ и РВ - скрипт не умеет понимать написанное.
Аналогично с отдельностоящими 2-3 гласными - обычно это редко встречается и может означать ошибку.
ВКП(б) - буквы с прилипшими скобками - в обычных текстах такого не должно быть.
Можно, конечно, впихнуть в него все возможные сокращения, но не думаю, что это будет к лучшему.
Опять же, от конкретной книги зависит.
На каком-нибудь учебнике может быть столько ложных срабатываний, что проще не пользоваться этим скриптом вообще.
Либо сделать 2-3... версии скрипта, заточенных под разные типы текстов, как уже тут предлагалось.
Т.е. мы пытаемся предусмотреть и вписать в скрипт именно типичные наиболее распространенные подозрительные места в тексте.
Понятно, что ложные срабатывания бывают, куда же без них.
Но то, что можно четко формализовать и добавить в скрипт - буду стараться добавлять.
Если дадите ссылку на вашу книгу - погоняю по ней, посмотрю, на чем спотыкается, может получится уменьшить количество ложных остановок.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Универсального скрипта в любом случае создать не удастся. Имеется в виду, чтобы и ошибки находил, и ложных срабатываний не было. Многое зависит от тематики и характера текста.
Вообще-то каждому можно отредактировать скрипт под себя или разбить его на несколько скриптов и гонять частями, если палец устает. Редактировать сложнее - надо понимать функцию каждой строки.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Количество ложных срабатываний можно уменьшить, если подключатся светлые головы и помогут с примерами и формализацией поисковых запросов.
В одно рыло перебрать столько вариантов у меня банально фантазии и времени не хватает.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Особо не заморачивайтесь. Я прекрасно понимаю возможности скриптов и связанные с ними ограничения. Поэтому еще раз повторюсь - к разработчикам претензий нет. Стремление уменьшить число ложных срабатываний может привести к другому результату - будет увеличиваться число пропущенных ошибок. Для меня было важно то, что даже в вычитанном тексте удалось найти незамеченные ошибки. Тут надо просто подумать, на каком этапе ваш скрипт запускать - в начале вычитки или после первого прохода. Вполне согласен, что нужно учитывать тип издания. В специальных работах, после выявления типичных ошибок, может быть целесообразно вместо скрипта запустить несколько поисков с заменой или поиск и замену с регулярными выражениями. В общем, варианты есть, но этому скрипту место наверняка найдется.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А зачем F4? Я на панели в FBE добавила ссылку (иконку) - и мышкой. Всё удобней, чем пальцем. Если текст большой, то можно мозоль заработать :)
ЗЫ: Проверила работу скрипта, правда текст был небольшой. Замечаний нет. Может что в дальнейшем найдется.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ваш юмор не оценила. :(
Мышкой работать гораздо удобнее.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Для данной операции - сомнительно. Особенно сомнительна необходимость вывихивания шеи при тыкании мышкой в верхний угол и рассматривании сомнительного места в тексте, находящегося иногда внизу экрана, при работе на большом (от 22" и больше) экране.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Привычка свыше нам дана, Замена счастию она. А.С.П.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну отчего же сомнительно? Кнопку F1 (или F4, или любую) - можно повесить на клавишу мыши (если есть нормальная мышка) и тогда комфорта выше крыши - тыкание мышкой и рассматривание сомнительного места в тексте происходит практически в одно и том же месте.
Из замеченного: скрипт "конец строк без точек" в чем-то дублирует работу отдельного скрипта "Интерактивная ликвидация разрывов абзацев". Возможно, для облегчения работы "Поиска по набору регэкспов" в будущем убрать подобный дубляж?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Сомнительное удобство - в описанной Антониной ситуации - десятки и сотни раз тыкать мышкой в иконку на панели.
А назначенной кнопкой мыши - ну может и удобнее, хотя меня допкнопки на мыши всегда бесили, мелкие, руку приходится крючить больше, чем хотелось бы, тем более для частого одноообразного многократного нажатия. Потому хоткеи для типичной рутины - лично мое все )
По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов ))
Потому мне гораздо проще найти подозрительные разрывы строк кнопкой F2 и по факту руками поправить, если надо.
Облегчить работу скрипта убирание 1 строки не поможет, а дополнительный контроль такой типичнейшей фигни, как разрыв абзаца, не помешает.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Любой, если считает строку лишней, может ее убрать из скрипта. Только найти надо.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Найти и убрать (а лучше заремить в начале строки //) не проблема, поскольку скрипт, когда находит что-то, пишет в строке состояния, что именно он нашел.
Вот это описание, надо, открыв файл скрипта блокнотом, набрать в поиске и поисковая строчка найдется. (строк ищущих одно и то же, в скрипте может быть больше одной).
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
"в описанной Антониной ситуации" - таки да, согласен.
"руку приходится крючить больше, чем хотелось бы" - крючить совершенно не приходится - программируемая доп кнопка под указательным пальцем, практически там же, где и ЛК мыши. Ну, или на выбор - кнопка сразу под большим пальцем. Это если нормальная мышка.
"По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов" - для одной ошибки да, но и для правки нескольких сот ошибок одним кликом - штука весьма удобная. Никто на знает заранее, сколько и каких ошибок чудных готовит редактируемый текст. И как удобнее (каким скриптом) их исправлять.
Впрочем, я не спорю - я обмениваюсь мнениями.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
У меня на мышке Logitech M705 нет кнопки под указательным пальцем.
А возле большого есть, но мне она ну очень неудобна.
Если сразу много надо исправить одним кликом - то да. Но у меня много разрывов абзацев никогда не бывает, я эти вещи на этапе ФР, потом скриптом на этапе ворда исправляю.
Потом в Fiction Book Designer остатки добиваю.
Ну а если 1-2 штуки в FBE просочится, то там уже "Поиском по регэкспам". Но это если сам сканишь, распознаешь и верщешь.
А если чужую готовую книгу в FBE надо править, то там да, всякое может быть.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Этот Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251.(всякие там плюс-минус, мат.символы, умляуты, диакритику и т.д.)
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
"Дядя, ты дурак"? (с)
Никаких проблем с этим в Fiction Book Designer нет и не было.
Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Насчёт прямых рук: некоторые и после Калибри ухитряются пройти в FBE и получить вменяемый файл. А большинство тупо сразу заливает файл после Калибри даже и не догадываясь, как Калибря уродует файл.
Нормальный человек вообще не станет использовать Калибрю, а сделает хороший файл без её использования.
Подозреваю, что и без FBD и FBW можно обойтись. Можно же сразу копипастить в FBE и получить хороший результат, а можно взять и ррраз! бац! сохранить в FR в fb2 и получить дерьмо на выходе. И ведь мало кто будет это дерьмо обрабатывать в FBE, сразу понесут заливать в библиотеку.
Я вообще-то в разделе /soft читал, что FBD и FBW портят файлы, поэтому к ним надо относиться с осторожностью, а лучше и вообще не использовать.
Про юникодные символы моя придумка, но неоднократно читал и на Либрусеке и на Флибусте и на рутрекере книги, в которых именно те "фефекты фикции", которые я описал: если в тексте идет какой-нибудь символ, не укладывающийся в 1251, то этот символ корёжится самым причудливым образом так, что и не догадаешься, что за символ там стоял изначально(если не знаешь язык, на котором написана фраза, то даже по переводу не всегда догадаешься, какой диакритический символ там должен был стоять.)
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
И после FBD и после FBW и после "сохранить в FR в fb2" нужно допиливать ручками FB2 до ума. Ибо и после FBD и после FBW и после "сохранить в FR в fb2" и даже после "копипастить в FBE" (и даже FB2 с СИ) получится файл хоть и разной, но паршивости. Обычно люди, которые после работы FR сохраняют в FB2, его и допиливают дальше, а не бегут заливать в библиотеку.
Не понимаю, как Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251, если обработка/редактирование и в FBD, и в FBE проходит в utf-8 (он же юникод) и в нем же нужно fb2-файл сохранять?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Что значит не получается? Если сохраняешь в FBD в юникоде, то в файле будет юникод.
Сохранишь в 1251 - юникода не будет.
Потом открывай файл чем хочешь, акелпадом, FBE - будет ровно то, что сохранишь, никакого шаманства не требуется.
Ты же понимаешь, что если ты возьмешь богато форматированный, со стилями, картинками, колонками, таблицами и прочими радостями doc файл и сохранишь его как TXT, у тебя все это богатое форматирование пропадет.
Так вот, глупость из-за этого орать на весь интернет, что ворд - редактор - говно и портит файлы.
Кто-то чушь написал, не вникая в суть вопроса, а ты бездумно ее тиражируешь.
Сохранять файлы надо в правильной кодировке, (настраивается 1 раз) и всего делов. FBD от рождения был юникодным, с 2005 г.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Необязательно такие сложности преодолевать. Юникод проще переформатировать в что то более удобное а потом все вернуть.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Необязательно такие сложности преодолевать. Юникод проще переформатировать в что то более удобное а потом все вернуть.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Тут, что называется, на любителя. При редактировании книг особой потребности в мышке не ощущаю. Все легко и удобно делается с клавиатуры. Тем более, что бывает и так, что мышку просто некуда пристроить, например, когда правишь книгу лежа на "четвероногом друге" (сиречь диване). Кто как привык.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Книгоделу полезно пополнять в свою версию скрипта по такому шаблону:
tagRegExp("(?<![а-яё])теша(?![а-яё])","i","Найдено: слово "теша" ("теща" с опечаткой).","",1);
Страницы