Вы здесьЗа что я ненавижу XML
Опубликовано вс, 08/11/2009 - 20:32 пользователем larin
Наконец-то я смог сформулировать, за что я ненавижу XML. В применении к книгам, очевидно - прочие использования этого незаконнорождённого отпрыска пьяной макаки и запаршивевшего верблюда меня волнуют мало, хотя встречаться с конфигами, где ради одного значения надо написать четыре вложенных тега по полсотни символов тоже удовольствия мало. Да и типичный вебсайт по сути своей от книги мало отличается, а чисто флэшевые поделки лично мне не интересны.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 6 часов
Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 9 часов ostap79 RE:Подайте бедному копеечку на книжку с литреса... 2 дня babajga RE:Белая княжна 5 дней Nicout RE:Таинственная личность админа Флибусты 1 неделя Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 неделя mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 неделя zlyaka RE:С Новым годом! 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя SparkySpirit RE:Прошу переформатировать, распознать, etc... 2 недели SparkySpirit RE:Жорж Санд - переводы 19 века 2 недели Саша из Киева RE:Наш дом - СССР 2 недели babajga RE:Чернушка. Повести 2 недели Саша из Киева RE:Сказки далёких островов 2 недели babajga RE:Лопоухий бес 3 недели babajga RE:Ежик покидает дом 3 недели babajga RE:Сказки бабушки Черепахи 3 недели babajga RE:Свист диких крыльев 3 недели Впечатления о книгах
mysevra про Чайлд: Из глубины [Deep Storm ru] (Научная фантастика, Триллер)
13 01 Мне понравилось. Увлекательный сюжет, быстрое развитие действий. Наверное, фильм по этой книге вышел бы зрелищным. Оценка: хорошо
svetik489 про Дмитриев: Записки нечаянного богача – 3 (Социальная фантастика, Городское фэнтези, Самиздат, сетевая литература)
12 01 перенесите книгу к (Donteven) http://lib.rusec.net/a/200576 Оценка: неплохо
Barbud про Берг: Война (Детективная фантастика, Самиздат, сетевая литература)
12 01 По сравнению с первой частью весьма затянуто и скучно. Размышлизмы и исторические справки совершенно заполонили текст и вынуждают читать по диагонали. Степан от книги к книге становится все глупей и глупей. И кстати - "...я, ……… Оценка: хорошо
alexk про Кича: Большая книга по истории Ближнего Востока. Комплект из 5 книг [litres] (Исторические приключения, История)
11 01 Очень странное издание. И с каких это пор Афганистан стал Ближним Востоком?
behemmoth про Круз: В центре урагана (Социальная фантастика, Самиздат, сетевая литература)
09 01 Долго думал, писать ли отзыв или aut bene aut nihil. Но тем не менее. "Ветер над островами" был, пожалуй, самой "взрослой" серией Андрея, в которой наконец-то хоть чем то была разбавлена набившая оскомину парадигма "война ……… Оценка: плохо
Barbud про Ларин: Прощай СССР (Приключения: прочее, Самиздат, сетевая литература)
09 01 Дочитал... Да, местами смешно, читать можно. Жаль, концовка какая-то невнятная - ГГ вкупе с заклятыми братьями по сверхразуму исчез ХЗ куда, вожатую и ненормального пионера - "кровь-кишки-распидорасило", итог лагерной "Зарницы" остался непроясненным))
mysevra про Дойч: Метроном. История Франции, рассказанная под стук колес парижского метро (Историческая проза, Публицистика, Документальная литература)
09 01 По этой книге Фабрисом Урлие снят замечательный 4-серийный документальный фильм - яркое визуальное дополнение. Оценка: отлично!
nik_ol про Джентльмен сыска Иван Подушкин
08 01 Выложите уже, пожалуйста, новое от Донцовой что-то, а то от Пелевина уже ум за разум заходить начал)))).
Анни-Мари про Потомокъ
08 01 Замечательная серия. Любопытно, будет ли продолжение? В целом, все логически завершено, но! Такое ощущение, что автор допускает, да.
pulochka про Френкель: Бог, которого не было. Красная книга (Проза)
08 01 Это бред сумасшедшего? Как ЭТО вообще можно читать? Оценка: нечитаемо
decim про Серяков: Русы во времена великих потрясений (История, Научпоп)
08 01 Весьма любопытные гипотезы. Однако судить о бесписьменном народе, каким в те поры были предки современных славян(русами их назвал Ибн-Фадлан гораздо позже, и не были ли то Ruotsi, варяги? собственно славян соседи по Балтике ………
Barbud про Ларин: Назад в СССР (Детская фантастика, Самиздат, сетевая литература)
07 01 Чушь какая-то. Автор, вероятно, молодой молокосос, не имеющий понятия о том, как общались пионеры в то время и каких слов и оборотов они вообще не знали. Да и ведут они себя абсолютно неестественно для тогдашних реалий. Затяжной ……… Оценка: неплохо |
Комментарии
Отв: За что я ненавижу XML
Вот ты, думатель, и пиздуй.
Для начала учить определение транскрипции.
Отв: За что я ненавижу XML
1. нет возможности явно задать структуру текста - деление на части, главы, разделы и т.д.
2. нет возможности непосредственно обрабатывать сноски.
3. нет возможности задать разные варианты форматирования стихов.
4. нет возможности без дополнительных выкрутасов задать метаинформацию о книге - автор/название/серия/жанр/аннотация/обложка/etc.
5. нет возможности задать особый формат структуры текста - например пьесы, билингвальные книги.
6. ...
7. PROFIT
поэтому, как бы это не нервировало народ, но для гвоздей молоток, а для шурупов отвёртка.
ну, или хотя бы как в случае с fb2, забивание шурупов молотком.
Отв: За что я ненавижу XML
Весьма эмоционально. А какие будут конкретные предложения по исправлению сложившейся ситуации?
Или это так, чисто в порядке вопля измученной души?
Отв: За что я ненавижу XML
В основном в порядке вопля.
Отв: За что я ненавижу XML
Ну и слава богу, значит, живем пока в fb2 :)
Отв: За что я ненавижу XML
О чём я и говорил.
Радостное совпадение наших убеждений.
Отв: За что я ненавижу XML
не только убеждений, но и заблуждений.
книга - не только текст. но и структура текста. и отказываться от структуры ни в коем случае нельзя. потому что текст без структуры, это уже не книга, а массив символов.
надо искать приемлемый компромис.
Отв: За что я ненавижу XML
Larin: Книга это текст c разметкой, причём текст первичен. = СерыйМыш: не только текст. но и структура текста.
Именно. Я не совсем точно выразился.
Отв: За что я ненавижу XML
идеологически да. но как обычно дьявол прячется в деталях. вот такая простая вещь как сноски. В бумажных книгах их опускают в низ странички. Куда будем прятать сноски в электронных книгах, которые по некой прихоти у нас будут просто текстом без форматирования? И ведь это не единственная проблема важности оформления. Мир вокруг нас нефига не чернобелый. поэтому рубить с плеча не годится
Отв: За что я ненавижу XML
Ну, к примеру, в плэйнтекстовых файлах само собой сложилось выделять сноски квадратными или фигурными скобками, оставляя их прямо в тексте вслед за указателем. Если я не ошибаюсь.
И потом, я прекрасно понимаю, что текст без структуры есть трудночитаемая каша. Но на этом можно было бы остановиться. Так нет, изготовители екниг настаивают навязывать шрифты, их размер и цвет (если хтмл), разбивают книгу на отдельные файлы по главам (епаб и адоб)... я уж не говорю об извращениях, вносимых ретивыми конвертерами. Так что фб2 -- это имхо еще малое и принимаемое зло. Хотя ХТМЛ хватило бы, а для особых случаев есть текс, но это к худлиту вообще не относится, это профессиональная литература.
Отв: За что я ненавижу XML
ну опять же есди подумать о причинах у того же адоба (сам не люблю эту кампанию, и их pdf формат , но что поделаешь) поступать именно так как они поступают - то уверяю тебя, причины найдутся и очень серьезные, в основе того же pdf лежит язык (формат) разметки документа для печати, и причины при создании формата делать его именно так как было сделано - несомненно были.
Другой разговор, что в настоящий момент я бы не концентрировался на универсальности языка. Скажем возможность встраивать фонты есть и в pdf и в html, но это не мешает вебу эту возможность фактически везде игнорировать. есть стандартные группы фонтов, ими все и верстают и выходит неплохо.
Для формата документа для чтения нужно создавать свой, заточенный под это стандарт. Что и было проделано с fb2 . Да он не идеален, но принимать его надо как данность.
Отв: За что я ненавижу XML
Так что же это, как не еще один вариант разметки? Такой же топорный, правда, как и сам plain text :)
Отв: За что я ненавижу XML
Что-то много эмоций, а в сухом остатке противопоставление XML и первичности текста. Это как сравнить теплое с мягким. IMHO.
Отв: За что я ненавижу XML
Теоретически верно.. а, на практике Ларин прав ИМХО.
Отв: За что я ненавижу XML
larin пишет:
Хорошо как .. красиво и точно...
Отв: За что я ненавижу XML
>Если среди мегабайта текста попадётся отдельно стоящий [...]
Откуда он там взялся? Экранировать надо.
Отв: За что я ненавижу XML
никто в здравом уме не станет писать в обычном тексте знаки "<",">" и "&" как >, <, &
ну ни к чему это обычному человеку.
а вот редактор при импорте подобной ереси должен обязательно конвертировать символы и сочетания, которые совпадают со служебными конструкциями, и потенциально могут вызвать проблемы.
при обратной конвертации, соответственно "вернуть взад".
опять "вышли на Дерибасовскую": срыв форматирования - это проблема не столько кривого формата xml, сколько кривых редакторов и валидаторов.
Отв: За что я ненавижу XML
Либо обычный человек™ не должен писать raw код. Либо у редактора должна быть опция «вставить с экранированием». Тогда и проблем не будет. А уж экранировать и обратно проблем у программ быть не должно.
Отв: За что я ненавижу XML
Ещё HTML разрабатывался в расчёте на это.
Правда, впоследствие у такого подхода обнаружилось множество недостатков. Начиная с мягко говоря небезупречности редакторов.
Отв: За что я ненавижу XML
(см.выше) Вставлять с экранированием.
Отв: За что я ненавижу XML
Ага, и я хотел сказать - но постеснялся: мало ли чего не понимаю.
Вообще-то обычное дело: Распознаешь текст, и в нем полно угловых скобок. Почему any2fb2 их не убирает, а что-то там такое химичит, что FBE и читалки потом вовсе вырубаются? Загадка... Приходится вручную выискивать "теги" вроде <.> и вычищать. А виноват почему-то XML...
Отв: За что я ненавижу XML
дубль
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Смотря чем конвертировать. Не надо использовать Any2fb2.
А вот Doc2fb (wml2fb.xsl) или ExportXML.dot сделают всё корректно. Ну я имею в виду угловые скобочки. Description-то никто сам не заполнит.
Отв: За что я ненавижу XML
И я бы тоже хотел пристрелить человека, из-за которого приходится писать <emphasis>и</emphasis> .
Отв: За что я ненавижу XML
Единственный нормальный исходный вид _книг_ любого содержания, это LaTeX. Он более всего похож на руками написанный текст. (и никакого SGML не надо, все тоже самое, для стандартности можно наобъявлять средствами самого LaTeX)
Для рефлов-представления конвертируется в HTML. Для читалок/распечатки генерится PDF под заказанный размер листа, читалок немного на самом деле (вернее немного экранов :).
Попытка написать свой язык разметки закончится написанием своего TeX. :)
Различные журналы и чертежи это djvu.
Отв: За что я ненавижу XML
Вопль человека, которому лень escap'ить всего два символа, с восторгом подхватывает человек, которому в его языке разметки приходится escap'ить в несколько раз больше всякой ерунды.
Смеялсо.
Отв: За что я ненавижу XML
PDF для читалок это страшное зло. Как и специальная конвертация перед залитием куда то в портативный девайс. И того и другого надо избегать как черт ладана. Причины первого "избегания" - нет ничего такого что позволяло бы автору документа навязывать читателю размер шрифта, стиль оформления итд. PDF делает это безусловно (жри гад читатель что дано, ну можешь масштаб увеличить, но если по ширине не лезет - сам дурак)
Конвертация ПЕРЕД заливкой - опять таки древний анохронизм чистой воды. Опомнитесь, 2010 год уже на носу. В обычной читалке стоит процессор, аналог которому по производительности 10 лет назад можно было не в каждом дескотопе найти. Все это должно делаться на автомате в момент заливки, а еше лучше вообще не делаться. Процесс парсинга документа для современных аппаратных средств - плевое дело, и то что не может быть выполнено сходу ( скажем, чтоб понять сколько страниц должно быть показано у документа он должен быть весь распарсан, а документ может быть очень большой - возврашаемся к причинам почему другие форматы "любят" разбитые на части-главы документы) должно быть выполнено в фоне. Вопрос грамотного составления формата - это просто вопрос времени. Если кто то этим будет заниматься. И за fb2 Грибову мы все должны сказать спасибо - какой никакой но формат и стандарт дефакто
Отв: За что я ненавижу XML
Всех экранов для читалок всего то 2ва с половиной производителя. Нет проблем из библиотеки забрать версию для своего размера экрана.
Читатель может выбрать с каким стилем ему собрать pdf из LaTeX исходника. Если выставлены нормальные пенальти, то никакого вмешательства в верстку книги "в стиле и возможностям" fb2 уж точно нет.
Если LaTeX и шрифты портировать в читалку, то конечно можно на месте получать книгу для чтения. Но возникает вопрос емкости аккумулятора читалки. При прочих равных заливка уже готовой для читалки книги позволит дольше читать без подзарядки.
Если надо иметь именно моментально перемасштабируемый формат, то для этого есть конвертатор в HTML. Смена стиля вообще не вопрос. Движки есть готовые и свободные.
Поскольку книга при этом "реадонли", то и нужен исходник в LaTeX.
Отв: За что я ненавижу XML
Я, например, попросту поленюсь сверстать полста вариантов 1000-страничной книги. А ты?
Отв: За что я ненавижу XML
что собственно понимается под словом _сверстать_ pdf для читалки?
Пользоваться LaTeX точно приходилось? Художественную книгу в руках держал?
Сколько разметки в книге будет точно представляешь?
А то у меня одни вопросы понимаешь.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Художественная книга для _читалки_ получится в виде pdf _сразу_ для любого выбранного пользователем варианта шрифта и размера бумаги. Достаточно выставить несколько параметров, никаких проблем верстки для электронной книги не будет.
Или будем считать сколько пустых страниц будет в файле для показа на экране ? :)
Движок ТеХ все равно самое аккуратное и мощное что есть.
Отв: За что я ненавижу XML
А, кстати, какой софт эти фишки при показе поддерживает? Хотелось бы, чтобы его можно было запустить на LBook V3, но под него всё надо дорабатывать напильником, т.е. опен-сорс предпочтительнее.
Отв: За что я ненавижу XML
Запасаюсь попкорном;)
В свою очередь, подброшу в огонь свои 5 копеек.
Книга - не только текст, но и иллюстрации, это касается как специальной литературы так и художки. Тут недавно кто-то выложил книгу по сценическому фехтованию в тхт. Книга неплохая, но без иллюстраций она врядли представляет большую ценность.
С другой стороны есть формат джвю, который, ИМХО, намного лучше например пдф (ожидаю большую порцию джвю-срача в комментах). И лично мне этот формат импонирует намного больше фб2 или док/ртф. Он сохраняет и иллюстрации и позволяет прочитать текст (даже без окр-слоя).
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
А что делать, если хочется организовать полнотекстовый поиск внутри djvu и pdf? Другой момент, что распознавание это должно быть правильно организовано и и игнорировать формулы и рисунки.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Я возражу.
Формат, в котором не предусмотрена информация об авторах, переводчиках, сериалах и т.п, для библиотеки непригоден.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
С точки зрения скрипта - никакой там информации нет и как ёё получить непонятно.
Fb2 потому и любим библиотекарями, что там это всё легкодоступно.
Отв: За что я ненавижу XML
Любим библиотекарями. Хм. Это эвфемизм? Типа: яростно любим. :)
Так вы ж вроде преодолели недостаток путем добавки файла описания?
Отв: За что я ненавижу XML
костыль.
Отв: За что я ненавижу XML
Annotations
Every DjVu image optionally includes so-called annotation chunks. The annotation chunk is often used to
define hyper-links to other document pages or to arbitrary web pages. Annotation chunks can also be used
for other purposes such as setting the initial viewing mode of a page, defining highlighted zones, or
storing arbitrary meta-data about the page or the document.
Hidden text
Every DjVu image optionally includes a hidden text layer that associated graphical features with the cor‐
responding text. The hidden text layer is usually generated by running an Optical Character Recognition
software. This textual information provides for indexing DjVu documents and copying/pasting text from
DjVu page images.
djvutoxml(1), djvuxmlparser(1)
Command line tools to edit DjVu metadata as XML files.
Files produced by djvutoxml can then be modified using either a text editor or a XML editor. Program
djvuxmlparser parses the XML file inputxmlfile and modifies the metadata of the DjVu files referenced by
the OBJECT elements.
разве нельзя туда писать все что угодно?
Отв: За что я ненавижу XML
Насколько я разобрался в формате DJVU - нет, "все что угодно" - нельзя. По крайней мере - не положено.
Отв: За что я ненавижу XML
а насколько разобрался я, в METADATA помещают пары ключ-значение. К этой информации имеет доступ просмотрщик (например djview4 "вид->метаданные").
Отв: За что я ненавижу XML
и все таки, почему загубленные? обнулить текстовый слой пару взмахов крипой gplной шашкой.
Отв: За что я ненавижу XML
Сейчас передо мной лежит 87-ми МБ-байтный pdf-файл книги, в которой формулы "распознаны" и заменены текстом со всякими "г" вместо "r" и "т" вместо "m" и т.п. Как понимаю я, исходный растровый слой в книге в распознанных местах теперь отсутствует. Как это можно исправить?
Отв: За что я ненавижу XML
О да :)))
Для начала вспомню, что 2007-й охфис... хреновато читает старые rtf-файлы.
Про doc следовало бы сказать, что надо сразу отстреливать, но я приведу другой пример: видел я распечатанный из doc'а набор инструкций по менеджменту ка[к]чества... В оригинале там должно было быть достаточно много картинок. В распечатанном экземпляре иллюстраций адекватного качестве на было.
Это к приспособленности формата doc для отображения графики.
ЗЫ: Читайте классиков!
Говорят, живёт на свете Дональд Кнут
Доктор Кнут, поверьте дети, страшно крут...
Включение в модель иллюстраций делает невозможной полную автоматизацию процесса: необходимо вручную учитывать фактор размера бумаги (экрана для просмотра).
Конкретную книгу по фехтованию необходимо было выкладывать в djvu.
Отв: За что я ненавижу XML
перевод иллюстрации в векторный формат позволяет ее автоматом упаковывать в размер страницы вывода.
Трассировщиков просто куча и весть секрет качественного перевода сначала "раздуть" изображение.
Страницы