Вы здесьЗа что я ненавижу XML
Опубликовано вс, 08/11/2009 - 20:32 пользователем larin
Наконец-то я смог сформулировать, за что я ненавижу XML. В применении к книгам, очевидно - прочие использования этого незаконнорождённого отпрыска пьяной макаки и запаршивевшего верблюда меня волнуют мало, хотя встречаться с конфигами, где ради одного значения надо написать четыре вложенных тега по полсотни символов тоже удовольствия мало. Да и типичный вебсайт по сути своей от книги мало отличается, а чисто флэшевые поделки лично мне не интересны.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 8 часов
Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 12 часов ostap79 RE:Подайте бедному копеечку на книжку с литреса... 2 дня babajga RE:Белая княжна 5 дней Nicout RE:Таинственная личность админа Флибусты 1 неделя Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 неделя mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 неделя zlyaka RE:С Новым годом! 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 неделя SparkySpirit RE:Прошу переформатировать, распознать, etc... 2 недели SparkySpirit RE:Жорж Санд - переводы 19 века 2 недели Саша из Киева RE:Наш дом - СССР 2 недели babajga RE:Чернушка. Повести 2 недели Саша из Киева RE:Сказки далёких островов 2 недели babajga RE:Лопоухий бес 3 недели babajga RE:Ежик покидает дом 3 недели babajga RE:Сказки бабушки Черепахи 3 недели babajga RE:Свист диких крыльев 3 недели Впечатления о книгах
alexk про Древневосточная литература: Книга тысячи и одной ночи. Арабские сказки [litres] (Древневосточная литература, Мифы. Легенды. Эпос)
13 01 Неловкая попытка переиздания /b/436061 из БВЛ
mysevra про Чайлд: Из глубины [Deep Storm ru] (Научная фантастика, Триллер)
13 01 Мне понравилось. Увлекательный сюжет, быстрое развитие действий. Наверное, фильм по этой книге вышел бы зрелищным. Оценка: хорошо
svetik489 про Дмитриев: Записки нечаянного богача – 3 (Социальная фантастика, Городское фэнтези, Самиздат, сетевая литература)
12 01 перенесите книгу к (Donteven) http://lib.rusec.net/a/200576 Оценка: неплохо
Barbud про Берг: Война (Детективная фантастика, Самиздат, сетевая литература)
12 01 По сравнению с первой частью весьма затянуто и скучно. Размышлизмы и исторические справки совершенно заполонили текст и вынуждают читать по диагонали. Степан от книги к книге становится все глупей и глупей. И кстати - "...я, ……… Оценка: хорошо
alexk про Кича: Большая книга по истории Ближнего Востока. Комплект из 5 книг [litres] (Исторические приключения, История)
11 01 Очень странное издание. И с каких это пор Афганистан стал Ближним Востоком?
behemmoth про Круз: В центре урагана (Социальная фантастика, Самиздат, сетевая литература)
09 01 Долго думал, писать ли отзыв или aut bene aut nihil. Но тем не менее. "Ветер над островами" был, пожалуй, самой "взрослой" серией Андрея, в которой наконец-то хоть чем то была разбавлена набившая оскомину парадигма "война ……… Оценка: плохо
Barbud про Ларин: Прощай СССР (Приключения: прочее, Самиздат, сетевая литература)
09 01 Дочитал... Да, местами смешно, читать можно. Жаль, концовка какая-то невнятная - ГГ вкупе с заклятыми братьями по сверхразуму исчез ХЗ куда, вожатую и ненормального пионера - "кровь-кишки-распидорасило", итог лагерной "Зарницы" остался непроясненным))
mysevra про Дойч: Метроном. История Франции, рассказанная под стук колес парижского метро (Историческая проза, Публицистика, Документальная литература)
09 01 По этой книге Фабрисом Урлие снят замечательный 4-серийный документальный фильм - яркое визуальное дополнение. Оценка: отлично!
nik_ol про Джентльмен сыска Иван Подушкин
08 01 Выложите уже, пожалуйста, новое от Донцовой что-то, а то от Пелевина уже ум за разум заходить начал)))).
Анни-Мари про Потомокъ
08 01 Замечательная серия. Любопытно, будет ли продолжение? В целом, все логически завершено, но! Такое ощущение, что автор допускает, да.
pulochka про Френкель: Бог, которого не было. Красная книга (Проза)
08 01 Это бред сумасшедшего? Как ЭТО вообще можно читать? Оценка: нечитаемо
decim про Серяков: Русы во времена великих потрясений (История, Научпоп)
08 01 Весьма любопытные гипотезы. Однако судить о бесписьменном народе, каким в те поры были предки современных славян(русами их назвал Ибн-Фадлан гораздо позже, и не были ли то Ruotsi, варяги? собственно славян соседи по Балтике ……… |
Комментарии
Отв: За что я ненавижу XML
ларин, вы меня сразили. прочитала. поняла, что ничего не поняла. нашла пару знакомых слов: ненавижу, текст, книга. пойду в петлю )))
Отв: За что я ненавижу XML
Не надо в петлю.
Помимо гадкого XML в мире есть масса приятных вещей.
Отв: За что я ненавижу XML
Конечно. Гадкий SGML, например :) По поводу subj - кроме DOMовских парсеров, которые, действительно, пытаются засосать весь текст одним куском и умирают при нарушении структуры, есть еще и SAX2-парсеры. Они позволяют определить пользовательские callback'и при некоторых распространенных ошибках (непарный тег, например). Как бонус- менее ресурсоемки. Как штраф - внутренней организацией разобранного текста приходится заниматься самому.
Отв: За что я ненавижу XML
Это счастье можно прикрутить к пыху, и если да - то как?
Я бы парсер переписал.
Отв: За что я ненавижу XML
Простым образом - нет. Поскольку PHP - интерпретатор, и передать в .so-шку адрес-функции-которую-надо-позвать - проблематично. Есть метода написания на C/C++ расширений для PHP, которая гарантированно позволяет манипулировать переменными, определенными внутри PHP. Позволяет ли она позвать PHP-процедуру - ответить не готов. Если описать требования к такому расширению (например, на входе - имя XML-файла, реакция на незакрытый тег выбирается по содержимому переменной UnclosedTag_Bold, результаты парсинга выводятся в file stream) - готов заняться, но не с очень высоким быстродействием :(
Отв: За что я ненавижу XML
С той же оговоркой готов присоединиться.
ЗЫ: По тем же причинам не люблю fb2 (как разновидность xml).
Source в LaTeX с последующей генераций pdf (размер шрифта по вкусу) рулит (для просмотра можно генерить html)! :)
Отв: За что я ненавижу XML
В parser.inc разве не SAX?
Отв: За что я ненавижу XML
Х.З. Либо не видел, либо не помню. Ссылка есть ?
Отв: За что я ненавижу XML
http://github.com/larin/librusec/blob/master/parser.inc
Отв: За что я ненавижу XML
Угу. Он самый. Хорошая новость - адреса PHP-callback'ов передавать в расширение можно. Плохая - в используемом расширении (обертка expat для PHP, James'а Clark) callback'ов для обработчиков ошибок не обнаружено.
Утверждается, что в 5м PHP встроено расширение для работы с XML, написанное именно вокруг libxml2, с дивной производительностью/надежностью. Проверить сейчас не могу, при хорошем раскладе - завтра утром. Если руки у кого доберутся раньше - отпишитесь, плиз.
2Larin:
1) на сервере какая версия PHP ?
2) кроме плохого самочуствия при невалидном документе, какие ещё недостатки у парсера ?
Отв: За что я ненавижу XML
1. 5.2.11
2. Это главное.
Отв: За что я ненавижу XML
Понял. Ссылку на невалидный документ, на котором падает, можно попросить ?
Отв: За что я ненавижу XML
А если собственно текст положить в
<![CDATA[...]]>
будет все спец. символы игнорировать с остальным согласен.
Отв: За что я ненавижу XML
Иногда думается, что... помимо гадкого XML в мире есть масса ещё более гадких вещей.
Отв: За что я ненавижу XML
МОТОРОЛЛЕР НЕ МОЙ! Я ПРОСТО РАЗМЕСТИЛ ОБЪЯВУ!
Отв: За что я ненавижу XML
Иногда думается, что... помимо гадкого XML в мире есть масса ещё более гадких вещей.
Отв: За что я ненавижу XML
МОТОРОЛЛЕР НЕ МОЙ! Я ПРОСТО РАЗМЕСТИЛ ОБЪЯВУ!
Отв: За что я ненавижу XML
А редактор fb2 из текста пустые строки убирает!
Когда автор разделяет эпизоды пустой строкой, то в скачанной книге, если заливший не додумался вручную пустые строки после конвертации восстановить, начинаешь мучительно соображать, где действие происходит или чья реплика звучит. :(
Отв: За что я ненавижу XML
Потому как с точки зрения XML пустые строки и пробелы - это тоже его внутренние служебные символы, а не часть Текста. А это для него важнее.
Отв: За что я ненавижу XML
Так что, нужна отдельная кодировка? Я не программёр, с XML знакомился "в плане общего развития", но, как я понимаю, создать дополнительный набор символов не такая уж большая проблема - не было в изначальной винде русской кодировки, теперь есть. А в ранешние времена, помнится, русификаторы писались... может и здесь некое подобие "русификатора" надо?
Или сама концепция разметки длинной цепочкой вложенных тэгов не меньше раздражает? Тогда, наверное, вопрос к лингвистам, к тем, кто структурами языков занимается...
В таком разрезе проблема-то получается значительно шире, нежели использование XML при создании fb2... ИМХО.
Все это, конечно, рассуждения дилетанта... :)
Отв: За что я ненавижу XML
Нужно думать головой при создании стандартов. К сожалению, в компьютерной индустрии это не принято.
Я, к примеру, не могу понять, почему у обычного ПК вместо двух видов подключения прочих устройств, проводного с питанием и беспроводного, грубо говоря USB и WIFI, используется больше десятка - PS2, LPT, COM, USB, FireWare, VGA, DVI, WIFI, BlueTooth, infrared, ... - да что там, каждый может пересчитать самостоятельно. И все убогие.
Казалось бы, возьми ты в качестве спецсимвола нечто, что в человеческих текстах не встречается, или встречается крайне редко. Да хоть [[, или там {[{, если не хватает мозгов на какой-нибудь спецсимвол.
Нет, надо забанить несколько нужных знаков. А потом доблестно их эскейпить туда-сюда.
Отв: За что я ненавижу XML
Так все просто же. ровным счетом потому же почему человечество использует все эти пароходы и самолеты и поезда и даже автомобили вместо удобной и простой телепортации. Как, что вы говорите? телепортацию не изобрели еше, да точно...
ну так не поленитесь разложить по шкале времени все эти шины и интерфейсы доступа, чтоб убедится, что появлялись они последовательно и постепенно вытесняя предыдущие формы. Скажем счас комп с ком-портом сильно поискать, то же касается VGA разьемов на видеокарте итд.
Отв: За что я ненавижу XML
Какая шкала времени, ты о чём?
Специально залез под стол посчитать.
На обычном десктопе, с которого я сейчас пишу, на задней стенке 15 разъёмов. Из них 6 USB, взамозаменяемых, все остальные разные. Каждое устройство можно пихнуть только в специальный разъём. Это только проводных, с беспроводными тот же бардак. Да и внутри ещё шесть, SATA+ATA+floppy, три пары разных разъёмов для одной и той же функции.
А должно быть несколько одинаковых, с парой медных контактов для питания + оптика для данных, в один из которых воткнут монитор, и на мониторе ещё несколько таких же, куда вотнута всякая периферия, которая ближе к монитору, чем к CPU. И это не телепортация, это всё уже давно изобретено и работает. Ещё c прошолого тысячелетия.
Пароход, самолёт и автомобиль выполняют разные функции и не взамозаменяемые.
А PS2, ATA, SATA, FireWare, USB и т.п - одну и ту же.
Отв: За что я ненавижу XML
я не знаю что у вас стоит под столом и какие разьемы сзади на корпусе компьютера, но могу предположить что там принтерный порт, пару СОМ портов, порт PS2 для мыши и клавы, возможно еше fireware и esta
А теперь проделайте домашнюю работу - пойдите на гугл, и убедитесь, что компорт и lpt порт появились задолго до usb , то же самое касается и PS2 для мыши и клавы - не было еше ЮСБ в те времена когда появился этот стандарт. И теперь пока он окончательно не вымрет сам по себе - его будут продолжать ставить на матери, чтоб не потерять покупателей которые взяли бы такой продукт будь у него этот разьем.
Та же картина с IDE /SATA - ничего такого что было бы револьюционно новым и приятным для пользователя (обычного пользователя лаптопа или десктопа) в новом SATA нету. Однако у меня в сервере счас 6 винтов по 250 гиг IDE. Ну какой смысл их выбрасывать если они вполне себе работают и не думают даже ломаться, а половина из них еще на гарантии (были времена с 5-ти летней гарантией) поэтому два года назад пересобирая сервер я взял в него мать которая умеет оба.
Так что пока телепорт не изобрели - будете ездить на параходах и автомащинах. А когда изобретут - будете продолжать ездить на них, пока телепорт не вытеснит эти пережитки прошлого
Отв: За что я ненавижу XML
В современных материнках уже практически не бывает LPT. А жаль.
Отв: За что я ненавижу XML
Не совсем так. Убираются только группы из пустых строк, если была одна пустая строка, то она так и останется, а вот если было 2 или более пустых строк, то FBE после скрипта "Генеральная уборка" оставит только 1 пустую строку.
IMHO, совершенно правильно, не к чему плодить много лишних <empty-line/>
на понимание текста не повлияет, одна там пустая строка или две, лишь бы была.
Отв: За что я ненавижу XML
Как уже отмечал - профан есмь! Однако отсканил и вычитал книгу с единичными пустыми строками меж эпизодами, попросил сконвертить - эпизоды слиплись... :( исправляли, как я понял, вручную.
Отв: За что я ненавижу XML
ну дык... то ведь конвертер
виноват, а я-то про редактор.
FBE не конвертит, а редактирует.
Если в редакторе конвертили, то может это был БукДизайнер или ФикшенБукДизайнер но не ФикшенБукЭдитор.
Отв: За что я ненавижу XML
Zadd > FBE не конвертит, а редактирует.
"А вот тут-то мы вас и попгавим!" (L) :)
FBE2 принимает копипаст (по крайней мере, из браузеров и WordViewer'а) с сохранением жирностей/курсивностей. Очень удобно, сам только таким способом и конвертирую. Правда, пустые строки тоже теряет - приходится дорабатывать руками. :(
Отв: За что я ненавижу XML
IMHO, заменить привычный, общеупотребительный двухбуквенный тег BR на десятибуквенный empty-line с ровно тем же функционалом, бессмысленно и беспощадно ухудшив тем совместимость с html, мог только психически альтернативный разработчик.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
ога! вот оно как! (*радостно прыгает на одной ноге)
не одного меня тошнит от xml.
какой хороший стимул возобновить занятия с форматом nfb.
(*ушел обдумывать план конвертации всех книг в простой текстовый формат)
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Вначале было Слово. И Слово было - 2 байта...
И это нам аукается аномально долго.
Отв: За что я ненавижу XML
Вообще-то слово было 4 байта, а 2 байта называлось halfword т.е. полуслово. Потом пришла эра персональных компьютеров, сначала 8-битных(у них слово было байтом 8 бит), потом персоналки c 16-битным словом(2 байта), потом стали понимать 32-разрядные(4 байта), а потом 64-разрядные (8 байтов), но что сейчас называется словом, не в курсе, наверно, так и осталось 2 байта, чтобы сохранить совместимость со старыми программами(проще ввести новые термины DWORD, QWORD и т.д., чем менять ассемблер)
Отв: За что я ненавижу XML
в начале байтом называлась группа бит от 5 до 9, у Кнута виртуальная машина с байтом в 6 бит.
16-битные машины появились до персоналок - PDP-11 (она же СМ-4), например. И именно на них и появилось слово = 16 бит.
Отв: За что я ненавижу XML
про процессоры с не 8битным байтом знаю, также еще был процессор CYBER, у которого байт=слово=60 бит.
Кроме того, есть еще НЕбитовые процессоры, у которых 1разряд не двоичный, а троичный (принимает 3 значения: -1/0/1, очень удобно для параллельных вычислений на суперкомпьютерах(не в курсе, чем именно это удобнее, но читал, что для параллельных вычислений на многопроцессорных суперкомпьютерах это удобнее, чем двоичный бит))
А слово из 4 байт применялось на компьютерах IBM, с которых у нас скоммуниздили серию компьютеров ЕС.
Отв: За что я ненавижу XML
кстати, о птицах. есть интересная метОда, применяемая, злобными монстрами из фирмы микрософт - класть текст отдельно, а разметку и форматирование - отдельно, пусть даже в тот же файл (doc старых версий так устроен). есть некоторые грабли в случае, если текст кто-то поменяет ручками, а блок форматирования не синхронизирует - фактически вся разметка/форматирование идёт по бороде. но при наличии правильных и удобных инструментов возможно обеспечить некоторую гарантию целостности.
проблема тут собственно не в xml. она в другом. сохранится ли ценность текста, если будет утрачена его разметка? не разбивка на абзацы, а именно разметка - где заголовок, где эпиграф, где стихи. опять же, если внедренные иллюстрации потеряются или просто окажутся не на своих местах, то тоже будет мало приятного.
как ни крути, всё сводится к наличию (а точнее отсутствию) правильного инструментария. как только будет сделан стабильный и работоспособный редактор с набором конвертеров - всё распрямится само собой. можно даже оставить в основе это убожество (xml, имел я его ввиду), при условии, что редактор(ы) позволит гарантированно избежать косяков с псевдотегами и нарушением разбивки/форматирования текста.
но всё равно, специализированный формат против универсального однозначно выигрывает.
Отв: За что я ненавижу XML
Не, такой бред как бинарные форматы, которые без спец утилиты ни посмотреть, ни поправить, мы не рассматриваем в принципе. Во времена XT может выгода от прямой загрузки структур в память может и была, хотя не уверен что заметная. С тех пор процессоры стали быстрее в тысячи раз и распарсить любой разумный формат проблем не представляет никаких.
Отв: За что я ненавижу XML
Илья, это подсознание бунтует. :)
Ларин ненавидит xml, xml=fb2, fb2=Грибов, Грибов - копираст, ненавидит Либрусек и Ларина.
Ларин ненавидит xml... :)
Отв: За что я ненавижу XML
Ларин сомневается в xml уже третий год - http://rusec.livejournal.com/11740.html
Грибов тогда про Либрусек и не знал, какая уж там ненависть.
Да и не он XML придумывал, он портил с уже готовой базы.
Отв: За что я ненавижу XML
Портил - это метко сказано.
Отв: За что я ненавижу XML
Бедный Грибов, как его, простите "обосрали", и кто вечно молчащий Ларин... это война ! :)
Отв: За что я ненавижу XML
Грибов создал хоть какой-то стандарт.
Остальные не сделали вообще ничего. В том числе я.
У меня были разработки для личного пользования, но мне даже в голову не пришло довести их до публичного релиза.
А жаль. Оно было заметно удобнее.
Но винить-то некого, ССЗБ.
Отв: За что я ненавижу XML
А что, поезд ушел?
PS Я не даром спрашиваю - у меня сканы трех книг на вычитке, не все ж за меня конвертить будут?
Отв: За что я ненавижу XML
в студию, если сохранилось. или хотя бы тезисы. буратин тут много, мне как минимум человек пять попадалось. и каждый сам по себе. может надо просто объединить усилия? глядишь, коллективный разум сможет родить нормальный жизнеспособный формат.
Отв: За что я ненавижу XML
...нормальный жизнеспособный формат.
Вот объясните мне, пожалуйста, чем плох ХТМЛ как формат для электронных книг?
Отв: За что я ненавижу XML
Я этот вопрос второй год задаю. Ответ и ныне там.
Отв: За что я ненавижу XML
Самостоятельно подумать конечно лен. Диалектика вышла из моды...
Например:
Вас не затруднит привести цитатку из спецификации формата HTML, в которой раскрыта тема классического книжного отображения сносок.
Отв: За что я ненавижу XML
После Вас: приведите такую цитатку из спецификации формата XML.
Нахуй иди, думатель.
Страницы