Форматы электронных изданий.ppt
- Количество слайдов: 59
Форматы электронных изданий
RTF • RTF (Rich Text Format - формат обогащённого текста; rich с английского — богатый) - является межплатформенным форматом хранения размеченных текстовых документов, предложенный фирмой Microsoft.
• Он является распространенным стандартом представления графических и текстовых данных и поддерживается практически всеми текстовыми редакторами, работающими на разнообразных типах процессоров и ОС. RTF -файл, созданный на PC-совместимом компьютере под управлением Windows, можно без труда прочитать на Apple Macintosh под Mac. OS.
• Структура стандартного RTF-файла представляет собой последовательность секций данных, заключенных в специальные метки (тэги), которые указывают программеобработчику начало или конец секции. • Данные могут быть разных типов: текстовые блоки, графические объекты, таблицы и даже выполняемые файлы и др.
• При запуске RTF-файла обработчик просматривает его содержимое и автоматически выполняет все известные ему секции и пропускает незнакомые. Более того, структура RTF подразумевает возможность безболезненного введения новых видов секций, необходимых пользователю для выполнения специфических задач. Причем эти новые секции не будут влиять на общую работоспособность программы в других приложениях.
• Большинство текстовых редакторов реализуют импорт/экспорт в формат RTF, благодаря чему этот формат часто используется как «общий» , для передачи текста из одной программы в другую. Документ состоит преимущественно из команд управления настройки программы чтения файлов в RTF-формате. Эти команды можно разделить на управляющие слова (control words) и управляющие символы (control symbols).
DOC • DOC (формат, разработанный фирмой Microsoft Word, который является наиболее популярным из используемых в данный момент текстовых процессоров, что сделало его бинарный формат документа стандартом дефакто, и многие конкурирующие программы имеют поддержку совместимости с данным форматом
Расширение. doc на платформе IBM PC стало синонимом двоичного формата Word 97— 2000. Фильтры экспорта и импорта в данный формат присутствуют в большинстве текстовых процессоров. Формат документа разных версий Word меняется, различия бывают довольно тонкими.
• Форматирование, нормально выглядящее в последней версии, может не отображаться в старых версиях программы, однако есть ограниченная возможность сохранения документа с потерей части форматирования для открытия в старых версиях продукта. Последняя версия MS Word 2007 «использует по умолчанию» формат, основанный на XML - Microsoft Office Opn XML. Спецификация форматов файлов Word 97 -2007 была опубликована Microsoft в 2008 году.
ODF (Opn. Document Format - OASIS Opn Document Format for Office Application — открытый формат документов для офисных приложений) — открытый формат файлов документов для хранения и обмена редактируемыми офисными документами, в том числе текстовыми документами (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями.
• Он дает доступ к содержанию документов независимо от вида и версии приложения, в котором они были созданы. Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате, изначально созданном Opn. Office. org.
txt *. TXT – формат, с которым многие из вас вероятно сталкивались при использовании стандартного блокнота Windows. Его возможности в качестве екнижного стандарта трудно однозначно оценить.
• С одной стороны, он не поддерживает оформление текста, что несомненно обедняет его возможности, но с другой стороны — нет такой платформы, на которой txt-файл нельзя было бы прочесть. И это его главный плюс. Этот формат используется многими сетевыми библиотеками для изготовления е-книг исходя из простоты издания.
• Скопировал текст в текстовый файл и все, больше никаких манипуляций делать не надо. Хотя, книжкой это назвать как-то язык не поворачивается.
Последовательность кодов символов: • буквы, знаки • управляющие (для редактора и принтера) Carriage Return CR возврат каретки Line Feed LF новая строка разный порядок следования Таблицы кодировок Наборы символов
Наборы символов Символ Enter Пробел “ 5 Q z Д ж я ASCII CP 866 0 D 20 22 35 51 7 A 84 A 6 EF ANSI WIN 1251 0 D 20 84 35 51 7 A C 4 E 6 FF KOI 8 -R 0 D 20 22 35 51 7 A E 4 D 6 D 1 ISO 8859 -5 0 D 20 22 35 51 7 A B 4 D 6 EF UNICODE 000 D 0020 201 E 0035 0051 007 A 0414 0436 044 F CR 0 A LF Кириллица от 0400 до 04 FF
Коды в файле stix. txt
Коды в файле IP. txt
html • HTML (Hypertext Markup Language — язык разметки гипертекста) — это стандартный язык разметки документов во Всемирной паутине. • Большинство веб-страниц создаются при помощи этого формата. По открытости, индексируемости, конвертируемости и читаемости на любой платформе к формату нет никаких претензий. Иное дело, что полноценная книга с иллюстрациями будет состоять из нескольких файлов, а это не слишком удобно. К тому же отсутствует сжатие. Возможностями HTML пользуются многие форматы, основанные на нем, такие, например, как i. Silo.
• XHTML представляет собой словарь XML, в то время как HTML — это лишь предшествующий XHTML язык разметки. Большинство содержимого всемирной сети, написанного на XHTML выдаётся в виде “text/html”, другими словами браузеры проводят разбор страницы в виде набора обычных тэгов, а не как XML.
xhtml • Основное различие между HTML и XHTML состоит в том, что в XHTML применяется синтаксис XML, который предназначен для помощи в разработке синтаксически корректных и правильных документов XML. .
• Одна из причин такого подхода кроется в очень жестком механизме обработки ошибок в XML. Разбор XML-документа остановится на самой первой ошибке. Это означает, что страница будет полностью недоступна в том случае, если существует хотя бы одна ошибка. Неправильное построение XML документа покажет только детали ошибки, но не её содержание.
• Всегда есть риск допустить ошибку даже в правильно построенном и сформированном XML-документе. Зачастую с этим можно столкнуться на страницах, где содержание не контролируется XMLинструментами с хорошей обработкой различных кодировок. Например ошибки появляются там, где посетители оставляют комментарий или запись, или где содержание появляется из внешних источников, таких как обратная связь, рекламные сервисы или какое-нибудь расширение к программе или к вебприложению.
• Всё это часто приводит к появлению ошибок. Тот факт, что Internet Explorer не поддерживает XHTML в виде XML, и те проблемы, которые создаёт XML в случае, если не все инструменты разработчика являются именно XMLинструментами, все это снижает стимул использовать XML во всемирной сети
sml • *. SML (Structured Modeling Language язык структурного моделирования ) текстовый язык, который подобен файлу языка определений SQL, специальный тип текстового файла, предназначенный для хранения информации, относящейся к модели «сущность-связь» , в текстовом формате.
• Использование SML позволяет легко переносить модели из одного CASE-средства в другое, при условии, что оба поддерживают этот формат. Спецификация SML позволяет давать унифицированные определения самым разнообразным сервисам, процессам и прочим элементам сетевой инфраструктуры. При этом предполагается использование стандартных блоков, описывающих те или иные функции, особенности объектов и пр.
• Разработчиками спецификации SML являются компании Microsoft, IBM, BEA Systems, BMC Software, CA, Cisco Systems, Dell, EMC, Hewlett-Packard, Intel и Sun Microsystems. Причем каждый из участников инициативы предоставил на нужды проекта свою интеллектуальную собственность.
oeb • *. OEB Открытый формат, основанный на XHTML (XML) и созданный в свое время консорциумом компаний под предводительством Microsoft. По сути, OEB-книга представляет собой ZIP-архив xhtml- (xml-) графических файлов и файла с информацией о документе в целом. • В своем текущем состоянии формат практически мертв, однако сейчас Opn. Reader Consortium строит грандиозные планы по расширению возможностей OEB и его превращению в действительно универсальный формат.
pdf • *. PDF (Portable Document Format) - это переносимый платформонезависимый портативный формат электронных документов. Данные импортируются из большинства современных форматов текстовых документов, векторных и растровых графических форматов.
• Для просмотра PDF-файла не нужно ничего, кроме самого файла и бесплатной программы, такой, как Acrobat Reader. Этот формат отличает удобная навигация, позволяющая быстро найти нужную страницу и простота пользования. Имеется также возможность шифрования файла для коммерческого использования.
• У PDF-формата много достоинств, хотя, он не лишен и недостатков: даже при заметном сокращении объема, файлы PDF однако невероятно громоздки, к тому же, защита, которую применяют для кодирования файла, если не применять специальных для этого программ – знающим программистом преодолевается за несколько секунд.
• Несмотря на это, именно в этом формате распространяется огромное количество технической документации и не только. Большинство коммерческих изданий за рубежом издаются в этом формате. Лидером среди публикаций в PDF-формате является всем известный Adobe Acrobat. Но применяются также такие программы, как Foxit Reader, e. XPert PDF Reader, PDF-XChange Viewer, PDF Reader (не поддерживает русские кодировки) и некоторые другие менее известные программы.
exe • *. Exe. Большой популярностью при создании е-книг пользуется формат самоисполняемых файлов с расширением *. exe. Он также удобен для пользователя. Рассмотрим из чего состоит файл *. exe.
• Первой составляющей является управляющая информация для загрузчика и, собственно, загрузочного модуля. Информация для загрузчика расположена в начале файла и образует так называемый заголовок. Сразу за ним следует вторая составляющая - тело загрузочного модуля, которое начинается на границе блока и представляет собой копию образа памяти задачи, которую построил компоновщик.
• Е-Книга в этом формате может содержать текст, рисунки, анимацию, навигационный гипертекст, поиск в екниге, живые линки на вебстороны, Java Applets и Java. Scripts, что увеличивает ее демонстрационные возможности.
• Большинство программ в качестве исходников применяют HTML, GIF, JPEG и стандартные плагины. Имеется возможность применения парольной защиты всей е-книги, а также отдельных страниц, запрет на печать и копирование, что позволяет активно использовать при коммерческом распространении именно этот формат.
• У формата есть также свои ограничения: книги Exe работают только на WINDOWS-платформе. Однако, легкость и быстрота изготовления макета, позволяет изготовлять е-книги не только профессиональным издателям, но и самиздату. Самоисполняемость файла обеспечивает работу без дополнительного программного обеспечения. Внешний вид книги максимально приближен к типографской форме и потому создает достаточно комфортное ощущение чтения обычной книги.
exebook • *. Exe. Book. относится к формату Exe, его все же можно назвать особым форматом. Этот формат разработан специально для книгоиздания Яковом Судейкиным. В нем реализован визуальный эффект «живой» книги, что дает пользователю возможность комфортного чтения. Неплохо сделана и защита для коммерческого распространения е-книги. Есть у этого формата также серьезные недостатки. Прежде всего они касаются оформительских возможностей, имеются некоторые шрифтовые ограничения. Является для ОС Windows, по мнению экспертов, лучшим форматом для издания книги.
djvu • *. Dj. Vu (дежа-вю от фран. deja vu — уже виденное) - это технология сжатия изображений, разработанная специально для распространения сканированных документов — книг, прежде всего математических, журналов и пр.
Можно отсканировать и сжать в этом формате любую книгу. Dj. Vu иногда называют «тексто-графическим» форматом. Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания.
• Dj. Vu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, Dj. Vu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в Dj. Vu книгах. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.
• Dj. Vu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500: 1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии Dj. Vu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия. Для чтения в этом формате существуют удобные программы.
chm • *. CHM (Compiled HTML). Изначально формат CHM был создан для формирования удобной и функциональной справочной системы к программам Windows.
• Этот формат часто используется не только для создания хелп-систем к ПО, но и для издания книг в электронном виде. Самой сильной стороной этого формата является наличие в CHM файлах полнотекстового поиска. Вкратце файл CHM — это набор скомпилированных HTML-файлов, т. е. , другим языком, что-то вроде архива из Web-страниц. И действует CHM-файл по принципу архива, сжимает данные, хранящиеся в нем, но не все, а только текстовые или содержащие текст, отформатированный с помощью тегов HTML (HTML, TXT, CSS и файлы других форматов).
xps • *. XPS (XML Paper Specification) фактически является подмножеством формата XAML (Extensible Application Markup Language), который позиционируется Microsoft как новый стандарт для языков разметки и широко используется в WPF (Windows Presentation Foundation) для создания пользовательских интерфейсов и одновременно является компонентом платформы WPF.
• По утверждению многих экспертов ожидается, что этот формат станет идеальным средством хранения, отображения и публикации данных WPF приложений. XPS преследует те же цели, что и PDF: отображение документа именно в том виде, в каком он был создан, независимо от ПО, установленного на компьютере. Данный формат не требует дополнительных компонентов системы, в частности, шрифтов, и в то же время дает разработчику уверенность в том, что документы отобразятся у клиента именно так, как было задумано, и, к тому же, копирование или изменение данных клиентом невозможно.
Специальные форматы, которые были созданы для корректной работы конкретных программ и оборудования
i. Silo • *. i. Silo (Pаlm Os Platform /pdb - Palm Pilot Database format) - очень популярный формат базы данных для карманных устройств. Используется во всех 3 Com Palm. Pilot, IBM Workpad и Macintosh/PC для сохранения записей в базе данных. Одно из главных достоинств — высокая степень сжатия текста.
• Поддерживает множество шрифтов, корректно работает с графикой, позволяет вставлять в книги гиперссылки. Размер одной записи может превышать 64 кб, имеются биты Back. Up и т. д. Через вьювер от i. Silo книги в формате PDB выглядят как в формате CHM. Особенных достоинств у этого формата не наблюдается, однако встречаются весьма интересные книги скомпилированные в PDB.
pdb • *. Palm. DOC (он же — PDB и Aportis. Doc). Еще один популярный Palm-формат. Его нормально воспринимает большинство программ для чтения электронных книг. Но при этом степень сжатия гораздо ниже, чем у i. Silo. PDB, а графика не поддерживается вовсе.
fb 2 • *. FB 2. (Fiction. Book 2. 0) - это открытый формат, основанный на XML, что (теоретически) позволяет создать программы для чтения на любой платформе. Поддержка Unicode полностью решает проблему корректного отображения текстов на разных языках. Поддерживается графика.
• Для Windows и Pocket PC выпущено множество инструментов для чтения книг в этом формате и для конвертации в него текстов из других форматов, существуют библиотеки, поддерживающие FB 2 и экспорт из него в различные форматы. Однако, пока нет читалок FB 2 под другие платформы.
rb • *. RB. Был разработан специально под устройства для чтения электронных книг Rocket Book и сейчас постепенно умирает.
ztxt • *. z. TXT. - закрытый формат, очень похожий на Palm. DOC, но с гораздо более высокой степенью компрессии (до 45%). Допускает возможность вставки закладок, поддерживает гиперссылки. Доступен на Palm OS.
tr • *. TR (To. Ra. TRPW). - формат программы Tome Raider. Отличается одной из наиболее высоких степеней сжатия. А благодаря возможности индексации текста этот формат можно использовать при составлении каталогов электронных книг.
Data. Plkr • *. Data. Plkr. - открытый формат Plucker — специальной программы, предназначенной для просмотра веб-документов на Palm. Корректно отображает рисунки, гиперссылки, разные шрифты. А конвертирование в этот формат даже не требует запуска внешних приложений — после установки соответствующего ПО его можно производить с помощью контекстного меню.
fbr • *. FBR. - защищенный формат данных, доступных для чтения программой Franklin Reader.
prc • *. PRC. Palm-формат. Поддерживается программой Mobi Pocket.