データ構造とアルゴリズムについて勉強している内に、XML形式に到達したので、少し概要などを調べてみた。
blogやHPにRSSがついていることが増えたが、このRSS機能はXMLによってプログラムされているということ。


大容量のデータベースを作る際に、CSV形式だと、構造がテーブル(でいいのかな?)なので対応が面倒だが
XML形式だと、メタ言語によるツリー構造化が可能なので、保守が容易というような意味だと思われる。

XMLSGMLのデリバティヴで、SGMLの誕生が1986年ということなので、28歳ってとこか??
本当につい最近生まれた言語ということになる。


以下、IBMのHPより抜粋。




*******************************

SGML、HTML、および XML の歴史と関係


XML は、Standard Generalized Markup Language (SGML) のサブセットです。SGML は、テキスト処理アプリケーションでのデータの表現方法として、1986 年に ISO 標準になりました。XML と HTML はどちらも、SGML から派生した文書フォーマットです。これらの 3 つはすべて、同様の構文、大括弧付きタグの使用など、特定の特性を共有しています。相違点は、HTML は SGML の応用 であるのに対し、XMLSGML のサブセット であることです。W3C が作成した主要な図を見ると、この関係がよく分かります。


出典: World Wide Web Consortium の覚書 (http://www.w3.org/TR/NOTE-rdfarch)、Tim Berners-Lee 著。

SGML は、作成、管理、および配布対象の文書データが大量にある組織の間で人気です。SGML には文字セットがあり、エンティティー (オブジェクト) を使用することができます。外部データは参照することができ、拡張可能です。SGML は、HTML などの特定のマークアップ言語を作成するためのルールを規定するものです。HTML は単一のタグ・セットであるのに対し、SGML は希望するタグ・セットを作成するための機能を提供します。

Web 上での SGML の送達には障害があるので、XML が開発されました。障害としては、スタイル・シートのサポートが欠落している、主流のブラウザーでサポートされていない、ソフトウェアが複雑である、SGML ソフトウェア・パッケージ間で SGML 準拠レベルに開きがあるため SGML データの交換に支障がある、などがあります。主流の Web ブラウザーSGML がサポートされていないため、Web 上で SGML 情報を送達するアプリケーションの大半は SGML を HTML に変換します。この下方変換により、元の SGML データの情報の多くは削除されるため、柔軟性が失われ、再使用、交換、および自動化に障害が生じます。

XML は、高いレベルの再使用、交換、および自動化が求められる Web アプリケーションで HTML に取って代わるだけでなく、Web 上で SGML 情報を送達するための推奨方法としても HTML の代わりに使用することができます。SGML 全体は、企業にとって重要な文書やデータの作成および格納に適したテクノロジーであり続けます。XML は、現存する SGML ベースの大量の情報を Web 上で送達するための基本手段になります。

XML は、仕様としては SGML よりも非常に小規模なので、ブラウザーにデータを表示するための多くの関連仕様 (eXtensible Stylesheet Language (「XSL」)、eXtensible Linking Language (「XLL」) など) が用意されています。XML は、希望するタグ・セットを作成するための機能を提供するという点で SGML に類似しています。XML の文書タイプ定義は SGML から継承されています。XML は、2000 年 2 月中旬に正式な仕様になりました。



*******************************





個人レベルでもクラウドソーシングの活用がなされている以上、いずれは個人のデータベース構築が課題となると感じていたが
そろそろ本格化してくると思っていいんだろうなぁ。。。

HTMLがXMLに取って変わるのも、要するに検索性と保守性が向上するからだろう。
CSVとかシーケンスみたいな、並びに依存したデータ構造よりもツリーの方が簡単なのは言うまでも無いわけで。





プログラムを勉強するにあたり、いろいろ考えてはいたのだが、データ構造や保存形式から言語を選んでいくというのもひとつの手かなと思った。