XML

IT技術の今→
システム科学研究室→
担当者:稲吉、小野里、北島、左合、山田、吉原
1.はじめに
2.XMLとは
3.文書電子化の必要性
4.ネットワークと電子文書
5.そしてXML
6.XML利用の方向性と将来の展望
参考文献


1.はじめに

 XMLの項はシステム科学研究室所属の4年生が作成した。 この文章は、向殿先生の授業の一環として 「IT(情報技術)の今」というテーマの下にまとめられたうちの一つである。
 XMLを、「次世代HTML」といったイメージで見ている人が世間的にはまだ多いだろう。 実際、「XMLにHTMLの代わりをさせて、HTMLをXMLで置き換えてゆくべきだ」と考えている人達がいるのは確かだ。しかし、新たにXMLを覚える為のコストを考えると、Webページの表示だけならHTMLで充分ではないかという事になる。そういう意味では、「HTMLの次だから、、」という事でXMLを学ぼうとするのは間違いだと思う。
 ただ、ブラウザ上にWebページを表示する手段としてだけでなく、もっと様々な利用の可能性を求めるならば、XMLを学ぶ事は非常に意義があるだろう。



2.XMLとは

 XMLはeXtensible Markup Language の略である。 「language」と付いているが、HTML(HyperText Markup Language) 同様に、いわゆる「プログラミング言語」では無く、 電子文書(例えばWebページ)を記述する為のmarkup言語である。 HTMLを例にとってmarkupを説明すると、

XMLは eXtensible Markup Language の略である。」

と文字列の一部を強調したい場合は、

<B>XML</B>は
e<B>X</B>tensible 
<B>M</B>arkup 
<B>L</B>anguage の略である。
という風に、強調したい部分を<B>と</B>で囲む。 このようなものをmarkup(マーク付け)と言う。

 HTMLでもXMLでも、ファイルの実体は単なるテキストファイル (つまりは文字の羅列)に過ぎないが、markupによって これに情報(表示の方法や、文章の構造等)を付加する事が 出来る。タグで意味付けを行なうという点はXMLとHTMLで 共通していて、構造も似ている。

 逆に、HTMLとXMLの違いもタグにある。エディタ等でHTMLファイルを作った事があれば 判るだろうが、先程の「<B>と</B>で囲んだ文字は強調される」といった 情報の付加の規則は、HTMLではあらかじめ決められている。 一方、XMLでは、markupと表示は無関係であり、 「どのようなタグにどのような意味を持たせるか」を自分で決める事が出来る。 従って、XMLの方が汎用性が高い。例えるならば、HTMLがゲーム専用機なのに対して、 XMLは使い方で縛られないパソコンのようなものだ。パソコンの使い方のアイデアが 新たなビジネスのチャンスになるのと同様に、XMLもアイデア次第で様々な使い方を する事が出来るだけの潜在能力を持っていると言える。



3.文書電子化の必要性

 XML以前に少し話を戻して、 「文書類の電子化」が必要になってきた背景を見ていく。
 「文書」は私達が生活する上で常に必要とされている。 定型的には「注文書」「請求書」「領収書」「確定申告書」「成績証明書」、 非定型的には「レポート」「会議議事録」「メモ」等々。 以前、このような文書は全て紙に書かれていたので、 行政機関や一般のオフィスは 膨大な量の文書を印刷する為に膨大な量の紙を消費し、 森林伐採の温床だと新聞社によく叩かれていた。

 その他にも、紙を主体とする文書類は、気付かない内に 様々な問題と制約をもたらしている。以下、それらを列挙する。

  1. 収納スペースの問題
    何らかの形でファイリングされ、蓄積される紙は必然的に スペースを圧迫する。
  2. 伝達スピードの問題
    「紙」を運ぶ事による物理的な限界。ファックスを除けば、 伝達には時間・日単位の時間を必要とする。
  3. 処理の問題
    紙媒体の情報をコンピュータで処理する場合、 人間による入力動作が必要な為、誤りの発生や時間のロスを招く。
  4. 検索の問題
    膨大な量の書類の中から必要とするものを見つけ出す為に 多くの時間を費やすことになる。
文書類を電子化することによりこれらの全てを解決することが可能になる。

 ネットワークの進展と共に文書類が電子化されていく事は ある意味、歴史の必然とも言えるし、 電子商取引や遠隔医療、遠隔授業といったネットワークを高度に利用した 社会的システムの実現の為には、文書を電子化する努力が必須のものである。 しかし、これらは

  1. 原本保証の問題
  2. 電子文書類を読む為のソフトウェア・ハードウェアの問題
  3. 社会のネットワーク化に依るセキュリティーの問題
  4. 可監査制の問題
といった電子文書特有の問題に晒される危険性も併せ持っている。
 とはいっても、現段階では既に企業の電子文書化は進んでいて、コンピュータによる 事務処理を行なわない企業は皆無といっても良いほどの状態である。 過去の文書をスキャナを利用して電子化し、ファイルに蓄積していく 事業も数多く行なわれている。
 このような現状で、今日改めて文書電子化が叫ばれXMLが注目される背景 には、ここまで解説してきたような、 今までの文書電子化のプロセスとは違う意図が含まれている事を 理解する必要がある。



4.ネットワークと電子文書

 広汎にわたるネットワークの利用は、従来の各組織単位のネットワークとは異なり、 不特定の利用者、用途を前提に広汎な情報交換、情報共有を可能としつつある。
 ただし、その実現の為には、関係者、利用者に広く受け入れられた 電子文書形式の標準化が必要である。各々の組織が勝手に形式を定めれば、 そのそれぞれに対応したハードウェア、ソフトウェアを揃えるか、または 変換機構を形式の種類ごとに用意しなくてはならなくなる。
 別な見方をすると、今日のネットワークの普及は、利用者が共通に利用できる 電子文書形式があって実現されたとも言える。つまり、Webの普及をきっかけとするもの と言える。

 HTML(HyperText Markup Language)はSGML(Standard Generalized Markup Language)を基本に、文書の体裁制御(表示上のコントロール)に主眼に置いて、 利用者が共通に使用できるタグセットをあらかじめ定義したものである。 文書の構造定義をスキップしている為、 タグを絞り、利用の容易さを追求する事が出来ている。 この利用の容易さが広く受け入れられ、今日の爆発的とも言える Webの普及をもたらしているのだが、文書の構造を表わす機能は用意されておらず、 また、業界や組織によって異なる文書構造の為に 新たなタグを定義する事は許されていない。
 一方、HTMLの母体となったSGMLは、元々特定のソフトウェアやハードウェアとは 切り離されたもので、文書を電子化する為の標準化された記法を 目的に制定されたものである。HTMLとWebブラウザの変化を考えると、今日のHTMLで表現された文書が百年後も継承されているとは考えづらい。しかし、 「著しく変化しつつあるソフトウェアやハードウェアに煩わされない」という SGMLの基本原則は、電子化された文書を長期間継承していく事が期待されている。
 更にSGMLは、HTMLと異なる以下の特性を持つ。
  1. 拡張性
    新しいタグやアトリビュート(属性)を定義できる。
  2. 構造性
    文書の一部に他の文書を取り込む事ができ、複雑な文書類を表現可能。
  3. 正規性
    SGMLで表記された電子文書は常にその構造定義が参照可能。
 SGMLのこれらの特徴は、必要とする文書類の電子化に柔軟に対応し、また電子化された文書を自在に利用したり、文書構造に従った検索ソフトウェアを可能にする。ただ、SGMLは500ページを超える規約から構成された、非常に理解しづらいものであり、 導入に際しての初期費用といった問題点も指摘されている。この解決策として、HTMLの様にSGMLの一部の機能を限定して利用するといった事はそれ以前にもなされていた。

 SGMLが制定された時期、現在のようにネットワークが普及しておらず、異なるシステム間で相互に電子文書を交換する為の形式として利用されるに留まっていた。HTMLは文書交換と言うよりは、共通化された形式の下での文書表現手段であり、当初よりネットワークを介した電子開示を目的として利用されている。SGMLが目的とした「異なるシステム相互での電子文書の交換」という目標は、ネットワークの進展と共に「誰もが参照できる情報提供」としてのHTMLへと変遷し、更にネットワークに接続されたシステムであれば「誰もが利用できる情報共有」の方法としてのXMLへと展開し始めている。



5.そしてXML

 90年代後半、こういった背景を踏まえてSGMLに比べて扱い易くWeb機構に適合した 言語の開発が始まった。そのねらいは、HTMLを基礎に置いている現状のWebの 限界を乗り越え、ネットワークを高度な情報交換、共有の為の機構に改革していく 事にあった。
 具体的にはシステム間インタフェースの標準を確立する事で、ネットワーク上に展開される膨大な量の情報源から必要な情報やサービスを、より効率的に探したり、同じコンテンツを様々なメディアや体裁で表現可能にする機構の形成が目的である。
 設計に当たっては以下を目指して仕様が検討された。(W3CのXMLデザインゴール)
  1. XMLはInternetで(直接)使えなければならない。
  2. XMLはさまざまなアプリケーションをサポートしなければならない。
  3. XMLはSGMLと互換性を持たなくてはならない。
  4. XML文書を処理するプログラムは簡単に作成できなければならない。
  5. XMLのオプション機構は(理想的には)無い、あるいは最小限にとどめる。
  6. XML文書は人間が読め、分かりやすいものでなければならない。
  7. XMLの設計は速やかに準備されなければならない。
  8. XMLの設計は簡潔でなければならない。
  9. XML文書は簡単に作成できなければならない 。
  10. XMLのマークアップの簡潔さは重要ではない 。
 こうして設計されたXMLは、以下の特性を持っている。
  1. SGMLの簡素化した部分集合に位置付けられる。
    極めて強力な文書表現能力を持つ。
    タグの設定は自由に行なえる。
    XMLを用いた文書データを扱うアプリケーションの実現が容易。
    Webブラウザが対応しやすい。
  2. 当初より国際的な利用を前提にデザインされている。
    国際的に統一された文字コード(Unicode)の採用。
    UTF-8、UTF-16を規格として採用。
  3. 言語そのものではなく、メタ言語としての性格を持つ。
    個々の業務に適用可能な、無限のデザイン可能性。
    一つの文書を多様な用途に用いられる。
 XML自体は文書構造の記述に焦点を当てたものであり、その利用に向けて、 関連規格の整備も進められている。主なものを以下に記す。
  • XSL(eXtensible Stylesheet Language)
  • XLL(eXtensible Linking Language)
  • RDF(Resource Description Framework)
  • DOM(Document Object Model)
  • CML(Chemical Markup Language)
  • MathML(Mathematics Markup Language)



6.XML利用の方向性

 ここまで解説したように、XMLはネットワークへの適応性、規約の容易さ、 更に本来のオープンな構造への指向を基礎に、プッシュ型の情報提供や、 ネットワーク上での情報共有構造、これまでSGMLの適用が困難だった科学領域 にも利用範囲を拡大しつつある。また、XMLの持つ特性から、 これまで実現が困難とされてきた多くの新しいアプリケーションへの 採用が進む事が予想されている。

  • Webクライアントを利用し、複数の異なるデータベースの情報を 組み合わせて利用可能にする。
  • WebサーバーとWebクライアントの協調的動作による負荷分散を実現する。
  • 各々の利用者に応じて、 同じデータを異なるビューで表示する機能を実現する。
  • 個々の利用者のニーズに応じた情報検索及び 情報フィルタリング機能を実現する。
 こういったアプリケーション側から観たXMLの持つ可能性を、Sun Microsystems の J.Bosak氏は二つの言葉で端的に示している。
  • 「情報のビュー(見せ方)の決定は利用者に委ねるべきだ。」
    これまでのメディアでは、情報のビューはあくまで情報提供者の意図に 依るものだった。この言葉はXMLによる情報提供において、 利用者が目的情報をどのように見るかという点で主導権を 握りうる可能性を示す。
  • 「情報こそ、利用者を知るべきである。」
    ネットワーク上は検索に焦点が当たり過ぎて、 TVのように情報の方からユーザに働きかける仕組みには 殆ど手が付けられていなかった。この言葉はXMLがもたらす 新しい情報発見の為の機構をうまく表現している。
 XMLの特性を総合的に活用すれば、これまで困難とされた様々な新しい 情報利用が実現可能になると期待される。例えば医療の分野では、ネットワーク活用 の拡大が推し進められ、医院から大病院、製薬会社など多くの組織が目的に応じて 様々な医療情報の交換を行なっている。XMLの元ではネットワーク上に各々形成される データベースを横断して情報が有機的に結合される。更に、各々の医療組織において 必要とされる情報が自動的に抽出され、それに適したビューによって表示出来るならば それらは医療行為に有効活用されるだろう。

 XMLは、システムやベンダに非依存であるというSGMLの目標そのものを躊躇し、 SGMLで永年培われてきた経験を踏まえ、更にネットワークに対する親和性を得て、 これからのネットワーク利用において大きく貢献する事が期待されている。 このような構造は、これまで社会機構が前提に置いていた条件自体の再検討を 迫るものでもある。



参考文献

XML Magazine:月間DBマガジン7月号増刊
W3C:XML(English)
Frequently Asked Questions
XML入門
たのしいXML