構造化文書

構造化文書(Structred Document)

テキストの中にも、構造をもったものて色々ありますよね。 例えば、HTML は、テキストの構造を markup してあるわけで。

構造化文書によく使われる JSON と XML を扱っていきます。 文書に構造があるので、Java オブジェクトとの対応関係をとることもできるので、 その方法を見ていきましょう。

JSON

JSON (JavaScript Object Notation) は、以下のようなテキストフォーマットです。

{   "name": "神戸大学",
    "established": 1949,
    "faculties":{
        "工学部": {
            "established": 1953,
            "departments": ["情報知能工学科","電気電子工学科", ...]
        }
    }
}

構成要素は、以下のとおり。

  • オブジェクトと呼ばれる、名前のペア。
  • 配列 と呼ばれる値のあつまり。
  • には、文字列、数値、true/false, null, オブジェクト、配列を取りうる。つまり、ネスト構造も可能。

基本的には、木構造です。JavaScript という言語のオブジェクト記法法をベースに策定されたそうです。

各種 Web Service のデータフォーマットなどにも使われています。

Java と JSON の変換ですが、JSON に対応するような Java のクラス群がある場合は、簡単に処理できます。

例えば、こんなクラスがあったとしたら(Univ)

public class Univ {
    public String name;
    public int established;
    public HashMap<String, Faculty> faculties;
}

public class Faculty {
    public int established;
    public List<String> departments;
}

Gsonというライブラリをつかったら、これだけで String に変換できます。gson の手配は、今回は maven というビルド環境がおこなってくれているはずです。

Gson gson = new Gson();
String univ2json = gson.toJson(univ);
System.out.println(univ2json);

もとに戻す場合は、こんな感じ。

Univ univFromJson = gson.fromJson(univ2json, Univ.class);
System.out.println(univFromJson);

こういう操作を mapping とか binding とか言います。今のは JSON フォーマットのテキストと object の mapping を行いました。 もっと進んで、関係データベースに mapping するのを O/R mapping などといいます。

XML

XML (Extensible Markup Language) は、HTML のようなmarkup language の一つですが、HTML と違って、いろんな種類のフォーマットを対象にできるようなっています。

例えば、XHTML も XML の一種ですし、SVG という画像表示用のフォーマットもあります。こんな感じです。

<svg xmlns="http://www.w3.org/2000/svg" width="200" height="200">
  <circle cx="80" cy="80" r="60" fill="blue" />
  <rect x="100" y="100" width="80" height="80" rx="2" ry="2" fill="red" />  
</svg>

絵としてみると、こんな感じ(表示)。

XML の構成要素は、以下のとおり。

  • 要素(element)
  • 属性(attribute)
  <要素名 属性1="属性値" 属性2="属性値" ...>
      コンテンツ
  </要素名>

要素は、上記のように開始タグから終了タグまでの部分を指し、 その間にコンテンツが入ります。コンテンツの中には、一般の文字列意外にも子要素が入っていても構いません。 コンテンツの含まない要素の場合は、

<要素名 属性1="属性値" 属性2="属性値" ... />

のように表記されます。

一方で、属性値にはネスト構造は許されません。あと、コンテンツ内の並び順には意味がありますが、属性の並び順が違っても同じ意味と見なされます。

Java と XML の変換ですが、XML にも JAXB などの binding tool が存在します。JAXB は Java 標準で入っています。

public class Univ {
    public String name;
    @XmlAttribute
    public int established;
    public HashMap<String, Faculty> faculties;

    public Univ(){}
    ...
}

属性を表す部分は@XmlAttributeという annotation が付記されており、JAXB は対象フィールドは属性として扱ってくれます。

変換結果はこんな感じ。HashMap のところは、key, value element として表現されています。

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<univ established="1949">
    <name>神戸大学</name>
    <faculties>
        <entry>
            <key>工学部</key>
            <value>
                <established>1953</established>
                <departments>情報知能工学科</departments>
                <departments>電気電子工学科</departments>
            </value>
        </entry>
    </faculties>
</univ>

Object から XML (String にするため、StringWriter を経由してます)

StringWriter out = new StringWriter();
JAXB.marshal(univ, out);
String univ2xml = out.toString();
System.out.println(univ2xml);

XML から Object (こちらもStringReader経由)

StringReader in = new StringReader(univ2xml);
Univ univFromXml = JAXB.unmarshal(in, Univ.class);
System.out.println(univFromXml);

JAXB ですが、対象オブジェクトが JAXB の規格にそった構造をもっていない場合は、marshaling の方法が分からないので、javax.xml.bind.annotation.adapters などで自分で定義する必要があります。

DOM

一方で、任意の XML を扱いたい場合、XML を木構造として扱います。XML を DOM (Document Object Model) とよばれる木構造データ構造に変換してつかうのが一般的です。

Java でも DOM は使われますが、今回は使い方は省略します。

一方で、DOM は、JavaScript などを持ちいて動的 Web Page を作成するのにもつかわれます。 ブラウザは、(X)HTML 文書を DOM データ構造に変換して持っています。 そのうえで、JavaScript から DOM データ構造に対する改変を許します。 これによって、HTML ページが動けるようになるわけです。

HTML 文書を変更すると表示が変わるというと奇異な感じがするかもしれませんが、HTML 文書をベースに GUI コンポーネントをセットアップし、そのあとは、プログラムでドンドン操作していると思えば、普通の GUI アプリと同じように思えるかと。

スキーマ

ここまで JSON にしろ XML をにしろ、任意の JSON や XML を相手にするのではなく、「ある種の目的」のための「ある種のフォーマット」にそった JSON や XML を相手にしてました。対応する Java のデータ構造が決まっているように、文書も「ある種のフォーマット」に従っている訳です。こういう文書の論理的構造のことを、スキーマ (Schema)とよびます。

Schema を記述するための言語もあって、XML では DTD や XML Schema, RELAX NG などが有名で、JSON だと JSON Schema などがあります。

授業の際は、簡単に例をあげて紹介します。

Reflection(参考)

JAXB や gson といったライブラリは、どうして「事前に知りもしないクラスの内部構造に応じた処理」ができるのでしょうか?

Java では、プログラム内で、各クラスの情報を扱うためのjava.lang.Class クラスがあります。たとえば、Stringクラスのクラス情報は、

String.class

などで取得できますし、対象 obj のクラス情報は

obj.getClass()

で取得できます。

Class オブジェクトからは、フィールド(java.lang.reflect.Field)やメソッド(java.lang.reflect.Method)の情報を取得し、データ取得やメソッド実行に利用することもできます。こういうのが使えるから、gson や JAXB といったライブラリも作れるんです。

これらの機能はリフレクション (Reflection) と呼ばれます。一般には、プログラム中で、自分のプログラムに関する情報を取得・変更できる機能のことを指す用語です。 まあ、ちょっと特殊な機能なので、あまり普段使う必要はないかと思いますが、存在は知っておくとよいでしょう。

Read more