メタデータによる地域情報統合環境〜知多半島コンテントハブ

鈴木常彦1),2)   伊藤剛志1),3)

  1. 有限会社リフレクション
  2. 日本福祉大学 知多半島総合研究所
  3. 中京大学 人工知能高等研究所


概要
インターネットにおいて地域情報の検索はかなり困難な状況にある。これは、コンテントにその地域を表す属性を付与することで、解決することができる。我々は、地域を表現するメタデータ「知多コア」を策定し、コンテントへの付与を容易にするツール群を開発した。また、「知多コア」をキーとして地域情報を検索するサーチエンジンも開発し、その啓蒙を進めていく基盤を整備した。

はじめに
インターネットは、世界の情報へのアクセスに非常に便利な環境を提供しているが、地域情報へのアクセスには多くの大きな問題を抱えている。その最たるものが、地 域を特定した情報の検索が困難であることである。
今後、インターネットが生活に密着してくるのに従い、地域情報の重要性は益々高まっていく。しかしながら、現在のインターネットには、地域にフォーカスして、情 報を検索するという仕組みがアプリオリには存在しない。人海戦術で分類されたポータルサイトなどのアドホックな仕組みに頼るしかないが、これは十分な仕組みとはい えない。またgoogleに代表されるサーチエンジンもキーワードだけに依存し、例えば「半田」が半田市なのか氏名なのかを区別できない。
我々は、地域情報の流通、検索に必要なことは、メタデータとして地域属性を定義し、発信される情報自体に、地域属性を付与することであると考えた。今回の研究開発で取り組んだのは、情報の指す内容がどの地域のもので、どの地域の人が、どの地域から発信し、どの地域に向けたものであるかを定義し、その属性情報に基づいた検索・配信の仕組みである。
地域情報発信に際しては、もう一つ大きな障害がある。それはインターネットのインフラそのものである。相互接続点(IX:Internet eXchange)が東京に一極集中しているため、同じ町内の隣人同士が異なるISP(プロバイダ)を使用していると、通信するパケットは東京を迂回してしまう。今後のブロードバンドの普及において、これは地域からの情報発信には非常に不利なトポロジである。
この一極集中に対する解が、我々が取り組んでいる地域コンテントハブの実現である。地域コンテントハブは、地域のアクセス網の相互接続と、コンテント流通のための各種の仕掛けで構成される概念上の地域ネットワークとして定義している。
ここで重要なのは物理的な相互接続だけでは、地域コンテントハブは成立しないということにある。パケットではなく、コンテントと呼ばれる単位の情報が効率良く流通することを考えなくてはならない。その一つの方策が、広域負荷分散システム技術(CDS:Content Delivery System)の地域展開である。CDSは、広帯域を必要とするコンテントの複製を、全国のラストワンマイルのゲートウェイ直近のサーバに分散配置し、ユーザを最寄りのサーバに誘導する技術である。地域からの情報発信でも、この分散システムを利用できれば、東京から発信するのと対等またはそれ以上の環境が得られることになる。リフレクションで提供している「ウェブリフレクション」というサービスもこのCDSの一実現形態である。今回の研究開発では、この負荷分散のために複製されたコンテントを検索の対象として積極的に利用することにより、地域への分散環境に適したシステムを目指したものである。

1.地域情報メタデータ 知多コア
現在、インターネット上の情報には地域を表す一意な属性情報(メタデータ)が欠けている。今回、メタデータとして有名なDublin Coreにならい、地域情報のためのメタデータを「知多コア」と名付け、その定義に取り組んだ。
検討事項は、どのような地域属性が必要か、地域をどう定義するかの2点である。 まず、一点目については、今回、以下のものを用意した。
  1. 情報の内容が指す地域
  2. 情報を配信したい地域
  3. 著者の生活地域
  4. サーバの設置地域
これらは、W3C(World Wide Web Consortium)の定めるRDFに基づき、以下のように定義した。
<?xml version="1.0">
<!--
	RDF Schema declaration for Chita-core Element Set 1.0
-->

<!DOCTYPE rdf:RDF [
	<!ENTITY rdfns 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
	<!ENTITY rdfsns 'http://www.w3.org/2000/01/rdf-schema#'>
	<!ENTITY ccns 'http://www.chita-core.initiative.jp/schema/1.0/cces#'>
	]>
<rdf:RDF xmlns:rdf="&rdfns;"
	 xmlns:rdfs="&rdfsns;"
	 xmlns:cc="&cces;">
<!-- Description of Schema -->
<cc:Schema rdf:about="&ccns;">
	<rdf:value>Chita Core Element Set version 1.0</rdf:value>
	<cc:sl>464-0850</cc:sl>
	<cc:dl>nagoya.aichi.jp</cc:dl>
	<cc:al>457-0048</cc:al>
	<cc:as>7518</cc:as>
</cc:Schema>
<!-- Begin: Content Location Declaration -->
<rdf:Property rdf:about = "&ccns;sl">
	<rdfs:label>SourceLocation</rdfs:label>
	<rdfs:comment>Content Source Location Information -
		Zip code XXX-XXXX style or domestic domain name of content
		location you should announce us as source location.</rdfs:comment>
	<rdfs:isDefinedBy rdf:resource = "&ccns;" />
</rdf:Property>
<!-- Begin: Destination Location Declaration -->
<rdf:Property rdf:about = "&ccns;dl">
	<rdfs:label>DestinationLocation</rdfs:label>
	<rdfs:comment>Destination Contents Location Information -
		Domestic domain name of area or keyword "world"
         that you should announce us as destination location.</rdfs:comment>
	<rdfs:isDefinedBy rdf:resource = "&ccns;" />
</rdf:Property>
<!-- Begin: Author Location Declaration -->
<rdf:Property rdf:about = "&ccns;al">
	<rdfs:label>AuthorLocation</rdfs:label>
	<rdfs:comment>Author ocation Information -
		Zip code XXX-XXXX style or domestic domain name of your
		location as author location.</rdfs:comment>
	<rdfs:isDefinedBy rdf:resource = "&ccns;" />
</rdf:Property>
<!-- Begin: AS number Declaration -->
<rdf:Property rdf:about = "&ccns;as">
	<rdfs:label>ASNumber</rdfs:label>
	<rdfs:comment>AS Number Information -
	Integer of AS number that your host exists.</rdfs:comment>
	<rdfs:isDefinedBy rdf:resource = "&ccns;" />
</rdf:Property>
</rdf:RDF>
ここでは4つの属性についてラベルの定義までを行ったが、2点目の「地域をどう定義するか」が難問として残っている。
地域といっても、行政的地域名称、歴史的地域名称(飛騨、尾張等)、文化的地域名称(関西、知多)等、各種の地域名称とその指す範囲が存在する。今回は、できるだけプリミティブな要素を切り出せるよう、まず郵便番号と地域ドメイン(*1)を要素とすることにした。もちろん座標も候補となりえる。
今回のプリミティブな地域表現の採用は、検索側の立場から判断した。広域な地域名称は一意性に欠ける場合が多く、検索のキーには適さない。広域名称の指す地域が、狭域のプリミティブな要素を含むかどうかはデータベース側で判断可能であり、ユーザインターフェースから与えられた広域名称はプリミティブな狭域名称に分解し、結合して検索すればよいという考え方をとった。 地域を表現する記述手法については、今後も検討を進め、RDFによる定義の拡張を考えている。
最後の要素であるASは、Autonomous System 番号(*2)と呼ばれるもので、サーバの属しているネットワークを特定するものである。これは、whois -h whois.radb.net <サーバのIP address> などとして調べることができる。
今回、定義した知多コアをHTMLに適用すると例1のようになる。
例1: <HEAD profile="http://www.chita-core.initiative.jp/schema/1.0/cces">
       <META name="CC.SL" content="tokoname.aichi.jp">
       <META name="CC.DL" content="world">
       <META name="CC.AL" content="handa.aichi.jp">
       <META name="CC.AS" content="7518">
この記述の意味するところは、愛知県半田市の著者が、常滑市を中心とした情報を記述したもので、世界へ配信したいというコンテントであり、サーバはAS7518のネットワーク内にあることを示している。
(*1) 地域ドメイン名
http://www.nic.ad.jp/jp/regist/dom/doc/saisoku-1.html (付録参照)
(*2) AS番号
http://www.nic.ad.jp/jp/internet/doc-j/rfc/rfc1930-j.html

2. 統合環境

2.1 メタデータ付与ツール

検索と対象となるコンテントに第1節で述べたメタデータを付与するのためのインタフェースを準備した。メタデータはコンテンツに直接書き込むこともできるが、H TMLに精通していないコンテント提供者を想定して準備した。 インタフェースのはMS Windows 用と CGIによるWebインターフェースを準備し、ともにGUIを実現している。コンテント提供者は地域情報等を選択することで容易にメタデータを付与することができる。
2.2 地域情報収集エンジン オープンウェブリフレクション
メタデータを付与されたコンテントの収集には、オープンウェブリフレクションを用いる。ウェブリフレクション(*3)はHTTPリクエストの代理応答とリバース キャッシュを実現するための仕組みとそれを提供するサービスである。
登録されたURLの情報収集、代理応答、未登録メタデータの補完にウェブリフレクションを用いるが、再配布を容易とするためにオープンソースのHTTPサーバ実 装である Apache(*4) を用いて再設計・実装を行なった。再実装したウェブリフレクションをオープンウェブリフレクションとして Apache 配布ライセンスに従い、オープンソースとしている。
オープンウェブリフレクションでは検索対象となるコンテントを収集し、キャッシュデータとして保持する。また不足するメタデータがある場合は標準値を補完するこ とができる。保持されるキャッシュデータは後述する地域指向サーチエンジン等の検索対象となりうる。
(*3) http://www.reflection.co.jp/
(*4) http://www.apache.org/
2.3 知多コアを用いた知多観光情報ホームページ
知多コアの有効性を確認するためのコンテントの例として、知多観光情報ホームページ「知多半島が見えてくる7つの地域情報」を製作した。総計203ファイルに知 多コアのメタデータがつけられている。このホームページは、<http://www.chita-core.initiative.jp/chita/>でみることができる。
2.4 知多コアに基づく地域指向型サーチエンジン
知多コアを検索対象とした地域指向のサーチエンジンを開発した。このサーチエンジンは知多コアの有効性を示すためのサンプルとして開発したものである。 このサーチエンジンでは、まずロボットが地域のコンテンツをキャッシュデータとして収集する。キャッシュ機構は、上記オープンウェブリフレクションを用いている。
次にキャッシュ中のテキストを形態要素解析し、インデクシングを行う。検索時には形態要素解析された語彙と知多コアをAND検索することにより、地域を特定した 検索が行える。
なお、郵便番号は前方一致、地域ドメインは後方一致で広域の検索が行える。例えば、aichi.jpを検索すれば、nagoya.aichi.jp, tokoname.aichi.jp, toyota.aichi.jp等々がマッチすることになる。

むすび
今後の課題は、知多コアのブラッシュアップと普及である。地域情報の発信者に知多コアを記述してもらうために、その啓蒙活動をすすめていかなくてはいけない。今 回、リバースキャッシュにメタデータを付与する仕組みを開発し、クリエータの手間を減らす工夫をしたが、それでも地域を特定するのは、クリエータ自身である。自分 のデータを地域の人たちや地域に関心を持つ人たちに、より露出するための手段として、知多コアが有効であることを訴えていく予定である。
今回、地域の定義に於いて、歴史的あるいは文化的な地域名称は避けたが、情報にメタデータを付与する側の立場からは、広域な情報に多量の要素を記述するのは困難 である。検索側からの要件で考えるとなんらかの中心を選択して記述すれば十分であるが、やはり歴史的地域名称、文化的地域名称は今後定義したいところである。
また、今回は検索時のみメタデータを利用したが、知多コアをhttp-equivに適用することにより、HTTPでHEADを確認するロボットを開発すれば、対 象とする地域内のデータのみの収集が可能となる。知多コアの有効性を高めるために、既存の有名サーチエンジン運用者にも働きかけ、工夫を凝らした多くの地域指向サ ーチエンジンの登場を誘導するよう活動していく。
これらは、今後、日本福祉大学、あるいは知多コンテントハブ研究会等で検討を進めていく予定である。

参考文献
付録
一般地域型ドメイン名: (http://www.nic.ad.jp/jp/regist/dom/doc/saisoku-1.htmlより)
「一般地域型ドメイン名」の構成は、以下のとおりである。
        <組織ラベル>.<市区町村ラベル>.<都道府県ラベル>.JP
<都道府県ラベル> は、登録者が所在もしくは在住する都道府県または政令 指定都市を表す付録「都道府県ラベル」に指定したラベルとする。
<市区町村ラベル> は、登録者が所在もしくは在住する市区町村の名称をヘ ボン式ローマ字に直した文字列によって構成されるラベルとする。ただし、地 方公共団体の発行物において、ヘボン式ローマ字以外のローマ字表記で実績が 認められる場合には、その実績を優先する。実績のあるローマ字表記の採用を 希望する場合は、それを証明できるものを申請書に添付することが求められる。
ラベルには、原則として、「市」、「区」,「町」、「村」を表す文字列を含 まないものとするが、それが名前の不可分な一部となっているものなど、当セ ンターが特に認めるものは例外とする。また、同一都道府県内に同一の町村名 が複数ある場合には、町村の名称を表す文字列の前に、郡名をヘボン式ローマ 字(または、地方公共団体の発行物において実績のあるローマ字表記)に直し た文字列とハイフン("-")をつけることとする。