リンクするデータとは

ネットワーク時代のデータ

  • 1つの組織内のデータベース
    • 比較的少数のコンピュータ
    • 管理可能なサイズと質のデータ、整ったスキーマ
    • 図1:
  • 組織、領域を超えたデータ
    • 多数のコンピュータ、あるいはクラウド
    • 膨大で質も不明なデータの海、それぞれに異なるスキーマ
    • 図2:

データのウェブ

  • 標準化、ガイドライン...
    • みんなで同じ語彙、スキーマ? → 無理
    • 共通項を用意してマッピング → ある程度は機能するが情報が失われる
    • 約束事が多いと破綻しやすい
  • 緩やかなつながり:データのウェブ
    • WWWは簡単で緩やかな文書のリンクで発展
    • 記述の約束(HTML)は単純で非力。しかしだからこそ誰もが利用できた(「よいHTML」)
    • データも簡単な約束でリンクすれば、さまざまな形での利用が可能
    • 図3:

情報サイロ

  • 情報サイロ、あるいは壁で遮られる社会ネット
    • 図4:TED2009で「ソーシャルネットの壁」をスライド上映して説明するバーナーズ=リー
    • The problem with today's social networks is that they are often closed to the outside web (illustration by David Simonds, The Economist, 2008 )
    • ウェブの情報の価値=f(内容, リンク)。分断された「情報サイロ」では価値が生かされない

リンクするデータ

  • バーナーズ=リーのLinked Data
    • WWWが文書のハイパーリンクで発展したように、データ共有もリンクで発展する
    • URIを識別だけでなくリンク(参照解決可能)にも用いる
    • Linked Dataの4原則を提案
  • リンクするデータの4原則
    • ものごとをURIで名前付けする
    • これらの名前を調べて見つける(参照解決する)ことができるように、http:スキームのURIを使う
    • 名前付けしたURIがたどられたら、標準技術(RDFなど)を用いて有用な情報を返す
    • ほかのURIへのリンクを加えて、より多くのものごとを見出せるようにする

Linking Open Data

リンクのハブ:典拠情報のRDF化

ウェブ上の名前の集約とLOD

  • LODのハブとSameAs
    • 多くのデータセットが、異なる名前(URI)で同じものを表現
    • owl:sameAsなどでDBpediaにリンクすることで、LODのハブとなっている
    • 図6:LODネットワークのリンクが集中するDBpedia
  • 名前の集約
    • できれば同じ名前を使うほうが効率が良い
    • 各国の国立図書館などが培ってきた典拠ファイルは、名前集約の重要なハブになり得る

件名標目(Web NDLSH)

  • 件名標目のモデル
    • 国立国会図書館件名標目(Subject Heading)をSKOS語彙を用いてRDF化
    • 作品の主題(キーワード)を表現するための統制語彙
    • 上位語(broader)、下位語(narrower)、関連語(related)などを用いたシソーラス
    • 日本語もIRIとして識別子に用いる:http://id.ndl.go.jp/auth/ndlsh/愛
  • Web NDLSHとLOD
    • 異なるシソーラスの概念を関連付けるSKOSマッピングプロパティ(skos:exactMatchskos:closeMatchなど)でLCSHなどとリンク
    • 図7:

名称典拠

  • 名称典拠のデータ
    • Web NDLSHに人名、団体名、地名、統一タイトルなどの典拠を追加
    • 別名(ペンネーム、本名など)の集約
    • 同姓同名の別人物の識別
    • 同一人物の著作、異なる表記の同一作品などを検索可能
    • 図8:
  • 名称典拠のモデル
    • 典拠リソース:名称(ラベル)を中心にすえたリソース。典拠ごとに作成日や改訂履歴などのメタデータを持つ
    • 実体リソース:人物実体として、生没年などのプロパティを持つ

典拠のグラフ

  • 図9:

典拠のグラフ:実体リソース

  • 図10:
    • 生没年、所属など、実体に属するプロパティ

典拠のグラフ:ラベル

  • 図11:
    • 優先ラベル(標目形)と代替ラベル(参照形)
    • ラベルをリソースとして扱い、読みも加える

典拠のグラフ:別名

  • 図12:
    • 別名は独立した典拠としてそれぞれのデータを持つ

典拠のグラフ:外部へのリンク

  • 図13:
    • VIAF (20カ国近くの国立、国際図書館の典拠が連動)にskos:exactMatchでリンク

リンクの枝:現実の統計データ

災害とデータ提供

統計データを表現する語彙

放射能水準統計のRDFモデル

  • SCVをベースに、シンプルに、リンクするデータとして
    • scv:dimensionの代わりにEvent Ontologyev:placeev:timeを利用(プロパティ値の型を調べなくてもデータの意味がわかる)
    • 場所軸にGeoNamesを用いて、外部のデータとリンク可能にする
    • 時間軸はTimeline Ontologyを用いて表現
    • #データ
      <http://www.kanzaki.com/works/2011/stat/ra/20110607/p13/t08>
       rdf:value "0.060"^^ms:microsv ;
       ev:place <http://sws.geonames.org/1852083/> ;
       ev:time <http://www.kanzaki.com/works/2011/stat/dim/d/20110607T08PT1H>;
       scv:dataset <http://www.kanzaki.com/works/2011/stat/ra/set/moe> .
       
      #場所軸
      <http://sws.geonames.org/1852083/>
       vcard:region "東京都"@ja, "Tokyo"@en ;
       vcard:locality "新宿区"@ja, "Shinjuku"@en ;
       geo:lat "35.69355" ;
       geo:long "139.70352" .
       
      #時間軸
      <http://www.kanzaki.com/works/2011/stat/dim/d/20110607T08PT1H>
       rdfs:label "2011年06月07日T08" ;
       tl:at "2011年06月07日T08:00:00+09:00"^^xsd:dateTime ;
       tl:duration "PT1H"^^xsd:duration .

RDF統計データとLOD

できること、目指すこと

できること、リンクするデータの発信

  • データをどんどん発信してリンクする
    • 現実のデータのネットワーク
    • 整備されたスキーマがなくても緩やかにリンクし、つながる
    • 部分的なデータでも、リンクすることで新たな意味を持つこともある
    • 図17:
  • データのハブ、そして枝
    • 領域の典拠、シソーラスをLOD化してリンクのハブに
    • かつてHTMLで発信しようと呼びかけたように、データのウェブでも
    • ハブをうまく利用して、つながるデータを

目指すこと、より広いコミュニティで

  • Schema.orgのインパクト
    • 検索3社によるSchema.orgがHTMLに構造化データを埋め込む方法を提唱
    • SW/LODコミュニティは黒船騒ぎ、厳密なモデルと実装の現実のギャップについて議論百出
      • 情報リソースと実世界実体のURIは区別すべきか、プロパティの目的語に人物実体と名前を混在させて良いのか、etc...
    • RDF利用の観点からHarry Halpinがコミュニティに4つの提案(Schema.org considered helpful)
  • Harryの提案
    • LOD/RDFの利用者とUXを研究し、どうすれば実際に利用しやすくなるかに焦点を当てよう
    • 現実の実証的なデータによるフィードバックでRDFの利点と問題点を考えよう
    • RDFあるいはオープンデータを、実際に使える形でブラウザに組み込むことを考えよう
    • 起業して実際の利用者に製品を届け、コミュニティにフィードバックしよう
  • より広いコミュニティで、データのウェブを
    • 学会だけでなく、ウェブアプリケーションやデジタルコンテンツの開発者、ユーザも含めて
    • 身近なデータをリンクさせる、データのウェブ

参照先