Embed presentation
第一回 Linked Open Data勉強会@東京 LODの基礎技術と公開までの 取り組み 江上周作 LODチャレンジJapan2015実行委員会 電気通信大学大学院情報システム学研究科 1
自己紹介 江上周作(Shusaku Egami) 電気通信大学大学院情報システム学研究科 社会知能情報学専攻 システム設計基礎学講座 大須賀・田原研究室 博士前期課程2年 LODチャレンジJapan2013 データセット部門最優秀賞(ねじLOD) LODチャレンジJapan2015実行委員 2
本日のゴール • LODの実体(中身)を理解 • SPARQLを軽く叩けるようになる • ハンズオン 3 参考 Linked Data Webをグローバルなデータ空間にする仕組み (著)トム ヒース,他 (訳)武田英明,他
この発表では 大きく分けてこの2つ • LODの初歩的な説明 • 実例(ねじLOD) 4
オープンデータ • 二時利用可能なライセンス • 機械可読形式 5
文書のWeb 6 HTML リンク
データのWeb 7
Linked Open Data 8 Web上に公開された構造化データを相互にリン クすることで「データのWeb」を構築 The Linking Open Data cloud diagram, http://lod-cloud.net/
Linked Dataの基本原則 1. あらゆる事物にURIを付与すること 2. 誰でも事物の内容が確認できるように、URIはHTTP 経由で参照できること 3. URIを参照した時は、標準の技術(RDFやSPARQL 等)を使用して関係する有用な情報を利用できるよ うにすること 4. より多くの事物を発見できるように、他のURIへの リンクを含めること 9
Linked Dataの基本原則 1. あらゆる事物にURIを付与すること 2. 誰でも事物の内容が確認できるように、URIはHTTP 経由で参照できること 3. URIを参照した時は、標準の技術(RDFやSPARQL 等)を使用して関係する有用な情報を利用できるよ うにすること 4. より多くの事物を発見できるように、他のURIへの リンクを含めること 10
URL,URI,IRI URL: Uniform Resource Locator リソースの場所を識別する URN: Uniform Resource Name リソースの名前を識別する URI: Uniform Resource Identifier リソースを指し示す統一識別子 IRI: Internationalized Resource Identifier 国際化したURI 「http://ja.dbpedia.org/resource/東京都」など LODにはこれを使う 11
Linked Dataの基本原則 1. あらゆる事物にURIを付与すること 2. 誰でも事物の内容が確認できるように、URIはHTTP 経由で参照できること 3. URIを参照した時は、標準の技術(RDFやSPARQL 等)を使用して関係する有用な情報を利用できるよ うにすること 4. より多くの事物を発見できるように、他のURIへの リンクを含めること 12
参照解決 アクセスした時に値を参照できるIRIを設計する 13 http://ja.dbpedia.org/resource/東京都アクセス http://ja.dbpedia.org/page/東京都 303 リダイレクト 結果 東京都を説明するIRI 人が(ブラウザで)見る用の結果 コンピュータが見る用の結果は別
Linked Dataの基本原則 1. あらゆる事物にURIを付与すること 2. 誰でも事物の内容が確認できるように、URIはHTTP 経由で参照できること 3. URIを参照した時は、標準の技術(RDFやSPARQL 等)を使用して関係する有用な情報を利用できるよ うにすること 4. より多くの事物を発見できるように、他のURIへの リンクを含めること 14
RDF リソースを記述するための統一された枠組み メタデータ主語・述語・目的語の三つ組(トリプル)で 記述する 15 http://ja.dbpedia.org /resource/東京都 http://ja.dbpedia.org /resource/舛添要一 http://dbpedia.org/ontology/leaderName 主語 述語(プロパティ) 目的語
RDFグラフ 16 http://ja.dbpedia.org /resource/東京都 http://ja.dbpedia.org /resource/舛添要一 http://dbpedia.org/ontology/leaderName 舛添要一 http://xmlns.com/foaf/0.1/name http://ja.dbpedia.org /resource/東京大学 http://ja.dbpedia.org/property/出身校
データ形式:N-triples <http://ja.dbpedia.org/resource/東京都> <http://dbpedia.org/ontology/leaderName> <http://ja.dbpedia.org/resource/舛添要一> . <http://ja.dbpedia.org/resource/舛添要一> <http://xmlns.com/foaf/0.1/name> "舛添要一"@ja . <http://ja.dbpedia.org/resource/舛添要一> <http://ja.dbpedia.org/property/出身校> <http://ja.dbpedia.org/resource/東京大学> . 17
データ形式: Turtle @prefix dbpedia-ja: <http://ja.dbpedia.org/resource/> . @prefix dbpedia-owl: < http://dbpedia.org/ontology/> . @prefix prop-ja: <http://ja.dbpedia.org/property/> . @prefix foaf: < http://xmlns.com/foaf/0.1/> . dbpedia-ja:東京都 dbpedia-owl:leaderName dbpedia-ja:舛添要一 . dbpedia-ja:舛添要一 foaf:name "舛添要一"@ja ; prop-ja:出身校 dbpedia-ja:東京大学 . 18
データ形式: RDF/XML <?xml version="1.0" encoding="utf-8" ?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf- syntax-ns#" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" > <rdf:Description rdf:about="http://ja.dbpedia.org/resource/ 東京都"> <dbpedia-owl: rdf:resource="http://ja.dbpedia.org/resource/舛添要一" /> </rdf:Description> 19
RDF参照解決 アクセスした時にRDFを参照できるように設計する 20 アクセス http://ja.dbpedia.org/resource/東京都 結果 Accept: application/rdf+xml (RDF/XMLを指定) <?xml version="1.0" encoding="utf-8" ?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dbpedia-owl="http://dbpedia.org/ontology/" > <rdf:Description rdf:about="http://ja.dbpedia.org/resource/東京都"> <dbpedia-owl: rdf:resource="http://ja.dbpedia.org/resource/舛添要一" /> </rdf:Description> RDF/XML
SPARQLエンドポイント 外部からSPARQL(SPARQL Protocol and RDF Query Language)を 使ってLODに対して検索・データ取得が行えるような環境 「SPARQLエンドポイント」を設置する ※(注記)SPARQLについては後ほど説明 21 LOD SPARQL EP SPARQL 結果
Linked Dataの基本原則 1. あらゆる事物にURIを付与すること 2. 誰でも事物の内容が確認できるように、URIはHTTP 経由で参照できること 3. URIを参照した時は、標準の技術(RDFやSPARQL 等)を使用して関係する有用な情報を利用できるよ うにすること 4. より多くの事物を発見できるように、他のURIへの リンクを含めること 22
他のデータにリンク よく使うリンク 【同義】 http://www.w3.org/2002/07/owl#sameAs(owl:sameAs) 【類似同等】 http://www.w3.org/2004/02/skos/core#closeMatch (skos:closeMatch) 【追加情報】 http://www.w3.org/2000/01/rdf-schema#seeAlso(rdfs:seeAlso) 23
Linked Open Vocabularies 24 どのような語彙があるのか検索できる http://lov.okfn.org/dataset/lov/
LODクラウド図 25 2007年05月01日 2008年09月18日 2009年03月27日 2011年09月19日
LODクラウド図 26
LODチャレンジJapan2015 27 国内最大級のオープンデータ活用コンテスト
応募作品数 • 2011年度 • 73作品 • 2012年度 • 205作品 • 2013年度 • 321作品 • 2014年度 • 240作品 • 2015年度 • ? 28 計839作品 今年度で1000作品!
過去の受賞作品 29
日本語版LODクラウド図 30 日本語Linked Data Cloud図 2014年03月10日版, http://linkedopendata.jp/?p=486
LODを作る 既存ツール • LinkData • Open Refine RDF Extension • RDF出力のできるオントロジーエディタ • 法造 • Protége • 各種テキストエディタ 31
LinkData 32 テーブルデータをRDFに変換して公開 http://linkdata.org
法造 33 阪大開発のオントロジーエディタ http://www.hozo.jp/hozo/
Protége 34 http://protege.stanford.edu/
LODを使う SPARQL(SPARQL Protocol and RDF Query Language)を使っ てLODに対して検索を行う SPARQL (SPARQL Protocol and RDF Query Language) RDFで記述されたデータに対して検索を行うクエリ言語 2008年にW3C勧告 35 SELECT * WHERE { ?s ?p ?o . }
LOD公開までの実例 (ねじLODを例として) 36
ねじLOD ねじ・締結具に関するLOD LODチャレンジ2013 データセット部門最優秀賞 http://monodzukurilod.org/neji/
ねじLODができるまで 大阪・京都・奈良のねじ商社約30社が集結し、 ねじ企業間情報処理研究会(N研)発足 (1997) ねじコード体系(N研コード)の作成や プロトコルの制定 Web-EDI 完成 (2004) 大阪鋲螺卸商協同組合(大鋲協)が引き継ぎ (2011) そしてLODに・・・
N研コードのRDF化 39 • 総合品種マスター • 総合商品マスター 5000種以上の締結部品 商品コード 帳票等表記名 分類情報 寸法情報 RDF生成 プログラム RDFN研コード
40 http://monodzukuri lod.org/neji/resour ce/10 http://monodzukurilod .org/neji/resource/101 341 http://monodzukurilod .org/neji/resource/101 34111 http://monodzukuri lod.org/neji/resour ce/1013 NMCPK ボルト 頭付きボルト アイボルト アイボルト 細目 名称 商品名コード rdfs:seeAls o 大分類 中分類 小分類 細分類 (商品) rdfs:subClassOf 提供 分類コード 名称 10 分類コード 1013 名称 101341 アイボルト 帳票等表記名 rdf:type http://www.sumidabyora. co.jp/ 名称 企業名 (株)隅田鋲螺製作所 分類コード rdfs:subClassOf http://ja.dbpedia. org/resource/ボル ト DBpedia Japanese http://ja.dbpedia. org/resource/アイ ボルト rdfs:seeAlso rdfs:seeAlso 40
ねじLODの公開・提供 検索ページ SPARQL エンドポイント リソースページ 様々な形式でダウンロード可能
外部LODとリンク(1/4) 42 類似度計算で泥臭くリンク付け 編集距離,LCSをベースとして以下の式を定義
外部LODとリンク(2/4) 43 LCS(最長共通部分列)が3つ以上に途切れる場合に α=1.5 ねじLOD: テクスシーリングヘックス (tex sealing hex) DBpedia: シリコングラフィックス (silicon graphics)
外部LODとリンク(3/4) 44 候補 リソース ねじカテゴリ リソース dcterms:subject dbpedia-owl: wikiPageWikiLink 製造,機械要素 カテゴリ 候補リソースがねじ関連のページと リンクしていなければ β=1.5
外部LODとリンク(4/4) 45 候補 リソース 材料 カテゴリ 加工 カテゴリ ... ... dcterms:subject skos:broader skos:broader 上位カテゴリを辿っていき、 材料や加工カテゴリに属していれば、 それぞれ適切なプロパティでリンク付け 材料: "nejiterms:material" property 加工方法: "nejiterms:processingMethod" property
広義概念とリンク 46
商品提供関係構築 47 Webページ 収集プログラム 企業HP (210 件) ねじLODの商品 (細分類)リソー スを抽出 商品ページの テキストを取得 RDF生成 N-gramと類似度計算を用い る
×ばつCAD図面
×ばつBOM 推論により 商品を表示 コード、商品名 の統一化 BOM(部品表)内の部品名称・コード統一化や,部品検索 を行う 選択 検索
工業分野のLODのこれから ねじLOD スプロ ケット ベアリ ング チェーン LODでオープンイノベーション促進