講演資料 - 共通語彙基盤整備事業

IMI共通語彙基盤の
目指すところ
武田英明
国立情報学研究所・教授 / 情報処理推進機構・専門員
[email protected]
共通語彙基盤(IMI)とは
• 情報を正しく効率的に交換、活用していくために、人名、住所、物等、データを体
系的、かつ、構造的に定義するための仕組み。
用語連携インタフェースは、用語の参照辞書を
整備することで、各種データの同一性の確認を
容易にし、その結果として、システム間の連携や
オープンデータの活用を容易にできる。
語彙(ボキャブラリ)、
情報交換パッケージ(IEP)
項目名(Type/Sub-properties)
人型
氏名
性別
項目名(エントリー名)
ic:人型
ic:人_氏名
ic:人_性別
Substitutable Elements:
ic:人_性別コード
ic:人_性別名
ic:人_生年月日
ic:人_死亡年月日
ic:人_現住所
ic:人_本籍
国籍
ic:人_国籍
Substitutable Elements:
国籍名
データタイプ(英語)
cardinality
ic:PersonNameType
<abstract element, no type>
0..1
0..1
項目説明
人の情報を表現するためのデータ型。
氏名
性別
codes:性別コード型
ic:テキスト型
ic:日付型
ic:日付型
ic:住所型
ic:住所型
codes:GenderCodeType
ic:TextType
ic:DateType
ic:DateType
ic:AddressType
ic:AddressType
0..1
0..1
0..1
0..1
性別コード
性別の名称。
生年月日
死亡年月日
現住所
本籍
Citizenship
<抽象要素>
<abstract element, no type>
0..n
国籍
項目説明(英語)
サンプル値
Name of a Person
Gender of a Person
1
Gender of a Person
Gender of a Person
Date of Birth of a Person
Date of Death of a Person
1
男
-
nc:PersonSexCode
nc:PersonSexText
nc:PersonBirthDate
dateOfBirth
nc:PersonDeathDate
dateOfDeath
nc:PersonResidenceAssociresidency
-
Mapping to NIEM
nc:PersonType
nc:PersonName
nc:PersonSex
nc:PersonCitizenship
日本国
nc:PersonCitizenshipText
情報交換パッケージに
より、システム間を連
携
・高速な情報連携
・設計の効率化
オープンデータ
Mapping to ISA Joinup
Person
gender
Substitutable Elements:
性別コード
性別名
生年月日
死亡年月日
現住所
本籍
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
用語の意味を確認し、情
報交換パッケージから、情
報を抽出
・サービス設計の効率化
・安定した情報連携
citizenship
Substitutable Elements:
ic:人_国籍名
国籍コード
ic:人_国籍コード
ISO3166Alpha2
ic:人_ISO3166Alpha2
ISO3166Alpha3
ic:人_ISO3166Alpha3
ISO3166Numeric
ic:人_ISO3166Numeric
出生国
出生地
氏名型
姓名
カナ姓名
ローマ字姓名
姓
カナ姓
ローマ字姓
名
カナ名
ローマ字名
ミドルネーム
カナミドルネーム
ローマ字ミドルネーム
旧姓
カナ旧姓
ローマ字旧姓
データタイプ
ic:氏名型
<抽象要素>
+ PersonSexCode
+ PersonSexText
BirthDate
DeathDate
PresentAddress
LegalResidence
英語名
PersonType
PersonName
PersonSex
システム連携
ic:人_出生国
ic:人_出生地
ic:氏名型
ic:氏名_姓名
ic:氏名_カナ姓名
ic:氏名_ローマ字姓名
ic:氏名_姓
ic:氏名_カナ姓
ic:氏名_ローマ字姓
ic:氏名_名
ic:氏名_カナ名
ic:氏名_ローマ字名
ic:氏名_ミドルネーム
ic:氏名_カナミドルネーム
ic:氏名_ローマ字ミドルネーム
ic:氏名_旧姓
ic:氏名_カナ旧姓
ic:氏名_ローマ字旧姓
+ CitizenshipText
ic:テキスト型
ic:TextType
+ CitizenshipCode
codes:国籍コード型
codes:CitizenshipCodeType
+ ISO3166Alpha2
iso_3166:ISO3166Alpha2CodeTiso_3166:ISO3166Alpha2CodeType
国籍の名称。
住民基本台帳で利用されている国籍コード。
国名コード。ISO3166Alpha2。2文字コード。
+ ISO3166Alpha3
iso_3166:ISO3166Alpha3CodeTiso_3166:ISO3166Alpha3CodeType
国名コード。ISO3166Alpha3。3文字コード。
+ ISO3166Numeric
iso_3166:ISO3166NumericCodeiso_3166:ISO3166NumericCodeType
国名コード。ISO3166Numeric。数字3桁コード。
ic:場所型
ic:場所型
ic:LocationType
ic:LocationType
0..1
0..1
ic:テキスト型
ic:カタカナテキスト型
ic:テキスト型
ic:テキスト型
ic:カタカナテキスト型
ic:テキスト型
ic:テキスト型
ic:カタカナテキスト型
ic:テキスト型
ic:テキスト型
ic:カタカナテキスト型
ic:テキスト型
ic:テキスト型
ic:カタカナテキスト型
ic:テキスト型
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
ic:TextType
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
0..1
生まれた国。
生まれた場所。
氏名を表現するためのデータ型。
氏名(姓、名)。
氏名(姓、名)のカナ表記。
氏名(姓、名)のローマ字表記。
姓。
姓のカナ表記。
姓のローマ表記。
名。
名のカナ表記。
名のローマ字表記。
ミドルネーム。
ミドルネームのカナ表記。
ミドルネームのローマ字表記。
旧姓。
旧姓のカナ表記。
旧姓のローマ字表記。
BirthCountry
BirthPlace
PersonNameType
FullName
KanaFullName
RomanFullName
FamilyName
KanaFamilyName
RomanFamilyName
GivenName
KanaGivenName
RomanGivenName
MiddleName
KanaMiddleName
RomanMiddleName
MaidenName
KanaMaidenName
RomanMaidenName
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
A location where a person was born.
A location where a person was born.
Full name of a Person
Full name in Katakana.
Full name in Roman alphabet.
Family name of a Person
Family name in Katakana.
Family name in Roman alphabet.
Given name of a Person
Given name in Katakana.
Given name in Roman alphabet.
Middle name of a person
Middle name in Katakana.
Middle name in Roman alphabet.
Maiden name.
Maiden name in Katakana.
Maiden name in Roman alphabet.
392
nc:PersonCitizenshipFIPS10-4Code
nc:PersonCitizenshipISO3166Alpha2Code
nc:PersonCitizenshipISO3166Alpha3Code
nc:PersonCitizenshipISO3166NumericCode
経済 太郎
ケイザイタロウ
Keizai Taro
経済
ケイザイ
太郎
タロウ
nc:PersonBirthLocation
nc:PersonBirthLocation
nc:PersonNameType
nc:PersonFullName
countryOfBirth
placeOfBirth
fullName
nc:PersonSurName
familyName
nc:PersonGivenName
given name
nc:PersonMiddleName
alternativeName
nc:PersonMaidenName
birthName
三鷹市立第四小学校
ic:建物_所在
ic:場所_地名
ic:場所_地理識別子
ic:場所_住所
東京都三鷹市下連雀1
丁目25−1
ic:住所_住所
ic:住所_構造化住所
ic:構造化住所_国
ic:構造化住所_都道府県
ic:構造化住所_市区町村
ic:構造化住所_町名
ic:構造化住所_街区符号
ic:構造化住所_住居番号
ic:構造化住所_地番
ic:構造化住所_方書
東京都
三鷹市
下連雀
1
25
1
ic:方書_方書
ic:方書_ビル名
ic:方書_部屋番号
ic:構造化住所_郵便番号
ic:構造化住所_住所ID
ic:構造化住所_住所コード
181-0013
ic:場所_経緯度座標
ic:経緯度座標系_測地系コード
ic:経緯度座標系_緯度
ic:緯度_度
ic:緯度_分
ic:緯度_秒
ic:経緯度座標系_経度
ic:経度_度
ic:経度_分
ic:経度_秒
ic:場所_UTM座標
ic:UTM座標系_UTM座標
ic:UTM座標系_UTM測地系ID
ic:UTM座標系_東距
ic:UTM座標系_グリッドゾーンID
ic:UTM座標系_グリッドゾーン格子 ID
ic:UTM座標系_北距
検索
ic:場所_MGRS座標
ic:MGRS座標系_MGRS座標
ic:MGRS座標系_MGRS座標格子ID
ic:建物_施設情報
ic:施設_ID
ic:証明_識別ID
ic:証明_証明種類
ic:証明_発行日
ic:証明_失効日
ic:証明_発行者
ic:施設_名称
ic:施設_種別
ic:施設_商用区分
ic:施設_概要
三鷹市立第四小学校
小学校
小・中一貫教育校「連
雀学園」に属する小学
校。
Schema.org
検索エンジン大手が整備する
構造化データマークアップの共通仕様
用語間の整理をしておくこ
とで、検索を効果的に実
施
・検索の利便性の向上
・効果的な広報の実施
2
なぜ共通語彙が必要か
たった1つの記入フォームにも疑問が沢山
属性項目の値の表現
属性項目の表現
「氏名」「名前」「ご
芳名」?
「住所」「現住
所」?
○×会議参加登録
漢字で入力?カナ
は?
氏名:
「姓」と「名」で分け
て入力?一緒?
住所:
性別:
「勤務先」「所属
先」?
「勤務先住所」は「勤
務先」の情報だよね
項目全体の構造
都道府県は分け
る?
男/女
男/女?M/F?
勤務先:
勤務先住所:
参加日:
西暦?和暦?
年
月
日
まとめて書く?分
けて書く?
属性項目の構造
IMI共通語彙とは
• 構造化概念辞書
• 概念辞書
• 概念の表記としての用語
• 各項目は概念であって用語でない。
• クラス概念と関係概念
• 上位下位関係(上位にある概念とはより一般的概念)
• 構造化辞書
• 概念は相互につながっていて、その組み合わせ(構造)で表現さ
れている
• クラス概念は属性を示す関係概念と上位下位を示すクラス概念
• 関係概念は結びつくクラス概念と上位下位の関係概念
IMI共通語彙の構造
クラス概念
事象型
クラス概念の表記
人型
氏名型
氏名
文字列
性別
性別コード コード型
生年月日
住所型
住所
…
住所型
種別
表記
郵便番号
都道府県
市区町村
…
氏名型
種別
姓名
姓
名
性別
…
文字列
文字列
文字列
文字列
クラス概念の構造
文字列
文字列
文字列
文字列
属性(関係概念)
コード型
属性の値の範囲
コード型
種別 コードリスト型
値 文字列
用語と構造のマッピング
IMI共通語彙
特定のデータ構造
事象型
人型
氏名型
氏名
文字列
性別
性別コード コード型
生年月日
住所型
住所
…
住所型
種別
表記
郵便番号
都道府県
市区町村
…
氏名型
種別
姓名
姓
名
性別
…
文字列
文字列
文字列
文字列
○×会議参加登録
文字列
文字列
文字列
文字列
氏名:
住所:
コード型
性別:
コード型
種別 コードリスト型
値 文字列
男/女
勤務先:
勤務先住所:
参加日:
年
月
日
スキーマのテンプレートとしての共通語彙
IMI共通語彙
特定のスキーマ
特定のデータ構造
事象型
人型
氏名型
氏名
文字列
性別
性別コード コード型
生年月日
住所型
住所
…
住所型
種別
表記
郵便番号
都道府県
市区町村
…
氏名型
種別
姓名
姓
名
性別
…
文字列
文字列
文字列
文字列
イベント参加型
人 型
参加者
参加日
日時型
文字列
文字列
文字列
文字列
コード型
○×会議参加登録
氏名:
人型
氏名
性別
住所
勤務先
氏名型
文字列
住所型
組織型
コード型
種別 コードリスト型
値 文字列
氏名型
姓名
住所:
文字列
性別:
勤務先:
勤務先住所:
参加日:
必要なものを加える
いらないものを取る
男/女
住所型
文字列
表記
郵便番号 文字列
年
月
日
IMI共通語彙とは
• 構造化概念辞書
• 概念辞書
• 概念の表記としての用語
• 各項目は概念であって用語でない。
• クラス概念と関係概念
• 上位下位関係(上位にある概念とはより一般的概念)
• 構造化辞書
• 概念は相互につながっていて、その組み合わせ(構造)で表現されている
• クラス概念は属性を示す関係概念と上位下位を示すクラス概念
• 関係概念は結びつくクラス概念と上位下位の関係概念
• スキーマのテンプレート
• 自分のスキーマをここから取捨択一、追加をして構成する
IMI共通語彙基盤の構造
• 情報交換のための用語連携インタフェースは、社会全体で使われる用語であるコア語彙、
共通語彙及びドメイン固有語彙から構成される。
コア語彙
どの分野でも利用される普遍的な語彙。
例)人、物、場所、施設、日付 など
地理空間
・施設
ドメイン共通語彙
分野固有の語彙の内、他の分野で
も参照する主要な語彙。
例)商店、病院、食品名 など
ドメイン固有語彙
各分野での利用に特化した語彙。
例)農作業、品種 など
病院
住所
コア
ドメイン 語彙
共通語彙
ドメイン
固有語彙
既存の業界・企業内語彙
移動
・交通
駅
市場
農
業
災害
復旧費
財
務
対応表で用語の置き換えをすることを基本とするので、各
組織は既存の用語体系を変更する必要が無い
10
IMI共通語彙基盤の利用の仕組み
• 概念モデルとして定義
• それを必要な物理形式に変換(シリアライゼーション)
• 用途に合った物理形式を選択して利用
IMI概念モデル
RDF形式
オープンデータ用スキーマ
•
•
緩い定義
他のオープンデータとの親和性
XML形式
データ交換用スキーマ
•
•
日本語形式
スプレットシート用スキーマ、言語用
厳密な定義
データベーススキーマとの親和性
•
•
緩い定義、単純な構造
人間可読性
まとめ
• IMI共通語彙基盤とは何であるか
• 構造化概念辞書
• 概念とその表記としての用語
• クラス概念と関係概念
• スキーマのテンプレート
• さまざまなデータスキーマをつくるためのテンプレート
• IMI共通語彙基盤の構造
• コア語彙とドメイン語彙
• データモデルと物理形式
• IMI共通語彙基盤の利用方法
• システム間連携
• オープンデータ
• 検索