配付資料

I-Scoverを用いた学会論文検索・
分析システムの試作
平成26年9月30日
福岡工業大学 大学院情報通信工学専攻
若原俊彦
槇 俊孝
目次
• 背景
• I-Scoverとの関わり
• I-Scoverチャレンジ2013への応募
• 学会論文検索・分析システム
• システムの機能追加
• Wikipedia Link APIの開発
• 時系列分析,要約分析,技術動向分析
• まとめ
背景
I-Scoverを用いた論文分析・検索システムの試作
• 研專のキーワード10語の提出(LOIS)
• I-Scover論文検索システムの調査
データセット入手,16万件登録,データベース化
• I-Scoverチャレンジ2013に応募
アプリケーション部門
「論文抄録を用いた技術要約分析」
• LOIS研究会にて研究動向発表(5月)
• その後,機能拡充
I-Scoverとの関わり
• I-Scoverプロジェクトシステム委員会のISS委員であった中野先生からの依頼
(2013年5月の技術会議)
•
メタデータの整備とデータベースの構築
•
10ー20語のキーワードとその解説(日本語)
•
ライフインテリジェンス,ライフログなど10語の提出
• I-Scoverを用いた論文分析・検索システム
1)I-Scoverチャレンジ2013(2014年1月) 論文抄録要約システム
形態素解析により単語抽出,頻度分布から重要度算出しランキング表示
簡単な論文の分類と要約の作成
2)LOIS研究会発表(2014年5月)
CiNiiと連携して著者・機関抽出,キーワード時系列分析,論文数分析
3)Wikipedia Link APIの開発
WikipediaAPIを利用して,単語の上位概念や関連語を抽出して関連キーワード
を取得できるように改善
システム処理フロー(チャレンジ応募時)
Start
抄録のスコアリング
検索ワード入力
関連キーワードの取得
抄録全文検索
技術要約の生成
抄録の形態素解析
技術要約の出力
End
システム概要(チャレンジ2013)
通常の「論文検索」と「要約分
析」機能を実装している.現時
点において「時系列分析」機能
は未実装である.
2014/10/29
6
要約分析・分類(チャレンジ2013)
要約分析一覧において
背景色が赤色のものは,
問題や課題,必要などのワ
ードが含まれている要約で
ある.
背景色が緑色のものは,
期待や価値などのワードが
含まれている要約である.
なお,この機能は簡単化した
ものであり,今後は構文解析
による意味解析を行って肯
定的意見・否定的意見を分
類する予定である.
機能拡充(LOIS研究会5月発表)
Wikipedia Link APIの導入
Wikipedia Link APIの概要(単語揺らぎの解消,類語・関連後の抽出)
Wikipedia Link APIは,メタデータを補完するLinked Open Data
形式(RDF/XML形式)の辞書APIである.
Wikipedia Link APIの機能
type
機能
例
0
表記揺らぎの訂正
ようつべ → YouTube
1
日英・英日辞書
セキュリティ → Security
2
上位概念の取得
テキストマイニング ∈ {データマイニング,自然言語処理}
3
下位概念の取得
{福岡,祭り} ∋ {小倉祇園太鼓,博多どんたく,…}
4
関連語の取得
インターネット → IPアドレス,ウェブサイト,…
5
類語の取得
形態素解析 → ChaSen,JUMAN,KAKASI,MeCab,…
(例) http://ictlab.ce.fit.ac.jp/wikilink.php?type=0&q=ようつべ
12
WikipediaリンクAPIによる「YouTube」の上位概念の取得
http://ictlab.ce.fit.ac.jp/wikilink.php?type=2&q=YouTube
Web2.0,YouTube,ソーシャル・ネットワーキング・サービス,情報共有サイトの取得ル
WikipediaリンクAPIによる「MANET」の上位概念の取得
http://ictlab.ce.fit.ac.jp/wikilink.php?type=2&q=MANET
”MANET“から”モバイルアドホックネットワーク“の取得ル
Wikipedia Link API導入による日本語処理の改善
クライアントサイド
システム概要
Wikipedia Link APIは,メタデータ
の補完を目的としたLOD辞書.
Wikipediaデータベースを使用
ダンプ日時:2014年1月8日
Wikipedia Link APIに使用するテーブル
テーブル名
page
pagelinks
redirect
レコード数
1,430,713
72,285,022
532,501
サーバサイド
URIによるクエリ送信
表記揺らぎ訂正
上位概念の取得
Wikipedia
データベース
説明
page_id,タイトル
RDF/XML変換
ページ間リンク
リダイレクトページ
langlinks
7,560,676
他の言語
categorylinks
5,027,334
ページのカテゴリ
RDF/XMLデータ取得
Wikipedia Link APIにおける
上位概念取得の概略図
クライアントサイド
時系列分析
サーバサイド
キーワードの入力
システム概要
年毎の研究キーワードの共起
頻度を集計し可視化する.
表記揺らぎ訂正
Wikipedia
Link API
全文検索
I-Scoverデータセットを使用
入手日時:2013年1月12日
パターンによる関連
キーワードの導出
I-Scover
データベース
XMLデータをMySQLデータに変換して使用
テーブル名
papers
レコード数
167,269
説明
paper_id,タイトル,出
版日,発表日,抄録,研
究会など
keyword
764,721
研究キーワード
author
482,059
氏名,所属
頻度分析
グラフ,HTMLデ
ータの生成
HTMLデータ取得
サーバ環境
OS:Ubuntu 12.04
RAM:16GB
SSD:128GB×3
(RAID0)
APP:Apache2,
PHP5,MySQL,
JpGraph
時系列分析システムの概略図
要因分析
クライアントサイド
サーバサイド
キーワードの入力
システム概要
論文抄録を解析し,5つのカテゴリ
に分類して時系列順に表示する.
抄録の分類パターンの一例
種類
動向
注目
課題
例示
表記揺らぎ訂正
全文検索
パターン
近年
現在
増えている
状況である
期待されている
注目されている
有効である
効率が高い
問題である
不可欠である
不足している
出来ない
例えば
一例として
活用として
一例を挙げると
Wikipedia
Link API
I-Scover
データベース
論文抄録の分解
パターンによる
抄録の分類
HTMLデータの生成
HTMLデータ取得
サーバ環境
OS:Ubuntu 12.04
RAM:16GB
SSD:128GB×3
(RAID0)
APP:Apache2,
PHP5,MySQL,
JpGraph
要因分析システムの概略図
「震災」の時系列分析
「震災」の要因分析
各論文検索システムの検索結果(2014年9月)
検索結果数
検索キーワード
MANET
電子情報通信学会
国立情報学研究所
I-Scover
CiNii Articles
情報処理学会
電気学会
電子図書館 論文検索β版 提案システム
1,252件
780件
494件
8件
445件
Mobile Ad Hoc Network
740件
1,231件
1,198件
31件
445件
モバイルアドホックネットワーク
508件
767件
198件
4件
445件
OFDM
(MAX)1,500件
7,323件
163件
70件
2,911件
Orthogonal Frequency
Division Multiplexing
(MAX)1,500件
1,739件
50件
33件
2,911件
14件
39件
2件
3件
2,911件
766件
3,161件
2,595件
100件
362件
4件
35件
31件
5件
362件
スマホ
16件
1,242件
115件
2件
362件
Digital
(MAX)1,500件
56,752件
6,344件
2,870件
7,468件
デジタル
(MAX)1,500件
41,112件
6,309件
824件
7,468件
ディジタル
(MAX)1,500件
25,887件
2,609件
3,456件
7,468件
直交周波数分割多重方式
スマートフォン
スマートホン
まとめ
• LOISチャレンジ2013に応募して約10ヶ月が経過した
• 当初は形態素解析をベースにした簡単な日本語処理によるアブストラクト
の分類,要約の作成,ランキング表示程度であった.
• 2014年5月のLOIS研究会で研究会名称5周年ということで9年間の研究
会発表分析を行い,強力なツールとして大いに役立った.特にLOIS研究会
に関連して,著者,発表機関などの分析も行えるように機能拡充した.
• しかし,キーワードで“スマートフォン”,“スマフォ”,“スマホ”などが同じも
のを示すのにかかわらず,これらを含む論文が検索できないのは,「いちご
摘み検索」が出来ないので,Wikipediaに利用されている単語が非常に有
用であることを利用して独自にWikipedia Link APIを開発し,これを用いて論
文分析・検索システムとして仕上げた.
http://ictlab.ce.fit.ac.jp/lois/index.phpにて公開中です.
• これにより,表記ゆれや関連語が自動登録され連想検索・時系列分析や
要因分析などの表示に大いに役立っている.