I-Scoverを用いた学会論文検索・ 分析システムの試作 平成26年9月30日 福岡工業大学 大学院情報通信工学専攻 若原俊彦 槇 俊孝 目次 • 背景 • I-Scoverとの関わり • I-Scoverチャレンジ2013への応募 • 学会論文検索・分析システム • システムの機能追加 • Wikipedia Link APIの開発 • 時系列分析,要約分析,技術動向分析 • まとめ 背景 I-Scoverを用いた論文分析・検索システムの試作 • 研專のキーワード10語の提出(LOIS) • I-Scover論文検索システムの調査 データセット入手,16万件登録,データベース化 • I-Scoverチャレンジ2013に応募 アプリケーション部門 「論文抄録を用いた技術要約分析」 • LOIS研究会にて研究動向発表(5月) • その後,機能拡充 I-Scoverとの関わり • I-Scoverプロジェクトシステム委員会のISS委員であった中野先生からの依頼 (2013年5月の技術会議) • メタデータの整備とデータベースの構築 • 10ー20語のキーワードとその解説(日本語) • ライフインテリジェンス,ライフログなど10語の提出 • I-Scoverを用いた論文分析・検索システム 1)I-Scoverチャレンジ2013(2014年1月) 論文抄録要約システム 形態素解析により単語抽出,頻度分布から重要度算出しランキング表示 簡単な論文の分類と要約の作成 2)LOIS研究会発表(2014年5月) CiNiiと連携して著者・機関抽出,キーワード時系列分析,論文数分析 3)Wikipedia Link APIの開発 WikipediaAPIを利用して,単語の上位概念や関連語を抽出して関連キーワード を取得できるように改善 システム処理フロー(チャレンジ応募時) Start 抄録のスコアリング 検索ワード入力 関連キーワードの取得 抄録全文検索 技術要約の生成 抄録の形態素解析 技術要約の出力 End システム概要(チャレンジ2013) 通常の「論文検索」と「要約分 析」機能を実装している.現時 点において「時系列分析」機能 は未実装である. 2014/10/29 6 要約分析・分類(チャレンジ2013) 要約分析一覧において 背景色が赤色のものは, 問題や課題,必要などのワ ードが含まれている要約で ある. 背景色が緑色のものは, 期待や価値などのワードが 含まれている要約である. なお,この機能は簡単化した ものであり,今後は構文解析 による意味解析を行って肯 定的意見・否定的意見を分 類する予定である. 機能拡充(LOIS研究会5月発表) Wikipedia Link APIの導入 Wikipedia Link APIの概要(単語揺らぎの解消,類語・関連後の抽出) Wikipedia Link APIは,メタデータを補完するLinked Open Data 形式(RDF/XML形式)の辞書APIである. Wikipedia Link APIの機能 type 機能 例 0 表記揺らぎの訂正 ようつべ → YouTube 1 日英・英日辞書 セキュリティ → Security 2 上位概念の取得 テキストマイニング ∈ {データマイニング,自然言語処理} 3 下位概念の取得 {福岡,祭り} ∋ {小倉祇園太鼓,博多どんたく,…} 4 関連語の取得 インターネット → IPアドレス,ウェブサイト,… 5 類語の取得 形態素解析 → ChaSen,JUMAN,KAKASI,MeCab,… (例) http://ictlab.ce.fit.ac.jp/wikilink.php?type=0&q=ようつべ 12 WikipediaリンクAPIによる「YouTube」の上位概念の取得 http://ictlab.ce.fit.ac.jp/wikilink.php?type=2&q=YouTube Web2.0,YouTube,ソーシャル・ネットワーキング・サービス,情報共有サイトの取得ル WikipediaリンクAPIによる「MANET」の上位概念の取得 http://ictlab.ce.fit.ac.jp/wikilink.php?type=2&q=MANET ”MANET“から”モバイルアドホックネットワーク“の取得ル Wikipedia Link API導入による日本語処理の改善 クライアントサイド システム概要 Wikipedia Link APIは,メタデータ の補完を目的としたLOD辞書. Wikipediaデータベースを使用 ダンプ日時:2014年1月8日 Wikipedia Link APIに使用するテーブル テーブル名 page pagelinks redirect レコード数 1,430,713 72,285,022 532,501 サーバサイド URIによるクエリ送信 表記揺らぎ訂正 上位概念の取得 Wikipedia データベース 説明 page_id,タイトル RDF/XML変換 ページ間リンク リダイレクトページ langlinks 7,560,676 他の言語 categorylinks 5,027,334 ページのカテゴリ RDF/XMLデータ取得 Wikipedia Link APIにおける 上位概念取得の概略図 クライアントサイド 時系列分析 サーバサイド キーワードの入力 システム概要 年毎の研究キーワードの共起 頻度を集計し可視化する. 表記揺らぎ訂正 Wikipedia Link API 全文検索 I-Scoverデータセットを使用 入手日時:2013年1月12日 パターンによる関連 キーワードの導出 I-Scover データベース XMLデータをMySQLデータに変換して使用 テーブル名 papers レコード数 167,269 説明 paper_id,タイトル,出 版日,発表日,抄録,研 究会など keyword 764,721 研究キーワード author 482,059 氏名,所属 頻度分析 グラフ,HTMLデ ータの生成 HTMLデータ取得 サーバ環境 OS:Ubuntu 12.04 RAM:16GB SSD:128GB×3 (RAID0) APP:Apache2, PHP5,MySQL, JpGraph 時系列分析システムの概略図 要因分析 クライアントサイド サーバサイド キーワードの入力 システム概要 論文抄録を解析し,5つのカテゴリ に分類して時系列順に表示する. 抄録の分類パターンの一例 種類 動向 注目 課題 例示 表記揺らぎ訂正 全文検索 パターン 近年 現在 増えている 状況である 期待されている 注目されている 有効である 効率が高い 問題である 不可欠である 不足している 出来ない 例えば 一例として 活用として 一例を挙げると Wikipedia Link API I-Scover データベース 論文抄録の分解 パターンによる 抄録の分類 HTMLデータの生成 HTMLデータ取得 サーバ環境 OS:Ubuntu 12.04 RAM:16GB SSD:128GB×3 (RAID0) APP:Apache2, PHP5,MySQL, JpGraph 要因分析システムの概略図 「震災」の時系列分析 「震災」の要因分析 各論文検索システムの検索結果(2014年9月) 検索結果数 検索キーワード MANET 電子情報通信学会 国立情報学研究所 I-Scover CiNii Articles 情報処理学会 電気学会 電子図書館 論文検索β版 提案システム 1,252件 780件 494件 8件 445件 Mobile Ad Hoc Network 740件 1,231件 1,198件 31件 445件 モバイルアドホックネットワーク 508件 767件 198件 4件 445件 OFDM (MAX)1,500件 7,323件 163件 70件 2,911件 Orthogonal Frequency Division Multiplexing (MAX)1,500件 1,739件 50件 33件 2,911件 14件 39件 2件 3件 2,911件 766件 3,161件 2,595件 100件 362件 4件 35件 31件 5件 362件 スマホ 16件 1,242件 115件 2件 362件 Digital (MAX)1,500件 56,752件 6,344件 2,870件 7,468件 デジタル (MAX)1,500件 41,112件 6,309件 824件 7,468件 ディジタル (MAX)1,500件 25,887件 2,609件 3,456件 7,468件 直交周波数分割多重方式 スマートフォン スマートホン まとめ • LOISチャレンジ2013に応募して約10ヶ月が経過した • 当初は形態素解析をベースにした簡単な日本語処理によるアブストラクト の分類,要約の作成,ランキング表示程度であった. • 2014年5月のLOIS研究会で研究会名称5周年ということで9年間の研究 会発表分析を行い,強力なツールとして大いに役立った.特にLOIS研究会 に関連して,著者,発表機関などの分析も行えるように機能拡充した. • しかし,キーワードで“スマートフォン”,“スマフォ”,“スマホ”などが同じも のを示すのにかかわらず,これらを含む論文が検索できないのは,「いちご 摘み検索」が出来ないので,Wikipediaに利用されている単語が非常に有 用であることを利用して独自にWikipedia Link APIを開発し,これを用いて論 文分析・検索システムとして仕上げた. http://ictlab.ce.fit.ac.jp/lois/index.phpにて公開中です. • これにより,表記ゆれや関連語が自動登録され連想検索・時系列分析や 要因分析などの表示に大いに役立っている.
© Copyright 2024