全文 [PDF:1.06MB]

技術論文
非構造化データ活用のための情報処理技術
Information Processing Technologies for the Utilization of
Unstructured Data
要
旨
【キーワード】
近年、クラウドコンピューティングやセンサーネッ
自然言語処理、画像認識、ネットワーク分析、
トワークの進展に伴い、テキスト、画像、音声、動画
集合知、データマイニング、非構造化データ
などの非構造化データが大量に蓄積されつつあり、蓄
積されたデータに各種分析技術を適用することに
よって有用な情報が取得できると期待されている。し
かしながら、非構造化データは計算機による取り扱い
が難しく、データ分析の対象とするためには、まずそ
れらのデータを構造化する必要がある。本稿では、非
構造化データを構造化するための要素技術として、富
士ゼロックスが保有する自然言語処理技術および画
像認識技術の特徴を述べ、データ分析の要素技術とし
て、ネットワーク分析および集合知活用の研究を紹介
する。また、これらの要素技術を用いた応用研究とし
て、Sales Force Automation、Voice of Customer、
Social Networking Serviceなどの非構造化データ
を対象とする分析の事例を概説する。
Abstract
【Keywords】
natural language processing, image recognition,
network analysis, collective intelligence, data
mining, unstructured data
執筆者
増市 博(Hiroshi Masuichi)
加藤 典司(Noriji Kato)
大熊 智子(Tomoko Ohkuma)
大西 健司(Takeshi Onishi)
研究技術開発本部 コミュニケーション技術研究所
(Communication Technology Laboratory, Research &
Technology Group)
富士ゼロックス テクニカルレポート No.24 2015
In recent years, along with the progress of cloud
computing and sensor network technologies, large
amounts of unstructured data including text, images,
audio, and video have been accumulated, and there
have been attempts to apply various data analytic
technologies to this accumulated unstructured data to
gain useful information. It is, however, intrinsically
difficult for computers to handle unstructured data, as
it must be converted to structured data before data
analytic technologies are applied. This paper
describes our natural language processing and image
processing technologies as the key technologies for
converting unstructured data into structured data. This
paper also introduces our network analysis and
collective
intelligence
technologies
as
key
technologies for data analysis. As examples of applied
research using the above technologies, this paper
gives an overview of our activities to analyze
unstructured data such as data from sales force
automation systems, “voice of the customer” data, and
data from social networking services.
1
技術論文
非構造化データ活用のための情報処理技術
1. はじめに
用して、大規模な学習データを自動構築する点
が我々の手法の特徴である。参考文献1)では、
富士ゼロックスでは、計算機による取り扱い
電子カルテテキストから病名を抽出する手法お
が難しいテキスト、画像、動画、音声などの非
よびシステムの提案を行っている。本システム
構造化データを対象としてデータ分析の研究を
は、2013年に行われたNTCIR-10 MedNLP
行っている。非構造化データを分析の対象とす
タスク*1において、参加システム中1位の成績
るためには、まずそれらのデータを構造化する
をおさめた2)。
必要がある。そのため、テキストや画像から所
以下、専門用語抽出に関連する技術の中で、
望の情報を抽出し正規化する、あるいは、自動
我々が取り組んでいる略語展開、事実性判定、
分類、クラスタリングする技術の研究を行って
正規化の各技術について述べる。
いる。このように非構造化データを整理、分類
z 略語展開
することにより、数値データなどのあらかじめ
略語は多くの場合、複数の正式名称候補を持
構造化されているデータと同様に分析の対象と
つ。たとえば「CA」は「calcium」
「California」
することが可能となる。
「cabin attendant」など多くの正式名称候
本稿の2章では、非構造化データを構造化す
補を持つ。文中の略語がどの正式名称の省略
るための要素技術として、富士ゼロックスが保
形であるかは、文脈から判断する必要がある。
有する自然言語処理技術および画像認識技術の
参考文献3)では、機械学習手法を使って文脈
特徴を述べる。また、データ分析の要素技術と
から自動的に略語の正式名称を推定するシス
して、ネットワーク分析および集合知活用の研
テムを提案している。本システムでは、機械
究を紹介する。3章では、これらの要素技術を
学習に必要な学習データを自動的に生成する
用 い た 応 用 研 究 と し て 、 Sales Force
ことで精度の向上を図っている4)。
Automation(SFA)、Voice of Customer
z 事実性判定
(VOC)、Social Networking Service(SNS)
事実性判定は、抽出された用語が実際に起
などの非構造化データを対象とする分析の事例
こった事実であるかどうかを判定する技術で
について概説する。
ある。たとえば、
「内部監査は行われていない」
「内部監査は来週行われる予定である」と
いった記述中の「内部監査」は、実際には起
2. 要素技術
2.1
2.1.1
こった事実ではない。参考文献5)では、事実
自然言語処理
性判定の手法を提案している。要約や検索な
どのアプリケーションでは、用語の事実性が
専門用語抽出
テキストを構造化するための要素技術として
重要な情報になる。参考文献6)では、事実性
専門用語抽出を挙げることができる。専門用語
判定結果を用いた要約システムの構築と評価
は、文書を代表するキーワードとして用いるこ
を行った。本研究では、抽出した用語だけで
とができる。たとえば、技術文書であれば、技
なくその事実性もあわせて要約に表示するこ
術領域名や法則名、理論名、手法名などの専門
とで、原文の内容をより正確に把握できると
用語を抽出し、キーワードとしてデータベース
いう効果を評価実験によって確認している。
に格納することで、文書の検索や分類を効率的
z 正規化
に実施できる。また、医療テキストから病名、
専門用語の抽出結果をデータ分析で利用する
薬品名、検査名、手術名などの専門用語を抽出
ためには、表現の異なる同義語を標準形に統
してデータベースに蓄積することで、疫学調査
一する正規化処理が必須である。参考文献7)
などのデータ分析が実現できる。
は、表記ゆれ解消手法を利用して既存の同義語
辞書を効率的に拡張する手法を提案している。
我々は専門用語抽出を、系列ラベリング問題
として定式化し機械学習手法を適用することに
よって実現している。既存の専門用語辞書を利
2
*1
国立情報学研究所
医療言語処理パイロットタスク
富士ゼロックス テクニカルレポート No.24 2015
技術論文
非構造化データ活用のための情報処理技術
2.1.2
関係抽出
ば、たとえば、ある商品に対して、価格という
抽出された専門用語は、元々の文脈と切り離
トピックに対してはポジティブであるが品質に
されてしまうことで、他の専門用語との関係が
対してはネガティブであるなど、極性をより詳
失われる。たとえば、「アスピリン」(医薬品)
細な粒度で特定することが可能となる。
と「頭痛」
(病名)の二つの専門用語が抽出され
これらの評判情報抽出結果をマーケティング
たとき、下記の(A)では「アスピリン」の効
の分析に用いる場合には、投稿者の年代、性別、
用として「頭痛」が記述されているのに対し、
居住地などのプロファイル情報が必要になる。
(B)では「アスピリン」の投与によって引き
参 考 文 献 16) は 、 過 去 の 投 稿 デ ー タ か ら
起こされた副作用として記述されている。
Twitter®ユーザーの年齢、性別、居住地域など
z(A)頭痛が強くなったため、アスピリンを
投与した。
を自動的に推定する手法を提案している。本手
法では、熟練した作業者によって作成された正
z(B)アスピリンを投与後、頭痛が強くなっ
たため、投薬を中止した。
解コーパスと、クラウドソーシングによって不
特定多数の作業者が作成した正解コーパスを統
参考文献8)のように電子カルテから副作用の
発生件数を自動集計するシステムでは、副作用
合して学習データを構築することにより、高い
推定精度を得ることができた。
と効用を区別する必要がある。参考文献9)、10)、
11)は、専門用語間の関係を機械学習あるいは
2.2
画像認識
構文パターンルールによって判定する手法を提
画像から抽出できる情報は、画像中に存在す
案している。参考文献12)では、二つの専門用
る物体の名称、種類、数、位置などの属性や、
語がテキスト中で遠く離れた位置に出現してい
画像全体が表すシーン、トピックなどの意味情
る場合でも、構文情報を機械学習の素性として
報など多岐にわたる。我々は、抽出したい情報
用いることで、高い関係抽出精度を実現している。
に応じて物体検出、特定物体認識、画像アノテー
ションの各技術の研究開発を行っている。さら
2.1.3
評判情報抽出
®
に、複数の画像特徴抽出アルゴリズムや認識ア
®
近年、Twitter やFacebook などのSNSテ
ルゴリズムをモジュール化し、自由に組み合わ
キストから商品やブランドに対する印象や意見
せることが容易なアーキテクチャーを開発する
を抽出して、マーケティングやリスク管理に活
ことにより、抽出対象に応じた柔軟なシステム
用したいというニーズが高まっている。参考文
構築を実現している。以下、我々が取り組んで
®
献13)は、Twitter を対象にして投稿内容がポ
きた画像認識技術を紹介する。
ジティブかネガティブか中立かを推定する極性
判定システムを提案している。本システムは、
SemEval2014
*2
®
2.2.1
物体検出
Task9におけるTwitter の
物体検出とは、特定の種類の物体を画像中か
極性判定コンテストで46チーム中1位の成績
ら検出する技術であり、顔検出がよく知られて
をおさめた。
いる。当社でも、顔検出の黎明期からこの技術
参考文献14)では、極性判定手法に多言語対
に取り組んできた17)-19)。工業品の欠陥検査や医
応辞書であるWordNetを利用している。本手法
療分野など、画像から特定の物体を目視で探す
を利用して、今後は極性判定の多言語化を目指
労働集約的な作業は数多く存在し、顔以外への
している。参考文献15)では、投稿内容の極性
対象に物体検出の適用範囲を広げることが重要
を個別のtweetごとに判定するのではなく、複
であると考えている。物体検出はAdaBoost識
数のtweetを対象にしたトピックモデリングを
別器のカスケードを用いる手法が標準的手法と
行い、トピックとそれに対する極性を同時に判
なっており20)、これをベースとして対象物体に
定する手法を提案している。本手法を適用すれ
適切な特徴量抽出や高速化の研究を行っている。
たとえば参考文献21)では、多量の顕微鏡画像
*2
International Workshop on Semantic Evaluation
富士ゼロックス テクニカルレポート No.24 2015
から、1億個に1個程度しか存在しない希少細胞
3
技術論文
非構造化データ活用のための情報処理技術
0.35
を精度よく検出する技術を開発した。
0.3
特定物体認識
0.25
特定物体認識とは、あらかじめ登録された個
体と同一の個体を認識する技術である。物体検
出の例が顔検出であるのに対して、個人認証が
特定物体認識技術の例である。特定物体認識は、
事前に学習することなく登録画像と同一の個体
F-measure
2.2.2
0.2
FX
0.15
SVM-Based
0.1
0.05
0
0.0000
を認識可能である一方、同じ種類の物体でも登
0.2000
0.4000
0.6000
0.8000
1.0000
Relative number of training samples
( 20 labels, 5011 images )
録画像と異なる個体は認識できない。特定物体認
図1
識の利用シーンとして、企業の画像リポジトリー
画像アノテーション性能
Image annotation performance
の検索機能や設計図面の版管理支援への応用を
的には各領域の生起確率を独立と仮定し、ナ
考えている。いずれも高速化が重要であり、独自
イーブベイズモデルとして表現する24)。これに
に高速な局所特徴量抽出技術を開発している22)。
より図1に示すように、BOWモデルに比べて少
ない学習画像で同等の性能が達成できる。
2.2.3
画像アノテーション
我々のモデルでは、1画像あたり約1,000個
物体検出および特定物体認識が、画像内の物
の部分領域に対して確率密度推定を行う必要が
体に関する情報を抽出するための技術であるの
ある。そこで、領域特徴の確率モデルとして、
に対して、画像アノテーションは画像全体の意
高速な処理が可能であるランダムフォレスト識
味を特定する技術である。我々は、画像の意味
別器を導入することにより、1秒程度の処理時
を表す数十から数百種類のラベルを、対象画像
間での認識を可能としている25)。
に自動的に付与する画像アノテーション技術の
2.3
研究に取り組んでいる。
ネットワーク分析
我々が画像アノテーションで目指す技術の方
相互の関係が定義されていないデータに対し
向性は、少量の学習画像で高い認識精度を達成
て、2.1および2.2で述べた自然言語処理技術や
することと、短時間で処理できる高速性の実現
画像認識技術を用いることにより、データ間に
である。前者は、アプリケーションごとに異な
リンクを付与し、データ全体をネットワークと
るラベルを学習させる必要があり、多量の学習
して構造化することができる。たとえば、専門
画像を入手することは著作権などの理由で多く
用語抽出によって同じ専門用語が抽出されたテ
の場合困難であるからである。後者は、スマー
キストの間や、画像アノテーション技術によっ
トフォンで撮影された写真に対してリアルタイ
て同じアノテーションが付与された画像の間に
ムでラベルを付けるといった、幅広い用途を考
リンクを付与する。また、文書分類を行うこと
えた場合に必要な条件である。
によって、同一のカテゴリーに分類された文書
画像認識で広く用いられる手法として、画像
同士をリンクづけることもできる。あるいは、
の局所特徴を量子化し、量子化された特徴量の
文書管理システムから得られるユーザー操作ロ
ヒストグラムをその画像の特徴として用いる、
グを解析し、同じ人物によって頻繁にアクセス
23)
の
された文書の間にリンクを付与することも可能
手法があるが、多量の学習画像を必要とする。
である。我々は、このようなさまざまな方法で
たとえば、BOWは画像全体から1つの特徴を生
データ間にリンクを付与することにより、非構造
成するため、同じ物体が写っていても背景が違
化データをネットワークとして構造化している。
う画像についてはそれぞれの学習画像が必要と
本節では、このようにして構築した大規模
なる。そこで我々は、画像を複数の領域に分割
ネットワークから、
「ユーザー課題」に応じた「コ
し、画像の生成過程を各領域からの確率生成モ
ミュニティー」を抽出する手法、および、コミュ
デルとして扱う識別方式を導入している。具体
ニティーに属する個々のノードの重要度を計算
いわゆるbag of visual words(BOW)
4
富士ゼロックス テクニカルレポート No.24 2015
技術論文
非構造化データ活用のための情報処理技術
する手法を概説する。ここで、ユーザー課題と
■
■
■
■
■
■
はユーザーが詳しく知りたいトピックであり、
本田技研工業株式会社
ソニー株式会社
トヨタ自動車株式会社
AIST
JST
早稲田大学・日立製作所
コミュニティーとはユーザー課題に関連する部
分ネットワークである。本ネットワーク分析は、
脳の神経細胞のネットワークが、ある事象から
関連する他の事象を連想想起する機構をモデル
に考案したアルゴリズムに基づくことを特徴と
する26)-29)。
2.3.1
コミュニティー抽出
図2
本手法では、ユーザー課題をネットワークの
初期活性で表す。すなわち、初期の時点でユー
特許ネットワーク分析結果例
An example of a patent network analysis
変化するものとして定められる。
ザーが知る知識に対応するノードに「活性」を
我々は、特許審査時に審査官が参照する引用
与える。たとえば、文書をノードとするネット
関係に基づいた特許ネットワークや、文書管理
ワークの場合であれば、ある課題に対してユー
システムのユーザー操作ログの情報に基づいて
ザーが初期の時点で知る関連文書に対応する
構成されるオフィスドキュメントネットワーク
ノードに活性を与える。すると、活性はリンク
に本手法を適用し、ユーザーが知りたい知識の
を伝わってネットワーク中を伝搬し、初期活性
発見を支援するシステムを構築している33), 34)。
に依存した定常状態に収束する。この過程は、
図2に特許ネットワークの分析結果例を示す。
脳が手掛かりに依存して、特定の記憶を想起す
図2は2010年までに公開された特許のうち、
る過程を模している。定常状態において、活性
審査官引用が付与されたものを対象にした特許
を付与されたノード群がユーザー課題に関連す
ネットワークから二足歩行ロボットに関するコ
る情報を表すと考える。活性伝播を通じて、リ
ミュニティーを抽出した結果であり、当該分野を
ンク関係から不要とみなされたノードは活性を
代表する特許群を俯瞰することが可能である34)。
失って削除される。一方、リンク関係から必要と
みなされたノードは高い活性を得て付加される。
このような削除と付加を通じて、ユーザーが持つ
不完全な知識から、ユーザーが本来知るべき知識、
30)-32)
すなわちコミュニティーを抽出できる
。
2.4
集合知活用
データ分析では、前節までに述べたICT領域
の技術が重要な役割を果たすが、
「人」の果たす
役割も同様に重要である。データ分析において
は、分析の目的や解決すべき課題が明確でない
2.3.2
ノード重要度
ままに分析を行っても有用な分析結果が得られ
活性伝搬の定常状態において、個々のノード
ることは少ない。分析の目的や解決すべき課題
が獲得した活性を、これらのノードのユーザー
を定めたうえで、適切な分析手法を適用するこ
課題に応じた重要度と考え、それらの大きさに
とが必要である。また、有用な分析結果が得ら
従ってノードをランク付けする。なお、
れたとしても、それを解釈し実行施策につなげ
TM
Google
検索エンジンが利用している
PageRank
TM
アルゴリズムも、ネットワーク
ることができなければ、その分析結果は意味を
持たない。分析の目的や解決すべき課題を定め、
(WWW)中の活性伝搬に基づき個々のノード
分析結果を実行施策につなげるのは人であり、
(Webページ)の重要度を定める。ただし、
ICT領域の分析技術と人は、データ分析の両輪
PageRank
TM
アルゴリズムによる重要度は、
である。
ネットワークの構造から一意に定められ、個別
我々は、人間科学的な観点から、効率的に課
のユーザー課題を反映しない。一方、脳におけ
題を発見し実行施策につなげるための集合知活
る手掛かり依存的な記憶想起の機構を模した
用の研究を行っている。具体的には、ゲーミフィ
我々の方法では、重要度はユーザー課題に応じて
ケーションを利用した行動支援プラットフォー
富士ゼロックス テクニカルレポート No.24 2015
5
技術論文
非構造化データ活用のための情報処理技術
ム35)、クラウドソーシングによる集合知システ
ム
36)
フィールドワーク
および訪問したお客様の業種や規模などの各種
、集合的
属性による検索を行うことが可能であり、参照
といった手法および方
したい営業日報を効率よく絞り込むことができ
、ワールドカフェ型対話
39), 40)
37), 38)
る。抽出された課題記述文は、営業日報の要約
法論の研究を行っている。
として表示され、ユーザーはその日報に含まれ
る重要なエッセンスを即座に把握することがで
3. 応用
きる。
我々が分析の対象とするデータは、3種のカ
現在は、営業日報検索システムを用いて絞り
テゴリーに大別できる。
「企業内データ」、
「お客
込まれた営業日報のテキスト情報と、お客様や
様接点データ」、「オープンデータ」の3種であ
商談に関する属性情報を統合し、営業分析、お
る。企業内データは、企業活動を通して生み出
客様分析、売り上げ分析など種々のデータ分析
され、企業内に蓄積される、経理、財務、法務、
を行っている。
営業などに関する機密性の高い基幹データであ
る。お客様接点データは、VOCデータや店舗内
3.2
VOC分析
の動画データのように、お客様の言動や行動が
お客様接点データであるVOCは、ホームペー
起点となって生成されるデータである。オープ
ジやコールセンター、保守担当者を介してテキ
®
ン デ ー タ は 、 Twitter や Facebook な ど の
ストとして入力され、システムによって自動付
SNSデータやLinked Open Data関連データ
与されるお客様の属性や背景情報とともに、企
のように、一般に公開され誰もが入手可能な
業内のデータベースに蓄積されている。VOCに
データである。以下、3.1から3.3では、3種の
は、自社商品に対する苦情や意見、要望のほか、
カテゴリーの代表的な非構造化データである
お客様課題も含まれており、VOCデータを分析
SFAデータ、VOCデータ、SNSデータを対象
して問題解決や再発防止、新商品の企画、開発な
とした応用研究事例を概説し、3.4でカテゴ
ど、企業内の多様な業務プロセスへ活用できる。
®
リーにまたがる横断分析について述べる。
当社では、年間数十万件のVOCが入力、蓄積
されており、企画部門、開発部門、生産部門、
3.1
SFA分析
営業部門で活用されている。ただし、時々刻々
当社は、2012年からSFAを国内営業部門に
と変化する多量のVOCを整理分類し、多様な部
展開し、現在、月に数十万件のペースで全国の
門で活用できる分析結果を自動的な処理で得る
営業日報データを蓄積している。蓄積された営
ことは困難であり、現在は各部門で多大な労力
業日報データを活用することによって、お客様
を要して分析を行っている。
満足度を向上させるとともに、営業力を強化す
我々が開発したデータ分析システム 43) は、
ることがSFA導入の狙いの1つである。我々は、
VOCデータを対象とするシステムである。対話
この背景のもと、SFAデータの活用を目的とし
的なインタフェースを通して、VOCの最適な分
た活動を進めている
41)
類体系を効率よく発見し、各部門の労力を軽減
。
我々は、営業日報に含まれる「お客様課題」
することを目的としている。これらのシステム
を有用な情報であると考え、営業日報テキスト
の支援により、たとえば、当社が提供するWeb
に含まれるお客様のお困りごとや要望など、お
サービスに関連するVOCを継続的に分析する
客様が抱える課題に関する記述(課題記述文)
ことによって、過去のトレンドと異なる傾向を
42)
。本技術は、
示すサービスカテゴリーの早期発見が可能とな
2.1で述べた専門用語抽出と類似の機械学習手
り、サービスやお客様対応をタイムリーに改善
法に基づく技術である。
することができた。
を自動抽出する技術を開発した
我々は、課題記述文抽出機能を利用した営業
日報検索システムを構築した。本システムは、
営業日報テキストを対象にしたキーワード検索、
6
富士ゼロックス テクニカルレポート No.24 2015
技術論文
非構造化データ活用のための情報処理技術
3.3
図3は、SNSの対象をTwitter®とし、小売店
SNS分析
SNSには広く個人の意見が投稿されるが、そ
で売られている商品の分析を行った結果の例で
の中には商品の評判も多く含まれる。その投稿
ある。また、図4に、特定のTwitter®ユーザー
を分析することで、商品に対するリアルタイム
が発信した一連のメッセージから、そのユー
で率直な意見を得ることができ、マーケティン
ザーのプロファイルを推定した結果の例を示す。
グに活用できると考えている。2.1でも述べた
このように、SNSの分析によって商品ごとの評
とおり、投稿がポジティブな意見かネガティブ
判をリアルタイムに知り、さらにプロファイル
な意見かの極性を判定し、さらに投稿したユー
推定結果からそのセグメント情報を得ることが
ザーの性別、年齢などのプロファイル情報を推
可能になる。
定している。これにより商品がどのセグメント
に受け入れられているかのマーケティング情報
を得ることができる。
3.4
横断分析
上記に述べた、
「企業内データ」
、
「お客様接点
SNS分析では、自然言語処理技術と画像認識技
データ」、
「オープンデータ」の3種のカテゴリー
術の両者を要素技術として用いている。ユーザー
において、カテゴリーが異なるデータは、機密
が投稿した画像から、2.2で述べた画像アノテー
性の違いなどの理由で、多くの場合、物理的・
ション技術でプロファイルを推定する手法
44)
用いている点が特徴である。
を
論理的に互いに切り離された状態でデータベー
スに格納されており、データ間のひもづけもな
い。したがって、これまでカテゴリーにまたが
るデータ分析は十分行われてこなかった。しか
し、このような横断分析は有用な分析結果を生
み出すことが多い。当社では、たとえば、お客
様先の各複合機の稼働状況データを、お客様の
承諾を得たうえで企業内データとして蓄積し、
分析を行っているが、稼働状況の変化はわかっ
ても変化の理由はわからない。一方で、お客様
接点データであるVOCテキストとひもづけて
分析することにより、稼働状況の特異的な変化
の理由を発見することが可能である。
また、企業内データであるPOSデータは、お
客様が商品を購買する場合に得られるデータで
図3
tweetから推定された商品の評判情報例
An example of message analysis of tweets
to estimate the public opinion of a product
あり、お客様が購買しなかった場合のデータは
含まれていない。一方で、店舗内のビデオカメ
ラ映像を分析することで、購買に至らなかった
お客様の行動情報(欲しい商品がなかったのか、
商品はあったが気に入らなかったのかなど)を
得ることが可能である。
さらに、お客様接点データとオープンデータ
の組み合わせも重要である。たとえば、VOCテ
キストの多くを占めるクレーム情報から商品の
問題点を分析することは可能であるが、商品の
長所を把握することは容易でない。オープン
データであるSNSデータを感情分析すること
図4
Twitter®ユーザーのプロファイル推定結果例
An example of Twitter® user profiling
富士ゼロックス テクニカルレポート No.24 2015
により、商品の長所を補完することが可能であ
る。このような、カテゴリーにまたがる横断分
7
技術論文
非構造化データ活用のための情報処理技術
析からこれまでにない分析結果を得ることは、
Enhance Medical Information Extraction”,
我々のデータ分析研究が目指す重要な方向性の
IJCNLP2013 the First Workshop on Natural
1つである。
Language Processing for Medical and
Healthcare Fields, pp.1-6, (2013).
2) M. Morita, Y. Kano, T. Ohkuma, M. Miyabe,
4. おわりに
E. Aramaki; “Overview of the NTCIR-10
本稿では、当社のデータ分析に関連する研究
活動を紹介した。本活動は、非構造化データを
MedNLP
task”,
In
Proceedings
of
NTCIR-10, (2013).
対象とする点が特徴であり、非構造化データを
3) E. Shinohara, E. Aramaki, T. Imai, M. Miura,
構造化するための要素技術として、自然言語処
M. Tonoike, T. Ohkuma, H. Masuichi, K.
理技術および画像認識技術の研究を行っている。
Ohe: “An easily implemented method for
自然言語処理技術と画像認識技術を利用して、
abbreviation expansion for the medical
データをネットワークとして構造化したうえで、
domain in Japanese text: A preliminary
ネットワーク分析技術を適用し、分析を実現す
study”, Methods of Information in Medicine
る。また、このようなICT領域の分析技術が果
2013; 52 (1) pp.51-61, (2013).
たす役割と「人」が果たす役割は、データ分析
4) 篠原(山田)恵美子, 三浦康秀, 外池昌嗣, 大
において同等に重要だと考え、人間科学的な観
熊智子, 増市博, 荒牧英治, 大江和彦, “共
点から、分析すべき課題を効率的に発見し、分
起・連接頻度グラフに基づいた略語展開語
析結果を実行施策につなげるための方法論や手
候補生成”, 言語処理学会 第17回年次大
法の研究を行っている。当社では「企業内デー
会, pp.733-736, (2011).
タ」、「お客様接点データ」、「オープンデータ」
5) E. Aramaki, Y. Miura, M. Tonoike, T.
の3種のカテゴリーをデータ分析の対象とし、
Ohkuma,
H.
Masuichi,
SFA、VOC、SNSなどのさまざまな非構造化
“TEXT2TABLE:
データと構造化データをあわせて、統合的な分
Summarization System Based on Named
析を実施している。
Entity
Medical
Recognition
and
K.
Ohe,
Text
Modality
Identification”, Proceedings of the Human
Language Technology conference and the
5. 商標について
North American chapter of the Association
z Twitterは、アメリカ合衆国およびその他の
国におけるTwitter.Incの登録商標です。
z Facebookは、Facebook.Incの商標、また
for
Computational
Linguistics
(HLT-NAACL2009) Workshop on BioNLP,
pp.185-192, (2009).
6) 外池昌嗣, 大熊智子, 荒牧英治, 三浦康秀,
は商標登録です。
z Googleは、Google.Incの商標、または商標
増市博, 大江和彦, “自然言語表現の現病歴
情報を時系列表形式で表示するシステムと
登録です。
z PageRankは、Google.Incの商標、または
その評価”, 第29回医療情報学連合大会,
(2009).
商標登録です。
z その他の商品名、会社名は、一般に各社の商
7) 杉原大悟, 大熊智子, 三浦康秀, 外池昌嗣,
増市博, 山田恵美子, 荒牧英治, 大江和彦,
号、登録商標または商標です。
“表記ゆれ解消手法を利用した副作用表現
の 獲 得 ”, 第 30 回 医 療 情 報 学 連 合 大 会 ,
6. 参考文献
(2010).
1) M. Miura, T. Ohkuma, H. Masuichi, E.
Ohe,
原(山田)恵美子, 荒牧英治, 大江和彦, “医薬
“Incorporating Knowledge Resources to
品の副作用調査を目的とした統合的言語処
Yamada,
8
8) 大熊智子, 三浦康秀, 外池昌嗣, 増市博, 篠
E.
Aramaki,
K.
富士ゼロックス テクニカルレポート No.24 2015
技術論文
非構造化データ活用のための情報処理技術
理システム”, 言語処理学会 第17回年次
17) N. Kato, H. Ikeda, H. Kashimura, M.
Shimizu, “Scaling, rotation, and translation
大会, pp.85-88, (2011).
9) M.Miura, E. Aramaki, T. Ohkuma, M.
Tonoike, D. Sugihara, H.
Masuichi, K.
invariant
image
competing
recognition
multiple
using
subspaces”,
Ohe, “Adverse-Effect Relations Extraction
International Joint Conference on Neural
from Massive Clinical Records”, COLING
Networks, Vol.2, pp.1268-1273, (2003).
2010
Workshop
(In
cooperation
with
18) H.
Ikeda,
M.
Maeda,
N.
Kato,
Info-plosion) The Second International
Kashimura,
Workshop on NLP Challenges in the
actions using face and hands detection”,
Information Explosion Era (NLPIX 2010),
the
pp.75-83, (2010).
conference on Multimedia, pp.484-487,
10) 篠原(山田)恵美子, 服部圭悟, 三浦康秀, 外
“Classification
12th
annual
of
H.
ACM
human
international
(2004).
池昌嗣, 大熊智子, 増市博, 荒牧英治, 大江
19) 加藤典司, 福井基文, 鹿志村洋次, “XYI空間
和彦, “構文パターンに基づく薬剤副作用情
における面特徴を用いた顔認識”, 電子情
報の自動抽出”, 第31回医療情報学連合大
報 通 信 学 会 論 文 誌 , D-II, Vol.88, No.8,
会, (2011).
pp.1634-1642, (2005).
11) 大熊智子, 小山田由紀, 外池昌嗣, 三浦康
20) P. Viola, M. Jones, “Rapid object detection
秀, 増市博, 荒牧英治, 篠原恵美子, 大江和
using
a
boosted
彦, “カルテの文章における副作用表現の分
features”,
析 ”, 言 語 処 理 学 会 第 18 回 年 次 大 会 ,
Conference on Computer Vision and
pp.735-738, (2012).
Pattern Recognition, pp.511-518, (2001).
IEEE
cascade
of
Computer
simple
Society
12) 三浦康秀, 外池昌嗣, 大熊智子, 増市博, 篠
21) 尾崎良太, 織田英人, 薄葉亮子, 熊澤幸夫,
原(山田)恵美子, 荒牧英治, 大江和彦, “複数
加藤典司, 北美紀子, 高林晴夫, “Cell-HOG
文にまたがる関係抽出における構文情報の
特徴量を用いた顕微鏡画像からの有核赤血
効 果 ”, 言 語 処 理 学 会 第 17 回 年 次 大 会 ,
球 自 動 検 出 ”, 精 密 工 学 会 誌 Vol.79,
pp.516-519, (2011).
No.11, pp.1074-1077, (2013).
13) M. Miura, K. Hattori, S. Sakaki, “TeamX: A
22) Q. Liu, H. Yano, D. Kimber, C. Liao, L.
Enhanced
Wilcox, “High Accuracy and Language
Lexicon Mapping and Weighting Scheme
Independent Document Retrieval With A
for
Fast
Sentiment
Analyzer
Unbalanced
with
Data”,
SemEval2014,
(2014).
Transform”,
IEEE
International Conference on Multimedia
14) 三浦康秀, 榊茂之, 服部圭悟, 大熊智子, “語
義の曖昧性を考慮した極性判定”, 言語処
理 学 会 ,
Invariant
第 20 回 年 次 大 会 ,
pp.1107-1110, (2014).
15) M. Miura, K. Hattori, T. Ohkuma, H.
Masuichi, “Topic Modeling with Sentiment
Clues and Relaxed Labeling Schema”,
SAIIP2013, pp.6-14, (2013).
and Expo, pp.386-389, (2009).
23) G. Csurka, C. R. Dance, L. Fan, J.
Willamowski,
C.
Bray,
“Visual
categorization with bags of keypoints”,
Workshop
on
Statistical
Learning
in
Computer Vision, ECCV, pp.1-22, (2004).
24) Y. Tsuboshita, N. Kato, M. Okada, “Image
Annotation
Using
Adapted
Gaussian
16) 榊茂之, 三浦康秀, 服部圭悟, 坪下幸寛, 大
Mixture Model”, International Conference
熊智子, “クラウドソーシングを用いて作成
on Pattern Recognition, pp.1346-1350,
した教師データによるSNSユーザーのプ
(2012).
ロフィール判定”, 言語処理学会第20回年
次大会, pp.1091-1094, (2014).
富士ゼロックス テクニカルレポート No.24 2015
25) M. Fukui, N. Kato, W. Qi, “Multi-Class
Labeling Improved by Random Forest for
9
技術論文
非構造化データ活用のための情報処理技術
Automatic
Image
Annotation”,
IAPR
35) 根本啓一, 高橋正道, 林直樹, 水谷美由起,
Conference of Machine Visual Application,
堀田竜士, 井上明人, “ゲーミフィケーショ
pp.202-205, (2011).
ンを活用した自発的・持続的行動支援プ
26) H. Okamoto, Y. Isomura, M. Takada, T.
Fukai, “Temporal integration by stochastic
recurrent network dynamics with bimodal
neurons”,
Journal
of
Neurophysiology,
Tsuboshita,
学会論文誌, Vol.55, No.6, (2014).
36) 高橋正道, 三井実, 涌井美帆子, 堀田竜士,
“クラウドソーシング×対話×フィールド
ワーク –集合知を使った地域活性化策の抽
Vol.97, pp.3859-3867, (2007).
27) Y.
ラットフォームの試作と実践”, 情報処理
H.
Okamoto,
出のトライアル実験-”, 情報処理学会グ
“Context-dependent retrieval of information
ループウェアとネットワークサービスワー
by
ク シ ョ ッ プ 2013 (GN Workshop
neural-network
dynamics
with
continuous attractors”, Neural Networks,
Vol.20, pp.705-713, (2007).
2013)論文集, pp.18-19, (2013).
37) 根本啓一, 高橋正道, 林直樹, 堀田竜士,
28) H. Okamoto, T. Fukai, “Recurrent network
“ワールドカフェ型のダイアログにおける
models for perfect temporal integration of
ターンテイキング構造と参加者の理解度の
fluctuating
PLoS”,
関係性の分析”, 情報処理学会研究報告グ
Computational Biology, Vol.5, e1000404,
ループウェアとネットワークサービス
(2009).
(GN),
correlated
inputs,
29) Y. Tsuboshita, H. Okamoto, “Information
2012-GN-84(20),
pp.1-8,
(2012).
extraction by neural-network dynamics with
38) M. Takahashi, K. Nemoto, N. Hayashi, R.
multi-hysteretic neurons”, Neural Networks,
Horita, “The Measurement of Dialogue:
Vol.22, pp.922-930, (2009).
From a Case Study of the Workshop Using
30) H. Okamoto, “Topic-Dependent Document
World Café as a Collective Dialogue
Ranking: Citation Network Analysis by
Method”, Journal of Information Processing,
Analogy to Memory Retrieval in the Brain”,
Vol.22, No.1, pp.88-95, (2014).
Lecture
Notes,
Computer
Science,
“集合的フィールドワーク -「群衆の叡智」
Vol.6791, pp.371-378, (2011).
31) H.
of
を活用した地域づくり支援のための一手法
communities by an analogy to memory
の提案-”, 情報処理学会グループウェアと
recall in the brain”, Biologically Inspired
ネットワークサービスワークショップ
Cognitive Architectures, Vol6, pp.12-17,
2013 (GN Workshop 2013) 論 文 集 ,
(2013).
pp.16-17, (2013).
32) H.
Okamoto,
Okamoto,
Communities
Dynamics”,
“Local
“Local
by
Lecture
detection
Detection
of
40) 涌井美帆子, 高橋正道, 堀田竜士, 青谷実
Neural-Network
知代, “地域共創プロセスの設計と実践 -大
Notes,
Computer
Science, Vol.7223, pp.50-57, (2013).
33) 岡本洋, 坪下幸寛, “特許引用ネットワーク
学生と地域住民によるお土産づくり-”, 地
域活性学会研究論文集「地域活性研究」
Vol.5, pp.443-449, (2014).
分析”, 企業競争力源泉としての知的財産
41) 谷口元樹, 杉原大悟,三浦康秀, 大熊智子,
権の強化に向けて, 情報処理学会論文誌,
“ルールを用いた教師データ自動獲得によ
Vol.49, No.3, pp.74-75, (2008).
る競合企業名抽出”, 言語処理学会第20回
34) 園田隆志, 岡本洋, 坪下幸寛, “大規模ネッ
10
39) 堀田竜士, 涌井美帆子, 三井実, 高橋正道,
年次大会, pp.551-554, (2014).
ト ワ ー ク か ら の 関 連 情 報 抽 出 ”, 富 士 ゼ
42) 杉原大悟, 大熊智子, 佐竹功次, 三浦康秀,
ロックステクニカルレポート, 第18号,
服部圭悟, 増市博, “営業支援システム内に
pp.88-98, (2008).
蓄積されたテキストデータからの課題記述
富士ゼロックス テクニカルレポート No.24 2015
技術論文
非構造化データ活用のための情報処理技術
文 抽 出 ”, 信 学 技 報 , vol.112, No.196,
NLC2012-11, pp.7-12, (2012).
43) 根本啓一, 大西健司, 増市博, “テキスト
データの構造化を支援する対話的マイニン
グシステム”, 第28回人工知能学会全国大
会, (2014).
44) X. Ma, Y. Tsuboshita, N. Kato, “Gender
Estimation for SNS User Profiling Using
Automatic
Image
appeared,
International
Cross-media
Annotation”,
Analysis
to
be
Workshop
on
for
Social
Multimedia, ICME, (2014).
筆者紹介
増市
博
研究技術開発本部 コミュニケーション技術研究所に所属
専門分野:自然言語処理、知識処理
加藤
典司
研究技術開発本部 コミュニケーション技術研究所に所属
専門分野:画像認識、知識処理
大熊
智子
研究技術開発本部 コミュニケーション技術研究所に所属
専門分野:自然言語処理、知識処理
大西
健司
研究技術開発本部 コミュニケーション技術研究所に所属
専門分野:画像処理、知識処理
富士ゼロックス テクニカルレポート No.24 2015
11