Oracle Advanced Analytics

Oracle ExadataとOracle Advanced
Analyticsでビッグ・データを
より大きなインサイトへ
Senior Director、Product Mgt. OAA、Charlie Berger
Product Manager、OAA、Marcos Arancibia
dunnhunby、Science Director R&D、Michael Bramley
オラクルのビッグ・データ・ソリューション・アーキテクチャ
決定
Oracle Real-Time
Decisions
Oracle Event
Processing
Apache
Flume
Oracle
GoldenGate
ストリーム
2
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Endeca Information
Discovery
Cloudera
Hadoop
Oracle BI Foundation
Suite
Oracle Big Data
Connectors
Oracle NoSQL
Database
Oracle R
Distribution
Oracle Data
Integrator
取得 - 体系化 - 分析
Oracle
Database
Oracle
Advanced
Analytics
Oracle Spatial
& Graph
オラクルのデータベース内分析
 統計関数
 データ・マイニングと
予測分析
 テキスト・マイニング
 テキスト検索
 グラフ分析
 空間分析
 セマンティック分析
 In-Database
MapReduce
3
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
スケーラブルで全社的な予測分析を最短期間で提供
おもな機能
 データベース内のデータ・マイニング・アルゴ
リズムとオープンソースのRアルゴリズム
 SQL、PL/SQL、R言語
 スケーラブルなデータベース内パラレル実行
 ワークフローGUIとIDE
 統合データベース・コンポーネント
 エンタープライズ分析アプリケーションの
実現
4
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
低い総所有コストでパフォーマンスとスケーラビリティを実現
従来の分析
Oracle Advanced Analytics
データの
インポート
データはデータベース内のまま
 SQLカーネルでのスケーラブルなパラレル・データ・マイニング・アルゴリズム
データ・マイニング
モデルの“
スコアリング"
 データベース内でのデータ準備によるRオープンソース・パッケージの効率的な実行
データの準備と
節約
変換
 データ・マイニング・モデルとRオープンソース・モデルの高パフォーマンスなパラレル・
スコアリング
データからインサイトまでの最短パス
データ・マイニング
モデルの構築
 統合GUIによる予測分析
データの準備と
変換
 データベース・スコアリング・エンジン
最小のTCO
データの抽出
モデルの"スコアリング"
組込みデータの準備
モデルの構築
データの準備
数時間/数日/数週間
5
数秒/数分/数時間
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
 データの重複排除
 単独分析サーバーの不要化
Oracle Advanced Analyticsアーキテクチャ
SQL Developer
Rクライアント
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics
ネイティブSQL-PL/SQLの分析ライブラリと高パフォーマンスなRインタフェース
スケーラブルな分散パラレル実行
Oracle R Distribution
6
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analyticsアーキテクチャ
SQL Developer
Rクライアント
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics
ネイティブSQL-PL/SQLの分析ライブラリと高パフォーマンスなRインタフェース
スケーラブルな分散パラレル実行
Oracle R Distribution
7
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
データベース内のデータ・マイニング・アルゴリズム
アルゴリズム
適用範囲
分類
ロジスティック回帰(GLM)
ディシジョン・ツリー
Naive Bayes
サポート・ベクター・マシン
従来の統計手法
人気/規則/透明性
組込みアプリケーション
範囲が広い/狭いデータ/テキスト
回帰
線形回帰(GLM)
サポート・ベクター・マシン(SVM)
従来の統計手法
範囲が広い/狭いデータ/テキスト
異常検出
1クラスSVM
未知の不正ケースまたは異常
属性の重要度
最小記述長(MDL)
主成分分析(PCA)
属性縮約、データ・ノイズの低減
相関ルール
アプリオリ
マーケットバスケット分析/次善策の提案
クラスタリング
階層型k-means
階層型O-Cluster
期待値最大化(EM)クラスタリング
製品分類/テキスト・マイニング
遺伝子およびタンパク質分析
非負行列因子分解(NMF)
特異値分解(SVD)
テキスト分析/特徴削減
A1 A2 A3 A4 A5 A6 A7
特徴抽出
F1 F2 F3 F4
8
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
幅広いデータベース内のデータ・マイニングと統計関数
 データの理解と視覚化
 データベース内のアルゴリズム
– サマリー統計と記述統計
– 分類モデル
– クロス集計
– 回帰モデル
– 相関テスト(t検定、ピアソン、ANOVA)
– クラスタリング
– ヒストグラム、散布図、箱ひげ図、棒グラフ
– 異常検出
– Rグラフィックス:3Dプロット、リンク・プロット、特殊なRグ
– 対応付け/マーケットバスケット分析
ラフ・タイプ
– テキスト・マイニング
– 選択されたBase SASと同等の機能
– ほとんどのOAAアルゴリズムが非構造化データを
サポート(顧客のコメント、電子メール、要約など)
 データの選択、準備、変換
 Rの統合:
– 結合、表、ビュー、データ選択、データ・フィルタ
– 複数データベースの結合
– Oracle DatabaseとHadoopに対して実行可能なアルゴリズ
– 選択、フィルタリング、ランク付け
ム(ニューラル・ネットワークやステップワイズ回帰など)
– SQL時間枠
を含む追加のカスタムOracle Rパッケージ
– サンプル
– オープンソースRパッケージ - オープンソースのR CRAN
– コード変更、値の欠落
パッケージを実行可能
– 集計
– 空間データ
– RからSQLへの透過性とプッシュ・ダウン
* すべてのOracle Databaseに含まれる
9
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
OAA SQL DMの不正例
R
begin
dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION',
'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET');
end;
/
-- Top 5 most suspicious fraud policy holder claims
select
POLICYNUMBER,
round(prediction_probability(CLAIMSMODEL, '0' using *)*100,2) prob_fraud
from
CLAIMS
where
PASTNUMBEROFCLAIMS in ('2to4', 'morethan4')
order by
prob_fraud desc
fetch first 5 rows only;
10
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Insert Information Protection Policy Classification from Slide 13
POLICYNUMBER
-----------6532
64.78
2749
64.17
3440
63.22
654
63.1
12650
62.36
PERCENT_FRAUD RNK
---------------------1
2
3
4
5
For Automated Monthly “Application”!Just add:
Create
View CLAIMS2_30
As
Select * from CLAIMS2
Where mydate > SYSDATE – 30
Oracle Advanced Analyticsアーキテクチャ
SQL Developer
Rクライアント
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics
ネイティブSQL-PL/SQLの分析ライブラリと高パフォーマンスなRインタフェース
スケーラブルな分散パラレル実行
Oracle R Distribution
11
Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
Insert Information Protection Policy Classification from Slide 13
Oracle Data MinerのGUI
SQL Developer 4.0の拡張機能
OTNから無料でダウンロード可能
 使いやすさ
– データ分析用のOracle Data Miner GUI
– "ワークフロー"パラダイム
 高性能
– さまざまなアルゴリズムとデータ変換
– 100%データベース内で実行
– モデルの構築、評価、適用
 自動化とデプロイ
– 分析ワークフローの保存と共有
– デプロイ用SQLスクリプトの生成
12
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analyticsアーキテクチャ
SQL Developer
Rクライアント
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics
ネイティブSQL-PL/SQLの分析ライブラリと高パフォーマンスなRインタフェース
スケーラブルな分散パラレル実行
Oracle R Distribution
13
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
ビジネス・インテリジェンスと高度な分析
SQLとRを使用した統合
 すべての予測、インサイト、モデルは
データベース内に - SQLを使用した任意の
BIツールからアクセスおよび問合せが可能
 OBIEEの統合空間マッピングを使用した
マップ予測
 OBIEEダッシュボードからパラメータ化した
R計算を起動し、データまたは視覚表現を
表示
 SQLをサポートする任意のBIツールまたは
アプリケーションで利用可能
14
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
将来的に価値が「高い」または
「非常に高い」顧客となる"可能性
がもっとも高い"顧客
ダッシュボードに直接
出力された高度なR統計
グラフィック
ビジネス・インテリジェンスと高度な分析
SQLとRを使用した統合
 すべての予測、インサイト、モデルは
データベース内に - SQLを使用した任意の
BIツールからアクセスおよび問合せが可能
 OBIEEの統合空間マッピングを使用した
マップ予測
 OBIEEダッシュボードからパラメータ化した
R計算を起動し、データまたは視覚表現を
表示
 SQLをサポートする任意のBIツールまたは
アプリケーションで利用可能
15
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analyticsアーキテクチャ
SQL Developer
Rクライアント
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics
ネイティブSQL-PL/SQLの分析ライブラリと高パフォーマンスなRインタフェース
スケーラブルな分散パラレル実行
Oracle R Distribution
16
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
予測アプリケーションの実現
Oracle Advanced Analyticsを使用したOracleアプリケーションの例
• HCM Fusion
• Oracle Fin.Services Analyticアプリケーション
– 労働力の予測 - 従業員の離職率とパフォーマンス予測、"What if" 分析
• CRM Fusion
• サプライ・チェーン・マネジメント
- 経費申請における違反や異常のリアルタイム・フラグ付け
• ID管理
– Oracle Adaptive Access Manager—リアルタイム・セキュリティと不正分析
• 業種別データ・モデル
– 通信データ・モデル - 顧客の解約予測、セグメント化、プロファイリングの実装
– 小売データ・モデル - ロイヤルティとマーケットバスケット分析の実装
– 航空会社データ・モデル - 高頻度利用者の分析とロイヤルティの分析の実装
17
– エンタープライズ・パフォーマンス、金融犯罪およびコンプライアンス
• OFSAA CI Retail Customer Analytics
– 販売予測エンジン - 販売機会、販売製品、販売数、タイミングなどの予測
– 支出の分類
– 顧客インサイト、企業リスク管理
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
– 減少分析- ローンの繰上げ返済、普通預金の減少、定期預金、カード・・・
– 生存分析
– 顧客生涯価値
– 傾向モデル - クレジット・カード<->自動車ローン、貯蓄額<->カード
• 小売分析
– Oracle Retail Customer Analytics — "ショッピング・カート分析"と次善策の
提案
• カスタマ・サポート
– Predictive Incident Monitoring(PIM) - Oracle Database顧客に対するカス
タマ・サービス
オラクルの通信業界データ・モデル
事前構築済みの予測モデル
 スケーラブルな全社的予測分析を
最短期間で提供
 OAAのクラスタリングと予測を
データベース内でOBIEE用に
利用可能
 顧客の自動セグメント化、
解約予測、感情分析
18
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
SNA分析によって改善されたOCDMの通信顧客離れ
分析
大量のCDRデータに対する
ソーシャル・ネットワーク分析
 OCDM、OBIEEとの統合、特殊なSNA
コードを使用したOracle Data Miningの
利用
 ソーシャル・ネットワーク・コミュニティの
識別
 ノード・レベルでの顧客離れと影響力に
対する予測スコア、潜在的なリスクのあ
る収益/価値
 ビジネス・ユーザー向けのユーザー・
インタフェースと柔軟な非定型レポート
19
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Fusion HCMの労働力予測
OAAを利用したFusion Human
Capital Management
 Oracle Advanced Analyticsに事前
インストールされた予測分析
 離職しそうな従業員
 おもな理由、期待される実績
 リアルタイムの"What-If"分析
20
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analyticsアーキテクチャ
SQL Developer
Rクライアント
OBIEE
アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics
ネイティブSQL-PL/SQLの分析ライブラリと高パフォーマンスなRインタフェース
スケーラブルな分散パラレル実行
Oracle R Distribution
21
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
統計学者/データ・アナリストがRを使用する理由
RはBase SASまたはSPSS Statisticsに似た統計言語
R環境は・・・
 高性能
 拡張可能
 グラフィカル
 幅広い統計
 'ツマミ'が多数あり、デフォルト設定でも
優れた性能を発揮するOOTB機能
 容易なインストールと使用
 無料
22
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
©2012 Oracle – All Rights Reserved
オラクルのR戦略
スケーラブルで高パフォーマンスなR環境をOracle RDBMSおよび
Hadoopと緊密に統合
Rユーザー向け
23
Oracle Databaseおよび
ビッグ・データ開発者向け
• Oracle DatabaseとHDFSオブジェクトに対する
• 任意のRアルゴリズムまたは計算を含む
フル・アクセス
• すべてのR操作で高いパフォーマンスと
スケーラビリティを実現
• スケーラブルなネイティブの統合マシン学習
アルゴリズム
• Oracle DatabaseまたはHadoop内での
RスクリプトのデプロイとR計算結果の保存
組込みRスクリプトの実行
• Oracle DatabaseまたはHadoop内に保存
されたR結果へのアクセス
• XMLやPNGなどのグラフィカル形式での
R計算結果の取得
• BIアプリケーションへのR結果の統合
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics:Oracle Databaseとの統合
データベース内統合とオープンソースRパッケージの使用
Oracle Databaseサーバー
クライアント・インタフェース
Oracle Databases
Rクライアント・インタフェース
Oracle R Enterprise
パッケージ
• 透過性
• 組込みR
SQL、PL/SQLまたはR
Advanced Analyticsオプション
SQLによる基本統計
Σ(x)
データ・マイニング・アルゴリズム
SQLから登録済みRスクリプトをコール
∂(x)
パラレルのExtProcインターコネクト
SQLインタフェース
• 任意のSQLとPL/SQL
• ODM GUIでの新しい
"SQL問合せノード"
24
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle R Distribution
線形代数パフォーマンスの向上
• R言語構文を利用したパラレル分散分析技術
• カスタムRアルゴリズム:ニューラル/ステップ
ワイズ
• オープンソースRパッケージへのアクセス
•
Oracle Advanced Analytics:Hadoopとの統合
Hadoop-HDFS統合とカスタムのオープンソースRパッケージの使用
Hadoopクラスタ
クライアント・インタフェース
Rクライアント・インタフェース
Oracle R Connector for
Hadoopパッケージ:
• Hadoop
• MapReduce
• HIVE透過レイヤー
Oracle R Enterprise
パッケージ
• 透過性
• 組込みR
Oracle Databases
SQL、PL/SQL、R
Oracle R Connector for Hadoop
R、Java
Advanced Analyticsオプション
Oracle R Distribution
Hadoopに対するRリクエストの変換:
Oracle Big Data Connectors
Σ(x) • HDFSユーティリティ:データの移動と統計、
Rへのデータ・プッシュ、データのサンプリング
• ORCHユーティリティ:Rセッションの接続/切断
• HIVEインタフェース:表のメタデータと
インタフェースのロード
∂(x)
• ORCHのカスタムRアルゴリズム:ニューラル、
GLM、kMeans、NMF、LMF
• マッパーおよびリデューサ・フレームワーク向けに
カスタムR分析を一度作成すると、そのまま再利
用可能。Oracle DatabaseとHadoopの両方に対す
るI/Oが構築される。
パラレルのMapReduceコール
HDFSエンジン
25
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
Oracle Advanced Analytics
新機能サマリー
 Oracle Advanced Analytics 12c
–
新しいSQLデータ・マイニング・アルゴリズム(期待値の最大化、PCA、特異値分解、テキスト・マイニング、
その他のアルゴリズムの改善)
–
予測的SQL問合せ - SQL問合せ内で自動的に構築、適用
 Oracle Data Miner/SQL Developer 4.0(Oracle Database 11gおよび
12c向け)
–
新しいグラフ・ノード(箱ひげ図、散布図、棒グラフ、ヒストグラム)
–
SQL問合せノード+Rスクリプトの統合
–
デプロイ用SQLスクリプトの自動生成
 Oracle R Enterprise 1.4(Oracle Database 11gおよび12c向け)
26
–
Oracle Databaseデータに対してore.neural()を使用した、パラレル化ニューラル・ネットワーク
–
オープンソースRモデルを使用したデータベース表のスコアリング、データベース内のサンプリング
–
日付および時刻のデータ型サポートによる時系列分析
–
データベース内でのRオブジェクトの永続化と管理、OBIEEとの統合の強化
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
OAAについての詳しい情報
 Google:“Oracle Advanced Analytics”
– OTN:http://www.oracle.com/technetwork/database/options/advanced-analytics/index.html
 Oracle Demo Campgroundsデモ・ポッド
– OOW展示ホール、営業時間(月~水)、Moscone South, Left
 Workstation ID:SL-063、Database、Data Warehousing
 OAAハンズオン・ラボ:
– Big Data, Bigger Insights with Oracle Advanced Analytics and Oracle SQL Developer [HOL10074]
 9月23日(月)午後3時15分~4時15分、Marriott Marquis - Salon 3/4
– Make the Right Offers to Customers Using Oracle Advanced Analytics [HOL10075]
 9月24日(月)午前10時30分~11時30分、Marriott Marquis - Salon 3/4
27
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
28
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.
29
Copyright © 2013, Oracle and/or its affiliates.All rights reserved.