Networked Bandits with Disjoint Linear Payoffs 渡辺 僚 情報理工学専攻 情報認識学研究室 KDD2014 論文紹介 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 1 / 13 モチベーシ ョ ン し たいこ と ソ ーシ ャ ルネッ ト ワ ーク を 介し た宣伝で, 多く の評価を も ら いたい. 単に多く の人に知っ て も ら う のではなく , 見た人の評 価値の合計を 最大化し たい. 基本方針 バン ディ ッ ト 問題のフ レ ームワ ーク を 使う . 「 やっ て みなき ゃ 分から ない」 タ イ プの問題で使われ る フ レ ームワ ーク. ポイ ン ト ユーザのコ ン テキ スト 情報を 使っ た報酬モ デルを 導入. 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 2 / 13 概要図 論文よ り 引用 リ ン ク やユーザ数が時間変化する ネッ ト ワ ーク を 想定. ネッ ト ワ ーク の構造も 一切仮定し ない. 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 3 / 13 準備 Given Unknown 略記など Kt = {1, . . . , kt }: ユーザ集合. Nt (a) ⊆ Kt : 時刻 t にユーザ a から の情報が拡散する ユーザ集合( a 自身を 含む) . xa,t ∈ Rd : 時刻 t に見せる 情報と ユーザ a と のコ ン テキ スト 情報. ya,t ∈ [0, 1]: ユーザ a がつける 評価値( 確率変数) . ga,t = X ya,t a∈Nt (a) kxkV = 渡辺 僚 (情報理工学専攻 情報認識学研究室) p hx, V xi = Networked Bandits √ xT V x KDD2014 論文紹介 4 / 13 目標 毎時刻一人のユーザ at ∈ Kt を 選び, at から 情報が拡散し たすべて の ユーザがつけた評価の n 時刻合計 n X X ya,t = t=1 a∈Nt (at ) n X gat ,t t=1 を 最大化する こ と が目標. 選択ア ルゴリ ズムの評価指標と し て は期待リ ¯ T の小さ さ を 採用する . グレ ッ ト R Definition ¯ T を 以下で定義する . 期待リ グレ ッ ト R # # " T " T X X ¯ T = max E gat ,t ga,t − E R a=1,...,k 渡辺 僚 (情報理工学専攻 情報認識学研究室) t=1 Networked Bandits t=1 KDD2014 論文紹介 5 / 13 評価値のモデル 評価値 ya,t の期待値について , コ ン テキ スト xa,t と ユーザ固有の重みベ ク ト ル wa ∈ Rd の線形モデルを 仮定. E[ya,t | xa,t ] = xTa,t wa∗ + ǫa ただし , ǫa は R-sub-Gaussian である . Definition 確率変数 X が R-sub-Gaussian である と は, 2 2 λ R λX ∀λ, E[e ] ≤ exp 2 が成立する こ と を いう . ǫa が R-sub-Gaussian であれば, E[ǫa ] = 0, V [ǫa ] ≤ R2 , かつ ǫa ∈ [−R, R] が成立する . 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 6 / 13 wa の推定 時刻 t ま でに蓄積し た na (t) 個の履歴 (xa,1 , ya,1 ), . . . , (xa,na (t) , ya,na (t) ) か ˆ a を 推定する . ら L2 -正則化回帰で w ˆ a = (XaT Xa + λ)−1 Xa Ya w ただし xa,1 ya,1 Xa = ... , Ya = ... , λ > 0 xa,na (t) ya,na (t) 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 7 / 13 Self-normalized bound for vector-valued martingale ˆ a を 中心と し た超楕円を う ま く 構成す る と , そ L2 -正則化回帰で求めた w ∗ の中に真値 w が入る 確率の下界を 抑え る こ と ができ る . Theorem ˆ t につい yt = xTt w ∗ + ǫt ( ǫt は R-sub-Gaussian) の L2 -正則化推定重み w て , 以下が成立. Pr{w ∗ ∈ Ct } ≥ 1 − δ s ¯ 1/2 √ | V | t √ ˆ t − wkV¯t ≤ R 2 log Ct = w ∈ Rd : kw +S λ δ dλ ただし , V = λI + t X n=1 渡辺 僚 (情報理工学専攻 情報認識学研究室) xn ⊗ xn , Networked Bandits S ≥ kwk2 KDD2014 論文紹介 8 / 13 ユーザ選択ア ルゴリ ズム 先ほど の定理に基づいて , 時刻 t で選択する ユーザ at を 以下のよ う に決 定する . at = arg max Ba,t a∈Kt Ba,t = X a∈Nt (k) xTk,t w ˆ k + kxk,t kV¯ −1 R 渡辺 僚 (情報理工学専攻 情報認識学研究室) t s Networked Bandits ¯ 1/2 √ |Vt | √ 2 log + S λ δ dλ KDD2014 論文紹介 9 / 13 ¯ T の上界 期待リ グレ ッ ト R Theorem Networked bandits において , K ≥ maxt≤T |Kt | と する . こ のと き 期待リ ¯ T について 以下が成立. グレ ッ ト R q T 1/2 ¯ ≥ 1−δ Pr RT ≤ 2K 2βT (δ)T log |I + XX /λ| ただし , s 証明略. βT (δ) = R 渡辺 僚 (情報理工学専攻 情報認識学研究室) 2 log |I + XX T /λ|1/2 δ Networked Bandits √ 2 + S λ KDD2014 論文紹介 10 / 13 実データ 実験: 準備 動的ネッ ト ワ ーク データ セッ ト Delicious Bookmarks (Del) サイ ズ 1861 ユーザ, 7668 リ ン ク, 69226URL, 53388 タ グ 報酬 ユーザが URL を ブ ッ ク マーク に追加し たら 報酬 1, でなけ れば 0. 前処理 コ ン テキ スト 情報の生成 1 タ グを 単語に分割. 2 TF-IDF ベク ト ルを 生成. 3 PCA で 16 次元に圧縮. d = 16. 構造変化 タ イ ムスタ ン プを 元に 14 区間に分割, 各区間で 1000 回推 薦. T = 14000. 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 11 / 13 実データ 実験: 結果 従来手法( TraBandits) よ り も よ い. 3ヶ 所の低く なっ て いる 部分( 赤 枠) は構造変化が大き いのが原因 ( 著者談) . 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 12 / 13 著者ら のま と め 複数のユーザから コ ン テキ スト 情報に基づいて 報酬が出力さ れる バ ン ディ ッ ト 問題を 定式化し た. そ の問題に対し , ユーザ選択ア ルゴリ ズムを 考案, リ グレ ッ ト 上界 と 人工・ 実データ 実験で優位性を 示し た. ネッ ト ワ ーク 構造に一切の仮定がない. 何ら かの仮定を 入れる と 性 能がよ く なる のではないか. 実際の情報拡散プロ セスはも っ と 複雑である . 渡辺 僚 (情報理工学専攻 情報認識学研究室) Networked Bandits KDD2014 論文紹介 13 / 13
© Copyright 2024