この1年苦労して人手評価を上げました

関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
この1年苦労して人手評価を上げました
Graham Neubig
奈良先端科学技術大学院大学 (NAIST)
2014 年 3 月 16 日
1
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
指令
1
0.8
0.6
0.4
0.2
0
en-ja
ja-en
zh-ja
ja-zh
2
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
シナリオ
Automatic
Translation
yes
どこが痛い
ですか?
Smooth
Communication?
Human
Interpreter
no
Translation Where does
Device
it hurt?
3
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
プロジェクト概要
●
音声認識、機械翻訳、音声合成システムの構築
●
データの収集
●
現場実験
4
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
テストデータ
5130
Sentences
en-ja-zh
1007
Sentences
5
en-ja-zh
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
翻訳システムの構築
6
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
tree-to-string 翻訳 (Travatar)
VP0-5
VP2-5
PP0-1
N0
P1
友達
と
PP2-3
N2
P3
ご飯
を
VP4-5
V4 SUF5
食べ た
VP0-5
x1 with x0: 0.56
N0
friend: 0.12
my friend: 0.3
VP2-5
x1 x0: 0.6
N2
a meal: 0.5 rice: 0.3
VP4-5
ate: 0.5
7
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
モデル構築の工夫
●
アライメント
●
●
教師なし GIZA++
→ 教師あり Nile
構文解析
●
●
英語:
Stanford Parser の木
日本語:
Eda の木
→ Egret (Berkeley) の森
→ Egret (Berkeley) の森
8
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
教師ありアライメント
教師なし
this
学習:
is a pen
これ は ペン です
c(is, は )--
正解
this
is a pen
これ は ペン です
c(is, です )++
c(a, です )--
9
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
Nile
10
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
GIZA++
P(e|f)
Nile
X 2 X1
X2 wo X1
0.16
0.30
0.01
0.47
X1 X 2
bad
VP → VBZ1 NP2
good
Nile の効果
0.78
0.05
11
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
日本語の
係り受け→修正係り受け
●
Japanese Word Dependency Corpus [Mori+ 2014]
実 の 方 を ざく 切り に し て 、 耐熱 容器 に 入れ ま す 。
句読点の修正
動詞句の修正
ja-adjust-dep.pl
実 の 方 を ざく 切り に し て 、 耐熱 容器 に 入れ ま す 。
12
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
日本語の
修正係り受け→句構造
実 の 方 を ざく 切り に し て 、 耐熱 容器 に 入れ ま す 。
2 分化句構造への変換
ja-dep2cfg.pl
13
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
システムのテスト (NTCIR)
14
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
人手評価をやってみよう…
15
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
初期の評価
1
0.8
0.6
0.4
0.2
0
en-ja
ja-en
まだまだ…
16
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
何がダメなのか
●
●
●
A couple of times, I think. Long time ago.
数回だと思います。時間前のことです。
Now, I will take another shot.
今、の注射をしましょう。
Please keep lying.
をしておいてください。
17
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
自動評価の罠
He corrected the paper.
A) 彼 は 論文 を 添削 し た 。
B) 彼 は 論文 を 修正 し た 。
C) 彼 は 論文 を 直 し た 。
RIBES
正解が B 正解が C
翻訳候補
正解が A
彼 は 論文 を 添削 し た 。
1.000
0.967
0.967
0.978
彼 は 論文 を 修正 し た 。
0.967
1.000
0.967
0.978
彼 は 論文 を 直 し た 。
0.967
0.967
1.000
0.978
彼 は 論文 を し た 。
0.986
0.986
0.986
0.986
期待値
18
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
まとめ
●
削除を修正したいが、自動評価が信頼できない
●
どうしよう…
●
●
●
自動評価尺度の改良
複数参照文の作成
汚いフィルタリングルールをがりがり
採用!!!
19
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
フィルタリングルール
20
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
作成プロセス
●
人手評価
●
「 F 」の文を誤り分析
●
誤りを分類し、頻度の多いところから攻める
21
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
内容語を削除してはならぬ
Cover your left eye with this,
これで左目に、
root ( s ( np ( nnp ( "cover" ) ) x0:s' ) ) ||| x0
22
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
「 do 」以外の動詞を
「する」に訳してはならぬ
Are you wearing it now?
していますか?
vbg ( "wearing" ) ||| "し" "て" "い" "ま" "す"
23
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
内容語をひらがな一文字
に訳してはならぬ
Are you wearing it now?
今のをしていますか?
vbg ( "wearing" ) ||| "の"
24
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
数字を別の数字に訳してはならぬ
All right, 36 point 7 degrees.
はい、三十七度です。
cd ( "36" ) ||| "三十"
25
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
質問・否定を逆転させてはならぬ
It does, a little.
そうですか、少しありません。
root ( s ( np ( prp ( "it" ) ) s' ( vp ( vbz ( "does" ) ) x0:s' ) ) )
||| "そう" "で" "す" "か" x0
s' ( , ( "," ) s' ( x0:np . ( "." ) ) )
||| "、" x0 "あ" "り" "ま" "せ" "ん" "。"
26
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
フィルタリングルールの効果
1
0.8
0.6
0.4
0.2
0
en-ja
ja-en
27
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
まとめ
28
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
フィルタリングルール
29
関西 MT 勉強会@北海道 - この 1 年苦労して人手評価を上げました
今後の課題
12
9
3
3
3
2
2
2
2
英日
アライメント
文脈依存の語彙選択
質問の極性
構文解析
動詞の削除
未知語
可能の極性
並べ替え
単語の挿入
15
10
9
7
4
3
3
3
3
3
2
日英
アライメント
主語の挿入
削除誤り
並べ替え
単語分割
未知語
否定の極性
命令の極性
構文解析
文脈依存の語彙選択
活用の生成
30