
061120fe5f8ece48c1659a2564f90185.ppt
- Количество слайдов: 35
整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun 東京大学大学院情報理 学系研究科 黒橋 禎夫 京都大学大学院情報学研究科
アラインメントの位置付け 入力文 対訳 コーパス アライメント 翻訳知識 EBMT 翻訳 翻訳文 アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!
アラインメント • 統計翻訳(SMT) – さまざまな確率的パラメータを学習 – 辞書などの言語資源は基本的には利用しない – 頑健な数学的知識に基づいている • 用例ベース翻訳(EBMT) – 翻訳用例の獲得 – 辞書などの言語資源を積極的に利用 – アドホックなルールを利用することが多い [Arul 01]
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
アラインメント • Step1:依存構造解析 • Step2:対応候補の探索 • Step3:対応候補の選択 • Step4:未対応部分の推定
Step1:依存構造解析 • 日本語:形態素解析器JUMAN/構文解析器KNP • 英語:Charniak’s nlparser → ルールによる変換 J: 交差点で、突然あの車が 飛び出して来たのです。 交差 点で、 突然 あの 車が 飛び出して 来た のです E: The car came at me from the side at the intersection. the car came at me from the side at the intersection
Step2:対応候補の探索 • 対訳辞書 (研究社の和英・英和辞書) • 数字の汎化 (二十三 ⇔ twenty three) • Transliteration (新宿 ⇔ Shinjuku) 交差 点で、 突然 あの 車が 飛び出して 来た のです the car came at me from the side at the intersection
Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる
曖昧な対応の例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan
Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる → 様々な対応候補から適切なものを取捨選択 する必要がある このステップが 最も重要! 詳細は後ほど。。。
Step4:未対応部分の推定 • 残っているルートノード同士を対応付ける • 名詞句内のノードをまとめる • そのほかは親ノードへまとめる 交差 点で、 突然 あの 車が 飛び出して 来た のです the car came at me from the side at the intersection
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
アラインメントの整合性 • 1 対 複数、複数 対 複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in)
曖昧な対応の例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan
アラインメントの整合性 • 1 対 多、多 対 多などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要
アラインメントの整合性 近い! 遠い!
アラインメントの整合性 • 1対複数、複数対複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)
ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数
スコア計算例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan
ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数 距離と距離-スコア関数を改善
距離-スコア関数の改善(1/2) • 毎日新聞4万対訳文のアラインメント正解データで 距離ペアの頻度分布を計数 [Uchimoto 04] 頻 度 の log 日本語側の距離 英語側の距離 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)
距離-スコア関数の改善(2/2) • 距離が近い同士のペア → プラス • 距離が遠い同士のペア → 0 • 距離が近いものと遠いものとのペア → マイナス ス コ ア 英語側の距離 日本語側の距離 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)
係り受けタイプと距離 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 に 対して 2 ノ格 2 ガ格 will have to file 保険 1 文節内 可能です よ 保険 3 NP insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)
係り受けタイプと距離 日本語 英語 用言:レベルC 6 S / SBAR / SA / : 5 用言:レベルB+ / B 5 VP / ADVP 4 用言:レベルB- / A 4 ADJP / WHADVP WHADJP ト格 ヲ格 / ニ格 / デ格 3 NP / PP / INTJ ガ格 / ノ格 / 連体 2 QP / PRT / PRN 文節内 1 others 用言:レベルA+ 3 2
距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 に 対して 2 ノ格 2 ガ格 will have to file 保険 1 文節内 可能です よ 保険 3 NP 距離=(1,1) スコア + insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)
距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 に 対して 2 ノ格 2 ガ格 will have to file 保険 1 文節内 可能です よ 保険 3 NP 距離=(1,7) スコア - insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)
アラインメントの整合性尺度 you 日本 で will have to file 保険 距離-スコア関数 会社 に 対して 保険 日本語側距離 insurance an claim 英語側距離 整合性スコア(整合性尺度) 請求 の 申し立て が 可能です よ insurance with the office in Japan
目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論
アラインメント実験 • 毎日新聞対訳コーパスからランダムに 500文 • 正解データとの比較 – 日本語:文字単位 英語:単語単位 – 適合率・再現率・F値 • 対訳辞書 – 研究社 和英 36 K 見出し 214 K エントリー – 研究社 英和 50 K 見出し 303 K エントリー
精度の計算例 E 1 9 = 75% 適合率(P)= 12 E 3 E 4 9 再現率(R)= = 82% 11 E 5 E 6 E 7 E 8 E 9 J 1 J 2 J 3 J 4 J 5 J 6 J 7 J 8 J 9 F値=PとRの調和平均 = 78%
結果と考察 適合率 再現率 F値 ベースライン 60. 26 61. 68 58. 79 +距離-スコア関数改善 64. 35 61. 58 60. 81 +係り受け距離 64. 93 62. 64 61. 91 GIZA++ (with JUMAN) 59. 9 17. 0 26. 4 • 距離-スコア関数改善により大幅な適合率向上 • 係り受け距離を考慮することにより全体的な精 度の向上
改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment.
改善例(2) J:チェチェン紛争は、東欧諸国 の北大西洋条約機構への加盟 要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO
結論と今後の課題 • 係り受けタイプと距離-スコア関数を導入 • アラインメントの整合性尺度を定義し、適切な 対応候補の選択を可能とすることにより、アラ インメント精度の向上に成功 • 係り受けタイプに基づく距離を自動学習 • 距離スコア関数のチューニング • 他の有効なフィーチャの導入