Скачать презентацию 整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun 東京大学大学院情報理 学系研究科 黒橋 Скачать презентацию 整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun 東京大学大学院情報理 学系研究科 黒橋

061120fe5f8ece48c1659a2564f90185.ppt

  • Количество слайдов: 35

整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun  東京大学大学院情報理 学系研究科 黒橋 禎夫 京都大学大学院情報学研究科 整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun  東京大学大学院情報理 学系研究科 黒橋 禎夫 京都大学大学院情報学研究科

アラインメントの位置付け 入力文 対訳 コーパス アライメント 翻訳知識 EBMT 翻訳 翻訳文 アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要! アラインメントの位置付け 入力文 対訳 コーパス アライメント 翻訳知識 EBMT 翻訳 翻訳文 アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!

アラインメント • 統計翻訳(SMT) – さまざまな確率的パラメータを学習 – 辞書などの言語資源は基本的には利用しない – 頑健な数学的知識に基づいている • 用例ベース翻訳(EBMT) – 翻訳用例の獲得 – アラインメント • 統計翻訳(SMT) – さまざまな確率的パラメータを学習 – 辞書などの言語資源は基本的には利用しない – 頑健な数学的知識に基づいている • 用例ベース翻訳(EBMT) – 翻訳用例の獲得 – 辞書などの言語資源を積極的に利用 – アドホックなルールを利用することが多い [Arul 01]

目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論

目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論

アラインメント • Step1:依存構造解析 • Step2:対応候補の探索 • Step3:対応候補の選択 • Step4:未対応部分の推定 アラインメント • Step1:依存構造解析 • Step2:対応候補の探索 • Step3:対応候補の選択 • Step4:未対応部分の推定

Step1:依存構造解析 • 日本語:形態素解析器JUMAN/構文解析器KNP • 英語:Charniak’s nlparser → ルールによる変換 J: 交差点で、突然あの車が 飛び出して来たのです。 交差 点で、 突然 Step1:依存構造解析 • 日本語:形態素解析器JUMAN/構文解析器KNP • 英語:Charniak’s nlparser → ルールによる変換 J: 交差点で、突然あの車が 飛び出して来たのです。 交差 点で、 突然 あの 車が 飛び出して 来た のです E: The car came at me from the side at the intersection. the car came at me from the side at the intersection

Step2:対応候補の探索 • 対訳辞書 (研究社の和英・英和辞書) • 数字の汎化 (二十三 ⇔ twenty three) • Transliteration (新宿 ⇔ Step2:対応候補の探索 • 対訳辞書 (研究社の和英・英和辞書) • 数字の汎化 (二十三 ⇔ twenty three) • Transliteration (新宿 ⇔ Shinjuku) 交差 点で、 突然 あの 車が 飛び出して 来た のです the car came at me from the side at the intersection

Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる

曖昧な対応の例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 曖昧な対応の例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan

Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる    → 様々な対応候補から適切なものを取捨選択       する必要がある このステップが 最も重要! 詳細は後ほど。。。 Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる    → 様々な対応候補から適切なものを取捨選択       する必要がある このステップが 最も重要! 詳細は後ほど。。。

Step4:未対応部分の推定 • 残っているルートノード同士を対応付ける • 名詞句内のノードをまとめる • そのほかは親ノードへまとめる 交差 点で、 突然 あの 車が 飛び出して 来た Step4:未対応部分の推定 • 残っているルートノード同士を対応付ける • 名詞句内のノードをまとめる • そのほかは親ノードへまとめる 交差 点で、 突然 あの 車が 飛び出して 来た のです the car came at me from the side at the intersection

目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論

アラインメントの整合性 • 1 対 複数、複数 対 複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) アラインメントの整合性 • 1 対 複数、複数 対 複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in)

曖昧な対応の例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 曖昧な対応の例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan

アラインメントの整合性 • 1 対 多、多 対 多などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 アラインメントの整合性 • 1 対 多、多 対 多などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要

アラインメントの整合性 近い! 遠い! アラインメントの整合性 近い! 遠い!

アラインメントの整合性 • 1対複数、複数対複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度) アラインメントの整合性 • 1対複数、複数対複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)

ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1   → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数 ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1   → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数

スコア計算例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 スコア計算例 you 日本 で will have to file 保険 insurance 会社 に 対して 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan

ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1   → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数 距離と距離-スコア関数を改善 ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1   → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数 距離と距離-スコア関数を改善

距離-スコア関数の改善(1/2) • 毎日新聞4万対訳文のアラインメント正解データで 距離ペアの頻度分布を計数 [Uchimoto 04] 頻 度 の log 日本語側の距離 英語側の距離 距離-スコア関数 日本語側距離 距離-スコア関数の改善(1/2) • 毎日新聞4万対訳文のアラインメント正解データで 距離ペアの頻度分布を計数 [Uchimoto 04] 頻 度 の log 日本語側の距離 英語側の距離 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)

距離-スコア関数の改善(2/2) • 距離が近い同士のペア → プラス • 距離が遠い同士のペア → 0 • 距離が近いものと遠いものとのペア → マイナス ス 距離-スコア関数の改善(2/2) • 距離が近い同士のペア → プラス • 距離が遠い同士のペア → 0 • 距離が近いものと遠いものとのペア → マイナス ス コ ア 英語側の距離 日本語側の距離 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)

係り受けタイプと距離 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 係り受けタイプと距離 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 に 対して 2 ノ格 2 ガ格 will have to file 保険 1 文節内 可能です よ 保険 3 NP insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)

係り受けタイプと距離 日本語 英語 用言:レベルC 6 S / SBAR / SA / : 5 用言:レベルB+ 係り受けタイプと距離 日本語 英語 用言:レベルC 6 S / SBAR / SA / : 5 用言:レベルB+ / B 5 VP / ADVP 4 用言:レベルB- / A 4 ADJP / WHADVP WHADJP ト格 ヲ格 / ニ格 / デ格 3 NP / PP / INTJ ガ格 / ノ格 / 連体 2 QP / PRT / PRN 文節内 1 others 用言:レベルA+ 3 2

距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 に 対して 2 ノ格 2 ガ格 will have to file 保険 1 文節内 可能です よ 保険 3 NP 距離=(1,1) スコア + insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)

距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 1 NN 会社 に 対して 2 ノ格 2 ガ格 will have to file 保険 1 文節内 可能です よ 保険 3 NP 距離=(1,7) スコア - insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 日本語側距離 英語側距離 整合性スコア(整合性尺度)

アラインメントの整合性尺度 you 日本 で will have to file 保険 距離-スコア関数 会社 に 対して 保険 アラインメントの整合性尺度 you 日本 で will have to file 保険 距離-スコア関数 会社 に 対して 保険 日本語側距離 insurance an claim 英語側距離 整合性スコア(整合性尺度) 請求 の 申し立て が 可能です よ insurance with the office in Japan

目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論

アラインメント実験 • 毎日新聞対訳コーパスからランダムに 500文 • 正解データとの比較 – 日本語:文字単位  英語:単語単位 – 適合率・再現率・F値 • 対訳辞書 – 研究社 和英 36 アラインメント実験 • 毎日新聞対訳コーパスからランダムに 500文 • 正解データとの比較 – 日本語:文字単位  英語:単語単位 – 適合率・再現率・F値 • 対訳辞書 – 研究社 和英 36 K 見出し 214 K エントリー – 研究社 英和 50 K 見出し 303 K エントリー

精度の計算例 E 1 9 = 75% 適合率(P)= 12 E 3 E 4 9 再現率(R)= 精度の計算例 E 1 9 = 75% 適合率(P)= 12 E 3 E 4 9 再現率(R)= = 82% 11 E 5 E 6 E 7 E 8 E 9 J 1 J 2 J 3 J 4 J 5 J 6 J 7 J 8 J 9 F値=PとRの調和平均 = 78%

結果と考察 適合率 再現率 F値 ベースライン 60. 26 61. 68 58. 79 +距離-スコア関数改善 64. 35 結果と考察 適合率 再現率 F値 ベースライン 60. 26 61. 68 58. 79 +距離-スコア関数改善 64. 35 61. 58 60. 81 +係り受け距離 64. 93 62. 64 61. 91 GIZA++ (with JUMAN) 59. 9 17. 0 26. 4 • 距離-スコア関数改善により大幅な適合率向上 • 係り受け距離を考慮することにより全体的な精 度の向上

改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment. 改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment.

改善例(2) J:チェチェン紛争は、東欧諸国 の北大西洋条約機構への加盟 要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation 改善例(2) J:チェチェン紛争は、東欧諸国 の北大西洋条約機構への加盟 要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO

結論と今後の課題 • 係り受けタイプと距離-スコア関数を導入 • アラインメントの整合性尺度を定義し、適切な 対応候補の選択を可能とすることにより、アラ インメント精度の向上に成功 • 係り受けタイプに基づく距離を自動学習 • 距離スコア関数のチューニング • 他の有効なフィーチャの導入 結論と今後の課題 • 係り受けタイプと距離-スコア関数を導入 • アラインメントの整合性尺度を定義し、適切な 対応候補の選択を可能とすることにより、アラ インメント精度の向上に成功 • 係り受けタイプに基づく距離を自動学習 • 距離スコア関数のチューニング • 他の有効なフィーチャの導入