20050830-practice.ppt
- Количество слайдов: 53
JUMAN/KNPを用いた 形態素解析・構文解析 - 実習 - 黒橋禎夫 河原大輔 柴田知秀 東京大学 京都大学学術情報メディアセンター メディア情報処理専修コース「自然言語処理技術」 (2005/8/30)
目次 1. 2. 3. 4. 5. 6. 7. インストール確認 環境設定 JUMAN/KNPを使ってみよう JUMAN/KNPの辞書/ルールの説明(・カスタマイズ) 休憩 Perl超入門 JUMAN/KNPとPerlを用いたいろいろな頻度統計の 取り方
配布パッケージの内容 • C: juman-knp-20050830 – Install • juman-5. 1. exe, knp-2. 0. exe, Perl関連 – src (Perlスクリプト) • cut. pl, grep. pl, phrase. pl, sort. pl, uniq. pl – text (サンプルテキスト) • 料理:cook_small. txt, cook_middle. txt, cook_large. txt • Web:web_small. txt, web_middle. txt, web_large. txt – small: 1, 000文, middle: 5, 000文, large: 20, 000文
1. インストール確認 • 配布パッケージ – C: juman-knp-20050830 • JUMAN – C: Program Filesjuman • KNP – C: Program Filesknp • Perl(Active. Perl) • Perlモジュール
JUMAN/KNPの実行環境について • 開発環境のLinuxでは: – 入出力の文字コード:EUC – 辞書、ルールの文字コード:EUC • 本日の実習はWindows – 入出力の文字コード:SJIS – 辞書、ルールの文字コード:EUC • 来週リリースするバージョン – Linux: すべてEUC – Windows: すべてSJIS
2. 環境設定 • PATHの設定 – マイコンピュータを 右クリックしてプロ パティを選ぶ (Windows XPの場合)
2. 環境設定 • PATHの設定 – 詳細設定のタブを 選ぶ
2. 環境設定 • PATHの設定 – 環境変数を押す
2. 環境設定 • PATHの設定 – Pathをクリックして「 編集」をクリック
2. 環境設定 • PATHの設定 – Pathをクリックして「 編集」をクリック – 変数値の末尾に下 記の文字列を追加 する(元の文字列 を消さないよう、ま ず右矢印を押す) ; C: Program Filesjuman; C: Program Filesknp
3. 1 JUMANを使ってみよう • コマンド プロンプトを開く – スタート⇒すべてのプログラム⇒アクセサリ⇒ コマンド プロンプト
3. 1 JUMANを使ってみよう • コマンド プロンプトを開く
3. 1 JUMANを使ってみよう • jumanと打つ
3. 1 JUMANを使ってみよう • 環境設定ができていない場合
3. 1 JUMANを使ってみよう • 「夏休みも明日で最後です。」と入力 Tips Alt+半角/全角でIMEを立ち上げ 日本語を入力します
3. 1 JUMANを使ってみよう • 「夏休みも明日で最後です。」と入力 Tips この文は何回か使うので、コピーしておくと便利です ⇒右クリックし範囲指定を選び、範囲を指定したら リターンを押します
3. 1 JUMANを使ってみよう • コントロールZ リターン で終了
3. 1 JUMANを使ってみよう • 今度はjuman –B –e 2 Tips 直前のコマンドを表示するには 上矢印を押します
juman –B –e 2 フォーマット 表記 読み 原形 品詞 品詞細分類 意味情報 夏 なつ 夏 名詞 6 時相名詞 10 * 0 "漢字読み: 訓 代表表記: 夏" 休み やすみ 休む 動詞 2 * 0 子音動詞マ行 9 基本連用形 7 "代表表記: 休む" も も も 助詞 9 副助詞 2 * 0 NIL @ も も も 助詞 9 接続助詞 3 * 0 NIL 明日 あした 明日 名詞 6 時相名詞 10 * 0 "代表表記: 明日" @ 明日 あす 明日 名詞 6 時相名詞 10 * 0 "代表表記: 明日" で で で 助詞 9 格助詞 1 * 0 NIL 最後 さいご 最後 名詞 6 普通名詞 1 * 0 "代表表記: 最後" です です だ 判定詞 4 * 0 判定詞 25 デス列基本形 24 NIL 。 。 。 特殊 1 句点 1 * 0 NIL EOS 活用型 曖昧性のある形態素を表す 活用形
3. 2 KNPを使ってみよう • juman –B –e 2 | knp と打つ
3. 2 KNPを使ってみよう • juman –B –e 2 | knp –tab と打つ
knp –tab フォーマット 0番目の文節 係り先の文節番号 # S-ID: 1 KNP: 2005/08/30 * 2 D <文頭><モ><助詞><体言><係: 未格><並キ: 名: &ST: 2. 5&&モ><区切: 1 -4><RID: 1238><格要素>… 夏 なつ 夏 名詞 6 時相名詞 10 * 0 "漢字読み: 訓 代表表記: 夏" <漢字読み: 訓><代表表記: 夏><文頭>… 休み やすみ 休み 名詞 6 普通名詞 1 * 0 "代表表記: 休み" <代表表記: 休み><かな漢字>… も も も 助詞 9 副助詞 2 * 0 NIL <品曖><ALT-も-も-も-9 -3 -0 -0 -NIL><品曖-副助詞><品曖-その他>… * 2 D <時間><強時間><外の関係><モ~><デ><助詞><体言><係: デ格><区切: 0 -0><RID: 1200><格要素>… 明日 あした 明日 名詞 6 時相名詞 10 * 0 “代表表記: 明日” <代表表記: 明日><品曖>… で で で 助詞 9 格助詞 1 * 0 NIL <かな漢字><ひらがな><付属> * -1 D <文末><句点><体言><用言: 判><レベル: C><区切: 5 -5><ID: (文末)><RID: 112><提題受: 30> 最後 さいご 最後 名詞 6 普通名詞 1 * 0 "代表表記: 最後" <代表表記: 最後><漢字><かな漢字>… です です だ 判定詞 4 * 0 判定詞 25 デス列基本形 24 NIL <表現文末><かな漢字><ひらがな><活用語><付属> 。 。 。 特殊 1 句点 1 * 0 NIL <文末><英記号><付属> EOS 1番目の文節 2番目の文節
ファイルから入力する場合 • cd c: juman-knp-20050830text • juman –B –e 2 < cook_small. txt > cook_small. jmn • knp –tab < cook_small. jmn > cook_small. knp Tips ファイル・ディレクトリ名は Tabで補完できます
4. 1 JUMAN辞書の説明
コスト最小法 コスト=∑{(形態素コスト×形態素コスト重み) 1 (品詞コスト×見出し語コスト) 10~100 ~ 1.0~ +(連接コスト×連接コスト重み)} ~10~ から 文頭 40 読む 40 16 4 40 10 だ 11 か ら だ 100×1.6 40 40 文末
辞書・文法 文法辞書 形態素辞書 JUMAN. grammar (品詞分類) JUMAN. katuyou (活用) JUMAN. kankei (活用関係) JUMAN. connect. c(連接規則: 250) Content. W. dic など 自立語:3万語 付属語:1500語 固有名詞:3万語 コンパイル jumandic. tab (連接対応表) jumandic. mat (連接行列) jumandic. dat (データベース) jumandic. pat (インデックス)
Content. W. dic(形態素辞書) ・・・ (名詞 (普通名詞 ((読み からくさ)(見出し語 唐草 (から草 1. 6) (からくさ 1. 6))(意味情報 "代表表 記: 唐草")))) (名詞 (普通名詞 ((読み からくち)(見出し語 辛口 (から口 1. 6) (からくち 1. 6))(意味情報 "代表 表記: 辛口")))) (副詞 ((読み からくも)(見出し語 辛くも からくも)(意味情報 "代表表記: 辛くも"))) (名詞 (普通名詞 ((読み からくり)(見出し語 からくり)(意味情報 "代表表記: からくり")))) (動詞 ((読み からす)(見出し語 枯らす からす)(活用型 子音動詞サ行)(意味情報 "代表表記: 枯 らす"))) (名詞 (普通名詞 ((読み からす)(見出し語 烏 カラス (からす 1. 6))(意味情報 "代表表記: 烏")))) (名詞 (普通名詞 ((読み からだ)(見出し語 身体 体 (からだ 1. 6))(意味情報 "代表表記: 身体")))) (名詞 (普通名詞 ((読み からだつき)(見出し語 体付き 体付 体つき (からだつき 1. 6))(意味情報 "代表表記: 体付き")))) (名詞 (普通名詞 ((読み からっかぜ)(見出し語 空っ風 (からっかぜ 1. 6))(意味情報 "代表表記: 空っ風")))) (副詞 ((読み からっきし)(見出し語 からっきし)(意味情報 "代表表記: からっきし"))) ・・・
JUMAN. connect. c(連接規則辞書) ・・・ ((Bunsetsu. End. Sentence. End Bunsetsu. End (助詞 接続助詞 * * の)) ((名詞)) 4) ((Verb. Basic. Form IAdj. Basic. Form Na. Adj. All. Basic. Form Aux. Basic. Form Na. Adj. Guess. Form (* * * タ系推量形) (動詞 * * タ系連用テ形) (接尾辞 動詞性接尾辞 * タ系連用テ形)) ((助詞 接続助詞 * * から))) ・・・
4. 2 KNPルールの説明
処理の流れ 0. JUMAN –B –e 2 の出力を入力に 1. 同形異義語の処理(mrph_home. rule: 60) → 一意の形態素列に変換 2. 形態素へのfeature付与(mrph_basic. rule: 300) → 文節列に変換 3. 文節へのfeature付与(bnst_*. rule: 200, 650) 4. 並列構造解析 5. 係り受け解析(kakari_uke. rule: 40) 6. 格解析
ルールの例(bnst_type. rule) 「・・・ 30年も 前から ・・・」などを解析するためのルール ( ( ? * ) ← 前の文節列 ( < ( ? * [助詞 * * * も] ) ((時間)) > ) ← 自分自身 形態素列:「~も」 〈時間〉featureを持つ ( < ( [名詞 * * * (昔 前 先)] ? * ) > ? * ) ← 後ろの文節列 形態素列:「昔|前|先~」 係: 隣 ) ← 与えるfeature
係り受け解析 30年も 前に 言語と 画像を 研究していた 係:隣 係:二格 時間 kakari_uke. rule: 並キ:名 係:ヲ格 用言:動 表層格:ガ, ヲ 係:ヲ格 → 用言 表層格:ヲ 係:二格 → 用言 表層格:二 係:二格 時間 → 用言 係:隣 → * ・・・
JUMANのカスタマイズ • 辞書エントリの追加 – 例えば、「ジンギスカン」を追加する • まず、今の解析がどうなるかを確認する • C: Program Filesjumandic以下にusr. dicというファ イルを作り、以下の内容を記述する (名詞 (普通名詞 ((読み じんぎすかん) (見出し語 ジンギスカン じんぎすかん 成吉思汗)))) • C: Program Filesjumandicにあるmakedic. batを実 行する • 解析してみる
休憩
目次 1. 2. 3. 4. 5. 6. 7. インストール確認 環境設定 JUMAN/KNPを使ってみよう JUMAN/KNPの辞書/ルールの説明(・カスタマイズ) 休憩 Perl超入門 JUMAN/KNPとPerlを用いたいろいろな頻度統計の 取り方
6. Perl超入門 • Perlは言語処理に適したプログラミング言語 スチームコンベクションオーブン100℃で4分間 加熱する。 イラストやツクール素材など、自作ゲームも制作 しています。 海洋生物資源の有効利用 含芒硝石膏泉:無色透明、源泉約50℃ オレンジのビタミンCが風邪を予防してくれます。 活用の部屋戻る くっきもさん、お粗末様でございましたこの場合は おかしいですね : テキスト 636 、 597 の 583 に : 45 塩 42 料理 42 かける 39 味 38 など 37 梅 : 頻度つき単語リスト
6. Perl超入門 • まずはじめに以下のようなファイルをエディタ (メモ帳など)で作成 use encoding ”shiftjis”; print ”こんにちは。n”; 文字列を表示する関数 改行を表す記号 • C: juman-knp-20050830srctest. plに保存 • cd C: juman-knp-20050830src • コマンド プロンプトで、perl test. plを実行 おまじない
6. Perl超入門 • パターンにマッチする行を表示するプログラム (srcgrep. pl) use encoding ’shiftjis’; $ARGV[0] = Encode: : decode(’shiftjis’, $ARGV[0]); while (<STDIN>) { print if (/$ARGV[0]/); } 条件 1つ目の引数 「/…/」はパターンマッチを行う この行を追加してください
6. Perl超入門 • ソートするプログラム(srcsort. pl) baa … aa aa while (<STDIN>) { push(@buffer, $_); baa } cccc @. . . は配列 cccc aa aa 配列を逆順にする関数 if ($rflag) { print reverse sort @buffer; } else { print sort @buffer; ソートする関数 }
6. Perl超入門 • ソートされたファイルから重複行の行数を数える プログラム(srcuniq. pl) aa aa baa cccc use encoding ’shiftjis’; 2 $pre = <STDIN>; aa $count = 1; 1 baa while (<STDIN>) { if ($pre eq $_) { 1 cccc $count++; } else { printf ”%6 d $pre”, $count; $pre = $_; $count = 1; } } printf ”%6 d $pre”, $count;
6. Perl超入門 • 各行から指定したカラムを表示するプログラム (srccut. pl) 夏 なつ 夏 名詞 6 時相名詞 10 * 0 "漢字読み: 訓 代表表記: 夏" use encoding ’shiftjis’; 休み やすみ 休む 動詞 2 * 0 子音動詞マ行 9 基本連用形 7 "代表表記: 休む" も も も 助詞 9 if副助詞 2 * 0 =~ /^-(d+)$/ && $1 > 0) { ($ARGV[0] * 0 NIL 明日 あした 明日$cnum = $1 – 1; 10 * 0 "代表表記: 明日" 名詞 6 時相名詞 で で で 助詞 9 else { 1 * 0 NIL } 格助詞 最後 さいご 最後die “Usage: cut. pl 1 * 0 "代表表記: 最後" 名詞 6 普通名詞 –nn”; です です だ 判定詞 4 * 0 判定詞 25 デス列基本形 24 NIL } 。 。 。 特殊 1 句点 1 * 0 NIL 1行をスペースで分割する関数 EOS while (<STDIN>) { @data = split; print $data[$cnum], “n” if ($#data >= $cnum); }
6. Perl超入門 • 各行から指定したカラムを表示するプログラム (srccut. pl -3) 夏 なつ 夏 名詞 6 時相名詞 10 * 0 "漢字読み: 訓 代表表記: 夏" use encoding ’shiftjis’; 休み やすみ 休む 動詞 2 * 0 子音動詞マ行 9 基本連用形 7 "代表表記: 休む" も も も 助詞 9 if副助詞 2 * 0 =~ /^-(d+)$/ && $1 > 0) { ($ARGV[0] * 0 NIL 明日 あした 明日$cnum = $1 – 1; 10 * 0 "代表表記: 明日" 名詞 6 時相名詞 で で で 助詞 9 else { 1 * 0 NIL } 格助詞 最後 さいご 最後die “Usage: cut. pl 1 * 0 "代表表記: 最後" 名詞 6 普通名詞 –nn”; です です だ 判定詞 4 * 0 判定詞 25 デス列基本形 24 NIL } 。 。 。 特殊 1 句点 1 * 0 NIL 1行をスペースで分割する関数 EOS while (<STDIN>) { @data = split; print $data[$cnum], “n” if ($#data >= $cnum); }
6. Perl超入門 • 各行から指定したカラムを表示するプログラム (srccut. pl) use encoding ’shiftjis’; if ($ARGV[0] =~ /^-(d+)$/ && $1 > 0) { $cnum = $1 – 1; } else { die “Usage: cut. pl –nn”; } 1行をスペースで分割する関数 while (<STDIN>) { @data = split; print $data[$cnum], “n” if ($#data >= $cnum); }
目次 1. 2. 3. 4. 5. 6. 7. インストール確認 環境設定 JUMAN/KNPを使ってみよう JUMAN/KNPの辞書/ルールの説明(・カスタマイズ) 休憩 Perl超入門 JUMAN/KNPとPerlを用いたいろいろな頻度統計の 取り方
7. 1 単語の頻度を数える • cd c: juman-knp-20050830text • テキストの例としてcook_small. txtを用いる スチームコンベクションオーブン100℃で4分間加熱する。 イラストやツクール素材など、自作ゲームも制作しています。 海洋生物資源の有効利用 含芒硝石膏泉:無色透明、源泉約50℃ オレンジのビタミンCが風邪を予防してくれます。 活用の部屋戻る くっきもさん、お粗末様でございましたこの場合はおかしいですね、調理さ れたのはあなたですものね 甘さ辛さを味わいつくし、苦さも知った人生、その人の舌が、それを知るは ずだ。 :
7. 1 単語の頻度を数える • 形態素解析 juman –B –e 2 < cook_small. txt > cook_small. jmn • 単語の原形を抽出する perl. . srccut. pl -3 < cook_small. jmn | more 3つ目=原形を抽出 スチームコンベクションオーブ ン 100 ℃ で 4 分間 加熱 する 。
7. 1 単語の頻度を数える • 抽出した単語の頻度を数える perl. . srccut. pl -3 < cook_small. jmn | perl. . srcsort. pl | perl. . srcuniq. pl | perl. . srcsort. pl –r | more : ある ある ある : : 1 ありがとう 52 ある 1 あわせた 1 あわせて 1 あわせる 1 あわび 6 あん 1 あんしん 1 あんずる : 636 、 597 の 583 に : 45 塩 42 料理 42 かける 39 味 38 など 37 梅 :
srcphrase. pl • #!/usr/bin/perl 文節や係り受けを抽出するプログラム Ø 文節の抽出:phrase. pl -1 # UNIX系OSの環境で、標準入力からテキストを読みながら解析する場合は以下のようにする Ø 係り受けの抽出:phrase. pl -2 # use KNP; # 文節または係り受けを抽出するスクリプト # $KNP = new KNP; # while (<STDIN>) { # $result = $KNP->parse($_); # for my $bnst ($result->bnst) { #. . . • cook_large. knpでやってみる Ø perl. . srcphrase. pl -1 knpcook_large. knp > cook_large. dat 1 use KNP: : File; use encoding 'shiftjis'; Ø perl /-(1|2)$/ && -f $ARGV[1]) { -2 knpcook_large. knp >. . srcphrase. pl if ($ARGV[0] =~ $type cook_large. dat 2 = $1; # 解析済みファイルを読み込む $KNP = new KNP: : File($ARGV[1]) || die; } else { :
7. 2 文節の頻度を数える • 抽出した文節の頻度を数える perl. . srcsort. pl < cook_large. dat 1 | perl. . srcuniq. pl | perl. . srcsort. pl -r | more 1618 する 1001 入れる 518 加える 511 味 : 315 鍋 296 よい 292 料理 284 かける 269 炒める :
7. 3 係り受けの頻度を数える • 抽出した係り受けの頻度を数える perl. . srcsort. pl < cook_large. dat 2 | perl. . srcuniq. pl | perl. . srcsort. pl –r | more 188 最新の レシピ 188 レシピは NTTグルメページ 97 鍋に 入れる 77 1ヵ所に つく 59 皮を むく 59 みじん切りに する 57 火に かける 56 器に 盛る 53 大きさに 切る :
表現の検索 • 「切る」を検索 perl. . srcsort. pl < cook_large. dat 2 | perl. . srcuniq. pl | perl. . srcsort. pl –r | perl. . srcgrep. pl 切る | more 53 大きさに 切る 33 長さに 切る 31 一口大に 切る 29 半分に 切る 16 水気を 切る 12 薄く 切る 11 縦半分に 切る 10 棒状に 切る 10 切り 切る :
表現の検索 • 「を 切る」を検索 perl. . srcsort. pl < cook_large. dat 2 | perl. . srcuniq. pl | perl. . srcsort. pl –r | perl. . srcgrep. pl ”を 切る” | more 16 水気を 切る 7 水を 切る 5 部分を 切る 4 材料を 切る 3 香味野菜を 切る 3 豚肉を 切る 3 油を 切る 2 茎を 切る :
試してみよう • 別のテキストでやってみる • 自分の知りたい表現を検索してみる
20050830-practice.ppt