Скачать презентацию 语义实体识别 大纲 动机 语义实体 Скачать презентацию 语义实体识别 大纲 动机 语义实体

1ca847e78d78db855d135f59df01f6e7.ppt

  • Количество слайдов: 37

语义实体识别 语义实体识别

大纲 • • • 动机 语义实体 相关概念 两类特征 序列标注模型 试验 大纲 • • • 动机 语义实体 相关概念 两类特征 序列标注模型 试验

动机 • 传统文本挖掘的第一步就是分“词” • 分词粒度对不同web应用的影响 搜索应用对分词粒度不敏感 • 语义分析要求具有特定含义的词语组合不能被分 开,比如: • 小沈阳 • 甲型H 1 动机 • 传统文本挖掘的第一步就是分“词” • 分词粒度对不同web应用的影响 搜索应用对分词粒度不敏感 • 语义分析要求具有特定含义的词语组合不能被分 开,比如: • 小沈阳 • 甲型H 1 N 1流感 • 女性车厢 • 云锦袈裟 • 公交自燃 • 绿坝花季护航

语义实体 • 语义实体:web文档中描述现实世界中确切对象 名称的词语组合。 person(释永信,周跑跑, 西单天使,大S) location(上海市普陀区) organization(华师大) product(OPPO手机) event(公交自燃) Common object(云锦袈裟,救生锤) Abstract concept(新农村,甲型H 语义实体 • 语义实体:web文档中描述现实世界中确切对象 名称的词语组合。 person(释永信,周跑跑, 西单天使,大S) location(上海市普陀区) organization(华师大) product(OPPO手机) event(公交自燃) Common object(云锦袈裟,救生锤) Abstract concept(新农村,甲型H 1 N 1流感)

语义实体相关概念 • 命名实体(MUC, TREC, CONLL, ACE, SIGHAN) – 人名,地名,机构名,日期,时间,数值, 百分比 • 区别 – 传统命名实体类别有限,本文定义的语义实 语义实体相关概念 • 命名实体(MUC, TREC, CONLL, ACE, SIGHAN) – 人名,地名,机构名,日期,时间,数值, 百分比 • 区别 – 传统命名实体类别有限,本文定义的语义实 体不限制其类型。

语义实体相关概念 • 方法区别 – 传统命名实体识别方法主要使用CRF模型,本 文将CRF模型的输出作为特征之一,结合语言 无关的统计特征,使用SVM进行训练。 语义实体相关概念 • 方法区别 – 传统命名实体识别方法主要使用CRF模型,本 文将CRF模型的输出作为特征之一,结合语言 无关的统计特征,使用SVM进行训练。

语义实体的两类特征 • 语义实体上下文特征 语义实体本身的文本内容,以及周围的文本内容蕴含了大量提示信息 • 语义实体的统计特征 语义实体多次在不同的上下文出现 语义实体的两类特征 • 语义实体上下文特征 语义实体本身的文本内容,以及周围的文本内容蕴含了大量提示信息 • 语义实体的统计特征 语义实体多次在不同的上下文出现

实体上下文特征 • 广东省交通厅展开了修复 作。据广东省交通厅 副总 程师左智飞介绍,修复 程主要由两部分 组成:即受损梁体拆除及南主桥重建,其中在南 主桥重建过程中,采用了2×100米独塔组合梁 斜拉桥作为重建桥桥型方案。 • 通过序列标注模型获得实体上下文特征度量 实体上下文特征 • 广东省交通厅展开了修复 作。据广东省交通厅 副总 程师左智飞介绍,修复 程主要由两部分 组成:即受损梁体拆除及南主桥重建,其中在南 主桥重建过程中,采用了2×100米独塔组合梁 斜拉桥作为重建桥桥型方案。 • 通过序列标注模型获得实体上下文特征度量

序列标注模型 • X={x 1, x 2, x 3, …. , xn}为观察到的序列 • Y={y 1, 序列标注模型 • X={x 1, x 2, x 3, …. , xn}为观察到的序列 • Y={y 1, y 2, y 3, …. , yn}为针对X的标注序列 X x 1 x 2 x 3 x 4 x 5 x 6 x 7 Observed sequence 史 玉 柱 当年 就是 高考 状元 Y y 1 y 2 y 3 y 4 y 5 y 6 y 7 Labeled sequence B M E O O B E B M E分别代表实体三个组成部分,即开始部分,中间部分,末尾部分 O表示不是实体的任何组成部分

序列标注模型 • Training Data Set {[X(1), Y(1)], [X(2), Y(2)], [X(3), Y(3)], …, [X(n), Y(n)]} 序列标注模型 • Training Data Set {[X(1), Y(1)], [X(2), Y(2)], [X(3), Y(3)], …, [X(n), Y(n)]} Build a model to predict Y given X Y*=argmax P(Y*/X) • 经典序列标注模型 • HMM • MEMM • CRF

Generative Models(HMM) • HMM对联合概率P(X, Y)建模。 • 通过两个假设求P(X, Y) 假设 1:当前状态仅与前一个状态有关 假设 2:当前的观察仅与当前状态有关 Generative Models(HMM) • HMM对联合概率P(X, Y)建模。 • 通过两个假设求P(X, Y) 假设 1:当前状态仅与前一个状态有关 假设 2:当前的观察仅与当前状态有关

HMMM模型的参数 参数 含义 实例 N 标注的数目 BMEO M 观察的词语数目 A 标注之间的转移概率 史,高考,…… P(y 2=M/y HMMM模型的参数 参数 含义 实例 N 标注的数目 BMEO M 观察的词语数目 A 标注之间的转移概率 史,高考,…… P(y 2=M/y 1=B) B 给定标注下,观察到的词 语的概率分布 P(x 1=史/y 1=B) p 初始标注的概率分布 P(y 1)

参数估计 • 给定训练集 {[X(1), Y(1)], [X(2), Y(2)], [X(3), Y(3)], …, [X(n), Y(n)]} • 如何调整模型参数A, 参数估计 • 给定训练集 {[X(1), Y(1)], [X(2), Y(2)], [X(3), Y(3)], …, [X(n), Y(n)]} • 如何调整模型参数A, B, p, 使得 最大

推理 • 给定观察序列X=x 1, x 2, …x. T以及参数A, B, p, 如何选择一个对应的状态序列Y= y 1, y 推理 • 给定观察序列X=x 1, x 2, …x. T以及参数A, B, p, 如何选择一个对应的状态序列Y= y 1, y 2, …y. T,使 得Y能够最为合理的解释观察序列X?

HMM的缺点 Y 1 Y 2 … … … Yn X 1 X 2 … HMM的缺点 Y 1 Y 2 … … … Yn X 1 X 2 … … … Xn • HMM的两个假设在很多情况下都不成立 在很多情况下,当前状态可能依赖于整个观察序列。 • 我们需要的是P(Y|X),可是HMM优化的目标是P(X)

Conditional Random Field • 直接对条件概率P(Y/X)进行建模 • 线性CRF的假设:当前状态yj依赖于前面的 状态yj-1和整个观察序列X • 对当前状态yj,前面的状态yj-1,整个观察序 列X的依赖关系,通过特征函数fi(yj-1, yj, x)刻 画。 Conditional Random Field • 直接对条件概率P(Y/X)进行建模 • 线性CRF的假设:当前状态yj依赖于前面的 状态yj-1和整个观察序列X • 对当前状态yj,前面的状态yj-1,整个观察序 列X的依赖关系,通过特征函数fi(yj-1, yj, x)刻 画。

特征函数 1 yj-1=B, yj=E, xj-1=‘李’, xj=‘明’ f 1(yj-1, yj, x) 0 1 yj-1=B, yj=M, 特征函数 1 yj-1=B, yj=E, xj-1=‘李’, xj=‘明’ f 1(yj-1, yj, x) 0 1 yj-1=B, yj=M, xj-1=‘上海’, xj+1=‘公司’ f 2(yj-1, yj, x) 0

特征函数 m个特征函数 yj,yj-1,X的依赖关系 Y,X的依赖关系 特征函数 m个特征函数 yj,yj-1,X的依赖关系 Y,X的依赖关系

特征函数 归一化 特征函数 归一化

训练 • Maximum likelihood 训练 • Maximum likelihood

推理 1 1 1 … 1 2 2 2 … … … K K 推理 1 1 1 … 1 2 2 2 … … … K K K … … K x 1 x 2 x 3…………. . xn Y*=argmax P(Y*/X) http: //en. wikipedia. org/wiki/Forward-backward_algorithm http: //en. wikipedia. org/wiki/Viterbi_algorithm

Forward-backward algorithm 1 2 1 2 … … … K K K … … Forward-backward algorithm 1 2 1 2 … … … K K K … … 1 2 … K … x 1 x 2 x 3…………. . xn αt(i)表示从位置 1到位置t,并且位置t的状态为i的所有路径概率之和。 βt(i)表示从位置n到位置t,并且位置t的状态为i的所有路径概率之和。 所有路径概率之和:

边缘概率 • 在位置j标注为B的边缘概率P(yj=‘B’/X) • 在位置j+k标注为E的边缘概率P(yj+k=‘E’/X) 边缘概率 • 在位置j标注为B的边缘概率P(yj=‘B’/X) • 在位置j+k标注为E的边缘概率P(yj+k=‘E’/X)

HMM vs CRF HMM vs CRF

统计特征 Mi越高说明ab越相关,越 可能成为实体 • 1)语义实体的内部紧密性 • 2)语义实体的上下文独立性(Accessor Variety) AV(ab)=min(|XL|, |XR|) 其中XL ={x|xab为文档中的连续汉字串} 其中XR ={x|abx为文档中的连续汉字串} 统计特征 Mi越高说明ab越相关,越 可能成为实体 • 1)语义实体的内部紧密性 • 2)语义实体的上下文独立性(Accessor Variety) AV(ab)=min(|XL|, |XR|) 其中XL ={x|xab为文档中的连续汉字串} 其中XR ={x|abx为文档中的连续汉字串} |XL|, |XR|分别为集合XL, XR包含的元素个数 AV值越高说明ab上 下文独立性越强,越 可能成为实体

 • 新华 网 北京 6 月 8 日 电 ( 记者 周 婷 • 新华 网 北京 6 月 8 日 电 ( 记者 周 婷 玉 ) 作为 我国 内地 唯一 具备 大 流行 流感 疫苗 生产 资质 的 企业 , 北京 科 兴 生物制品 有限公司 8 日 拿到 来自 美国 CDC 的 甲型 H 1 N 1 流感 疫苗 生产 用 毒 株 , 这 意味着 我国 甲型 H 1 N 1 流感 疫 苗 “ 盼 尔 来 福 ” 的 批量生产 正式 启动 。 记者 8 日 从 卫生部 获悉 , 由 美国 疾病 预防 控制 中心 和 英国 生物制品 检定 所 提供 的 , 为 世界 卫生组织 认定 的 甲型 H 1 N 1 流感 疫苗 毒 株 8 日 下午 相继 运 送到 京 , 这些 疫苗 毒 株 被 立即 发往 相关 疫苗 生产 企业 。 此前 , 英国 生物制品 检定 所 提供 的 疫苗 毒 株 分别 于 6 月 3 日 和 6 月 5 日 运往 华 兰 生物 程 股份有限公司 和 大连 雅 立 峰 生 物 制药 有限公司 。 北京 科 兴 公司 总经理 尹 卫 东 介绍 说 , 在 国家 应对 甲型 H 1 N 1 流感 联防 联 控 保障 组 以及 海关总署 和 国家 质检 总局 等 部门 的 大力 支 持下 , 来自 美国 CDC 的 甲型 H 1 N 1 流感 疫苗 生产 用 毒 株 NYMCX-179 A 于 8 日 晚 送 抵 北京 科 兴 。 北京 科 兴 拿到 毒 株 后 迅速 启动 毒 株 种子 批 制备 作 。 据了解 , 单 批 疫苗 生产 需 经历 病毒 接种 、 病毒 培养 、 病毒 灭 活 、 纯化 、 配比 、 分 包装 及 批 签发 等 步骤 才能 最终 投入 使用 。 为 达到 疫苗 的 保护 效果 , 并 节省 抗原 , 北京 科 兴 这次 甲型 H 1 N 1 流感 疫苗 采 用了 佐 剂 疫苗 的 生产 艺 。 顺利 的 话 第 一批 疫苗 将 在 7 月底 生产 出来 。 北京 科 兴 现有 大 流行 流感 疫苗 生产线 的 设计 年生产能力 为 2000 万 至 3000 万 支 , 是 我国 内地 唯一 具备 大 流行 流感 疫苗 生产 资质 的 企业 。 由于 大 流行 流感 疫苗 的 需求量 巨大 , 北京 科 兴 的 产能 难以 完全 满足 国家 和 公众 的 需求 。 为 给 尽可能 多 的 人群 提供 保护 , 北京 科 兴 决定 与 国内 几家 季节性 流感 疫 苗 生产 厂家 结成 联盟 , 把 北京 科 兴 从 2004 年 以来 开展 的 相关 研究所 形成 的 大 流行 流感 疫苗 生产 关键 技术 与 合 作者 分享 , 共同 承担 疫苗 “ 盼 尔 来 福 ” 的 生产 。 尹 卫 东 告诉 记者 , “ 盼 尔 来 福 ” 的 生产 和 检定 将 严格 按 照 国家 食品 药品 监管 局 批准 的 《 大 流行 流感 病毒 灭 活 疫苗 制造 及 检定 规程 》 进行 。 国家 食品 药品 监管 局 也 已 及时 出台 《 大 流行 流感 疫苗 特别 审批 应急 作 方案 》 , 使 疫苗 合作 生产 有法可依 , 保证 疫苗 的 生 产科学 、 依法 、 有序 、 高效 地 进行 , 保证 疫苗 使用 的 安全性 。 2004 年 , 北京 科 兴 与 中国 疾病 预防 控制 中心 合作 , 在 科技 部 、 卫生部 的 支持下 开始 大 流 行 流感 原型 疫苗 的 研究 , 并在 国家 发展 改革 委 的 支持下 建设 了 一条 全新 的 自动化 分 包装 线 。 2008 年 这一 疫苗 成功 完成 临床 研究 并 获 国家 食品 药 品 监管 局 颁发 的 生产 批件 。 北京 科 兴 公司 一直 致力于 人用 疫苗 及 相关 产 品 的 研发 、 生产 及 销售 。 目前 上市 产品 包括 甲型 肝 灭 活 疫苗 “ 孩 尔 来 福 ” , 甲 乙型 肝炎 联合 疫苗 “ 倍 尔 来 福 ” 等 。

统计特征 • 甲型H 1 N 1流感疫苗 av=3 • 国家食品药品监管局 av=3 • 甲型H 1 N 统计特征 • 甲型H 1 N 1流感疫苗 av=3 • 国家食品药品监管局 av=3 • 甲型H 1 N 1流感疫苗 mi=0. 0962 • 国家食品药品监管局 mi=0. 1875

统计特征 (3) IDF(Inverse document frequence) N: 文档总数 dfi :包含单词 ti 的文档数 idfi = log 统计特征 (3) IDF(Inverse document frequence) N: 文档总数 dfi :包含单词 ti 的文档数 idfi = log (N/dfi) 语义实体周围通常有大量低idf值的词语 不但 是 满文军 ,所有 明星 们 都 不必 对 老百姓 道歉 广州、武汉、杭州、南京 等 多个 城市 的 水幕电影 都是 宜兴 人 “ 造 ” 出来 的 取证难是高空抛物的第一大难题,有90%多的高空抛物事件找不到肇事者,根 据《民法通则》的有关规定,对高空坠物(包括乱扔东西)导致他人受损害的案 件,庭审将实行“举证倒置”。

的 2. 282223610840561 在 2. 984607091520017 和 3. 0261431167739294 是 3. 4095322731828936 了 3. 的 2. 282223610840561 在 2. 984607091520017 和 3. 0261431167739294 是 3. 4095322731828936 了 3. 5045149956901813 年 3. 7774996834197982 月 3. 8359578839063926 为 3. 892722906710583 日 3. 9269296621121192 对 3. 969967173792101 与 4. 039233232003877 等 4. 109251218906073 中 4. 15420260676834 发展 4. 179815182625067 有 4. 225661570750485 也 4. 250662872955902 国家 4. 302622611886613 这 4. 321465699688093 以 4. 329651284274533 作 4. 346226249368745 记者 4. 346226249368745 中国 4. 357430848381608 他 4. 391818190691084 说 4. 418407644880324 地 4. 4214061478765805 经济 4. 4214061478765805 从 4. 4274302624799615 将 4. 43653502947288 新 4. 4612276420632515 要 4. 502700890269827 一个 4. 519121620482155 我们 4. 570066422097403 就 4. 584101740213787 而 4. 594759034687774 IDF特征 鹿儿岛 10. 229548637857024 鹿特丹 10. 229548637857024 麦当劳 10. 229548637857024 麦苗 10. 229548637857024 麻省 10. 229548637857024 麻袋 10. 229548637857024 黄埔 10. 229548637857024 黄山 10. 229548637857024 黄昏 10. 229548637857024 黄河流域 10. 229548637857024 黄浦 10. 229548637857024 黄牛 10. 229548637857024 黄玉 10. 229548637857024 黎族 10. 229548637857024 黑了 10. 229548637857024 黑人 10. 229548637857024 黑暗 10. 229548637857024 黑洞 10. 229548637857024 黑白 10. 229548637857024 黑马 10. 229548637857024 黔东南 10. 229548637857024 黔江 10. 229548637857024 默默无闻 10. 229548637857024 鼓劲 10. 229548637857024 鼓掌 10. 229548637857024 鼓楼 10. 229548637857024 鼓浪屿 10. 229548637857024 鼓鼓 10. 229548637857024 齐家治国 10. 229548637857024 齐心 10. 229548637857024 龃龉 10. 229548637857024 龙舞 10. 229548637857024 龙门 10. 229548637857024

统计特征 • (4) X=xa…by EL(x) x为实体左边单词的概率 EH(a) a为实体头单词的概率 EE(b) b为实体尾单词的概率 ER(y) y为实体右边单词的概率 统计特征 • (4) X=xa…by EL(x) x为实体左边单词的概率 EH(a) a为实体头单词的概率 EE(b) b为实体尾单词的概率 ER(y) y为实体右边单词的概率

统计特征有用吗? • 嵌套语义实体 小沈阳 西单天使 黄光裕案 Proctor and Gamble Intel and IBM Land of 统计特征有用吗? • 嵌套语义实体 小沈阳 西单天使 黄光裕案 Proctor and Gamble Intel and IBM Land of the Lost • 弱文本特征的语义实体 女性车厢 大S/飞人/飞侠 绿坝-花季护航 小沈阳这个名字是他随了舞台上他的搭档——“四舅母”、“老婶”也 是生活中他的媳妇的名,而且这个名小沈阳和妻子沈春阳字的由来 还有一段故事。19岁那年,学完了三年二人转他就去长春准备寻 找个搭档。当时经别人介绍,说这丫头唱得不错,小沈阳当机立断 就跟沈春阳组了一副架,而且名字还为了配合她改了。她叫沈春阳, 当时改叫沈阳,后来觉得没特点就又改叫小沈阳了。改名时,小沈 阳和沈春阳还没好上呢,是唱了三四年后才有的感情。不过后来团 里的演员都说小沈阳有心眼,用个名换个老婆。小沈阳倒觉得没啥 大不了的,随过去就随过去呗。小沈阳的女儿很可爱了,看到他累 了,她会用不太灵光的话跟我说:“爸爸,加油!”有时好几天看不 见爸爸,还问他“这是为什么呢?”虽然她吐字还不太清楚,可是看 到她,小沈阳的累呀,委屈呀就都没了。 有些语言没有大写特 征,比如德语 上下文特征将”沈阳” 识别为地名实体 在大量不同上下文中频繁出现,具 有较强的统计特征

特征向量 • X=xixi+1…xi+k P(yi=‘B’/xixi+1…xi+k) xi为语义实体头的概率 P(yi+k=‘E’/xixi+1…xi+k) xi+k为语义实体尾的概率 AV(xixi+1…xi+k) MI(xixi+1…xi+k) IDF(xi-1) 实体X前一个词语的IDF IDF(xi+k+1) 实体X前一个词语的IDF LEN(xixi+1…xi+k) 特征向量 • X=xixi+1…xi+k P(yi=‘B’/xixi+1…xi+k) xi为语义实体头的概率 P(yi+k=‘E’/xixi+1…xi+k) xi+k为语义实体尾的概率 AV(xixi+1…xi+k) MI(xixi+1…xi+k) IDF(xi-1) 实体X前一个词语的IDF IDF(xi+k+1) 实体X前一个词语的IDF LEN(xixi+1…xi+k) EL(xi-1) EH(xi) EE(xi+K) ER(xi+K+1)

试验数据 • • • 数据:人民日报 1998. 1 人名总数: 8834 将数据分成三份A, B, C 1. A+B 试验数据 • • • 数据:人民日报 1998. 1 人名总数: 8834 将数据分成三份A, B, C 1. A+B 训练出CRF模型 2. 利用A训练出crf,预测B,得到B中实体的边缘 概率,利用B中实体的统计特征,训练出SVM 模型 试验目的:CRF+统计特征>CRF

试验环境 • 具:CRF++ , LIBSVM • 5 -fold cross validation • Grid. py 寻找训练参数 试验环境 • 具:CRF++ , LIBSVM • 5 -fold cross validation • Grid. py 寻找训练参数

曲线crf: 仅仅通过conditional random field获得的性能 曲线crf+mi+av+idf+EL+EH+EE+ER+SVM: 由各种统计特征和CRF输出 的边缘概率作为特征向量,通过SVM分类器获得的性能 曲线crf: 仅仅通过conditional random field获得的性能 曲线crf+mi+av+idf+EL+EH+EE+ER+SVM: 由各种统计特征和CRF输出 的边缘概率作为特征向量,通过SVM分类器获得的性能

下一步 作 • 跨语料 • 其他语言 • 增加语义实体类型 下一步 作 • 跨语料 • 其他语言 • 增加语义实体类型