一种面向对话文本的事件抽取方法及系统技术方案

技术编号：28500650 阅读：40 留言：0更新日期：2021-05-19 22:43

本发明专利技术涉及一种面向对话文本的事件抽取方法及系统，其方法包括：步骤S1：周期性获取对话文本集；步骤S2：对对话文本集进行两次过滤，得到事件相关对话文本集；步骤S3：创建事件模板，在事件相关对话文本集中，根据事件模板，并通过事件模板中的触发词进行事件类别划分，得到候选事件；对候选事件进行事件元素进行识别，实现从对话文本集的事件抽取。本发明专利技术提供的一种面向对话文本的事件抽取方法及系统，基于模式识别与机器学习方法相结合进行事件抽取，节约事件模板编制成本，降低数据稀疏性，提高事件抽取准确率。高事件抽取准确率。高事件抽取准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向对话文本的事件抽取方法及系统

[0001]本专利技术属于文本识别与机器学习领域，特别涉及了一种面向对话文本的事件抽取方法及系统。

技术介绍

[0002]事件抽取即从非结构化文本中抽取事件信息，具体抽取事件触发词、人物、地点等在内的事件组成要素等，并最终呈现为结构化文本。事件抽取作为信息抽取领域的重要研究方向之一，在舆情分析、信息检索等领域被广泛应用。
[0003]事件抽取常采用以下两种方法：基于模式识别的事件抽取方法及基于机器学习的事件抽取方法。基于模式识别的事件抽取方法是利用模式匹配算法对句子和模板进行匹配，实现事件的识别和抽取。模式匹配由模式获取和事件抽取两部分组成，其中，专家学者长期以来致力于研究模式获取算法，并推出PALKA、AutoSlog
‑
TS、TIMES等模式学习系统。该方法事件抽取的准确率较高，但其弊端在于对特定语言、领域以及文本格式依赖程度高，可移植性差，编制过程耗时长。
[0004]基于机器学习的事件抽取方法核心在于对文本进行特征选择及构造二元或者多元分类器，通过分类的方式识别事件类别及事件元素。根据不同数据源驱动将事件抽取分为事件元素驱动、触发词驱动以及事件实例驱动。事件元素驱动引入最大熵分类器，实现事件元素的识别工作；触发词驱动旨在判断句子中包含的词语是否为触发词，利用多分类器对实例进行训练；事件实例驱动分别对事件实例以及非事件实例的特征进行分析，构造二元分类器将文本中的非事件句子剔除，并采用多知识融合表示候选事件实例。该方法的弊端在于会受语料库规模...

【技术保护点】

【技术特征摘要】
1.一种面向对话文本的事件抽取方法，其特征在于，包括：步骤S1：周期性获取对话文本集；步骤S2：对所述对话文本集进行两次过滤，得到事件相关的对话文本集；步骤S3：创建事件模板，在所述事件相关的对话文本集中，根据所述事件模板，并通过所述事件模板中的触发词进行事件类别划分，得到候选事件；对所述候选事件进行事件元素进行识别，实现从所述对话文本集的事件抽取。2.根据权利要求1所述的一种面向对话文本的事件抽取方法，其特征在于，所述步骤S1：周期性获取对话文本集，包括：周期性地从各个开放社区互动平台，获取所述对话文本集。3.根据权利要求1所述的一种面向对话文本的事件抽取方法，其特征在于，所述步骤S2：对所述对话文本集进行两次过滤，得到事件相关的对话文本集，包括：步骤S21：对所述对话文本集进行第一次过滤，并将其中字符数小于预设字符数的文本删除，得到初滤对话文本集；步骤S22：基于SVM二分类模型，对所述初滤对话文本集进行第二次过滤，删除事件不相关对话文本，得到事件相关的对话文本集。4.根据权利要求3所述的一种面向对话文本的事件抽取方法，其特征在于，所述步骤S21：对所述对话文本集进行第一次过滤，并将其中字符数小于预设字符数的文本删除，得到初滤对话文本集，包括：步骤S211：建立无意义对话文本库；步骤S212：根据所述无意义对话文本库，将所述对话文本集中字符数小于预设字符数的所述对话文本删除，得到所述初滤对话文本集。5.根据权利要求3所述的一种面向对话文本的事件抽取方法，其特征在于，所述步...

【专利技术属性】
技术研发人员：林海伦，刘璐，刘建坤，周永彬，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人