资料识别方法及装置、电子设备、存储介质制造方法及图纸

技术编号：25637848 阅读：15 留言：0更新日期：2020-09-15 21:30

本申请提供一种资料识别方法及装置、电子设备、存储介质，该方法包括：从文本中筛选出符合预设规则的句子，获得预设目标；通过命名实体识别和依存句法分析从预设目标的上下文提取预设目标的第一主语；将预设目标作为已构建的分类模型的输入，获得分类模型输出的预设目标的第二主语；根据第一主语和第二主语，得到预设目标的正确主语。从而可以从存在大量实体的文本中获取指定内容的主语，将该方法应用于观点提出者的识别时，可以提高观点提出者的识别准确率，扩展了系统功能。

全部详细技术资料下载

【技术实现步骤摘要】
资料识别方法及装置、电子设备、存储介质
本申请涉及数据处理
，特别涉及一种资料识别方法及装置、电子设备、计算机可读存储介质。
技术介绍
观点是实体提出的对某个实体或者某个实体的属性的看法，因此属于主观内容，即便是中立的情感，也是实体通过主观的判断给出的观点。观点抽取是指从原始的新闻文本中，识别表达任务观点的句子，并从中抽取出观点要素，如观点持有者、观点评价的对象、观点发表的时间、观点提出的地点以及观点持有者对评价对象的情感态度等，也就是说需要确定一篇文档中哪些是观点、哪些实体在什么时间和地点发表了这些观点，然后再进行观点内容的挖掘。目前观点抽取主要集中在确定表达观点的实体前提下，对评论性的语言进行内容的挖掘，抽取属性(例如酒店的服务、电脑的质量)、评价词和情感极性判断。实际上这个任务是真正的观点抽取的后续任务，可见，目前主要关注的是观点内容的挖掘，无法从存在大量实体的文本中确定表达观点的实体，导致系统功能受限。
技术实现思路
本申请实施例提供了资料识别方法，用以从存在大量实体的文本中获取指定内容的主语，扩展系统功能。本申请实施例提供了一种资料识别方法，包括：从文本中筛选出符合预设规则的句子，获得预设目标；通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语；将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语；根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。在一实施...

【技术保护点】
1.一种资料识别方法，其特征在于，包括：/n从文本中筛选出符合预设规则的句子，获得预设目标；/n通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语；/n将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语；/n根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。/n

【技术特征摘要】
1.一种资料识别方法，其特征在于，包括：
从文本中筛选出符合预设规则的句子，获得预设目标；
通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语；
将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语；
根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。

2.根据权利要求1所述的方法，其特征在于，所述预设目标为观点，所述从文本中筛选出符合预设规则的句子，获得预设目标，包括：
按照表达观点的标准句式，从所述文本中提取与所述标准句式匹配的句子。

3.根据权利要求2所述的方法，其特征在于，在所述按照表达观点的标准句式，从所述文本中提取与所述标准句式匹配的句子之后，所述方法还包括：
根据已构建的情感词库，对所述文本中剩余的句子进行扫描，筛选出包含所述情感词库中情感词的句子。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：
通过命名实体识别和规则判断，从所述文本中筛选出所述观点的提出地点。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：
根据已构建的时间词库，从所述文本中提取所述观点的相对提出时间；
根据所述文本的发布时间，对所述相对提出时间进行换算，获得所述观点的绝对提出时间。

6.根据权利要求2所述的方...

【专利技术属性】
技术研发人员：张发恩，姜勇越，
申请(专利权)人：创新奇智上海科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人