文本数据增强方法及知识元抽取方法技术

技术编号：26377586 阅读：39 留言：0更新日期：2020-11-19 23:46

本发明专利技术公开了一种文本数据增强方法及知识元抽取方法，其中所述文本数据增强方法包括自第一补充数据库和第二补充数据库中筛选相似文本的过程，其中所述第一补充数据库源自与基础数据集相近领域的知识库，所述第二补充数据库源自基础数据集中实体词语的同义词。本发明专利技术的数据增强方法可对来源较少的基础数据产生高效、大量的补充，基于该增强方法增强后的数据集完成训练的知识元抽取模型具有较高的泛化能力和抽取准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据增强方法及知识元抽取方法
本专利技术涉及自然语言处理的
，具体涉及知识元抽取技术。
技术介绍
随着互联网技术的快速发展，构建工业领域知识库可以更好的应用于领域智能问答以及智能决策，推动工业制造的智能化，而工业生产过程中本身会产生大量的电子文本信息，这些信息被分散在工人的维修诊断表、互联网社区、工厂数据库当中，如果能够将这些非结构化以及半结构化的电子文本信息构建成知识密度极高的知识库，可以大大提高领域知识的利用率。如何快速高效地对这些文本信息进行加工处理是自然语言处理领域关注的重点，其中特别以命名实体的识别最为关键。领域知识元实体的识别可从结构化以及半结构化的文本数据中抽取出重要的知识单元，这些知识单元通常是在特定领域最具有代表性的词语，在正确识别出实体后，即可进一步完成关系抽取、事件抽取以及知识库的构建。可以看出，命名实体识别效果的好坏直接影响到后续的信息抽取任务。现有的命名实体识别方法大致分为三类：基于规则和字典的方法、基于统计机器学习的方法和基于深度学习的方法。其中，基于规则和字典的学习方法...

【技术保护点】
1.一种文本数据增强方法，其特征在于：包括自第一补充数据库和第二补充数据库中筛选相似文本的过程，其中所述第一补充数据库源自与基础数据集相近领域的知识库，所述第二补充数据库源自基础数据集中实体词语的同义词。/n

【技术特征摘要】
1.一种文本数据增强方法，其特征在于：包括自第一补充数据库和第二补充数据库中筛选相似文本的过程，其中所述第一补充数据库源自与基础数据集相近领域的知识库，所述第二补充数据库源自基础数据集中实体词语的同义词。

2.根据权利要求1所述的数据增强方法，其特征在于：所述第一补充数据库通过其含有的实体词语经网页爬取获得，所述第二补充数据库通过其含有的实体词语的同义词经网页爬取获得。

3.根据权利要求1所述的数据增强方法，其特征在于：所述相似文本通过以下过程判定：
S51：将来自所述第一补充数据库中的短文本与来自第二补充数据库中的短文本进行分词和标注，计算其分离出的实体词语之间的词向量余弦相似度，即实体词语相似度；
S52：计算其分离出的实体词语之外的其他词语之间的词向量余弦相似度，将其中相似度大于阈值的同词性词语配对为重叠词语，计算重叠词语的在词性特征下的加权相似度，即重叠词语相似度；
S53：将所述实体词语相似度与所述重叠词语相似度进行加权平均，得到文本相似度；
对所述第一补充数据库和所述第二补充数据库中的文本进行针对文本相似度的迭代计算，每次迭代中所得文本相似度最大的两个文本为相似文本。

4.根据权利要求1所述的数据增强方法，...

【专利技术属性】
技术研发人员：程良伦，牛伟才，王德培，张伟文，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人