文本数据增强方法及知识元抽取方法技术

技术编号:26377586 阅读:21 留言:0更新日期:2020-11-19 23:46
本发明专利技术公开了一种文本数据增强方法及知识元抽取方法,其中所述文本数据增强方法包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。本发明专利技术的数据增强方法可对来源较少的基础数据产生高效、大量的补充,基于该增强方法增强后的数据集完成训练的知识元抽取模型具有较高的泛化能力和抽取准确性。

【技术实现步骤摘要】
文本数据增强方法及知识元抽取方法
本专利技术涉及自然语言处理的
,具体涉及知识元抽取技术。
技术介绍
随着互联网技术的快速发展,构建工业领域知识库可以更好的应用于领域智能问答以及智能决策,推动工业制造的智能化,而工业生产过程中本身会产生大量的电子文本信息,这些信息被分散在工人的维修诊断表、互联网社区、工厂数据库当中,如果能够将这些非结构化以及半结构化的电子文本信息构建成知识密度极高的知识库,可以大大提高领域知识的利用率。如何快速高效地对这些文本信息进行加工处理是自然语言处理领域关注的重点,其中特别以命名实体的识别最为关键。领域知识元实体的识别可从结构化以及半结构化的文本数据中抽取出重要的知识单元,这些知识单元通常是在特定领域最具有代表性的词语,在正确识别出实体后,即可进一步完成关系抽取、事件抽取以及知识库的构建。可以看出,命名实体识别效果的好坏直接影响到后续的信息抽取任务。现有的命名实体识别方法大致分为三类:基于规则和字典的方法、基于统计机器学习的方法和基于深度学习的方法。其中,基于规则和字典的学习方法由于要制定大量的规则和字典,需要庞大的人力标注,同时受限于专业知识的限制,某些领域只有专家才能进行规则和字典的制定,往往识别的成本大,效率低;基于统计机器学习的方法主要包括隐马尔可夫模型、最大熵模型、支持向量机以及条件随机场模型,其识别效果主要依赖于模型所选取的各种特征组合,例如单词的词性特征、位置特征、上下文特征等,需要通过大规模的训练语料来进行实体识别;基于深度学习的实体识别技术是目前最主流的方法,首先使用预先训练好的词向量作为神经网络的输入,然后通过神经网络层对文本进行语义上的提取,将提取的句子特征经过一个全局归一化函数(Softmax)层或者条件随机场就可以预测每个单词的标签。虽然深度学习在命名实体识别技术上的识别效果远好于统计机器学习和基于规则的方法,但其模型预测能力及泛化能力的实现需要足够多的高质量标记数据集作为支撑,否则会出现过拟合的情况,很难获得预期的识别准确率,而工业领域往往缺乏足够的标注数据集来优化训练模型的参数。
技术实现思路
本专利技术的目的在于提出一种可对文本数据进行增强的方法,其可对来源较少的基础数据产生高效、大量的补充,同时可克服因补充数据与基础数据过于接近带来的模型准确率的问题,显著提升了模型的泛化能力和抽取准确性。本专利技术的目的还在于提出一种基于增强后的文本数据,获得准确的知识元抽取的方法。本专利技术首先公开了如下的技术方案:一种文本数据增强方法,其包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。上述方案中所述实体词语是指的表示实体的词语。所述基础数据集是指的含有一定文本数据、需要进行数据增强的数据集,优选为完成标注后的数据集。所述相近领域是指的在产品、功能、工艺过程等方面存在实体词语相同或相似的领域。如电网电力领域和电子器件领域。其体现如,电网领域的三相变压器在电子器件领域的音箱电子产品中会以环形变压器的名字出现。或如无机非金属材料内的陶瓷生产领域和耐火材料领域。其体现如,陶瓷生产过程所需要的莫来石原料,在耐火材料中被称作蓝晶石、富铝红柱石或硅线石等。而基于莫来石的一系列莫来石化反应在这两个领域内也存在过程相同,当名称不同的情况。通过扩充包含这种相近领域内的实体的语料信息一方面可以提高该实体词语的数据量,另一方面也可以提高模型的泛化能力。这种相近领域的知识库可来自互联网、原料的配方单或者工人操作手册中等。可以理解的是,第一补充数据库和第二补充数据库中的数据应表现为文本的形式。在一些具体实施方式中,所述第一补充数据库通过其含有的实体词语经网页爬取获得,且所述第二补充数据库通过其含有的实体词语的同义词经网页爬取获得。该实施方式中的网页优选为知识性内容较多的网页,如维基百科。在一些具体实施方式中,所述相似文本通过以下过程判定:S51:将来自所述第一补充数据库中的短文本与来自第二补充数据库中的短文本进行分词和标注,计算其分离出的实体词语之间的词向量余弦相似度,即实体词语相似度。S52:计算其分离出的实体词语之外的其他词语之间的词向量余弦相似度,将其中相似度大于阈值的同词性词语配对为重叠词语,计算重叠词语的在词性特征下的加权相似度,即重叠词语相似度。优选的,S52中所述阈值设置为0.5,即相似度大于0.5的词语为重叠词语。S53:将所述实体词语相似度与所述重叠词语相似度进行加权平均,得到文本相似度。对所述第一补充数据库和所述第二补充数据库中的文本进行针对文本相似度的迭代计算,每次迭代中所得文本相似度最大的两个文本为相似文本。在一些具体实施方式中,所述同义词通过同义词裂变获得,所述同义词裂变包括:自语料中获取与基础数据集中的实体词语具有词向量余弦相似的词语,即该实体词语的同义词。在一些具体实施方式中,每次裂变的同义词数量设置为1-4,优选为3。在一些具体实施方式中,所述词向量通过Word2Vec模型转换获得。在一些具体实施方式中,所述同义词裂变通过Word2Vec模型实现。所用Word2Vec模型可通过百科、百度、和/或微博语料进行训练。通过该模型训练好的词向量具有一定的先验知识,同义词具有语义上的相似度,具体表现为余弦距离相近。本专利技术进一步公开了一种知识元抽取方法,其通过训练完成的抽取模型实现,所述模型的训练基于通过上述数据增强方法增强后的标注数据集。在一些具体实施方式中,所述抽取模型为双向长短时记忆网络模型。在一些具体实施方式中,所述抽取模型包括输入层、词嵌入层、双向LSTM层和归一化指数函数层。在一些具体实施方式中,所述输入层为句子中每个词在词表中的索引,词表由遍历所有的数据获得。另外为了增强词语的表示信息,在一些具体实施方式中,所述词嵌入层使用预训练的中文词向量,词向量的训练语料优选为中文百科和微博数据,词向量的维度优选为300维。另外为了增强词语的表示信息,在一些具体实施方式中,将词语的字符嵌入和词嵌入拼接在一起,其中,字符具体指词语中的每个汉字。优选字符嵌入维随机初始化的100维词向量,并在训练过程中进行更新。在一些具体实施方式中,所述双向LSTM层的隐藏层维数设置为256维,最终将前向LSTM和后向LSTM拼接在一起得到512维的句子表示。在一些具体实施方式中,将每个时间步的双向LSTM输入到归一化指数函数层即softmax函数,得到一个0-1之间的数值,对应数值最大的标签为该位置的实体标签。本专利技术可有效解决工业领域缺乏足够的结构化知识库的问题,通过文本相似度扩充训练数据集,可实现借用相似工业场景的现有知识库及通过同义词对基础数据进行补充的可能,同时,通过对两个来源的数据的筛选和整合,不仅显著增本文档来自技高网
...

【技术保护点】
1.一种文本数据增强方法,其特征在于:包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。/n

【技术特征摘要】
1.一种文本数据增强方法,其特征在于:包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。


2.根据权利要求1所述的数据增强方法,其特征在于:所述第一补充数据库通过其含有的实体词语经网页爬取获得,所述第二补充数据库通过其含有的实体词语的同义词经网页爬取获得。


3.根据权利要求1所述的数据增强方法,其特征在于:所述相似文本通过以下过程判定:
S51:将来自所述第一补充数据库中的短文本与来自第二补充数据库中的短文本进行分词和标注,计算其分离出的实体词语之间的词向量余弦相似度,即实体词语相似度;
S52:计算其分离出的实体词语之外的其他词语之间的词向量余弦相似度,将其中相似度大于阈值的同词性词语配对为重叠词语,计算重叠词语的在词性特征下的加权相似度,即重叠词语相似度;
S53:将所述实体词语相似度与所述重叠词语相似度进行加权平均,得到文本相似度;
对所述第一补充数据库和所述第二补充数据库中的文本进行针对文本相似度的迭代计算,每次迭代中所得文本相似度最大的两个文本为相似文本。


4.根据权利要求1所述的数据增强方法,...

【专利技术属性】
技术研发人员:程良伦牛伟才王德培张伟文
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1