一种基于实时流数据的实体和关系提取方法技术

技术编号:35752456 阅读:12 留言:0更新日期:2022-11-26 18:58
本发明专利技术公开了一种基于实时流数据的实体和关系提取方法,采用改进的编码器

【技术实现步骤摘要】
一种基于实时流数据的实体和关系提取方法


[0001]本专利技术涉及实体关系抽取
,主要涉及一种基于实时流数据的实体和关系提取方法。

技术介绍

[0002]实体关系抽取(Entity and Relation Extraction,ERE)是信息抽取的关键任务之一。ERE是级联任务,分为两个子任务:实体抽取和关系抽取,如何更好处理这种类似的级联任务是一个热点研究方向。尤其是在构建领域知识图谱时,实体抽取和关系抽取的准确性决定了知识图谱的可用性,尤其是关系抽取是自动构建大规模知识图谱的关键,其通过识别实体之间的关系来提取实体之间的语义关系,在现实世界中,自然句子的形式多种多样,所以关系的提取比实体提取困难得多。因为传统方法高度依赖于特征工程,而随着深度学习技术的发展,其正在改变知识图谱和文本的表示学习。实体关系抽取方法可分为联合抽取和流水线式抽取,流水线式方法指先抽取实体、再抽取关系,虽然流水线式方法易于实现,但存在以下缺点:1)误差积累:实体抽取的错误会影响下一步关系抽取的性能。2)实体冗余:由于先对抽取的实体进行两两配对,然后再进行关系分类,没有关系的候选实体对所带来的冗余信息,会提升错误率、增加计算复杂度。3)交互缺失:忽略了这两个任务之间的内在联系和依赖关系。若这些存在的问题得不到缓解或解决将会对构建领域知识图谱等工程任务徒增成本,造成极大的资源浪费。
[0003]目前,相比于传统的流水线式方法,联合抽取是指从文本中完成实体识别和关系分类任务,其能够获得更好的性能。但是很多方法名为“联合建模”,但大多数情况都是两个子任务分开决策的,无法避免错误传播问题,另一个问题是数据问题,深度学习依赖于大量且高质量的标注数据,因此研究联合建模的方式、优化模型结构以及联合决策应该是需要重点解决的问题。另一方面则是对远监督关系数据集的去噪,远监督能利用已有的知识库进行大规模标注,虽然该数据可能会包含大量噪声数据,但是如果能将噪声程度控制在较低水平,再依靠深度学习的容噪能力,联合抽取工作将迎来进一步的发展,因此如何利用深度学习技术在规模庞大的数据集上克服噪声,提高实体关系抽取的准确性,建立联合决策机制是本方法的重点之一。

技术实现思路

[0004]为了解决现有方法运算效率低下、冗余复杂的问题,以及流水线方法的误差积累、交互缺失等弊病,创造性地结合实时数据处理方法提出一种基于实时流数据的实体和关系提取方法。本专利技术的创新点在于通过利用BERT架构作为捕获长序列的模块,并结合卷积神经网络提取局部信息,特别是在最后解码阶段融合实体分类信息作为序列解码的辅助信息,显著提高了实体关系抽取的效果。
[0005]本专利技术的一种基于实时流数据的实体和关系提取方法,包含以下步骤:
[0006]S1:开发网络爬虫程序爬取特定URL的非结构化文本,通过数据集预处理步骤去除
网页导航、广告和文本重复值和转义字符等,利用分词工具对文本进行分词,并设置停用词集;
[0007]S2:经S1处理后标注实体关系及其类型的三元组,从而得到相应的训练标签集合,得到完整的数据集;
[0008]S3:将数据集划分为训练集和测试集,从工程化的角度考虑,可行情况下需划分验证集。下载预训练词向量,筛选出属于样本集分词后的所有词语的词向量;
[0009]S4:将经上述步骤处理后的数据集以json格式存入文件,并使用一种分布式流式计算框架以多路并行化方式将相应的文件读入数据库或者内存以供后续训练;
[0010]S5:搭建基于编码器

解码器的实体关系提取模型,利用S3得到的预训练词向量作为特征输入,即嵌入层向量进行训练;
[0011]S6:将验证集数据输入训练好的模型,并以其词向量作为特征输入,得到相应的评价指标数值,以此调节超参数,得到更符合现实世界情况的参数设置从而改善模型性能;
[0012]S7:经S5~S6后可得到在基于所提供的目标领域数据中性能最佳的模型,将测试集数据输入模型后预测最终结果,并与人工标注的标签进行对比,获得模型在测试集上的准确率。
[0013]进一步地,所述S1中,数据获取及预处理过程具体步骤为;
[0014]S11、建立一个特定URL链接的列表,开发网络爬虫程序读取网页中的大量非结构化文本数据用以构建一个实体关系提取模型所需的数据集;
[0015]S12、在使用数据前需要进行语料清洗以适应后续分析:清除空格,拼写校正,标点替换和缩略词更改等;
[0016]S13、XML反转义,即将转义的字符还原成原始字符;
[0017]S14、手工设置句子模板,利用正则匹配规则将符合规则的字符串替换成正式的、通顺的字符串;
[0018]S15、使用Ltp工具包对语料进行分词,设置相应的停用词加入Ltp库中,而后得到相应的分割后的语料数据集。
[0019]进一步地,所述S2的具体方法为:
[0020]S21、针对经步骤S1的数据去噪后并切分的结果,采用“BMEWO”标签体系标注实体位置和类型;
[0021]S22、根据领域内知识的特征定义实体间相应的关系集,获得三元组标签。
[0022]进一步地,所述S3中划分数据集并获得词嵌入向量的具体步骤为:
[0023]S31、根据经验,首先确定将数据集划分为训练集/测试集/验证集所占整个语料数据集的比例;
[0024]S32、构建词

索引、索引

词双向映射词典,便于后续的查表;
[0025]S33、下载从大型预训练模型得到的词向量作为数据集中每个词的特征输入,相当于通过嵌入层得到词向量。
[0026]进一步地,所述S4中利用实时流式计算架构存取数据集文件的具体步骤为:
[0027]S41、一份数据集对应一个根目录。其中每份数据集又被打散为多个分区,分区字段以文件夹形式存在,该文件夹包含该分区的所有文件;
[0028]S42、以流式计算的方式运行数据摄取作业,以1~2分钟左右的微批(micro

batch)进行处理;
[0029]S43、设置时间间隔T内进行一次增量更新,并行化将缓存中的数据集以json格式写入文件。
[0030]进一步地,所述S5中的具体步骤为:
[0031]S51、搭建以BERT和卷积神经网络为组件的编码层抽取文本中各字词的深度特征信息。以LSTM作为序列解码器,融合实体类别信息用以解析实体间的关系;
[0032]S52、初始化网络模型(除嵌入层外)参数,并将训练集中的数据输入网络模型;
[0033]S53、以上述S3得到的预训练词嵌入向量作为输入,经编码器

解码器结构得到输出,最后经预测层得到预测标签。
[0034]进一步地,所述S6中的具体步骤为:
[0035]S61、将验证集中的数据输入进经S5训练得到的模型M,将预测结果与真实标签对比,分别获得相应评价指标的分值:准确率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实时流数据的实体和关系提取方法,其特征在于包含以下步骤:S1:开发网络爬虫程序爬取特定URL的非结构化文本,通过数据集预处理步骤去除网页导航、广告和文本重复值和转义字符等,利用分词工具对文本进行分词,并设置停用词集;S2:经S1处理后标注实体关系及其类型的三元组,从而得到相应的训练标签集合,得到完整的数据集;S3:将数据集划分为训练集和测试集,从工程化的角度考虑,可行情况下需划分验证集,下载预训练词向量,筛选出属于样本集分词后的所有词语的词向量;S4:将经上述步骤处理后的数据集以json格式存入文件,并使用一种分布式流式计算框架以多路并行化方式将相应的文件读入数据库或者内存以供后续训练;S5:搭建基于编码器

解码器的实体关系提取模型,利用S3得到的预训练词向量作为特征输入,即嵌入层向量进行训练;S6:将验证集数据输入训练好的模型,并以其词向量作为特征输入,得到相应的评价指标数值,以此调节超参数,得到更符合现实世界情况的参数设置从而改善模型性能;S7:经S5~S6后可得到在基于所提供的目标领域数据中性能最佳的模型,将测试集数据输入模型后预测最终结果,并与人工标注的标签进行对比,获得模型在测试集上的准确率。2.根据权利要求1所述的一种基于实时流数据的实体和关系提取方法,其特征在于步骤S1中:所述数据获取及预处理过程具体步骤为;S11、建立一个特定URL链接的列表,开发网络爬虫程序读取网页中的大量非结构化文本数据用以构建一个实体关系提取模型所需的数据集;S12、在使用数据前需要进行语料清洗以适应后续分析:清除空格,拼写校正,标点替换和缩略词更改等;S13、XML反转义,即将转义的字符还原成原始字符;S14、手工设置句子模板,利用正则匹配规则将符合规则的字符串替换成正式的、通顺的字符串;S15、使用Ltp工具包对语料进行分词,设置相应的停用词加入Ltp库中,而后得到相应的分割后的语料数据集。3.根据权利要求1所述的一种基于实时流数据的实体和关系提取方法,其特征在于步骤S2的具体方法为:S21、针对经步骤S1的数据去噪后并切分的结果,采用“BMEWO”标签体系标注实体位置和类型;S22、根据领域内知识的特征定...

【专利技术属性】
技术研发人员:邵长城张成科
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1