一种基于实时流数据的实体和关系提取方法技术

技术编号：35752456 阅读：12 留言：0更新日期：2022-11-26 18:58

本发明专利技术公开了一种基于实时流数据的实体和关系提取方法，采用改进的编码器

全部详细技术资料下载

【技术实现步骤摘要】
一种基于实时流数据的实体和关系提取方法

[0001]本专利技术涉及实体关系抽取
，主要涉及一种基于实时流数据的实体和关系提取方法。

技术介绍

[0002]实体关系抽取(Entity and Relation Extraction，ERE)是信息抽取的关键任务之一。ERE是级联任务，分为两个子任务：实体抽取和关系抽取，如何更好处理这种类似的级联任务是一个热点研究方向。尤其是在构建领域知识图谱时，实体抽取和关系抽取的准确性决定了知识图谱的可用性，尤其是关系抽取是自动构建大规模知识图谱的关键，其通过识别实体之间的关系来提取实体之间的语义关系，在现实世界中，自然句子的形式多种多样，所以关系的提取比实体提取困难得多。因为传统方法高度依赖于特征工程，而随着深度学习技术的发展，其正在改变知识图谱和文本的表示学习。实体关系抽取方法可分为联合抽取和流水线式抽取，流水线式方法指先抽取实体、再抽取关系，虽然流水线式方法易于实现，但存在以下缺点：1)误差积累：实体抽取的错误会影响下一步关系抽取的性能。2)实体冗余：由于先对抽取的实体进行两两配对，然后再进行关系分类，没有关系的候选实体对所带来的冗余信息，会提升错误率、增加计算复杂度。3)交互缺失：忽略了这两个任务之间的内在联系和依赖关系。若这些存在的问题得不到缓解或解决将会对构建领域知识图谱等工程任务徒增成本，造成极大的资源浪费。
[0003]目前，相比于传统的流水线式方法，联合抽取是指从文本中完成实体识别和关系分类任务，其能够获得更好的性能。但是很多方法名为“联合建模”，但大...

【技术保护点】

【技术特征摘要】
1.一种基于实时流数据的实体和关系提取方法，其特征在于包含以下步骤：S1：开发网络爬虫程序爬取特定URL的非结构化文本，通过数据集预处理步骤去除网页导航、广告和文本重复值和转义字符等，利用分词工具对文本进行分词，并设置停用词集；S2：经S1处理后标注实体关系及其类型的三元组，从而得到相应的训练标签集合，得到完整的数据集；S3：将数据集划分为训练集和测试集，从工程化的角度考虑，可行情况下需划分验证集，下载预训练词向量，筛选出属于样本集分词后的所有词语的词向量；S4:将经上述步骤处理后的数据集以json格式存入文件，并使用一种分布式流式计算框架以多路并行化方式将相应的文件读入数据库或者内存以供后续训练；S5：搭建基于编码器
‑
解码器的实体关系提取模型，利用S3得到的预训练词向量作为特征输入，即嵌入层向量进行训练；S6：将验证集数据输入训练好的模型，并以其词向量作为特征输入，得到相应的评价指标数值，以此调节超参数，得到更符合现实世界情况的参数设置从而改善模型性能；S7：经S5～S6后可得到在基于所提供的目标领域数据中性能最佳的模型，将测试集数据输入模型后预测最终结果，并与人工标注的标签进行对比，获得模型在测试集上的准确率。2.根据权利要求1所述的一种基于实时流数据的实体和关系提取方法，其特征在于步骤S1中：所述数据获取及预处理过程具体步骤为；S11、建立一个特定URL链接的列表，开发网络爬虫程序读取网页中的大量非结构化文本数据用以构建一个实体关系提取模型所需的数据集；S12、在使用数据前需要进行语料清洗以适应后续分析：清除空格，拼写校正，标点替换和缩略词更改等；S13、XML反转义，即将转义的字符还原成原始字符；S14、手工设置句子模板，利用正则匹配规则将符合规则的字符串替换成正式的、通顺的字符串；S15、使用Ltp工具包对语料进行分词，设置相应的停用词加入Ltp库中，而后得到相应的分割后的语料数据集。3.根据权利要求1所述的一种基于实时流数据的实体和关系提取方法，其特征在于步骤S2的具体方法为：S21、针对经步骤S1的数据去噪后并切分的结果，采用“BMEWO”标签体系标注实体位置和类型；S22、根据领域内知识的特征定...

【专利技术属性】
技术研发人员：邵长城，张成科，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人