System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种使用词条内容递归爬取词条数据的方法技术_技高网

一种使用词条内容递归爬取词条数据的方法技术

技术编号:41125344 阅读:3 留言:0更新日期:2024-04-30 17:52
本发明专利技术公开了一种使用词条内容递归爬取词条数据的方法,包括以下步骤:1)对船舶知识库中的数据建立倒排索引表;2)从倒排索引表集群中检索出请求问题的关键词条;3)对检索出的关键词条,使用数据爬虫进行词条的爬取;4)对数据爬虫输出的文本进行格式的统一;5)对统一后的文本进行筛选;6)对粗排的文本选择前列设定数量文本进行二次筛选,返回二次筛选后的文本;7)进行三元组抽取;8)对冲突三元组进行纠错与知识融合;9)根据处理后的三元组获得知识抽取后的知识图谱。本发明专利技术方法可以从结构化数据、半结构化数据、非结构化数据中抽取词条,借助使用词条内容递归爬取词条数据的方法,用机器基本代替人工实现自动化知识扩充。

【技术实现步骤摘要】

本专利技术涉及自然语言处理技术,尤其涉及一种使用词条内容递归爬取词条数据的方法


技术介绍

1、目前,对自然语言的知识扩充的难点在于对知识源中的数据进行扩充,因为知识并不是以某种现成的形式存在于知识源中的,只有对知识源中的数据经过分析、识别、理解、关联等一系列处理之后,才能过滤出其中有用的知识。大量原始数据经过过滤后只能获得较少的有用的知识,因此需要对知识源中的数据进行扩充。但目前的现有机器学习技术还不足以实现自动扩充,或者自动扩充的数据中存在较多的错误知识,造成过滤出的知识质量差。目前的知识扩充还是以手工或由机器辅助的手工获取为主。因此,亟需设计一种简单有效的方法对知识库中的知识进行扩充,以弥补现有技术缺陷。


技术实现思路

1、本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种使用词条内容递归爬取词条数据的方法。

2、本专利技术解决其技术问题所采用的技术方案是:一种使用词条内容递归爬取词条数据的方法,包括以下步骤:

3、1)对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射;

4、2)基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的关键词条;

5、3)对检索出的关键词条,使用数据爬虫进行词条的爬取;

6、4)对数据爬虫输出的文本进行格式的统一;

7、5)对统一后的文本进行筛选;

8、其中,文本的粗排筛选操作具体为:使用bm25算法来计算文档的相似度,并按相似度由大到小进行排序,进而实现文本的粗排;

9、6)对粗排筛选的文本选择前列设定数量文本进行二次筛选,返回二次筛选后的文本;

10、对粗排筛选的文本,计算请求问题与切割后的候选文本答案之间的相似得分fuzzscore分数和单词比率wordratio分数;

11、按照wordratio分数由大到小对文本进行排序,若wordratio值相同则按照其对应的fuzzscore分数大小进行排序,取排序靠前的topn文本;

12、7)对再次筛选后的文本进行三元组抽取;

13、8)对抽取的三元组中的冲突三元组进行纠错与知识融合;

14、采用路径约束资源分配(pcra)算法对冲突三元组进行合并,用头实体通过该路径最终流到尾实体的资源量,作为置信度,通过置信度过滤不可靠三元组;

15、9)根据处理后的三元组获得知识抽取后的知识图谱,对知识库中的知识进行扩充。

16、按上述方案,所述步骤3)中,进行词条的爬取具体如下:

17、数据爬取采用beautifulsoup+selenium库,通过http向目标服务器发起请求,即发送一个request,请求的同时可以传入额外的headers和referer信息,等待服务器响应,获取网页源代码,然后从网页源文件中根据规则解析出词条相关内容。

18、按上述方案,所述步骤7)对再次筛选后的文本进行三元组抽取采用知识抽取算法进行三元组抽取;

19、知识抽取算法采用pipeline模式三元组抽取,用序列标注模型预测句子中的实体,然后再用关系分类模型判断实体关系的类别,过滤掉关系为未知的情形,提取有效的三元组;

20、序列标注模型采用albert+bi-lstm+crf网络,使用bio标注体系,将句子中的主体和客体作为实体,分别标注为subj和obj,关系分类模型采用albert+bi-gru+att网络,根据所述的序列标注模型输出结果,对句子中的主体和客体进行关系判断,最终根据抽取的主体、客体以及关系,过滤掉关系为未知的情形,形成三元组。

21、按上述方案,所述步骤8)中采用路径约束资源分配算法对冲突三元组进行合并,用头实体通过该路径最终流到尾实体的资源量,作为置信度,通过置信度过滤不可靠三元组。

22、本专利技术产生的有益效果是:

23、1)本专利技术方法可以从结构化数据、半结构化数据、非结构化数据中抽取词条,借助使用词条内容递归爬取词条数据的方法,用机器基本代替人工实现自动化知识扩充;

24、2)通过对冲突三元组进行纠错与知识融合,提高扩充后的船舶知识图谱质量。

本文档来自技高网...

【技术保护点】

1.一种使用词条内容递归爬取词条数据的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的使用词条内容递归爬取词条数据的方法,其特征在于,所述步骤3)中,进行词条的爬取具体如下:

3.根据权利要求1所述的使用词条内容递归爬取词条数据的方法,其特征在于,所述步骤7)对再次筛选后的文本进行三元组抽取采用知识抽取算法进行三元组抽取;

4.根据权利要求1所述的使用词条内容递归爬取词条数据的方法,其特征在于,所述步骤8)中采用路径约束资源分配算法对冲突三元组进行合并,用头实体通过该路径最终流到尾实体的资源量,作为置信度,通过置信度过滤不可靠三元组。

【技术特征摘要】

1.一种使用词条内容递归爬取词条数据的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的使用词条内容递归爬取词条数据的方法,其特征在于,所述步骤3)中,进行词条的爬取具体如下:

3.根据权利要求1所述的使用词条内容递归爬取词条数据的方法,其特征在于,所述步骤7)...

【专利技术属性】
技术研发人员:汪瞳张舒范慧丽应杰董晓明
申请(专利权)人:中国舰船研究设计中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1