一种基于文本大数据的图谱生成方法及系统技术方案

技术编号：41348782 阅读：8 留言：0更新日期：2024-05-20 10:03

本发明专利技术公开了一种基于文本大数据的图谱生成方法及系统，涉及网络信息技术领域，通过采集文本数据，并对筛选后的文本数据进行标注；以标注好的实体和关系为正样本作为基础构建负样本：实体负样本，关系负样本和指代消歧负样本；对正样本和负样本进行映射表征，得到包括实体特征、指代消歧特征以及关系特征的实体集；对实体集进行分析，得到实体间的指向关系；根据所述实体集以及指向关系，生成知识图谱。本发明专利技术通过对文本大数据信息进行分析，并构建出知识图谱，不仅降低了文本数据分析的复杂度，对文本数据的解读也更加方便，还提高了文本数据分析的准确性，进一步提高企业数据与文本数据的匹配度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息，更具体的说是涉及一种基于文本大数据的图谱生成方法及系统。

技术介绍

1、目前，随着互联网信息的大幅膨胀，信息量呈指数增长，浩瀚的网络数据远远超出了人们的掌控能力，中小型公司企业更不用说，他们需要通过各种渠道找寻适合自身发展的信息数据。但是，由于历年积累的数据量非常庞大，企业难以从众多信息中快捷地提取自己所需要的信息。

2、知识图谱是一种语义网络，以图数据结构的形式来将信息以及关系表示出来，从而用来进一步挖掘信息中隐藏的信息和信息之间的关系。

3、因此，如何在知识图谱的基础上，使企业能快速提取所需信息是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于文本大数据的图谱生成方法及系统，以解决
技术介绍
中的问题。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一方面，提供一种基于文本大数据的图谱生成方法，包括：

4、采集文本数据，并对筛选后的文本数据进行标注；

5、以标注好的实体和关系为正样本作为基础构建负样本：实体负样本，关系负样本和指代消歧负样本；

6、对正样本和负样本进行映射表征，得到包括实体特征、指代消歧特征以及关系特征的实体集；

7、对实体集进行分析，得到实体间的指向关系；

8、根据所述实体集以及指向关系，生成知识图谱。

9、可选的，所述得到实体集的过程具体包括：对正样本和负样本进行映射表征，得

10、可选的，构建实体负样本为基于人工标注的实体，构建得到的子实体，所述的子实体被原实体包含，子实体字数少于原实体；

11、构建关系负样本为随机使用未在人工标注有关系的实体对来构建；

12、构建指代消歧负样本为在同一个段落中，选取在不同句子中，没有关系的实体对作为负样本。

13、可选的，所述对正样本和负样本进行映射表征，具体为：

14、实体表征通过采用bert标注和随机初始化表征相融合的表征方式，获得融合表征；实体对表征通过把实体对中包含的字，在融合表征中索引出来对应的字特征，再把字特征放入一个多层的神经网络，把特征映射到统一空间，随机初始化语义向量获得；指代消歧实体对表征采用实体对的编辑距离语义向量和实体对包含的字向量相融合获得。

15、可选的，所述对向量集进行分析，获取实体集具体为：

16、实体特征：基于bert模型对句子进行特征抽取，得到每个字的特征，再对非实体关键字的特征进行屏蔽，得到包含实体字的特征e1，再把实体的长度用向量表示得到长度特征e2，把特征e1和特征e2进行拼接得到特征e3；

17、指代消歧特征：计算指代的实体对之间的编辑距离，对编辑距离进行特征嵌入，得到特征向量r1，将特征r1和实体的bert特征e1进行拼接，得到特征r2；

18、关系特征：将实体对用向量表示到特征p1，对实体对中的第二个实体首字的位置和第一个实体首字的位置之差进行嵌入，得到特征p2；

19、对第二个实体首字的位置和第一个实体最后一个字的位置进行之差嵌入，得到特征p3；用bert抽取出来的整个句子,得到特征s1；

20、并将特征p1、特征p2、特征p3、特征s1和特征e1进行拼接得到特征s2。

21、可选的，采集文本数据之后还包括：对所述文本数据的语料文本依次进行消除噪音、词汇规范化、对象标准化的处理；采用依赖树和词性标注对处理后的所述文本数据进行从上至下迭代分析，得到语法关系三元组；通过主题建模对语法关系三元组做实体检测；将检测到的实体加入所述实体集。

22、可选的，将检测到的实体加入所述实体集之后还包括：按照术语频率-逆文献频率的权重，给做实体检测得到的实体赋予权重值；比对权重值；根据比对结果确定一对一或一会多的实体间的指向关系。

23、可选的，在采集文本数据之前还包括，对指定领域的原始文本数据进行词法、语法和/或语义分析，得到标准化文本数据。

24、可选的，所述得到标准化文本数据具体包括：

25、根据文档结构分布特征确定原始文本数据的文档结构，根据文档结构对所述原始文本数据进行段落结构划分，或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类，根据分类结果对所述原始文本数据进行段落结构划分；对划分出的各段落结构进行词法、语法和/或语义分析，得到标准化文本数据。

26、另一方面，提供一种基于文本大数据的图谱生成系统，包括：

27、采集模块，采集文本数据，并对筛选后的文本数据进行标注；

28、负样本构建模块，以标注好的实体和关系为正样本作为基础构建负样本：实体负样本，关系负样本和指代消歧负样本；

29、实体集获取模块，对正样本和负样本进行映射表征，得到包括实体特征、指代消歧特征以及关系特征的实体集；

30、指向关系获取模块，对实体集进行分析，得到实体间的指向关系；

31、图谱生成模块，根据所述实体集以及指向关系，生成知识图谱。

32、经由上述的技术方案可知，与现有技术相比，本专利技术公开提供了一种基于文本大数据的图谱生成方法及系统，通过采集文本数据，并对筛选后的文本数据进行标注；以标注好的实体和关系为正样本作为基础构建负样本：实体负样本，关系负样本和指代消歧负样本；对正样本和负样本进行映射表征，得到包括实体特征、指代消歧特征以及关系特征的实体集；对实体集进行分析，得到实体间的指向关系；根据所述实体集以及指向关系，生成知识图谱。本专利技术通过对文本大数据信息进行分析，并构建出知识图谱，不仅降低了文本数据分析的复杂度，对文本数据的解读也更加方便，还提高了文本数据分析的准确性，进一步提高企业数据与文本数据的匹配度。

本文档来自技高网...

【技术保护点】

1.一种基于文本大数据的图谱生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，所述得到实体集的过程具体包括：对正样本和负样本进行映射表征，得到实体集构成的向量集；对向量集进行分析，得到实体集。

3.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，构建实体负样本为基于人工标注的实体，构建得到的子实体，所述的子实体被原实体包含，子实体字数少于原实体；

4.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，所述对正样本和负样本进行映射表征，具体为：

5.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，所述对向量集进行分析，获取实体集具体为：

6.根据权利要求2所述的一种基于文本大数据的图谱生成方法，其特征在于，采集文本数据之后还包括：对所述文本数据的语料文本依次进行消除噪音、词汇规范化、对象标准化的处理；采用依赖树和词性标注对处理后的所述文本数据进行从上至下迭代分析，得到语法关系三元组；通过主题建模对语法关系三元组做实体检测；

7.根据权利要求6所述的一种基于文本大数据的图谱生成方法，其特征在于，将检测到的实体加入所述实体集之后还包括：按照术语频率-逆文献频率的权重，给做实体检测得到的实体赋予权重值；比对权重值；根据比对结果确定一对一或一会多的实体间的指向关系。

8.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，在采集文本数据之前还包括，对指定领域的原始文本数据进行词法、语法和/或语义分析，得到标准化文本数据。

9.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，所述得到标准化文本数据具体包括：

10.一种基于文本大数据的图谱生成系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于文本大数据的图谱生成方法，其特征在于，包括：

4.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，所述对正样本和负样本进行映射表征，具体为：

5.根据权利要求1所述的一种基于文本大数据的图谱生成方法，其特征在于，所述对向量集进行分析，获取实体集具体为：

6.根据权利要求2所述的一种基于文本大数据的图谱生成方法，其特征在于，采集文本数据之后还包括：对所述文本数据的语料文本依...

【专利技术属性】
技术研发人员：熊松泉，贺建伟，
申请(专利权)人：宁波财经学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人