System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于文本数据处理,具体涉及基于图模型的企业供应商库知识图谱构建方法及系统。
技术介绍
1、处理大规模知识库中的文本资源是一项费时费力的工程,基于图模型构建知识图谱可以形象地展示各个知识库的核心结构,以达到多领域知识库的融合,使得用户可以直观获取到更多有用的信息,知识图谱是当前各行业处理各类数据的一种新兴的、重要的智能方法。
2、例如中国专利申请“cn115292549b”公开了一种基于规则的树库自动转换方法及系统,涉及自然语言处理
包括:将输入的短语结构字符串进行多叉树数据结构构造;初始化xml存储根节点xml_root对象;对多叉树进行先序遍历;判断句子中是否存在小句,若不存在则进行规则转换流程;遍历每个子节点,判断子节点是否符合句法成分转换规则以及句式转换规则,新建xml_root的子节点;对终端节点进行词性规则的转换,根据词性转换规则表将其转换为句式结构树库的词性;将更新的xml_root转换为xml字符串,生成xml文件。充分利用短语结构树库和句式结构树库的标注体系的对应规律,为建立高质量的树库转换模型和句式结构句法分析器提供了有效的数据支持,对句式结构自动句法分析等研究具有重要意义。又例如中国专利申请“cn109408811b”公开的一种数据处理方法及服务器,在获得问题语句后,基于问题语句的句子成分确定问题语句所属的问句类别,并在问题语句属于预定问句类别的情况下,对问题语句进行依存句法分析,得到问题语句的各组成元素间的依存信息,进而基于问题语句的各组成元素间的依存信息以及问题语句的句子成分
3、然而,上述现有技术是对文本语句的结构分析和成分分析,基于提出问题的输入进行输出相关文本信息,缺少对知识库中文本信息全面且直观的具象描述,而且不便于提取相关联的文本信息。
技术实现思路
1、为解决上述问题,本专利技术提供了基于图模型的企业供应商库知识图谱构建方法及系统,以解决现有技术中的问题。
2、为了达到上述的专利技术目的,本专利技术提出基于图模型的企业供应商库知识图谱构建方法,包括:
3、步骤s1:获取第一文本,定位并提取所述第一文本中的第一词组、第二词组和第三词组,获取所述第一词组和所述第三词组的属性种类;
4、步骤s2:分别获取所述第二词组与所述第一词组和所述第三词组的连接关系,基于所述连接关系设置连接线,将所述第一词组、所述第二词组和所述第三词组分别设定为第一类节点、第二类节点和第三类节点,通过所述连接线将所述第一类节点、所述第二类节点和所述第三类节点进行连接,将所述属性种类设定为标签节点,所述标签节点与对应的所述第一类节点和所述第三类节点进行连接,获得第一关系图,重复所述步骤s1和所述步骤s2,以生成所有所述第一文本的所述第一关系图;
5、步骤s3:抽取包含相同所述标签节点的所述第一关系图,并聚合生成第一连接图,在所述第一连接图中判断与所述标签节点进行连接的所述第一类节点和所述第三类节点是否相同,若不同,则将所述第一连接图设定为第一知识图谱,若相同,则将所述第一类节点和所述第三类节点设定为第一关键节点,将包括所述第一关键节点的各个所述第一连接图聚合生成所述第一知识图谱;
6、步骤s4:组合所述第一知识图谱中包含所述第一关键节点的所述第一文本,生成第一扩展文本。
7、进一步的,所述步骤s1中,定位并提取所述第一文本包括以下步骤:
8、输入所述第一文本,将所述第一文本包含的各个字符进行拆分并设定为第一层节点,然后将各个所述第一层节点从首位开始依次进行组合成第二层节点,所述第二层节点包含所述字符组成的拼接词语,将所述第二层节点组合成第三层节点,其中所述第三层节点包含所述第一类节点、所述第二类节点和所述第三类节点。
9、进一步的,基于以下步骤将各个所述第一层节点进行组合成第二层节点:
10、设定特殊词汇,在所述第一层节点中抽取所述特殊词汇,获取所述特殊词汇在所述第一层节点的字符位置,基于所述字符位置将所述第一层节点中剩余的所述字符拆分为多个拼接子节点,从所述拼接子节点的首位所述字符开始依次与相邻的所述字符进行组合至生成所述拼接词语,在所述拼接词语的词性种类发生词性变化时停止组合,判断所述拼接子节点和所述拼接词语中所述字符的数量是否相等,若相等,则所述拼接子节点中的所述字符完全组合,若不相等,则基于所述拼接词语在所述拼接子节点中的所述字符位置继续以下一位所述字符为首位依次开始进行组合,重复执行此步骤至所述拼接子节点中所述字符完全组合,生成多个所述拼接词语,基于所述拼接词语和所述第一层节点中所述特殊词汇组合成所述第二层节点。
11、进一步的,基于以下步骤将所述第二层节点组合成第三层节点:
12、获取所述第二层节点的节点数量和所述第二层节点中所述特殊词汇的节点位置,将所述特殊词汇和位于所述节点位置前相邻的所述拼接词语设定为所述第二词组,将位于所述第二词组前的所述拼接词语设定为所述第一词组,将位于所述第二词组后的所述拼接词语设定为所述第三词组,所述第一词组、所述第二词组和所述第三词组组合成所述第三层节点。
13、进一步的,所述步骤s3中,基于以下步骤将所述第一类节点和所述第三类节点设定为第一关键节点:
14、分别获取所述第一类节点和所述第三类节点中所述第一词组和所述第三词组的词组数量和所述字符,在所述第一词组和所述第三词组中若存在所述字符相同且所述词组数量大于等于1,则将所述字符相同的所述第一词组和所述第三词组所在的节点设定为所述第一关键节点,将所述第一连接图中所述第一关键节点进行合并,生成所述第一知识图谱。
15、进一步的,所述步骤s4中,基于以下步骤生成第一扩展文本:
16、将所述第一关键节点包含的所述字符设定为关键词组,获取包含所述关键词组的所述第一文本的集合,并组合所述第一文本的文本信息以生成所述第一扩展文本。
17、本专利技术还提供了基于图模型的企业供应商库知识图谱构建系统,该系统用于实现上述所述的基于图模型的企业供应商库知识图谱构建方法,该系统主要包括:
18、文本获取模块,用于获取第一文本,定位并提取所述第一文本中的第一词组、第二词组和第三词组,获取所述第一词组和所述第三词组的属性种类;
19、文本处理模块,用于分别获取所述第二词组与所述第一词组和所述第三词组的连接关系,基于所述连接关系设置连接线,将所述第一词组、所述第二词组和所述第三词组分别设定为第一类节点、第二类节点和第三类节点,通过所述连接线将所述第一类节点、所述第二类节点和所述第三类节点进行连接,将所述属性种类设定为标签节点,所述标签节点与对应的所述第一类节点和所述第三类节点进行连接,获得第一关系图;本文档来自技高网...
【技术保护点】
1.基于图模型的企业供应商库知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,所述步骤S1中,定位并提取所述第一文本包括以下步骤:
3.根据权利要求2所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,基于以下步骤将各个所述第一层节点进行组合成第二层节点:
4.根据权利要求3所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,基于以下步骤将所述第二层节点组合成第三层节点:
5.根据权利要求2所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,所述步骤S3中,基于以下步骤将所述第一类节点和所述第三类节点设定为第一关键节点:
6.根据权利要求2所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,所述步骤S4中,基于以下步骤生成第一扩展文本:
7.基于图模型的企业供应商库知识图谱构建系统,用于实现如权利要求1-6任一项所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,包括:
【技术特征摘要】
1.基于图模型的企业供应商库知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,所述步骤s1中,定位并提取所述第一文本包括以下步骤:
3.根据权利要求2所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,基于以下步骤将各个所述第一层节点进行组合成第二层节点:
4.根据权利要求3所述的基于图模型的企业供应商库知识图谱构建方法,其特征在于,基于以下步骤将所述第二层节点组合成...
【专利技术属性】
技术研发人员:陈伟,高于喆,宋艳艳,丁小青,张书江,周国峰,
申请(专利权)人:郑州信源信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。