用于图谱知识生成文本的方法与装置制造方法及图纸

技术编号:26342634 阅读:17 留言:0更新日期:2020-11-13 20:36
本发明专利技术公开了一种用于图谱知识生成文本的方法及装置,方法包括:步骤S1:根据现有知识构建图谱数据库,图谱数据库包括:三元组库和二元组库;三元组包括:第一实体、关系词和第二实体;二元组包括:关系词或第二实体,和,属性值;步骤S2:对于三元组库中的任一三元组,构建三元组上文信息;步骤S3:根据三元组上文信息筛选关系词的属性值,得到筛选后的关系词的属性值,或,根据三元组上文信息筛选第二实体的属性值,得到筛选后的第二实体的属性值;步骤S4:根据关系词选择不同的文本生成模板;步骤S5:将第一实体、关系词、第二实体,和,筛选后的关系词的属性值和/或第二实体的属性值填入文本生成模板,生成文本。

【技术实现步骤摘要】
用于图谱知识生成文本的方法与装置
本申请涉及人工智能
,特别涉及一种用于图谱知识生成文本的方法与装置。
技术介绍
使用信息抽取技术将文本中的关系信息进行抽取,以结构化的方式,例如是以二元组或者三元组的方式进行存储,可以节约存储成本,也可以进行图谱展示以及便于进行信息检索。在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:结构化方式存储的元组信息可以起到丰富知识图谱的作用,但是其具有零散性、无序性等特点,用户难以很好地理解图谱。
技术实现思路
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。前述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。本公开实施例提供了一种用于图谱知识生成文本的方法及装置,以在一定程度上解决前述的技术问题。在一些实施例中,用于图谱知识生成文本的方法,包括:步骤S1:根据现有知识构建图谱数据库,图谱数据库包括:三元组库和二元组库;三元组包括:第一实体、关系词和第二实体;二元组包括:关系词或第二实体,和,属性值;步骤S2:对于三元组库中的任一三元组,构建三元组上文信息;步骤S3:根据三元组上文信息筛选关系词的属性值,得到筛选后的关系词的属性值,或,根据三元组上文信息筛选第二实体的属性值,得到筛选后的第二实体的属性值;步骤S4:根据关系词选择不同的文本生成模板;步骤S5:将第一实体、第二实体、筛选后的第二实体的属性值,和,筛选后的关系词的属性值和/或关系词填入所述文本生成模板,生成文本。可选的是,步骤S3进一步包括:步骤S31:获取并计算关系词属性值列表和第二实体属性值列表中的任一关系词属性值的特征值列表或第二实体属性值的特征值列表与三元组上文信息的交集词数,当交集词数大于第一预设阈值时,将当前关系词属性值加入关系词属性值确认列表,或,将当前第二实体属性值加入第二实体属性值确认列表;步骤S32:根据关系词属性值确认列表的词数或第二实体属性值确认列表的词数,确定筛选后的关系词属性值或第二实体属性值。可选的是,步骤S32中确定筛选后的关系词属性值或第二实体属性值进一步包括:关系词属性值确认列表的词数为0时,筛选后的关系词属性值为空,或第二实体属性值确认列表的词数为0时,筛选后的第二实体属性值为空;关系词属性值确认列表的词数为1时,筛选后的关系词属性值为关系词属性值确认列表中的词语,或第二实体属性值确认列表的词数为1时,筛选后的第二实体属性值为第二实体属性值确认列表中的词语;关系词属性值确认列表的词数大于等于2时,筛选后的关系词属性值为关系词属性值确认列表中的词语以顿号连接并以“等”字结尾,或第二实体属性值确认列表的词数大于等于2时,筛选后的第二实体属性值为第二实体属性值确认列表中的词语以顿号连接并以“等”字结尾。可选的是,在步骤S31还包括,获取关系词或第二实体属性值的特征值列表,进一步包括:建立第一词列表,第一词列表中包括去重后的二元组库和三元组库中的词语;建立第二词列表,对文本信息进行词语切分,得到第二词列表;将第一词列表和第二词列表取交集,按照第二词列表的词语顺序对交集进行排序,得到第三词列表;第三词列表中,关系词属性值前的N个词语组成当前关系词属性值对应的特征值列表,或,第二实体属性值前的N个词语组成当前第二实体属性值对应的特征值列表。可选的是,三元组上文信息包括:上文三元组信息、当前三元组的第一实体和关系词。可选的是,上文三元组信息包括:上文三元组的第一实体、上文三元组的关系词、上文三元组第二实体的属性值和上文三元组的第二实体;其中,在当前三元组为第一个元组时,上文三元组信息为空。可选的是,步骤S4进一步包括:对关系词进行分词和词性标注,根据关系词的分词数和词性选择不同的模板。可选的是,根据关系词的分词数和词性选择不同的文本生成模板,包括:当关系词不能被分词,且为动词或者介词时,文本生成模板包括:第一实体、筛选后的关系词属性值、关系词、筛选后的第二实体属性值和第二实体;当关系词不能被分词,且为名词时,文本生成模板包括:第一实体、关系词、筛选后的第二实体属性值和第二实体。可选的是,据关系词的分词数和词性选择不同的模板,包括:当关系词被分词为介词和动词时,文本生成模板包括:第一实体、关系介词、筛选后的第二实体属性值、第二实体、筛选后的关系词属性值和关系动词。在一些实施例中,用于图谱知识生成文本的装置,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行前述的用于图谱知识生成文本的方法。本公开实施例提供的用于图谱知识生成文本的方法和装置,可以实现以下技术效果:通过知识图谱生成连贯、通顺和有意义的文本,可以辅助用户更好地理解知识图谱。以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。附图说明一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:图1是本公开实施例提供的用于图谱知识生成文本的方法的流程示意图;图2是本公开实施例提供的基于第一文本信息的图谱数据库构建的知识图谱。具体实施方式为了能够更加详尽地了解本公开实施例的特点与
技术实现思路
,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。本公开实施例中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。图1是本公开实施例提供的用于图谱知识生成文本的方法的流程示意图。如图1所示,本公开实施例提供了一种用于图谱知识生成文本的方法,包括:步骤S1:根据现有知识构建图谱数据库,图谱数据库包括:三元组库和二元组库,三元组包括:第一实体、关系词和第二实体,二元组包括:关系词或第二实体,和,属性值;步骤S2:对于三元组库中的任一三元组,构建三元组上文信息;步骤S3:根据三元组上文信息筛选关系词的属性值,得到筛选后的关系词的属性值,或,根据三元组上文信息筛选第二实体的属性值得到筛选后的第二实体的属性值;步骤S4:根据关系词选择不同的文本生成模板;步骤S5:将第一实体、第二实体、筛选后的第二实体的属性值,和,筛选后的关系词的属性值和/或关系词填入所述文本生成模板,生成文本。其中,二元组包括:关系词及其属性值,或者,第二实体及其属性值。步骤S5中包括:将第一实体、第二实体、筛选后的第二实体的属性值和筛选后的关系词的属性值填入文本生成模板,或者,将第一实体、第二实体、筛选后的第二实体的属性值和关系词填入文本生成模板,或者,将第一实体、第二实体、筛选后的第二实体的属性值、筛选后的关系词的属性值和关系词填入文本本文档来自技高网
...

【技术保护点】
1.一种用于图谱知识生成文本的方法,其特征在于,包括:/n步骤S1:根据现有知识构建图谱数据库,所述图谱数据库包括:三元组库和二元组库,其中,三元组包括:第一实体、关系词和第二实体,二元组包括:关系词或第二实体,和,属性值;/n步骤S2:对于所述三元组库中的任一三元组,构建三元组上文信息;/n步骤S3:根据所述三元组上文信息筛选所述关系词的属性值,得到筛选后的关系词的属性值,或,根据所述三元组上文信息筛选所述第二实体的属性值,得到筛选后的第二实体的属性值;/n步骤S4:根据所述关系词选择不同的文本生成模板;/n步骤S5:将所述第一实体、第二实体、筛选后的第二实体的属性值,和,所述筛选后的关系词的属性值和/或关系词填入所述文本生成模板,生成文本。/n

【技术特征摘要】
1.一种用于图谱知识生成文本的方法,其特征在于,包括:
步骤S1:根据现有知识构建图谱数据库,所述图谱数据库包括:三元组库和二元组库,其中,三元组包括:第一实体、关系词和第二实体,二元组包括:关系词或第二实体,和,属性值;
步骤S2:对于所述三元组库中的任一三元组,构建三元组上文信息;
步骤S3:根据所述三元组上文信息筛选所述关系词的属性值,得到筛选后的关系词的属性值,或,根据所述三元组上文信息筛选所述第二实体的属性值,得到筛选后的第二实体的属性值;
步骤S4:根据所述关系词选择不同的文本生成模板;
步骤S5:将所述第一实体、第二实体、筛选后的第二实体的属性值,和,所述筛选后的关系词的属性值和/或关系词填入所述文本生成模板,生成文本。


2.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括:
步骤S31:获取并计算关系词属性值列表和第二实体属性值列表中的任一关系词属性值的特征值列表或第二实体属性值的特征值列表与所述三元组上文信息的交集词数,当所述交集词数大于第一预设阈值时,将当前关系词属性值加入关系词属性值确认列表,或,将当前第二实体属性值加入第二实体属性值确认列表;
步骤S32:根据所述关系词属性值确认列表的词数或第二实体属性值确认列表的词数,确定筛选后的关系词属性值或第二实体属性值。


3.根据权利要求2所述的方法,其特征在于,步骤S32中进一步包括:
所述关系词属性值确认列表的词数为0时,所述筛选后的关系词属性值为空,或所述第二实体属性值确认列表的词数为0时,所述筛选后的第二实体属性值为空;
所述关系词属性值确认列表的词数为1时,所述筛选后的关系词属性值为所述关系词属性值确认列表中的词语,或所述第二实体属性值确认列表的词数为1时,所述筛选后的第二实体属性值为所述第二实体属性值确认列表中的词语;
所述关系词属性值确认列表的词数大于等于2时,所述筛选后的关系词属性值为所述关系词属性值确认列表中的词语以顿号连接并以“等”字结尾,或所述第二实体属性值确认列表的词数大于等于2时,所述筛选后的第二实体属性值为所述第二实体属性值确认列表中的词语以顿号连接并以“等”字结尾。

【专利技术属性】
技术研发人员:薛小娜牟小峰
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1