System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义证据提示和置信度的内容生成方法和系统技术方案_技高网

基于语义证据提示和置信度的内容生成方法和系统技术方案

技术编号:40707579 阅读:2 留言:0更新日期:2024-03-22 11:07
本发明专利技术属于文本生成处理技术领域,提供一种基于语义证据提示和置信度的内容生成方法和系统。该方法包括:对所生成的科技情报内容进行科技实体三元组提取,得到科技实体集合和科技关系集合;采用已知的知识图谱,查询确定与待处理科技实体对相关的关联关系路径;计算所述待处理科技实体对的资源总量,以用于评估所述待处理科技实体对的关系路径的可靠性;计算所述待处理科技实体对的实体三元组的综合置信度,并将计算得到的综合置信度与指定阈值进行判断;根据所计算的语义证据值,确定与待处理科技实体对相对应的提示三元组,以最终生成相应科技情报内容。本发明专利技术提升了大模型生成内容的可靠性和可信度。

【技术实现步骤摘要】

本专利技术涉及文本生成处理,尤其涉及一种基于语义证据提示和置信度的内容生成方法和系统


技术介绍

1、通常利用大模型进行内容生成的时候,生成的内容表面上是符合人类的阅读习惯,并被认为是正确的,但是,通常会出现生成的内容不够准确,与事实不符,经常出现幻觉问题,导致通过大模型生成的内容的正确性和可信度不高。目前的主要方法是通过大模型自评价的方式获取内容的置信度,即将大模型的生成内容输入大模型然后让大模型给出一个置信度的评分,通过这个评分判断该生成的内容是否需要修改,如果要修改,则与外部工具进行交互以实现修改,例如通过浏览器api接口对内容进行修改后输出。

2、事实上,生成式预训练模型在很多领域都得到了应用,并取得的良好的效果,在科技情报领域大模型也具有很好的应用,特别是科技情报内容生成方面,通过大模型能够有效整编科技情报内容使其更加符合人类的语言习惯,但是由于大模型是基于概率生成的,因此通过大模型得到的内容会出现幻觉问题,导致难以获取正确的真实客观的科技情报内容。为了解决大模型幻觉的问题,目前的方法主要有两个方面,一是通过提升大模型训练数据的质量,提升大模型的生成内容的质量。第二是通过外部知识和证据作为额外输入,纠正大模型的输出,这种方法虽然在一定程度上能够提升生成内容的准确性,但是由于是通过自评价的方式,会出现将不够准确的内容评分很高,导致不够准确的内容输出。另外,理论上大模型的训练数据一般都来自公开数据,即很多来自于互联网数据,互联网数据信息真假难辨,因此通过互联网数据对大模型的生成内容进行修正,会出现用一种错误修正另一个错误的情景。同时,这种方法对外部的知识库要求非常高,要求能够覆盖大模型生成的内容的实体,但是大模型的输入是难以确定的,因此生成内容的实体也是不确定的,当外部的知识库不能覆盖生成内容的实体关系时候,就无法对生成的内容进行幻觉检测了。事实上,现有方法根本无法满足科技情报领域的生成内容的准确性要求。

3、因此,有必要提供一种新的基于知识图谱语义证据提示和置信度的内容生成方法,以解决上述问题。


技术实现思路

1、本专利技术意在提供一种基于知识图谱语义证据提示和置信度的内容生成方法和系统,以解决现有技术中通过大模型得到的内容会出现幻觉问题,导致难以获取正确的真实客观的科技情报内容,现有方法根本无法满足科技情报领域的生成内容的准确性要求,如何提升大模型训练数据的质量、如何提升大模型的生成内容的质量等的技术问题,本专利技术要解决的技术问题通过以下技术方案来实现。

2、本专利技术第一方面提出一种基于知识图谱语义证据提示和置信度的内容生成方法,包括:将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体三元组提取,得到科技实体集合和科技关系集合;从科技实体集合中获取待处理科技实体对,采用已知的知识图谱,查询确定与待处理科技实体对相关的关联关系路径,得到与待处理科技实体对相对应的关联路径集合;基于所得到的关联路径集合,计算所述待处理科技实体对的资源总量,以用于评估所述待处理科技实体对的关系路径的可靠性;计算所述待处理科技实体对的实体三元组的综合置信度,并将计算得到的综合置信度与指定阈值进行判断;在计算得到的综合置信度小于等于指定阈值的情况下,计算待处理科技实体对的实体三元组的语义证据值;根据所计算的语义证据值,确定与待处理科技实体对相对应的提示三元组;将科技情报问题与提示三元组拼接,以作为模型输入,输入所述预训练模型,生成相应科技情报内容。

3、根据可选实施方式,确定待处理科技实体对的实体三元组的置信度;

4、采用以下表达式,计算待处理科技实体对的每一实体三元组的综合置信度:

5、;

6、其中,cm(h,r,t)表示待处理科技实体对的第 m个实体三元组的置信度, m为正整数,具体为1、2、...、m,h表示待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体,r表示待处理科技实体对中头部实体和尾部实体之间的实体关系;ppm(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的前置路径置信度;apm(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度;λ1表示与前置路径置信度相关的计算超参数;λ2表示与自适应路径置信度相关的计算超参数。

7、根据可选实施方式,所述计算所述待处理科技实体对的实体三元组的综合置信度,包括:

8、采用以下表达式,计算待处理科技实体对的自适应路径置信度:

9、;

10、其中, ap(h,r,t)表示待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度,其中,h表示待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体,r表示待处理科技实体对中头部实体和尾部实体之间的实体关系;表示sigmoid函数;p i表示集合中的第 i个实体关系路径p i, i为正整数,具体为1、2、...、n, s(h,t)表示在知识图谱g中从头部实体h到尾部实体t的所有路径的集合; r(h,p i,t)表示待处理科技实体对(h,t)在第 i个路径的资源量;qap(r,p i)表示在关系为r的待处理科技实体对(h,t)在第 i个关系路径p i的质量。

11、根据可选实施方式,所述计算所述待处理科技实体对的实体三元组的综合置信度,包括:

12、采用以下表达式,计算待处理科技实体对的实体三元组的前置路径置信度:

13、;

14、其中, pp(h,r,t)表示待处理科技实体对的实体三元组(h,r,t)的前置路径置信度,h表示待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体,r表示待处理科技实体对中头部实体和尾部实体之间的实体关系;p i表示与待处理科技实体对相关的第 i个实体关系路径, i为正整数,具体为1、2、...、n, s(h,t)表示在知识图谱中从头部实体h到尾部实体t的路径的集合, r(h,p i,t)表示待处理科技实体对(h,t)在第 i个实体关系路径的资源量;qpp(r,p i)表示第i个实体关系路径p i对实体关本文档来自技高网...

【技术保护点】

1.一种基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,进一步包括:

3.根据权利要求2所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,所述计算所述待处理科技实体对的实体三元组的综合置信度,包括:

4.根据权利要求2所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,所述计算所述待处理科技实体对的实体三元组的综合置信度,包括:

5.根据权利要求1或2所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,

6.根据权利要求1或4所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,

7.根据权利要求6所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,

8.一种基于知识图谱语义证据提示和置信度的内容生成系统,采用权利要求1所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,包括:

9.根据权利要求8所述的基于知识图谱语义证据提示和置信度的内容生成系统,其特征在于,进一步包括:

10.根据权利要求8所述的基于知识图谱语义证据提示和置信度的内容生成系统,其特征在于,进一步包括:

...

【技术特征摘要】

1.一种基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,进一步包括:

3.根据权利要求2所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,所述计算所述待处理科技实体对的实体三元组的综合置信度,包括:

4.根据权利要求2所述的基于知识图谱语义证据提示和置信度的内容生成方法,其特征在于,所述计算所述待处理科技实体对的实体三元组的综合置信度,包括:

5.根据权利要求1或2所述的基于知识图谱语义证据提示和置信度的内容生成方法,...

【专利技术属性】
技术研发人员:马慧生魏鑫磊张伟任祥辉张昊岳一峰范嘉薇
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1