一种应用语言人工智能的文书生成方法及系统技术方案

技术编号:39179531 阅读:10 留言:0更新日期:2023-10-27 08:27
本发明专利技术提供了一种应用语言人工智能的文书生成方法及系统,使用信息抽取模型对所述文本文档进行关系抽取得到多个三元组组成三元组集合,使用所述文本文档对预训练语言模型进行微调训练得到生成模型,使用所述生成模型对模板文档进行补全得到补全文本,根据补全文本对三元组集合进行语义缩合反应得到文本反应系数,根据文本反应系数对补全文本进行缩合,更好地保证文本生成的安全与质量。更好地保证文本生成的安全与质量。更好地保证文本生成的安全与质量。

【技术实现步骤摘要】
一种应用语言人工智能的文书生成方法及系统


[0001]本专利技术属于处理优化领域,具体涉及一种应用语言人工智能的文书生成方法及系统。

技术介绍

[0002]应用语言人工智能进行文书生成是指利用自然语言处理、机器学习和深度学习等相关技术,通过计算机系统自动产生符合语法、逻辑和语义要求的文书。这项技术在许多领域,如法律、公共服务、医疗、金融等具有广泛的应用前景。虽然自然语言处理(NLP):NLP技术可用于词法分析、句法分析和语义理解等任务,通过训练模型对大量文本数据进行学习,但是现有技术在理解复杂的知识和语境方面仍然存在挑战。在生成长篇文书时,模型可能会出现逻辑错误、不连贯或缺乏上下文的问题。在特定领域的文书生成中,获取大量高质量的训练数据是一项挑战。缺乏领域特定的数据可能导致生成结果偏离预期。而生成的文书可能会涉及抄袭问题,以及生成不恰当、不合法或具有偏见的内容,这需要建立合适的监管机制和算法来确保文书的可靠性和合规性。且模型使用的数据集可能存在样本偏见和倾向性,这可能导致生成的文书存在偏见、歧视性或不公正的问题,对于对信息监控会造成影响话题的文书生成,特别需要注意避免此类问题。在公开号为CN113868391A的专利文献中提供了一种基于知识图谱的法律文书生成方法,虽然可以从案件知识图谱中确定待处理案件对应的目标裁判结果,但是对于生成不恰当或具有偏见的内容,却难以规管。在公开号为CN113420143A提供了一种文书摘要生成方法,尽管能够基于文书实体要素对目标文本进行上下文语义分析,得到文书实体要素的上下文语义向量,但是对于预设的多跳知识关系难以捕捉,还是难以避免样本偏见和倾向性。

技术实现思路

[0003]本专利技术的目的在于提出一种应用语言人工智能的文书生成方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0004]本专利技术提供了一种应用语言人工智能的文书生成方法及系统,使用信息抽取模型对所述文本文档进行关系抽取得到多个三元组组成三元组集合,使用所述文本文档对预训练语言模型进行微调训练得到生成模型,使用所述生成模型对模板文档进行补全得到补全文本,根据补全文本对三元组集合进行语义缩合反应得到文本反应系数,根据文本反应系数对补全文本进行缩合,更好地保证文本生成的安全与质量。
[0005]为了实现上述目的,根据本专利技术的一方面,提供一种应用语言人工智能的文书生成方法,所述方法包括以下步骤:输入文本文档;使用信息抽取模型,对所述文本文档进行关系抽取,得到多个三元组组成三元组集合;输入模板文档;
使用所述生成模型,对模板文档进行补全,得到补全文本;根据补全文本,对三元组集合进行语义缩合反应,得到文本反应系数;根据文本反应系数,对补全文本进行缩合。
[0006]进一步地,输入的文本文档为表示一篇或多篇的文章的字符串数据。
[0007]进一步地,所述信息抽取模型为基于预训练语言模型的信息抽取模型,所述生成模型为根据所述文本文档对预训练语言模型进行微调训练而得到的生成模型;在一些实施例中,为了节省训练成本,可以通过与ChatGPT的聊天进行zero

shot的信息提取来实现所述信息抽取模型,而在一些实施例中,为了保证数据的安全性和独立性,可以使用基于Bert

NER构建的中文信息抽取框架(例如BERT

NER)。
[0008]进一步地,所述三元组集合中的三元组为由字符串组成的三维数组,所述三元组中的字符串皆属于输入的文本文档中,所述三元组集合中的三元组具有互异性。所述三元组为(Subject, Predicate, Object),其中位于头部的Subject即头实体和位于末尾的Object即尾实体为两个实体,中间的Predicate为实体关系,Subject、Predicate和Object为字符串形式。
[0009]进一步地,所述模板文档为包含若干个填空位置的文本,所述补全文本由多个不同的词元组成,(词元可以表示token,token为字符串类型,)每个词元对应一个填空位置,每个填空位置之间位置不相连且存在间隔的文字,两个填空位置之间仅存在间隔的文字而无其他的填空位置则称所述两个填空位置为相邻,相邻的两个填空位置称为相邻填空位置,相邻填空位置对应的词元为相邻词元。
[0010]进一步地,使用所述生成模型,对模板文档进行补全,得到若干的补全文本的方法为:使用预训练语言模型的masking机制,令所述生成模型对模板文档进行补全得到补全文本。
[0011]进一步地,根据补全文本,对三元组集合进行语义缩合反应,得到文本反应系数的方法为:创建语义嵌入函数,所述语义嵌入函数将输入其中的字符串转化为一个固定维度大小的语义向量进行输出;语义向量的维度数量为k,语义向量中各维度的序号为v,有v∈[1,k],语义向量之间的语义相似度可为0~1的数值;对于两个相邻词元之间,获取所述两个相邻词元之间的间隔的文字,将相邻词元及其之间的间隔的文字组成的三维数组称为相邻词元组;将全部的相邻词元组组成的集合作为相邻词元组集合;在每个相邻词元组中,通过所述语义嵌入函数将两个词元和其间隔的文字分别转化为语义向量,分别计算其中两个词元的语义向量与其间隔的文字的语义向量的语义相似度,并将两个词元的语义向量与其间隔的文字的语义向量的语义相似度进行相乘并取平方根,以所述平方根的数值作为相邻词元组的偏差权重,将其间隔的文字的语义向量的各维度的数值乘上所述偏差权重得到关系修正向量,记两个词元的语义向量与其间隔的文字的语义向量的语义相似度y1和y2,其间隔的文字的语义向量为Gvec,Gvec中序号为v的维度的数值为Gvec[v],关系修正向量为Malec,
,在Malec中,可以看到各维度Gvec[v]*√(y1*y2)的数值计算是可以平行的,不同于语义向量要经过矩阵分解的高复杂度计算,这样有利于应用分布式计算设备对计算过程进行加快,缓解了大规模预训练模型的运行时间长造成的问题,可以大规模进行文书生成;在三元组集合中,将各三元组的头实体、实体关系和尾实体,分别通过所述语义嵌入函数转化为语义向量,记三元组中头实体的语义向量为Subvec,记三元组中尾实体的语义向量为Obvec,记三元组中实体关系的语义向量为Relvec,计算Subvec和Relvec的语义相似度为SmR,计算Obvec和Relvec的语义相似度为OmR,计算所述三元组的语义跃迁值,语义跃迁值具有多个分值,其中,语义跃迁值的各分值的数量与语义向量各维度的数量保持一致的,语义跃迁值的各分值的序号与语义向量各维度的序号也是保持一致的,记语义跃迁值为Benec,所述Benec中序号为v的分值记为Benec[v],Benec[v]的计算公式为:,值得注意的是,不应将语义跃迁值Benec视为一个向量,语义跃迁值并非像语义向量一样各维度的排列顺序是有序而固定的,在本专利技术提供的实施例中,是为了便于计算而选取了语义跃迁值的其中一种状态,即语义跃迁值的各分值的数量与语义向量各维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用语言人工智能的文书生成方法,其特征在于,所述方法包括以下步骤:输入文本文档;使用信息抽取模型,对所述文本文档进行关系抽取,得到多个三元组组成三元组集合;输入模板文档;使用生成模型,对模板文档进行补全,得到补全文本;根据补全文本,对三元组集合进行语义缩合反应,得到文本反应系数;根据文本反应系数,对补全文本进行缩合。2.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,输入的文本文档为表示一篇或多篇的文章的字符串数据。3.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,所述信息抽取模型为基于预训练语言模型的信息抽取模型,所述生成模型为根据所述文本文档对预训练语言模型进行微调训练而得到的生成模型。4.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,所述三元组集合中的三元组为由字符串组成的三维数组,所述三元组中的字符串皆属于输入的文本文档中,所述三元组集合中的三元组具有互异性。5.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,所述模板文档为包含若干个填空位置的文本,所述补全文本由多个不同的词元组成,每个词元对应一个填空位置,每个填空位置之间位置不相连且存在间隔的文字,两个填空位置之间仅存在间隔的文字而无其他的填空位置则称所述两个填空位置为相邻,相邻的两个填空位置称为相邻填空位置,相邻填空位置对应的词元为相邻词元。6.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,使用所述生成模型,对模板文档进行补全,得到若干的补全文本的方法为:使用预训练语言模型的masking机制,令所述生成模型对模板文档进行补全得到补全文本。7.根据权利要求5所述的一种应用语言人工智能的文书生成方法,其特征在于,根据补全文本,对三元组集合进行语义缩合反应,得到文本反应系数的方法为:创建语义嵌入函数,所述语义嵌入函数将输入其中的字符串转化为一个固定维度大小的语义向量进行输出;语义向量的维度数量为k;对于两个相邻词元之间,获取所述两个相邻词元之间的间隔的文字,将相邻词元及其之间的间隔的文字组成的三维数组称为相邻词元组;将全部的相邻词元组组成的集合作为相邻词元组集合;在每个相邻词元组中,通过所述语义嵌入函数将两个词元和其间隔的文字分别转化为语义向量,分别计算其中两个词元的语义向量与其间隔的文字的语义向量的语义相似度,并将两个词元的语义向量与其间隔的文字的语义向量的语义相似度进行相乘并取平方根,以所述平方根的数值作为相邻词元组的偏差权重,将其间隔的文字的语义向量的各维度的数值乘上所述偏差权重得到关系修正向量,记两个词元的语义向量与其间隔的文字的语义向量的语义相似度y1和y2,其间隔的文字的语义向量为Gvec,Gvec中序号为v的维度的数值为Gvec[v],关系修正向量为Malec,
,在三元组集合中,将各三元组的头实体、实体关系和尾实体,分别通过所述语义嵌入函数转化为语义向量,记三元组中头实体的语义向量为Subvec,记三元组中尾实体的语义向量为Obvec,记三元组中实体关系的语义向量为Relvec,计算Subvec和Relvec的语义相似度为SmR,计算Obvec和Relvec的语义相似度为OmR,计算所述三元组的语义跃迁值,语义跃迁值具有多个分值,其中,语义...

【专利技术属性】
技术研发人员:蓝建敏池沐霖李观春徐泳坚
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1