【技术实现步骤摘要】
一种应用语言人工智能的文书生成方法及系统
[0001]本专利技术属于处理优化领域,具体涉及一种应用语言人工智能的文书生成方法及系统。
技术介绍
[0002]应用语言人工智能进行文书生成是指利用自然语言处理、机器学习和深度学习等相关技术,通过计算机系统自动产生符合语法、逻辑和语义要求的文书。这项技术在许多领域,如法律、公共服务、医疗、金融等具有广泛的应用前景。虽然自然语言处理(NLP):NLP技术可用于词法分析、句法分析和语义理解等任务,通过训练模型对大量文本数据进行学习,但是现有技术在理解复杂的知识和语境方面仍然存在挑战。在生成长篇文书时,模型可能会出现逻辑错误、不连贯或缺乏上下文的问题。在特定领域的文书生成中,获取大量高质量的训练数据是一项挑战。缺乏领域特定的数据可能导致生成结果偏离预期。而生成的文书可能会涉及抄袭问题,以及生成不恰当、不合法或具有偏见的内容,这需要建立合适的监管机制和算法来确保文书的可靠性和合规性。且模型使用的数据集可能存在样本偏见和倾向性,这可能导致生成的文书存在偏见、歧视性或不公正的问题,对于对信息监控会造成影响话题的文书生成,特别需要注意避免此类问题。在公开号为CN113868391A的专利文献中提供了一种基于知识图谱的法律文书生成方法,虽然可以从案件知识图谱中确定待处理案件对应的目标裁判结果,但是对于生成不恰当或具有偏见的内容,却难以规管。在公开号为CN113420143A提供了一种文书摘要生成方法,尽管能够基于文书实体要素对目标文本进行上下文语义分析,得到文书实体要素的上下文语义向量,但 ...
【技术保护点】
【技术特征摘要】
1.一种应用语言人工智能的文书生成方法,其特征在于,所述方法包括以下步骤:输入文本文档;使用信息抽取模型,对所述文本文档进行关系抽取,得到多个三元组组成三元组集合;输入模板文档;使用生成模型,对模板文档进行补全,得到补全文本;根据补全文本,对三元组集合进行语义缩合反应,得到文本反应系数;根据文本反应系数,对补全文本进行缩合。2.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,输入的文本文档为表示一篇或多篇的文章的字符串数据。3.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,所述信息抽取模型为基于预训练语言模型的信息抽取模型,所述生成模型为根据所述文本文档对预训练语言模型进行微调训练而得到的生成模型。4.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,所述三元组集合中的三元组为由字符串组成的三维数组,所述三元组中的字符串皆属于输入的文本文档中,所述三元组集合中的三元组具有互异性。5.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,所述模板文档为包含若干个填空位置的文本,所述补全文本由多个不同的词元组成,每个词元对应一个填空位置,每个填空位置之间位置不相连且存在间隔的文字,两个填空位置之间仅存在间隔的文字而无其他的填空位置则称所述两个填空位置为相邻,相邻的两个填空位置称为相邻填空位置,相邻填空位置对应的词元为相邻词元。6.根据权利要求1所述的一种应用语言人工智能的文书生成方法,其特征在于,使用所述生成模型,对模板文档进行补全,得到若干的补全文本的方法为:使用预训练语言模型的masking机制,令所述生成模型对模板文档进行补全得到补全文本。7.根据权利要求5所述的一种应用语言人工智能的文书生成方法,其特征在于,根据补全文本,对三元组集合进行语义缩合反应,得到文本反应系数的方法为:创建语义嵌入函数,所述语义嵌入函数将输入其中的字符串转化为一个固定维度大小的语义向量进行输出;语义向量的维度数量为k;对于两个相邻词元之间,获取所述两个相邻词元之间的间隔的文字,将相邻词元及其之间的间隔的文字组成的三维数组称为相邻词元组;将全部的相邻词元组组成的集合作为相邻词元组集合;在每个相邻词元组中,通过所述语义嵌入函数将两个词元和其间隔的文字分别转化为语义向量,分别计算其中两个词元的语义向量与其间隔的文字的语义向量的语义相似度,并将两个词元的语义向量与其间隔的文字的语义向量的语义相似度进行相乘并取平方根,以所述平方根的数值作为相邻词元组的偏差权重,将其间隔的文字的语义向量的各维度的数值乘上所述偏差权重得到关系修正向量,记两个词元的语义向量与其间隔的文字的语义向量的语义相似度y1和y2,其间隔的文字的语义向量为Gvec,Gvec中序号为v的维度的数值为Gvec[v],关系修正向量为Malec,
,在三元组集合中,将各三元组的头实体、实体关系和尾实体,分别通过所述语义嵌入函数转化为语义向量,记三元组中头实体的语义向量为Subvec,记三元组中尾实体的语义向量为Obvec,记三元组中实体关系的语义向量为Relvec,计算Subvec和Relvec的语义相似度为SmR,计算Obvec和Relvec的语义相似度为OmR,计算所述三元组的语义跃迁值,语义跃迁值具有多个分值,其中,语义...
【专利技术属性】
技术研发人员:蓝建敏,池沐霖,李观春,徐泳坚,
申请(专利权)人:京华信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。