System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及机器学习,尤其涉及一种基于语言模型进行文本解析的方法、装置、电子设备及可读存储介质。
技术介绍
1、随着互联网的发展,大数据产业在互联网的发展中发挥着重要的作用。它涵盖了数据收集、存储、分析、挖掘、个性化推荐、智能决策、数据安全等方面,通过充分利用和挖掘大数据的价值,为企业和组织提供了更多的商业机会和创新空间。同时,大数据产业也面临着数据安全和隐私保护等挑战,如何合法合规地收集、处理和应用个人信息应当引起企业更多的重视。
2、为了帮助企业实现数据资产全生命周期的合法合规,规避相关法律风险,需要一套更高效率的自动化的合规检测方案,其中,如何高效的进行自动化文本解析,是亟待解决的问题。
技术实现思路
1、本申请提供一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的所述问题文本;所述方法包括:
2、获取待解析的目标文本片段;
3、构建用于从所述目标文本片段中提取所述目标文本片段包含的指定内容的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;所述解析指令用于指示所述语言模型提取所述目标文本片段中包含的指定内容;
4、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容
5、可选的,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:
6、将所述提示文本输入所述语言模型,以由所述语言模型针对所述提示文本中包含的解析指令进行遮盖,并进一步针对未进行遮盖的目标文本片段中包含的所述指定内容进行标记。
7、可选的,所述提示文本中包含作为所述问题内容的多个解析指令;
8、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,并至少输出标记完成的所述目标文本片段,包括:
9、将所述提示文本输入所述语言模型,以由所述语言模型分别基于所述多个解析指令分别针对所述目标文本片段中包含的所述指定内容进行标记;
10、分别计算与所述多个解析指令对应的指令评分;其中,所述指令评分表示所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记得到的所述标记结果的置信度;
11、从所述多个解析指令中确定出所述指令评分最高的目标解析指令,并输出所述语言模型基于所述目标解析指令针对所述目标文本片段中包含的所述指定内容进行标记,得到的标记完成的所述目标文本片段。
12、可选的,所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:
13、所述语言模型基于所述解析指令计算所述目标文本片段中每一个字符与所述指定内容相关的概率;
14、确定所述每一个字符与所述指定内容相关的概率是否大于预设的相关度阈值,并基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理。
15、可选的,基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理,包括:
16、基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,并针对所述编码序列中包含的与所述概率大于预设的相关度阈值的字符对应的编码字符进行打标处理。
17、可选的,基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,包括:
18、基于确定结果对所述目标文本片段中的每一个字符分别进行二值化编码,以生成编码序列;其中,所述编码序列中包括与所述概率大于预设的相关度阈值的字符对应的第一编码字符;以及,与所述概率不大于所述预设的相关度阈值的字符对应的第二编码字符;
19、针对所述编码序列中包含的与所述相关概率大于预设的相关度阈值的字符对应的编码字符进行打标处理,包括:
20、针对所述编码序列中包含的与所述第一编码字符进行打标处理。
21、可选的,所述输出标记完成的所述目标文本片段,包括:
22、将所述编码序列还原成所述目标文本片段,并对还原出的所述目标文本片段中包含的与所述第一编码字符位置对应的字符进行打标处理,并输出标记完成的所述目标文本片段。
23、可选的,分别计算与所述多个解析指令对应的指令评分,包括:
24、确定所述语言模型基于所述多个解析指令中的目标解析指令计算出的所述目标文本片段中每一个字符与所述指定内容相关的概率中,大于所述预设的相关度阈值的概率集合;
25、计算所述概率集合中的概率的平均值,以作为与所述目标解析指令对应的指令评分。
26、可选的,所述待解析的目标文本片段包括需要进行合规检测的文本片段;所述目标文本片段包含的指定内容包括与所述目标文本片段的合规风险相关的文本片段;
27、所述方法还包括:
28、基于所述语言模型输出的标记了与所述目标文本片段的合规风险相关的文本片段,进行合规风险检查。
29、本申请还提供一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的问题文本;所述方法包括:
30、获取待解析的目标文本片段;
31、构建用于针对所述目标文本片段中包含的与指定内容相关的描述进行分类的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;所述解析指令用于指示所述语言模型针对所述目标文本片段中包含的与指定内容相关的描述进行分类;
32、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,并至少输出标记完成的所述解析指令。
33、可选的,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,包括:
34、将所述提示文本输入所述语言模型,以由所述语言模型针对所述提示文本中包含的目标文本片段进行遮盖,并进一步针对未进行遮盖的解析指令中解析指令中包含的与指定内容相关的描述对应的分类结果进行标记。
35、可选的,所述提示文本中包含作为所述问题内容的多个解析指令;
36、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述本文档来自技高网...
【技术保护点】
1.一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的所述问题文本;所述方法包括:
2.根据权利要求1所述的方法,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:
3.根据权利要求1所述的方法,所述提示文本中包含作为所述问题内容的多个解析指令;
4.根据权利要求1所述的方法,所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:
5.根据权利要求4所述的方法,基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理,包括:
6.根据权利要求5所述的方法,基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,包括:
7.根据权利要求6所述的方法,所述输出标记完成的所述目标文本片段
8.根据权利要求3所述的方法,分别计算与所述多个解析指令对应的指令评分,包括:
9.根据权利要求1所述的方法,所述待解析的目标文本片段包括需要进行合规检测的文本片段;所述目标文本片段包含的指定内容包括与所述目标文本片段的合规风险相关的文本片段;
10.一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的问题文本;所述方法包括:
11.根据权利要求10所述的方法,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,包括:
12.根据权利要求10所述的方法,所述提示文本中包含作为所述问题内容的多个解析指令;
13.根据权利要求10所述的方法,所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,包括:
14.根据权利要求13所述的方法,基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理,包括:
15.根据权利要求14所述的方法,基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,包括:
16.根据权利要求15所述的方法,所述输出标记完成的所述解析指令,包括:
17.根据权利要求12所述的方法,分别计算与所述多个解析指令对应的指令评分,包括:
18.一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段中包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的所述答案内容进行了标记的所述问题文本;所述方法包括:
19.一种基于语言模型进行文本解析的装置,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的所述问题文本;所述装置包括:
20.一种基于语言模型进行文本解析的装置,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的问题文本;所述装置包括:
21.一种基于语言模型进行文本解析的装置,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段中包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的所述答案内容进行了标记的所述问题文本;所述装置包括:
22.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
23.一种计算机可读存储介质所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1-18任一项所述的方法。
...【技术特征摘要】
1.一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的所述问题文本;所述方法包括:
2.根据权利要求1所述的方法,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:
3.根据权利要求1所述的方法,所述提示文本中包含作为所述问题内容的多个解析指令;
4.根据权利要求1所述的方法,所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:
5.根据权利要求4所述的方法,基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理,包括:
6.根据权利要求5所述的方法,基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,包括:
7.根据权利要求6所述的方法,所述输出标记完成的所述目标文本片段,包括:
8.根据权利要求3所述的方法,分别计算与所述多个解析指令对应的指令评分,包括:
9.根据权利要求1所述的方法,所述待解析的目标文本片段包括需要进行合规检测的文本片段;所述目标文本片段包含的指定内容包括与所述目标文本片段的合规风险相关的文本片段;
10.一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的问题文本;所述方法包括:
11.根据权利要求10所述的方法,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,包括:
12.根据权利要求10所述的方法,所述提示文本中包含作为所述问题内容的多个解析指令;
13.根据权利要求10所述的方法,所述语言模型基于所述解析指令针对所述解析指令中包...
【专利技术属性】
技术研发人员:鲍梦瑶,刘佳伟,章鹏,杨仁慧,代平,
申请(专利权)人:蚂蚁区块链科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。