System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本处理,尤其涉及一种文档合规性检测方法、装置、电子设备及存储介质。
技术介绍
1、对于具有规范的标准要求的文档,因撰写人的个人理解与认知上的差异,其撰写的文档未严格按照标准要求撰写,存在内容不合规或语法语义错误,传统方法是使用人工进行文档的审核,审核人员需要投入大量的时间和精力,对文档中不满足要求的章节以及内容进行人工审核检测,而现有方法为训练相应的模型实现文档合规性检测,但仅能识别一种标准要求的文档,若标准要求改变,则需重新训练,导致效率较低。因此,如何提供一种能够进行文档合规性检测,且仍能够保证效率较高的文档合规性检测方法成为了一个亟待解决的问题。
技术实现思路
1、本专利技术实施例提供一种文档合规性检测方法,旨在解决现有文档合规性检测效率较低问题。通过对待检测的文档进行正则化处理,得到正则化文本,通过正则化文本以及预设的提示模板构建提示文本,并输入至预设的文本检测大模型中进行文本检测处理,得到文本检测结果,基于文本检测结果判断待检测的文档是否符合预设的撰写要求,通过正则化文本以及提示模板能够快速构建大模型所需的提示文本,通过大模型对提示文本进行文本检测,能够实现对不同标准要求的文档进行检测,从而提升了文档合规性检测的效率。
2、第一方面,本专利技术实施例提供一种文档合规性检测方法,所述方法包括以下步骤:
3、获取待检测的文档,所述待检测的文档具有特定的文档结构;
4、基于所述待检测的文档进行正则化处理,得到所述待检测的文档的
5、基于所述正则化文本以及预设的提示模板,构建提示文本,所述提示文本中包括所述正则化文本以及所述正则化文本对应的检测问题;
6、将所述提示文本输入至预设的文本检测大模型中进行文本检测处理,得到文本检测结果;
7、基于所述文本检测结果,确定所述文档是否符合预设的撰写要求。
8、可选地,所述基于所述待检测的文档进行正则化处理,得到所述待检测的文档的正则化文本,包括:
9、从所述待检测的文档中,提取所述待检测的文档的标题结构体和页码结构体,所述标题结构体中包括标题,所述页码结构体中包括对应页码的文本内容;
10、基于所述标题结构体,对各个所述标题进行正则化处理,得到正则化标题;
11、基于所述正则化标题以及所述页码结构体中对应页码的文本内容,确定所述正则化文本。
12、可选地,所述正则化标题包括各个标题的页码,所述基于所述正则化标题以及所述页码结构体中对应页码的文本内容,确定所述正则化文本,包括:
13、基于所述各个标题的页码,在所述页码结构体中,确定各个标题的文本内容;
14、基于所述正则化标题以及所述各个标题的文本内容进行正则化匹配,得到所述待检测的文档的正则化文本。
15、可选地,所述基于各个标题的页码,在所述页码结构体中,确定各个标题的文本内容,包括:
16、基于各个标题的页码,确定相邻标题之间的页码范围;
17、基于所述页码范围,在所述页码结构体中确定所述相邻标题中在先标题的文本内容。
18、可选地,所述文本检测结果包括文本检测标签列表,所述基于所述文本检测结果,确定所述文档是否符合预设的撰写要求,包括:
19、基于所述文本检测标签列表,确定所述文本检测结果对应的文本内容是否具有文本错误;
20、当所述文本检测结果对应的文本内容具有文本错误时,基于所述文本检测标签列表中的各个标签,确定所述文本检测结果对应的文本内容的错误类型;
21、基于所述文本检测结果对应的文本内容的错误类型,确定所述文档是否符合预设的撰写要求。
22、可选地,所述文本检测标签列表包括正确文本标签以及错误文本标签,所述错误文本标签表示所述待检测的文档中的错误文本内容对应的正则化文本,所述正确文本标签表示所述预设的文本检测大模型对所述错误文本内容进行更正后输出的正确文本内容,所述基于所述文本检测标签列表,确定所述文本检测结果对应的文本内容是否具有文本错误,包括:
23、当所述文本检测标签列表为空时,则所述文本检测结果对应的文本内容不具有文本错误;
24、当所述文本检测标签列表不为空时,则将所述正确文本标签以及所述错误文本标签进行比对;
25、若所述正确文本标签与所述错误文本标签不一致,则所述文本检测结果对应的文本内容具有文本错误。
26、可选地,所述文本检测标签列表包括正确文本标签、错误文本标签、操作类型标签以及错误类型标签,所述错误文本标签表示所述待检测的文档中的错误文本内容对应的正则化文本,所述正确文本标签表示所述预设的文本检测大模型对所述错误文本内容进行更正后输出的正确文本内容,所述操作类型标签为将所述错误文本内容转换为所述正确文本内容需要的编辑操作类型,所述错误类型标签为所述错误文本内容的错误类型,所述当所述文本检测结果对应的文本内容具有文本错误时,基于所述文本检测标签列表中的各个标签,确定所述文本检测结果对应的文本内容的错误类型,包括:
27、当所述文本检测结果对应的文本内容具有文本错误时,则确定所述错误类型标签是否为语序错误;
28、当所述错误类型标签为语序错误时,则确定所述正确文本标签以及所述错误文本标签的字符种类以及字符数目是否相同;
29、当所述字符种类以及字符数目不相同时,则所述文本检测结果对应的文本内容的错误类型不为语序错误;
30、当所述文本检测结果对应的文本内容的错误类型不为语序错误时,计算所述正确文本标签与所述错误文本标签之间的编辑差异,所述编辑差异表示将所述错误文本标签转换为所述正确文本标签所需的操作起始位置以及操作终止位置;
31、基于所述操作起始位置以及所述操作终止位置,确定所述正确文本标签对应的第二正确文本内容,所述错误文本标签对应的第二错误文本内容;
32、若所述第二正确文本内容以及所述第二错误文本内容在所述文本检测标签列表中存在,则所述文本检测结果对应的文本内容的错误类型为所述错误类型标签对应的错误类型;
33、若所述第二正确文本内容以及所述第二错误文本内容在所述文本检测标签列表中不存在,且所述操作类型标签为替换标签时,则所述文本检测结果对应的文本内容的错误类型为字词错误;
34、若所述第二正确文本内容以及所述第二错误文本内容在所述文本检测标签列表中不存在,且所述操作类型标签不为替换标签时,则所述文本检测结果对应的文本内容的错误类型为语法错误。
35、第二方面,本专利技术实施例还提供了一种文档合规性检测装置,所述文档合规性检测装置包括:
36、获取模块,用于获取待检测的文档,所述待检测的文档具有特定的文档结构;
37、正则化模块,用于基于所述待检测的文档进行正则化处理,得到所述待检测的文档的正则化文本;
38、构建模块,用于本文档来自技高网...
【技术保护点】
1.一种文档合规性检测方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的文档合规性检测方法,其特征在于,所述基于所述待检测的文档进行正则化处理,得到所述待检测的文档的正则化文本,包括:
3.如权利要求2所述的文档合规性检测方法,其特征在于,所述正则化标题包括各个标题的页码,所述基于所述正则化标题以及所述页码结构体中对应页码的文本内容,确定所述正则化文本,包括:
4.如权利要求3所述的文档合规性检测方法,其特征在于,所述基于各个标题的页码,在所述页码结构体中,确定各个标题的文本内容,包括:
5.如权利要求1至4任一项所述的文档合规性检测方法,其特征在于,所述文本检测结果包括文本检测标签列表,所述基于所述文本检测结果,确定所述文档是否符合预设的撰写要求,包括:
6.如权利要求5所述的文档合规性检测方法,其特征在于,所述文本检测标签列表包括正确文本标签以及错误文本标签,所述错误文本标签表示所述待检测的文档中的错误文本内容对应的正则化文本,所述正确文本标签表示所述预设的文本检测大模型对所述错误文本内容进行更正后输出
7.如权利要求5所述的文档合规性检测方法,其特征在于,所述文本检测标签列表包括正确文本标签、错误文本标签、操作类型标签以及错误类型标签,所述错误文本标签表示所述待检测的文档中的错误文本内容对应的正则化文本,所述正确文本标签表示所述预设的文本检测大模型对所述错误文本内容进行更正后输出的正确文本内容,所述操作类型标签为将所述错误文本内容转换为所述正确文本内容需要的编辑操作类型,所述错误类型标签为所述错误文本内容的错误类型,所述当所述文本检测结果对应的文本内容具有文本错误时,基于所述文本检测标签列表中的各个标签,确定所述文本检测结果对应的文本内容的错误类型,包括:
8.一种文档合规性检测装置,其特征在于,所述文档合规性检测装置包括:
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文档合规性检测方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文档合规性检测方法中的步骤。
...【技术特征摘要】
1.一种文档合规性检测方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的文档合规性检测方法,其特征在于,所述基于所述待检测的文档进行正则化处理,得到所述待检测的文档的正则化文本,包括:
3.如权利要求2所述的文档合规性检测方法,其特征在于,所述正则化标题包括各个标题的页码,所述基于所述正则化标题以及所述页码结构体中对应页码的文本内容,确定所述正则化文本,包括:
4.如权利要求3所述的文档合规性检测方法,其特征在于,所述基于各个标题的页码,在所述页码结构体中,确定各个标题的文本内容,包括:
5.如权利要求1至4任一项所述的文档合规性检测方法,其特征在于,所述文本检测结果包括文本检测标签列表,所述基于所述文本检测结果,确定所述文档是否符合预设的撰写要求,包括:
6.如权利要求5所述的文档合规性检测方法,其特征在于,所述文本检测标签列表包括正确文本标签以及错误文本标签,所述错误文本标签表示所述待检测的文档中的错误文本内容对应的正则化文本,所述正确文本标签表示所述预设的文本检测大模型对所述错误文本内容进行更正后输出的正确文本内容,所述基于所述文本检测标签列表,确定所述文本检测结果对应的文本内容是否具...
【专利技术属性】
技术研发人员:匡哲民,赵品龙,龚鸥波,
申请(专利权)人:深圳云天励飞技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。