System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于文本分析的数字化智能校对方法及系统技术方案_技高网

一种基于文本分析的数字化智能校对方法及系统技术方案

技术编号:41133269 阅读:4 留言:0更新日期:2024-04-30 18:03
本发明专利技术公开了一种基于文本分析的数字化智能校对方法,包括:获取检测人员的身份信息,利用实体识别和关键词匹配对所述检测人员的身份信息进行识别,得到检测人员对应关系数据文档;将所述数据文档进行文档矫正,并进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间;将所述数据文本进行多文本模型逐次校对,输出异常文本,对所述异常文本进行二次校对;将所述异常文本进行审核,对符合审核标准的词条记录到专属附加部分并回传到多文本模型,将所述异常文本导出,得到最终校对数据,保证文本信息校对结果的准确性,为数据的及时更新提供支持。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体为一种基于文本分析的数字化智能校对方法及系统


技术介绍

1、随着数字化时代的到来,文本处理和自然语言处理技术得到了快速发展。人工进行文档校对,误差较大,随着各种办公用具的普及,人们利用软件进行文档校对,极大地提高了文档校对速度和准确率。

2、通过利用文档校对软件,人们可以更快速地发现和纠正文档中的错误,提高了校对的效率和准确性。这些软件通常使用先进的文本检测和纠错算法,结合大规模的词库和语言模型,能够识别和修复各种类型的错误,不同软件采用的文本检测模型和词库不同,这导致不同软件进行文档校对时的结果可能不一致,由于每个模型和词库都有其特定的优势和限制,单纯依赖一种文本检测模型进行校对容易出现误检的情况,某些错误可能被一个模型检测出来,而被另一个模型漏检;在文本校对过程中,词库的准确性和时效性非常重要,然而,如果词库没有及时更新,就会导致校对时出现异常的情况;由于文本检测模型和词库的限制,校对过程中可能会出现一些异常情况,这包括正确的新词汇被错误地标记为错误,或者某些特定的语言结构被误判为错误,这些异常情况可能会降低校对的准确性,增加人工干预的需求;基于文本检测模型的校对方法存在一定的依赖性和局限性,系统的性能和准确性取决于所采用的模型和词库的质量,如果模型或词库的质量不佳,校对结果可能会受到影响。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:本专利技术是解决单纯采用一种文本检测模型进行校对,容易出现误检的情况,且缺乏及时的信息更新,导致在文本校对时,容易出现校对异常情况的问题。

3、为解决上述技术问题,本专利技术提供如下技术方案:

4、第一方面,本专利技术提供了一种基于文本分析的数字化智能校对方法,包括:

5、获取检测人员的身份信息,利用实体识别和关键词匹配对所述检测人员的身份信息进行识别,得到检测人员对应关系数据文档;

6、将所述数据文档进行文档矫正,并进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间;

7、将所述数据文本进行多文本模型逐次校对,输出异常文本,对所述异常文本进行二次校对;

8、将所述异常文本进行审核,对符合审核标准的词条记录到专属附加部分并回传到多文本模型,将所述异常文本导出,得到最终校对数据。

9、作为本专利技术所述的基于文本分析的数字化智能校对方法的一种优选方案,其中:所述获取检测人员的身份信息,利用实体识别和关键词匹配对所述检测人员的身份信息进行识别,得到检测人员对应关系数据文档,包括,

10、通过选择深度学习模型识别检测人员身份信息,构建一个包含与检测人员身份信息相关的关键词列表;

11、将深度学习模型识别出来的人员身份信息与关键词列表进行匹配,识别得到的结果与关键词匹配的结果一致,得到检测人员的身份信息。

12、作为本专利技术所述的基于文本分析的数字化智能校对方法的一种优选方案,其中:将所述数据文档进行文档矫正,并进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间,包括,

13、对于纸质文档,使用边缘检测算法,通过计算图像中每个像素点的梯度幅值和方向,找到边缘的位置,在计算梯度后,使用非最大抑制来细化边,将边缘像素分为强边缘和弱边缘,连接强边缘和弱边缘,形成完整的边缘线条,应用透视变换,矫正文档倾斜,使文档变为水平或垂直方向,达到标准格式;

14、对于电子文档,按照标准格式要求进行调整文档的样式和格式,将标准格式的文本转化为pdf格式的数据文档。

15、作为本专利技术所述的基于文本分析的数字化智能校对方法的一种优选方案,其中:进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间,包括,

16、将数据文档导出为数据文本文件,对数据文本进行备份,对备份的数据文本的存档时间进行记录;

17、设置存档时间为第一存档时间,备份数据达到第一存档时间时,删除对应的备份数据文本。

18、作为本专利技术所述的基于文本分析的数字化智能校对方法的一种优选方案,其中:将所述数据文本进行多文本模型逐次校对,输出异常文本,对所述异常文本进行二次校对,包括,

19、通过构建文本处理管道,确定文本处理管道的输入输出均为文本文件的数据结构进行连接;

20、将若干个文本检测模型,按照顺序连接起来,形成一个处理流程,每个模型的输出将作为下一个模型的输入;

21、将数据文本传输至排序首位的文本检测模型中,输出异常文本反馈后,将异常文本传输至相邻后续的文本检测模型中,直至输出异常文本。

22、作为本专利技术所述的基于文本分析的数字化智能校对方法的一种优选方案,其中:将所述异常文本进行审核,对符合审核标准的词条记录到专属附加部分并回传到多文本模型,将所述异常文本导出,得到最终校对数据,包括,

23、将异常文本的类型和级别,进行分类和优先级排序,通过审核,将异常文本中符合审核标准的词条记录到专属附加部分,并将词条传输至文本检测模型的附加词库中。

24、作为本专利技术所述的基于文本分析的数字化智能校对方法的一种优选方案,其中:将所述异常文本导出,得到最终校对数据,包括,

25、设定二次校对时长,当异常文本达到了二次校对时长时,直接导出异常文本,作为最终校对数据。

26、第二方面,本专利技术提供了一种基于文本分析的数字化智能校对方法的系统,包括:

27、文本录入模块,用于获取检测人员的身份信息,利用实体识别和关键词匹配对所述检测人员的身份信息进行识别,得到检测人员对应关系数据文档;

28、记录核定模块,用于将所述数据文档进行文档矫正,并进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间;

29、数据校对模块,用于将所述数据文本进行多文本模型逐次校对,输出异常文本,对所述异常文本进行二次校对;

30、个性化分析模块,用于将所述异常文本进行审核,对符合审核标准的词条记录到专属附加部分并回传到多文本模型,将所述异常文本导出,得到最终校对数据。

31、第三方面,本专利技术提供了一种计算设备,包括:

32、存储器和处理器;

33、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述基于文本分析的数字化智能校对方法的步骤。

34、第四方面,本专利技术提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述基于文本分析的数字化智能校对方法的步骤。

35、本专利技术的有益效果:本专利技术通过在进行文本录入时进行检测人员信息的识别,实现对应文本的校对所属人信息确定后,通过对若干个文本识别模型进行排序,后将异常识别结果导出后,进行再次识别,降低误检情况出现的概率,达到智能化文本校对的目本文档来自技高网...

【技术保护点】

1.一种基于文本分析的数字化智能校对方法,其特征在于,包括:

2.如权利要求1所述基于文本分析的数字化智能校对方法,其特征在于,所述获取检测人员的身份信息,利用实体识别和关键词匹配对所述检测人员的身份信息进行识别,得到检测人员对应关系数据文档,包括,

3.如权利要求2所述基于文本分析的数字化智能校对方法,其特征在于,将所述数据文档进行文档矫正,并进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间,包括,

4.如权利要求3所述基于文本分析的数字化智能校对方法,其特征在于,进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间,包括,

5.如权利要求4所述基于文本分析的数字化智能校对方法,其特征在于,将所述数据文本进行多文本模型逐次校对,输出异常文本,对所述异常文本进行二次校对,包括,

6.如权利要求5所述基于文本分析的数字化智能校对方法,其特征在于,将所述异常文本进行审核,对符合审核标准的词条记录到专属附加部分并回传到多文本模型,将所述异常文本导出,得到最终校对数据,包括,

7.如权利要求5或6所述基于文本分析的数字化智能校对方法,其特征在于,将所述异常文本导出,得到最终校对数据,包括,

8.一种基于文本分析的数字化智能校对方法的系统,其特征在于,包括:

9.一种电子设备,其特征在于,所述设备包括:

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1~7中任一所述的方法。

...

【技术特征摘要】

1.一种基于文本分析的数字化智能校对方法,其特征在于,包括:

2.如权利要求1所述基于文本分析的数字化智能校对方法,其特征在于,所述获取检测人员的身份信息,利用实体识别和关键词匹配对所述检测人员的身份信息进行识别,得到检测人员对应关系数据文档,包括,

3.如权利要求2所述基于文本分析的数字化智能校对方法,其特征在于,将所述数据文档进行文档矫正,并进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间,包括,

4.如权利要求3所述基于文本分析的数字化智能校对方法,其特征在于,进行数据转化,得到数据文本并备份,记录备份数据文本的存档时间,包括,

5.如权利要求4所述基于文本分析的数字化智能校对方法,其特征在于,将所述数据文本进行多...

【专利技术属性】
技术研发人员:王飞风罗素琳周育忠蒋圣超林正平李泰霖蒙国斌孟椿智王宏王斌韦嵘晖曾嘉刘益辰
申请(专利权)人:广西电网有限责任公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1