基于改进的自然语言处理的数据审核方法技术

技术编号:40316624 阅读:15 留言:0更新日期:2024-02-07 20:59
本发明专利技术公开了一种基于改进的自然语言处理的数据审核方法,以形成在所搭建的三维空间下的不同平面坐标系中的点位阵列为媒介,通过计算待审核报告与报告模板形成在三维空间的同个平面坐标系下的相应点位之间的横轴坐标值的第一距离和第二距离,实现了对待审核报告中是否存在目录名称缺失的并行审核;通过计算待审核报告与报告模板形成在三维空间的不同平面坐标系下的相应点位之间的第三距离和第四距离,实现了对待审核报告中的目录名称排序是否出错的并行审核;并行审核无需复杂的语义分析,提升了审核效率。另外,将现有的后置审核改变为部分前置审核,采用不同策略对不同平面坐标系下的点位阵列进行内容正确性的并行审核,也提升了审核效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种基于改进的自然语言处理的数据审核方法


技术介绍

1、各种报告通常具有规范的格式要求,比如某信息化项目可行性研究报告,需要包括项目名称、项目申报单位、编制单位、编制时间、总论、项目建设现状、项目需求分析、项目方案、经济性和财务合规性、软硬件设计、主要设备材料清册、提现结算书、附录等一级目录,总论等一级目录下又包括相应的二级目录。人们在编制报告时通常会产生一些不合规的数据,比如目录名称缺失等报告内容不完整的问题,又比如目录名称排序出错、相应目录下内容错误、内容不清晰等报告内容不正确的问题。

2、对于目录名称缺失的问题,现有方法通常采用nlp(自然语言处理)技术,对报告中的文本内容进行语义分析,从而提取出关键信息,比如提取出各级目录的名称,然后与报告模板中的目录名称进行一一匹配,以识别出哪些目录名称缺失。但对文本内容的语义分析是一个复杂的过程,从语义分析结果中抽取出哪些是目录名称的关键信息也不容易,当报告内容和目录数据庞大时,通过语义提取关键信息的过程更为复杂。

3、对于目录名称排序出错的问题,现有方本文档来自技高网...

【技术保护点】

1.一种基于改进的自然语言处理的数据审核方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,所述点位转换条件为:用户在同一行中输入的文本字数少于字数阈值;

3.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤S1中,形成所述点位阵列的方法包括步骤:

4.根据权利要求3所述的基于改进的自然语言处理的数据审核方法,其特征在于,在所述三维空间中绘制点位的方法为:

5.根据权利要求1-4任意一项所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤S2中,所述第一并...

【技术特征摘要】

1.一种基于改进的自然语言处理的数据审核方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,所述点位转换条件为:用户在同一行中输入的文本字数少于字数阈值;

3.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤s1中,形成所述点位阵列的方法包括步骤:

4.根据权利要求3所述的基于改进的自然语言处理的数据审核方法,其特征在于,在所述三维空间中绘制点位的方法为:

5.根据权利要求1-4任意一项所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤s2中,所述第一并行审核的方法包括步骤:

6.根据权利要求5所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤b3中的“若是”判定下,在所述待审核报告中标注出疑似目录名称缺失的位置的方法包括步骤:

7.根据权利要...

【专利技术属性】
技术研发人员:周汝琴陈雄谢鲲王维忠吴鹏程董世聪
申请(专利权)人:杭州市余杭区数据资源管理局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1