【技术实现步骤摘要】
本专利技术涉及数据处理,具体涉及一种基于改进的自然语言处理的数据审核方法。
技术介绍
1、各种报告通常具有规范的格式要求,比如某信息化项目可行性研究报告,需要包括项目名称、项目申报单位、编制单位、编制时间、总论、项目建设现状、项目需求分析、项目方案、经济性和财务合规性、软硬件设计、主要设备材料清册、提现结算书、附录等一级目录,总论等一级目录下又包括相应的二级目录。人们在编制报告时通常会产生一些不合规的数据,比如目录名称缺失等报告内容不完整的问题,又比如目录名称排序出错、相应目录下内容错误、内容不清晰等报告内容不正确的问题。
2、对于目录名称缺失的问题,现有方法通常采用nlp(自然语言处理)技术,对报告中的文本内容进行语义分析,从而提取出关键信息,比如提取出各级目录的名称,然后与报告模板中的目录名称进行一一匹配,以识别出哪些目录名称缺失。但对文本内容的语义分析是一个复杂的过程,从语义分析结果中抽取出哪些是目录名称的关键信息也不容易,当报告内容和目录数据庞大时,通过语义提取关键信息的过程更为复杂。
3、对于目录名称排
...【技术保护点】
1.一种基于改进的自然语言处理的数据审核方法,其特征在于,步骤包括:
2.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,所述点位转换条件为:用户在同一行中输入的文本字数少于字数阈值;
3.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤S1中,形成所述点位阵列的方法包括步骤:
4.根据权利要求3所述的基于改进的自然语言处理的数据审核方法,其特征在于,在所述三维空间中绘制点位的方法为:
5.根据权利要求1-4任意一项所述的基于改进的自然语言处理的数据审核方法,其特征在于,步
...【技术特征摘要】
1.一种基于改进的自然语言处理的数据审核方法,其特征在于,步骤包括:
2.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,所述点位转换条件为:用户在同一行中输入的文本字数少于字数阈值;
3.根据权利要求1所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤s1中,形成所述点位阵列的方法包括步骤:
4.根据权利要求3所述的基于改进的自然语言处理的数据审核方法,其特征在于,在所述三维空间中绘制点位的方法为:
5.根据权利要求1-4任意一项所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤s2中,所述第一并行审核的方法包括步骤:
6.根据权利要求5所述的基于改进的自然语言处理的数据审核方法,其特征在于,步骤b3中的“若是”判定下,在所述待审核报告中标注出疑似目录名称缺失的位置的方法包括步骤:
7.根据权利要...
【专利技术属性】
技术研发人员:周汝琴,陈雄,谢鲲,王维忠,吴鹏程,董世聪,
申请(专利权)人:杭州市余杭区数据资源管理局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。