数据处理方法、装置及终端设备制造方法及图纸

技术编号:38474233 阅读:21 留言:0更新日期:2023-08-15 16:54
本申请提出一种数据处理方法和装置及终端设备,涉及数据处理、金融科技以及信息技术产业等领域,其中方法包括:将待处理文本中每个第一语句与词库中的各个参考词语对进行匹配,以确定每个第一语句中包含的目标词语对、及目标词语对中的两个词语在第一语句中的第一相对位置及间隔的字符数量;确定与目标词语对匹配的参考词语对中的两个词语间的第二相对位置,在字符数量小于预设数值,且第一相对位置与第二相对位置相同的情况下,确定目标词语对所属的第一语句为目标语句;在待处理文本中包含的目标语句的数量大于第一阈值的情况下,确定待处理文本为预设类型文本。从而提高了确定待处理文本为预设类型文本的准确性和效率。效率。效率。

【技术实现步骤摘要】
数据处理方法、装置及终端设备


[0001]本申请涉及数据处理、金融科技以及信息技术产业等领域,尤其涉及一种数据处理方法、装置及终端设备。

技术介绍

[0002]在业务申请的审批环节中,需要确定审批人给出的针对申请方财务的审批批复意见报告是否为负面类型文本,以判断业务申请是否通过。因此,亟需一种数据处理方法,以准确判别审批批复意见报告是否为负面类型文本。

技术实现思路

[0003]本申请提出一种数据处理方法和装置,以至少准确判别待处理文本中是否为预设类型文本。本申请的技术方案如下:
[0004]根据本申请实施例的第一方面,本申请实施例提供一种数据处理方法,包括:
[0005]对待处理文本做分句处理,获取多个第一语句;
[0006]将每个第一语句与词库中的各个参考词语对进行匹配,以确定每个第一语句中包含的目标词语对、及目标词语对中的两个词语在第一语句中的第一相对位置及间隔的字符数量;
[0007]确定与目标词语对匹配的参考词语对中的两个词语间的第二相对位置;
[0008]在字符数量小于预设数值本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对待处理文本做分句处理,获取多个第一语句;将每个所述第一语句与词库中的各个参考词语对进行匹配,以确定每个所述第一语句中包含的目标词语对、及所述目标词语对中的两个词语在所述第一语句中的第一相对位置及间隔的字符数量;确定与所述目标词语对匹配的参考词语对中的两个词语间的第二相对位置;在所述字符数量小于预设数值,且所述第一相对位置与所述第二相对位置相同的情况下,确定所述目标词语对所属的第一语句为目标语句;在所述待处理文本中包含的所述目标语句的数量大于第一阈值的情况下,确定所述待处理文本为预设类型文本。2.如权利要求1所述的方法,其特征在于,在所述将每个所述第一语句与词库中的各个参考词语对进行匹配之前,还包括:获取第一类别词集及第二类别词集,其中,所述第一类别词集中包含多个第一候选词,所述第二类别词集中包含多个第二候选词;将每个所述第一候选词和每个所述第二候选词,与已处理文本中每个第二语句匹配,确定每个所述第一候选词及每个所述第二候选词所属的第二语句;在任一第一候选词与任一第二候选词属于同一第二语句,且所述任一第一候选词及所述任一第二候选词在所述同一第二语句中间隔的字符数量小于第二阈值的情况下,基于所述任一第一候选词及所述任一第二候选词在所述同一第二语句中的相对位置,生成包含所述任一第一候选词及所述任一第二候选词的参考词语对。3.如权利要求2所述的方法,其特征在于,还包括:所述第一类别词集中还包括每个所述第一候选词对应的第一标签,所述第二类别词集中还包括每个所述第二候选词对应的第二标签,在任一参考词语对中第一候选词对应的第一标签与第二候选词对应的第二标签相同的情况下,删除所述词库中所述任一参考词语对。4.如权利要求2所述的方法,其特征在于,还包括:确定每个所述参考词语对所属的第二语句的数量;在任一参考词语对对应的数量小于第三阈值的情况下,删除所述词库中所述任一参考词语对。5.如权利要求2所述的方法,其特征在于,在所述将每个所述第一候选词和每个所述第二候选词,与已处理文本中每个第二语句匹配之前,还包括:参考预设的易错词表,对每个所述第一语句执行分词操作,获取多个分词;对每个所述分词及每个所述第一候选词做向量转换,获取每个所述分词对应的第一语义向量及每个所述第一候选词对应的第二语义向量;在任一第一语义向量与任一第二语义向量间的距离小于第四阈值的情况下,将所述任一第一语义向量对应的分词添加至所述第一类别词集。6.如权利要求1所述的方法,其特征在于,所述确定所述目标词语对所属的第一语句为目标语句,还包括:利用预设的规则,确定所述目标词语对所属的第一语句的句式是否为预设句式;
在所述目标词语对所属的第一语句的句式不为所述预设句式的情况下,确定所述目标词语对所属的第一语句为目标语句。7.一种数据处理装置,其特征在于,包括:获取模块,用于对待处理文本做分句处理,获取多个第一语句;匹配模块,用于将每个所述第一语句与词库中的各个参考词语对进行匹配,以确定每个所述第一语句中包含的目标词语对、及所述目标词语对中的两个词语在所述第一语句中的第一相...

【专利技术属性】
技术研发人员:蔡素贤马堃罗燕龙俞泱夏成扬詹丽娟何晨熠
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1