纠错词组候选项的筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:24996077 阅读:32 留言:0更新日期:2020-07-24 17:58
本发明专利技术涉及大数据技术领域,公开了一种纠错词组候选项的筛选方法,包括:读取待纠错词组对应的多个候选项,分别测算每个候选项的初级权重值并进行排序,确定候选项的第一排序结果,根据第一排序结果,获取待纠错词组对应第一备选候选项;调用预置二级打分排序模型,分别测算第一备选候选项的二级权重值并进行排序,得到第一备选候选项的第二排序结果,获取待纠错词组对应的第二备选候选项,筛选第二备选候选项中二级权重值最高的第二备选候选项,并将对应第二备选候选项标注为目标候选项。本发明专利技术还公开了一种纠错词组候选项的筛选装置、设备及计算机可读存储介质。本发明专利技术为用户提供了更精准的纠错词组候选项的筛选服务,提高了风险监测的的准确性。

【技术实现步骤摘要】
纠错词组候选项的筛选方法、装置、设备及存储介质
本专利技术涉及大数据
,尤其涉及一种纠错词组候选项的筛选方法、装置、设备及计算机可读存储介质。
技术介绍
随着技术的发展,人工智能越来越普遍,比如人机对话场景中,机器需要通过与用户的对话内容准确获取用户的意图,通常需要对用户的对话内容中针对用户打错的字或者语言转化导致文本中出现错误进行纠错。现有的纠错技术主要需要经历错误检测,候选召回和候选排序等流程。在现有技术中,现有的纠错模型主要针对用户打错的字或者由于语言转化导致专有名词中出现错误进行纠错,需要利用单一模型对待纠错词组的所有候选项进行筛选匹配,,这种方法往往需要所有的候选项都进入到二级候选中,导致筛选出来的候选项准确度低,纠错效率低下。
技术实现思路
本专利技术的主要目的在于提供一种纠错词组候选项的筛选方法、装置、设备及计算机可读存储介质,旨在解决现有纠错技术实现效率低的技术问题。为实现上述目的,本专利技术提供一种纠错词组候选项的筛选方法,所述纠错词组候选项的筛选方法包括以下步骤:读取待纠错词本文档来自技高网...

【技术保护点】
1.一种纠错词组候选项的筛选方法,其特征在于,所述纠错词组候选项的筛选方法包括以下步骤:/n读取待纠错词组对应的多个候选项;/n基于每个所述候选项的属性值,测算每个所述候选项的初级权重值并进行排序,确定所述候选项的第一排序结果,其中,所述候选项的属性值包括词频、编辑距离及拼音jaccard距离;/n基于所述第一排序结果,获取所述待纠错词组对应的多个第一备选候选项;/n调用预置二级打分排序模型,分别测算所述第一备选候选项的二级权重值并进行排序,得到所述第一备选候选项的第二排序结果;/n基于所述第二排序结果,获取所述待纠错词组对应的多个第二备选候选项;/n筛选所述第二备选候选项中二级权重值最高的第...

【技术特征摘要】
1.一种纠错词组候选项的筛选方法,其特征在于,所述纠错词组候选项的筛选方法包括以下步骤:
读取待纠错词组对应的多个候选项;
基于每个所述候选项的属性值,测算每个所述候选项的初级权重值并进行排序,确定所述候选项的第一排序结果,其中,所述候选项的属性值包括词频、编辑距离及拼音jaccard距离;
基于所述第一排序结果,获取所述待纠错词组对应的多个第一备选候选项;
调用预置二级打分排序模型,分别测算所述第一备选候选项的二级权重值并进行排序,得到所述第一备选候选项的第二排序结果;
基于所述第二排序结果,获取所述待纠错词组对应的多个第二备选候选项;
筛选所述第二备选候选项中二级权重值最高的第二备选候选项,并将对应第二备选候选项标注为目标候选项。


2.如权利要求1所述的纠错词组候选项的筛选方法,其特征在于,在所述读取待纠错词组对应的多个候选项的步骤之前,还包括:
获取语料数据并将所述语料数据作为训练样本集;
基于所述训练样本集,提取所述训练样本集的第一参数特征,其中,所述第一参数特征包括词频变化特征、分词变化特征及语言模型特征;
基于所述训练样本集的第一参数特征,采用XGboost算法对所述训练样本集进行训练,以构建二级打分排序模型。


3.如权利要求1所述的纠错词组候选项的筛选方法,其特征在于,所述基于每个所述候选项的属性值,测算每个所述候选项的初级权重值并进行排序,确定所述候选项的第一排序结果包括:
分别获取每个所述候选项的属性值,其中所述候选项的属性值包括词频、编辑距离及拼音jaccard距离;
基于所述候选项的词频、编辑距离及拼音jaccard距离,分别计算所述候选项的初级权重值;
其中,采用如下公式计算所述候选项的初级权重值:
M=log10(T)-P-Q;
其中,M表示候选项的初级权重值,T表示对应候选项的词频,P表示对应候选项的编辑距离,Q表示拼音jaccard距离;
基于所述候选项的初级权重值,将所述候选项按权重值大小排序,得到第一排序结果。


4.如权利要求1所述的纠错词组候选项的筛选方法,其特征在于,所述调用预置二级打分排序模型,分别测算所述第一备选候选项的二级权重值并进行排序,得到所述第一备选候选项的第二排序结果包括:
分别提取所述第一备选候选项的第二参数特征,其中,所述第二参数特征包括词频变化特征、分词变化特征及语言模型特征;
基于所述第二参数特征,调用预置二级打分排序模型,分别测算所述第一备选候选项的二级权重值;
根据所述第一备选候选项的二级权重值,按照预置顺序对所述第一备选候选项进行排序,获得所述第一备选候选项的第二排序...

【专利技术属性】
技术研发人员:曾增烽刘东煜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1