【技术实现步骤摘要】
用于自然语言纠错排序模型的获取方法和装置
[0001]本专利技术涉及数据处理
,具体涉及一种用于自然语言纠错排序模型的获取方法和装置。
技术介绍
[0002]日常生活中,人们对微信等社交软件的使用越来越广泛,随着微信语音转文字功能的使用越来越频繁,人们对语音识别结果的要求也越来越高。
[0003]自然语言纠错排序模型被用于进行语音识别结果分析。纠错排序指的是对纠错时的候选词进行排序,找到可能性最大的词。
[0004]现有的自然语言纠错排序模型使用的语料不够全面,也不能覆盖到网络流行语、新兴词汇等随时间演化的词语,同时不同场景下常用语也不同,这都导致排序的效果不佳。另外,训练语料中存在错误也可能导致排序时正确词语的得分不高,影响纠错效果。
技术实现思路
[0005]有鉴于此,本专利技术实施例提供了一种用于自然语言纠错排序模型的获取方法和装置,以使模型在对候选词排序时能够识别到新产生的词汇,从而使得对候选词进行排序时更准确,得到的语音识别结果也更准确。
[0006]第一方面,本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种用于自然语言纠错排序模型的获取方法,其特征在于,所述方法包括:获取网络文本数据;预处理所述网络文本数据,以确定训练数据;根据所述训练数据训练第一N
‑
Gram模型;将所述第一N
‑
Gram模型与第二N
‑
Gram模型合并,确定所述自然语言纠错排序模型,所述第二N
‑
Gram模型为既有的自然语言纠错排序模型。2.根据权利要求1所述的方法,其特征在于,所述N
‑
Gram是一种基于概率的判别模型,所述判别模型可以从是否符合自然语言的角度评估一个句子的出现的概率。3.根据权利要求1所述的方法,其特征在于,所述方法包括:通过爬虫以规避已爬取内容的方式获取不同于所述第二N
‑
Gram模型训练数据的网络文本数据。4.根据权利要求1所述的方法,其特征在于,所述预处理所述网络文本数据包括:将所述网络文本数据中敏感数据替换为占位符,其中,所述敏感数据为涉及用户个人隐私的数据。5.根据权利要求1所述的方法,其特征在于,所述预处理所述网络文本数据还包括:删除包含特殊符号、打错字的句子。6.根据权利要求1所述的方法,其特征在于,所述方法包括:通过语言模型训练工具SRILM中的mix
‑
lm...
【专利技术属性】
技术研发人员:林雨琦,李媛媛,
申请(专利权)人:上海墨百意信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。