一种文本纠错方法技术

技术编号:24996083 阅读:30 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种文本纠错方法,包括:S1,获取会话语料;S2,基于TF‑IDF算法对所述会话语料构建拼音库;S3,利用N‑gram语言模型训练所述会话语料,得到频数模型;S4,结合所述拼音库与所述频数模型对目标文本进行纠错。本发明专利技术可为带有错别字的文本进行纠错,实现对话系统中对用户的咨询进行识别,并准确的应答。

【技术实现步骤摘要】
一种文本纠错方法
本专利技术涉及数据处理
,尤其涉及一种文本纠错方法。
技术介绍
在对话系统开发中,由于领域的专业性,访客经常无意中发送一些错别字,这些错别字往往会影响自然语言理解模型的识别效果,对话系统无法回复这些带有错别字的句子。如在医疗男科任务型对话系统开发中,访客无意发送一些错别字:“早谢”、“阳萎”、“包精”等,这些错别字会影响咨询识别,导致对话系统无法回复,进而降低了用户的体验。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足提供一种文本纠错方法,从而为带有错别字的文本进行纠错,实现对话系统中对用户的咨询进行识别,并准确的应答,应对用户的咨询更加合理性。为实现上述目的,本专利技术提供一种文本纠错方法,包括:S1,获取会话语料;S2,基于TF-IDF算法对所述会话语料构建拼音库;S3,利用N-gram语言模型训练所述会话语料,得到频数模型;S4,结合所述拼音库与所述频数模型对目标文本进行纠错。优选的,步骤S2包括:S2-1,计算所述会本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/nS1,获取会话语料;/nS2,基于TF-IDF算法对所述会话语料构建拼音库;/nS3,利用N-gram语言模型训练所述会话语料,得到频数模型;/nS4,结合所述拼音库与所述频数模型对目标文本进行纠错。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
S1,获取会话语料;
S2,基于TF-IDF算法对所述会话语料构建拼音库;
S3,利用N-gram语言模型训练所述会话语料,得到频数模型;
S4,结合所述拼音库与所述频数模型对目标文本进行纠错。


2.根据权利要求1所述的一种文本纠错方法,其特征在于,步骤S2包括:
S2-1,计算所述会话语料中每个词的TF-IDF值;
S2-2,抽取关键词,并对所述关键词转化为拼音,建立所述关键词对应的拼音库。


3.根据权利要求2所述的一种文本纠错方法,其特征在于,所述关键词为通过对每个词的TF-IDF值进行排序,选取排名在预设值内的词作为关键词。


4.根据权利要求2所述的一种文本纠错方法,其特征在于,步骤S3包括:
S3-1,将所述会话语料按字进行分割;
S3-2,设置滑动窗口,所述滑动窗口的值定义为N,N满足:N为正整数;

【专利技术属性】
技术研发人员:李威肖龙源廖斌李稀敏刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1