【技术实现步骤摘要】
文本纠错方法、装置及通信设备
本申请属于文本纠错
,尤其涉及文本纠错方法、装置、通信设备及计算机可读存储介质。
技术介绍
文本纠错长期以来是自然语言处理的一大技术难题,通常文本纠错在很多人机会话系统都会涉及,以提升对话系统的体验。文本纠错可通过先检错再纠错的方式实现。例如采用传统的n-gram,贝叶斯等方法都能实现句子的检错,纠错的模块通常采用计算编辑距离来找错误和纠正错误。其中,N-gram是一种基于统计的语言模型,常常用来做句子相似度比较,句子合理性判断。即在现有的文本纠错方法中,通常通过n-gram对待纠错文本进行相似度比较和距离合理性判断后,得出待纠错文本中存在错误的具体位置,再采用计算编辑距离实现错误的纠正。但现有的文本纠错方法仍存在纠错准确率较低的问题。
技术实现思路
本申请实施例提供了文本纠错方法,可以解决现有的文本存在的纠错准确率较低问题。第一方面,本申请实施例提供了一种文本纠错方法,包括:对待纠错文本进行分词,得到对应的词语;根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠 ...
【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n对待纠错文本进行分词,得到对应的词语;/n根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;/n根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;/n根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。/n
【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
对待纠错文本进行分词,得到对应的词语;
根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;
根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;
根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。
2.如权利要求1所述的文本纠错方法,其特征在于,所述根据所述待预测字对所述待纠错文本进行纠错,得到校正文本,包括:
对所述待预测字进行预测,得到对应的预测字;
根据所述预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本;
根据所述预测文本确定校正文本。
3.如权利要求2所述的文本纠错方法,其特征在于,所述对所述待预测字进行预测之后,还得到:预测概率,所述预测概率用于指示所述待预测字为所述预测字的概率;
所述根据所述预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,包括:
若得到的所述预测字的数量大于预设的字数量,则根据所述大于概率阈值的预测概率所对应的预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本。
4.如权利要求2所述的文本纠错方法,其特征在于,所述根据所述预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,包括:
若预设的混淆集存在所述待预测字与所述预测字的对应关系,则根据存在所述对应关系的预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待...
【专利技术属性】
技术研发人员:熊为星,
申请(专利权)人:深圳市优必选科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。