【技术实现步骤摘要】
基于上下文的聊天文本内容纠错方法及装置
[0001]本专利技术涉及文本处理
,具体涉及一种用于英、俄和法等带有空格的字母语种的,基于上下文的聊天文本内容纠错方法及装置。
技术介绍
[0002]近年来,随着互联网的普及,国内外不同语种的沟通过程中,越来越倾向文本聊天的方式沟通。文本聊天通过文字的形式进行意思表达,并且可以借助翻译软件进行语义翻译,减少语言沟通障碍。
[0003]文本聊天的方式虽然便利,但也给彼此沟通带来了一定的困扰,尤其是对非母语使用者和机器翻译;这是由于接触到的知识大部分来自标准的文本,而在文本聊天中,人们常常根据自己的心情或不小心等,输入不规范的聊天文本,比如:心情激动时,对单词的某个或某几个字母重复输入多次;在不小心时,对单词进行了错拼;在偷懒时,拼写单词时不加空格等等,这都导致接受者不能很好理解信息,尤其是在翻译聊天软件中,降低用户体验,最终导致收益下降。传统的纠错技术是通过词典中的词频信息或根据键盘中各个字母的位置关系进行关联和纠错,没有利用上下文信息,使得纠错准确率较低。亟需一种新的聊 ...
【技术保护点】
【技术特征摘要】
1.基于上下文的聊天文本内容纠错方法,其特征在于,包括以下步骤:训练N
‑
Gram语言模型:通过预设量的给定语种的单语训练语料,训练所述语种的N
‑
Gram语言模型,并生成对应所述语种的高频词库;复写缩减:根据所述高频词库,将所述高频词库中的词语去除相邻重复字母进行缩减,生成缩减结果到所述高频词库中词语的映射,根据所述映射得到缩减结果的候选词;分别计算聊天文本中原词的N
‑
Gram语言模型分数和候选词替换回所述聊天文本的N
‑
Gram语言模型分数,将N
‑
Gram语言模型得分最大的词作为纠错结果。2.根据权利要求1所述的基于上下文的聊天文本内容纠错方法,其特征在于,当对聊天文本原词进行所述复写缩减处理后,若聊天文本原词纠错结果未发生变化,进入编辑距离纠错:对所述聊天文本中原词进行添加字母、删除字母、交换相邻字母和改变字母中的至少一种处理,将执行的添加字母、删除字母、交换相邻字母和改变字母的操作次数作为编辑距离。3.根据权利要求2所述的基于上下文的聊天文本内容纠错方法,其特征在于,筛选出预设的编辑距离下,且在所述高频词库的候选词,分别计算聊天文本中原词的N
‑
Gram语言模型分数和候选词替换回所述聊天文本的N
‑
Gram语言模型分数,将N
‑
Gram语言模型得分最高的词语作为纠错结果。4.根据权利要求3所述的基于上下文的聊天文本内容纠错方法,其特征在于,将所述高频词库中的词语生成词典树,当对天文本原词进行所述编辑距离纠错处理后,若聊天文本原词纠错结果未发生变化,进入连写分词纠错:对所述聊天文本中原词根据所述词典树查找路径,同时计算相应的N
‑
Gram语言模型分数并保存,生成所述聊天文本中原词的连写分词候选结果。5.根据权利要求4所述的基于上下文的聊天文本内容纠错方法,其特征在于,在查找路径时根据N
‑
Gram语言模型的分数大小进行截断,比较候选路径的总体N
‑
Gram语言模型分数,选出分数最大的候选结果。6.基于上下文的聊天文本内容纠错装置,其特征在于,包括:语言模型训练模块,用于通过预设量的...
【专利技术属性】
技术研发人员:元成,陈振标,杜晓祥,
申请(专利权)人:北京云上曲率科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。