【技术实现步骤摘要】
一种流式文本补全的方法
[0001]本专利技术涉及自然语言处理
,具体涉及一种流式文本补全的方法。
技术介绍
[0002]目前,语音识别大多采用流式识别的方式,每次流式识别完成后,会返回一个文本片段给客户端,但是客户端不能使用这个文本片段,因为它不是用户完整的说法指令。
[0003]但是如果我们对用户使用习惯非常了解,可以基于用户的历史说法指令和文本片段补全完整指令,进行下一步处理,而不用等流式识别完成后再处理,提升用户体验。
[0004]有很多相似度算法可以补全用户文本片段,但是现有的相似度算法,如编辑距离、余弦相似度等都不能很好的补全文本片段,因为文本片段补全需要参考的主要特征:文本有序性、文本长度概率、文本指令频繁度。
技术实现思路
[0005]本申请为了解决了上述文本补全需要考虑的特征问题,其本质是设计一种考虑文本有序性、文本长度概率、文本指令频繁度特征的方法,和现有技术相比,大大提高流式文本补全的成功率。
[0006]为了实现上述目的,本专利技术采用以下技术方案: />[0007]一种本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种流式文本补全的方法,其特征在于,包括以下步骤:构建当前用户文本指令前缀索引树:i_trie,索引树实时更新;用语音流式识别的文本片段查找i_trie,得到文本片段开头的n个补全文本,n<=10,如果n>10,则补全失败;计算从i_trie查找到补全文本的频繁度FC;计算文本指令长度概率LC;计算补全指令的归一化概率:IC=FC*LC,然后归一化处理,当IC>=0.9时,补全成功,否则认为补全失败。2.根据权利要求1所述的一种流式文本补全的方法,其特征在于,所述FC=(RC*1+∑HC
d
*DC)/(RTC*1+∑HTC
d
*DC);其中,
d
表示天数差,
d
=1,2,
…
,30;RC是当前用户的从i_trie查找到的补全文本当天的实时使用次数,时间衰减系数DC=1,当某个文本指令被使用一次,其RC加1;DC表示时间衰减系数DC...
【专利技术属性】
技术研发人员:周杰,高美军,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。