【技术实现步骤摘要】
本专利技术涉及输入法领域,特别涉及拼音输入。
技术介绍
随着计算机技术的不断发展和进步,拼音输入法的技术也有了进步和提高,特别是拼音的长句连打输入,现有技术是根据上下文在给定拼音条件下找到一个最优的句子,可将其视为一个动态规划问题,找到最短路径。其核心技术为采用隐马尔科夫模型,利用统计自然语言的处理方式进行运算和处理,得到最优的句子。马尔科夫的缺点在于它的独立性假设,其假设忽略了时刻发生的事件与时刻之前所有事件之间的联系,但也正是因为有了这样的假设,使得算法变得简单明了。隐马尔科夫模型采用生成式的联合概率模型来求解这种条件概率问题,这种方法不适合处理很多特征描述观察序列的情况。马尔科夫的假设,致使模型的阶数越高时,反而不会给模型带来好的统计结果,即使阶数再提高,也无法覆盖所有的语言现象。所有这些缺陷,造成拼音长句连打的整句或者长句连打后的输出结果精准度不高。
技术实现思路
本专利技术的目的在于提供一种拼音的长句连打输入方法及其系统,通过建立 ...
【技术保护点】
一种拼音的长句连打输入方法,其特征在于,包含以下步骤:预先建立双向隐马尔可夫BHMM模型;在所述BHMM模型中,长句中的每个汉字的出现概率由正向传播时该汉字及该汉字的前N个汉字在数据库中同时出现的次数,反向传播时该汉字及该汉字的后N个汉字在数据库中同时出现的次数决定;所述N为大于1的自然数;持续接收用户输入的拼音码;根据所述BHMM模型和所述持续接收到的拼音码,获取在该BHMM模型中出现概率最大的各汉字所组成的长句;输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长句。
【技术特征摘要】 【专利技术属性】
1.一种拼音的长句连打输入方法,其特征在于,包含以下步骤:
预先建立双向隐马尔可夫BHMM模型;在所述BHMM模型中,长句
中的每个汉字的出现概率由正向传播时该汉字及该汉字的前N个汉字在数
据库中同时出现的次数,反向传播时该汉字及该汉字的后N个汉字在数据
库中同时出现的次数决定;所述N为大于1的自然数;
持续接收用户输入的拼音码;
根据所述BHMM模型和所述持续接收到的拼音码,获取在该BHMM
模型中出现概率最大的各汉字所组成的长句;
输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长
句。
2.根据权利要求1所述的拼音的长句连打输入方法,其特征在于,
所述BHMM模型建立在云端服务器内;
所述根据BHMM模型和所述持续接收到的拼音码,获取在该BHMM
模型中出现概率最大的各汉字所组成的长句的步骤中,包含以下子步骤:
客户端将所述持续接收到的拼音码实时发送至所述云端服务器,由所述
云端服务器根据BHMM模型和所述持续接收到的拼音码,实时获取所述长
句。
3.根据权利要求1所述的拼音的长句连打输入方法,其特征在于,所
述根据BHMM模型和所述持续接收到的拼音码,获取在该BHMM模型中
出现概率最大的各汉字所组成的长句的步骤中,根据以下公式获取所述长
句:
w 1 , w 2 , ... , w L = A r g M a x Π i = 1 L ( P ( w i | w i - 1 , w i - 2 , ... w i - N ) + P ( w i ′ | w i + 1 ′ , w i + 2 ′ , ... w i + N ′ ) ) ]]>其中,w1,w2,...,wL表示获取的所述长句中的各汉字,L为大于1的自然数;
P(wi|wi-1,wi-2,...wi-N)代表在正向传播过程中,汉字wi的前N个汉字wi-1,wi-2,...wi-N出现的情况下,汉字wi出现的概率;P(w′i|w′i+1,w′i+2,...w′i+N)代表在反向传播过程
中,汉字w′i的后N个汉字w′i+1,w′i+2,...w′i+N出现的情况下,汉字w′i出现的概率。
4.根据权利要求3所述的拼音的长句连打输入方法,其特征在于,所
述N为3。
5.根据权利要求1所述的拼音的长句连打输入方法,其特征在于,还
技术研发人员:周诚,
申请(专利权)人:上海高欣计算机系统有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。