语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统技术方案

技术编号:5340307 阅读:222 留言:0更新日期:2012-04-11 18:40
语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习技术领域。本发明专利技术解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明专利技术技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。

【技术实现步骤摘要】

本专利技术涉及到汉字输入的机器学习方法中的用户词识别方法及在线学习方法。
技术介绍
语句级汉字输入中的机器学习方法,能够自动根据用户的输入习惯来调整最佳汉 字组合的结果,可以适用于各种汉字输入法和输入系统。随着自然语言处理与人工智能理论不断地进步,汉字输入技术也相应地不断提 高,但至今为止还没有一种汉字输入技术能达到一个完美转换的境界,各种技术中都存在 着各自的不足。体现在拼音输入法中就是,现今没有一种产品能达到100%的转换率正确 率,都在不同程度上以不同方式需要用户的干预,才能达到一个用户需要的输出结果。采用 本方法来改进这些系统,会极大地减少所需用户干预的次数,进而提高转换正确率。在为汉字编码的输入法和输入系统中,经常会存在一个编码对应多个汉字的情 况,如拼音输入,语音输入和手写模糊识别时,具体体现为1. 一个编码对应多个汉字。例如拼音输入“cheng”时,对应汉字有“成”、“城”、 “称”、“呈”等。输入拼音串“chengshi”时,对应词有“城市”、“诚实”、“程式”、“成事”等。 在更长的语句输入时,这种情况也会出现。如果此时输入系统提供的首选项并非用户所需 输入,那么用户则需要手工选择所需输入。配有在线一次性学习功能时,输入法会记录用户 的输入习惯,给出用户最常用的结果作为首选项。在这里举一个例子,在通常的输入法系统 中,第一次输入拼音“haerbingongyedaxuezhinengjisuanzhongxin”时,因为“职能”一词在 统计库中词频较高,得到的结果为“哈尔滨工业大学职能计算中心”,用户干预一次输入后, 进行了对语言模型的调整。所谓干预过程就是用户手工将“职能”用“智能”候选项取代。2.字词间的组合歧义。如在输入含人名“裴建立”的短句“明天叫裴建立开会”时, 拼音串“mingtianjiaopeijianlikaihui”对应的转换结果大都为“明天交配建立开会”。这 是因为输入系统词库中含有“交配”和“建立”这两个词,而没有“裴建立”这个名字,这种情 况需要较多的用户干预才能得到正确结果。如果输入系统不配有相应的用户词构造和相应 在线学习功能,那么用户将不厌其烦的每次都将进行大量干预。3.用户习惯的转变。例如一个用户是研究电子工程的,他总会使用“芯片”这个 词,而他对同时也是一个电影爱好者,每天晚上要去写“新片”推荐。如果采用现有的输入法学习方法,输入这两个词时就需要用户不断干预。
技术实现思路
为了解决现有机器学习方法中存在的经常需要用户干预才能够获得用户所需要 的结果的问题,本专利技术提出了语句级汉字输入方法中的用户词识别方法与在线一次性学习 方法及机器学习系统。本专利技术所述的语句级汉字输入方法中的用户词识别方法是一种基于位置的用户词识别方法,该方法中对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能 力 IWP(C,rp)权利要求1.语句级汉字输入方法中的用户词识别方法,其特征在于,它是基于位置的用户词识 别方法,对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力 IWP (c,rp)2.根据权利要求1所述的语句级汉字输入方法中的用户词识别方法,其特征在于,所 述用户词库采用哈希表的存储形式。3.语句级汉字输入方法中的在线一次性学习方法,其特征在于,该在线学习方法的过 程为步骤一、将音字转换输出路径cRoad和最终候选路径WRoad进行基于长度的对 齐,得到对齐后的音字转换输出路径cRoadA和最终候选路径WRoadA ;Μ、N和L分别 代表这两条路径中所含的词的数目;步骤二、令i = 1 ;步骤三、根据语言模型中的信息,计算p(cR0adA |CRoadA)和 p(wRoadA |wRoadA),然后再利用这两个值,采用最大后验MAP (Maximum a Posterior)概率方法来计算后验概率最大的用户调节值Ca ;将(WRoad,WRoad)和 对应的Ca作为二元元素添加入用户语言模型库中;步骤四、令i = i+Ι,如果有i < L,则返回执行步骤三;否则一次学习完成。4.根据权利要求3所述的语句级汉字输入方法中的在线一次性学习方法,其特征在 于,ρ (cRoadA IcRoadA)表示在音字转换输出路径cRoadA中,当第i_l个词 为 cRoadA的条件下、第 i 个词为 cRoadA的概率,p(wRoadA wRoadA)表 示在最终候选路径cRoadA中,当第i-Ι个词为WRoadA的条件下、第i个词为 wRoadA的概率。5.语句级汉字输入方法中的机器学习系统,该系统由用户词识别模块和在线一次性学 习模块组成,其中用户词识别模块,用于识别语句级汉字输入方法中经用户干预获得的最终输出结果是 否是用户词,并对判定为用户词的词进行编码,然后将该用户词机器编码存入到语句级汉 字输入方法的用户词库中;在线一次性学习模块,用于在语句级汉字输入方法输出的最优路径与最终路径不一致 时,根据语句级汉字输入方法输出的最优路径和经用户干预获得的最终路径进行在线一次性学习,并根据学习结果调整相应词的权重,然后修改用户语言模型库。6.根据权利要求5所述的语句级汉字输入方法中的机器学习系统,其特征在于,所述 用户词识别模块中,用户词的识别方法为对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力 IWP (c,rp)7.根据权利要求5所述的语句级汉字输入方法中的机器学习系统,其特征在于,所述 用户词识别模块中,在线一次性学习模块中的在线一次性学习方法的过程为步骤一、将音字转换输出路径cRoad和最终候选路径WRoad进行基于长度的对 齐,得到对齐后的音字转换输出路径cRoadA和最终候选路径WRoadA ;Μ、N和L分别 代表这两条路径中所含的词的数目;步骤二、令i = 1 ;步骤三、根据语言模型中的信息,计算p(cR0adA |CRoadA)和 p(wRoadA |wRoadA),然后再利用这两个值,采用最大后验MAP (Maximum a Posterior)概率方法来计算后验概率最大的用户调节值Ca ;将(WRoad,WRoad)和 对应的Ca作为二元元素添加入用户语言模型库中;步骤四、令i = i+Ι,如果有i < L,则返回执行步骤三;否则一次学习完成。全文摘要语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习
本专利技术解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本专利技术技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。文档编号G06F3/023GK102004560SQ20101056799公开日2011年4月6日 申请日期2010年12月1日 优先权日2010年12月1本文档来自技高网
...

【技术保护点】
语句级汉字输入方法中的用户词识别方法,其特征在于,它是基于位置的用户词识别方法,对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力IWP(c,rp):IWP(c,rp)=C(Word(c,rp))/C(c)(1)其中,C(Word(c,rp))是生成语言模型时训练用的语料中词根c以位置rp出现的词的个数,C(c)是语料中词根c出现的次数,当所述成词能力IWP(c,rp)为大于阈值δ(0<δ<1)时,对应的词作为用户词,否则,对应的词不作为用户词;对于词串S=c↓[1],c↓[2],…,c↓[l](l>1),以该词串中各个词根的成词能力的几何平均值作为该词串的成词能力IWP(S):IWP(S)=***(2)当IWP(S)≥δ(0<δ≤1)时,那么将S作为用户词;否则S不作为用户词。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘秉权王晓龙刘峰刘远超林磊孙承杰单丽莉刘铭
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1