【技术实现步骤摘要】
本专利技术涉及汉字输入技术,特别是一种整句生成方法及装置。技术背景在打字的过程中,经常需要对已输入的文字进行修改,如删除个别的词句 或插入个别的词句,这样,就需要根据新插入的词或词句生成新的整句。传统 的输入法在句子中间插入词或句子与在其他场合输入时的处理方式并没有什么 不同。目前比较常用的为最大概率法。下面以拼音输入法为例进行详细说明。在拼音输入法中, 一个汉语拼音串可以对应多个候选词。如dajia这个拼 音串对应的候选词可以有大家、打架、大甲、打假、大加等等。为了提高用 户的输入体验,在设计输入法软件的时候需要为候选词进行一个合理的排序, 一般是按照候选词的词频进行排序,如从大家到大加,词频逐渐减小。最大概率法实现整句预测的基本原理是对应用户输入的一串拼音串,一 般存在着多种候选词语的组合方案,通常先找出对应这个拼音串可能出现的所 有候选词,然后在这些候选词的组合中找到一个概率最大的组合方案作为最后 的整句生成结果。例如输入womendoushipingfanren拼音串,经过音节划分后的音节序列为 wo,men,dou,shi,ping,fan,ren ...
【技术保护点】
一种整句生成的装置,其特征在于,该装置包括:查询模块、第一缓冲区、第二缓冲区、整句输出模块;其中,第一、第二缓冲区,分别用于存储当前拼音输入的上、下文;查询模块,用于在词表中查询当前拼音输入的各候选词词频、各候选词与上下文词组共现词频;整句输出模块,用于计算当前拼音输入的每个候选词与上下文共现的条件概率,并选择条件概率最大的候选词与上下文构成整句输出。
【技术特征摘要】
1、一种整句生成的装置,其特征在于,该装置包括查询模块、第一缓冲区、第二缓冲区、整句输出模块;其中,第一、第二缓冲区,分别用于存储当前拼音输入的上、下文;查询模块,用于在词表中查询当前拼音输入的各候选词词频、各候选词与上下文词组共现词频;整句输出模块,用于计算当前拼音输入的每个候选词与上下文共现的条件概率,并选择条件概率最大的候选词与上下文构成整句输出。2、 根据权利要求l所述的整句生成的装置,其特征在于,该装置还包括分 词模块,用于根据输入法词表划分词组。3、 根据权利要求l所述的整句生成的装置,其特征在于,该装置还包括统 计模块,用于统计单个词、共现词的词频,将统计结果存入词表。4、 一种整句生成的方法,其特征在于,该方法包括A、 截取光标两侧上下文,并对所截取的上下文分别进行分词;B、 对当前拼音输入划分音节,获取每个音节的候选词;c、在词表中查询各音节的全部候选词、各候选词词频、上下文单个词词 频...
【专利技术属性】
技术研发人员:张会鹏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。