本发明专利技术提供一种拼音输入法中长句的生成方法,包括建立拼音词库,该拼音词库包括长词词库、短词词库以及单字表,对用户输入的拼音串进行分割,形成多个拼音,并且,通过查询长词词库确定拼音串中包含的四个或四个以上汉字组成的词语,通过查询长词词库以及短词词库,查找拼音串剩余的拼音中可能存在的三个汉字组成的三字词以及两个汉字组成的双字词,并计算每一三字词以及每一双字词的可选价值,依据每一个三字词的可选价值以及每一个双字词的可选价值高低确定拼音串中剩余拼音包含的所有三字词以及双字词,通过查询单字表确定拼音串中仍未被确定拼音所对应的单字。本发明专利技术能准确地生成长句,并减少用户的选词操作,提高用户中文输入效率。
Method for generating long sentences in phonetic input method
The invention provides a long sentence Pinyin input method in the generation method, including the establishment of Pinyin thesaurus, the Pinyin thesaurus including long word thesaurus, short word thesaurus and a word list, the user input Pinyin string segmentation, forming a plurality of Pinyin, and, through the long query thesaurus determined contains Pinyin string in four four or more Chinese characters of words, through the long and short query word thesaurus thesaurus, phonetic search string three words three may exist in the composition of the remaining Chinese characters and Pinyin word two Chinese characters composed of, and calculated every 13 words every word and optional value, under the optional value of each three words, each word optional value determined Pinyin string remaining in pinyin contains all three words and disyllabic words, Pinyin string is still determined by the query word table Words that have not been identified in pinyin. The invention can accurately growth, and reduce the user's choice of operation, improve the efficiency of user input Chinese.
【技术实现步骤摘要】
本专利技术涉及中文输入法领域,尤其涉及一种在。
技术介绍
随着计算机、手机、电子阅读器等电子设备的普及,人们广泛应用电子设备进行文 本的输入及输出。目前,人们广泛应用多种中文输入法在计算机或手机上输入中文汉字,其 中最为常用的是拼音输入法和笔画输入法。目前大多拼音输入法软件都设置有一个拼音词 库,当用户输入拼音串后,该软件通过查询拼音词库识别用户需要输入的汉字,并提供给用 户选择。很多拼音输入法不支持长句生成,当用户将一个长句的拼音串输入后,输入法软 件仅能提供多个词组给用户进行选择,而不是根据拼音串生成一个长句提供给用户选择, 导致用户需要进行多次选择才能输入一个完整的句子。若用户使用手机输入长句,则选词 所消耗的时间更长,不利于用户的操作。例如,公开号为CNlO 112290IA的中国专利技术专利申请公开了 一种名为“中文整句 生成方法及装置”的专利技术创造,该整句生成方法首先对用户输入的拼音串进行分割,如用 户输入“zhejianwoshihenda”的拼音串,该方法根据音节将拼音串分割成多个拼音,获得 "zhe' jian'wo' shi'hen' da”的多个拼音,然后通过查询词库获得“zhe,jian”拼音组对应 的汉字,提供给用户选择,在用户选择后生成该词语。然后再获取后面的拼音生成候选词, 生成候选词时先获取上一次生成的候选词,并根据上次生成的候选词与当前的拼音构成有 向图,基于有向图生成当此的候选词。由于该方法需要根据用户选取的上一候选词来判断当前拼音所需生成的候选词, 因此需要用户进行多次选择才能实现长句的输入。此外,该方法生成候选词的过程中,是根 据拼音串由前至后进行拼音组的识别,这容易将由多个汉字组成的词语拆分,无法给用户 提供最准确的候选词,也导致用户选词的次数增多,造成用户中文输入的效率低下,给用户 的输入操作带来极大的不便,上述缺陷在使用手机输入中文时更为明显。
技术实现思路
本专利技术的主要目的是提供一种能准确生成长句的拼音输入法中长句生成方法。本专利技术的另一目的是提供一种输入效率较高的拼音输入法中长句生成方法。为了实现上述的主要目的,本专利技术提供的拼音输入法中长句生成方法包括建立拼 音词库,该拼音词库包括长词词库、短词词库以及单字表,对用户输入的拼音串进行分割, 形成多个拼音,并且,通过查询长词词库确定拼音串中包含的四个或四个以上汉字组成的 词语,通过查询长词词库以及短词词库,查找拼音串剩余的拼音中可能存在的三个汉字组 成的三字词以及两个汉字组成的双字词,并计算每一三字词以及每一双字词的可选价值, 依据每一个三字词的可选价值以及每一个双字词的可选价值高低确定拼音串中剩余拼音 中包含的所有三字词以及双字词,通过查询单字表确定拼音串仍未被确定的拼音所对应的单字。由上述方案可见,本专利技术的方法不需要根据用户上次生成的候选词生成当前的词 语,也就是无需用户进行多次选择生成长句。并且,生成长句的过程中,首先对字数较多的 词语进行识别,然后对字数较少的词语识别,最后是对单字进行识别。由于字数越多的拼音 组对应词语的候选词越少,生成的词语准确率越高,通过上述方法可大大提高对拼音组的 识别准确率,生成的长句准确率也就越高。一个优选的方案是,确定三字词的步骤是计算三字词的可选价值,并选取拼音 串中与三字词对应的长词拼音组,将与该长词拼音组相邻的一个拼音跟该长词拼音组成两 个相邻的短词拼音组,通过查询短词词库获得相邻的短词拼音组各自对应双字词的短词频 率,使用双字词的短词频率计算相邻双字词的可选价值,若三字词的可选价值大于相邻双 字词的可选价值,则选取三字词,否则,选取相邻双字词。由此可见,通过对三字词与相邻双字词可选价值的比较确定选取三字词还是相邻 双字词,可更准确地选取长句中的词语,减少用户选词的麻烦,方便用户操作,从而提高中 文输入的效率。进一步的方案是,确定双字词的步骤是在确定拼音串中所有三字词后,将剩余的 拼音划分为多组两两相接的短词拼音组,计算每一短词拼音组对应的双字词的可选价值, 依据双字词的可选价值高低确定拼音串的双字词。可见,通过对两两相接短词拼音组对应双字词可选价值的比较,能准确地选取用 户所需输入的双字词,提高长句生成的准确率。再进一步的方案是,长词词库设有一个索引表,索引表包括有多个由三个字母组 成的索引拼音,每一索引拼音对应有至少一个三字词。这样,通过索引表查询三字词,能减少查找三字词所消耗的时间,提高长句生成的效率。更进一步的方案是,短词词库设有一个高频词库,高频词库包括多组由两个拼音 组成的双字拼音组,每一双字拼音组具有唯一的拼音号,每一所述拼音号对应有一个双字 拼音组对应的出现频率最高的双字词。这样,通过高频词库选取出现频率最高的双字词,选词的时间大大减少,且词语选 取的准确率也大为提高,从而提高长句生成的准确率与效率。更进一步的方案是,单字表设有一个高频字表,高频字表包括多个单字拼音,每一 单字拼音对应有三个单字,三个单字分别是该单字拼音位于句首、句中及句末时被选取频 率最高的单字。由此可见,区分每一单字拼音位于在句首、句中及句末不同的位置,根据该单字位 于句子不同位置时选取不同的单字,可提高单字选取的准确率。附图说明图1是本专利技术实施例的流程图。图2是本专利技术实施例中用户输入拼音串的示意图。图3是本专利技术实施例中对拼音串分割的示意图。图4是本专利技术实施例在拼音串中确定三字词后的示意图。5图5是本专利技术实施例中将拼音串的剩余拼音划分成多个短词拼音组的示意图。图6是本专利技术实施例中第一次双字词识别后的示意图。图7是本专利技术实施例中第二次双字词识别后的示意图。图8是本专利技术实施例中第三次双字词识别后的示意图。图9是本专利技术实施例中第四次双字词识别后的示意图。图10是本专利技术实施例中对所有三字词以及双字词识别后的示意图。以下结合附图及实施例对本专利技术作进一步说明。具体实施例方式本实施例是应用于计算机或手机上的拼音输入法中对长句生成的方法,应用本方 法时,首先需要建立一个拼音词库,本实施例的拼音词库具有一个长词词库、一个短词词库 以及一个单字表,其中长词词库存储有三个或三个以上汉字组成词语所对应的长词拼音 组,每一个长词拼音组对应有至少一个词语,并且每一词语具有自身的长词频率,该长词频 率是通过对大量文献统计后所获得的频率,也就是该词语在所统计的大量文献中出现的频 率。通常,长词频率是一个自然数,例如,词语“国庆节”的长词频率为27。本文中,将由三 个汉字组成的词语称为“三字词”。短词词库存储有由两个汉字组成的词语对应的短词拼音组,本文中,将两个汉字 组成的词语成为“双字词”。本实施例中,每一短词拼音组对应有至少一个双字词,每一双字 词具有自身的短词频率,短词频率也是通过对大量文献统计获得的,并且也是一个自然数, 例如,双字词“一起”的短词频率是2290。单字表存储有大量单个汉字所对应的单字拼音,每一单字拼音对应至少一个单 字,每一个单字具有自身的单字频率,单字频率也是通过对大量文献的统计获得的,并且也 是一个自然数。建立拼音词库后,将拼音词库嵌入到输入法中,即可应用本实施例对长句进行生 成。参见图1,对长句进行生成时,首先执行步骤Si,对用户输入的拼音串进行分割, 例如,用户输入如图2所示本文档来自技高网...
【技术保护点】
拼音输入法中长句的生成方法,包括建立拼音词库,所述拼音词库包括长词词库、短词词库以及单字表;对用户输入的拼音串进行分割,形成多个拼音;其特征在于:通过查询所述长词词库确定所述拼音串中包含的四个或四个以上汉字组成的词语;通过查询所述长词词库以及所述短词词库,查找所述拼音串剩余的拼音中可能存在的三个汉字组成的三字词以及两个汉字组成的双字词,并计算每一所述三字词以及每一所述双字词的可选价值,依据每一所述三字词的可选价值以及每一所述双字词的可选价值高低确定剩余的拼音中包含的所有三字词以及双字词;通过查询所述单字表确定所述拼音中串仍未被确定的拼音所对应的单字。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈翔,
申请(专利权)人:珠海全志科技有限公司,
类型:发明
国别省市:44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。