基于海量自然文本的自动词组提取技术制造技术

技术编号：4197232 阅读：330 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种用于汉字输入法的自动词组提取技术。当输入一组输入码ＡＢＣＤＥＦ之后，该技术先从预先储备的海量自然文本中检索到符合输入码Ａ的汉字，再查表得到其后一字对应的输入码Ｘ，如果Ｘ＝Ｂ，则继续将后续汉字的输入码分别与ＣＤＥＦ比较，直至完成。最终得到的一串输入码分别与ＡＢＣＤＥＦ匹配的汉字序列，即为自动提取出的词组。其意义在于，对于一个既有的海量自然文本，其中的任意连续汉字序列均可成为有效的词组。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及汉字输入法技术
技术介绍
词组输入是各种汉字输入法的基本功能，但现有方案中都是采用软件厂商或用户预先定义的方式来确定词组。显然，对于近乎无限的汉语词汇而言，任何一个输入法系统的词组数量都是有限的，用户在实际使用过程中经常遇到无法立即打出所期望词组的情况，影响汉字输入的速度和用户的操作体验。
技术实现思路
本专利技术的目的是提供一种克服现有输入法中词组数量受限的解决方案。在自然的汉字文本中，己经包含了几乎所有可能的字与字、字与词、词与词的组合，这其中的某些组合已经被各种输入法软件收集为词组，但对于自然语言而言，所有汉字的字、词之间组合的数量几乎是无限的，因此，以预先定义方式形成的词组必然不可能全部收集。有的输入法通过增加词组数量的办法试图提高命中率，带来的结果是大量垃圾词汇的增加和系统负担的加剧，却还是不能覆盖到特定用户的需求。而如果能从用户预先提供的自然文本中提取出期望的词组，则将满足几乎所有的需求。这正是本专利技术的目的所在。预先准备一本文字数量足够、可涵盖所有可能涉及领域的自然文本参考书(电子文本文件)，并建立一个单个汉字与其对应...

【技术保护点】
一种自动词组提取技术，其特征在于，在汉字输入的过程中，根据用户的输入码，从预先准备的自然文本中自动提取出所期望的词组，这些词组都不需要预先预先特别定义。

【技术特征摘要】
1.一种自动词组提取技术，其特征在于，在汉字输入的过程中，根据用户的输入码，从预先准备的自然文本中自动提取出所期望的词组，这些词组都不需要预先预先特别定义。2. —种自动词组提取技术，其特征在于，对一串由用户输入的汉字输入码 ABCDEF,首先根据第一个输入码A，从预先准备的自然文本中检索出一个输入码亦为A的汉字，继而提取出相邻的下一汉字，通过查表得到其对应的输入码 X，将X与输入码ABCDEF中的对应部分B进行比较，如果符合，则再提取下一字重复进行类似比较，直至CDEF均符合为止，由此得到的输入码符合 ABCDEF的汉字序列，即为自动提取出的词组。3. 根据权利要求2所述，所谓输入码ABCDEF，其中的每个字母代表一个汉字的输入码，在实际输入过程中可以是一个或多个对应的字母或数字。4. 根据权利要求2所述，其特征在于，汉字与输入码的对应关系，来自于预先准备的汉字一输入码对照表，一个汉字可以对应一个或多个输入码， ...

【专利技术属性】
技术研发人员：侯伟华，
申请(专利权)人：侯伟华，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人