【技术实现步骤摘要】
本专利技术涉及一种中文分词系统及方法,属于计算机领域。
技术介绍
目前,公知的分词方法有规则方法与统计方法两种。公知的分词算法往往依赖于庞大的词表或复杂的统计模型,计算复杂度较高。另外,无论是哪种方法,都面临着两大难点,即歧义切分问题和未登录词问题。公知算法在处理上述情况时欠缺智能性,不能对其灵活地处理,在实际应用中,效果不够理想。字符输入行为,是指中文输入法用户在输入中文字符的过程中,输入中文字符所对应的西文字符编码的输入行为。超输入行为是指上述过程中的非字符输入行为,如通过上下翻页键查看输入法候选框中的候选字词、通过数字键选择候选字词、通过按空格键提交候选框中字符至编辑区等。超输入行为的重要意义在现有输入法中被忽略。人工录入是将文字信息输入计算机的主要方式。在使用中文输入法输入汉字时,用户往往会把成词的字符串作为一个单元一次性输入。例如在输入语句“我吃了一个鸡蛋”时,某用户输入的动作为“我吃了 / 一个/鸡蛋/”。可见,用户在连续输入中文字符串时的输入行为,体现了用户语言思维的运作过程,并可以转化为粗糙分词的结果。中文输入法的用户群中的成员无一不在自发地贡献 ...
【技术保护点】
超输入动作抓录系统,其特征在于:它包括:用于输入SAC兼容信息的输入装置;用于捕获所输入字符的装置;用于捕获所输入非字符的装置;用于将所捕获的输入字符进行字符编码的装置;用于将所捕获的输入非字符进行SAC编码的装置;使用分词附加码编码技术分别将字符编码和SAC编码进行整合,形成附带分词附加码的文本编码信息TwSAC的装置。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。