本发明专利技术提供了一种输入法系统,该系统包括:词库;口语模板,所述口语模板与口语词条的各种特征及判定标准相关;输入接口单元,用于接收用户的输入信息;信息转换单元,用于依据所接收的输入信息,检索词库,得到相应的候选项;智能组词单元,用于依据所述口语模板,智能组词得到相应的候选项;显示输出单元,用于展示候选项,并输出用户选择的候选项。本发明专利技术还公开了一种智能组词的方法。通过本发明专利技术,可以帮助用户更好的输入口语词汇,提高输入体验和输入效率,效率较高而且成本较低,并且可以适应口语词汇变化更新速度比较快的特性。
【技术实现步骤摘要】
本专利技术属于信息处理领域,特别是涉及一种输入法系统和一种智能组词的 方法。
技术介绍
当前的输入法系统(包括中文、日文等等)都是基于其词库系统以及词库 系统中的词频来为使用者在信息输入过程中提供候选词的排序。候选词的排序 是使用者在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命 中率是指,接收用户的输入信息之后,排序在前的词汇或字是用户最需要的。现有技术为了提高首选词命中率,采取了各种措施,例如,扩大词库的容 量,存储更多的词条;或者通过各种方式获取最近的新词以及更准确的词频信 息;或者,采用加载专业词库的方式,提高用户在某些特殊输入情况下的首选 词命中率。应该说,这些技术改进在一定程度上可以提高用户的首选词命中率,但是对于本专利技术期望处理的口语词条,却是无能为力。本专利技术期望获取的口语词条实际上可以分为两个类别, 一是普通的口头用 语, 一是网络语言。对于口头用语,由于人们对口头用语的使用比书面语更加 的灵活和不拘一格,如,"试试看"、"走一走"、"吃个饭"、"打会球"等等,所 以采用现有的各种词汇的收集方法难以获得准确的和足够全面的口头用语。而 对于网络语言,由于其具有更为复杂的特性,例如汉字/数字/字母混用("8 错"、"期待ing,,等),甚至还有符号的参与;错词率非常高("娃哈哈"、"哇 哈哈"、"挖哈哈"等);随时间的动态变化性很强。所以釆用现有的各种词汇 的收集方法更是无法获取。现今对上述的口语词条的获取和研究往往采用人工的形式,因为研究人员 的主观能动性可以很好的满足这些口语词条的复杂特性。例如,由北京广l番学院播音主持艺术学院研究员于根元编纂的《中国网络用语词典》在2001年6 月份正式出版。该词典收入词条2000多条,正文约40万字,它的来源就是依 靠人工整理。但是人工收集有着难以克服的缺陷收集速度太低、成本太高; 并且,其收集速度难以适应口语词条的更新速度。进而,由于语言的更新速度 越来越快,新的网络语言词汇及用法层出不穷,单纯依靠人工的方式要持续耗 费大量的人力物力。由于随着互联网的兴起,人们相互交流通信的代价大为降低,发布信息更 多也更便捷,因此,语言也以一种前所未有的速度疯狂发展。网民在BBS、Blog 和即时通讯工具上发布信息的过程中,使用口语词条的机会大大增加,而现有 的输入法却无法满足这样的需求。
技术实现思路
本专利技术所要解决的技术问题是提供一种输入法系统和一种智能组词的方 法,能够帮助用户更好的输入口语词汇,提高输入体验和输入效率。 为了解决上述问题,本专利技术公开了一种输入法系统,包括词库;口语才莫板;所述口语才莫板与口语词条的各种特征及判定标准相关; 输入接口单元,用于接收用户的输入信息;信息转换单元,用于依据所接收的输入信息,检索词库,得到相应的候选项;智能组词单元,用于依据所述口语模板,智能组词得到相应的候选项; 显示输出单元,用于展示候选项,并输出用户选择的候选项。 其中,所述口语模板可以通过以下方式得到定向获取所需的互联网语料, 形成语料库;按照预置的规则模板,从所述语料库中抽取符合条件的词条;针 对抽取得到的词条进行过滤,得到所需的口语词条;分析所获取的口语词条, 针对预置的规则模板提供反馈信息;依据反馈信息优化所述预置策略中的规则 模板,得到口语模板。选项;展示候选项,并输出用户选择的候选项。优选的,所述口语模板可以通过以下方式得到定向获取所需的互联网语 料,形成语料库;按照预置的规则模板,从所述语料库中抽取符合条件的词条; 针对抽取得到的词条进行过滤,得到所需的口语词条;分析所获取的口语词条, 针对预置的规则模板提供反馈信息;依据反馈信息优化所述预置策略中的规则 模板,得到口语模板。与现有技术相比,本专利技术具有以下优点首先,本专利技术提供的输入法系统能够依据与口语词条的各种特征及判定标 准相关的口语沖莫板进行智能组词,得到口语词条,可以帮助用户更好的输入口 语词汇,提高输入体验和输入效率,效率较高而且成本较低,并且可以适应口 语词汇变化更新速度比较快的特性。其次,本专利技术通过对口语模板的迭代优化(包括改进和扩充),可以得到 非常贴近实际情况、准确率和覆盖率较高的口语模板;进而,利用这样的口语 模板进行智能组词,可以不受限于词库中所收录的口语词条实例。附图说明图1是本专利技术一种获取口语词条的方法实施例的步骤流程图; 图2是本专利技术一种获取口语词条的方法优选实施例的步骤流程图; 图3是本专利技术一种获取口语词条的装置实施例的结构框图; 图4是本专利技术 一种输入法系统实施例的结构框图; 图5是本专利技术另 一种输入法系统实施例的结构框图; 图6是本专利技术一种分词装置实施例的结构框图; 图7是本专利技术另一种分词装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术所述的方法可以在由计算机执行的计算机可执行指令的一般上下 文中描述,例如程序模块。 一般地,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远 程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设 备在内的本地和远程计算机存储介质中。参照图1,示出了本专利技术一种获取口语词条的方法实施例,具体可以包括步骤IOI、定向获取所需的互联网语料,形成语料库。语料一词, 一般可以理解为用于获取所需信息训练文本处理模型的文本 样本;其精度、覆盖面直接决定了获取信息的质量和训练出的模型精度。而本 专利技术所希望获取的口语词条在某些互联网语料中出现的比较频繁,而在另外一 些互联网语料中出现的则比较少,因此,本专利技术需要定向获取所需的语料。定 向获取的方式可以提高语料的质量,避免由于语料不精导致的一些本来不属于 抽取目标的词汇却混入了符合抽取条件的行列,比如一些工作招聘信息中的短句或缩写等。例如,本专利技术可以获取那些口语词条频繁出现的BBS、 blog、用户个性化 口语词库或文本/语音聊天记录等资源。获取方式可以为使用定向网络蜘蛛 (focused spider)抽取,或者从可信任的用户词库或聊天记录库中获得,比如, 搜狗输入法官方主页提供的用户细胞词库上传功能等。而对于定向抽取,站点 的选取可以是指定站点抽取,也可以是基于抽取网页内容的分类点过滤。而具 体的抽取过程属于本领域公知的
技术实现思路
,在此不再详述。步骤102、按照预置策略,从所述语料库中抽取符合条件的词条。(Out-of-Vocabulary word,未登录词) 一是词典词条的口语化派生用法,如"吃 个饭"、"高高兴兴"、"试试看";另一类是在互联网应用中广为使用的互联网 语言,如"轰趴"、"酱紫"、"8错"、"PPMM"等。虽然前一类别的词条在 人们的日常交际中使用更为普遍,但是由于主要以声音为媒介,所以是无法收 集到相关语料的,而随着互联网的兴起,这些词汇越来越多的出现在互联网这 个海量的资源仓库里,因此,本专利技术才得以对这些词条进行抽取和挖掘。另一 方面,互联网语言和传统的口头语言这两类之间也没有绝对的界限,它们总是 互相影响,互相渗透,而且在互联本文档来自技高网...
【技术保护点】
一种输入法系统,其特征在于,包括: 词库; 口语模板,所述口语模板与口语词条的各种特征及判定标准相关; 输入接口单元,用于接收用户的输入信息; 信息转换单元,用于依据所接收的输入信息,检索词库,得到相应的候选项; 智能组词单元,用于依据所述口语模板,智能组词得到相应的候选项; 显示输出单元,用于展示候选项,并输出用户选择的候选项。
【技术特征摘要】
【专利技术属性】
技术研发人员:张扬,郭奇,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。