一种获取口语词条的方法、装置以及一种输入法系统制造方法及图纸

技术编号:2834333 阅读:280 留言:1更新日期:2012-04-11 18:40
本发明专利技术提供了一种获取口语词条的方法,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。首先,本发明专利技术能够自动实现从互联网语料库中抽取大量的口语词条,效率较高而且成本较低,可以适应口语词汇变化更新速度比较快的特性。其次,本发明专利技术通过对口语模板的迭代优化,可以得到非常贴近实际情况、准确率和覆盖率较高的口语模板;进而,利用这样的口语模板进行智能组词,可以不受限于词库中所收录的口语词条实例;以及,利用这样的口语模板进行分词,可以得到对原始语料的合理切分。

【技术实现步骤摘要】

本专利技术属于信息处理领域,特别是涉及一种从互联网信息中提取口语词条 的方法和装置,以及一种应用在前述过程中得到的口语词条和口语模板的输入 法系统和一种分词装置。
技术介绍
当前的输入法系统(包括中文、日文等等)都是基于其词库系统以及词库 系统中的词频来为使用者在信息输入过程中提供候选词的排序。候选词的排序 是使用者在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命 中率是指,接收用户的输入信息之后,排序在前的词汇或字是用户最需要的。现有技术为了提高首选词命中率,采取了各种措施,例如,扩大词库的容量,存储更多的词条;或者通过各种方式获取最近的新词以及更准确的词频信 息;或者,釆用加载专业词库的方式,提高用户在某些特殊输入情况下的首选 词命中率。应该说,这些技术改进在一定程度上可以提高用户的首选词命中率, 但是对于本专利技术期望处理的口语词条,却是无能为力。本专利技术期望获取的口语词条实际上可以分为两个类别, 一是普通的口头用 语, 一是网络语言。对于口头用语,由于人们对口头用语的使用比书面语更力口 的灵活和不拘一格,如,试试看、走一走、吃个饭、打会球,,等等,所 以釆用现有的各种词汇的收集方法难以获得准确的和足够全面的口头用语。而 对于网络语言,由于其具有更为复杂的特性,例如汉字/凄t字/字母混用(8 错、期待ing,,等),甚至还有符号的参与;错词率非常高(娃哈哈、哇 哈哈、挖哈哈,,等);随时间的动态变化性4艮强。所以釆用现有的各种词汇 的收集方法更是无法获取。现今对上述的口语词条的获取和研究往往采用人工的形式,因为研究人员 的主观能动性可以很好的满足这些口语词条的复杂特性。例如,由北京广播学 院播音主持艺术学院研究员于根元编纂的《中国网络用语词典》在2001年6 月《分正式出版。该词典收入词条2000多条,正文约40万字,它的来源就是依 靠人工整理。但是人工收集有着难以克服的缺陷收集速度太低、成本太高;并且,其收集速度难以适应口语词条的更新速度。进而,由于语言的更新速度 越来越快,新的网络语言词汇及用法层出不穷,单纯依靠人工的方式要持续耗 费大量的人力物力。由于随着互联网的兴起,人们相互交流通信的代价大为降低,发布信息更多也更便捷,因此,语言也以一种前所未有的速度疯狂发展。网民在BBS、 Blog 和即时通讯工具上发布信息的过程中,使用口语词条的机会大大增加,而现有 的输入法却无法满足这样需求。因此,当前需要本领域技术人员迫切解决的一个技术问题就是提出一种 创新的口语词条的自动获取方法,以获得比较准确和全面的口语词条集合;进 而为用户的信息输入提供方便。
技术实现思路
本专利技术所要解决的技术问题是提供一种能够自动获取口语词条的方法和 装置,以从丰富的互联网语料中获取所需的口语词条,能够快速地获取较大量 的口语词汇并应用到中文输入法、中文分词乃至语言研究中。相应的,本专利技术还提供了 一种应用在前述过程中得到的口语词条和口语模 板的输入法系统,能够帮助用户更好的输入口语词汇,提高输入体验和输入效 率。相应的,本专利技术还提供了 一种应用在前述过程中得到的口语词条和口语模 板的分词装置,能够实现对原始语料更合理的切分。为了解决上述问题,本专利技术公开了一种获取口语词条的方法,包括定向 获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符 合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词 条进行过滤,得到所需的口语词条。优选的,可以通过以下预置策略完成对词条的抽取预置多个规则模板, 所述规则模板用于描述词条中的单字组合方式;依据所述规则模板进行多次词 条抽取,每次词条抽取采用一个或者多个规则模板。优选的,也可以通过以下预置策略完成对词条的抽取针对语料库中一给 定的字符串,依据分词词库进行切分;将分词碎片转换为多个候选词条;依据 预置的特征库,判断一候选词条是否属于口语词条,如果是,则抽取。优选的,还可以通过以下预置策略完成对词条的抽取针对语料库中一给 定的字符串,依据分词词库进行切分;将分词碎片转换为多个候选词条;依据 预置的多个规则模板进行多次词条抽取,每次词条抽取采用一个或者多个规则 模板;所述规则模板用于描述词条中的单字组合方式。优选的,所述方法还可以包括分析所获取的口语词条,针对预置策略提 供反馈信息;所述反馈信息用于改进原有规则模板或特征,或者提供新规则模 板或新特征。优选的,所述方法还可以包括将获得的口语词条添加至输入法词库中; 和/或,将依据反馈信息改进后的抽取策略中的规则模板添加至输入法智能组 词规则库中。优选的,所述方法还可以包括将获得的口语词条添加至语料分词词库中; 和/或,将依据反馈信息改进后的抽取策略中的规则模板添加至语料分词规则 库中。优选的,所述方法还可以包括针对词条进行纠错。 优选的,所述方法还可以包括基于词条在发音上的相似性,将词条的各 种变体转变为标准形式。优选的,所述方法还可以包括对所收集的互联网语料进行数据净化预处理。依据本专利技术的另一实施例,还公开了一种获取口语词条的装置,包括 语料获取模块,用于定向获取所需的互联网语料,形成语料库; 词条抽取模块,用于按照预置策略,从所述语料库中抽取符合条件的词条; 所述预置策略与口语词条的各种特征相关;过滤模块,用于针对抽取得到的词条进行过滤,得到所需的口语词条。 其中,所述词条抽取模块可以进一步包括多个规则模板,所述规则模板 用于描述词条中的单字组合方式;模板抽取子模块,用于依据所述规则模板进 行多次词条抽取,每次词条抽取采用 一个或者多个规则模板。或者,所述词条抽取;f莫块也可以进一步包括切分器,用于针对语料库中 一给定的字符串,依据分词词库进行切分;转换器,用于将分词碎片转换为多 个候选词条;特征抽取子模块,用于依据预置的特征库,判断一候选词条是否属于口语词条,如果是,则抽取。或者,所述词条抽取模块也可以进一步包括切分器,用于针对语料库中 一给定的字符串,依据分词词库进行切分;转换器,用于将分词碎片转换为多 个候选词条;多个规则才莫板,所述规则模板用于描述词条中的单字组合方式; 模板抽取子模块,用于依据预置的多个规则模板进行多次词条抽取,每次词条 抽取采用 一个或者多个规则模板。优选的,所述的装置还可以包括分析反馈才莫块,用于分析所获取的口语 词条,针对预置策略提供反馈信息;所述反馈信息用于改进原有规则模板或特 征,或者提供新规则模板或新特征。优选的,所述的装置还可以包括纠错模块,用于针对词条进行纠错。优选的,所述的装置还可以包括词条归一化模块,用于基于词条在发音 上的相似性,将词条的各种变体转变为标准形式。依据本专利技术的另一实施例,还公开了一种输入法系统,包括词库; 口语模板;输入接口单元,用于接收用户的输入信息;信息转换单元,用于依据所接收的输入信息,检索词库,得到相应的候选项;智能组词单元,用于依据所述口语模板,智能组词得到相应的候选项; 显示输出单元,用于展示候选项,并输出用户选择的候选项。 其中,所述口语模板可以通过以下方式得到定向获取所需的互联网语料, 形成语料库;按照预置的规则模板,从所述语料库中抽取符合条件的词条;针 对抽取得到的词条进行过滤,得到所需的口语词条;分析所获取的本文档来自技高网
...

【技术保护点】
一种获取口语词条的方法,其特征在于,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。

【技术特征摘要】
1、一种获取口语词条的方法,其特征在于,包括定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。2、 如权利要求1所述的方法,其特征在于,通过以下预置策略完成对词 条的抽取预置多个规则模板,所述规则模板用于描述词条中的单字组合方式; 依据所述规则模板进行多次词条抽取,每次词条抽取采用 一个或者多个规 则模板。3、 如权利要求l所述的方法,其特征在于,通过以下预置策略完成对词 条的抽取针对语料库中 一给定的字符串,依据分词词库进行切分; 将分词碎片转换为多个候选词条;依据预置的特征库,判断一候选词条是否属于口语词条,如果是,则抽取。4、 如权利要求1所述的方法,其特征在于,通过以下预置策略完成对词 条的抽取针对语料库中一给定的字符串,依据分词词库进行切分; 将分词碎片转换为多个候选词条;依据预置的多个规则模板进行多次词条抽取,每次词条抽取采用 一个或者 多个规则模板;所述规则模板用于描述词条中的单字组合方式。5、 如权利要求l所述的方法,其特征在于,还包括 分析所获取的口语词条,针对预置策略提供反馈信息;所述反馈信息用于改进原有规则模板或特征,或者提供新规则才莫板或新特征。6、 如权利要求5所述的方法,其特征在于,还包括 将获得的口语词条添加至输入法词库中;和/或,将依据反馈信息改进后的抽取策略中的规则冲莫板添加至输入法智能组词规则库中。7、 如权利要求5所述的方法,其特征在于,还包括将获得的口语词条添加至语料分词词库中;和/或,将依据反馈信息改进 后的抽取策略中的规则模板添力。至语料分词规则库中。8、 如权利要求l所述的方法,其特征在于,还包括 针对词条进行纠错。9、 如权利要求l所述的方法,其特征在于,还包括 基于词条在发音上的相似性,将词条的各种变体转变为标准形式。10、 如权利要求l所述的方法,其特征在于,还包括 对所收集的互联网语料进行数据净化预处理。11、 一种获取口语词条的装置,其特征在于,包括 语料获取模块,用于定向获取所需的互联网语料,形成语料库; 词条抽取模块,用于按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;过滤模块,用于针对抽取得到的词条进行过滤,得到所需的口语词条。12、 如权利要求11所述的装置,其特征在于,所述词条抽取模块进一步 包括多个规则模板,所述规则模板用于描述词条中的单字组合方式; 模板抽取子模块,用于依据所述规则模板进行多次词条抽取,每次词条抽 取采用 一个或者多个规则模板。13、 如权利要求11所述的装置,其特征在于,所述词条抽取模块进一步 包括切分器,用于针对语料库中一给定的字符串,依据分词词库进行切分; 转换器,用于将分词碎片转换为多个候选词条;特征抽取子模块,用于依据预置的特征库,判断一候选词条是否属于口语 词条,如果是,则抽取。14、 如权利要求11所述的装置,其特征在于,所述词条抽^^莫块进一步 包括切分器,用于针对语料库中一给定的字符串,依据分词词库进行切分;转换器,用于将分词碎片转换为多个候选词条;多个规则模板,所述规则模板用于描述词条中的单字组合方式; 模板抽取子模块,用于依据预置的多个规则模板进行多次词条抽取,每次 词条抽取采用 一个或者多个规则模板。15、 如权利要求11所述的装置,其特征在于,还包括 分析反馈模块,用于分析所获取的口语词条,针对预置策略提供反馈信息;所述反馈信息用于改进原有规则模板或特征,...

【专利技术属性】
技术研发人员:张扬郭奇
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[天津市联通] 2014年12月10日 15:14
    词条拼音cítiáo也叫词目是辞书学用语指收列的词语及其释文词条可以是字词也可以由字词等组成在百度百科中词条是其构成的基本单元是对各种事物现象等概念的解释
    0
1
相关领域技术
  • 暂无相关专利