【技术实现步骤摘要】
本专利技术属于信息处理领域,特别是涉及一种从互联网信息中提取口语词条 的方法和装置,以及一种应用在前述过程中得到的口语词条和口语模板的输入 法系统和一种分词装置。
技术介绍
当前的输入法系统(包括中文、日文等等)都是基于其词库系统以及词库 系统中的词频来为使用者在信息输入过程中提供候选词的排序。候选词的排序 是使用者在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命 中率是指,接收用户的输入信息之后,排序在前的词汇或字是用户最需要的。现有技术为了提高首选词命中率,采取了各种措施,例如,扩大词库的容量,存储更多的词条;或者通过各种方式获取最近的新词以及更准确的词频信 息;或者,釆用加载专业词库的方式,提高用户在某些特殊输入情况下的首选 词命中率。应该说,这些技术改进在一定程度上可以提高用户的首选词命中率, 但是对于本专利技术期望处理的口语词条,却是无能为力。本专利技术期望获取的口语词条实际上可以分为两个类别, 一是普通的口头用 语, 一是网络语言。对于口头用语,由于人们对口头用语的使用比书面语更力口 的灵活和不拘一格,如,试试看、走一走、吃个饭、打会球,,等等,所 以釆用现有的各种词汇的收集方法难以获得准确的和足够全面的口头用语。而 对于网络语言,由于其具有更为复杂的特性,例如汉字/凄t字/字母混用(8 错、期待ing,,等),甚至还有符号的参与;错词率非常高(娃哈哈、哇 哈哈、挖哈哈,,等);随时间的动态变化性4艮强。所以釆用现有的各种词汇 的收集方法更是无法获取。现今对上述的口语词条的获取和研究往往采用人工的形式,因为研究人员 的主观能动性可 ...
【技术保护点】
一种获取口语词条的方法,其特征在于,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。
【技术特征摘要】
1、一种获取口语词条的方法,其特征在于,包括定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。2、 如权利要求1所述的方法,其特征在于,通过以下预置策略完成对词 条的抽取预置多个规则模板,所述规则模板用于描述词条中的单字组合方式; 依据所述规则模板进行多次词条抽取,每次词条抽取采用 一个或者多个规 则模板。3、 如权利要求l所述的方法,其特征在于,通过以下预置策略完成对词 条的抽取针对语料库中 一给定的字符串,依据分词词库进行切分; 将分词碎片转换为多个候选词条;依据预置的特征库,判断一候选词条是否属于口语词条,如果是,则抽取。4、 如权利要求1所述的方法,其特征在于,通过以下预置策略完成对词 条的抽取针对语料库中一给定的字符串,依据分词词库进行切分; 将分词碎片转换为多个候选词条;依据预置的多个规则模板进行多次词条抽取,每次词条抽取采用 一个或者 多个规则模板;所述规则模板用于描述词条中的单字组合方式。5、 如权利要求l所述的方法,其特征在于,还包括 分析所获取的口语词条,针对预置策略提供反馈信息;所述反馈信息用于改进原有规则模板或特征,或者提供新规则才莫板或新特征。6、 如权利要求5所述的方法,其特征在于,还包括 将获得的口语词条添加至输入法词库中;和/或,将依据反馈信息改进后的抽取策略中的规则冲莫板添加至输入法智能组词规则库中。7、 如权利要求5所述的方法,其特征在于,还包括将获得的口语词条添加至语料分词词库中;和/或,将依据反馈信息改进 后的抽取策略中的规则模板添力。至语料分词规则库中。8、 如权利要求l所述的方法,其特征在于,还包括 针对词条进行纠错。9、 如权利要求l所述的方法,其特征在于,还包括 基于词条在发音上的相似性,将词条的各种变体转变为标准形式。10、 如权利要求l所述的方法,其特征在于,还包括 对所收集的互联网语料进行数据净化预处理。11、 一种获取口语词条的装置,其特征在于,包括 语料获取模块,用于定向获取所需的互联网语料,形成语料库; 词条抽取模块,用于按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;过滤模块,用于针对抽取得到的词条进行过滤,得到所需的口语词条。12、 如权利要求11所述的装置,其特征在于,所述词条抽取模块进一步 包括多个规则模板,所述规则模板用于描述词条中的单字组合方式; 模板抽取子模块,用于依据所述规则模板进行多次词条抽取,每次词条抽 取采用 一个或者多个规则模板。13、 如权利要求11所述的装置,其特征在于,所述词条抽取模块进一步 包括切分器,用于针对语料库中一给定的字符串,依据分词词库进行切分; 转换器,用于将分词碎片转换为多个候选词条;特征抽取子模块,用于依据预置的特征库,判断一候选词条是否属于口语 词条,如果是,则抽取。14、 如权利要求11所述的装置,其特征在于,所述词条抽^^莫块进一步 包括切分器,用于针对语料库中一给定的字符串,依据分词词库进行切分;转换器,用于将分词碎片转换为多个候选词条;多个规则模板,所述规则模板用于描述词条中的单字组合方式; 模板抽取子模块,用于依据预置的多个规则模板进行多次词条抽取,每次 词条抽取采用 一个或者多个规则模板。15、 如权利要求11所述的装置,其特征在于,还包括 分析反馈模块,用于分析所获取的口语词条,针对预置策略提供反馈信息;所述反馈信息用于改进原有规则模板或特征,...
【专利技术属性】
技术研发人员:张扬,郭奇,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:11[中国|北京]