一种获取口语词条的方法、装置以及一种输入法系统制造方法及图纸

技术编号：2834333 阅读：280 留言：1更新日期：2012-04-11 18:40

本发明专利技术提供了一种获取口语词条的方法，包括：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；针对抽取得到的词条进行过滤，得到所需的口语词条。首先，本发明专利技术能够自动实现从互联网语料库中抽取大量的口语词条，效率较高而且成本较低，可以适应口语词汇变化更新速度比较快的特性。其次，本发明专利技术通过对口语模板的迭代优化，可以得到非常贴近实际情况、准确率和覆盖率较高的口语模板；进而，利用这样的口语模板进行智能组词，可以不受限于词库中所收录的口语词条实例；以及，利用这样的口语模板进行分词，可以得到对原始语料的合理切分。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理领域，特别是涉及一种从互联网信息中提取口语词条的方法和装置，以及一种应用在前述过程中得到的口语词条和口语模板的输入法系统和一种分词装置。
技术介绍
当前的输入法系统(包括中文、日文等等)都是基于其词库系统以及词库系统中的词频来为使用者在信息输入过程中提供候选词的排序。候选词的排序是使用者在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指，接收用户的输入信息之后，排序在前的词汇或字是用户最需要的。现有技术为了提高首选词命中率，采取了各种措施，例如，扩大词库的容量，存储更多的词条；或者通过各种方式获取最近的新词以及更准确的词频信息；或者，釆用加载专业词库的方式，提高用户在某些特殊输入情况下的首选词命中率。应该说，这些技术改进在一定程度上可以提高用户的首选词命中率，但是对于本专利技术期望处理的口语词条，却是无能为力。本专利技术期望获取的口语词条实际上可以分为两个类别，一是普通的口头用语，一是网络语言。对于口头用语，由于人们对口头用语的使用比书面语更力口的灵活和不拘一格，如，试试看、走一走、吃个饭、打会球，，等等，所以釆用现有的各种词汇的收集方法难以获得准确的和足够全面的口头用语。而对于网络语言，由于其具有更为复杂的特性，例如汉字/凄t字/字母混用(8 错、期待ing，，等)，甚至还有符号的参与；错词率非常高(娃哈哈、哇哈哈、挖哈哈，，等)；随时间的动态变化性4艮强。所以釆用现有的各种词汇的收集方法更是无法获取。现今对上述的口语词条的获取和研究往往采用人工的形式，因为研究人员的主观能动性可...

【技术保护点】
一种获取口语词条的方法，其特征在于，包括：定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；针对抽取得到的词条进行过滤，得到所需的口语词条。

【技术特征摘要】
1、一种获取口语词条的方法，其特征在于，包括定向获取所需的互联网语料，形成语料库；按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；针对抽取得到的词条进行过滤，得到所需的口语词条。2、如权利要求1所述的方法，其特征在于，通过以下预置策略完成对词条的抽取预置多个规则模板，所述规则模板用于描述词条中的单字组合方式；依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。3、如权利要求l所述的方法，其特征在于，通过以下预置策略完成对词条的抽取针对语料库中一给定的字符串，依据分词词库进行切分；将分词碎片转换为多个候选词条；依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。4、如权利要求1所述的方法，其特征在于，通过以下预置策略完成对词条的抽取针对语料库中一给定的字符串，依据分词词库进行切分；将分词碎片转换为多个候选词条；依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板；所述规则模板用于描述词条中的单字组合方式。5、如权利要求l所述的方法，其特征在于，还包括分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，或者提供新规则才莫板或新特征。6、如权利要求5所述的方法，其特征在于，还包括将获得的口语词条添加至输入法词库中；和/或，将依据反馈信息改进后的抽取策略中的规则冲莫板添加至输入法智能组词规则库中。7、如权利要求5所述的方法，其特征在于，还包括将获得的口语词条添加至语料分词词库中；和/或，将依据反馈信息改进后的抽取策略中的规则模板添力。至语料分词规则库中。8、如权利要求l所述的方法，其特征在于，还包括针对词条进行纠错。9、如权利要求l所述的方法，其特征在于，还包括基于词条在发音上的相似性，将词条的各种变体转变为标准形式。10、如权利要求l所述的方法，其特征在于，还包括对所收集的互联网语料进行数据净化预处理。11、一种获取口语词条的装置，其特征在于，包括语料获取模块，用于定向获取所需的互联网语料，形成语料库；词条抽取模块，用于按照预置策略，从所述语料库中抽取符合条件的词条；所述预置策略与口语词条的各种特征相关；过滤模块，用于针对抽取得到的词条进行过滤，得到所需的口语词条。12、如权利要求11所述的装置，其特征在于，所述词条抽取模块进一步包括多个规则模板，所述规则模板用于描述词条中的单字组合方式；模板抽取子模块，用于依据所述规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。13、如权利要求11所述的装置，其特征在于，所述词条抽取模块进一步包括切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；转换器，用于将分词碎片转换为多个候选词条；特征抽取子模块，用于依据预置的特征库，判断一候选词条是否属于口语词条，如果是，则抽取。14、如权利要求11所述的装置，其特征在于，所述词条抽^^莫块进一步包括切分器，用于针对语料库中一给定的字符串，依据分词词库进行切分；转换器，用于将分词碎片转换为多个候选词条；多个规则模板，所述规则模板用于描述词条中的单字组合方式；模板抽取子模块，用于依据预置的多个规则模板进行多次词条抽取，每次词条抽取采用一个或者多个规则模板。15、如权利要求11所述的装置，其特征在于，还包括分析反馈模块，用于分析所获取的口语词条，针对预置策略提供反馈信息；所述反馈信息用于改进原有规则模板或特征，...

【专利技术属性】
技术研发人员：张扬，郭奇，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人