一种提取新词的方法和系统技术方案

技术编号：2845318 阅读：182 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种提取新词的方法，包括以下步骤：获取搜索引擎的查询关键词字符串；确定符合预置规则的字符串；对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计；如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值，则将该字符串作为新词输出。本发明专利技术所述方法提取出的新词应用在搜索领域，当用户的查询关键词字符串中包括新词时，可以提高搜索结果的精确度和覆盖度；如果采用本发明专利技术所述方法提取出的新词应用在输入法领域，则可以方便用户更快更准确的输入新词，不需要经过繁琐的候选词选择过程就可以在第一个或者第一页候选词中得到希望输入的字词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域，特别是涉及一种从互联网信息中提取新词的方法和系统。
技术介绍
互联网的出现在很大程度上是对语言文字发展的一大革命，文字内容的剧增，崭新的内容的出现都使得语言文字经历了一次大的变革。人们不仅仅看报纸杂志上面的文章，更多的会阅读互联网上的文章。随着时间的推移，互联网上的文字内容越来越丰富，已经是传统报纸杂志的文字信息所不能比拟的了。而且，随着信息传播的加速，新的字词以超乎寻常的速度在互联网上传播，短时间内就会有大量的新词出现。以前，个人在报纸杂志上发表文章很困难，而进入互联网时代，每个人都可以在网络上发表自己的看法，输入的文字也会越来越个性化，随着互联网用户的不断增多，个人的文章文字也不断增多，个性化的新的字词也不断的涌现出来。例如，“互联网”在若干年以前不是一个词，但现在它却作为一个词在广泛地使用。由于在很多语言处理技术中，词是最基本的分析元素，因此需要及时有效的获取新出现的词，以保证语言处理技术的准确性。例如，具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息，总是用词作为搜索单位来减少检索结果的冗余。在语音识别中，也通常把词作为最低层次的语言信息，并基于词建立语言模型，以解决单字层次上的声觉不确定性。但是由于新词不断出现，并且分散在庞杂的语料库中，很难及时有效的将新词分辨出来。现有技术一般采用由人工收集新词，加入到现有词库中的方式。例如，新词由搜索网站的管理者人工收集，然后加入该网站使用的定制词库；或者由词库开发者人工收集，然后归入下一代使用的系统词典中(通常可以用于输入法等领域)；或者...

【技术保护点】
一种提取新词的方法，其特征在于，包括以下步骤：　　　　获取搜索引擎的查询关键词字符串；　　　　确定符合预置规则的字符串；　　　　对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计；　　　　如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值，则将该字符串作为新词输出。

【技术特征摘要】
1.一种提取新词的方法，其特征在于，包括以下步骤获取搜索引擎的查询关键词字符串；确定符合预置规则的字符串；对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计；如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值，则将该字符串作为新词输出。2.如权利要求1所述的提取新词的方法，其特征在于，通过以下步骤确定符合预置规则的字符串将所述获取的查询关键词字符串与原有词库中的词条记录进行比对；去除在原有词库中已有记录的查询关键词字符串。3.如权利要求1或2所述的提取新词的方法，其特征在于，所述确定符合预置规则的字符串的步骤包括去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。4.如权利要求2所述的提取新词的方法，其特征在于，所述确定符合预置规则的字符串的步骤还包括去除字符串长度不在预置范围内的查询关键词字符串；或者去除不符合构词法则的查询关键词字符串。5.如权利要求1所述的提取新词的方法，其特征在于，还包括搜索引擎判断所述查询关键词字符串是否具有对应的用户点击行为；如果有，则存储该查询关键词字符串；如果没有，则丢弃该查询关键词字符串。6.如权利要求1所述的提取新词的方法，其特征在于，所述确定符合预置规则的字符串的步骤包括去除所述获取的查询关键词字符串中的无效字符；或者根据分隔符对所述获取的查询关键词字符串进行分割。7.如权利要求1所述的提取新词的方法，其特征在于，还包括根据输出的新词生成新词库或者将得到的新词添加至原有词库，得到新词库或者新版的全词库。8.如权利要求7所述的提取新词的方法，其特征在于，还包括设置包含系统词库的输入法系统位于第一计算设备中，所述新词库或者新版的全词库位于第二计算设备中；所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。9.如权利要求7所述的提取新词的方法，其特征在于，还包括设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中；设置所述新词库或者新版的全词库为输入法系统的系统词库，所述系统词库位于第二计算设备中；所述输入法系统根据用户输入的信息，从位于第二计算设备中的系统词库获取相应信息，在第一计算设备显示相应字符。10.如权利要求1所述的提取新词的方法，其特征在于，通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值；将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。11.一种...

【专利技术属性】
技术研发人员：佟子健，郭奇，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人