一种提取新词的方法和系统技术方案

技术编号:2845318 阅读:182 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种提取新词的方法,包括以下步骤:获取搜索引擎的查询关键词字符串;确定符合预置规则的字符串;对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。本发明专利技术所述方法提取出的新词应用在搜索领域,当用户的查询关键词字符串中包括新词时,可以提高搜索结果的精确度和覆盖度;如果采用本发明专利技术所述方法提取出的新词应用在输入法领域,则可以方便用户更快更准确的输入新词,不需要经过繁琐的候选词选择过程就可以在第一个或者第一页候选词中得到希望输入的字词。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域,特别是涉及一种从互联网信息中提取新词的方法和系统
技术介绍
互联网的出现在很大程度上是对语言文字发展的一大革命,文字内容的剧增,崭新的内容的出现都使得语言文字经历了一次大的变革。人们不仅仅看报纸杂志上面的文章,更多的会阅读互联网上的文章。随着时间的推移,互联网上的文字内容越来越丰富,已经是传统报纸杂志的文字信息所不能比拟的了。而且,随着信息传播的加速,新的字词以超乎寻常的速度在互联网上传播,短时间内就会有大量的新词出现。以前,个人在报纸杂志上发表文章很困难,而进入互联网时代,每个人都可以在网络上发表自己的看法,输入的文字也会越来越个性化,随着互联网用户的不断增多,个人的文章文字也不断增多,个性化的新的字词也不断的涌现出来。例如,“互联网”在若干年以前不是一个词,但现在它却作为一个词在广泛地使用。由于在很多语言处理技术中,词是最基本的分析元素,因此需要及时有效的获取新出现的词,以保证语言处理技术的准确性。例如,具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息,总是用词作为搜索单位来减少检索结果的冗余。在语音识别中,也通常把词作为最低层次的语言信息,并基于词建立语言模型,以解决单字层次上的声觉不确定性。但是由于新词不断出现,并且分散在庞杂的语料库中,很难及时有效的将新词分辨出来。现有技术一般采用由人工收集新词,加入到现有词库中的方式。例如,新词由搜索网站的管理者人工收集,然后加入该网站使用的定制词库;或者由词库开发者人工收集,然后归入下一代使用的系统词典中(通常可以用于输入法等领域);或者设置一公共词库(例如,紫光),然后由网友或者其他公众人工累积收集新词,加入到该公共词库中,可以集合大量人工的力量。但是上述的这些方式,都非常耗费时间、工作繁重、劳动密集、效率低下。因此,人们迫切需要一种能够从庞杂的语言使用中及时有效获取新词的方法。
技术实现思路
本专利技术所要解决的技术问题是提供一种新词提取方法和系统,可以简单方便、及时有效的自动获取互联网上出现的新词。为解决上述技术问题,本专利技术提供了一种提取新词的方法,包括以下步骤获取搜索引擎的查询关键词字符串;确定符合预置规则的字符串;对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。优选的,通过以下步骤确定符合预置规则的字符串将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的查询关键词字符串。优选的,所述确定符合预置规则的字符串的步骤包括去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。所述确定符合预置规则的字符串的步骤还可以包括去除字符串长度不在预置范围内的查询关键词字符串;或者去除不符合构词法则的查询关键词字符串。优选的,所述的提取新词的方法,还包括搜索引擎判断所述查询关键词字符串是否具有对应的用户点击行为;如果有,则存储该查询关键词字符串;如果没有,则丢弃该查询关键词字符串。优选的,所述确定符合预置规则的字符串的步骤包括去除所述获取的查询关键词字符串中的无效字符;或者根据分隔符对所述获取的查询关键词字符串进行分割。优选的,所述的提取新词的方法,还包括根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。优选的,所述的提取新词的方法,还包括设置包含系统词库的输入法系统位于第一计算设备中,所述新词库或者新版的全词库位于第二计算设备中;所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。优选的,所述的提取新词的方法,还包括设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;设置所述新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中;所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符。优选的,通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值;将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。本专利技术还提供了一种提取新词的系统,包括接口单元,用于获取搜索引擎的查询关键词字符串;过滤单元,用于确定符合预置规则的字符串;互联网页面数据库,用于存储互联网页面信息;统计单元,对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;新词确定单元,判断所述符合预置规则的字符串的出现次数是否大于或者等于预置阀值;如果是,则将该字符串作为新词输出。其中,所述过滤单元可以包括以下模块中的任一个或者多个比对模块,用于将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;原有词库过滤模块,用于去除在原有词库中已有记录的查询关键词字符串。频率过滤模块,用于去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。长度过滤模块,用于去除字符串长度大于或者等于预置阀值的查询关键词字符串;或者构词法过滤模块,用于去除不符合构词法则的查询关键词字符串。无效字符过滤模块,用于去除所述获取的查询关键词字符串中的无效字符;或者分割模块,用于根据分隔符对所述获取的查询关键词字符串进行分割。优选的,所述的提取新词的系统,还包括词库管理单元,用于根据得到的新词生成新词库或者将得到的新词添加至原有词库。优选的,所述词库管理单元位于第二计算设备中,所述的提取新词的系统还包括输入法单元,位于第一计算设备中,其中设置有系统词库;所述输入法单元通过第一计算设备连接所述词库管理单元完成系统词库的更新。优选的,所述词库管理单元位于第二计算设备中,所述的提取新词的系统还包括输入法接收模块,用于接收用户输入信息,位于第一计算设备中;输入法显示模块,用于显示相应字符,位于第一计算设备中;所述输入法接收模块、输入法显示模块和词库管理单元相连接,根据用户输入的信息,从词库管理单元获取相应信息,在第一计算设备显示相应字符。优选的,所述的提取新词的系统,还包括互联网页面数据库生成单元,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。与现有技术相比,本专利技术具有以下优点首先,由于本专利技术以互联网搜索引擎的查询日志中的关键词为新词来源,可以大大减少对新词的初步分析的工作量(尤其相比于直接从语料库中分析而言);并且搜索引擎的查询日志中的关键词可以准确反映人们在语言使用上的趋势,几乎所有的互联网新词都会在这里出现,因此以互联网搜索引擎的查询日志中的关键词为新词来源可以保证获取得到的新词的代表性、全面性。其次,本专利技术还可以对查询日志中的关键词字符串进行过滤和筛选,例如,去除现有词库中已有的、去除搜索频率较低的、去除格式不符的、去除用户输入后没有在搜索结果页面中进行点击行为的等等。上述过滤和筛选规则中,有些还可以直接在查询日志存储时就过滤掉,例如,存储时去除标点等无效字符、或者仅仅存储用户有点击行为的关键词字符串。通过上述的过滤规则的单独使用或者组合使用,可以大大增加本专利技术获取新词的速度和效率。再者,本专利技术将获取的可能是新词的字符,放置在本专利技术提供的一精选互联网页面数据库中,进本文档来自技高网
...

【技术保护点】
一种提取新词的方法,其特征在于,包括以下步骤:    获取搜索引擎的查询关键词字符串;    确定符合预置规则的字符串;    对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;    如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。

【技术特征摘要】
1.一种提取新词的方法,其特征在于,包括以下步骤获取搜索引擎的查询关键词字符串;确定符合预置规则的字符串;对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。2.如权利要求1所述的提取新词的方法,其特征在于,通过以下步骤确定符合预置规则的字符串将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的查询关键词字符串。3.如权利要求1或2所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤包括去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。4.如权利要求2所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤还包括去除字符串长度不在预置范围内的查询关键词字符串;或者去除不符合构词法则的查询关键词字符串。5.如权利要求1所述的提取新词的方法,其特征在于,还包括搜索引擎判断所述查询关键词字符串是否具有对应的用户点击行为;如果有,则存储该查询关键词字符串;如果没有,则丢弃该查询关键词字符串。6.如权利要求1所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤包括去除所述获取的查询关键词字符串中的无效字符;或者根据分隔符对所述获取的查询关键词字符串进行分割。7.如权利要求1所述的提取新词的方法,其特征在于,还包括根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。8.如权利要求7所述的提取新词的方法,其特征在于,还包括设置包含系统词库的输入法系统位于第一计算设备中,所述新词库或者新版的全词库位于第二计算设备中;所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。9.如权利要求7所述的提取新词的方法,其特征在于,还包括设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;设置所述新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中;所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符。10.如权利要求1所述的提取新词的方法,其特征在于,通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值;将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。11.一种...

【专利技术属性】
技术研发人员:佟子健郭奇
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1