基于用户特性的词频库的生成方法技术

技术编号：2819812 阅读：377 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种基于用户特性的词频库的生成方法，特别是涉及一种实时更新的、个性化的基于用户特性的词频库的生成方法包括用户通过浏览器访问网页、浏览器调用取词插件、对网页信息进行分词处理、对词条进行词频统计和保存并实时更新词频库等步骤。本发明专利技术的基于用户特性的词频库的生成方法实时更新，无需下载，不需要进行更新操作，不需要对所有网页进行处理，只要分析个体用户所浏览的网页，用户特性的个性化词频库，成本低，可操作性强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，特别是涉及一种实时更新的、个性化的。
技术介绍
输入法为了提高输入速度都支持词组方式的输入，因此在某种意义上来说，词库的容量以及词的使用频率成了影响输入速度的重要因素。在较早的输入法中，词库的容量在第一次安装时便确定下来，不会自动更新。但是随着信息时代的来临，不断会有新的词组加入到日常交流中来，这些词都无法自动在这些输入法的词库中体现出来。为了解决这些问题，Google和Sogou的输入法都提供了自动更新词库的功能。由于两家公司都有自己的搜索引擎，因此他们会收集用户在搜索引擎上搜索最多的词，把这些词定期整理到一个词库中并放到服务器上，供他们的输入法定期下载更新。这种方式解决了词库中的词无法自动更新的问题，但是这些更新的词都是热门词，但并不一定是当前输入法使用者关心的内容；同时这些新的词都需要通过网络下载来获得，这样的方式在用户网络不太好的情况下会影响用户获得最新的词库。中国专利技术专利申请200610086577.4 "基于互联网信息的输入法词频库的生成方法和系统"公开了一种基于互联网信息的输入法词频库的生成方法，通过网络爬虫技术获取互联网的网页，对网页进行分词处理统计后保存到词频库，该方法所得到的词频库是基于非常庞大的互联网网页，每个网站都需要分配一只爬虫时刻关注，可想而知有一个非常巨大的工作量和超量的投入，所提供的词也是普遍关心的热门词，并且该方法的词频库是通过定期下载更新来实现的。世上三百六十行，每个行业都有其特殊性，所有人都很乐意把自己最关心的词用最快的速度得到表达。比如专利工作者希望把和专利...

【技术保护点】
基于用户特性的词频库的生成方法，包括以下步骤：　（１）用户通过浏览器访问网页；　（２）浏览器调用取词插件；　（３）对网页信息进行分词处理；　（４）对词条进行词频统计；　（５）保存并实时更新词频库。

【技术特征摘要】

【专利技术属性】
技术研发人员：林正昱，王正明，林国栋，
申请(专利权)人：上海埃帕信息科技有限公司，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人