基于用户特性的词频库的生成方法技术

技术编号:2819812 阅读:377 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于用户特性的词频库的生成方法,特别是涉及一种实时更新的、个性化的基于用户特性的词频库的生成方法包括用户通过浏览器访问网页、浏览器调用取词插件、对网页信息进行分词处理、对词条进行词频统计和保存并实时更新词频库等步骤。本发明专利技术的基于用户特性的词频库的生成方法实时更新,无需下载,不需要进行更新操作,不需要对所有网页进行处理,只要分析个体用户所浏览的网页,用户特性的个性化词频库,成本低,可操作性强。

【技术实现步骤摘要】

本专利技术涉及一种,特别是涉及一种实 时更新的、个性化的。
技术介绍
输入法为了提高输入速度都支持词组方式的输入,因此在某种意义上来 说,词库的容量以及词的使用频率成了影响输入速度的重要因素。在较早的 输入法中,词库的容量在第一次安装时便确定下来,不会自动更新。但是随 着信息时代的来临,不断会有新的词组加入到日常交流中来,这些词都无法 自动在这些输入法的词库中体现出来。为了解决这些问题,Google和Sogou的输入法都提供了自动更新词库的 功能。由于两家公司都有自己的搜索引擎,因此他们会收集用户在搜索引擎 上搜索最多的词,把这些词定期整理到一个词库中并放到服务器上,供他们 的输入法定期下载更新。这种方式解决了词库中的词无法自动更新的问题, 但是这些更新的词都是热门词,但并不一定是当前输入法使用者关心的内容; 同时这些新的词都需要通过网络下载来获得,这样的方式在用户网络不太好 的情况下会影响用户获得最新的词库。中国专利技术专利申请200610086577.4 "基于互联网信息的输入法词频库的 生成方法和系统"公开了一种基于互联网信息的输入法词频库的生成方法, 通过网络爬虫技术获取互联网的网页,对网页进行分词处理统计后保存到词 频库,该方法所得到的词频库是基于非常庞大的互联网网页,每个网站都需 要分配一只爬虫时刻关注,可想而知有一个非常巨大的工作量和超量的投入, 所提供的词也是普遍关心的热门词,并且该方法的词频库是通过定期下载更 新来实现的。世上三百六十行,每个行业都有其特殊性,所有人都很乐意把自己最关心的词用最快的速度得到表达。比如专利工作者希望把和专利相关联的词排序尽量靠前,如专利申请常用到"背景" 一词,在输入拼音"beijing"后几 乎无一例外地会把"北京"排在第一位,而前面所述的现有技术统计结果肯 定也是"北京"多于"背景",但是在北京以外地方从事专利工作的人或许 用到"背景"的次数远远超过"北京",他们希望"背景"能够排在词序第一 位。另外,由于用户每天会访问很多网页,每个网页的关键词都会被记入到 词库中去。有些词会是用户需要的,但并不是所有的词都如此,因此浏览器 插件把这些词加入词频库后,并不会调整它的词频到最前面。打个比方说, 一个婚庆行业的人,那么"新郎"加入的他的词频库中并被列为第一位是正 确的,但是如果他连续访问新浪网站看新闻,"新浪"也进入了他的词频库, 而且还超过了 "新郎"排在了第一个就不太合适了。综上所述,现有技术提供的都是热门词,是使用频率比较多的词,代表 了普遍性;同时这些新的词都需要通过网络定期下载来获得,这样的方式在 用户网络不太好的情况下更会影响用户获得最新的词库,而且经常要进行更 新操作。每个人都希望词频库是当前输入法使用者关心的内容,这就需要词 频库具备个性化特点,并且具备即时更新功能。
技术实现思路
本专利技术的目的是提供一种,也就是提 供一种实时更新的、个性化的。为了解决 目前输入法对词库更新的问题,本专利技术通过浏览器与取词插件的结合,在用 户浏览网页的时候,就会自动对网页内容进行分析,获得用户关注的内容, 并把这些内容作为词加入到输入法词库中。本专利技术解决了词频库需要通过定期下载更新、无法实时更新的问题,弥 补了现有技术只能针对大众而不能体现个性化的不足。本专利技术的通过用户浏览互联网网页或本地网页,由取词插件调用Html分析器分析用户访问网页的内容,取词插件 是一个浏览器的扩展,具有同浏览器进行通信的能力,能获得浏览器当前的 状态,并改变浏览器的默认行为。通过它来实现对用户访问过的网页进行分 析,并将结构记录入指定位置,Html分析器调用Html解释器,请求网页的抽 象语法树,Html解释器返回网页的抽象语法树,浏览器调用Html分析器请求 对取得的抽象语法树进行分析,Html分析器取到抽象语法树中属性为Meta, Title等存放网页关键内容的节点,返回网页关键词,浏览器调用Html分析器 对取得的网页关键词进行分词,Html分析器返回分词后的词组列表,浏览器 把所有找出的词组,调用输入法的添加词组方法,输入法添加词组方法把收 到的词组存入到词库中去。 作为优选的技术方案,包括以下步骤(1) 用户通过浏览器访问网页;(2) 浏览器调用取词插件;(3) 对网页信息进行分词处理;(4) 对词条进行词频统计;(5) 保存并实时更新词频库。 所述的网页包括互联网的网页和本地网页。 所述的本地网页包括局域网网页和本地硬盘上的网页。 所述的用户是单台终端的个体用户。 所述的取词插件仅在每个被激活的网页中进行分析。 所述的步骤不间断循环。本专利技术的有益效果是1、 实时更新,无需下载,不需要进行更新操作;2、 不需要对所有网页进行处理,只要分析个体用户所浏览的网页;3、 用户特性的个性化词频库;4、 成本低,可操作性强;5、 包括搜索引擎搜索不到的局域网或本地网页内容。 附图说明图1是本专利技术实施例的抽象语法树图。 具体实施例方式下面结合具体实施方式,进一步阐述本专利技术。应理解,这些实施例仅用 于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲 授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价 形式同样落于本申请所附权利要求书所限定的范围。实施例1假设词频库中有且仅有拼音为"Xing,Lang""新郎"这个词组。某天用 户访问了 www.sina.com.cn,拼音同样为"Xing'Lang""新浪"的词组被加入到了 词频库中,但"新浪"是排在了 "新郎"之后。原因在于用户每天会访问很 多网页,每个网页的关键词都会被记入到词库中去。有些词会是用户需要的, 但并不是所有的词都如此,因此浏览器插件把这些词加入词频库后,并不会 调整它的词频到最前面。某天用户需要输入"新浪",他只要输入"Xing,Lang", 输入法会依此列出"新郎"于"新浪"之前,用户选中第二个词"新浪"。之 后某天用户需要再次输入"新浪"他只要输入"Xing'Lang",这次输入法列出 的顺序改变成了 "新浪"、"新郎",第一个词即为他需要的"新浪"。反之亦 然,浏览器插件不会因为经常访问新浪网而使"新浪"永远排在第一位。实施例2获得网页的关键词,以如下网页为例 <html><m"a name="description" content="habu workflow是开源的工作流,源代码是免费的,开源的,属子opensourcejava"/>〈titlo上海埃帕信息科技有限公司々titl。</head><body>公司介绍</body>通^: Html解释器获得抽象语法树(见附图l)。对于抽象语法树的Meta节点来说,包含两个属性Name与Content,其中 Content被绝大多数网站用来表示网页的关键内容,这些内容往往是由符号分 隔的词组或短语。Html分析器负责把相关的节点(类似于Meta表示或包含网 页关键内容的节点)的包含关键内容的属性取出,并对这些内容进行进一步 的细分,分成用户可以接受的词组。经多次试验证明,本专利技术确实能够实 时更新,无需下载,不需要进行更新操作;本专利技术不需要对所有网页进行处 理,只要分析本文档来自技高网
...

【技术保护点】
基于用户特性的词频库的生成方法,包括以下步骤: (1)用户通过浏览器访问网页; (2)浏览器调用取词插件; (3)对网页信息进行分词处理; (4)对词条进行词频统计; (5)保存并实时更新词频库。

【技术特征摘要】

【专利技术属性】
技术研发人员:林正昱王正明林国栋
申请(专利权)人:上海埃帕信息科技有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1