当前位置: 首页 > 专利查询>曹华诚专利>正文

内容推荐方法技术

技术编号:16529089 阅读:100 留言:0更新日期:2017-11-09 20:52
本发明专利技术提供一种内容推荐方法,其特征在于,该方法包括:断词步骤:对资料库的文件断词;提取步骤:过滤断词结果,并计算过滤结果中词的重要程度,并以重要程度为依据提取文件的关键词;统计步骤:统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选用户的兴趣关键词;及检索步骤:根据用户的兴趣关键词进行检索,并以兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。

【技术实现步骤摘要】
内容推荐方法本申请是申请号为2013100761474、申请日为2013年03月11日、专利技术创造名称为“内容推荐系统”的专利的分案申请。
本专利技术涉及文字信息检索技术,尤其涉及一种内容推荐方法。
技术介绍
信息技术的不断发展极大提高了人们获取信息的便利性。无论是通过互联网的各大门户网站、电子商务系统还是通过企业内部的各种资源共享系统的方式,海量的信息开放给用户自由查阅。目前信息量的日益庞大,很大程度上增加了用户获取有效信息的繁重性和复杂度。如何根据用户在网络上查阅文件的行为,分析用户阅读兴趣并检索有效信息提供给用户是信息检索中一个重要的课题。
技术实现思路
鉴于以上内容,有必要提供一种内容推荐系统及方法,可以有效利用用户网络上的检索行为,统计并分析用户阅读兴趣,获取有效的文件信息提供给用户。所述的内容推荐系统包括:断词模块,用于对资料库中的文件进行断词;提取模块,用于过滤断词结果,并计算过滤结果中词的重要程度,以重要程度为依据,提取出文件的关键词;统计模块,用于统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据,筛选出用户的兴趣关键词;及检索模块,用于根据用户的兴趣关键词从资料库中检索文件,并根据兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。所述的内容推荐方法包括:对资料库的文件断词;过滤断词结果,并计算过滤结果中词的重要程度,以重要程度为依据提取文件的关键词;统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选出用户的兴趣关键词;及根据用户的兴趣关键词从资料库中检索文件,并根据兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。本专利技术可以提取文字信息的关键词借以分析用户检索行为并统计用户的兴趣关键词,获取符合用户自身特点的信息推送给用户,降低了用户检索和信息过滤的复杂度和繁重性。附图说明图1是本
技术实现思路
推荐系统较佳实施例的应用环境图。图2是本
技术实现思路
推荐系统较佳实施例的功能模块图。图3是本
技术实现思路
推荐方法较佳实施例的方法流程图。图4是本
技术实现思路
推荐系统较佳实施例中文件汇总记录的示意图。图5是本
技术实现思路
推荐系统较佳实施例中文件关键词记录的示意图。图6是本
技术实现思路
推荐系统较佳实施例中用户兴趣关键词记录的示意图。主要元件符号说明服务器1用户终端2内容推荐系统10处理器11资料库12解析模块100断词模块101提取模块102统计模块103检索模块104如下具体实施方式将结合上述附图进一步说明本专利技术。具体实施方式参阅图1所示,是本
技术实现思路
推荐系统的较佳实施例的应用环境图。所述的内容推荐系统10应用于服务器1中。所述服务器1通过国际互联网络或企业内部网络和一个用户终端2进行通讯连接。在本较佳实施例中仅以1个用户终端2进行说明,在本专利技术其他实施例中服务器1可以与多个用户终端2进行连接。所述用户终端2可以是个人电脑、平板电脑、移动通讯设备(例如手机)等。所述内容推荐系统10的程序代码由处理器11控制执行,并与资料库12进行数据存取传输。所述资料库12存储开放给用户终端2检索的文件、断词词库以及常用词词库、内容推荐系统10处理产生的数据记录等。所述断词词库以及常用词词库提供给内容推荐系统10在断词和提取文件关键词时使用。所述资料库12可以是内置在服务器1的存储器也可以是外接服务器1的存储器。图1仅为示例,在实际应用中,所述的内容推荐系统10的应用并不局限于此。参阅图2所示,是本
技术实现思路
推荐系统的较佳实施例的功能模块图。所述内容推荐系统10包括解析模块100、断词模块101、提取模块102、统计模块103及检索模块104。所述解析模块100用于将文件解析为具有标题及文字正文的结构性的文字信息。所述文件可以是网页内容、含图片的Word文件、Text文本信息等。本专利技术其他实施例中可根据文件类型以及文件来源等适当取舍解析模块100。当文件为网页时,解析模块主要是利用网页拆解技术,剔除网页原始码中的HTML语法(HyperTextMarkupLanguage,超文本标记语言)、JavaScript语法和一些无意义的图片或链接等。当文件为Word文件时,解析模块主要是用来剔除文字无关的图片等。当文件为Text文本信息,则无需解析模块对文件进行解析。所述断词模块101用于对解析后的文字信息进行断词。所述断词是将文字信息的文句断开成可赋予词类的词。因为中文不似英文有明显的空白符号作为断词的判断,常见的中文断词技术有词库式断词法(WordIdentification)、统计式断词法(StatisticalWordIdentification)及混合式断词法(HybridWordIdentification)。词库式断词法对文件断词主要是比对文件中出现的词汇与词库中的词汇进行断词,断词的结果主要受词库大小、品质的影响,一些专有名词或是新生词汇则由于词库的限制而无法正确断出。对于词库式断词加上构词规则的分析即为规则式词库断词法。统计式断词法对文件断词是由一定的统计公式统计临近字元同时出现的频率,以频率的高低作为断词的依据,断词结果不依赖词库品质而是以频率高低决定词汇,可能得到没有意义的词汇。混合式断词法是将词库式断词法和统计式断词法整合,首先利用词库式断词法对文字信息断词,可配合使用构词规则简化断词,再以统计公式列出所有可能结果。混合式断词法结合两种断词法的优点,一定程度上规避了两种断词法的缺点从而优化了断词过程。在本专利技术的较佳实施例中采取了混合式断词法对中文文字信息进行断词。首先根据资料库12中的断词词库并配合词库小组提出的六条断词规则即采用规则式词库断词法对文字信息进行第一阶段的断词,其中断词词库可以根据本专利技术不同实施例的适用范围而进行建制;其次利用统计分析法的统计公式对第一阶段断词后的断词结果进行频率统计,列出所有可能的词。本较佳实施例中统计式断词法的主要统计公式如下:F[i]>1………………(公式1-1)TF[i]>1………………(公式1-2)F[i]=TF[i]……………(公式1-3)F[i]表示的某个字、词在文字信息中单独出现的次数;TF[i]表示F[i]记录的该字、词其后的字、词在文字信息中单独出现的次数;F[i]=TF[i]表示某个字、词出现的次数和该字、词其后的字、词出现的次数一致,则表明这两者每次在文字信息中都是一起出现,故认为两者可以合并为一个词。现以一段节选自东方早报网站上的题为《破解“春运购票难”需要系统性方案》的内容为例,对本较佳实施例的断词法进行详细说明。节选内容如下:近年来,铁路春运压力始终居高不下,虽然铁道部努力改善车票购买办法,采取了诸如网络和电话订票、推行实名制、打击“黄牛”等措施,尽量让乘客顺利出行,并取得了一定成效。但今年春运,从艰难的购票到倒票现象依然存在,无不说明诸多乱象的存在。这显示,破解春运购票难,绝对不是单纯票务管理的问题,而是铁路内部涉及利益、理念和技术等各方面的系统工程。以上文字内容经本实施例的第一阶段断词,断词结果为:“近年来铁路春运压力始终居高不下虽然铁道部努力改善车票购买方法采取了诸如网络和电话订票推行实名制打击黄牛等措施尽量让本文档来自技高网
...
内容推荐方法

【技术保护点】
一种内容推荐方法,其特征在于,该方法包括:断词步骤:对资料库的文件断词;提取步骤:过滤断词结果,并计算过滤结果中词的重要程度,并以重要程度为依据提取文件的关键词;统计步骤:统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选用户的兴趣关键词;及检索步骤:根据用户的兴趣关键词进行检索,并以兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。

【技术特征摘要】
1.一种内容推荐方法,其特征在于,该方法包括:断词步骤:对资料库的文件断词;提取步骤:过滤断词结果,并计算过滤结果中词的重要程度,并以重要程度为依据提取文件的关键词;统计步骤:统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选用户的兴趣关键词;及检索步骤:根据用户的兴趣关键词进行检索,并以兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。2.如权利要求1所述的内容推荐方法,其特征在于,在断词步骤前还包括:解析步骤,将资料库中的文件解析为具有标题及文字正文的结构性的文字信息以便断词。3.如权利要求1所述的内容推荐方法,其特征在于,所述断词步骤在对中文文字信息断词时采用混合式断词法,即先用规则式词库断词法对文字信息进行第一阶段的断词,再用统计式断词法对第一阶段断词后的断词结果进行频率统计,列出所有可能的词。4.如权利要求1所述的内容推荐方法,其特征在于,所述提取步骤包括:根据常用词词库对断词结果进行过滤;利用加权法计算过滤后的词的重要程度,计算公式为:词的重要程度=该词在文字正文出现的次数×正文权重+该词在标题中出现次数×标题权重;根据每个词的重要程度进行降序排列,取...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:曹华诚
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1