一种基于用户阅读兴趣的相关事件生成方法技术

技术编号：8655967 阅读：170 留言：0更新日期：2013-05-01 23:38

本发明专利技术公开了一种基于用户阅读兴趣的相关事件生成方法，包括：A、对舆情文档进行数据预处理的步骤；B、通过所述核心文档的正文对事件进行倒排索引，倒排word的初始权重值为TF-IDF值；C、对于历史事件集进行人工标注，标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子，通过映射将上述三部分信息即，CF和TA，转化为事件E对应的实数值；D、通过机器学习的方法，获得函数表达式的原型，并通过线性回归运算确定参数m和n的值；E、调整事件关键词在索引中的权重，然后对新事件的相关事件进行检索和展示。采用本发明专利技术，能够针对特定领域、准确检索和定位相关事件，进而找出用户所需的内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网搜索引擎和计算机网络
，尤其涉及。
技术介绍
随着互联网技术的高速发展，网络中充斥了大量的新闻信息。人们对于新闻事件阅读的需求体现在快速、准确等方面。此外，用户阅读体验的质量，也与阅读连贯性有着紧密的关系。阅读连贯性可以理解为用户浏览了当前事件之后，接着浏览与之相关的事件，进而逐步延长用户的停留时间。例如，当前事件为“北京雨雪将持续40小时降温幅度将达到8 10度”，该事件的关键词为“雨雪”、“降温”、“出行”等，通过用户历史点击数据可以赋予关键词权重，然后检索出本事件的相关事件。现有的研究或专利成果主要着眼于单条舆情网页的相关推荐，而事件是一系列相似舆情文档的集合，因此事件级别更加抽象化。如何针对特定领域、准确检索和定位相关事件，进而找出用户所需的内容，具有现实的研究价值。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供，针对特定领域、准确检索和定位相关事件，进而找出用户所需的内容。为达到上述目的，本专利技术的技术方案是这样实现的:，该方法包括:A、对舆情文档进行数据预处理，得到事件的核心子集，并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤；B、通过所述核心文档的正文对事件进行倒排索引，倒排word的初始权重值为TF-1DF值或Hit Number ;后台记录用户点击事件E的时间轴TA和频率CF，并计算得到事件对应关键词的权重因子a (E)；C、对于历史事件集进行人工标注，标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子，通过映射将上述三部分信息即a (E)，CF和TA，转化为事...

【技术保护点】
一种基于用户阅读兴趣的相关事件生成方法，其特征在于，该方法包括：A、对舆情文档进行数据预处理，得到事件的核心子集，并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤；B、通过所述核心文档的正文对事件进行倒排索引，倒排word的初始权重值为TF?IDF值或Hit?Number；后台记录用户点击事件E的时间轴TA和频率CF，并计算得到事件对应关键词的权重因子α(E)；C、对于历史事件集进行人工标注，标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子，通过映射将上述三部分信息即α(E)，CF和TA，转化为事件E对应的实数值；D、通过机器学习的方法，对步骤C中得到的训练数据进行回归运算，获得函数表达式的原型α(E)=m*TA+n*CF，并通过线性回归运算确定参数m和n的值；E、通过上述函数表达式调整事件关键词在索引中的权重，然后对新事件的相关事件进行检索和展示。

【技术特征摘要】
1.一种基于用户阅读兴趣的相关事件生成方法，其特征在于，该方法包括: A、对舆情文档进行数据预处理，得到事件的核心子集，并从核心子集中提取事件的核心文档以及事件的关键词列表的步骤； B、通过所述核心文档的正文对事件进行倒排索引，倒排word的初始权重值为TF-1DF值或Hit Number ;后台记录用户点击事件E的时间轴TA和频率CF,并计算得到事件对应关键词的权重因子a (E)； C、对于历史事件集进行人工标注,标注的内容主要包括事件的点击频率CF、时间轴信息TA、该事件作为相关事件的影响因子，通过映射将上述三部分信息即α (Ε)，CF和TA，转化为事件E对应的实数值； D、通过机器学习的方法，对步骤C中得到的训练数据进行回归运算，获得函数表达式的原型ct (E)=m*TA+n*CF,并通过线性回归运算确定参数m和η的...

【专利技术属性】
技术研发人员：薛飞，黄丛蕊，付万宇，杨之光，杨青，
申请(专利权)人：人民搜索网络股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人