【技术实现步骤摘要】
高效的热点识别及匹配方法
本专利技术涉及一种高效的热点识别及匹配方法。
技术介绍
社会热点对新闻行业相关工作者重要的意义。对一个社会热点来说,这个热点相关的新讯息尤为重要,这些内容可以给新闻编辑和新闻读者提供更多此热点相关的信息。所以,将某一热点相关的新讯息关联到该热点的技术就显得尤为重要。在现有方案中,大部分热点相关的新闻内容都会经过一些人工预定义的触发词,如果新讯息包含预设的触发词则由编辑人工筛选后手动加入这个热点的标签,图片视频也大量由人工编辑加上这个热点的标签。其余一部分采用热点关键词搜索的方法,筛选一些相关的新闻。这样的方式,局限性明显:(1)耗费人力过多。在非工作时间出现的热点往往会较晚被业务人员处理,导致效果不稳定。(2)处理速度慢。候选热点较多的情况下,将新讯息匹配到相关热点所需要的时间较长。
技术实现思路
为解决现有技术的不足,本专利技术提供了一种可以解决上述问题的高效的热点识别及匹配方法。为了实现上述目标,本专利技术采用如下的技术方案:一种高效的 ...
【技术保护点】
1.一种高效的热点识别及匹配方法,其特征在于,包含以下步骤:/n获取若干热点讯息,为每一热点讯息设定一个唯一的热点ID;/n对于每一热点讯息,提取热点讯息的标题和正文,从标题中提取关键词,将提取的关键词进行两两组合构成若干词对,计算每个词对的编码值,将词对的编码值作为key,将词对对应的热点讯息的热点ID作为value,组成键值对,存储在第一数据库中,根据正文的内容计算提取出的关键词的权值,从标题中提取实体信息,将热点讯息的热点ID作为key,将热点讯息对应的标记有权值的关键词和实体信息作为value,组成键值对,存储在第二数据库中;/n获取待识别的新讯息,提取新讯息的标题 ...
【技术特征摘要】
1.一种高效的热点识别及匹配方法,其特征在于,包含以下步骤:
获取若干热点讯息,为每一热点讯息设定一个唯一的热点ID;
对于每一热点讯息,提取热点讯息的标题和正文,从标题中提取关键词,将提取的关键词进行两两组合构成若干词对,计算每个词对的编码值,将词对的编码值作为key,将词对对应的热点讯息的热点ID作为value,组成键值对,存储在第一数据库中,根据正文的内容计算提取出的关键词的权值,从标题中提取实体信息,将热点讯息的热点ID作为key,将热点讯息对应的标记有权值的关键词和实体信息作为value,组成键值对,存储在第二数据库中;
获取待识别的新讯息,提取新讯息的标题和正文,从标题中提取关键词,计算提取出的关键词的权值,将提取的关键词进行两两组合构成若干词对,计算每个词对的编码值,根据计算出的编码值从第一数据库中匹配出对应的若干热点ID,根据匹配到的若干热点ID从第二数据库中匹配出每个热点ID对应的热点讯息的标记有权值的关键词和实体信息,从标题中提取实体信息,将匹配到的每一个热点ID对应的热点讯息的关键词和实体信息与新讯息的关键词和实体信息进行一一比对匹配得到匹配结果。
2.根据权利要求1所述的高效的热点识别及匹配方法,其特征在于,
时间实体包括:人物实体、地域实体和时间实体;
将匹配到的每一个热点ID对应的热点讯息的关键词和实体信息与新讯息的关键词和实体信息进行一一比对匹配得到匹配结果的具体步骤包括:
(1)关键词匹配:将每一热点讯息的关键词与新讯息的关键词进行一一比对,精确匹配的关键词计1分,模糊匹配的关键词计0.5分,合计达到2.5分,则匹配通过;
(2)人物实体匹配:若热点讯息和新讯息的标题均不包含人物实体,则匹配通过,若热点讯息和新讯息的标题均包含人物实体,且两者的人物实体相同,则匹配通过;
(3)地域实体匹配:若热点讯息和新讯息的标题均不包含地点实体,则匹配通过,若热点讯息和新讯息的标题均包含地点实体,当两者的地点实体为同级且相同,则匹配通过,当两者的地点实体不同级但具有相互包含关...
【专利技术属性】
技术研发人员:汪弘楠,刘方然,
申请(专利权)人:新华智云科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。