【技术实现步骤摘要】
一种文章合并方法及装置
本专利技术实施例涉及文本信息处理
,特别是涉及一种文章合并方法及装置。
技术介绍
随着计算机技术以及互联网技术的发展,用户越来越依赖网络,从查阅新闻、学习新知识、掌握新技能等都通过网络来获取资源。网络中各类文献资料越来越多,且文献资料的来源也越来越广。同一篇文章可能会在网络中经过多个人进行转发多次,或者在同一篇文章上稍作改动,然后生成另外一篇文章,等等。这种相似文章不仅占据了大量网络空间,而且会导致用户在进行搜索时出现多个相同的网络资源,给用户带来不便。现有技术中,虽有对相似文章的合并技术,但是由于对文章核心部位提取不准确,或者是不具备针对性,合并文章出现错误,准确率较低,将不同文章错认为相似文章进行合并。举例来说,对于有固定模板的某些文章,例如新闻以及发布公告,现有技术往往会将使用同一类模板的不同文章进行合并,例如同一个主题的多篇新闻,由于文中的涉及到事件发生的时间不同,现有技术会默认这多篇新闻为相似文章,从而进行合并,这就导致某些年份发生事件的新闻无法在网络上查询得到。
技术实现思路
本专利技术实施例的目的是提供一种文章合并方法及装置 ...
【技术保护点】
一种文章合并方法,其特征在于,包括:获取多篇待合并的文章;根据预设词性库以及专业词数据库对多篇所述文章进行分词,以获得各自的目标词集;所述预设词性库为所述目标词集中的各目标词的词性,所述专业词数据库包括用户业务需求词组和/或在各类文章类型中进行逆文档频率词提取的词组;对各所述目标词集利用预设的算法求取哈希码,选取满足预设时间条件的目标文章;利用第一预设函数依次对各所述目标文章对应的哈希码计算各所述目标文章间的距离;当判定各所述目标文章间的距离不大于预设距离阈值时,则将对应的目标文章进行合并。
【技术特征摘要】
1.一种文章合并方法,其特征在于,包括:获取多篇待合并的文章;根据预设词性库以及专业词数据库对多篇所述文章进行分词,以获得各自的目标词集;所述预设词性库为所述目标词集中的各目标词的词性,所述专业词数据库包括用户业务需求词组和/或在各类文章类型中进行逆文档频率词提取的词组;对各所述目标词集利用预设的算法求取哈希码,选取满足预设时间条件的目标文章;利用第一预设函数依次对各所述目标文章对应的哈希码计算各所述目标文章间的距离;当判定各所述目标文章间的距离不大于预设距离阈值时,则将对应的目标文章进行合并。2.根据权利要求1所述的方法,其特征在于,在所述对各所述目标词集利用预设的算法求取哈希码之后还包括:根据所述专业词数据库对各所述哈希码进行加维降维。3.根据权利要求2所述的方法,其特征在于,所述对各所述目标词集利用预设的算法求取哈希码为:调用simhash(test,64)对各所述目标词集求取64位哈希码。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据预设词性库以及专业词数据库对多篇所述文章进行分词,以获得各自的目标词集为:根据所述预设词性库以及所述专业词数据库提取各所述文章中的目标词组;根据各所述文章对应的行业类型,对所述目标词组进行归一化处理,以生成各自对应的目标词集。5.根据权利要求1至3任意一项所述的方法,其特征在于,所述各所述目标文章间的距离不大于预设距离阈值时,则将...
【专利技术属性】
技术研发人员:赵海兵,
申请(专利权)人:湖南中周至尚信息技术有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。