资讯画像构建方法及装置制造方法及图纸

技术编号:26598913 阅读:21 留言:0更新日期:2020-12-04 21:21
本发明专利技术公开了一种资讯画像构建方法及装置,其中该方法包括:利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;以第一词集和第二词集的交集词语作为资讯画像的主题词;以第二词集作为资讯画像的关键词,计算关键词的词向量;根据关键词的词向量确定资讯词向量表征方式;根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。本发明专利技术不仅仅考虑词频,还考虑词语词之间的关联性,上下文语义,资讯画像内容丰富,准确率高,提高依赖资讯画像个性化服务的质量。

【技术实现步骤摘要】
资讯画像构建方法及装置
本专利技术涉及资讯画像
,尤其涉及资讯画像构建方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息。资讯画像被定义为一种抽象出资讯信息全貌的手段,往往用来描述资讯的特点,刻画资讯的形象,常常被应用于一些个性化的服务场景,这就对画像的准确性有了要求。然而传统的资讯画像构建主要以TFIDF(是一种用于信息检索和数据挖掘的常用加权技术。TF是词频,IDF是逆文档频率指数)提取关键词为主,具体过程就是:首先对资讯切词、去停用词,基于给定的资讯语料库中的语料计算每个词语的IDF值,再根据每个词在资讯中出现的频率得到文章中每个词的TFIDF值,然后根据TFIDF值排序,利用topk个词刻画资讯画像,对应的TFIDF值则为权重,这就导致画像的刻画过分依赖语料库,而忽略了词与词之间的关联性,未考虑上下文语义。这就导致资讯的画像过于单调,过分依赖词频,直接影响画像的准确性,限制依赖资讯画像的个性化服务的质量。
技术实现思路
本专利技术实施例提供一种资讯画像构建方法,用以解决现有技术中只是以TFIDF提取关键词为主,导致影响画像的准确性,限制依赖资讯画像的个性化服务的质量的技术问题,该方法包括:利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;以第一词集和第二词集的交集词语作为资讯画像的主题词;以第二词集作为资讯画像的关键词,计算关键词的词向量;根据所述关键词的词向量确定资讯词向量表征方式;根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。本专利技术实施例还提供一种资讯画像构建装置,用以解决现有技术中只是以TFIDF提取关键词为主,导致影响画像的准确性,限制依赖资讯画像的个性化服务的质量的技术问题,该装置包括:第一词集确定模块,用于利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;第二词集确定模块,用于利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;主题词确定模块,用于以第一词集和第二词集的交集词语作为资讯画像的主题词;关键词确定模块,用于以第二词集作为资讯画像的关键词;词向量确定模块,用于计算关键词的词向量;资讯词向量表征方式确定模块,用于根据所述关键词的词向量确定资讯词向量表征方式;资讯画像构建模块,用于根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述资讯画像构建方法。本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述资讯画像构建方法的计算机程序。本专利技术实施例中,利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集,这样考虑了词频,利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集,这样考虑词语词之间的关联性,上下文语义。然后以第一词集和第二词集的交集词语作为资讯画像的主题词;以第二词集作为资讯画像的关键词,计算关键词的词向量;根据所述关键词的词向量确定资讯词向量表征方式;根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。与现有技术中只是以TFIDF提取关键词为主,导致影响画像的准确性,限制依赖资讯画像的个性化服务的质量的技术方案相比,可以使得资讯画像内容丰富,准确率高,提高依赖资讯画像个性化服务的质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例中资讯画像构建方法流程图一;图2为本专利技术实施例中资讯画像构建方法流程图二;图3为本专利技术实施例中资讯画像构建方法流程图三;图4为本专利技术实施例中资讯画像构建方法流程图四;图5为本专利技术实施例中资讯画像构建装置结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。图1为本专利技术实施例中资讯画像构建方法流程图一,如图1所示,该方法包括:步骤101:利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个(下面可以用k代替)词语作为第一词集;步骤102:利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;步骤103:以第一词集和第二词集的交集词语作为资讯画像的主题词;步骤104:以第二词集作为资讯画像的关键词,计算关键词的词向量;步骤105:根据所述关键词的词向量确定资讯词向量表征方式;步骤106:根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。TextRank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。本专利技术利用TFIDF算法考虑了词频,利用TEXTRANK算法考虑了词语词之间的关联性,上下文语义。在本专利技术实施例中,如图2所示,该方法还包括:步骤104-1:根据IDF值和TextRank值确定关键词权重。由于第二词集和第一词集是不同的,所以关键词权重分为以下两种技术方式:(1)对属于第一词集和第二词集交集的词语的权重按照如下公式确定:weights=TextRank值×IDF值;(2)对属于第二词集不属于第一词集的词语的权重按照如下公式确定:weights=TextRank值;其中,weights表示关键词权重;TextRank值表示关键词的TextRank值;IDF值表示关键词的IDF值。举例说明。第一词集假设包括词语A、B本文档来自技高网...

【技术保护点】
1.一种资讯画像构建方法,其特征在于,包括:/n利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;/n利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;/n以第一词集和第二词集的交集词语作为资讯画像的主题词;/n以第二词集作为资讯画像的关键词,计算关键词的词向量;/n根据所述关键词的词向量确定资讯词向量表征方式;/n根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。/n

【技术特征摘要】
1.一种资讯画像构建方法,其特征在于,包括:
利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;
利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;
以第一词集和第二词集的交集词语作为资讯画像的主题词;
以第二词集作为资讯画像的关键词,计算关键词的词向量;
根据所述关键词的词向量确定资讯词向量表征方式;
根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。


2.如权利要求1所述的资讯画像构建方法,其特征在于,还包括:
根据IDF值和TextRank值确定关键词权重。


3.如权利要求2所述的资讯画像构建方法,其特征在于,对属于第一词集和第二词集交集的词语的权重按照如下公式确定:
weights=TextRank值×IDF值;
对属于第二词集不属于第一词集的词语的权重按照如下公式确定:
weights=TextRank值;
其中,weights表示关键词权重;TextRank值表示关键词的TextRank值;IDF值表示关键词的IDF值。


4.如权利要求1所述的资讯画像构建方法,其特征在于,计算关键词的词向量,包括:
利用word2vector算法计算关键词的词向量。


5.如权利要求1所述的资讯画像构建方法,其特征在于,还包括:
计算关键词的词向量权重。


6.如权利要求5所述的资讯画像构建方法,其特征在于,按照如下公式计算关键词的词向量权重:
关键词的词向量权重=关键词权重×关键词的词向量。


7.如权利要求1所述的资讯画像构建方法,其特征在于,按照如下公式根据所述关键词的词向量确定资讯词向量表征方式:
资讯词向量表征方式=预设数量个关键词的词向量的平均值。


8.如权利要求2所述的资讯画像构建方法,其特征在于,还包括:
将关键词和关键词权重缓存到redis中。


9.如权利要求8所述的资讯画像构建方法,其特征在于,将关键词和关键词权重缓存到redis中,包括:
使用hash类型结构将关键词和关键词权重缓存到redis中,其中,hash类型结构包括key和value,其中,key为资讯id,value为预设数量个关键词及关键词权重。


10.如权利要求1所述的资讯画像构建方法,其特征在于,根据主题词、关键词和资讯词向量表征方式合并构建资讯画像,包括:
使用hive数据仓库加载主题词、关键词和资讯词向量表征方式;
根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。


11.一种资讯画像构建装置,其特征在于,包括:
第一词集确定模块,用于利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;
第二词集确定模块,用于利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词...

【专利技术属性】
技术研发人员:狄潇然
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1