资讯画像构建方法及装置制造方法及图纸

技术编号：26598913 阅读：21 留言：0更新日期：2020-12-04 21:21

本发明专利技术公开了一种资讯画像构建方法及装置，其中该方法包括：利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；以第一词集和第二词集的交集词语作为资讯画像的主题词；以第二词集作为资讯画像的关键词，计算关键词的词向量；根据关键词的词向量确定资讯词向量表征方式；根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。本发明专利技术不仅仅考虑词频，还考虑词语词之间的关联性，上下文语义，资讯画像内容丰富，准确率高，提高依赖资讯画像个性化服务的质量。

全部详细技术资料下载

【技术实现步骤摘要】
资讯画像构建方法及装置
本专利技术涉及资讯画像
，尤其涉及资讯画像构建方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息。资讯画像被定义为一种抽象出资讯信息全貌的手段，往往用来描述资讯的特点，刻画资讯的形象，常常被应用于一些个性化的服务场景，这就对画像的准确性有了要求。然而传统的资讯画像构建主要以TFIDF(是一种用于信息检索和数据挖掘的常用加权技术。TF是词频，IDF是逆文档频率指数)提取关键词为主，具体过程就是：首先对资讯切词、去停用词，基于给定的资讯语料库中的语料计算每个词语的IDF值，再根据每个词在资讯中出现的频率得到文章中每个词的TFIDF值，然后根据TFIDF值排序，利用topk个词刻画资讯画像，对应的TFIDF值则为权重，这就导致画像的刻画过分依赖语料库，而忽略了词与词之间的关联性，未考虑上下文语义。这就导致资讯的画像过于单调，过分依赖词频，直接影响画像的准确性，限制依赖资讯画像的个性化服务的质量。
技术实现思路
本专利技术实施例提供一种资讯画像构建方法，用以解决现有技术中只是以TFIDF提取关键词为主，导致影响画像的准确性，限制依赖资讯画像的个性化服务的质量的技术问题，该方法包括：利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；利用TEXTRANK...

【技术保护点】
1.一种资讯画像构建方法，其特征在于，包括：/n利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；/n利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；/n以第一词集和第二词集的交集词语作为资讯画像的主题词；/n以第二词集作为资讯画像的关键词，计算关键词的词向量；/n根据所述关键词的词向量确定资讯词向量表征方式；/n根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。/n

【技术特征摘要】
1.一种资讯画像构建方法，其特征在于，包括：
利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；
利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；
以第一词集和第二词集的交集词语作为资讯画像的主题词；
以第二词集作为资讯画像的关键词，计算关键词的词向量；
根据所述关键词的词向量确定资讯词向量表征方式；
根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。

2.如权利要求1所述的资讯画像构建方法，其特征在于，还包括：
根据IDF值和TextRank值确定关键词权重。

3.如权利要求2所述的资讯画像构建方法，其特征在于，对属于第一词集和第二词集交集的词语的权重按照如下公式确定：
weights＝TextRank值×IDF值；
对属于第二词集不属于第一词集的词语的权重按照如下公式确定：
weights＝TextRank值；
其中，weights表示关键词权重；TextRank值表示关键词的TextRank值；IDF值表示关键词的IDF值。

4.如权利要求1所述的资讯画像构建方法，其特征在于，计算关键词的词向量，包括：
利用word2vector算法计算关键词的词向量。

5.如权利要求1所述的资讯画像构建方法，其特征在于，还包括：
计算关键词的词向量权重。

6.如权利要求5所述的资讯画像构建方法，其特征在于，按照如下公式计算关键词的词向量权重：
关键词的词向量权重＝关键词权重×关键词的词向量。

7.如权利要求1所述的资讯画像构建方法，其特征在于，按照如下公式根据所述关键词的词向量确定资讯词向量表征方式：
资讯词向量表征方式＝预设数量个关键词的词向量的平均值。

8.如权利要求2所述的资讯画像构建方法，其特征在于，还包括：
将关键词和关键词权重缓存到redis中。

9.如权利要求8所述的资讯画像构建方法，其特征在于，将关键词和关键词权重缓存到redis中，包括：
使用hash类型结构将关键词和关键词权重缓存到redis中，其中，hash类型结构包括key和value，其中，key为资讯id，value为预设数量个关键词及关键词权重。

10.如权利要求1所述的资讯画像构建方法，其特征在于，根据主题词、关键词和资讯词向量表征方式合并构建资讯画像，包括：
使用hive数据仓库加载主题词、关键词和资讯词向量表征方式；
根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。

11.一种资讯画像构建装置，其特征在于，包括：
第一词集确定模块，用于利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；
第二词集确定模块，用于利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词...

【专利技术属性】
技术研发人员：狄潇然，
申请(专利权)人：中国银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人