句子级用户画像生成方法、装置及存储介质制造方法及图纸

技术编号:28942092 阅读:19 留言:0更新日期:2021-06-18 21:48
本发明专利技术提供一种句子级用户画像生成方法、装置及存储介质,包括:接收会话语料,基于爬虫系统对所述会话语料进行处理获取目标语料,其中目标语料包括一个或多个文本;对文本进行分词处理,获得每个文本分词的词向量,基于每个文本分词的词向量生成该文本的句向量;将句向量转换为矩阵得到句矩阵,将句矩阵与句矩阵的转置矩阵相乘得到交叉矩阵;基于TextRank算法对交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像。本发明专利技术能够对用户画以句子的形式进行个体化、具体化、形象化等特征的描述。填补了词级、大颗粒的群体标签对个体用户心理画像描述的缺失,通过人机会话的语料,实现对个体的心理诉求进行画像,细颗粒表示了个体用户的诉求标签。

【技术实现步骤摘要】
句子级用户画像生成方法、装置及存储介质
本专利技术涉及数据处理技术,尤其涉及一种句子级用户画像生成方法、装置及存储介质。
技术介绍
关键词标签,主要用于精准营销、分发推送到真实目标用户群,是对群体特征的高度聚类、抽象后的一种标注描述,在该群中的所有个体用户继承了集体的一般、普遍、大众化的特征。然而,以识别细分群体为目标的关键词标签,缺失了用户个体化、具体化、形象化的特征表达。以在商品购物、内容阅读、服务消费场等场为例,用户画像主要使用关键词标签的语义关键词来标注目标群体,是一种词级的用户画像特征描述。但是其无法进行句子级、连续可读的自动生成个体用户心理画像描述,进而无法对用户个体化、具体化、形象化等特征进行表达。
技术实现思路
本专利技术实施例提供一种句子级用户画像生成方法、装置及存储介质,能够对用户画以句子的形式进行个体化、具体化、形象化等特征的描述。本专利技术实施例的第一方面,提供一种句子级用户画像生成方法,包括:接收会话语料,基于爬虫系统对所述会话语料进行处理获取目标语料,其中所述目标语料包括一个或多个文本;对所述一个或多个文本进行分词处理,获得每个文本分词的词向量,基于所述每个文本分词的词向量生成该文本的句向量;将所述句向量转换为矩阵得到句矩阵,将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵;基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像。可选地,在第一方面的一种可能实现方式中,所述接收会话语料包括:从人机会话系统中抽取出用户留存的对话语料和\或短文本;所述基于爬虫系统对所述会话语料进行处理获取目标语料包括:搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎,所述基于所述对话语料和\或短文本进行查询得到搜索结果;将所述搜索结果中的标题文本和\或摘要文本作为目标语料。可选地,在第一方面的一种可能实现方式中,所述对所述一个或多个文本进行分词处理,获得每个文本分词的词向量包括:基于开源分词工具将对文本进行分词处理,并转化为词向量表示;基于所述每个文本分词的词向量生成该文本的句向量包括:将一个句子中的词向量相加除以单词的数量得到一个加权平均向量,所述加权平均向量为句向量。可选地,在第一方面的一种可能实现方式中,将所述句向量转换为矩阵得到句矩阵,将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵;计算句矩阵和其转置矩阵中句向量的点积,得到语义相似度的分数矩阵,所述分数矩阵为交叉矩阵。可选地,在第一方面的一种可能实现方式中,所述基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像包括:所述交叉矩阵包括多个句子节点,其中每个句子节点的权重默认为1,节点间的边权重为语义相似度分数,阻尼系数为0.85,状态向量等于0.15+0.85*M;对所述交叉矩阵经过若干个迭代后,得到一个稳定态向量;将向量数组中最大的N个数值所对应的句子作为句子级用户画像,该数值在向量数组中的索引编号即对应矩阵的行和\或列所对应的句子。本专利技术实施例的第二方面,提供一种句子级用户画像生成装置,包括:获取模块,用于接收会话语料,基于爬虫系统对所述会话语料进行处理获取目标语料,其中所述目标语料包括一个或多个文本;处理模块,用于对所述一个或多个文本进行分词处理,获得每个文本分词的词向量,基于所述每个文本分词的词向量生成该文本的句向量;交叉模块,用于将所述句向量转换为矩阵得到句矩阵,将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵;生成模块,用于基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像。可选地,在第二方面的一种可能实现方式中,所述获取模块包括抽取单元:所述抽取单元用于从人机会话系统中抽取出用户留存的对话语料和\或短文本;所述获取模块包括搜索单元:所述搜索单元用于搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎,所述基于所述对话语料和\或短文本进行查询得到搜索结果;将所述搜索结果中的标题文本和\或摘要文本作为目标语料。可选地,在第二方面的一种可能实现方式中,所述处理模块还用于执行以下步骤,包括:基于开源分词工具将对文本进行分词处理,并转化为词向量表示;基于所述每个文本分词的词向量生成该文本的句向量包括:将一个句子中的词向量相加除以单词的数量得到一个加权平均向量,所述加权平均向量为句向量。可选地,在第二方面的一种可能实现方式中,所述生成模块还用于执行以下步骤:所述交叉矩阵包括多个句子节点,其中每个句子节点的权重默认为1,节点间的边权重为语义相似度分数,阻尼系数为0.85,状态向量等于0.15+0.85*M;对所述交叉矩阵经过若干个迭代后,得到一个稳定态向量;将向量数组中最大的N个数值所对应的句子作为句子级用户画像,该数值在向量数组中的索引编号即对应矩阵的行和\或列所对应的句子。本专利技术实施例的第三方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本专利技术第一方面及第一方面各种可能设计的所述方法。本专利技术提供的一种句子级用户画像生成方法、装置及存储介质,本专利技术填补了词级、大颗粒的群体标签对个体用户心理画像描述的缺失,通过人机会话的语料,实现对个体的心理诉求进行画像,细颗粒表示了个体用户的诉求标签。附图说明图1为句子级用户画像生成方法的流程图;图2为句子级用户画像生成装置的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。应当理解,在本专利技术的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。应当理解,在本专利技术中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。应当理解,在本专利技术中,“多个”是指两个或两个以上。“和/本文档来自技高网...

【技术保护点】
1.一种句子级用户画像生成方法,其特征在于,包括:/n接收会话语料,基于爬虫系统对所述会话语料进行处理获取目标语料,其中所述目标语料包括一个或多个文本;/n对所述一个或多个文本进行分词处理,获得每个文本分词的词向量,基于所述每个文本分词的词向量生成该文本的句向量;/n将所述句向量转换为矩阵得到句矩阵,将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵;/n基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像。/n

【技术特征摘要】
1.一种句子级用户画像生成方法,其特征在于,包括:
接收会话语料,基于爬虫系统对所述会话语料进行处理获取目标语料,其中所述目标语料包括一个或多个文本;
对所述一个或多个文本进行分词处理,获得每个文本分词的词向量,基于所述每个文本分词的词向量生成该文本的句向量;
将所述句向量转换为矩阵得到句矩阵,将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵;
基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像。


2.根据权利要求1所述的句子级用户画像生成方法,其特征在于,
所述接收会话语料包括:
从人机会话系统中抽取出用户留存的对话语料和\或短文本;
所述基于爬虫系统对所述会话语料进行处理获取目标语料包括:
搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎,所述基于所述对话语料和\或短文本进行查询得到搜索结果;
将所述搜索结果中的标题文本和\或摘要文本作为目标语料。


3.根据权利要求2所述的句子级用户画像生成方法,其特征在于,
所述对所述一个或多个文本进行分词处理,获得每个文本分词的词向量包括:
基于开源分词工具将对文本进行分词处理,并转化为词向量表示;
基于所述每个文本分词的词向量生成该文本的句向量包括:
将一个句子中的词向量相加除以单词的数量得到一个加权平均向量,所述加权平均向量为句向量。


4.根据权利要求1所述的句子级用户画像生成方法,其特征在于,
将所述句向量转换为矩阵得到句矩阵,将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵包括:
计算句矩阵和其转置矩阵中句向量的点积,得到语义相似度的分数矩阵,所述分数矩阵为交叉矩阵。


5.根据权利要求1所述的句子级用户画像生成方法,其特征在于,
所述基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解,生成句子级用户画像包括:
所述交叉矩阵包括多个句子节点,其中每个句子节点的权重默认为1,节点间的边权重为语义相似度分数,阻尼系数为0.85,状态向量等于0.15+0.85*M;
对所述交叉矩阵经过若干个迭代后,得到一个稳定态向量;
将向量数组中最大的N个数值所对应的句子作为句子级用户画像,该数...

【专利技术属性】
技术研发人员:徐涛
申请(专利权)人:浙江连信科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1