一种基于消费事理图谱的消费意图识别和预测方法技术

技术编号:26846893 阅读:56 留言:0更新日期:2020-12-25 13:10
一种基于消费事理图谱的消费意图识别和预测方法,它属于消费意图识别与预测技术领域。本发明专利技术解决了现有技术对消费意图识别和预测的准确率低的问题。本发明专利技术所采用的主要技术方案为:步骤一、基于预训练模型进行事件抽取;步骤二、基于预训练模型进行事件间关系抽取;步骤三、基于评论语料,采用无监督方法构建二分图作为弱监督信息;步骤四、基于二分图弱监督信息和标注数据,构建消费事理图谱;步骤五、使用训练数据训练同异质关系注意力模型,使用同异质关系注意力模型判断事件和消费意图的对应关系。本发明专利技术可以应用于消费意图识别与预测。

【技术实现步骤摘要】
一种基于消费事理图谱的消费意图识别和预测方法
本专利技术属于消费意图识别与预测
,具体涉及一种基于消费事理图谱的消费意图识别和预测方法。
技术介绍
消费意图是指用户表达出的对购买产品服务等一些商业消费需求的意愿(Fu,B.,andT.Liu."Weakly-supervisedconsumptionintentdetectioninmicroblogs."JournalofComputationalInformationSystems6.9(2013):2423-2431.)。消费意图识别技术是对带有消费需求色彩的互联网用户生成的文本或用户本身行为数据进行的分析和整理,通过特定方式挖掘出用户当前或潜在的消费需求(Fu,B.,andT.Liu."Consumptionintentrecognitionforsocialmedia:task,challengeandopportunity."IntellComputAppl5(2015):1-4.)。消费意图可分为短期消费意图和长期消费意图,消费意图识别主要针对短期消费意图进行研究,消费意图预本文档来自技高网...

【技术保护点】
1.一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,该方法包括以下步骤:/n步骤一、利用标注了事件的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型从叙事性文本中抽取得到事件;/n步骤二、利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型对步骤一中抽取的事件组成的事件对的顺承关系进行判别,构建事理图谱;/n步骤三、根据步骤一中抽取出的事件构建二分图作为弱监督信息;/n步骤四、结合步骤二构建的事理图谱和步骤三得到的弱监督信息,构建消费事理图谱;/n步骤五:建立同异质关系注意力模型,...

【技术特征摘要】
1.一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,该方法包括以下步骤:
步骤一、利用标注了事件的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型从叙事性文本中抽取得到事件;
步骤二、利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型对步骤一中抽取的事件组成的事件对的顺承关系进行判别,构建事理图谱;
步骤三、根据步骤一中抽取出的事件构建二分图作为弱监督信息;
步骤四、结合步骤二构建的事理图谱和步骤三得到的弱监督信息,构建消费事理图谱;
步骤五:建立同异质关系注意力模型,基于构建的消费事理图谱来训练建立的同异质关系注意力模型;
将事件和消费意图输入训练好的同异质关系注意力模型后,模型输出事件和消费意图存在或不存在对应关系。


2.根据权利要求1所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤一中,利用标注了事件的数据对预训练好的BERT-Base模型进行微调,其具体过程为:
将标注数据输入预训练好的BERT-Base模型后,微调过程分两个阶段进行:
第一个阶段:设置学习率为1e-3,训练轮次为2,使用的优化算法为BertAdam算法,对预训练好的BERT-Base模型的线性层参数进行训练;
第二个阶段:设置学习率为3e-5,训练轮次为10,使用的优化算法为BertAdam算法,对预训练好的BERT-Base模型的线性层和BERT层的参数进行训练;
完成两个阶段的训练后,获得微调后的BERT-Base模型。


3.根据权利要求2所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤二中,利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调,其具体过程为:
将标注数据输入预训练好的BERT-Base模型后,进行微调的过程分为3个阶段进行:
第1个阶段:对线性层的参数进行训练,学习率设置为1e-3,训练轮次为1,使用的优化算法为BertAdam算法;
第2个阶段:对线性层和事件嵌入层的参数进行训练,学习率设置为5e-5,训练轮次为3,使用的优化算法为BertAdam算法;
第3个阶段:对所有层的参数进行训练,学习率设置为1e-5,训练轮次为5,使用的优化算法为BertAdam算法;
微调过程中使用交叉熵损失函数对BERT-Base模型进行优化;将微调后的BERT-Base模型的Embedding层输出累加作为transformer层的输入,通过对微调后的BERT-Base模型最后一层的第一个输出进行分类,来对事件对的顺承关系进行判别。


4.根据权利要求3所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述微调后的BERT-Base模型的Embedding层包括事件嵌入层、词嵌入层、分段嵌入层以及位置嵌入层;
所述事件嵌入层中,头事件用H代表,尾事件用T代表,上下文中除头事件和尾事件以外的其他事件用A代表,其余字符用O代表。


5.根据权利要求4所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤三的具体过程为:
基于爬虫得到电子商务网站商品评论语料,对于某个事件,根据该事件在各个消费意图对应的评论下出现的频率,得到该事件与每一个消费意图之间的关联权重,遍历所有事件,得到一个二分图;
所述二分图中的两类节点分别是事件节点和消费意图节点,事件节点与消费意图节点之间的边代表事件在该消费意图对应的商品评论中出现的频率。


6.根据权利要求5所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤四的具体过程为:
定义:U表示所有的事件节点,V表示所有的消费意图节点,E1为关联权重,即事件在各消费意图评论区中出现的频率,G1=(U,V,E1)表示基于事件在各自消费意图评论区中出现的频率而得到的二分图;
G2=(U,V,E2)表示人工标注的事件所对应消费意图的数据构成的二分图,E2代表特定事件和消费意图具有或不具有对应关系;
将G2分为训练数据集和测试数据集两部分,训练数据集G2_train=(U_train,V,E2_train),测试数据集G2_test=(U_test,V,E2_test);U_train、E2_train表征训练数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;U_test、E2_test表征测试数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;
G3=(U,U,E3)表征事理图谱,E3为事理图谱的边上的权值;
事件和消费意图的显式关系建模:
给定训练数据集中的事件ui和消费意图vj,则通过公式计算二者之间存在边的概率P(i,j)为:



基于G2_train:



其中:E2_train[i,j]代表事件ui和消费意图vj具有或不具有对应关系,若事件ui和消费意图vj具有对应关系,则的值为1,若事件ui和消费意图vj不具有对应关系,则的值为0;



其中,L1代表第一个损失函数项,eij代表事件ui和消费意图vj之间的边,eij∈G1时,事件ui和消费意图vj具有对应关系,即
事件间的隐式关系建模:
若两个事件节点ui1和ui2均与同一个消费意图节点相连,则两个事件节点ui1和ui2之间存在隐式相邻关系,即ui1和ui2为二阶事件相邻节点;得到任意一个事件节点u在二分图上的二阶事件相邻节点后,得到一个仅由节点u和二阶事件相邻节点构成的图G_u;
基于图G_u,通过随机游走得到语料库S_u,采用和Skip-gram相同的思路,对第二个损失函数项L2进行优...

【专利技术属性】
技术研发人员:丁效秦兵刘挺石乾坤
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1