【技术实现步骤摘要】
一种电商商品标题命名实体识别方法
[0001]本专利技术属于自然语言处理
,具体涉及一种电商商品标题命名实体识别方法。
技术介绍
[0002]近年来,互联网的迅猛发展给电商购物平台带来了巨大的发展,各种电商购物平台层出不穷,电子商务平台中的商品更是琳琅满目。电商商品标题包含了商品大量的关键信息,电商商品标题中的实体进行提取能够对多种下游场景所复用,如商品搜索、商品推荐、知识图谱的构建都需要对商品标题进行实体识别,从商品标题中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。现有的自然语言处理领域的方法中对于电商商品标题命名实体识别的准确度低,不能满足用户的需求。
技术实现思路
[0003]为解决以上现有技术存在的问题,本专利技术提出了一种电商商品标题命名实体识别方法,该方法包括:获取待识别的商品标题文本数据,将标题文本数据转化为词向量;对词向量进行拼接,得到向量特征;向量特征输入到训练好的实体识别模型中,得到识别结果;实体识别模型包括MultiAtt结构和DPCNN+BiGRU结 ...
【技术保护点】
【技术特征摘要】
1.一种电商商品标题命名实体识别方法,其特征在于,包括:获取待识别的商品标题文本数据,将标题文本数据转化为词向量;对词向量进行拼接,得到向量特征;向量特征输入到训练好的实体识别模型中,得到识别结果;实体识别模型包括MultiAtt结构和DPCNN+BiGRU结构;对实体识别模型进行训练的过程包括:S1:获取商品标题文本数据集,对文本数据集中的数据进行向量化处理,同时对文本按照规则生成新的标注文本,将标注文本进行向量化;S2:将向量化后的标注文本分别输入到MultiAtt结构和DPCNN+BiGRU结构中进行文本向量特征提取,其中对MultiAtt结构和DPCNN+BiGRU结构提取的特征进行对比学习,得到两个特征向量;S3:计算两个特征向量之间的向量相似度;S4:根据向量相似度对两个特征向量进行拼接,根据特征向量拼接结果计算模型的损失函数,同时对生成的增强文本使用降权损失;S5:调整模型的参数,当损失函数最小时完成模型的训练。2.根据权利要求1所述的一种电商商品标题命名实体识别方法,其特征在于,实体识别模型对输入数据进行处理的过程包括:采用DPCNN+BiGRU结构提取特征的公式为:t
n
=BiGRU
n
(DPCNN
n
(t
n
‑1))其中,t
n
‑1表示上一个堆叠的输出,DPCNN
n
为前层的DPCNN结构,BiGRU
n
为当前层的BiGRU结构;MultiAtt结构提取向量的特征包括:Attention结构使用多头自注意力机制提取向量特征,其表达式为:head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)MultiAtt(Q,K,V)=[head1;
…
;head
k
]W
O
其中,Attention(Q,K,V)为自注意力机制,Q,K,V分别为输入到词向量与三个不同的权重矩阵相乘得到的词向量结果,dk表示输入向量的维度,headi表示第i个Attention计算的结果,W
iQ
,W
iK
,W
iV
,W
O
分别表示将embedding词向量映射为Q,K,V的矩阵向量,W
O
表示将多头拼接向量映射为词向量的参数映射向量,MultiAtt(Q,K,V)表示计算多头注意力。3.根据权利要求1所述的一种电商商品标题命名实体识别方法,其特征在于,对文本数据集中的数据进行向量化处理的过程包括:设置文本数据截断长度,根据文本数据截断长度对数据集中的文本数据进行划分,即当句子长度大于文本数据截断长度时进行文本截断,小于文本数据截断长度时在句子后补0填充;在截断后的句子首部加入[CLS],尾部加入[SEP];对截断后的句子中每个字符采用BIO标注编码,其中B
‑
X表示实体店开头,I
‑
X表示实体店内部,O
‑
X表示非实体,编码后每个字符对应一个标签;...
【专利技术属性】
技术研发人员:王进,李翔宇,毛博,彭云曦,刘彬,朴昌浩,杜雨露,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。