一种物品信息提取方法和装置制造方法及图纸

技术编号:27806600 阅读:26 留言:0更新日期:2021-03-30 09:21
本发明专利技术公开了一种物品信息提取方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据目标物品的标识,获取所述目标物品的描述信息;通过预定神经网路,对所述描述信息进行实体识别,得到所述描述信息中各字的词类标注和序列标注;将具有相同词类标注且序列相邻的字进行排序组合,得到所述描述信息中的特征词,进而根据所述特征词对所述目标物品进行信息更新。该实施方式以物品描述信息为对象,深度挖掘其所包含的属性信息以及物品之间的关联关系,以扩大物品特有信息的覆盖范围,达到物品信息精准描述的目的。达到物品信息精准描述的目的。达到物品信息精准描述的目的。

【技术实现步骤摘要】
一种物品信息提取方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种物品信息提取方法和装置。

技术介绍

[0002]在信息技术高速发展的今天,互联网早已成为人们日常生活中必不可少的一部分,网上输入信息已成为一种重要的信息采集渠道,如何有效管理信息、深度挖掘信息中的特征值,是目前考虑的一个因素。
[0003]目前信息管理系统提供表格,以供用户手动填写信息。例如电商平台中,用户上架物品时按照表格填写物品所属品牌、品类以及各种属性如颜色、尺寸等。平台将这些信息录入到物品数据库中,作为标准化的物品信息,以为后续的搜索、推荐、展示等提供服务。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:
[0005]1)物品属性依赖用户输入,可能出现填错或不够精准的问题。例如电动车雨衣,所适用的场景为电动车上使用,目前通常被分类至“雨衣雨披”类目中,而该类目范围过大,导致后续查询时因分类不够精准而花费较长时间;
[0006]2)平台所提供的表格虽具有普适性,但表格中的属性可能较少,物品的特殊属性在表格中可能不存在,出现物品属性不够全面的问题;
[0007]3)物品信息中可能包含物品之间的关联关系,但这个关联关系目前无法构成。例如手机贴膜,其物品信息中只有贴膜本身的属性,却没有挖掘出手机与贴膜之间的搭配关系。

技术实现思路

[0008]有鉴于此,本专利技术实施例提供一种物品信息提取方法和装置,至少能够解决现有技术中物品属性提取不够精准,导致后续搜索耗时较长;物品之间关联关系的未挖掘的问题。
[0009]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种物品信息提取方法,包括:
[0010]根据目标物品的标识,获取所述目标物品的描述信息;
[0011]通过预定神经网路,对所述描述信息进行实体识别,得到所述描述信息中各字的词类标注和序列标注;其中,词类为词语在描述信息中所表现的语法特征;
[0012]将具有相同词类标注且序列相邻的字进行排序组合,得到所述描述信息中的特征词,进而根据所述特征词对所述目标物品进行信息更新。
[0013]可选的,在所述通过预定神经网路,对所述描述信息进行实体识别之前,还包括:
[0014]获取训练词集合,接收对所述训练词集合中各词的词类标注;
[0015]根据各字在相应词中所处的排列位置,对各词中的各字进行序列标注,结合所接收的词类标注,得到各词中各字的词类标注和序列标注;
[0016]输入标注后的训练词集合至神经网络中进行训练,得到训练后的所述预定神经网
络。
[0017]可选的,所述词类为限定词,所述限定词用于描述所述目标物品的属性值;
[0018]所述根据所述特征词对所述目标物品进行信息更新,包括:根据预定属性名与属性值之间的对应关系,确定与所述属性值相对应的属性名;基于所述属性值和所确定的所述属性名,对所述目标物品进行属性信息更新。
[0019]可选的,所述基于所述属性值和所确定的所述属性名,对所述目标物品进行属性信息更新,包括:
[0020]若所述属性信息中存在所述属性名、且与所述属性名相对应的第一属性值不同于所述属性值,则将所述第一属性值替换为所述属性值;或
[0021]若所述属性信息中不存在所述属性名,则添加所述属性名和所述属性值至所述属性信息中。
[0022]可选的,所述词类为物品的名称;
[0023]所述根据所述特征词对所述目标物品进行信息更新,包括:
[0024]分别获取所述物品所属第一品类和所述目标物品所属第二品类;
[0025]根据所述第一品类与所述第二品类之间的关联关系,对所述目标物品进行关联信息更新。
[0026]为实现上述目的,根据本专利技术实施例的另一方面,提供了一种物品信息提取装置,包括:
[0027]信息获取模块,用于根据目标物品的标识,获取所述目标物品的描述信息;
[0028]文字标注模块,用于通过预定神经网路,对所述描述信息进行实体识别,得到所述描述信息中各字的词类标注和序列标注;其中,词类为词语在描述信息中所表现的语法特征;
[0029]信息更新模块,用于将具有相同词类标注且序列相邻的字进行排序组合,得到所述描述信息中的特征词,进而根据所述特征词对所述目标物品进行信息更新。
[0030]可选的,还包括网络训练模块,用于:
[0031]获取训练词集合,接收对所述训练词集合中各词的词类标注;
[0032]根据各字在相应词中所处的排列位置,对各词中的各字进行序列标注,结合所接收的词类标注,得到各词中各字的词类标注和序列标注;
[0033]输入标注后的训练词集合至神经网络中进行训练,得到训练后的所述预定神经网络。
[0034]可选的,所述词类为限定词,所述限定词用于描述所述目标物品的属性值;
[0035]所述信息更新模块,用于:根据预定属性名与属性值之间的对应关系,确定与所述属性值相对应的属性名;基于所述属性值和所确定的所述属性名,对所述目标物品进行属性信息更新。
[0036]可选的,所述信息更新模块,用于:
[0037]若所述属性信息中存在所述属性名、且与所述属性名相对应的第一属性值不同于所述属性值,则将所述第一属性值替换为所述属性值;或
[0038]若所述属性信息中不存在所述属性名,则添加所述属性名和所述属性值至所述属性信息中。
[0039]可选的,所述词类为物品的名称;
[0040]所述信息更新模块,用于:分别获取所述物品所属第一品类和所述目标物品所属第二品类;
[0041]根据所述第一品类与所述第二品类之间的关联关系,对所述目标物品进行关联信息更新。
[0042]为实现上述目的,根据本专利技术实施例的再一方面,提供了一种物品信息提取电子设备。
[0043]本专利技术实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的物品信息提取方法。
[0044]为实现上述目的,根据本专利技术实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的物品信息提取方法。
[0045]根据本专利技术所述提供的方案,上述专利技术中的一个实施例具有如下优点或有益效果:以物品描述信息为对象,深度挖掘其所包含的属性信息以及物品之间的不同关联关系,以扩大物品信息的覆盖范围,实现物品信息的自动提取和完善,达到物品信息精准描述的目的。
[0046]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0047]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0048]图1是根据本专利技术实施例的一种物品信息提取方法的主要流程示意图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种物品信息提取方法,其特征在于,包括:根据目标物品的标识,获取所述目标物品的描述信息;通过预定神经网路,对所述描述信息进行实体识别,得到所述描述信息中各字的词类标注和序列标注;其中,词类为词语在描述信息中所表现的语法特征;将具有相同词类标注且序列相邻的字进行排序组合,得到所述描述信息中的特征词,进而根据所述特征词对所述目标物品进行信息更新。2.根据权利要求1所述的方法,其特征在于,在所述通过预定神经网路,对所述描述信息进行实体识别之前,还包括:获取训练词集合,接收对所述训练词集合中各词的词类标注;根据各字在相应词中所处的排列位置,对各词中的各字进行序列标注,结合所接收的词类标注,得到各词中各字的词类标注和序列标注;输入标注后的训练词集合至神经网络中进行训练,得到训练后的所述预定神经网络。3.根据权利要求1所述的方法,其特征在于,所述词类为限定词,所述限定词用于描述所述目标物品的属性值;所述根据所述特征词对所述目标物品进行信息更新,包括:根据预定属性名与属性值之间的对应关系,确定与所述属性值相对应的属性名;基于所述属性值和所确定的所述属性名,对所述目标物品进行属性信息更新。4.根据权利要求3所述的方法,其特征在于,所述基于所述属性值和所确定的所述属性名,对所述目标物品进行属性信息更新,包括:若所述属性信息中存在所述属性名、且与所述属...

【专利技术属性】
技术研发人员:巩延上
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1