一种产品词的消歧方法和装置制造方法及图纸

技术编号:39288842 阅读:6 留言:0更新日期:2023-11-07 10:58
本发明专利技术公开了一种产品词的消歧方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:遍历待消歧产品词列表,将歧义词典中出现的产品词确定为歧义产品词;根据歧义词典获取歧义产品词对应的候选消歧词条及所述候选消歧词条的词条向量;根据歧义产品词所在的描述语句计算歧义产品词的特征向量,描述语句包括多个堆叠在一起但不相关的词语;将歧义产品词的特征向量与候选消歧词条的词条向量进行相似比较以确定歧义产品词的替换词,使用替换词替换歧义产品词以进行产品词的消歧处理。该实施方式消歧效果好、精确度高,消歧后的文本理解简单,信息匹配结果准确。信息匹配结果准确。信息匹配结果准确。

【技术实现步骤摘要】
一种产品词的消歧方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种产品词的消歧方法和装置。

技术介绍

[0002]现有的词语消歧的方法,句法分析一般针对普通自然语言句子,并不适用于由多个词语堆叠、且不存在相关词的场景,例如电商平台的商品标题、网页描述标签词等场景,在这些场景下的词语消歧效果差、精确度低,使得商品匹配结果和网页信息的检索结果不够准确。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种产品词的消歧方法和装置,能够基于构建的歧义词典来确定歧义产品词,无需进行句法分析即可确定歧义产品词,更适合结构性不强的文本,词语消歧效果好、精确度高,提高了商品匹配结果和网页信息的检索结果的准确度;基于产品词的同义词典来构建歧义词典,使用同义词典中的同义词作为替换词来进行消歧,避免了使用上下位词来进行消歧,使得消歧后的文本理解变得简单,输出结果在表意上更具体明确,输出结果与原始标题产品词在同一空间,更容易适配下游应用;同时由于产品词歧义词典的构建成本低,故而利于快速收录新产品词,词典扩充速度快。
[0004]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种产品词的消歧方法,包括:
[0005]遍历待消歧产品词列表,将歧义词典中出现的产品词确定为歧义产品词;
[0006]根据所述歧义词典获取所述歧义产品词对应的候选消歧词条及所述候选消歧词条的词条向量;
[0007]根据所述歧义产品词所在的描述语句计算所述歧义产品词的特征向量,所述描述语句包括多个堆叠在一起但不相关的词语;
[0008]将所述歧义产品词的特征向量与所述候选消歧词条的词条向量进行相似比较以确定所述歧义产品词的替换词,使用所述替换词替换所述歧义产品词以进行产品词的消歧处理。
[0009]可选地,所述歧义词典是通过以下方式来构建的:对训练集包括的描述语句进行训练以构建产品词编码模型;使用所述产品词编码模型提取同义词典中每个产品词的特征向量;根据所述产品词的特征向量判断所述同义词典中的词条是否为歧义词,其中,每个词条包括不少于一个产品词;对判定为歧义词的词条进行切分构建歧义词典。
[0010]可选地,对训练集中的描述语句进行训练以构建产品词编码模型,包括:对训练集中的每个描述语句,从所述描述语句中抽取产品词,得到产品词列表;基于所述产品词列表对语义表示模型进行训练,构建产品词编码模型,用于对所述产品词列表中的每个产品词进行特征提取。
[0011]可选地,使用所述产品词编码模型提取同义词典中每个产品词的特征向量,包括:
对同义词典中的每个产品词,从训练集包括的描述语句中,提取包含所述产品词的描述语句集合;对所述描述语句集合中的每个描述语句,利用所述产品词编码模型计算<描述语句,所述产品词>的特征向量,作为所述描述语句对应的特征向量;对得到的所述产品词的所有描述语句对应的特征向量取平均值,得到所述产品词的特征向量。
[0012]可选地,根据所述产品词的特征向量判断所述同义词典中的词条是否为歧义词,包括:对所述同义词典中的每个词条,获取所述词条包括的产品词及产品词的特征向量;根据所述产品词的特征向量进行产品词聚类,并获取聚类类簇的个数;在所述聚类类簇的个数大于1的情况下,判定所述词条为歧义词;并且,对判定为歧义词的词条进行切分构建歧义词典,包括:将判定为歧义词的词条的每个聚类类簇作为一个新词条,构建歧义词典。
[0013]可选地,根据所述产品词的特征向量进行产品词聚类,包括:构建产品词的全连通图,所述全连通图的顶点为产品词,边为两个产品词之间的相似度,所述相似度根据产品词的特征向量来计算;使用图切分方法对所述全连通图进行切分,得到类簇以进行产品词聚类。
[0014]可选地,还包括:将所述新词条对应的聚类类簇的类簇向量作为所述新词条的词条向量,所述类簇向量为所述聚类类簇中包括的产品词的特征向量的平均值。
[0015]根据本专利技术实施例的另一方面,提供了一种产品词的消歧装置,包括:
[0016]歧义产品词确定模块,用于遍历待消歧产品词列表,将歧义词典中出现的产品词确定为歧义产品词;
[0017]候选消歧词条确定模块,用于根据所述歧义词典获取所述歧义产品词对应的候选消歧词条及所述候选消歧词条的词条向量;
[0018]特征向量计算模块,用于根据所述歧义产品词所在的描述语句计算所述歧义产品词的特征向量,所述描述语句包括多个堆叠在一起但不相关的词语;
[0019]歧义产品词替换模块,用于将所述歧义产品词的特征向量与所述候选消歧词条的词条向量进行相似比较以确定所述歧义产品词的替换词,使用所述替换词替换所述歧义产品词以进行产品词的消歧处理。
[0020]根据本专利技术实施例的又一方面,提供了一种产品词消歧的电子设备。
[0021]一种产品词消歧的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例所提供的产品词的消歧方法。
[0022]根据本专利技术实施例的再一方面,提供了一种计算机可读介质。
[0023]一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例所提供的产品词的消歧方法。
[0024]上述专利技术中的一个实施例具有如下优点或有益效果:通过遍历待消歧产品词列表,将歧义词典中出现的产品词确定为歧义产品词;根据歧义词典获取歧义产品词对应的候选消歧词条及候选消歧词条的词条向量;根据歧义产品词所在的描述语句计算歧义产品词的特征向量,描述语句包括多个堆叠在一起但不相关的词语;将歧义产品词的特征向量与候选消歧词条的词条向量进行相似比较以确定歧义产品词的替换词,使用替换词替换歧义产品词以进行产品词的消歧处理,可以基于构建的歧义词典来确定歧义产品词,无需进行句法分析即可确定歧义产品词,更适合结构性不强的文本,词语消歧效果好、精确度高,
提高了商品匹配结果和网页信息的检索结果的准确度;基于产品词的同义词典来构建歧义词典,使用同义词典中的同义词作为替换词来进行消歧,避免了使用上下位词来进行消歧,使得消歧后的文本理解变得简单,输出结果在表意上更具体明确,输出结果与原始标题产品词在同一空间,更容易适配下游应用;同时由于产品词歧义词典的构建成本低,故而利于快速收录新产品词,词典扩充速度快。
[0025]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0026]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0027]图1是根据本专利技术实施例的产品词的消歧方法的主要步骤示意图;
[0028]图2是本专利技术实施例的同义词典的结构示意图;
[0029]图3是本专利技术实施例的歧义词典的构建流程示意图;
[0030]图4是本专利技术实施例的歧义词典的构建流程示意图
[0031本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种产品词的消歧方法,其特征在于,包括:遍历待消歧产品词列表,将歧义词典中出现的产品词确定为歧义产品词;根据所述歧义词典获取所述歧义产品词对应的候选消歧词条及所述候选消歧词条的词条向量;根据所述歧义产品词所在的描述语句计算所述歧义产品词的特征向量,所述描述语句包括多个堆叠在一起但不相关的词语;将所述歧义产品词的特征向量与所述候选消歧词条的词条向量进行相似比较以确定所述歧义产品词的替换词,使用所述替换词替换所述歧义产品词以进行产品词的消歧处理。2.根据权利要求1所述的方法,其特征在于,所述歧义词典是通过以下方式来构建的:对训练集包括的描述语句进行训练以构建产品词编码模型;使用所述产品词编码模型提取同义词典中每个产品词的特征向量;根据所述产品词的特征向量判断所述同义词典中的词条是否为歧义词,其中,每个词条包括不少于一个产品词;对判定为歧义词的词条进行切分构建歧义词典。3.根据权利要求2所述的方法,其特征在于,对训练集中的描述语句进行训练以构建产品词编码模型,包括:对训练集中的每个描述语句,从所述描述语句中抽取产品词,得到产品词列表;基于所述产品词列表对语义表示模型进行训练,构建产品词编码模型,用于对所述产品词列表中的每个产品词进行特征提取。4.根据权利要求2所述的方法,其特征在于,使用所述产品词编码模型提取同义词典中每个产品词的特征向量,包括:对同义词典中的每个产品词,从训练集包括的描述语句中,提取包含所述产品词的描述语句集合;对所述描述语句集合中的每个描述语句,利用所述产品词编码模型计算<描述语句,所述产品词>的特征向量,作为所述描述语句对应的特征向量;对得到的所述产品词的所有描述语句对应的特征向量取平均值,得到所述产品词的特征向量。5.根据权利要求2所述的方法,其特征在于,根据所述产品词的特征向量判断所述同义词典中的词条是否为歧义词,包括:对所述同义词典中的每个词条,获取所述词条包括的产品词及产...

【专利技术属性】
技术研发人员:李鹏李勇包勇军颜伟鹏
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1