产品标题实体识别方法及装置制造方法及图纸

技术编号:36090777 阅读:14 留言:0更新日期:2022-12-24 11:07
本发明专利技术公开了一种产品标题实体识别方法及装置,应用于人工智能技术领域,其中该方法包括:获取当前产品的标题文本;确定当前产品的标题文本中每一词语及对应的语义特征;将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立,在建立所述模型的过程中,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。本发明专利技术避免了人工标注,减少了人力成本,提高了产品标题实体识别的效率和准确率,进而提升了后续产品搜索和推荐的准确性,提升了用户体验感。提升了用户体验感。提升了用户体验感。

【技术实现步骤摘要】
产品标题实体识别方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种产品标题实体识别方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]手机银行中的理财产品、贵金属商品、优惠券商品等产品标题包含了产品的关键信息,产品标题实体识别是自然语言处理应用中的一项核心基础任务,产品标题文本的实体密度高、实体粒度细,如何从其中提取相关的实体,为多种下游场景所复用,从标题文本中低成本、高效且准确抽取出商品相关实体,提升检索、推荐等业务场景下的用户体验和平台效率是当前面临的问题。

技术实现思路

[0004]本专利技术实施例提供一种产品标题实体识别方法,用以避免人工标注,减少人力成本,提高产品标题实体识别的效率和准确率,进而提升后续产品搜索和推荐的准确性,该方法包括:
[0005]获取当前产品的标题文本;
[0006]确定当前产品的标题文本中每一词语及对应的语义特征;
[0007]将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立,在建立所述模型的过程中,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。
[0008]本专利技术实施例还提供一种产品标题实体识别装置,用以避免人工标注,减少人力成本,提高产品标题实体识别的效率和准确率,进而提升后续产品搜索和推荐的准确性,该装置包括:
[0009]获取模块,用于获取当前产品的标题文本;
[0010]确定模块,用于确定当前产品的标题文本中每一词语及对应的语义特征;
[0011]识别模块,用于将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立,在建立所述模型的过程中,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。
[0012]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述产品标题实体识别方法。
[0013]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述产品标题实体识别方法。
[0014]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述产品标题实体识别方法。
[0015]本专利技术实施例中,通过获取当前产品的标题文本;确定当前产品的标题文本中每一词语及对应的语义特征;将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立,在建立所述模型的过程中,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。在上述过程中,本专利技术实施例利用预训练模型对产品标题实体识别模型进行训练,并标注出产品标题文本中的词语的语义特征,根据产品标题实体识别模型,获得产品的标题实体,从而避免人工标注,减少人力成本,提高了产品标题实体识别的效率和准确率,进而提升了后续产品搜索和推荐的准确性,提升用户体验感。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0017]图1为本专利技术实施例中产品标题实体识别方法的原理图;
[0018]图2为本专利技术实施例中产品标题实体识别方法的流程图;
[0019]图3为本专利技术实施例中建立产品标题实体识别模型的流程图;
[0020]图4为本专利技术实施例中选择最佳产品标题实体识别模型的流程图;
[0021]图5为本专利技术实施例中产品标题实体识别装置的示意图;
[0022]图6为本专利技术实施例中计算机设备的示意图。
具体实施方式
[0023]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0024]下面对本专利技术实施例涉及的术语进行解释:
[0025]1.实体:在NLP中通常所说的实体指的是人名、地名、机构名,在新闻领域,我们希望了解突发事件的主体,比如人物、地点、机构等等。如果扩展的话,就是你所关心的词语,比如在商品标题中,我们会关心品牌词、物品词、物品属性词,通过这些词+情感极性词,可以更详细地了解顾客的购物意愿;
[0026]2.实体识别:机器识别实体的方法;
[0027]3.ERNIE:Enhanced Language Representation with Informative Entities。ERNIE模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,ERNIE模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力。ERNIE模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信
息,具备更强的通用性和可扩展性。相对词特征输入模型,字特征可建模字的组合语义,例如建模红色,绿色,蓝色等表示颜色的词语时,通过相同字的语义组合学到词之间的语义关系。
[0028]图1为本专利技术实施例中产品标题实体识别方法的原理图,由图1可知,本专利技术实施例利用预训练模型对产品标题实体识别模型进行训练,并标注出产品标题文本中的词语的语义特征,根据产品标题实体识别模型,获得产品的标题实体,从而避免人工标注,减少人力成本,提高了产品标题实体识别的效率和准确率,进而提升了后续产品搜索和推荐的准确性,提升用户体验感。
[0029]图2为本专利技术实施例中产品标题实体识别方法的流程图,如图2所示,该方法包括如下步骤:
[0030]步骤201,获取当前产品的标题文本;
[0031]步骤202,确定当前产品的标题文本中每一词语及对应的语义特征;
[0032]步骤203,将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立,在建立所述模型的过程中,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。
[0033]本专利技术实施例提供的产品标题实体识别方法,工作时:获取当前产品的标题文本;确定当前产品的标题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种产品标题实体识别方法,其特征在于,包括:获取当前产品的标题文本;确定当前产品的标题文本中每一词语及对应的语义特征;将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建立,在建立所述模型的过程中,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。2.如权利要求1所述的方法,其特征在于,还包括:按照如下方法预先建立所述产品标题实体识别模型:接收多个历史产品标题数据集样本数据;将所述样本数据按照预设比例随机划分为训练集和验证集;为训练集和验证集中的每一产品标题数据加工标签,以使得每一产品标题数据中每一词语具有语义特征标签;根据每一产品标题数据中每一词语具有语义特征标签,得到每一产品标题数据中每一词语与语义特征标签之间的关系;根据所述关系,利用预训练模型,将每一产品标题数据中每一词语标注对应的语义特征标签,得到用于建立产品标题实体识别模型的训练集和验证集;利用所述训练集进行多轮模型训练,得到多个产品标题实体识别模型,从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型;利用所述验证集验证所述最佳产品标题实体识别模型,得到最终的初步产品标题实体识别模型。3.如权利要求2所述的方法,其特征在于,利用所述训练集进行多轮模型训练,得到多个产品标题实体识别模型,从多个产品标题实体识别模型中选择出最佳产品标题实体识别模型,包括:通过不断从训练集中拿取批样本数据进入模型训练过程做前向计算;使用前向计算结果,利用损失函数和预设评价指标,计算损失值;根据损失值反向回传更新梯度后,重新拿取批样本数据重复来训练模型,直到所述最佳产品标题实体识别模型。4.如权利要求1所述的方法,其特征在于,所述产品为银行产品。5.如权利要求1所述的方法,其特征在于,所述产品包括:银行理财产品、优惠券产品、活动产品或贵金属产品。6.如权利要求1所述的方法,其特征在于,识别得到的标题实体用于产品搜索和产品推荐。7.如权利要求1所述的方法,其特征在于,利用预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注,包括:利用ERINE预训练模型对每一历史产品标题文本中每一词语进行语义特征的标注。8.一种产品标题实体识别装置,其特征在于,包括:获取模块,用于获取当前产品的标题文本;确定模块,用于确定当前产品的标题文本中每一词语及对应的语义特征;
识别模块,用于将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中,识别得到当前产品的标题实体;所述产品标...

【专利技术属性】
技术研发人员:童楚婕
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1