The invention discloses a construction method, construction device, equipment and medium of e-commerce entity recognition model, the method includes: obtaining the annotation sample set of e-commerce entity; wherein, the annotation sample in the annotation sample set is obtained by labeling the characters corresponding to the e-commerce entity in the text; for each annotation sample, transforming the characters and words in the annotation sample As a vector, the first sample feature corresponding to the annotation sample is obtained; and, the annotation sample is input to the trained language model, and the second sample feature corresponding to the annotation sample is obtained; the combination result of the first sample feature and the second sample feature is input to the entity recognition model to be trained, and the first sample feature is labeled in the annotation sample corresponding to the first sample feature As the output of the entity recognition model to be trained, the e-commerce entity trains the entity recognition model to be trained and gets the trained entity recognition model.
【技术实现步骤摘要】
一种电商实体识别模型的构建方法、构建装置、设备和介质
本申请涉及自然语言处理领域,尤其涉及一种电商实体识别模型的构建方法、构建装置、设备和介质。
技术介绍
自然语言处理领域是人工智能以及语言学领域的分支学科,主要是探讨计算机对于自然语言的理解和运用。自然语言处理技术已经逐步深入到生活和生产各个方面,并带了非常大的工作效率上的提升,因此,许多商家通过自然语言处理的方法在大量的互联网数据中获取电商实体,进而根据获取到的电商实体推送广告。在获取电商实体的过程中需通过标注样本对实体识别模型进行训练。但是,上述这种训练方式中,标注样本是通过人工的方式进行标注的,由于被标注的样本比较复杂,且在标注样本时投入的人工成本和时间成本较高,得到的标注样本较少,进而通过标注样本训练好的实体识别模型在测试时得到的结果并不足够准确。
技术实现思路
有鉴于此,本申请的目的在于提供了一种电商实体识别模型的构建方法、构建装置、设备和介质,以解决现有技术中如何提高从待测试文本中获取电商实体的准确度问题。第一方面,本申请实施例提供了一种电商实体识别模型的构建方法,包括:获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的
【技术保护点】
1.一种电商实体识别模型的构建方法,其特征在于,包括:/n获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;/n针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;/n将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。/n
【技术特征摘要】
1.一种电商实体识别模型的构建方法,其特征在于,包括:
获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
2.如权利要求1所述的构建方法,其特征在于,所述将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征,包括:
将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
将所述标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
3.如权利要求1所述的构建方法,其特征在于,构建训练好的语言模型包括如下步骤:
获取网络语料训练样本集;其中,所述网络语料训练样本集中包含有多个训练样本;
针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅添加有结束标识的训练样本作为所述待训练语言模型的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
4.如权利要求3所述的构建方法,其特征在于,所述网络语料训练样本集包括:
网络中向用户展示的文章;
网络社交平台中用户所发布的内容。
5.如权利要求1所述的构建方法,其特征在于,所述构建方法还包括:
获取待测试样本;
将所述待测试样本中的字符和词转化为向量,得到所述待测试样本对应的第一样本特征;以及,将所述待测试样本输入至所述训练好的语言模型,得到所述待测样本对应的第二样本特征;
将所述待测试样本对应的第一样本特征和第二样本特征的合并结果输入至所述训练好的实...
【专利技术属性】
技术研发人员:王千,梁新敏,陈曦,
申请(专利权)人:秒针信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。