【技术实现步骤摘要】
一种产品词挖掘
[0001]本专利技术涉及产品词
,特别涉及一种产品词挖掘。
技术介绍
[0002]产品词是带有企业所提供的产品、服务大小或细分小类名称的关键词,并且是不包含品牌名的,带有修饰限定的产品相关词,包括产品名臣、型号等,产品词是一个推广账户的主力军之一,因为它各方面都比较均衡,流量较大,点击率较高,转化率适中,点击价格也不低,当一个信的企业没什么品牌和活动时,则投放重心都在产品词上了。此时围绕产品进行拓词是一项非常重要、并有机会节省推广成本的一项工作,尽可能全面,并进行细致地分组。
[0003]命名实体识别模型召回的结果存在误召回,模型输出需结合人工审核,耗费大量人力,且人工标注也存在标注一致性问题。
技术实现思路
[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种产品词挖掘,解决了命名实体识别模型召回的结果存在误召回,模型输出需结合人工审核,耗费大量人力,且人工标注也存在标注一致性问题。
[0006](二)技术方案
[00 ...
【技术保护点】
【技术特征摘要】
1.一种产品词挖掘,其特征在于:包括基于预训练语言模型和部分种子产品词,采用机器自我判别并迭代的方式,该方法包括以下步骤:S1、利用种子产品词在原始文本中搜索相关句训练基于预训练语言模型的命名实体识别(NER)模型;S2、对海量原始文本中的句子,通过NER模型召回候选产品词;S3、对每个NER返回的候选词,也经过词性模板等方案,对候选词尽量扩展为最大匹配候选词;S4、对每个候选词在不同文本中得到的词嵌入编码求得平均嵌入编码;S5、对每个候选词的平均嵌入编码做“白化”操作;S6、对各候选词的共现词表,求得每个词的共现词平均嵌入编码;S7、分类器在预处理完成之后才进入。前两部分的预处理过程,会统计共现词,求均值向量,向量聚类等,在全部原始文本均经过该预处理过程后,再利用少量人工整理的词汇构造的训练数据进入训练步骤。2.根据权利要求1...
【专利技术属性】
技术研发人员:李杨静,
申请(专利权)人:杭州合慕科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。