同义文本获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26222768 阅读:26 留言:0更新日期:2020-11-04 10:53
本申请公开了同义文本获取方法、装置、电子设备及存储介质,涉及智能搜索及深度学习领域,其中的方法可包括:获取训练数据,任一训练数据中分别包括:两个同义的文本;利用训练数据训练图模型,得到图模型中的各节点的向量表达,其中,图模型中的各节点分别对应于训练数据中的一个不同的文本,若任意两个节点出现在同一训练数据中,则将两个节点通过边相连;针对图模型中的任一节点对应的待处理的文本,根据图模型中的各节点的向量表达,确定出待处理的文本的K个近邻文本,作为待处理的文本的同义文本,K为正整数。应用本申请所述方案,可提升同义文本的召回能力等。

【技术实现步骤摘要】
同义文本获取方法、装置、电子设备及存储介质
本申请涉及计算机应用技术,特别涉及智能搜索及深度学习领域的同义文本获取方法、装置、电子设备及存储介质。
技术介绍
智能搜索技术中,搜索引擎通常会为商家(广告主)提供三种关键词匹配服务来满足不同的推广需求:精确匹配、短语匹配和宽泛匹配。其中,精确匹配是指查询(query)和关键词(keyword)或者其同义变体字面内容一致,短语匹配是指关键词或同义变体作为短语包含在query中,宽泛匹配是指query和keyword语义相关,即存在语义相关性。其中精确匹配由于其精准的流量触达能力,至今仍是搜索引擎中非常重要的一种匹配模式。目前,通常采用查询预先构建的同义词表的方式,来确定出同义变体等,同义词表中可记录有各query与对应的同义keyword(如可为同义keywordlist)之间的对应关系。但这种方式完全受限于同义词表的覆盖程度,很难准确全面的获取到所需的内容。
技术实现思路
本申请提供了同义文本获取方法、装置、电子设备及存储介质。一种同义文本获取方法,包括:本文档来自技高网...

【技术保护点】
1.一种同义文本获取方法,包括:/n获取训练数据,任一训练数据中分别包括:两个同义的文本;利用所述训练数据训练图模型,得到所述图模型中的各节点的向量表达,其中,所述图模型中的各节点分别对应于所述训练数据中的一个不同的文本,若任意两个节点出现在同一训练数据中,则将所述两个节点通过边相连;/n针对所述图模型中的任一节点对应的待处理的文本,根据所述图模型中的各节点的向量表达,确定出所述待处理的文本的K个近邻文本,作为所述待处理的文本的同义文本,K为正整数。/n

【技术特征摘要】
1.一种同义文本获取方法,包括:
获取训练数据,任一训练数据中分别包括:两个同义的文本;利用所述训练数据训练图模型,得到所述图模型中的各节点的向量表达,其中,所述图模型中的各节点分别对应于所述训练数据中的一个不同的文本,若任意两个节点出现在同一训练数据中,则将所述两个节点通过边相连;
针对所述图模型中的任一节点对应的待处理的文本,根据所述图模型中的各节点的向量表达,确定出所述待处理的文本的K个近邻文本,作为所述待处理的文本的同义文本,K为正整数。


2.根据权利要求1所述的方法,其中,
所述两个同义的文本包括:两个同义的第一文本,或两个同义的第二文本,或两个同义的第一文本和第二文本,第一文本和第二文本为不同类型的文本;
所述待处理的文本包括:待处理的第一文本;所述根据所述图模型中的各节点的向量表达,确定出所述待处理的文本的K个近邻文本包括:根据所述待处理的第一文本的向量表达及所述图模型中的各第二文本的向量表达,确定出所述待处理的第一文本的K个近邻第二文本。


3.根据权利要求1所述的方法,其中,所述图模型中的任一节点的向量表达均通过对所述节点的邻居节点的向量表达进行聚合得到,所述邻居节点为与所述节点通过边直接相连的节点。


4.根据权利要求2所述的方法,其中,
所述第一文本包括:查询query;所述第二文本包括:关键词keyword;
所述获取训练数据包括:
根据用户的搜索点击日志,将符合预定要求的两个query组成query对,若所述query对中的两个query的相似度大于第一阈值,则将所述query对作为训练数据;
根据商家购买日志,将符合预定要求的两个keyword组成keyword对,若所述keyword对中的两个keyword的相似度大于第二阈值,则将所述keyword对作为训练数据;
根据用户的会话日志,将符合预定要求的两个query组成query对,若所述query对中的两个query的相似度大于第三阈值,则将所述query对作为训练数据;
根据预先构建的同义词表,构建所述训练数据,所述同义词表中记录有各query与对应的同义keyword之间的对应关系。


5.根据权利要求2所述的方法,其中,所述确定出所述待处理的第一文本的K个近邻第二文本包括:
分别将所述图模型中的各第二文本与所述待处理的第一文本组成文本对,分别计算各文本对中的两个文本的向量表达之间的距离,按照距离从小到大的顺序对各文本对进行排序,选出排序后处于前K位的文本对,将选出的文本对中的第二文本作为所述待处理的第一文本的K个近邻第二文本;
或者,采用K近邻算法确定出所述待处理的第一文本的K个近邻第二文本。


6.根据权利要求2所述的方法,还包括:
分别将各近邻第二文本与所述待处理的第一文本组成文本对,并分别获取各文本对中的两个文本的同义评分;
过滤掉评分低于第四阈值的文本对,将剩余的文本对中的第二文本作为所述待处理的第一文本的同义文本。


7.根据权利要求6所述的方法,其中,所述分别获取各文本对中的两个文本的同义评分包括:
针对任一文本对,分别利用同义判别模型,确定出所述文本对中的两个文本的同义评分;所述同义判别模型为对已有的基础模型进行微调得到的。


8.根据权利要求7所述的方法,其中,所述微调包括:
获取第一阶段微调训练数据,利用所述第一阶段微调训练数据对所述基础模型进行第一阶段微调;
获取第二阶段微调训练数据,利用所述第二阶段微调训练数据对进行第一阶段微调后的模型进行第二阶段微调,得到所述同义判别模型;
其中,所述第一阶段微调训练数据和所述第二阶段微调训练数据为采用不同方式获取到的训练数据。


9.根据权利要求8所述的方法,其中,
所述第一文本包括:查询query;所述第二文本包括:关键词keyword;
所述获取第一阶段微调训练数据包括:按照预定策略对训练所述图模型时获取的训练数据进行筛选,将筛选出的训练数据作为所述第一阶段微调训练数据中的正例,根据获取到的商家的负反馈数据,构建所述第一阶段微调训练数据中的负例;
所述获取第二阶段微调训练数据包括:获取混合类型的文本对,所述混合类型的文本对中包括:由query与对应的同义keyword组成的文本对、由query和作为短语包含在所述query中的keyword组成的文本对,以及query和与所述query存在语义相关性的keyword组成的文本对,将人工标注为正例和负例的所述混合类型的文本对作为所述第二阶段微调训练数据。


10.一种同义文本获取装置,包括:预处理模块和文本获取模块;
所述预处理模块,用于获取训练数据,任一训练数据中分别包括:两个同义的文本,利用所述训练数据训练图模型,得到所述图模型...

【专利技术属性】
技术研发人员:连义江易鹏
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1