同义文本获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26223182 阅读：39 留言：0更新日期：2020-11-04 10:55

本申请公开了同义文本获取方法、装置、电子设备及存储介质，涉及智能搜索及深度学习领域，其中的方法可包括：针对待处理的第一文本，按照预定方式获取对应的模板形式的第一文本，所述预定方式包括：对文本进行实体识别，得到识别出的实体类型和实体值，并用识别出的实体类型作为槽位替换文本中的对应实体值；利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本；利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型，得到待处理的第一文本的同义文本。应用本申请所述方案，可提升同义文本的召回能力等。

全部详细技术资料下载

【技术实现步骤摘要】
同义文本获取方法、装置、电子设备及存储介质
本申请涉及计算机应用技术，特别涉及智能搜索及深度学习领域的同义文本获取方法、装置、电子设备及存储介质。
技术介绍
智能搜索技术中，搜索引擎通常会为商家(广告主)提供三种关键词匹配服务来满足不同的推广需求：精确匹配、短语匹配和宽泛匹配。其中，精确匹配是指查询(query)和关键词(keyword)或者其同义变体字面内容一致，短语匹配是指关键词或同义变体作为短语包含在query中，宽泛匹配是指query和keyword语义相关，即存在语义相关性。其中精确匹配由于其精准的流量触达能力，至今仍是搜索引擎中非常重要的一种匹配模式。目前，通常采用查询预先构建的同义词表的方式，来确定出同义变体等，同义词表中可记录有各query与对应的同义keyword(如可为同义keywordlist)之间的对应关系。但这种方式完全受限于同义词表的覆盖程度，很难准确全面的获取到所需的内容。
技术实现思路
本申请提供了同义文本获取方法、装置、电子设备及存储介质。一种同义文本获取方法，包括：针对待处理的第一文本，按照预定方式获取对应的模板形式的第一文本，所述预定方式包括：对文本进行实体识别，得到识别出的实体类型和实体值，并用识别出的实体类型作为槽位替换文本中的对应实体值；利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本；利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型，得到所述待处...

【技术保护点】
1.一种同义文本获取方法，包括：/n针对待处理的第一文本，按照预定方式获取对应的模板形式的第一文本，所述预定方式包括：对文本进行实体识别，得到识别出的实体类型和实体值，并用识别出的实体类型作为槽位替换文本中的对应实体值；/n利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本；/n利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型，得到所述待处理的第一文本的同义文本。/n

【技术特征摘要】
1.一种同义文本获取方法，包括：
针对待处理的第一文本，按照预定方式获取对应的模板形式的第一文本，所述预定方式包括：对文本进行实体识别，得到识别出的实体类型和实体值，并用识别出的实体类型作为槽位替换文本中的对应实体值；
利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本；
利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型，得到所述待处理的第一文本的同义文本。

2.根据权利要求1所述的方法，还包括：
获取训练数据，任一训练数据中分别包括：两个同义的第一文本和第二文本，第一文本和第二文本为不同类型的文本；
针对任一训练数据中的任一文本，分别按照所述预定方式获取对应的模板形式的文本；
利用由模板形式的文本组成的训练数据训练所述翻译模型。

3.根据权利要求2所述的方法，还包括：
所述利用由模板形式的文本组成的训练数据训练所述翻译模型之前，针对任一由模板形式的文本组成的训练数据，若确定其中的两个模板形式的文本中包含的实体类型不同，则过滤掉所述训练数据。

4.根据权利要求2所述的方法，还包括：
按照所述预定方式，分别获取预先构建的第二文本库中的各第二文本对应的模板形式的第二文本，得到模板形式的第二文本库；
分别对所述模板形式的第二文本库中的各文本进行分词处理，根据分词结果生成前缀树，其中，所述前缀树中的每个节点均为一个分词结果，每条路径上的节点依次组合后得到的文本均为所述模板形式的第二文本库中的一个文本，所述模板形式的第二文本库中的各文本均包含在所述前缀树中；
所述利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的模板形式的第二文本包括：基于所述前缀树，利用所述翻译模型进行受限的定向翻译，得到所述模板形式的第一文本对应的模板形式的第二文本，所述模板形式的第一文本对应的模板形式的第二文本为所述模板形式的第二文本库中的文本。

5.根据权利要求4所述的方法，其中，所述基于所述前缀树，利用所述翻译模型进行受限的定向翻译，得到所述模板形式的第一文本对应的模板形式的第二文本包括：
在翻译所述模板形式的第一文本对应的任一模板形式的第二文本中的第N个词时，N为大于一的正整数，基于翻译得到的前N-1词查询所述前缀树，确定出所述前缀树中前N-1个词为所述翻译得到的前N-1个词的路径，将确定出的路径中的第N个词作为候选词，从所述候选词中确定出翻译得到的第N个词。

6.根据权利要求4所述的方法，还包括：
针对所述待处理的第一文本的任一同义文本，若确定所述同义文本没有位于所述第二文本库中，则过滤掉所述同义文本。

7.一种同义文本获取装置，包括：文本获取模块；
所述文本获取模块，用于针对待处理的第一文本，按照预定方式获取对应的模板形式的第一文本，所述预定方式包括：对文...

【专利技术属性】
技术研发人员：连义江，叶志聪，赵岷，程健一，冯欣伟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人