同义文本获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26223182 阅读:39 留言:0更新日期:2020-11-04 10:55
本申请公开了同义文本获取方法、装置、电子设备及存储介质,涉及智能搜索及深度学习领域,其中的方法可包括:针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本。应用本申请所述方案,可提升同义文本的召回能力等。

【技术实现步骤摘要】
同义文本获取方法、装置、电子设备及存储介质
本申请涉及计算机应用技术,特别涉及智能搜索及深度学习领域的同义文本获取方法、装置、电子设备及存储介质。
技术介绍
智能搜索技术中,搜索引擎通常会为商家(广告主)提供三种关键词匹配服务来满足不同的推广需求:精确匹配、短语匹配和宽泛匹配。其中,精确匹配是指查询(query)和关键词(keyword)或者其同义变体字面内容一致,短语匹配是指关键词或同义变体作为短语包含在query中,宽泛匹配是指query和keyword语义相关,即存在语义相关性。其中精确匹配由于其精准的流量触达能力,至今仍是搜索引擎中非常重要的一种匹配模式。目前,通常采用查询预先构建的同义词表的方式,来确定出同义变体等,同义词表中可记录有各query与对应的同义keyword(如可为同义keywordlist)之间的对应关系。但这种方式完全受限于同义词表的覆盖程度,很难准确全面的获取到所需的内容。
技术实现思路
本申请提供了同义文本获取方法、装置、电子设备及存储介质。一种同义文本获取方法,包括:针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型,得到所述待处理的第一文本的同义文本。一种同义文本获取装置,包括:文本获取模块;所述文本获取模块,用于针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本;利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型,得到所述待处理的第一文本的同义文本。一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。上述申请中的一个实施例具有如下优点或有益效果:可获取待处理的第一文本对应的模板形式的第一文本,并利用翻译模型生成对应的同义的模板形式的第二文本,进而可利用从第一文本中识别出的实体值来替换生成的模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本,从而摆脱了现有方式中的同义词表的限制,提升了同义文本的召回能力,能够准确全面的获取到所需的同义文本。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请所述同义文本获取方法第一实施例的流程图;图2为本申请所述前缀树的示意图;图3为本申请所述同义文本获取方法第二实施例的流程图;图4为本申请所述获取“上海哪里治疗头疼比较好”的同义keyword的过程示意图;图5为本申请所述同义文本获取装置50实施例的组成结构示意图;图6为根据本申请实施例所述方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。图1为本申请所述同义文本获取方法第一实施例的流程图。如图1所示,包括以下具体实现方式。在101中,针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值。在102中,利用预先训练得到的翻译模型生成模板形式的第一文本对应的同义的模板形式的第二文本。在103中,利用识别出的待处理的第一文本的实体值替换模板形式的第二文本中的对应实体类型,得到待处理的第一文本的同义文本。可以看出,本实施例所述方案的实现需要依赖于预先训练得到的翻译模型,以下即首先对翻译模型的获取方式进行说明。为训练得到翻译模型,需要首先获取训练数据,每个训练数据中可分别包括:两个同义的第一文本和第二文本,第一文本和第二文本为不同类型的文本。比如,第一文本可为query,第二文本可为keyword。但本申请所述方案并不局限于这两种文本。针对每个训练数据中的每个文本,可分别按照所述预定方式获取对应的模板形式的文本,即针对任一文本,可分别对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值,从而得到模板形式的文本。如何进行实体识别为现有技术。通过实体识别,可将文本中的地名、疾病、人物、机构、游戏名、医疗美容项目等类型的实体分别识别出来,并可获取对应的实体值,如实体类型为:地名,对应的实体值为:北京。比如,某一训练数据中包括的两个文本分别为:“北京哪里治疗手指发麻比较好”和“北京治疗手指发麻医院推荐”,其中,“北京哪里治疗手指发麻比较好”对应的模板形式的文本为“【地名】哪里治疗【疾病】比较好”,即将“北京”替换为实体类型“地名”,将“手指发麻”替换为实体类型“疾病”,类似地,“北京治疗手指发麻医院推荐”对应的模板形式的文本为“【地名】治疗【疾病】医院推荐”。按照上述方式,可分别对每个训练数据进行处理,从而得到由模板形式的文本组成的各训练数据。针对任一由模板形式的文本组成的训练数据,还可分别确定其中的两个模板形式的文本中包含的实体类型是否相同,若否,则可过滤掉该训练数据,若是,则可保留该训练数据。即可基于对齐关系对由模板形式的文本组成的训练数据进行过滤,过滤的方式是比较两个模板形式的文本(如分别为模板形式的文本a和模板形式的文本b)中的实体类型是否能够全部对齐,如模板形式的文本a中包含“地名”,那么模板形式的文本b中也必须包含“地名”,从而可过滤掉噪音数据,即提升了训练数本文档来自技高网...

【技术保护点】
1.一种同义文本获取方法,包括:/n针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;/n利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本;/n利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型,得到所述待处理的第一文本的同义文本。/n

【技术特征摘要】
1.一种同义文本获取方法,包括:
针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文本进行实体识别,得到识别出的实体类型和实体值,并用识别出的实体类型作为槽位替换文本中的对应实体值;
利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的同义的模板形式的第二文本;
利用识别出的所述待处理的第一文本的实体值替换所述模板形式的第二文本中的对应实体类型,得到所述待处理的第一文本的同义文本。


2.根据权利要求1所述的方法,还包括:
获取训练数据,任一训练数据中分别包括:两个同义的第一文本和第二文本,第一文本和第二文本为不同类型的文本;
针对任一训练数据中的任一文本,分别按照所述预定方式获取对应的模板形式的文本;
利用由模板形式的文本组成的训练数据训练所述翻译模型。


3.根据权利要求2所述的方法,还包括:
所述利用由模板形式的文本组成的训练数据训练所述翻译模型之前,针对任一由模板形式的文本组成的训练数据,若确定其中的两个模板形式的文本中包含的实体类型不同,则过滤掉所述训练数据。


4.根据权利要求2所述的方法,还包括:
按照所述预定方式,分别获取预先构建的第二文本库中的各第二文本对应的模板形式的第二文本,得到模板形式的第二文本库;
分别对所述模板形式的第二文本库中的各文本进行分词处理,根据分词结果生成前缀树,其中,所述前缀树中的每个节点均为一个分词结果,每条路径上的节点依次组合后得到的文本均为所述模板形式的第二文本库中的一个文本,所述模板形式的第二文本库中的各文本均包含在所述前缀树中;
所述利用预先训练得到的翻译模型生成所述模板形式的第一文本对应的模板形式的第二文本包括:基于所述前缀树,利用所述翻译模型进行受限的定向翻译,得到所述模板形式的第一文本对应的模板形式的第二文本,所述模板形式的第一文本对应的模板形式的第二文本为所述模板形式的第二文本库中的文本。


5.根据权利要求4所述的方法,其中,所述基于所述前缀树,利用所述翻译模型进行受限的定向翻译,得到所述模板形式的第一文本对应的模板形式的第二文本包括:
在翻译所述模板形式的第一文本对应的任一模板形式的第二文本中的第N个词时,N为大于一的正整数,基于翻译得到的前N-1词查询所述前缀树,确定出所述前缀树中前N-1个词为所述翻译得到的前N-1个词的路径,将确定出的路径中的第N个词作为候选词,从所述候选词中确定出翻译得到的第N个词。


6.根据权利要求4所述的方法,还包括:
针对所述待处理的第一文本的任一同义文本,若确定所述同义文本没有位于所述第二文本库中,则过滤掉所述同义文本。


7.一种同义文本获取装置,包括:文本获取模块;
所述文本获取模块,用于针对待处理的第一文本,按照预定方式获取对应的模板形式的第一文本,所述预定方式包括:对文...

【专利技术属性】
技术研发人员:连义江叶志聪赵岷程健一冯欣伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1