一种文本检索方法和装置制造方法及图纸

技术编号:22135288 阅读:25 留言:0更新日期:2019-09-18 09:00
本说明书实施例提供了一种文本检索方法和装置,所述方法基于预先获取的文本素材库进行,所述文本素材库中包括用于特定业务的多个文本,所述方法针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述方法包括:获取用户输入;从所述用户输入识别其中包含的文本成分;以及基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索出多个文本。

A Text Retrieval Method and Device

【技术实现步骤摘要】
一种文本检索方法和装置
本说明书实施例涉及语言处理
,更具体地,涉及一种文本检索方法和装置。
技术介绍
文案(即,一种用于特定业务的文本)通常指用于表现已经制定的业务策略的文字,例如,用于营销业务的营销文案为用于描述营销策略的简短文字,以用于营销投放,达到用户增长的目的。在现有技术中,文案撰写人员在撰写文案时,通常使用关键词检索功能从已有的历史文案素材库中检索文案素材作为写作借鉴,以提高写作的效率和质量。然而,关键词检索仅能召回字面相同的文案,特别是当素材库中包含相同关键词的文案非常少(甚至没有)时,召回的可供参考的文案数量可能非常少(甚至没有)。因此,需要一种更有效的检索文本的方案。
技术实现思路
本说明书实施例旨在提供一种更有效的文本检索方案,以解决现有技术中的不足。为实现上述目的,本说明书一个方面提供一种文本检索方法,所述方法基于预先获取的文本素材库进行,所述文本素材库中包括用于特定业务的多个文本,所述方法针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述方法包括:获取用户输入;从所述用户输入识别其中包含的文本成分;以及基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索出多个文本。在一个实施例中,从所述用户输入识别其中包含的文本成分包括,通过预先训练的序列标注模型从所述用户输入识别其中包含的文本成分。在一个实施例中,基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索多个文本包括:获取包括所述识别出的文本成分的集合的全部非空子集;相对于每个所述子集,通过所述倒排索引表进行检索,获取相应的检索结果,其中,该子集对应的检索结果为以该子集中各个文本成分为检索键进行检索所获取的检索结果的交集,所述检索结果为相应文本的文本标识的列表。在一个实施例中,基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索多个文本还包括,在相对于每个所述子集,通过所述倒排索引表进行检索,获取相应的检索结果之后,对于全部检索结果中包括的全部文本标识,基于以下至少一项对所述全部文本标识排序:各个文本标识对应的子集中包括的文本成分的个数、以及各个文本标识对应的文本与所述用户输入的相似度。在一个实施例中,对所述全部文本标识排序包括,对于所述全部文本标识,先基于各个文本标识对应的子集中包括的文本成分的个数进行第一层次排序,再基于各个文本标识对应的文本与所述用户输入的相似度进行在所述第一层次之下的第二层次排序。在一个实施例中,所述方法还包括,在从所述文本素材库中检索出多个文本之后,基于所述对所述全部文本标识的排序,向所述用户展示检索出的文本。在一个实施例中,基于所述对所述全部文本标识的排序,向所述用户展示检索出的文本包括,在展示页面中,除了基于所述排序,向所述用户展示检索出的文本之外,还混合地展示通过针对所述用户输入进行关键词检索获取的多个文本。本说明书另一方面提供一种构建文本素材库的倒排索引表的方法,所述文本素材库包括用于特定业务的多个文本,所述方法针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述方法包括:对于文本素材库中的每个文本,从该文本识别其中包含的文本成分;以及基于各个文本包含的文本成分,构建所述文本素材库的倒排索引表,其中,所述倒排索引表的第一检索键为预定数目的文本成分中的第一文本成分,与所述第一检索键对应的检索值为包含该第一文本成分的各个文本的文本标识。在一个实施例中,基于各个文本包含的文本成分,构建所述文本素材库的倒排索引表包括,基于各个文本包含的文本成分、及各个文本包含的关键词,构建所述文本素材库的倒排索引表,其中,所述倒排索引表的第二检索键为第一关键词,与所述第二检索键对应的检索值为包含该第一关键词的各个文本的文本标识,其中,所述第一关键词为所述多个文本中包括的一个关键词,其中,在所述倒排索引表中,通过预定标识指示所述第一检索键对应于文本成分。本说明书另一方面提供一种文本检索装置,所述装置基于预先获取的文本素材库实施,所述文本素材库中包括用于特定业务的多个文本,所述装置针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述装置包括:获取单元,配置为,获取用户输入;识别单元,配置为,从所述用户输入识别其中包含的文本成分;以及检索单元,配置为,基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索出多个文本。在一个实施例中,所述识别单元还配置为,通过预先训练的序列标注模型从所述用户输入识别其中包含的文本成分。在一个实施例中,所述检索单元还包括:获取子单元,配置为,获取包括所述识别出的文本成分的集合的全部非空子集;检索子单元,配置为,相对于每个所述子集,通过所述倒排索引表进行检索,获取相应的检索结果,其中,该子集对应的检索结果为以该子集中各个文本成分为检索键进行检索所获取的检索结果的交集,所述检索结果为相应文本的文本标识的列表。在一个实施例中,所述检索单元还包括:排序子单元,配置为,在相对于每个所述子集,通过所述倒排索引表进行检索,获取相应的检索结果之后,对于全部检索结果中包括的全部文本标识,基于以下至少一项对所述全部文本标识排序:各个文本标识对应的子集中包括的文本成分的个数、以及各个文本标识对应的文本与所述用户输入的相似度。在一个实施例中,所述排序子单元还配置为,对于所述全部文本标识,先基于各个文本标识对应的子集中包括的文本成分的个数进行第一层次排序,再基于各个文本标识对应的文本与所述用户输入的相似度进行在所述第一层次之下的第二层次排序。在一个实施例中,所述装置还包括,展示单元,配置为,在从所述文本素材库中检索出多个文本之后,基于所述对所述全部文本标识的排序,向所述用户展示检索出的文本。在一个实施例中,所述展示单元还配置为,在展示页面中,除了基于所述排序,向所述用户展示检索出的文本之外,还混合地展示通过针对所述用户输入进行关键词检索获取的多个文本。本说明书另一方面提供一种构建文本素材库的倒排索引表的装置,所述文本素材库包括用于特定业务的多个文本,所述装置针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述装置包括:识别单元,配置为,对于文本素材库中的每个文本,从该文本识别其中包含的文本成分;以及构建单元,配置为,基于各个文本包含的文本成分,构建所述文本素材库的倒排索引表,其中,所述倒排索引表的第一检索键为预定数目的文本成分中的第一文本成分,与所述第一检索键对应的检索值为包含该第一文本成分的各个文本的文本标识。在一个实施例中,所述构建单元还配置为,基于各个文本包含的文本成分、及各个文本包含的关键词,构建所述文本素材库的倒排索引表,其中,所述倒排索引表的第二检索键为第一关键词,与所述第二检索键对应的检索值为包含该第一关键词的各个文本的文本标识,其中,所述第一关键词为所述多个文本中包括本文档来自技高网...

【技术保护点】
1.一种文本检索方法,所述方法基于预先获取的文本素材库进行,所述文本素材库中包括用于特定业务的多个文本,所述方法针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述方法包括:获取用户输入;从所述用户输入识别其中包含的文本成分;以及基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索出多个文本。

【技术特征摘要】
1.一种文本检索方法,所述方法基于预先获取的文本素材库进行,所述文本素材库中包括用于特定业务的多个文本,所述方法针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述方法包括:获取用户输入;从所述用户输入识别其中包含的文本成分;以及基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索出多个文本。2.根据权利要求1所述的方法,其中,从所述用户输入识别其中包含的文本成分包括,通过预先训练的序列标注模型从所述用户输入识别其中包含的文本成分。3.根据权利要求1所述的方法,其中,基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索多个文本包括:获取包括所述识别出的文本成分的集合的全部非空子集;相对于每个所述子集,通过所述倒排索引表进行检索,获取相应的检索结果,其中,该子集对应的检索结果为以该子集中各个文本成分为检索键进行检索所获取的检索结果的交集,所述检索结果为相应文本的文本标识的列表。4.根据权利要求3所述的方法,基于所述识别出的文本成分,通过所述文本素材库的预先建立的以文本成分为检索键的倒排索引表,从所述文本素材库中检索多个文本还包括,在相对于每个所述子集,通过所述倒排索引表进行检索,获取相应的检索结果之后,对于全部检索结果中包括的全部文本标识,基于以下至少一项对所述全部文本标识排序:各个文本标识对应的子集中包括的文本成分的个数、以及各个文本标识对应的文本与所述用户输入的相似度。5.根据权利要求4所述的方法,其中,对所述全部文本标识排序包括,对于所述全部文本标识,先基于各个文本标识对应的子集中包括的文本成分的个数进行第一层次排序,再基于各个文本标识对应的文本与所述用户输入的相似度进行在所述第一层次之下的第二层次排序。6.根据权利要求4所述的方法,还包括,在从所述文本素材库中检索出多个文本之后,基于所述对所述全部文本标识的排序,向所述用户展示检索出的文本。7.根据权利要求6所述的方法,其中,基于所述对所述全部文本标识的排序,向所述用户展示检索出的文本包括,在展示页面中,除了基于所述排序,向所述用户展示检索出的文本之外,还混合地展示通过针对所述用户输入进行关键词检索获取的多个文本。8.一种构建文本素材库的倒排索引表的方法,所述文本素材库包括用于特定业务的多个文本,所述方法针对所述多个文本预设有预定数目的文本成分,各个所述文本成分与所述多个文本中相应类型的内容分别对应,所述方法包括:对于文本素材库中的每个文本,从该文本识别其中包含的文本成分;以及基于各个文本包含的文本成分,构建所述文本素材库的倒排索引表,其中,所述倒排索引表的第一检索键为所述预定数目的文本成分中的第一文本成分,与所述第一检索键对应的检索值为包含该第一文本成分的各个文本的文本标识。9.根据权利要求8所述的方法,其中,基于各个文本包含的文本成分,构建所述文本素材库的倒排索引表包括,基于各个文本包含的文本成分、及各个文本包含的关键词,构建所述文本素材库的倒排索引表,其中,所述倒排索引表的第二检索键为第一关键词,与所述第二检索键对应的检索值为包含该第一关键词的各个文本的文本标识,其中,所述第一关键词为所述多个文本中包括的一个关键词,其中,在所述倒排索引表中,通过预定标识指示所述第一检索键对应于文本成分。10.一种文本检索装置,所述装置基于预先获取的文本素材库实施,所述文本素材库中包...

【专利技术属性】
技术研发人员:陈若田刘弘一熊军李若鹏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1