多媒体资源搜索方法、装置、设备及介质制造方法及图纸

技术编号:35272302 阅读:15 留言:0更新日期:2022-10-19 10:46
本发明专利技术涉及人工智能技术领域,提供了一种多媒体资源搜索方法、装置、设备及介质。该方法包括从文本中提取文字内容,得到文本片段并存储至预设数据库,对文本片段进行分词得到第一关键词;根据第一关键词构建倒排索引表,将各文本片段的分类标签存储至倒排索引表以构建多媒体库;从查询请求中提取第二关键词,根据倒排索引表和第二关键词,在多媒体库中搜索与第二关键词相关联的第一关键词的分类标签,根据分类标签从预设数据库读取文本片段;对多个文本片段之间的相似度进行评分和排序,根据排序顺序选取文本片段渲染成对应文本并输出至用户端。本发明专利技术还涉及区块链技术领域,上述第一关键词、第二关键词还可以存储于一区块链的节点中。节点中。节点中。

【技术实现步骤摘要】
多媒体资源搜索方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种多媒体资源搜索方法、装置、设备及介质。

技术介绍

[0002]随着互联网快速发展,多媒体资源搜索成为当前一个重要的课题。通常,多媒体资源搜索会对不同类型的文本(网页文本、PDF文本、图片文本、视频文本)的内容分别构建多个内容库。之后,当用户输入关键词搜索内容时,后台分别对多个内容库进行搜索,返回所有与关键词关联的不同类型的文本给用户,需要用户在显示界面中来回切换类型观看,且用户需花费时间在各个文本中甄别自己想要的文本片段,不仅耗费用户时间,还可能因为用户的人为操作导致查找到的文本片段准确率低。

技术实现思路

[0003]鉴于以上内容,本专利技术提供一种多媒体资源搜索方法、装置、设备及介质,其目的在于解决现有技术中查找多种不同类型的文本片段效率低和准确率低的技术问题。
[0004]为实现上述目的,本专利技术提供一种多媒体资源搜索方法,该方法包括:
[0005]分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,对每个文本片段进行分词得到各文本片段的第一关键词;
[0006]根据所述第一关键词构建词搜索的倒排索引表,将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库;
[0007]接收用户端发送的查询请求,从所述查询请求中提取第二关键词,根据所述倒排索引表和所述第二关键词,在所述多媒体库中搜索与所述第二关键词相关联的第一关键词对应的文本片段的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段;
[0008]对所述多个文本片段之间的相似度进行评分,将得到后的评分值按预设的排序顺序进行排序,根据排序顺序选取预设数量的文本片段渲染成对应文本并输出至所述用户端。
[0009]优选的,所述多种不同类型的文本包括网页文本、PDF文本、图片文本、视频文本,所述分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,包括:
[0010]对每种类型的文本划分为格式部分和文字内容部分,对所述文字内容部分执行片段划分,得到一个或多个文本片段并存储至预设数据库。
[0011]优选的,所述对每个文本片段进行分词得到各文本片段的第一关键词,包括:
[0012]根据预设的分词算法,对每个文本片段的长文本句子进行划分,得到多个词组;
[0013]计算相邻词组之间的相似度值,将相似度值小于预设阈值的词组作为第一关键词。
[0014]优选的,在所述根据所述第一关键词构建词搜索的倒排索引表之后,该方法还包括:
[0015]统计所述第一关键词在对应的文本片段出现的词频值;
[0016]将所述词频值与预设词频值比对,若所述词频值大于或等于预设词频值,则将所述第一关键词填充至所述倒排索引表内的高频词队列;
[0017]若所述词频值小于预设词频值,则将所述第一关键词填充至所述倒排索引表内的低频词队列。
[0018]优选的,在所述将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库之前,该方法还包括:
[0019]读取每个文本片段的第一关键词的文本序列,将所述文本序列输入预设分类模型进行标记嵌入,得到词向量特征;
[0020]根据所述词向量特征,从所述预设分类模型的标签模块匹配出所述文本片段的分类标签,将所述分类标签与所述文本片段的第一关键词建立映射关系。
[0021]优选的,所述从所述查询请求中提取第二关键词,包括:
[0022]对查询请求的信息进行切词,得到多个分词;
[0023]根据预先构建的字典词表生成字典树,将所述多个分词输入所述字典树进行遍历,得到所述第二关键词。
[0024]优选的,所述根据所述倒排索引表和所述第二关键词,在所述多媒体库中搜索与所述第二关键词相关联的第一关键词对应的文本片段的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段,包括:
[0025]将所述第二关键词输入所述倒排索引表的搜索引擎;
[0026]根据所述搜索引擎遍历所述倒排索引表内的第一关键词,得到与所述第二关键词有关联的第一关键词;
[0027]根据映射关系读取所述关联的第一关键词的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段。
[0028]为实现上述目的,本专利技术还提供一种多媒体资源搜索装置,所述装置包括:
[0029]提取模块:用于分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,对每个文本片段进行分词得到各文本片段的第一关键词;
[0030]存储模块:用于根据所述第一关键词构建词搜索的倒排索引表,将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库;
[0031]查询模块:用于接收用户端发送的查询请求,从所述查询请求中提取第二关键词,根据所述倒排索引表和所述第二关键词,在所述多媒体库中搜索与所述第二关键词相关联的第一关键词对应的文本片段的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段;
[0032]输出模块:用于对所述多个文本片段之间的相似度进行评分,将得到后的评分值按预设的排序顺序进行排序,根据排序顺序选取预设数量的文本片段渲染成对应文本并输出至所述用户端。
[0033]为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:
[0034]至少一个处理器;以及,
[0035]与所述至少一个处理器通信连接的存储器;其中,
[0036]所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述多媒体资源搜索方法。
[0037]为实现上述目的,本专利技术还提供一种计算机可读介质,所述计算机可读介质存储有多媒体资源,所述多媒体资源被处理器执行时,实现如权利要求1至7中任一项所述多媒体资源搜索方法的步骤。
[0038]本专利技术将多种不同类型的文本的第一关键词和文本片段提取出来,根据所有的第一关键词构建词搜索的倒排索引表,将所有的文本片段的分类标签存储至倒排索引表以构建多媒体库,实现了将多种不同类型的文本的内容进行统一索引架构下搜索,减少构建多个内容库的成本和搜索时间。
[0039]根据倒排索引表和用户查询的第二关键词,多媒体库进行搜索,得到与第二关键词有关联的第一关键词的多个文本片段,将多个文本片段的相似度进行评分和排序后,选取排序先前的文本片段渲染成对应文本并输出至用户端,实现了将文本片段作为搜索结果且将多种不同类型的文本在显示界面中混排显示,减少用户的人为操作,提高查找的准确率和效率。
附图说明
[0040]图1为本专利技术多媒体资源搜索方法较佳实施例的流程图示意图;
[0041]图2为本专利技术多媒体资源搜索装置较佳实施例的模块示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体资源搜索方法,其特征在于,所述方法包括:分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,对每个文本片段进行分词得到各文本片段的第一关键词;根据所述第一关键词构建词搜索的倒排索引表,将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库;接收用户端发送的查询请求,从所述查询请求中提取第二关键词,根据所述倒排索引表和所述第二关键词,在所述多媒体库中搜索与所述第二关键词相关联的第一关键词对应的文本片段的分类标签,根据检索得到的分类标签从所述预设数据库读取相应的文本片段;对所述多个文本片段之间的相似度进行评分,将得到后的评分值按预设的排序顺序进行排序,根据排序顺序选取预设数量的文本片段渲染成对应文本并输出至所述用户端。2.如权利要求1所述的多媒体资源搜索方法,其特征在于,所述多种不同类型的文本包括网页文本、PDF文本、图片文本、视频文本,所述分别从多种不同类型的文本中提取文字内容,得到一个或多个文本片段并存储至预设数据库,包括:对每种类型的文本划分为格式部分和文字内容部分,对所述文字内容部分执行片段划分,得到一个或多个文本片段并存储至预设数据库。3.如权利要求1所述的多媒体资源搜索方法,其特征在于,所述对每个文本片段进行分词得到各文本片段的第一关键词,包括:根据预设的分词算法,对每个文本片段的长文本句子进行划分,得到多个词组;计算相邻词组之间的相似度值,将相似度值小于预设阈值的词组作为第一关键词。4.如权利要求1所述的多媒体资源搜索方法,其特征在于,在所述根据所述第一关键词构建词搜索的倒排索引表之后,该方法还包括:统计所述第一关键词在对应的文本片段出现的词频值;将所述词频值与预设词频值比对,若所述词频值大于或等于预设词频值,则将所述第一关键词填充至所述倒排索引表内的高频词队列;若所述词频值小于预设词频值,则将所述第一关键词填充至所述倒排索引表内的低频词队列。5.如权利要求1所述的多媒体资源搜索方法,其特征在于,在所述将所述各文本片段的分类标签存储至所述倒排索引表以构建多媒体库之前,该方法还包括:读取每个文本片段的第一关键词的文本序列,将所述文本序列输入预设分类模型进行标记嵌入,得到词向量特征;根据所述词向量特征,从所述预设分类模型的标签模块匹配出所述文本片段的分类标签,...

【专利技术属性】
技术研发人员:朱运乔建秀
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1