一种基于分词索引搜索多媒体资源的方法及服务器技术

技术编号：24456348 阅读：31 留言：0更新日期：2020-06-10 15:39

本发明专利技术涉及互联网技术领域，尤其涉及一种基于分词索引搜索多媒体资源的方法及服务器，用以解决搜索到的多媒体资源不合理以及搜索到的结果单一无法满足实际需求的问题，该方法包括：响应于在终端设备上输入的关键字，在分词索引库中进行搜索，再确定所述输入的关键字，能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时，记录所述至少一条分词索引信息，再获取所述至少一条分词索引信息对应的至少一个多媒体资源，将所述至少一个多媒体资源返回给所述终端设备。这样，基于建立的分词索引库进行搜索，优化了搜索效果，解决了中文词组隐含结合的问题，保证了搜索效果，提高了多媒体资源的查找效率，提升了使用体验。

A method and server for searching multimedia resources based on word segmentation index

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分词索引搜索多媒体资源的方法及服务器
本专利技术涉及互联网
，尤其涉及一种基于分词索引搜索多媒体资源的方法及服务器。
技术介绍
服务器基于键入的目标多媒体资源的首字母、拼音，在索引库中进行搜索，并召回满足匹配条件的多媒体资源，然后，对选择的目标多媒体资源进行播放。现有技术下，将多媒体资源的标题等文字信息中，单个字的首字母、拼音进行拆分，生成相应的首字母分词以及拼音分词，并基于所述首字母分词以及所述拼音分词，建立相应的一条索引信息，最终建立传统数据索引库。这样，一种情况下，服务器响应于在终端设备上输入的首字母或者拼音，在索引信息中匹配搜寻时，由于中文词组之间具有隐含结合性，会导致中文词组被拆散匹配命中，这样，导致搜索到很多不合理的结果。另一种情况下，服务器将在终端设备上输入的首字母或者拼音直接转换为最有可能的中文词语，再基于中文词语进行检索，返回该中文词语匹配的相关结果，但这样，召回的多媒体资源单一，而且无法保证适应于实际的需要，更多可能的多媒体资源无法被搜索到。例如，服务器响应到...

【技术保护点】
1.一种基于分词索引搜索多媒体资源的方法，其特征在于，包括：/n服务器响应于在终端设备上输入的关键字，在分词索引库中进行搜索，所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的，其中，一条分词索引信息对应一个多媒体资源，所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后，将得到的待处理词信息进行组合和筛选处理得到的词组组合；/n所述服务器确定所述输入的关键字，能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时，记录所述至少一条分词索引信息；/n所述服务器获取所述至少一条分词索引信息对应的至少一个多媒体资源，将所述至少一个多媒体资源返回给所述...

【技术特征摘要】
1.一种基于分词索引搜索多媒体资源的方法，其特征在于，包括：
服务器响应于在终端设备上输入的关键字，在分词索引库中进行搜索，所述分词索引库是对多媒体资源关联的文字信息进行分词处理后得到的，其中，一条分词索引信息对应一个多媒体资源，所述一条分词索引信息中包括对所述一个多媒体资源关联的文字信息进行分词提取后，将得到的待处理词信息进行组合和筛选处理得到的词组组合；
所述服务器确定所述输入的关键字，能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配时，记录所述至少一条分词索引信息；
所述服务器获取所述至少一条分词索引信息对应的至少一个多媒体资源，将所述至少一个多媒体资源返回给所述终端设备。

2.如权利要求1所述的方法，其特征在于，所述在分词索引库中进行搜索之前，进一步包括，建立分词索引库；具体包括：
服务器获取网络中的多媒体资源，并对于读取的每一个多媒体资源，分别执行以下操作：
所述服务器提取多媒体资源关联的文字信息，所述文字信息至少包括所述多媒体资源的标签信息以及简介信息；
所述服务器对所述文字信息进行初始分词处理，得到各个待处理词信息，其中，一个待处理词信息中至少包括一个字；
所述服务器依次计算相邻两个待处理词信息之间的互信息，并基于所述互信息对所述各个待处理词信息进行组合，得到处理后的各个词组信息；
所述服务器分别计算所述各个词组信息的左边界熵和右边界熵，筛选出所述左边界熵达到预设的左边界熵阈值，且所述右边界熵达到预设的右边界熵阈值的词组信息，并基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息。

3.如权利要求2所述的方法，其特征在于，所述依次计算相邻两个待处理词信息之间的互信息，并基于所述互信息对所述各个待处理词信息进行组合，包括：
服务器将待处理词信息按照在所述文字信息中的排列顺序进行排列；
所述服务器采用循环处理方式执行以下步骤，直至所述排列顺序中的全部待处理词信息被读取完毕时，获取处理后的各个词组信息：
所述服务器读取相邻的两个待处理词信息分别作为第一待处理词信息和第二待处理词信息，并计算所述第一待处理词信息与所述第二待处理词信息之间的互信息；
所述服务器判断所述互信息是否达到设定的互信息阈值；
若是，则将所述第一待处理词信息和第二待处理词信息组合为一个新的待处理词信息，以及将所述一个新的待处理词信息作为新的第一待处理词信息，并继续按照所述排列顺序读取下一个待处理词信息作为新的第二待处理词信息；
否则，将所述第一待处理词作为一个词组信息，以及将所述第二待处理词信息设置为新的第一待处理词信息，并继续按照所述排列顺序读取下一个待处理词信息作为第二待处理词信息。

4.如权利要求2所述的方法，其特征在于，所述分别计算所述各个词组信息的左边界熵和右边界熵之后，进一步包括：
服务器获取一个词组信息的左边界熵，确定所述一个词组信息的左边界熵小于所述左边界熵阈值时，删除所述一个词组信息；和/或，
所述服务器获取一个词组信息的右边界熵，确定所述一个词组信息的右边界熵小于所述右边界熵阈值时，删除所述一个词组信息。

5.如权利要求1-4任一项所述的方法，其特征在于，所述基于所述词组信息建立对应所述一个多媒体资源的一条分词索引信息，包括：
服务器获取筛选后的词组信息，并将所述词组信息按照所述排列顺序进行标号；
所述服务器按照从小到大的顺序依次读取一个标号，采用循环处理的方式执行以下步骤，直至所有标号被读取完毕：
所述服务器确定从所述一个标号开始，到最后一个标号为止的所有标号，并获取所述所有标号对应的所有词组信息；
所述服务器将所述所有词组信息作为一个词组组合，并继续读取下一个标号；
所述服务器基于获得的所有词组组合，建立对应一个多媒体资源的一条分词索引信息。

6.如权利要求5所述的方法，其特征在于，所述确定所述输入的关键字，能够与所述分词索引库中至少一条分词索引信息中的一个词组组合完成匹配，包括：
服务器获取所述输入的关键字，采用循环处理的方式执行以下步骤，直至所述分词索引库中的全部分词索引信息被读...

【专利技术属性】
技术研发人员：袁丽，于松，杨梅，赵明，杨云龙，
申请(专利权)人：青岛聚看云科技有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人