搜索文本与库文件的相关度计算方法、装置、设备及介质制造方法及图纸

技术编号：22330150 阅读：23 留言：0更新日期：2019-10-19 12:17

本发明专利技术公开了一种搜索文本与库文件的相关度计算方法、装置、设备及介质，所述方法包括获取搜索文本，并对所述搜索文本进行分词操作以得到目标分词集合，所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量；根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量；获取用于进行相关度计算的目标库文本集合；根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量，计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。本发明专利技术综合考虑搜索文本中各个分词的重要程度和库文件中不同的域在计算相关度时的重要程度，降低了库文本长度对于相关度计算的影响，显著提升相关度计算的准确度。

Calculation method, device, equipment and media of correlation degree between search text and library file

全部详细技术资料下载

【技术实现步骤摘要】
搜索文本与库文件的相关度计算方法、装置、设备及介质
本专利技术涉及相关度计算领域，尤其涉及搜索文本与库文件的相关度计算方法、装置、设备及介质。
技术介绍
现有技术中通常基于概率检索模型计算搜索文本与库文本集合中各个库文本的相关度，具体地，可以基于搜索文本的各个分词与库文本的相关性以及各个分词的普遍重要度来计算搜索文本与库文本的相关度，其中，所述分词与库文本的相关性易受到库文本集合中各个库文本长度的影响。现有技术中在进行相关度计算时没有充分考虑分词在所述搜索文本中的重要程度，并且其受库文本集合中各个库文本长度影响较大。若库文本集合中各个库文本长度变化较大时，基于现有技术得到的搜索文本与库文本的相关度结果的稳定性也较低，从而导致相关度计算结果的不准确。
技术实现思路
为了解决现有技术搜索文本与库文件的相关度计算准确度不高的技术问题，本专利技术实施例提供一种搜索文本与库文件的相关度计算方法、装置、设备及介质。一方面，本专利技术提供了一种搜索文本与库文件的相关度计算方法，所述方法包括：获取搜索文本，并对所述搜索文本进行分词操作以得到目标分词集合，所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量；根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量；获取用于进行相关度计算的目标库文本集合；根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量，计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。另一方面，本专利技术提供了一种搜索文本与库文件的相关度计算装置，所述装置包括：搜索文本获取模块，用于获取搜索文本，并对所述搜索...

【技术保护点】
1.一种搜索文本与库文件的相关度计算方法，其特征在于，所述方法包括：获取搜索文本，并对所述搜索文本进行分词操作以得到目标分词集合，所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量；根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量；获取用于进行相关度计算的目标库文本集合；根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量，计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。

【技术特征摘要】
1.一种搜索文本与库文件的相关度计算方法，其特征在于，所述方法包括：获取搜索文本，并对所述搜索文本进行分词操作以得到目标分词集合，所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量；根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量；获取用于进行相关度计算的目标库文本集合；根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量，计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。2.根据权利要求1所述的方法，其特征在于，所述对所述文本进行分词操作以得到目标分词集合，所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量，包括：对所述搜索文本进行分词处理，得到至少一个分词；基于预设的语料库得到每个分词对应的词权重相关量；利用所述词权重相关及预先构建的词权重参量计算模型，确定所述各个分词对应的词权重参量；根据各个分词及其对应的词权重参量构建目标分词集合。3.根据权利要求1所述的方法，其特征在于，所述获取用于进行相关度计算的目标库文本集合，包括：计算库文本集合对于各个模板分词的倒排集合；记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典；根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合；将各个目标分词对应的目标倒排集合的并集作为目标库文本集合。4.根据权利要求3所述的方法，其特征在于，所述计算库文本集合对于各个模板分词的倒排集合，包括：获取库文本集合中的每个库文本的域；获取每个所述模板分词相对于所述库文本的词频，所述模板分词相对于所述库文本的词频为所述模板分词相对于所述库文本的各个域中的文本内容的词频的最大值；构建每个所述模板分词的倒排集合，所述模板分词相对于所述倒排集合中任意一个库文本的词频均大于预设阈值。5.根据权利要求1所述的方法，其特征在于，所述根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量，计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度，包括：计算搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度；计算搜索文本与所述目标库文本集合中的每个目标库文本的距离；根据搜索文本相对于所述目标库文本集合中的每个目标库...

【专利技术属性】
技术研发人员：陈爱云，陈信雄，罗翔，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人