通过计算机实现的计算文本相似度和搜索处理方法及装置制造方法及图纸

技术编号：11213642 阅读：83 留言：0更新日期：2015-03-27 00:12

本发明专利技术提供的一种通过计算机实现的计算文本相似度和搜索处理方法及装置。所述方法包括：获取第一文本串和第二文本串；根据预先设置的短语翻译模型和依存结构模型，对所述第一文本串进行解码，获取K个翻译文本串；分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值，并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。其解决了句子中长距离的依存关系问题，能够更好地表示搜索语句的语义，从而更好地将搜索语句与网页标题进行匹配，使用户得到语义匹配的搜索结果条目，增强用户搜索体验。

全部详细技术资料下载

【技术实现步骤摘要】
通过计算机实现的计算文本相似度和搜索处理方法及装置
本专利技术涉及自然语言处理技术，尤其涉及一种通过计算机实现的计算文本相似度和搜索处理方法及装置。
技术介绍
在搜索引擎当中，为了能够将用户输入的搜索词（或Query)尽可能好的匹配到文档的各个域上（例如，标题、内容），通常采用基于完全的词的匹配的方法来实现所述匹配。目前也有利用翻译模型的方法，从翻译的角度来假定标题和搜索词（例如， Query)是以不同的子语言所写成的假设下，来对类似于有效果被翻译成有用这样的短语翻译来实现语义的匹配。但是，这种方法并不能够解决目标语言当中的长距离依赖问题，只能简单进行语义匹配，使得不能真实体现和表示搜索语句的语义，从而将搜索语句与网页标题匹配错误，影响搜索结果显示和排序，进而影响用户体验。例如，将句子关羽当年为什么没有杀曹操匹配为曹操当年为什么不杀关羽，原句子（query)中关羽是主语，曹操是宾语，而由于未解决长距离依存关系问题，搜索语句与网页标题仅进行词的匹配，而实际句子的依存关系却未体现。
技术实现思路
本专利技术的目的在于，提供一种通过计算机实现的计算文本相似度和搜索处理方法及装置，更好地刻画非局部的依存关系，解决长距离依存关系，从而实现更好的匹配效果。根据本专利技术的一方面，提供一种通过计算机实现的计算文本相似度的方法，包括：获取第一文本串和第二文本串；根据预先设置的短语翻译模型和依存结构模型，对所述第一文本串进行解码，获取K个翻译文本串；分别计算所述K个翻译文本串与所述第二文本串之间的第一...
通过计算机实现的计算文本相似度和搜索处理方法及装置

【技术保护点】
一种通过计算机实现的计算文本相似度的方法，其特征在于，所述方法包括：获取第一文本串和第二文本串；根据预先设置的短语翻译模型和依存结构模型，对所述第一文本串进行解码，获取K个翻译文本串；分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值，并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。

【技术特征摘要】
1. 一种通过计算机实现的计算文本相似度的方法，其特征在于，所述方法包括：获取第一文本串和第二文本串；根据预先设置的短语翻译模型和依存结构模型，对所述第一文本串进行解码，获取K 个翻译文本串；分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值，并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。2. 根据权利要求1所述的方法，其特征在于，所述分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值的处理包括：获取对所述第二文本串进行依存关系分析取得的至少一个第二依存弧，并且对任一所述翻译文本串，执行W下处理：对所述翻译文本串进行依存关系分析，取得至少一个第一依存弧，基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。3. 根据权利要求2所述的方法，其特征在于，所述基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值的处理包括：计算所述至少一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所述翻译文本串和所述第二文本串之间的第一语义相似度值。4. 根据权利要求1?3中任一项所述的方法，其特征在于，所述根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值的处理包括： W所述依存结构模型给予每个翻译文本串的得分作为权重，对所述K个第一语义相似度值进行加权求和，取得所述第一文本串和第二文本串之间的第二语义相似度值。5. 根据权利要求4所述的方法，其特征在于，所述根据预先设置的短语翻译模型和依存结构模型对所述第一文本串进行解码，获取K个翻译文本串的处理包括：根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型W及语序扭曲模型对所述第一文本串进行解码，获取所述K个翻译文本串。6. 根据权利要求5所述的方法，其特征在于，在所述根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型W及语序扭曲模型对所述第一文本串Q进行解码，获取所述K个翻译文本串T的处理中，通过W下公式对任一候选文本串T计算综合评分Score(T); Score(T)=入 iLMOO + AsTM 他 T) + A30 他 T) + A4DEP(T) 其中，LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分，TM化T)是根据所述短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分，D化T)是根据所述语序扭曲模型计算的由第一文本串Q翻译为翻译文本串T的评分，DEP(T)是根据所述依存结构模型对翻译文本串T的评分，A 1?A 4分别是赋予前述四个模型的评分的权重，通过所述综合评分从候选文本串当中选取所述K个翻译文本串。7. 根据权利要求6所述的方法，其特征在于，通过柱捜索解码器对所述第一文本串进行解码，获取K个翻译文本串。8. -种捜索处理方法，其特征在于，包括：接收捜索词；根据所述捜索词获取多个捜索结果条目；根据如权利要求1?7中任一项所述的方法计算...

【专利技术属性】
技术研发人员：张军，吴先超，刘占一，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人