一种语义冗余的挖掘方法和装置制造方法及图纸

技术编号:9765823 阅读:139 留言:0更新日期:2014-03-15 11:06
本发明专利技术提供了一种语义冗余的挖掘方法和装置,方法包括:S1、从搜索日志中获取Q-Q、Q-T和T-T中的至少一种资源作为候选句对,Q-Q为用户在一个会话中搜索的两个query构成的句对,Q-T为query与对应的被点击网页标题(title)构成的句对,T-T为同一个query对应的两个被点击title构成的句对;S2、从各候选句对中抽取具有相同上下文语境的短语对作为候选复述短语对;S3、从候选复述短语对中抽取短语p2被另一个短语p1完全包含的候选复述短语对;S4、对步骤S3抽取出的候选复述短语对进行噪声过滤后,得到语义冗余短语对。本发明专利技术实现了语义冗余的挖掘,为语义冗余的识别以及进一步提高搜索准确率和召回率提供基础。

【技术实现步骤摘要】
一种语义冗余的挖掘方法和装置
】本专利技术涉及计算机应用
,特别涉及一种语义冗余的挖掘方法和装置。【
技术介绍
】冗余存在于言语的每一个平面上,同一言语片段中,各词项中可能反复出现一些义素,这些重复出现的义素就可能构成语义冗余。若一个字符串S在去掉其中某个词w后语义基本不变,则可以确定S中存在语义冗余,且w是S中的冗余词。例如“苹果牌的笔记本电脑一般多少钱啊”这一句子,其中“的”、“啊”为停用词可以忽略,“一般”为与上下文相关性不大的冗余词,其虽然不是停用词,但语义限定作用也不大同样可以忽略。但其中的“牌”相对于“苹果”在语义上存在冗余,“电脑”相对于“笔记本”在语义上存在冗余。对于搜索引擎来说,语义冗余的识别技术非常重要,起码表现在两个方面:首先,很多用户query中存在语义冗余,去掉这些语义冗余词之后通常有助于用户获取更有价值的结果,例如可以提高搜索结果的召回率。其次,搜索结果中也存在语义冗余,识别出其中的语义冗余可以更加精确地计算query和搜索结果的相似度。然而,语义冗余的识别需要依靠预先对语义冗余的挖掘,因此语义冗余的挖掘对提高搜索的准确率和召回率就十分重要。【
技术实现思路
】有鉴于此,本 专利技术提供了一种语义冗余的挖掘方法和装置,为语义冗余的识别以及进一步提高搜索准确率和召回率提供基础。具体技术方案如下:一种语义冗余的挖掘方法,该方法包括:S1、从搜索日志中获取Q-Q、Q_T和T-T中的至少一种资源作为候选句对,所述Q-Q为用户在一个会话session中搜索的两个query构成的句对,所述Q-T为query与对应的被点击网页标题title构成的句对,所述T-T为同一个query对应的两个被点击title构成的句对;S2、从各候选句对中抽取具有相同上下文语境的短语对作为候选复述短语对;S3、从候选复述短语对中抽取短语p2被另一个短语pi完全包含的候选复述短语对;S4、对所述步骤S3抽取出的候选复述短语对进行噪声过滤后,得到语义冗余短语对,所述语义冗余短语对中短语Pi比短语P2冗余的词语为语义冗余词。根据本专利技术一优选实施例,在所述步骤S2中按照如下短语抽取规则抽取短语对作为候选复述短语对:两个短语的前一个词相同且后一个词相同,但两个短语本身不相同。根据本专利技术一优选实施例,所述短语抽取规则还包括以下至少一种:两短语的长度在预设的长度范围内,两短语中不包含标点且不能完全由停用词构成,或者两短语之前和之后不能是标点。根据本专利技术一优选实施例,所述步骤S2中还包括:统计各候选复述短语对分别从Q-Q> Q-T和T-T抽取出来的次数,将总次数小于预设次数阈值的候选复述短语对过滤掉。根据本专利技术一优选实施例,步骤S4中所述噪声过滤包括以下至少一种:计算候选复述短语对的上下文的熵,将存在上下文的熵小于预设熵阈值的候选复述短语对过滤掉;统计候选复述短语对从Q-Q、Q_T和T-T抽取出来的总次数以及候选复述短语对从Q-T抽取出来的次数Ctrt (pi,p2),将总次数小于预设第一次数阈值Thl且CVt(pl,p2)小于第二次数阈值Th2的候选复述短语对过滤掉,其中Thl大于Th2 ;如果候选复述短语对中短语pi比p2冗余的词语存在于过滤词表LI中,则将该候选复述短语对过滤掉;如果候选复述短语对中短语p2存在于过滤词表L2中,则将该候选复述短语对过滤掉;确定同一短语p2所在的各候选复述短语对的词频分值,将词频分值排在前N个之外的候选复述短语对过滤掉,所述N为预设的正整数。根据本专利技术一优选实施例,所述计算候选复述短语对的上下文的熵具体包括:[0021 ]按照公本文档来自技高网...

【技术保护点】
一种语义冗余的挖掘方法,其特征在于,该方法包括:S1、从搜索日志中获取Q?Q、Q?T和T?T中的至少一种资源作为候选句对,所述Q?Q为用户在一个会话session中搜索的两个query构成的句对,所述Q?T为query与对应的被点击网页标题title构成的句对,所述T?T为同一个query对应的两个被点击title构成的句对;S2、从各候选句对中抽取具有相同上下文语境的短语对作为候选复述短语对;S3、从候选复述短语对中抽取短语p2被另一个短语p1完全包含的候选复述短语对;S4、对所述步骤S3抽取出的候选复述短语对进行噪声过滤后,得到语义冗余短语对,所述语义冗余短语对中短语p1比短语p2冗余的词语为语义冗余词。

【技术特征摘要】
1.一种语义冗余的挖掘方法,其特征在于,该方法包括: 51、从搜索日志中获取Q-Q、Q-T和T-T中的至少一种资源作为候选句对,所述Q-Q为用户在一个会话session中搜索的两个query构成的句对,所述Q-T为query与对应的被点击网页标题title构成的句对,所述T-T为同一个query对应的两个被点击title构成的句对; 52、从各候选句对中抽取具有相同上下文语境的短语对作为候选复述短语对; 53、从候选复述短语对中抽取短语p2被另一个短语pi完全包含的候选复述短语对; 54、对所述步骤S3抽取出的候选复述短语对进行噪声过滤后,得到语义冗余短语对,所述语义冗余短语对中短语Pl比短语P2冗余的词语为语义冗余词。2.根据权利要求1所述的方法,其特征在于,在所述步骤S2中按照如下短语抽取规则抽取短语对作为候选复述短语对:两个短语的前一个词相同且后一个词相同,但两个短语本身不相同。3.根据权利要求2所述的方法,其特征在于,所述短语抽取规则还包括以下至少一种:两短语的长度在预设的长度范围内,两短语中不包含标点且不完全由停用词构成,或者两短语之前和之后不是标点。4.根据权利要求1所述的方法,其特征在于,所述步骤S2中还包括:统计各候选复述短语对分别从Q-Q、Q-T和T- T抽取出来的次数,将总次数小于预设次数阈值的候选复述短语对过滤掉。5.根据权利要求1所述的方法,其特征在于,步骤S4中所述噪声过滤包括以下至少一种: 计算候选复述短语对的上下文的熵,将存在上下文的熵小于预设熵阈值的候选复述短语对过滤掉; 统计候选复述短语对从Q-Q、Q_T和T-T抽取出来的总次数以及候选复述短语对从Q-T抽取出来的次数Ctrt (pi,p2),将总次数小于预设第一次数阈值Thl且Ctrt (pi,p2)小于第二次数阈值Th2的候选复述短语对过滤掉,其中所述Thl大于所述Th2 ; 如果候选复述短语对中短语Pl比P2冗余的词语存在于过滤词表LI中,则将该候选复述短语对过滤掉; 如果候选复述短语对中短语P2存在于过滤词表L2中,则将该候选复述短语对过滤掉; 确定同一短语P2所在的各候选复述短语对的词频分值,将词频分值排在前N个之外的候选复述短语对过滤掉,所述N为预设的正整数。6.根据权利要求5所述的方法,其特征在于,所述计算候选复述短语对的上下文的熵具体包括: 按照公式 7.根据权利要求5所述的方法,其特征在于,候选复述短语对<pl,p2>的词频分值score (plp2)采用如下公式计算: score (pi I ρ2) = λ q_qCq_q (pi, ρ2) + λ q_tCq_t (pi, ρ2) + λ t_tCt_t (pi, p2) 其中,C?(pl,p2)为<pl,p2>从Q-Q中被抽取出来的次数,Ctrt (pl,p2)为<pl,p2>从Q-T中被抽取出来的次数,Ct_t(pl,p2)为<pl,p2>从T-T中被抽取出来的次数,λ q_q> λ q_t和λ t_t为预设的权重系数。8.根据权利要求7所述的方法,其特征在于,所述λ大于和λΜ。9.一种语义冗余的挖掘装置,其特征在于,该装置包括: 候选句对获取单元,用于从搜索日志中获取Q-Q、Q-T和T-T中...

【专利技术属性】
技术研发人员:赵世奇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1