信息处理方法及装置制造方法及图纸

技术编号:14777905 阅读:47 留言:0更新日期:2017-03-09 13:56
本发明专利技术实施例提供了一种信息处理方法及装置。所述信息处理方法包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。本发明专利技术实施例的信息处理方法及装置,能够自动、准确地从与业务相关的评论文本数据和网页内容数据中提取业务关键词,从而提高了提取业务关键词的效率。

【技术实现步骤摘要】

本专利技术涉及网络信息处理
,尤其涉及一种信息处理方法及装置
技术介绍
近年来,随着搜索推广的普及以及同行业推广商户之间的激烈竞争,网站作为搜索推广的重要信息平台,起到了连接用户与产品的桥梁作用。而网站对业务关键词的覆盖程度直接影响推广效果。例如,对于推广驾驶培训业务来说,醒目地展示“场地规模”、“通过率”等业务关键词将有利于培训业务的推广。目前,业务关键词的获取方式通常是以人工来完成的。比如通过推广商户自身或业务专家依据对业务的理解,构思出该业务的业务关键词,或者,采用第三方建站人员的建议来确定所述业务关键词。然而,上述方式存在着明显的不足之处:一、主观性强,准确率不高。由于需要人工构思,往往受个人水平或情感的影响,与用户的实际需求吻合度不高。二、工作量大,效率低。对于能够提供几乎全行业推广服务的广告平台来说,推广业务达千种以上,每个推广业务大约有十多个业务关键词,若采用人工方式获取会带来巨大的工作量。此外,随着推广业务的更新,用户需求不断变化,业务关键词也应随之变化,但人工方式不能做到及时跟踪,时效性差。
技术实现思路
本专利技术实施例的目的在于,提供一种信息处理方法及装置,结合与业务相关的评论文本数据和网页内容数据,以实现从二者中自动、准确地选取业务关键词。为实现上述专利技术目的,本专利技术的实施例提供了一种信息处理方法,包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。优选地,所述对所述评论文本数据进行分析,以获取多个第一候选业务关键词的处理包括:对所述评论文本数据中的语句进行依存句法分析,以分别取得所述语句的依存树,从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词。优选地,所述对所述网页内容数据进行分析,以获取多个第二候选业务关键词的处理包括:分别从所述网页内容数据获取网页导航文本数据和/或栏目标题数据,从所述网页导航文本数据和/或栏目标题数据选取多个所述第二候选业务关键词。优选地,所述分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值的处理包括:以所述第一候选业务关键词和所述第二候选业务关键词作为输入,从预先训练的词向量模型获取所述第一候选业务关键词和所述第二候选业务关键词的词向量的相似度值。优选地,所述根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词的处理包括:对任一第一候选业务关键词和所述第二候选业务关键词,如果获取的第一候选业务关键词和所述第二候选业务关键词之间的相似度的值高于预定的相似度阈值,则将所述第二候选业务关键词选取为业务关键词。优选地,所述从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词的处理包括:分别计算所述主语或主语结构在所述评论文本数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述主语或主语结构作为所述第一候选业务关键词。优选地,所述对所述评论文本数据进行分析,以获取多个第一候选业务关键词的处理还包括:从取得的依存树当中去除不具有完整句法结构的依存树,所述从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词的处理包括:去除具有词性为代词或具有方位介词的主语或主语结构的依存树。优选地,所述从所述网页导航文本数据和/或栏目标题数据选取多个第二候选业务关键词的处理包括:分别计算所述网页导航文本数据和/或栏目标题数据在所述网页内容数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述网页导航文本数据和/或栏目标题数据作为所述第二候选业务关键词。本专利技术的实施例还提供了一种信息处理装置,包括:数据获取模块,用于获取与业务相关的评论文本数据和网页内容数据;候选业务关键词获取模块,用于对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;相似度值获取模块,用于分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;业务关键词选取模块,用于根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。优选地,所述候选业务关键词获取模块包括:依存树获取单元,用于对所述评论文本数据中的语句进行依存句法分析,以分别取得所述语句的依存树,第一候选业务关键词选取单元,用于从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词。优选地,所述候选业务关键词获取模块包括:数据获取单元,用于分别从所述网页内容数据获取网页导航文本数据和/或栏目标题数据,第二候选业务关键词选取单元,用于从所述网页导航文本数据和/或栏目标题数据选取多个所述第二候选业务关键词。优选地,所述相似度值获取模块用于以所述第一候选业务关键词和所述第二候选业务关键词作为输入,从预先训练的词向量模型获取所述第一候选业务关键词和所述第二候选业务关键词的词向量的相似度值。优选地,所述业务关键词选取模块用于对任一第一候选业务关键词和所述第二候选业务关键词,如果获取的第一候选业务关键词和所述第二候选业务关键词之间的相似度的值高于预定的相似度阈值,则将所述第二候选业务关键词选取为业务关键词。优选地,所述第一候选业务关键词选取单元用于分别计算所述主语或主语结构在所述评论文本数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述主语或主语结构作为所述第一候选业务关键词。优选地,所述候选业务关键词获取模块还用于从取得的依存树当中去除不具有完整句法结构的依存树,第一候选业务关键词选取单元用于去除具有词性为代词或具有方位介词的主语或主语结构的依存树。优选地,所述第二候选业务关键词选取单元用于分别计算所述网页导航文本数据和/或栏目标题数据在所述网页内容数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述网页导航文本数据和/或栏目标题数据作为所述第二候选业务关键词。本专利技术实施例提供的信息处理方法及装置,对获取到的与业务相关的评论文本数据和网页内容数据进行分析,得到多个第一候选业务关键词和多个第二候选业务关键词,再分别获取第一候选业务关键词与第二候选业务关键词之间的相似度的值,从而基于获取到的相似度的值从第一候选业务关键词或第二候选业务关键词中,最终选取关注度高的业务关键词,极大地提高了选取业务关键词的准确性和效率。附图说明图1是示出反映本专利技术的总体专利技术构思的示例性示意图;图2是示出本专利技术实施例的应用场景的示例性示意图;图3是示出本专利技术实施例一的信息处理方法的流程图;图4是示出本专利技术实施例二的信息处理装置的逻辑框图。具体实施方式本专利技术的基本构思是,提供一种与业务相关的业务关键词的选取方式:本文档来自技高网...
信息处理方法及装置

【技术保护点】
一种信息处理方法,其特征在于,所述方法包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。2.根据权利要求1所述的方法,其特征在于,所述对所述评论文本数据进行分析,以获取多个第一候选业务关键词的处理包括:对所述评论文本数据中的语句进行依存句法分析,以分别取得所述语句的依存树,从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词。3.根据权利要求2所述的方法,其特征在于,所述对所述网页内容数据进行分析,以获取多个第二候选业务关键词的处理包括:分别从所述网页内容数据获取网页导航文本数据和/或栏目标题数据,从所述网页导航文本数据和/或栏目标题数据选取多个所述第二候选业务关键词。4.根据权利要求3所述的方法,其特征在于,所述分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值的处理包括:以所述第一候选业务关键词和所述第二候选业务关键词作为输入,从预先训练的词向量模型获取所述第一候选业务关键词和所述第二候选业务关键词的词向量的相似度值。5.根据权利要求4所述的方法,其特征在于,所述根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词的处理包括:对任一第一候选业务关键词和所述第二候选业务关键词,如果获取的第一候选业务关键词和所述第二候选业务关键词之间的相似度的值高于预定的相似度阈值,则将所述第二候选业务关键词选取为业务关键词。6.根据权利要求5所述的方法,其特征在于,所述从所述依存树中
\t的主语或主语结构选取多个所述第一候选业务关键词的处理包括:分别计算所述主语或主语结构在所述评论文本数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述主语或主语结构作为所述第一候选业务关键词。7.根据权利要求6所述的方法,其特征在于,所述对所述评论文本数据进行分析,以获取多个第一候选业务关键词的处理还包括:从取得的依存树当中去除不具有完整句法结构的依存树,所述从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词的处理包括:去除具有词性为代词或具有方位介词的主语或主语结构的依存树。8.根据权利要求3所述的方法,其特征在于,所述从所述网页导航文本数据和/或栏目标题数据选取多个第二候选业务关键词的处理包括:分别计算所述网页导航文本数据和/或栏目标题数据在所述网页内容数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(...

【专利技术属性】
技术研发人员:张霄朱仕亮杨琳琳张耿柴琛林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1