【技术实现步骤摘要】
本专利技术涉及网络信息处理
,尤其涉及一种信息处理方法及装置。
技术介绍
近年来,随着搜索推广的普及以及同行业推广商户之间的激烈竞争,网站作为搜索推广的重要信息平台,起到了连接用户与产品的桥梁作用。而网站对业务关键词的覆盖程度直接影响推广效果。例如,对于推广驾驶培训业务来说,醒目地展示“场地规模”、“通过率”等业务关键词将有利于培训业务的推广。目前,业务关键词的获取方式通常是以人工来完成的。比如通过推广商户自身或业务专家依据对业务的理解,构思出该业务的业务关键词,或者,采用第三方建站人员的建议来确定所述业务关键词。然而,上述方式存在着明显的不足之处:一、主观性强,准确率不高。由于需要人工构思,往往受个人水平或情感的影响,与用户的实际需求吻合度不高。二、工作量大,效率低。对于能够提供几乎全行业推广服务的广告平台来说,推广业务达千种以上,每个推广业务大约有十多个业务关键词,若采用人工方式获取会带来巨大的工作量。此外,随着推广业务的更新,用户需求不断变化,业务关键词也应随之变化,但人工方式不能做到及时跟踪,时效性差。
技术实现思路
本专利技术实施例的目的在于,提供一种信息处理方法及装置,结合与业务相关的评论文本数据和网页内容数据,以实现从二者中自动、准确地选取业务关键词。为实现上述专利技术目的,本专利技术的实施例提供了一种信息处理方法,包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度 ...
【技术保护点】
一种信息处理方法,其特征在于,所述方法包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。
【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取与业务相关的评论文本数据和网页内容数据;对所述评论文本数据和所述网页内容数据进行分析,以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词;分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值;根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。2.根据权利要求1所述的方法,其特征在于,所述对所述评论文本数据进行分析,以获取多个第一候选业务关键词的处理包括:对所述评论文本数据中的语句进行依存句法分析,以分别取得所述语句的依存树,从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词。3.根据权利要求2所述的方法,其特征在于,所述对所述网页内容数据进行分析,以获取多个第二候选业务关键词的处理包括:分别从所述网页内容数据获取网页导航文本数据和/或栏目标题数据,从所述网页导航文本数据和/或栏目标题数据选取多个所述第二候选业务关键词。4.根据权利要求3所述的方法,其特征在于,所述分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值的处理包括:以所述第一候选业务关键词和所述第二候选业务关键词作为输入,从预先训练的词向量模型获取所述第一候选业务关键词和所述第二候选业务关键词的词向量的相似度值。5.根据权利要求4所述的方法,其特征在于,所述根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词的处理包括:对任一第一候选业务关键词和所述第二候选业务关键词,如果获取的第一候选业务关键词和所述第二候选业务关键词之间的相似度的值高于预定的相似度阈值,则将所述第二候选业务关键词选取为业务关键词。6.根据权利要求5所述的方法,其特征在于,所述从所述依存树中
\t的主语或主语结构选取多个所述第一候选业务关键词的处理包括:分别计算所述主语或主语结构在所述评论文本数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述主语或主语结构作为所述第一候选业务关键词。7.根据权利要求6所述的方法,其特征在于,所述对所述评论文本数据进行分析,以获取多个第一候选业务关键词的处理还包括:从取得的依存树当中去除不具有完整句法结构的依存树,所述从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词的处理包括:去除具有词性为代词或具有方位介词的主语或主语结构的依存树。8.根据权利要求3所述的方法,其特征在于,所述从所述网页导航文本数据和/或栏目标题数据选取多个第二候选业务关键词的处理包括:分别计算所述网页导航文本数据和/或栏目标题数据在所述网页内容数据中的出现频度和/或逆文档频率(IDF)值,根据计算出的出现频度和/或逆文档频率(...
【专利技术属性】
技术研发人员:张霄,朱仕亮,杨琳琳,张耿,柴琛林,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。