一种基于问答平台的关键词评价方法和装置制造方法及图纸

技术编号:4126961 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于问答平台的关键词评价方法和装置,该方法包括以下步骤:使用特征选择算法获取关键词在问答平台的问答对中的特征信息;根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。本发明专利技术通过使用特征选择算法和权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的差别,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种基于问答平台的关键词评价方法和装置
技术介绍
随着第二代互联网的逐渐成熟,用于互动交流的问答平台,越来越受到用户的欢迎。问答平台给用户提供了一个交流平台,用户可以通过问答平台接受专家和其他网民的帮助,同时也会尽力给其他网民提供有效的帮助,可广泛应用于行业知识库建设、垂直领域专家系统、行业交流网站问答板块、医学领域的医患交流、教育领域的师生交流等。专业的问答平台小到一个企业的客服,大到一个行业的专家知识库都逐渐体现了互动问答平台的价值。 问答平台集成了自动切分词、智能搜索和自动分类等一整套的自然语言处理和信息检索技术。有些特殊的问答平台还提供了如增加敏感词过滤(将涉及色情、政治等敏感词自动过滤)和舆情监控等功能模块。 具体地,问答平台可分为以下四个部分(1)网页预处理部分,对所有网页进行正文提取,获取网页的标题文本以及其他网页指向该网页的链接文本信息;(2)索引部分,对全部文本信息分词和建立索引。(3)查询处理部分,实现对主题集的查询输入构造。(4)检索部分,实现对检索结果取出、排序和后处理。 在问答平台的应用过程中,需要对问答对中出现的关键词与各个类别之间的相关性进行评价,以便于用户更好地使用问答平台。现有技术中,一般使用TFIDF(Term Frequency Inverse Document Frequency,词频逆文档频率)方法或者按照词性重要度向关键词分配权值,关键词的具有区别度的权值越大,则关键词的类别相关性越高。 其中,TFIDF是一种自然语言处理中最基本的关键词权值计算方法,用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TFIDF的主要思想为,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级,TFIDF通常应用以下公式 其中,TF(t)为关键词在文本或者语料中出现的频率,该值越高,说明重要度越高;DF(t)为包含关键词的文档的频率,其值比较高,说明重要度越低;N为语料中的文档总数。 按照词性重要度分配权值的方法具体为,在自然语言处理中,一般认为名词、形容词和动词为比较重要的词性,并向具有上述词性的关键词分配较高的权值,而向具有其他词性的关键词分配较低的权值。 专利技术人在实现本专利技术的过程中,发现现有技术至少存在以下缺陷 现有技术中,当使用TFIDF向关键词分配权值时,由于问答平台的问答对内的文字长度较短而大部分的关键词在问答对间的出现频率高,即问答对的文字长度明显短于网页,新闻等语料中的文字长度,而且除去停用词之后,大部分的关键词在问答对中的出现频度差异较小,此外,由于问答平台中的问答对来自于真实世界,导致问答平台中的噪声比例较高。对于具有上述文本特征的问答平台而言,TF和DF的作用都不够突出,甚至经常出现TF等于或者略大于DF的情况,无法对问答平台中的关键词与各个类别之间的相关性进行准确评价。 按照词性重要度分配权值时,由于不同词性仅能够在一定的程度上区分关键词之间的重要性,而对于关键词数量庞大、噪声比例较高的问答平台而言,少数的几个比较重要的词性难以准确地区分关键词之间的重要性差异。
技术实现思路
本专利技术提供了一种基于问答平台的关键词评价方法和装置,用于降低问答平台的噪声对关键词的相关性的影响。 本专利技术提供了一种基于问答平台的关键词评价方法,包括以下步骤 使用特征选择算法获取关键词在问答平台的问答对中的特征信息; 根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。 优选地,所述特征选择算法包括卡方统计和信息熵。 优选地,所述权值计算公式为 其中,Wght(t)为所述关键词的具有区别度的权值,X2avg(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。 优选地,所述卡方统计的计算公式为 其中,X2为卡方值,Oij为观测频度,Eij为期望频度。 优选地,所述信息熵的计算公式为 Entropy(t)=-∑P(Ci|t)log(P(Ci|t)) 其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。 优选地,所述特征选择算法还包括平均互信息和信息增益。 本专利技术还提供了一种基于问答平台的关键词评价装置,包括 特征获取模块,用于使用特征选择算法获取关键词在问答平台的问答对中的特征信息; 权值获取模块,与所述特征获取模块连接,用于根据所述特征获取模块获取的关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。 优选地,所述特征选择算法包括卡方统计和信息熵, 所述特征获取模块,具体用于使用所述卡方统计和所述信息熵获取关键词在问答平台的问答对中的特征信息。 优选地,所述权值获取模块,具体用于通过以下权值计算公式获取所述关键词的具有区别度的权值 其中,Wght(t)为所述关键词的具有区别度的权值,Xavg2(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。 优选地,所述特征选择算法还包括平均互信息和信息增益, 所述特征获取模块,具体用于使用所述平均互信息和所述信息增益获取关键词在问答平台的问答对中的特征信息。 与现有技术相比,本专利技术具有以下优点本专利技术通过特征选择算法和权值计算公式获取关键词的具有区别度的权值,强化了关键词之间的差别,降低了问答平台中文字内容短和噪声大带来的对关键词评价的影响。 附图说明 为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对本专利技术或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 图1为本专利技术中的一种基于问答平台的关键词评价方法流程图; 图2为本专利技术中的基于问答平台的关键词评价的具体应用场景流程图; 图3为本专利技术中的一种基于问答平台的关键词评价装置结构示意图。 具体实施例方式 本专利技术提供的技术方案中,其核心思想为针对问答平台的文本长度短、噪声高的特点,提出了一种利用特征选择算法和权值计算公式评价问答平台中的关键词的类别相关性的方法,避免了现有技术中的TFIDF和词性评价方法的缺点。通过对真实世界的问答平台的实验,本专利技术的方法可以简单、有效而健壮地评价关键词的类别相关性。 下面将结合本专利技术中的附图,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 如图1所示,为本文档来自技高网
...

【技术保护点】
一种基于问答平台的关键词评价方法,其特征在于,包括以下步骤: 使用特征选择算法获取关键词在问答平台的问答对中的特征信息; 根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键 词进行评价。

【技术特征摘要】
1、一种基于问答平台的关键词评价方法,其特征在于,包括以下步骤使用特征选择算法获取关键词在问答平台的问答对中的特征信息;根据所述关键词的特征信息,通过权值计算公式获取所述关键词的具有区别度的权值,按照所述权值在类别间对所述关键词进行评价。2、如权利要求1所述的方法,其特征在于,所述特征选择算法包括卡方统计和信息熵。3、如权利要求2所述的方法,其特征在于,所述权值计算公式为其中,Wght(t)为所述关键词的具有区别度的权值,Xavg2(t)为所述关键词在类别中的卡方均值,IDF(t)为所述关键词的逆文档频率,Entropy(t)为所述关键词与类别的熵值。4、如权利要求2所述的方法,其特征在于,所述卡方统计的计算公式为其中,X2为卡方值,Oij为观测频度,Eij为期望频度。5、如权利要求2所述的方法,其特征在于,所述信息熵的计算公式为Entropy(t)=-∑P(Ci|t)log(P(Ci|t))其中,t为关键词,Ci为类别i,P(Ci|t)为t出现在Ci中的概率。6、如权利要求1所述的方法,其特征在于,所述特征选择算法还包括平均互信息和信息增益。7、一...

【专利技术属性】
技术研发人员:姜中博刘怀军方高林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1