一种文本相关性确定方法及装置制造方法及图纸

技术编号:14903831 阅读:48 留言:0更新日期:2017-03-29 19:03
本发明专利技术实施例公开了一种文本相关性确定方法及装置,预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,所述方法包括:提取待处理目标文本的特征词;根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。应用本发明专利技术实施例,提高了目标文本与目标领域相关性判定的准确率。

【技术实现步骤摘要】

本专利技术涉及互联网应用
,特别涉及一种文本相关性确定方法及装置。
技术介绍
随着Web技术的不断发展,基于大数据的机器学习已经被应用在医疗、教育、交通、娱乐等众多领域。而文本是最常见的数据类型,通常来自网络中的电子邮件、短信、微博、论坛的帖子等。目标文本与目标领域的相关性判定,是常见的文本数据处理方式。用来标识文本内容的基本单位是特征或特征项,而对本文的处理的过程通常需要对文本进行分词,所以,用来表示文本的特征或者特征项的词即为文本特征词。一个文本可以包含多个特征词,通常用待处理目标文本的特征词进行文本之间或者文本与目标领域之间相关性的判别。现有技术中,采用提取目标领域的相关样本的特征词,然后计算目标文本的特征词与文本样本的特征词之间的相关度,从而判定目标文本与目标领域的相关性。由于只计算与目标文本的特征词的相似度就直接判定与目标领域是否相关,会导致目标文本和目标领域相关性判定的准确率较低。
技术实现思路
本专利技术实施例的目的在于提供一种文本相关性确定方法及装置,以提高目标文本与目标领域相关性判定的准确率。为达到上述目的,本专利技术实施例公开了一种文本相关性确定方法,预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,所述方法包括:提取待处理目标文本的特征词;根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。优选的,提取针对目标领域的文本样本中的每一个文本的特征词,包括:针对所述文本样本中的每一个文本,利用用于数据挖掘的技术,提取该文本的特征词;所述提取待处理目标文本的特征词,包括:针对所述待处理目标文本,利用所述用于数据挖掘的技术,提取该文本的特征词。优选的,所述用于数据挖掘的技术,包括:TF-IDF技术,或者词嵌入技术。优选的,所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,包括:获取所述文本样本中每一文本的特征词的与所述目标领域的相关先验概率和与所述目标领域的不相关先验概率;根据所获取的相关先验概率和不相关先验概率,确定每一个特征词的相关期望频次和不相关期望频次;根据所确定的相关期望频次和不相关期望频次,计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。优选的,所述根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性,包括:根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,计算所述待处理目标文本对应的特征词的相关似然概率的概率积和不相关似然概率的概率积;判断所述相关似然概率的概率积是否大于所述不相关似然概率的概率积;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关。为达到上述目的,本专利技术实施例公开了一种文本相关性确定装置,所述装置包括:第一提取模块,用于预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率;第二提取模块,用于提取待处理目标文本的特征词;第一确定模块,用于根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;第二确定模块,用于根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。优选的,提取针对目标领域的文本样本中的每一个文本的特征词,包括:针对所述文本样本中的每一个文本,利用用于数据挖掘的技术,提取该文本的特征词;所述提取待处理目标文本的特征词,包括:针对所述待处理目标文本,利用所述用于数据挖掘的技术,提取该文本的特征词。优选的,所述用于数据挖掘的技术,包括:TF-IDF技术,或者词嵌入技术。优选的,所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,包括:获取所述文本样本中每一文本的特征词的与所述目标领域的相关先验概率和与所述目标领域的不相关先验概率;根据所获取的相关先验概率和不相关先验概率,确定该特征词的相关期望频次和不相关期望频次;根据所确定的相关期望频次和不相关期望频次,计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。优选的,所述第二确定模块,包括:计算子模块,用于根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,计算所述待处理目标文本对应的特征词的相关似然概率的概率积和不相关似然概率的概率积;判断子模块,用于判断所述相关似然概率的概率积是否大于所述不相关似然概率的概率积;确定子模块,用于在所述判断子模块判断结果为是的情况下,确定所述待处理目标文本与所述目标领域相关;在所述判断子模块判断结果为否的情况下,确定所述待处理目标文本与所述目标领域不相关。由上述的技术方案可见,本专利技术实施例提供的一种文本相关性确定方法及装置,预先提取针对目标领域的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,所述方法包括:提取待处理目标文本的特征词;根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。应用本专利技术实施例提供的技术方案,根据目标领域高相似度和低相似度的文本样本对应的特征词的相关似然概率和不相关似然概率,获得待处理目标文本提取的每一个特征词的相关似然概率和不相关似然概率,再根据目标文本的所有特征词对应的相关似然概率和不相关似然概率确定其与目标领域的相关性,相比现有技术中只通过计算待处理目标文本的特征词与文本样本的特征词的相关度来确定目标文本与目标领域是否相关,增加了特征词与文本样本对应的特征词的不相关性的比较,提高了特征词与目标领域的相关性和不相关性判定的全面性。因此,提高了目标文本与目标领域相关性判定的准确率。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种文本相关性确定方法的流程示意图;图2为本专利技术实施例提供的一种文本相关性确定装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完本文档来自技高网...

【技术保护点】
一种文本相关性确定方法,其特征在于,预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,所述方法包括:提取待处理目标文本的特征词;根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。

【技术特征摘要】
1.一种文本相关性确定方法,其特征在于,预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词,并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,所述方法包括:提取待处理目标文本的特征词;根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率,确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率;根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性。2.根据权利要求1所述的方法,其特征在于,提取针对目标领域的文本样本中的每一个文本的特征词,包括:针对所述文本样本中的每一个文本,利用用于数据挖掘的技术,提取该文本的特征词;所述提取待处理目标文本的特征词,包括:针对所述待处理目标文本,利用所述用于数据挖掘的技术,提取该文本的特征词。3.根据权利要求2所述的方法,其特征在于,所述用于数据挖掘的技术,包括:TF-IDF技术,或者词嵌入技术。4.根据权利要求1所述的方法,其特征在于,所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率,包括:获取所述文本样本中每一文本的特征词的与所述目标领域的相关先验概率和与所述目标领域的不相关先验概率;根据所获取的相关先验概率和不相关先验概率,确定每一个特征词的相关期望频次和不相关期望频次;根据所确定的相关期望频次和不相关期望频次,计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。5.根据权利要求1所述的方法,其特征在于,所述根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,确定所述待处理目标文本与所述目标领域的相关性,包括:根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率,计算所述待处理目标文本对应的特征词的相关似然概率的概率积和不相关似然概率的概率积;判断所述相关似然概率的概率积是否大于所述不相关似然概率的概率积;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关。6.一种文本相关性确定装置,其特征...

【专利技术属性】
技术研发人员:鲍昕平沈一蔡龙军
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1