融合Wikipedia分类及显式语义特征的短文本检索方法技术

技术编号:21343477 阅读:59 留言:0更新日期:2019-06-13 22:27
本发明专利技术提出了一种融合Wikipedia分类及显式语义特征的短文本检索方法,针对当前短文本检索方法面临的局限性,根据Wikipedia中的语义信息选择和目标短文本最为相关的特征概念作为显式语义特征构建低维特征向量;通过分析这些特征概念在Wikipedia中对应的分类结构,计算特征向量中对应位置的不同分量之间的关联系数,将两个不同的特征向量转化到相同的语义空间中并计算语义关联度;根据语义关联度进行排序并返回结果,从而实现短文本的检索。通过对比实验表明,本发明专利技术提高了在大数据环境下短文本理解及检索的计算效率和计算准确度,具有更好的检索效果,为更加合理地选取特征信息,提供了后续研究思路。

A Short Text Retrieval Method Fusing Wikipedia Classification and Explicit Semantic Features

The invention proposes a short text retrieval method that integrates Wikipedia classification and explicit semantic features. In view of the limitations faced by current short text retrieval methods, low-dimensional feature vectors are constructed according to the most relevant feature concepts of the semantic information selection and target short text in Wikipedia, and the corresponding classification structures of these feature concepts in Wikipedia are analyzed. The correlation coefficients between different components of the corresponding positions in the feature vectors are calculated. The two different feature vectors are transformed into the same semantic space and the semantic correlation degree is calculated. The short text is retrieved by sorting and returning the results according to the semantic correlation degree. The comparative experiments show that the method improves the calculation efficiency and accuracy of short text comprehension and retrieval in large data environment, has better retrieval effect, and provides a follow-up research idea for selecting feature information more reasonably.

【技术实现步骤摘要】
融合Wikipedia分类及显式语义特征的短文本检索方法
本专利技术涉及文本检索的
,尤其涉及一种融合Wikipedia分类及显式语义特征的短文本检索方法。
技术介绍
随着互联网的快速发展,短信、微博和微信等已成为人们发布信息、进行社交活动的主要平台,同时也是政府、企业及时公开发布内部信息的重要通道。这些新型社交媒体的普及,使得网络信息空间出现了大量短文本数据,如即时聊天记录、新闻标题、新闻评论、产品评论等。目前,短文本理解已成为计算机和信息技术等领域的一个重要研究课题,其中短文本理解包括短文本检索、分类、聚类、关联度计算、观点挖掘等。与常见的普通长文本不同,短文本通常不遵循语法规则,并且由于长度较短,从而没有足够的信息量来进行统计处理,因此机器很难在有限的语境中进行准确的推断。鉴于短文本所具有的长度短、信息量少、特征稀疏、语法不规则等特点,导致目前已有的自然语言处理技术很难直接应用于短文本理解。此外,因为短文本提供的信息太少,因此自动化的短文本理解需要依赖外部语义知识源。以已有的研究主要使用的语义知识源包括WordNet、HowNet(知网)、领域本体(DomainOntologies)等,近几年随着Web2.0的发展,各种语义信息大量出现,如各种百科知识网站,同时也伴随出现了通过这些海量语义信息自动获取得到的新型语义知识源,如LinkedData链接数据和Yago本体等。显然,自动化的短文本理解及检索是一个充满挑战性的问题,并且具有很好的应用前景。自动化短文本理解及检索的核心思想是判断查询输入与短文本或者多篇短文本之间语义关联度的大小。然而不管是查询输入还是短文本,它们都是由词语或者概构成的。因而对查询输入与短文本或者多篇短文本之间语义关联度的计算,最终还需归结为对概念语义关联度的计算,当然还要考虑短文本的语法结构。因此,要计算用户关键词与短文本之间的语义关联度,需要构建基于概念的短文本表示模型。当前短文本自动化理解方法主要分为三种语义模型:隐性(implicit)语义模型、半显性(semi-explicit)语义模型和显性(explicit)语义模型。隐性语义模型将短文本映射为一个语义空间上的隐性向量,该向量的每个维度所代表的含义无法被人们直观的解释,只能用于机器处理。该模型中具有代表性的有较早的隐性语义分析(latentsemanticanalysis,LSA)、超模空间模拟语言模型(hyperspaceanaloguetolanguagemode,HAL)以及在此基础上发展起来的神经网络语言模型(neurallanguagemodel,NLM)和段向量模型(paragraphvector,PV)。半显性语义模型同样采取将短文本进行向量表示的方法,但与隐性语义模型不同,半显性语义模型中向量的每个维度是一个主题(topic),因此该模型也称为主题模型。这种主题通常是一组词或概念的集合。虽然可以通过该主题推测对应维度的大概含义,但这种推测出的语义仍然不是确定的。较早的主题模型是以LSA为基础的,称为PLSA(probabilisticLSA)。随后,Blei等人又提出了更为完善的隐式狄利克雷模型(latentdirichletallocatio,LDA),解决了PLSA缺乏假设主题先验分布的问题。与上述两种模型不同,显性语义模型更注重于将短文本转化为人和机器都可以理解的向量空间。在该模型下,短文本向量的每个维度都有明确的语义,通常是一个确定的“概念(concept)”。这样人们很容易对该向量进行理解并做进一步的调整和优化。该模型有两种常见的构建方法:显式语义分析方法(explicitsemanticanalysis,ESA)和概念化方法(conceptualization)。从采用的策略和方法上看,当前对短文本检索的研究主要分为三类:基于网页查询的方法、基于分类系统或主题的方法以及基于链接的方法。基于网页查询的方法将短文本作为查询输入提交给搜索引擎(如:Google),根据搜索返回页面的标题及片段,将这些内容添加到短文本当中,借助于相关的上下文对短文本进行扩充。基于分类系统或主题的方法利用显式的分类系统或者隐式的主题代替查询片段对短文本进行信息扩充。基于链接的方法通过社交网络中短文本的哈希标记获取外部链接信息,如:使用微博在社交网络发送的信息,构建短文本之间的连接图,从而进行短文本关联度的计算和检索。在上述针对短文本理解及检索的研究中,显式语义分析方法(ESA)无论是针对词项还是文本片段,返回的计算结果与人们的认知和判断都有较好的一致性。ESA方法主要基于文本特征和文本之间的链接关系来计算语义关联度。在构建语义向量空间时,ESA方法需要从语义数据源Wikipedia或Wiktionary中抽取背景知识并转化为一个大规模的词项-概念即对应文章的矩阵,从而构建倒排索引(invertedindex),其中,每一个Wikipedia概念被映射为特征向量中的一个特征分量。每个特征分量所对应的权值采用tf-idf方法计算,用来表示特征概念和词项之间的关联度。在此基础上,ESA方法使用余弦度量来计算语义关联度,因此,ESA模型示意图如图1所示。然而,随着Wikipedia数据规模的不断扩大,这种词项-概念形式的倒排索引会包含数以百万计的概念。以2018年最新版的Wikipedia来看,其中包含的概念数超过570万条,那么对于每一个给出的词项或文本片段而言,ESA方法为其生成的特征向量的维度自然也超过570万。对于这样高维的向量,如果无法全部加载到内存当中,那么ESA方法的计算效率将会大幅度的降低。更为重要的是,由于一个特定词项往往仅在少数Wikipedia包含的文章中出现,这将导致在该词项所对应的特征向量中,大部分维度的赋值为0,这些0值分量的计算既占用大量时空资源,又没有任何意义。显然,在这种高维稀疏矩阵上,应用ESA方法计算语义关联度并对短文本进行理解和检索,其效率会受到很大的影响。
技术实现思路
针对传统信息检索技术对短文本检索的准确度不高和效率低的技术问题,本专利技术提出一种融合Wikipedia分类及显式语义特征的短文本检索方法,以Wikipedia类别图(WikipediaCategoryGraph,WCG)为研究对象,根据特征概念在WCG分类结构中对应的类别,对海量短文本进行自动化理解和检索,提高了在大数据环境下短文本理解及检索的计算效率和计算准确度。为了达到上述目的,本专利技术的技术方案是这样实现的:一种融合Wikipedia分类及显式语义特征的短文本检索方法,其步骤如下:步骤一:用户输入查询信息q,对短文本数据集、查询信息q及Wikipedia知识源进行预处理;步骤二:对用户的查询信息q进行显示语义特征筛选;步骤三:对短文本数据集中的目标短文本d进行显式语义特征筛选;步骤四:根据Wikipedia数据源中的分类结构对目标短文本d和查询信息q对应的显式语义特征列表进行类图构建;步骤五:计算目标短文本d和查询信息q所对应的显式语义特征列表对应维度上语义特征的语义关联系数;并在低维显式语义空间下,计算目标短文本d和查询信息q的语义关联度;步骤六:对短文本数据集中的所有短文本重复执行步骤三-步骤五本文档来自技高网
...

【技术保护点】
1.一种融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,其步骤如下:步骤一:用户输入查询信息q,对短文本数据集、查询信息q及Wikipedia知识源进行预处理;步骤二:对用户的查询信息q进行显示语义特征筛选;步骤三:对短文本数据集中的目标短文本d进行显式语义特征筛选;步骤四:根据Wikipedia数据源中的分类结构对目标短文本d和查询信息q对应的显式语义特征列表进行类图构建;步骤五:计算目标短文本d和查询信息q所对应的显式语义特征列表对应维度上语义特征的语义关联系数;并在低维显式语义空间下,计算目标短文本d和查询信息q的语义关联度;步骤六:对短文本数据集中的所有短文本重复执行步骤三‑步骤五,直到循环计算完短文本数据集中的所有短文本;步骤七:根据短文本数据集中各短文本与查询信息q的语义关联度对短文本数据集中的所有短文本进行排序,将排序后的短文本列表中的相关短文本返回给用户。

【技术特征摘要】
1.一种融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,其步骤如下:步骤一:用户输入查询信息q,对短文本数据集、查询信息q及Wikipedia知识源进行预处理;步骤二:对用户的查询信息q进行显示语义特征筛选;步骤三:对短文本数据集中的目标短文本d进行显式语义特征筛选;步骤四:根据Wikipedia数据源中的分类结构对目标短文本d和查询信息q对应的显式语义特征列表进行类图构建;步骤五:计算目标短文本d和查询信息q所对应的显式语义特征列表对应维度上语义特征的语义关联系数;并在低维显式语义空间下,计算目标短文本d和查询信息q的语义关联度;步骤六:对短文本数据集中的所有短文本重复执行步骤三-步骤五,直到循环计算完短文本数据集中的所有短文本;步骤七:根据短文本数据集中各短文本与查询信息q的语义关联度对短文本数据集中的所有短文本进行排序,将排序后的短文本列表中的相关短文本返回给用户。2.根据权利要求1所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤一中的预处理的方法为:步骤1.1:采用JWPL算法对Wikipedia知识源中的语义数据进行预处理,在Wikipedia知识源中抽取特征概念以及对应的文章信息;步骤1.2:对短文本数据集中的短文本、查询信息q及Wikipedia知识源中的文章进行分词及去停用词操作;步骤1.3:采用了相关词干提取及词性还原算法对经过分词及去停用词后的文本信息进行词项归一化处理;步骤1.4:设定了一个值域把出现在不同文本中次数小于20及大于文章总数10%的词项全部去除。3.根据权利要求2所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤1.2中分词的方法是通过空格符的识别进行自动分词;构建一个停用词列表,在构建词项-概念矩阵时,对短文本、用户输入的查询信息及Wikipedia知识源中文章的停用词进行过滤。4.根据权利要求1所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤二或步骤三中对查询信息q或目标短文本d进行显示语义特征筛选的方法为:所述步骤一对查询信息q或目标短文本d进行预处理,将查询信息q或目标短文本d转化为了一个词干集合,通过计算查询信息q或目标短文本d中词项与Wikipedia特征概念对应页面中的文章信息之间的tf-idf权值,获取查询信息q或目标短文本d与Wikipedia特征概念间的语义关联度,并采用排序策略对这些特征概念进行排序;设定阈值k,筛选出前k个最相关的Wikipedia特征概念作为查询信息q或目标短文本d所对应的显式语义特征向量,从而获查询信息q或目标短文本d的显式特征列表EFL(q)Top-k或EFL(d)Top-k,其中,tf-idf权值的计算公式如下:其中,tf(si,a)是词干si在文章a中出现的次数;df(si)是所有包含词干si的文章个数,N为Wikipedia知识源中的文章个数,i=1,2,3,4,5…k。5.根据权利要求1或4所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤二或步骤三中的查询信息q或目标短文本d满足:给定一个查询信息q或目标短文本d,称L=<A1,...,Ak>为查询信息q或目标短文本d对应的显式特征列表EFL(q)Top-k或EFL(d)Top-k;其中,显式特征列表EFL(q)Top-k或EFL(d)Top-k中的每一个元素Ai都是一个二元组,即Ai=<ci,wi>,ci为Wikipedia知识源中的概念,wi为Wikipedia特征概念ci对应的tf-idf权值,参数k=1,2,3,4,5…;对于显式特征列表EFLTop-k中的任意两个元素Ai=<ci,wi>和Aj=<cj,wj>满足如下条件:①若i≠j,则有ci≠cj;②若i<j,则有wi≥wj。6.根据权利要求5所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤四中类图构建的方法为:步骤4.1:将获得的目标短文本d及查询信息q所对应的显式特征列表分别划分成了子集ISTop-k和子集DL(l)Top-k,l∈{d,q};步骤4.2:在Wikipedia类别图中抽取子集DL(d)Top-k和子集DL(q)Top-k中各Wikipedia特征概念的类别信息。7.根据权利要求6所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述子集ISTop-k为目标短文本d和查询信息q对应的显式特征列表的交集,子集ISTop-k中的每一个元素都是目标短文本d的显式特征列表EFL(d)Top-k和查询信息q的显式特征列表EFL(q)Top-k中同时出现的Wikipedia特征概念,且ISTop-...

【专利技术属性】
技术研发人员:李璞张志锋郑倩邓璐娟马军霞梁辉张世征张王卫李玉华
申请(专利权)人:郑州轻工业学院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1