The invention proposes a short text retrieval method that integrates Wikipedia classification and explicit semantic features. In view of the limitations faced by current short text retrieval methods, low-dimensional feature vectors are constructed according to the most relevant feature concepts of the semantic information selection and target short text in Wikipedia, and the corresponding classification structures of these feature concepts in Wikipedia are analyzed. The correlation coefficients between different components of the corresponding positions in the feature vectors are calculated. The two different feature vectors are transformed into the same semantic space and the semantic correlation degree is calculated. The short text is retrieved by sorting and returning the results according to the semantic correlation degree. The comparative experiments show that the method improves the calculation efficiency and accuracy of short text comprehension and retrieval in large data environment, has better retrieval effect, and provides a follow-up research idea for selecting feature information more reasonably.
【技术实现步骤摘要】
融合Wikipedia分类及显式语义特征的短文本检索方法
本专利技术涉及文本检索的
,尤其涉及一种融合Wikipedia分类及显式语义特征的短文本检索方法。
技术介绍
随着互联网的快速发展,短信、微博和微信等已成为人们发布信息、进行社交活动的主要平台,同时也是政府、企业及时公开发布内部信息的重要通道。这些新型社交媒体的普及,使得网络信息空间出现了大量短文本数据,如即时聊天记录、新闻标题、新闻评论、产品评论等。目前,短文本理解已成为计算机和信息技术等领域的一个重要研究课题,其中短文本理解包括短文本检索、分类、聚类、关联度计算、观点挖掘等。与常见的普通长文本不同,短文本通常不遵循语法规则,并且由于长度较短,从而没有足够的信息量来进行统计处理,因此机器很难在有限的语境中进行准确的推断。鉴于短文本所具有的长度短、信息量少、特征稀疏、语法不规则等特点,导致目前已有的自然语言处理技术很难直接应用于短文本理解。此外,因为短文本提供的信息太少,因此自动化的短文本理解需要依赖外部语义知识源。以已有的研究主要使用的语义知识源包括WordNet、HowNet(知网)、领域本体(DomainOntologies)等,近几年随着Web2.0的发展,各种语义信息大量出现,如各种百科知识网站,同时也伴随出现了通过这些海量语义信息自动获取得到的新型语义知识源,如LinkedData链接数据和Yago本体等。显然,自动化的短文本理解及检索是一个充满挑战性的问题,并且具有很好的应用前景。自动化短文本理解及检索的核心思想是判断查询输入与短文本或者多篇短文本之间语义关联度的大小。然而不管是 ...
【技术保护点】
1.一种融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,其步骤如下:步骤一:用户输入查询信息q,对短文本数据集、查询信息q及Wikipedia知识源进行预处理;步骤二:对用户的查询信息q进行显示语义特征筛选;步骤三:对短文本数据集中的目标短文本d进行显式语义特征筛选;步骤四:根据Wikipedia数据源中的分类结构对目标短文本d和查询信息q对应的显式语义特征列表进行类图构建;步骤五:计算目标短文本d和查询信息q所对应的显式语义特征列表对应维度上语义特征的语义关联系数;并在低维显式语义空间下,计算目标短文本d和查询信息q的语义关联度;步骤六:对短文本数据集中的所有短文本重复执行步骤三‑步骤五,直到循环计算完短文本数据集中的所有短文本;步骤七:根据短文本数据集中各短文本与查询信息q的语义关联度对短文本数据集中的所有短文本进行排序,将排序后的短文本列表中的相关短文本返回给用户。
【技术特征摘要】
1.一种融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,其步骤如下:步骤一:用户输入查询信息q,对短文本数据集、查询信息q及Wikipedia知识源进行预处理;步骤二:对用户的查询信息q进行显示语义特征筛选;步骤三:对短文本数据集中的目标短文本d进行显式语义特征筛选;步骤四:根据Wikipedia数据源中的分类结构对目标短文本d和查询信息q对应的显式语义特征列表进行类图构建;步骤五:计算目标短文本d和查询信息q所对应的显式语义特征列表对应维度上语义特征的语义关联系数;并在低维显式语义空间下,计算目标短文本d和查询信息q的语义关联度;步骤六:对短文本数据集中的所有短文本重复执行步骤三-步骤五,直到循环计算完短文本数据集中的所有短文本;步骤七:根据短文本数据集中各短文本与查询信息q的语义关联度对短文本数据集中的所有短文本进行排序,将排序后的短文本列表中的相关短文本返回给用户。2.根据权利要求1所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤一中的预处理的方法为:步骤1.1:采用JWPL算法对Wikipedia知识源中的语义数据进行预处理,在Wikipedia知识源中抽取特征概念以及对应的文章信息;步骤1.2:对短文本数据集中的短文本、查询信息q及Wikipedia知识源中的文章进行分词及去停用词操作;步骤1.3:采用了相关词干提取及词性还原算法对经过分词及去停用词后的文本信息进行词项归一化处理;步骤1.4:设定了一个值域把出现在不同文本中次数小于20及大于文章总数10%的词项全部去除。3.根据权利要求2所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤1.2中分词的方法是通过空格符的识别进行自动分词;构建一个停用词列表,在构建词项-概念矩阵时,对短文本、用户输入的查询信息及Wikipedia知识源中文章的停用词进行过滤。4.根据权利要求1所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤二或步骤三中对查询信息q或目标短文本d进行显示语义特征筛选的方法为:所述步骤一对查询信息q或目标短文本d进行预处理,将查询信息q或目标短文本d转化为了一个词干集合,通过计算查询信息q或目标短文本d中词项与Wikipedia特征概念对应页面中的文章信息之间的tf-idf权值,获取查询信息q或目标短文本d与Wikipedia特征概念间的语义关联度,并采用排序策略对这些特征概念进行排序;设定阈值k,筛选出前k个最相关的Wikipedia特征概念作为查询信息q或目标短文本d所对应的显式语义特征向量,从而获查询信息q或目标短文本d的显式特征列表EFL(q)Top-k或EFL(d)Top-k,其中,tf-idf权值的计算公式如下:其中,tf(si,a)是词干si在文章a中出现的次数;df(si)是所有包含词干si的文章个数,N为Wikipedia知识源中的文章个数,i=1,2,3,4,5…k。5.根据权利要求1或4所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤二或步骤三中的查询信息q或目标短文本d满足:给定一个查询信息q或目标短文本d,称L=<A1,...,Ak>为查询信息q或目标短文本d对应的显式特征列表EFL(q)Top-k或EFL(d)Top-k;其中,显式特征列表EFL(q)Top-k或EFL(d)Top-k中的每一个元素Ai都是一个二元组,即Ai=<ci,wi>,ci为Wikipedia知识源中的概念,wi为Wikipedia特征概念ci对应的tf-idf权值,参数k=1,2,3,4,5…;对于显式特征列表EFLTop-k中的任意两个元素Ai=<ci,wi>和Aj=<cj,wj>满足如下条件:①若i≠j,则有ci≠cj;②若i<j,则有wi≥wj。6.根据权利要求5所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述步骤四中类图构建的方法为:步骤4.1:将获得的目标短文本d及查询信息q所对应的显式特征列表分别划分成了子集ISTop-k和子集DL(l)Top-k,l∈{d,q};步骤4.2:在Wikipedia类别图中抽取子集DL(d)Top-k和子集DL(q)Top-k中各Wikipedia特征概念的类别信息。7.根据权利要求6所述的融合Wikipedia分类及显式语义特征的短文本检索方法,其特征在于,所述子集ISTop-k为目标短文本d和查询信息q对应的显式特征列表的交集,子集ISTop-k中的每一个元素都是目标短文本d的显式特征列表EFL(d)Top-k和查询信息q的显式特征列表EFL(q)Top-k中同时出现的Wikipedia特征概念,且ISTop-...
【专利技术属性】
技术研发人员:李璞,张志锋,郑倩,邓璐娟,马军霞,梁辉,张世征,张王卫,李玉华,
申请(专利权)人:郑州轻工业学院,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。