基于文本的数据检索方法技术

技术编号:12513135 阅读:69 留言:0更新日期:2015-12-16 10:48
本发明专利技术提供了一种基于文本的数据检索方法,该方法包括:利用实体知识库建立词语之间的语义关系,对文档内容进行语义标记,分析用户检索词的语义信息,并对该语义信息进行拓展;比较用户原始检索词及拓展后的检索结果集合的相似值。本发明专利技术提出了一种基于文本的数据检索方法,弥补传统数据检索的不足,从信息查全率和查准率方面改善数据检索的效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别涉及一种。
技术介绍
随着互联网技术的快速发展,当今社会已进入信息时代,尤其是当前金融领域大 数据背景下网络文本信息文档的数量越来越庞大。网络信息文本文档随之呈现出更加复杂 的特性,暴露出一些亟待解决的问题。然而,传统金融领域搜索引擎面对文本字符串匹配的 语法层面,缺乏针对信息表示及处理和理解的语义级分析,即信息是丰富的,而知识却是贫 乏的,所以依赖传统的数据检索方式已很难满足越来越高的金融类用户的需求。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于文本的数据检索方 法,包括: 利用实体知识库建立词语之间的语义关系,对文档内容进行语义标记,分析用户 检索词的语义信息,并对该语义信息进行拓展;比较用户原始检索词及拓展后的检索结果 集合的相似值。 优选地,所述对语义信息进行拓展,包括以下步骤: 首先将实体概念描述为F = (U,T,J,Y),其中U = Iu1, u2, · . ·,U|u|}表示使用词语 管理文本文档的用户,并且每个用户有唯一的ID号标识;T = It1, t2, ...,t|T|}表示集合中 用户使用过的词语,该词语为任意的字符串,J= U1, i2,...,i|;l}表示所有领域相关文本 文档,其内容取决于用户标记集合的类型,用户标记集合由用户、词语、文档三个要素组成, 即用(U,T,J)进行描述;YgU:XT:XJ表示三元关系,其中(u,t,i)元素描述用户使用词 语t标记收藏的文本文档i ;F(u, i) = {t e TI (u, t, i) e Y}描述用户使用一组词语定义一 个文本文档,其中ueu,i e J;用二元组构建主实体BO= (C,R),其中C= {Cl,c2,...,Cw} 表示概念集合,所述概念表示为c = (id, syn, phase, kind),id是概念的唯一标识,syn是 同义词集合,phase是描述概念的短语,kind是将概念所分类的词类;R = Ir1, r2, ...,r|R|} 表示概念集合之间的关系;定义一组同义词集合S,每个文本文档w e S用二元组表示为: (w, fq。)),其中,fq。(W)为文本文档w的出现频率; 对每个实体概念进行拓展,令e (c) = {x I sim(x, c) >ρ Π y I (y乒X)且 sim(y, c)〈sim(x, c)}为实体概念集合,其中sim()为两个实体概念的相似值函数,p为预设 相似值阈值;对实体概念进行语义拓展形成e (C1) = {Cn,C12, ...,C11, },其中集合中每个元 素或为空,或sim(Clk, C1) >p,且sim(Clk, C1Xsim(Clk, Cm);即基于关联相似值的计算来拓展 单个实体概念,选择相似值大于给定阈值p的实体概念,并且被选取的实体概念同其他用 户实体概念之间的相似值,比该被选取实体概念同当前单个实体概念之间的相似值小; 对用户实体概念集合的元素进行拓展,将每个概念元素拓展为一个拓展集合e,可 分别从每个e中进行实体概念的选取,构建实体概念检索集合,并描述为: fc= {f !, f2, . . . fn} 其中,匕在e (C1)中选取,匕在e (Cn)中选取;将所有实体概念检索集合描述为, FC(C) = ((F1U) IF1G ^C1), ...FnG e(Cn)} 每个实体概念集合f。与用户输入的未拓展的实体概念集合C的相似值由下式计 算: 其中,Θ为调节参数; 令η为用户输入的未拓展的实体概念集合C中的元素个数,因此将simSM(f。,C)描 述为: 其中,允许多个Θ存在于每个实体概念拓展集合中; 对于拓展关键字,将原关键字集的幂集作为所有拓展的关键字集合所组成的集 合,记为P (K),其中的元素本身也是集合,若P为幂集P (K)中的元素,则P与关键字集合K 之间的相似值计算方法为: 本专利技术相比现有技术,具有以下优点: 本专利技术提出了一种,弥补传统数据检索的不足,从信息 查全率和查准率方面改善数据检索的效率。【附图说明】 图1是根据本专利技术实施例的的流程图。【具体实施方式】 下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描 述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权 利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本专利技术。 本专利技术的一方面提供了一种。图1是根据本专利技术实施例 的流程图。本专利技术利用实体建立词语之间的语义关系,实现语义 检索,通过语义中丰富的描述能力和强大的逻辑推理能力准确描述信息文本文档,构建一 种能够实现语义级分析的检索方法。语义检索与传统基于关键字匹配的检索方式不同,因 为语义检索基于信息理解的语义级对信息文本文档及用户提交的检索请求进行分析,语义 检索方式对检索条件、信息组织以及检索结果均赋予了语义成分,可提高检索精度。 基于实体的语义数据检索,在于使文档进行语义描述,借助实体知识库完成对文 档对象的语义标记,进而分析出文档对象的语义理解,及其用户检索词的语义信息,同时可 实现实体检索词的语义拓展,最终完成理想检索结果的获取,具体检索过程为: 步骤1 :构建并描述实体概念。描述实体概念,构建实体知识库。 步骤2 :提取文档的特征并进行文本映射。借助实体概念描述及知识库构建和管 理,对获取的文档进行语义标记及文本映射,对文档语义含义进行分析。 步骤3 :制定实体概念拓展及检索语义拓展策略。在实体概念描述的基础上,对用 户检索请求的语义信息进行分析,并对用户检索词进行语义拓展,检索系统完成对生成的 备选检索词集的检索过程。 步骤4 :进行实体概念相似值计算。依赖实体概念结构图,执行实体概念语义距离 计算、实体概念结点深度计算及语义总体相似值计算,以此服务于检索结果排序过程。 步骤5 :对检索系统的检索结果进行排序。基于关联相似值计算规则,完成用户原 始检索词及检索系统返回检索结果的相似值比较,基于相似值对检索系统的检索结果进行 排序并反馈给用户。 其中,实体及其分类体系作为数据文本文档语义表征的核心,可对文档描述给予 指导。领域知识也作为检索拓展和检索结果排序的基本依据。因此,领域知识的构建和维 护,如推理规则的构建和维护,离不开领域知识管理。文档的语义可通过标记进行语义分 析,再借助文档特征提取技术,从实体词汇中获取实体概念,建立文档的语义特征域,完成 文档库文档的自动标记,并完成标记和索引文档的非语义特征,由此生成文档索引库和元 数据库。基于文档标记信息构建索引库,以此为依据,检索出能满足用户需求的文档信息。 实现检索拓展及结果排序,就是以实体生成的实体词库为依据,完成用户检索输入文字的 分词工作,将用户检索分成实体概念集合和非实体概念集合。然后,分别对这两个集合按 相似值拓展,得到两个检索候选集合,借助关联相似值排序算法获得排序后的检索集合,最 后,完成检索请求到索引库及检索库的提交环节,将检索结果按检索请求的相似值本文档来自技高网...

【技术保护点】
一种基于文本的数据检索方法,其特征在于,包括:利用实体知识库建立词语之间的语义关系,对文档内容进行语义标记,分析用户检索词的语义信息,并对该语义信息进行拓展;比较用户原始检索词及拓展后的检索结果集合的相似值。

【技术特征摘要】

【专利技术属性】
技术研发人员:李垚霖
申请(专利权)人:成都博睿德科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1