基于文本的数据检索方法技术

技术编号：12513135 阅读：69 留言：0更新日期：2015-12-16 10:48

本发明专利技术提供了一种基于文本的数据检索方法，该方法包括：利用实体知识库建立词语之间的语义关系，对文档内容进行语义标记，分析用户检索词的语义信息，并对该语义信息进行拓展；比较用户原始检索词及拓展后的检索结果集合的相似值。本发明专利技术提出了一种基于文本的数据检索方法，弥补传统数据检索的不足，从信息查全率和查准率方面改善数据检索的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别涉及一种。
技术介绍
随着互联网技术的快速发展，当今社会已进入信息时代，尤其是当前金融领域大数据背景下网络文本信息文档的数量越来越庞大。网络信息文本文档随之呈现出更加复杂的特性，暴露出一些亟待解决的问题。然而，传统金融领域搜索引擎面对文本字符串匹配的语法层面，缺乏针对信息表示及处理和理解的语义级分析，即信息是丰富的，而知识却是贫乏的，所以依赖传统的数据检索方式已很难满足越来越高的金融类用户的需求。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种基于文本的数据检索方法，包括：利用实体知识库建立词语之间的语义关系，对文档内容进行语义标记，分析用户检索词的语义信息，并对该语义信息进行拓展；比较用户原始检索词及拓展后的检索结果集合的相似值。优选地，所述对语义信息进行拓展，包括以下步骤：首先将实体概念描述为F = (U，T，J，Y)，其中U = Iu1, u2, · . ·，U|u|}表示使用词语管理文本文档的用户，并且每个用户有唯一的ID号标识；T = It1, t2, ...，t|T|}表示集合中用户使用过的词语，该词语为任意的字符串，J= U1, i2，...，i|;l}表示所有领域相关文本文档，其内容取决于用户标记集合的类型，用户标记集合由用户、词语、文档三个要素组成，即用（U，T，J)进行描述；YgU:XT:XJ表示三元关系，其中（u，t，i)元素描述用户使用词语t标记收藏的文本文档i ;F(u, i) = {t e TI (u, t, i) e Y}描述用户...

【技术保护点】
一种基于文本的数据检索方法，其特征在于，包括：利用实体知识库建立词语之间的语义关系，对文档内容进行语义标记，分析用户检索词的语义信息，并对该语义信息进行拓展；比较用户原始检索词及拓展后的检索结果集合的相似值。

【技术特征摘要】

【专利技术属性】
技术研发人员：李垚霖，
申请(专利权)人：成都博睿德科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人