当前位置: 首页 > 专利查询>同济大学专利>正文

一种文本大数据的查询处理方法技术

技术编号:10719021 阅读:149 留言:0更新日期:2014-12-03 20:14
本发明专利技术涉及一种文本大数据的查询处理方法,包括以下步骤:1)规范文本大数据语义,构造文本大数据查询分析过程中的查询对象语义范式模型以及精确描述语义,2)建立指令解析与查询工作流模型,构建查询指令语义模型,精炼语义,并且选择和重构查询工作流,3)查询过程控制和反馈结果,筛选查询方法模型,评估和计算查询置信度,并且返回置信度最高的工作流。与现有技术相比,本发明专利技术具有方便快速、准确可靠等优点。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及,包括以下步骤:1)规范文本大数据语义,构造文本大数据查询分析过程中的查询对象语义范式模型以及精确描述语义,2)建立指令解析与查询工作流模型,构建查询指令语义模型,精炼语义,并且选择和重构查询工作流,3)查询过程控制和反馈结果,筛选查询方法模型,评估和计算查询置信度,并且返回置信度最高的工作流。与现有技术相比,本专利技术具有方便快速、准确可靠等优点。【专利说明】
本专利技术计算机应用
,尤其是涉及。
技术介绍
近些年,文本大数据上的查询处理已成为学术界和工业界的一个研究热点和重点。 Ciacc1 AD等人指出传统的查询处理方法通常不适合管理和分析文本大数据,并提出3个改进方法TNL、⑶CA和SFMAE来有效查询分析文本大数据。Sysoev O等人基于steiner树理论,提出有效的近似最优算法来处理文本大数据上的多元单调回归问题。Laurila JK等人针对移动无线通讯网络中累积的文本大数据,设计了 LDCC算法来有效分析用户的各通讯指标。Oliner A等人对网络的日志大数据进行一致性编码来有效优化用户的访问性能。Bennett J等人基于map-reduce计算模型,设计了 UEQOT方法来提高文本大数据的查询处理效率。而P6bay P等人对文本大数据上的并行查询处理技术做了详细的综述。 在文本大数据的挖掘方面,大都研究工作通过扩展现有的方法来处理文本大数据。例如Zhou J等人、Chen L等人和JaBezdek JC等人分别对层次聚类、K-Mean聚类和Fuzzy C-Mean聚类进行了扩展。这类扩展算法基本上通过对文本大数据进行局部采样,并利用现有的算法(例如CLARA、CLARANS和BIRCH等)来完成数据挖掘过程,因此局部采样的机制在很大程度上影响全局数据挖掘的效果。另一方面,近些年,许多研究工作考虑分布式和并行实施文本大数据的数据挖掘。Chu C等人在多核处理器上基于简单的map-reduce编程模型实现了文本大数据的10类数据挖掘算法,包括局部加权线性回归、K-means聚类、逻辑回归、朴素贝叶斯、线性支持向量机、自变量分析、高斯判别式分析、期望最大化估计以及BP神经网络。Ranger C等人同样基于多核处理机系统,使用map-reduce编程模型实现了 3类数据挖掘算法,包括K-means聚类、主成分分析依据线性回归。Gillick D等人基于Hadoop平台对大数据的各类数据挖掘算法进行了性能测试,并得出了 map-reduce编程模型是目前最为适合的一种计算框架。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种便捷、准确的文本大数据的查询处理方法。 本专利技术的目的可以通过以下技术方案来实现: ,包括以下步骤: I)规范文本大数据语义,该步骤包括: 11)构造文本大数据查询分析过程中所涉及的查询对象语义范式模型,通过不同级别范式的语义描述规范刻画各对象的语义描述程度; 12);对不同的查询对象设计不同级别范式相互转化准则得到更为精确的语义描述; 2)建立指令解析与查询工作流模型,该步骤包括: 21)查询指令语义预解析,对查询指令初步解析,使其具备计算机可理解的基础形式; 22)构建查询指令语义模型; 23)指令语义精炼,使指令语义模型符合高级别的描述规范; 24)选择和重构查询工作流,通过底层数据库选取与对象模型相对应的模板实例; 25)查询工作流可靠性验证,利用大规模案例推理学习方法对所确定的结果进行验证; 3)查询过程控制和反馈结果,该步骤包括: 31)通过筛选查询方法模型,并且结合查询成功的历史查询方法模型选取符合工作流各环节需求的查询方法模型; 32)构造和组合各环节候选查询方法模型来实现指令进行正确查询的策略和规则; 33)评估查询置信度,建立“方法-指令”置信体系,通过查询历史,对每一个查询方法模型,评估它对不同类型指令的置信度; 34)构建查询工作链,根据查询工作流构建由使用过的查询方法模型构成的查询工作链; 35)计算查询工作链上的每一个工作流阶段的结果置信度; 36)全链全局置信度计算,并且进行全工作链的置信度全局排序评估,将置信度最高的结果反馈给用户。 所述的步骤I)中的语义范式模型包括文本内容语义范式模型CSNF、查询指令语义范式模型ISNF、查询方法语义范式模型MSNF和查询工作流语义范式模型FSNF。 所述的文本内容语义范式模型的转化准则包括1CSNF、2CSNF和3CSNF,分别判断可判定性、完备性和可计算性。 所述的指令语义范式模型的转换准则包括1ISNF、2ISNF和3ISNF,分别表达可查询性、非矛盾性和最优闭合性。 所述的查询方法语义范式模型的转换准则包括1MSNF、2MSNF和3MSNF,分别对应其可用性、适配性和可验证性。 所述的查询工作流语义范式模型的转换准则包括1FSNF、2FSNF和3FSNF,分别对应标准性、可柔性和完备性。 所述的步骤23)中的精炼方法包括以下步骤: 231)建立符合IISNF的语义模型,并对该指令所具备的具体实体信息,包括条件、变量和目标进行具体赋值; 232)基于2ISNF语义级别模型的要求,对不可被理解描述为语义的部分进行语义迭代计算; 233)基于3ISNF语义级别模型,对问题中所含有的冗余部分、无效条件、重叠目标、矛盾条件干扰因素进行消除。 与现有技术相比,本专利技术具有以下优点。 一、方便快速,本专利技术设计了新的查询指令的语义模型,建立了查询模型规范,能够快速的找到最有效的查询方式获得结果。 二、准确可靠,本方法通过精炼语义,规范了语义模型,消除了查询过程中出现的冗余、无效等问题,提高了查询过程的准确性。 【专利附图】【附图说明】 图1为本专利技术的方法流程图 【具体实施方式】 下面结合附图和具体实施例对本专利技术进行详细说明。 实施例: 如图1所示,,包括以下步骤: I)规范文本大数据语义,该步骤包括: 11)构造文本大数据查询分析过程中所涉及的查询对象语义范式模型,通过不同级别范式的语义描述规范刻画各对象的语义描述程度; 12);对不同的查询对象设计不同级别范式相互转化准则得到更为精确的语义描述; 2)建立指令解析与查询工作流模型,该步骤包括: 21)查询指令语义预解析,对查询指令初步解析,使其具备计算机可理解的基础形式; 22)构建查询指令语义模型; 23)指令语义精炼,使指令语义模型符合高级别的描述规范; 24)选择和重构查询工作流,通过底层数据库选取与对象模型相对应的模板实例; 25)查询工作流可靠性验证,利用大规模案例推理学习方法对所确定的结果进行验证。 3)查询过程控制和反馈结果,该步骤包括: 31)通过筛选查询方法模型,并且结合查询成功的历史查询方法模型选取符合工作流各环节需求的查询方法模型; 32)构造和组合各环节候选查询方法模型来实现指令进行正确查询的策略和规则。 33)评估查询置信度,建立“方法-指令”置信体系,通过查询历史,对每一个查询方法模型,评估它对不同类型指令的置信度; 34)构建查询工作链本文档来自技高网
...
一种文本大数据的查询处理方法

【技术保护点】
一种文本大数据的查询处理方法,其特征在于,包括以下步骤:1)规范文本大数据语义,该步骤包括:11)构造文本大数据查询分析过程中所涉及的查询对象语义范式模型,通过不同级别范式的语义描述规范刻画各对象的语义描述程度;12)对不同的查询对象设计不同级别范式相互转化准则得到更为精确的语义描述;2)建立指令解析与查询工作流模型,该步骤包括:21)查询指令语义预解析,对查询指令初步解析,使其具备计算机可理解的基础形式;22)构建查询指令语义模型;23)指令语义精炼,使指令语义模型符合高级别的描述规范;24)选择和重构查询工作流,通过底层数据库选取与对象模型相对应的模板实例;25)查询工作流可靠性验证,利用大规模案例推理学习方法对所确定的结果进行验证;3)查询过程控制和反馈结果,该步骤包括:31)通过筛选查询方法模型,并且结合查询成功的历史查询方法模型选取符合工作流各环节需求的查询方法模型;32)构造和组合各环节候选查询方法模型来实现指令进行正确查询的策略和规则;33)评估查询置信度,建立“方法‑指令”置信体系,通过查询历史,对每一个查询方法模型,评估它对不同类型指令的置信度;34)构建查询工作链,根据查询工作流构建由使用过的查询方法模型构成的查询工作链;35)计算查询工作链上的每一个工作流阶段的结果置信度;36)全链全局置信度计算,并且进行全工作链的置信度全局排序评估,将置信度最高的结果反馈给用户。...

【技术特征摘要】

【专利技术属性】
技术研发人员:黄震华李美子方强张佳雯向阳
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1