一种重塑逻辑演绎链的搜索方法技术

技术编号:12480478 阅读:41 留言:0更新日期:2015-12-10 17:17
本发明专利技术公开了一种重塑逻辑演绎链的搜索方法,包括以下步骤:A、建立专业范畴标签库;B、建立逻辑特征词库;C、通过标签库与特征词库,将搜索词扩展成为关键词域;D、通过关键词域形成以具体逻辑分类为单元的文段库;E、将文段库中的数据内容优化关联组织成为逻辑树。本发明专利技术提供一种重塑逻辑演绎链的搜索方法,通过提供相关多源、异构信息的搜集整理、标注分拣、关联分析、数读展现等能力,辅助人大及其常委会、专委会及代表准确把握经济社会发展规律和现实社会利益矛盾,从而更好的提高立法的质量,使得立法能够与经济社会发展的新要求、人民群众的期待更加贴合。

【技术实现步骤摘要】

本专利技术属于人大立法系统知识保障搜索领域,特别涉及一种在人大立法时使用的 重塑逻辑演绎链的搜索方法
技术介绍
现今的立法质量与经济社会发展的新要求、人民群众的新期待还存有差距。其主 要表现为:1、中国特色社会主义法律体系虽然已经形成,但还不够完善,仍存在着相关社 会领域子法缺失、缺少配套规定和管理办法等问题。法律的规定相互矛盾、不明确、过于笼 统、模棱两可、不严谨、难以贯彻实施、内容严重滞后。2、公民提出法案动议案及意见渠道急 需拓宽,社会上具有政治参与要求和能力的公民未能有序地参与到政治体系和决策过程中 来,未能完全将科学与民主贯彻于立法程序的各个环节。3、立法后评估工作尚未启动,无法 检验立法质量,无法总结提炼规律性的内容用于指导今后的立法工作。4、参与立法工作的 人大代表虽然是各行业精英,但受限于工作领域和专业范围的约束,往往难以准确理解把 握审议表决的内容,无从做出正确决策,无法将数据和信息高效地演化重塑成为满足自身 需要的知识、情报和方案。 当前民主法制信息化建设中的立法业务系统主要针对立法工作的全过程进行痕 迹管理,从立法建议的提出,立法规划、计划的产生,年度立法工作安排,起草法律草案前通 过调研、论证、听证、座谈、网络等各种方式收集资料、征求意见、草拟大纲等各项准备工作, 法律草案的起草工作,法律草案起草后的专门委员会、常委会和大会审议,以及审议过程中 的征求意见工作,直到最后法律的通过和归档等。然而,上述信息化仅仅只是侧重于机关办 公的自动化与业务流程的电子化,没有涉及到与立法内容相关的知识精炼和动态现状,没 有知识保障信息机制、公众参与信息机制,对象信息交互机制等,也就无法支撑立法质量提 升这一人大履职使命的完成;此外,由于采取的是独立封闭、粗放离散的建设方式,人大难 以与政府、法院、检察院等相关政务部门形成协同互动和资源共享的集约化发展模式。 立法业务信息化的技术路径选择: 基于分类目录与层层点击查询的信息搜索,其特点是"求全面"。基于超链接分析 与机器抓取技术的信息搜索,其特点是"求精准"。具有互动模式并尝试捕捉用户查询意图, 且查询更加精准的信息搜索,其特点是"求专业"。 如果说上述三类信息搜索方式是将太平洋中的水变成了青海湖,那么人大立法系 统的技术路径则是下一代信息搜索引擎发展方向的主角,它呈现给用户的是一个动静活泼 的青海湖生态系统,为用户在认知上带来更加直观的体验。其通过人工智能与搜索技术相 结合,实现概念定义、背景原因、发展状态、手段措施等多知识的智能关联,从而实现专业 化、领域化和个性化搜索的目标,特点是"求理解"。
技术实现思路
本专利技术的目的在于克服上述立法信息不全面能掌控的问题,提供一种重塑逻辑演 绎链的搜索方法,使人能准确把握经济社会发展规律和现实社会利益矛盾,以提高立法的 质量。 为了实现上述目的,本专利技术采用以下技术方案实现: -种重塑逻辑演绎链的搜索方法,包括以下步骤: A、建立专业范畴标签库; B、建立逻辑特征词库; C、通过标签库与特征词库得到搜索词,将搜索词扩展成为关键词域; D、通过关键词域形成以具体逻辑分类为单元的文段库; E、将文段库中的数据内容优化关联组织成为逻辑树; 步骤A的具体方法是:收集整理与立法主题领域相关的法律法规、部门规章、政策 规划和领导讲话,以及统计制度及其相关指标解释资料,提炼资料中的要素对象作为标签 词,形成分类分级的标签词库; 步骤B的建立方法是对立法主题领域内的政府公文和学术论著在文段级予以标 识,每个拥有明确标识的文段均视为数据库中的一个数据,并将每个词作为一个项目,使用 类Apriori的关联规则算法挖掘出文段级的频繁词集,并以此作为词组库,将不同的词组 库通过逻辑关系进行关联,最终建立逻辑特征词库; 步骤C采用Sunday字符串匹配的方法,将关键词投影至专业范畴标签词库中,叠 加逻辑特征词组,最终形成关键词域; 步骤D利用关键词域中的不同关键词,在预置的网络资源库中匹配寻找相关信 息,并形成符合逻辑特征词库中逻辑分类的文段库; 步骤E是通过相似聚类和最小树生成的优化关联方法,将文段组织拟合为认知适 应性激励下的逻辑脉络树。 步骤B中的类Apriori的关联规则算法如下: (1)产生频繁词集;扫描文献数据库产生一项频繁词集L1; (2)连接;在k次扫描时,其中k>l,采用递推的连接方法求k项频繁词集Lk,用L k 1 与自身作连接产生候选k项词集Ck; (3)剪枝产生逻辑特征词库;设:cke C k,即Ck是一个候选k项词集,c k i是c ,的 一个(k-Ι)项子词集,若满足Ck i不属于L k i,则有Ck不属于L k,即候选k项词集Ck应该从 候选k项词集的集合Ck中删除,直至剪枝完毕最终得出逻辑特征词库F p F2, F3,……,Fn。 步骤C的具体计算方法如下: (1)采用Sunday字符串匹配的方法,将含有立法搜索关键词的专业范畴标签词筛 选出来(Wkl,wk2, wk3,......,Wkt); (2)以字符串连接的方式,将专业范畴标签词与旨在区分F = (F概念定义、F龍原因 、F 发展状态、rV段措施)的逻辑特征词组进行叠加,形成关键词域(wki+F,Wk2+F,w k3+F,......,wkt+F)。 所述步骤E中的优化关联方法包括AP算法与类Prim最小生成树的构造算法两 步。 所述AP算法的目标是将相似的文段归为一簇,不相似的文段划分到不同簇中;AP 算法对文段划分不同簇的具体步骤如下: (1)计算文段间的向量余弦值,并生成初始相似度矩阵S ; (2)分别计算文段间的 Responsibility 值和 Availability 值; (3)评判S矩阵的对角线数值作为k点能否成为聚类中心,若该值越大,则这个点 成为聚类中心的可能性就越大,即不断更新Responsibi Iity值和Avai Iabi Iity值;如果迭 代次数超过设定的最大值或者当聚类中心在若干次迭代中不发生改变时终止计算,确定中 心及各类的样本点;否则返回步骤(2),继续计算。 文段间的向量余弦值的计算方法如下: (1)面对归属于不同资料文献的文段,使用中文分词软件进行分词预处理,基于向 量空间模型将文段表达为一组规范化正交词条矢量Wl j, W2j,…,Wtj;W l j= TF IDF1JF表 H 示词条i在文段j中出现的次数,a 表示逆文档频率,其中,N表示文段集合中 所有的文段数目,Ii1表示整个文段集合中出现过词条i的文段的总数; (2)在概念定义、根源症结、发展状态、手段措施的各自范围内,以基于向量余弦 值法的相似度计算,以及无需制定聚类数目的Affinity Propagation(AP)算法实现文段 聚类;采用向量余弦值的方法计算文段相似度,对于文段集中的两个文段向量(W11, W21,…,Wti)(Wlj, W2j,…,Wtj),它们之间的向量余弦值为:5 其中,m为第i篇文档和第j篇文档共同的不重复的特征数量,Wlk表示第i篇文 档中第k个特征项的权重,W jk表当前第1页1 2 3 本文档来自技高网
...
一种重塑逻辑演绎链的搜索方法

【技术保护点】
一种重塑逻辑演绎链的搜索方法,其特征在于,包括以下步骤:A、建立专业范畴标签库;B、建立逻辑特征词库;C、通过标签库与特征词库得到搜索词,将搜索词扩展成为关键词域;D、通过关键词域形成以具体逻辑分类为单元的文段库;E、将文段库中的数据内容优化关联组织成为逻辑树;步骤A的具体方法是:收集整理与立法主题领域相关的法律法规、部门规章、政策规划和领导讲话,以及统计制度及其相关指标解释资料,提炼资料中的要素对象作为标签词,形成分类分级的标签词库;步骤B的建立方法是对立法主题领域内的政府公文和学术论著在文段级予以标识,每个拥有明确标识的文段均视为数据库中的一个数据,并将每个词作为一个项目,使用类Apriori的关联规则算法挖掘出文段级的频繁词集,并以此作为词组库,将不同的词组库通过逻辑关系进行关联,最终建立逻辑特征词库;步骤C采用Sunday字符串匹配的方法,将关键词投影至专业范畴标签词库中,叠加逻辑特征词组,最终形成关键词域;步骤D利用关键词域中的不同关键词,在预置的网络资源库中匹配寻找相关信息,并形成符合逻辑特征词库中逻辑分类的文段库;步骤E是通过相似聚类和最小树生成的优化关联方法,将文段组织拟合为认知适应性激励下的逻辑脉络树。...

【技术特征摘要】

【专利技术属性】
技术研发人员:宋晶
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1