一种行业应用软件词根表的构建方法技术

技术编号:8801173 阅读:324 留言:0更新日期:2013-06-13 05:50
本发明专利技术公开了一种行业应用软件词根表的构建方法。本方法为:1)创建一词根表初始库,并对该初始库中的词根进行唯一性检查;2)当某词根需要加入该初始库时,按照中文或英文名称匹配检索该初始库:a)如果检索到匹配词根,则将该词根加入到该初始库并根据该匹配词根的属性对该词根的属性进行补充;b)如果未检索到匹配词根,按照中文或英文名称检索规范文件,得到匹配的词根;然后根据规范文件计算该词根及其匹配词根的适合系数,将适合系数最大的词根加入到该初始库并对该适合系数最大的词根的属性进行补充。本发明专利技术将原本封闭的词根表积累过程变为开放式的,容错的,渐进替代的过程,从而提升了词根表构建的稳定性。

【技术实现步骤摘要】

本专利技术涉及行业应用软件建设领域,具体地说,就是建设一个支撑行业应用软件开发的语义字典表(词根表),从而规范程序中数据结构命名、功能和程序命名、需求规格说明书中主要术语命名。本专利技术不仅能应用于保险领域,对其他领域的行业应用也有指导意义。
技术介绍
词根是最基础的词及其缩写符号,也包括某些词根组成的新词,由中英文为基础,另加多种语言的词根集合组成词根表。(参考行业应用软件中的词根表和库结构,左春,2009.)行业应用软件中的词根表是由表述领域内容的术语组成的词码表。统一词根表是标准化的语义定义,便于更大范围的交流和共享。行业应用软件开发过程中的词根是领域概念在软件实现过程中的缩写与约定,是软件设计和实现中各种概念元素命名构造的基本单位。词根的整理旨在统一领域语义,对行业应用软件开发形成一套规范和标准,实现 软件开发过程“成果物”的一致性,供开发人员参考遵循,避免不必要的重复工作和资源浪费,提高工作效率和质量。虽然词根表是行业应用软件开发的基础性文件,但真正比较成熟的词根表构建方法并不多,构建方法效率低,而且所构建词根表中的词根语义不统一,给后续的应用软件开发和开发文件的可读性带来严重问题。
技术实现思路
本专利技术解决的技术问题:提升词根命名的一致性,构建一个开放、稳定的词根表系统。本专利技术的目的是提供。基于此生成的词根表是行业应用软件构建和实施的基础,是开发过程一系列成果物的重要支撑。完善、规范的词根表,有助于提闻开发效率,提升软件品质。行业应用软件针对有特定含义的领域对象,且需要实现程序对象和领域对象间有效的映射。为解决行业应用软件用词的随意性,提升映射效率,特将领域术语中稳定的部分做成词根表,以便在行业应用软件中有效的使用。事实上,特定领域内的语义字典表积累具有重要意义。我们凭借在行业应用领域的多年经验和领域知识积累,实现了词根表在保险领域内的良好实践。IDC “中国保险解决方案2009-2013市场预测与分析”指出,中科软在保险行业IT解决方案(包括财产险核心业务系统、寿险核心业务系统、ERM、多渠道客户服务、网上保险系统、再保险业务处理系统等)提供商的收入及市场份额连续五年均排名第O为实现上述目的,本专利技术的解决方案是: 提出词根表的定义和组成词根表是行业应用软件中用以表述领域术语的词码表,也称语义字典表。词根是最基础的词及其缩写符号的集合,由于“程序块”的独立发展及业务的不断创新,还将不断产生新的词根,词根还可组成新词。词根表的主要组成部分如图1所示。基础的词根表由中英文词根构成双语词根表,可根据实际业务需求增加新的语种。 给出词根表的构建方法该方法的主要思想是:基于词根表初始库,当有新的“个体”(每一条词根称为一个“个体”)加入时,对初始库按照中英文名称进行检索,已存在的“个体”按照构成补充其他属性(如果有),不存在的“个体”按照“适合”系数算法的规则检索规范文件,计算综合评价“适合”系数(fitness)大小,选择优化的(“适合”系数较大的)“个体”加入词根表,并依据词根表已确定的“适合”条件进行尾部淘汰,形成开放、稳定的词根表。其中“开放的”表示“个体”是不断加入和尾部淘汰的,“容错的”表示“个体”有一部分是“试探性的”,不太肯定的。词根表的构建步骤如下:(I)形成初始库,区分当前库和历史库,按照中英文名称对初始库进行唯一性检查;(2)当有新“个体”需要加入时,按照中英文名称匹配检索已有词根表(当前库);(3)在库中检索到 该“个体”时(比如有匹配中文名称和英文名称的个体),按照规则补充其他属性,循环至(5);(4)对未检索到的“个体”(即与已有词根表不匹配),检索规范文件(主要是指((ACORDK《保险术语表》等文件),生成“适合”系数,多个选择中选“适合”系数较高的“个体”进入词根表(即要进入词根表的多个个体具有相同的中文名称或英文名称);(5)对新进入“个体”添加其他属性,如果“个体”数大于η (设η = 5000),则在“当前库”中选择“适合”系数最低者进入“历史库”;检索存在的个体在补充属性时就有了适合系数;(6)循环至⑵。与现有技术相比,本专利技术的积极效果为:将原本封闭的词根表积累过程变为开放式的,容错的,渐进替代的过程,从而提升了词根表构建的稳定性。附图说明图1词根表每一个体的组成;图2词根表构建步骤;图3文本分类步骤。具体实现方式下面结合附图详细描述本专利技术词根表的构建方法,词根表的构建步骤如图2所/Jn ο注I根据中英文名称的唯一性进行词根表检查(I)检索初始库,是现有任意一词根表初始化的词根表;表I是一个初始集的实例,由于篇幅限制,只给出其中一部分。表1、词根表实例本文档来自技高网...

【技术保护点】
一种行业应用软件词根表的构建方法,其步骤为:1)创建一词根表初始库,并对该初始库中的词根进行唯一性检查;2)当某词根需要加入该初始库时,按照中文或英文名称匹配检索该初始库:a)如果检索到匹配词根,则将该词根加入到该初始库并根据该匹配词根的属性对该词根的属性进行补充;b)如果未检索到匹配词根,按照中文或英文名称检索规范文件,得到匹配的词根;然后根据规范文件计算该词根及其匹配词根的适合系数,将适合系数最大的词根加入到该初始库并对该适合系数最大的词根的属性进行补充。

【技术特征摘要】
1.一种行业应用软件词根表的构建方法,其步骤为: 1)创建一词根表初始库,并对该初始库中的词根进行唯一性检查; 2)当某词根需要加入该初始库时,按照中文或英文名称匹配检索该初始库: a)如果检索到匹配词根,则将该词根加入到该初始库并根据该匹配词根的属性对该词根的属性进行补充; b)如果未检索到匹配词根,按照中文或英文名称检索规范文件,得到匹配的词根;然后根据规范文件计算该词根及其匹配词根的适合系数,将适合系数最大的词根加入到该初始库并对该适合系数最大的词根的属性进行补充。2.如权利要求1所述的方法,其特征在于所述初始库包括一当前库和一历史库,判断所述初始库中词根的个数是否大于设定阈值H,如果大于设定阈值H,则将所述初始库中词根适合系数最大的前H个词根放到所述当前库中,将剩余词根放到所述历史库中。3.如权利要求2所述的方法,其特征在于对该初始库中的词根进行唯一性检查的方法为:根据词根的名称对该初始库中的词根进行唯一性检查,将具有中文名称相同或英文名称相同的词根配对成组;然后对于每一配对组,根据规范文件计算其该配对组内每一词根的适合系数,选取适合系数最高的词根存储在所述当前库中,并根据该配对组中其他词根的属性对该适合系数最高词根的属性进行补充。4.如权利要求3所述的方法,其特征在于如果配对组中同一中文名称或英文名称对应多个含义时,进行语义相似度计算,取相似度最大者作为该适合系数最高词根的含义。5.如权利要求1或2或3所述的方法,其特征在于所述规范文件包括=ACORD文件、金融术语文件、《精 编英汉保险词典》、保险术语表、金融术语文件;计算词根的所述适合系数的方法为: 51)检索保险术语表是否存在该词根,记为V1,存在则V1= 1,反之则为O ; 52)检索ACORD文件是否存在该词根,记为V2,存在则V2= 1,反之则为O ; 53)检索《精编英汉保险词典》,确认该词根英文名称的中文含义中是否有对应的中文名称,记为V3,存在则V3 = I,反之则为O ; 54)检索保险术语文件是否存在该词根,记为V4,存在则V4= I,反之则为O ; 55)...

【专利技术属性】
技术研发人员:左春庞朴张正魏萍
申请(专利权)人:中科软科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1