一种层级信息智能识别方法及装置制造方法及图纸

技术编号:14854453 阅读:94 留言:0更新日期:2017-03-18 21:50
一种层级信息智能识别方法,包括如下步骤,接收待识别字符串,根据待识别字符串计算得到该字符串的关键字,根据该字符串的关键字得到对应的候选项,计算每个候选项的匹配度,将待识别字符串根据计算得到的匹配度高低进行排序。本发明专利技术能够通过字符串反向识别层级的选项,而不需要重新进行选择的简便方法。

【技术实现步骤摘要】

本专利技术涉及计算机领域中的信息识别领域,尤其涉及一种表单中具有层级结构的信息智能识别方法及装置。
技术介绍
计算机用于填写带层级结构信息的表单进行数据逆向转化时进行数据匹配,比如,输入中国福建福州闽清县进行数据匹配,而所属行政区划一般都是三层或四层的下拉框结构。当录入进系统的数据都是规范的时候可以准备匹配,但是对于某些行政工作或者信息收集工作来说,很多已有的旧数据已经是写下来的文字描述,并没有办法要求广大用户去重新编辑对应值或重新选择选项。我们必须根据已有的文字资料进行逆向转化。
技术实现思路
为此,需要提供一种能够通过字符串反向识别层级的选项,而不需要重新进行选择的简便方法。为实现上述目的,专利技术人提供了一种层级信息智能识别方法,包括如下步骤,接收待识别字符串,根据待识别字符串计算得到该字符串的关键字,根据该字符串的关键字得到对应的候选项,计算每个候选项的匹配度,将待识别字符串根据计算得到的匹配度高低进行排序。进一步地,还包括步骤,生成数据层级选项库,所述数据层级选项库包括选项文本、选项文本对应的曾用名或简称。进一步地,还包括步骤,判断候选项是否存在冲突,具体包括步骤,将候选项按匹配度倒序排列,判断排在第一位和第二位的匹配度是否一样,如果匹配度一样,则将匹配度一样的候选项匹配度置零。进一步地,还包括步骤,定义匹配度阈值,筛选匹配度位于匹配度与中的待识别字符串,添加到结果集中,将结果集返回。具体地,所述计算每个候选项的匹配度方法为:匹配度:result=100*(log(1+A)/log(1+B)),其中:变量A=Y*m+Z*n;变量B=X*p+C*q;C=2*X-3;C表示最大可能匹配的数量,如果X=1那么C强制为0;X为关键字数量、Y为匹配数、Z为连续匹配数;m,n,p,q为自定义系数。一种层级信息智能识别装置,包括接收模块、关键字计算模块、候选项匹配模块、排序模块,所述接收模块用于接收待识别字符串;所述关键字计算模块用于根据待识别字符串计算得到该字符串的关键字;所述候选项匹配模块用于根据该字符串的关键字得到对应的候选项,计算每个候选项的匹配度;所述排序模块用于将待识别字符串根据计算得到的匹配度高低进行排序。进一步地,还包括选项库模块,所述选项库模块用于生成数据层级选项库,所述数据层级选项库包括选项文本、选项文本对应的曾用名或简称。进一步地,还包括冲突判断模块,所述冲突判断模块用于判断候选项是否存在冲突;所述冲突判断模块具体还用于,将候选项按匹配度倒序排列,判断排在第一位和第二位的匹配度是否一样,如果匹配度一样,则将匹配度一样的候选项匹配度置零。进一步地,还包括阈值匹配模块、结果返回模块,所述阈值匹配模块用于定义匹配度阈值,筛选匹配度位于匹配度与中的待识别字符串,添加到结果集中,所述结果返回模块用于将结果集返回。具体地,所述计算每个候选项的匹配度方法为:匹配度:result=100*(log(1+A)/log(1+B)),其中:变量A=Y*m+Z*n;变量B=X*p+C*q;C=2*X-3;C表示最大可能匹配的数量,如果X=1那么C强制为0;X为关键字数量、Y为匹配数、Z为连续匹配数;m,n,p,q为自定义系数。区别于现有技术,上述技术方案允许用户通过字符串反向识别带层级的选项,而不需要重新选择。允许高一级装置根据自己的需要调整策略,而不需要改造装置,高一级装置根据自己的需要通过改变阀值得到自己想要的值即可。允许文字识别的时候含简称,别称。允许文字识别的时候,忽略掉部分层级信息,比如只有省和县。甚至直接写县区(需要无重名)也可以写全称。①字典树:单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。②匹配度阀值:用于确定不同系统或者模块对于识别选项精度要求而设定,匹配度越高则精度越高,匹配度100时,则得到的结果选项必须完全匹配附图说明图1为本专利技术具体实施方式所述的层级信息智能识别方法流程图;图2为本专利技术具体实施方式所述的层级选项识别装置流程图;图3为本专利技术具体实施方式所述的层级信息智能识别装置模块图;附图标记说明:300、接收模块、302、关键字计算模块;304、候选项匹配模块;306、排序模块;308、选项库模块;310、冲突判断模块;312、阈值匹配模块、314、结果返回模块。具体实施方式为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。请参阅图1,为本专利技术一种层级信息智能识别方法流程图,本专利技术可以开始于步骤S102,接收待识别字符串,S104根据待识别字符串计算得到该字符串的关键字,S106根据该字符串的关键字得到对应的候选项,计算每个候选项的匹配度,将待识别字符串根据计算得到的匹配度高低进行排序。具体地,在本实施例中,所述待识别字符串是带有层级结构信息的字符串,包括国际编码、行政区划、公司部门层级、籍贯、商品类别等信息,在本专利技术方法中,设备接收用户输入的待识别字符串,再通过字典树算法计算待识别字符串中的关键字,通过关键字从选项库中选取若干的候选项,再计算各个匹配项的匹配度,具体地,可以通过如下方式计算匹配度:匹配度:result=100*(log(1+A)/log(1+B)),其中:变量A=Y*m+Z*n;变量B=X*p+C*q;C=2*X-3;C表示最大可能匹配的数量,如果X=1那么C强制为0;X为关键字数量、Y为匹配数、Z为连续匹配数;m,n,p,q为自定义系数,可以根据实际需要加权取值,如m=n=1;p=q=0.5等。这样能够在不同的层级文本匹配中满足不同的需求。在其他一些实施例中,如图1所示,本方法还可以包括步骤S100,生成数据层级选项库,所述数据层级选项库包括选项文本、选项文本对应的曾用名或简称等,构建数据层级选项库能够使得匹配结果更加准确。在图1所示的某些进一步的实施例中,还包括步骤S108,判断候选项是否存在冲突,具体包括步骤,将候选项按匹配度倒序排列,判断排在第一位和第二位的匹配度是否一样,如果匹配度一样,则将匹配度一样的候选项匹配度置零。默认返回的结果一般只有一个,当存在两个最大值时即为冲突情况,通过设置上述步骤,能够使得出现同样匹配度的情况下解决最大值冲突,减少系统需要的计算量。其他一些实施例中,还包括步骤S110,定义匹配度阈值,筛选匹配度位于匹配度阈值的待识别字符串,添加到结果集中,将结果集返回。通过上述方法,本专利技术达到了通过字符串反向识别带层级的文本选项的效果,解决了层级信息智能识别的问题。图2是层级选项识别装置的流程图,具体可以分为以下阶段,1.准备:数据层级选项库。将该表单的数据段完整的选项库准备好,同时将选项文本对应的曾用名或简称准备好,形成完整的选项库。2.根据选项库计算得到字典树①(请参考名词解释1)。3.输入被识别的字符串。该字符串即被识别的选项,可根据字符串计算得到该字符串对应的候选项。4.根据字典树和被识别的字符串计算得到关键字。5.根据该字符串的关键字和选项库得到若干个候选项。6.候选项匹配度计算子流程。6.1.根据上步得到若干个匹配到的候选项。6.2.定义匹配度系数。该匹配度系本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201611079236.html" title="一种层级信息智能识别方法及装置原文来自X技术">层级信息智能识别方法及装置</a>

【技术保护点】
一种层级信息智能识别方法,其特征在于,包括如下步骤,接收待识别字符串,根据待识别字符串计算得到该字符串的关键字,根据该字符串的关键字得到对应的候选项,计算每个候选项的匹配度,将待识别字符串根据计算得到的匹配度高低进行排序。

【技术特征摘要】
1.一种层级信息智能识别方法,其特征在于,包括如下步骤,接收待识别字符串,根据待识别字符串计算得到该字符串的关键字,根据该字符串的关键字得到对应的候选项,计算每个候选项的匹配度,将待识别字符串根据计算得到的匹配度高低进行排序。2.根据权利要求1所述的层级信息智能识别方法,其特征在于,还包括步骤,生成数据层级选项库,所述数据层级选项库包括选项文本、选项文本对应的曾用名或简称。3.根据权利要求1所述的层级信息智能识别方法,其特征在于,还包括步骤,判断候选项是否存在冲突,具体包括步骤,将候选项按匹配度倒序排列,判断排在第一位和第二位的匹配度是否一样,如果匹配度一样,则将匹配度一样的候选项匹配度置零。4.根据权利要求1所述的层级信息智能识别方法,其特征在于,还包括步骤,定义匹配度阈值,筛选匹配度位于匹配度与中的待识别字符串,添加到结果集中,将结果集返回。5.根据权利要求1所述的层级信息智能识别方法,其特征在于,所述计算每个候选项的匹配度方法为:匹配度:result=100*(log(1+A)/log(1+B)),其中:变量A=Y*m+Z*n;变量B=X*p+C*q;C=2*X-3;C表示最大可能匹配的数量,如果X=1那么C强制为0;X为关键字数量、Y为匹配数、Z为连续匹配数;m,n,p,q为自定义系数。6.一种层级信息智能识别装置,其特征在于,包括接收模块、关键字计算模块、候选项匹配模块、排序模块,所述接收模块用于接收待识别...

【专利技术属性】
技术研发人员:林利炜孙玉友靳谊余良美毕彦斌于颖
申请(专利权)人:福建榕基软件股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1