一种文本信息的识别方法及装置制造方法及图纸

技术编号:18018843 阅读:23 留言:0更新日期:2018-05-23 05:08
本发明专利技术公开了一种特定文本信息的识别方法及装置,涉及计算机技术领域,主要目的在于能够快速、简便地对目标文本中具有特定格式的文本信息进行有效识别。本发明专利技术主要的技术方案为:根据预置维度对目标文本进行多维度向量化,得到向量化文本;获取所述向量化文本中符合预置状态转移规则的文字信息;利用动态规划算法计算所述文字信息,并确定符合预设格式的最优文字信息,输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。本发明专利技术主要用于对文本信息的识别及获取。

【技术实现步骤摘要】
一种特定文本信息的识别方法及装置
本专利技术涉及计算机
,尤其涉及一种特定文本信息的识别方法及装置。
技术介绍
自然语言识别是人工智能早期的研究领域之一,也是一个极为重要的领域,主要包括人机对话和机器翻译两大任务,是一门融语言学、计算机科学、数学于一体的科学。自然语言识别(NaturalLanguageProcessing,NLP)是一种对自然语言信息进行处理的技术,从语言学的角度来说,自然语言识别也叫计算语言学(ComputationalLinguistics)。自然语言识别包括自然语言理解(NaturalLanguageUnderstanding,NLU)和自然语言生成(NaturalLanguageGeneration,NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握。在人工智能领域中自然语言理解特指计算机对自然语言的内容和意图的深层把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然语言生成互为逆过程。在自然语言中的识别中,对于很多命名实体,如:地址,组织等的识别准确度往往影响了整个解析的准确度,特别是中文的复杂性和多义性,使得中文的命名实体识别比起英文更加复杂。对于传统的识别方法,例如引用因马尔科夫,最大熵,条件随机场等模型进行命名实体的识别,这些模型的使用都需要高质量的训练样本,且训练复杂,回溯缓慢,在实际应用过程中需要大量的准备工作以及相应的时间来得到所需的结果。而对于一些简单的识别方法,例如正则,状态机等,其所设置的约束条件又过于苛刻,很难达到识别的预期效果。
技术实现思路
有鉴于此,本专利技术提供一种特定文本信息的识别方法及装置,主要目的在于能够快速、简便地对目标文本中具有特定格式的文本信息进行有效识别。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供了一种特定文本信息的识别方法,该方法包括:根据预置维度对目标文本进行多维度向量化,得到向量化文本;获取所述向量化文本中符合预置状态转移规则的文字信息;利用动态规划算法计算所述文字信息,并确定符合预设格式的最优文字信息,输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。另一方面,本专利技术还提供了一种特定文本信息的识别装置,该装置包括:向量化单元,用于根据预置维度对目标文本进行多维度向量化,得到向量化文本;获取单元,用于获取所述向量化单元得到的向量化文本中符合预置状态转移规则的文字信息;确定单元,用于利用动态规划算法计算所述获取单元得到的文字信息,并确定符合预设格式的最优文字信息,输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。依据上述本专利技术所提出的特定文本信息的识别方法及装置,主要用于识别目标文本中具有一定特定格式的文本信息,且这些特定格式能够通过不同状态的转移进行限定与表达。通过对目标文本的多维度向量化,确定其状态变化的维度,并根据向量化文本中字符的状态变化,利用预置的状态转移规则以及动态规划算法计算得到符合特定格式的文字信息,再将该文字信息作为识别结果加以输出显示。相对于现有的识别方式,本专利技术所采用的识别方式是将状态转移与动态规划计算相结合,在计算前只需要设定状态转移的规则以及参与计算的向量维度,即可得出相应的识别结果,而不需要获取相关的模型训练样本进行反复的训练学习。因此,在实际应用中只需通过简单的设置,便能够快速地对目标文本进行识别,得到该目标文本中具有特定格式的特定文本信息。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提出的一种特定文本信息的识别方法的流程图;图2示出了本专利技术实施例提出的另一种特定文本信息的识别方法的流程图;图3示出了本专利技术实施例提出的一种特定文本信息的识别装置的组成框图;图4示出了本专利技术实施例提出的另一种特定文本信息的识别装置的组成框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种特定文本信息的识别的方法,如图1所示,该方法应用于识别目标文本中具有特定格式的文本信息,且该特定格式能够通过不同状态的转移进行限定与表达,具体步骤包括:101、根据预置维度对目标文本进行多维度向量化。要识别目标文本首先是要对该目标文本进行向量化表示,而向量化文本也是一般文本处理都要执行的操作步骤。本专利技术实施例对目标文本进行的向量化是对目标文本进行分词处理,将分词结果作为一个维度来表示该目标文本,同时,还将该目标文本以其他预置的维度进行向量化表示,使得目标文本具有多个维度的向量化表示结果,例如,可以基于分词的结果将目标文本进一步分解为字的向量化表示,以字的维度对目标文本进行表示,或者是根据分词的词性对目标文本进行向量化表示等。本专利技术实施例中对目标文本的多维度向量化表示需要预先设置向量化的维度数量,维度数量越高,对应的目标文本处理复杂度也越大,而其向量化表示的结果相对于与其他文本的区分度也越高。为了能够平衡文本处理的复杂性与区分度的关系,将维度数量的确定设置为可选模式,也就是在文本处理之前,可根据目标文本的具体情况自由设定文本向量化的维度数量。102、获取向量化文本中符合预置状态转移规则的文字信息。其中,预置状态转移规则就是根据所要识别的特定文本信息制定的判断规则,本专利技术实施例中的预置的状态是由特定文本信息的格式所确定的,例如,特定文本信息为地址时,则预置的状态中就可以为地名、省、市、区县、街道等状态,而为时间信息时,包括的状态有:数字、年、月、日,或者是小时、分钟、秒等,其中数字还包括中文或数字。针对所设置的状态,要识别目标文本中是否存在特定的文本信息,还需要确定不同状态之间的转移规则。比如,所要识别的时间格式是包括:“时”、“分”、“秒”三个状态的时间信息,那么所设置的状态转移规则就为:“数字”至“数字”;“数字”至“时”、“分”、“秒”;“时”至“数字”;“分”至“数字”;并且以“数字”状态启示,以“时”或“秒”状态结束,根据上述的状态转移规则,在目标文本中所匹配出的时间信息可能为,1时2分3秒,或者12时01分50秒;还可以是3分40秒16时等等。对于预置的状态转移规则,在本专利技术实施例中,可以设置单独的状态转移规则,也可以设置多个不同状态的不同转移规则,还可以针对相同的状态设置不同的转移规则。例如,针对上述的时间状态转移规则,还可以将其中的“时”状态去除再设置一条状态转移规则,如此所识别的结果就还可以出现3分40秒或者5秒13分等结果。而如果在上述的时间状态转移规则中再加入地址状态转移规则,则在识别结果中就可能出现对应的地址结果,如北京市海淀区中关村大街1号这样的识别结果。需要说明的是,本专利技术实施例中所设置的状态,能够对应于不同维度中的向量值,也就是说,根据101的多维度向量化表示的目标文本中不同维度下的向本文档来自技高网...
一种文本信息的识别方法及装置

【技术保护点】
一种特定文本信息的识别方法,其特征在于,所述方法包括:根据预置维度对目标文本进行多维度向量化,得到向量化文本;获取所述向量化文本中符合预置状态转移规则的文字信息;利用动态规划算法计算所述文字信息,并确定符合预设格式的最优文字信息,输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。

【技术特征摘要】
1.一种特定文本信息的识别方法,其特征在于,所述方法包括:根据预置维度对目标文本进行多维度向量化,得到向量化文本;获取所述向量化文本中符合预置状态转移规则的文字信息;利用动态规划算法计算所述文字信息,并确定符合预设格式的最优文字信息,输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。2.根据权利要求1所述方法,其特征在于,利用动态规划算法计算所述文字信息,确定符合预设格式的最优文字信息包括:设置动态规划算法中计算字符的维度数量,以及各维度的权重值;利用维特比算法计算不同维度下相邻字符间符合预设格式的综合概率值;将所述综合概率值大于预置阈值的文字信息确定为最优文字信息。3.根据权利要求1所述方法,其特征在于,在获取所述向量化文本中符合预置状态转移规则的文字信息之前,所述方法还包括:根据所述预设格式设置字符状态的转移关系;设置所述预设格式的起始状态和结束状态。4.根据权利要求3所述方法,其特征在于,获取所述向量化文本中符合预置状态转移规则的文字信息包括:根据所述向量化文本中的字符排列顺序确定具有起始状态的首字符;判断所述首字符与其后面的相邻字符的状态转移是否符合设置的转移关系;判断符合所述转移关系的字符是否具有结束状态,若具有则确定所述字符为尾字符;获取所述首字符至所述尾字符之间的文字信息为符合预置状态转移规则的文字信息。5.根据权利要求4所述方法,其特征在于,获取所述首字符至所述尾字符之间的文字信息为符合预置状态转移规则的文字信息包括:判断所述文字信息中字符的状态转移格式是否符合特定文本信息的状态转移格式;若符合,则获取所述文字信息为符合预置状态转移规则的文字信息。6.根据权利要求1所述方法,其特征在于,根据预置维度对目标文本进行多维度向量化,得到向...

【专利技术属性】
技术研发人员:石鹏姜珂
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1