一种文本信息的识别方法及装置制造方法及图纸

技术编号：18018843 阅读：23 留言：0更新日期：2018-05-23 05:08

本发明专利技术公开了一种特定文本信息的识别方法及装置，涉及计算机技术领域，主要目的在于能够快速、简便地对目标文本中具有特定格式的文本信息进行有效识别。本发明专利技术主要的技术方案为：根据预置维度对目标文本进行多维度向量化，得到向量化文本；获取所述向量化文本中符合预置状态转移规则的文字信息；利用动态规划算法计算所述文字信息，并确定符合预设格式的最优文字信息，输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。本发明专利技术主要用于对文本信息的识别及获取。

全部详细技术资料下载

【技术实现步骤摘要】
一种特定文本信息的识别方法及装置
本专利技术涉及计算机
，尤其涉及一种特定文本信息的识别方法及装置。
技术介绍
自然语言识别是人工智能早期的研究领域之一，也是一个极为重要的领域，主要包括人机对话和机器翻译两大任务，是一门融语言学、计算机科学、数学于一体的科学。自然语言识别(NaturalLanguageProcessing，NLP)是一种对自然语言信息进行处理的技术，从语言学的角度来说，自然语言识别也叫计算语言学(ComputationalLinguistics)。自然语言识别包括自然语言理解(NaturalLanguageUnderstanding,NLU)和自然语言生成(NaturalLanguageGeneration,NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握。在人工智能领域中自然语言理解特指计算机对自然语言的内容和意图的深层把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然语言生成互为逆过程。在自然语言中的识别中，对于很多命名实体，如：地址，组织等的识别准确度往往影响了整个解析的准确度，特别是中文的复杂性和多义性，使得中文的命名实体识别比起英文更加复杂。对于传统的识别方法，例如引用因马尔科夫，最大熵，条件随机场等模型进行命名实体的识别，这些模型的使用都需要高质量的训练样本，且训练复杂，回溯缓慢，在实际应用过程中需要大量的准备工作以及相应的时间来得到所需的结果。而对于一些简单的识别方法，例如正则，状态机等，其所设置的约束条件又过于苛刻，很难达到识别的预期效果。
技术实现思路
有鉴于此，本专利技术提...
一种文本信息的识别方法及装置

【技术保护点】
一种特定文本信息的识别方法，其特征在于，所述方法包括：根据预置维度对目标文本进行多维度向量化，得到向量化文本；获取所述向量化文本中符合预置状态转移规则的文字信息；利用动态规划算法计算所述文字信息，并确定符合预设格式的最优文字信息，输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。

【技术特征摘要】
1.一种特定文本信息的识别方法，其特征在于，所述方法包括：根据预置维度对目标文本进行多维度向量化，得到向量化文本；获取所述向量化文本中符合预置状态转移规则的文字信息；利用动态规划算法计算所述文字信息，并确定符合预设格式的最优文字信息，输出所述最优文字信息为所述目标文本中特定文本信息的识别结果。2.根据权利要求1所述方法，其特征在于，利用动态规划算法计算所述文字信息，确定符合预设格式的最优文字信息包括：设置动态规划算法中计算字符的维度数量，以及各维度的权重值；利用维特比算法计算不同维度下相邻字符间符合预设格式的综合概率值；将所述综合概率值大于预置阈值的文字信息确定为最优文字信息。3.根据权利要求1所述方法，其特征在于，在获取所述向量化文本中符合预置状态转移规则的文字信息之前，所述方法还包括：根据所述预设格式设置字符状态的转移关系；设置所述预设格式的起始状态和结束状态。4.根据权利要求3所述方法，其特征在于，获取所述向量化文本中符合预置状态转移规则的文字信息包括：根据所述向量化文本中的字符排列顺序确定具有起始状态的首字符；判断所述首字符与其后面的相邻字符的状态转移是否符合设置的转移关系；判断符合所述转移关系的字符是否具有结束状态，若具有则确定所述字符为尾字符；获取所述首字符至所述尾字符之间的文字信息为符合预置状态转移规则的文字信息。5.根据权利要求4所述方法，其特征在于，获取所述首字符至所述尾字符之间的文字信息为符合预置状态转移规则的文字信息包括：判断所述文字信息中字符的状态转移格式是否符合特定文本信息的状态转移格式；若符合，则获取所述文字信息为符合预置状态转移规则的文字信息。6.根据权利要求1所述方法，其特征在于，根据预置维度对目标文本进行多维度向量化，得到向...

【专利技术属性】
技术研发人员：石鹏，姜珂，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人