一种文本识别方法、存储介质及终端技术

技术编号:23891827 阅读:22 留言:0更新日期:2020-04-22 06:47
本发明专利技术公开了一种文本识别方法、存储介质及终端,涉及计算机技术领域,所述方法包括以下内容:对输入的文本对象进行预处理并转换为待识别文本的格式;对预处理后的文本进行知识提取得到知识数据;将提取得到的知识数据与基础数据库进行匹配识别。并通过对文本中多方面要素进行识别,分析出语义及要素之间的关系,进而得到文本的语义或者含义关系导图,实现对文本的表面语义和隐藏含义的识别;本发明专利技术识别速度快,耗时短,利于文本识别的实时性。

【技术实现步骤摘要】
一种文本识别方法、存储介质及终端
本专利技术涉及计算机
,尤其涉及一种文本识别方法、存储介质及终端。
技术介绍
随着人工智能技术的日新月异,通过计算机进行文本识别成为人工智能领域重点研究方向之一;现有的文本识别方法包括有光学字符识别技术以及场景文本识别技术等等。文本识别通过语义分析和意图分析能够识别出文本中的含义以及关系;以上分析的过程中,常常需要对文本进行多方面要素的识别,以能够在分析出语义的基础上得到要素之间的关系;而现有技术往往是很难达到这样的目的的。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种文本识别方法,能够对文本进行要素化,并通过对文本中多方面要素进行识别,分析出语义及要素之间的关系,实现对文本的表面语义和隐藏含义的识别。本专利技术的目的是通过以下技术方案来实现的:一种文本识别方法,所述方法包括以下内容:对输入的文本对象进行预处理并转换为待识别文本的格式;对预处理后的文本进行知识提取得到知识数据;将提取得到的知识数据与基础数据库进行匹配识别。进一步地,所述对预处理后的文本进行知识提取得到知识数据包括的内容如下:根据标点符号对输入文本进行分句,得到句子化文本;对每句句子进行要素化,通过句子要素化对每句句子进行规整,提取出每句话中的各个类别和关键信息。进一步地,将提取得到的知识数据与基础数据库进行匹配识别包括的内容如下:将提取的所述知识数据往往附带有基础数据的外键,将其与基础数据库中的数据进行匹配识别出知识数据附带的基础数据外键的含义;根据每句话中知识数据之间的要素化信息匹配句子中要素化之间的关系,得到相应的关系规则线,每条关系规则线对应一条语义或者隐藏含义;将所有的关系规则线进行集合得到文本中要素化关系导图,进而得到语义或者含义关系导图。进一步地,所述句子中要素化信息包括名词、动词、形容词、量词和代词中的一种或者多种。对输入的文本对象进行预处理并转换为待识别文本的格式包括的内容如下:对不符合文本格式要求的输入文本进行格式化转换,得到标准化的文本;对文本中的无关信息进行清洗,并在每个完整句子的后面添加分隔符,得到句子化后的整洁文本数据。一种基于文本识别的存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据一种文本识别方法。一种基于文本识别的终端,包括处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现一种文本识别方法。本专利技术的有益效果是:一种文本识别方法,能够对文本进行要素化,并通过对文本中多方面要素进行识别,分析出语义及要素之间的关系,进而得到文本的语义或者含义关系导图,实现对文本的表面语义和隐藏含义的识别;本专利技术识别速度快,耗时短,利于文本识别的实时性。附图说明图1为本专利技术方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本专利技术的描述中,需要说明的是,术语“上”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。如图1所示,一种文本识别方法,所述方法包括以下内容:S1、对输入的文本对象进行预处理并转换为待识别文本的格式;S2、对预处理后的文本进行知识提取得到知识数据;S3、将提取得到的知识数据与基础数据库进行匹配识别。进一步地,所述对预处理后的文本进行知识提取得到知识数据包括的内容如下:S21、根据标点符号对输入文本进行分句,得到句子化文本;S22、对每句句子进行要素化,通过句子要素化对每句句子进行规整,提取出每句话中的各个类别和关键信息。进一步地,所述句子中要素化信息包括名词、动词、形容词、量词和代词中的一种或者多种。名词、动词、形容词、量词和代词中可以报考时间、人物、机构、地点、事件、职位等等通过句子要素化对句子进行规整,以便更好的对每句话分类或者关键信息提取,比如“张三在去年8月通过考试顺利进入数博科技有限责任公司工作”,通过对句子中的时间、人物、机构进行要素化,可以得到一个规整后的句子“$人物在$时间通过考试顺利进入$机构工作”,要素的种类越多越详尽,句子的规整化程度就会越高,相应的提取就会更容易和精确。进一步地,将提取得到的知识数据与基础数据库进行匹配识别包括的内容如下:S31、将提取的所述知识数据往往附带有基础数据的外键,将其与基础数据库中的数据进行匹配识别出知识数据附带的基础数据外键的含义;S32、根据每句话中知识数据之间的要素化信息匹配句子中要素化之间的关系,得到相应的关系规则线,每条关系规则线对应一条语义或者隐藏含义;S33、将所有的关系规则线进行集合得到文本中要素化关系导图,进而得到语义或者含义关系导图。每条关系规则线对应一条或者多条知识关系(语义或含义关系),比如我们有一条要素化的句子:“$机构A的子公司$机构B在$时间C跟$机构D达成了协议E”,针对改句子,我们可以相应的添加规则:“$机构+的+子公司+$机构+在+$时间+跟+$机构+达成(了)+$协议”,对应的输出应该是两条关系:B是A的子公司,B和D是协议关系。进而就可以得到每句话中存在的关系规则性,将所有关系规则线汇总集合就可以得到文本的知识关系(语义或含义关系)导图。进一步地,基础数据库中载入有大量的基础数据,包括机构的全/简称、地址库等;基础数据为其他数据提供识别的基础,比如企业库表数据,本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于:所述方法包括以下内容:/n对输入的文本对象进行预处理并转换为待识别文本的格式;/n对预处理后的文本进行知识提取得到知识数据;/n将提取得到的知识数据与基础数据库进行匹配识别。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于:所述方法包括以下内容:
对输入的文本对象进行预处理并转换为待识别文本的格式;
对预处理后的文本进行知识提取得到知识数据;
将提取得到的知识数据与基础数据库进行匹配识别。


2.根据权利要求1所述的一种文本识别方法,其特征在于:所述对预处理后的文本进行知识提取得到知识数据包括的内容如下:
根据标点符号对输入文本进行分句,得到句子化文本;
对每句句子进行要素化,通过句子要素化对每句句子进行规整,提取出每句话中的各个类别和关键信息。


3.根据权利要求2所述的一种文本识别方法,其特征在于:将提取得到的知识数据与基础数据库进行匹配识别包括的内容如下:
将提取的所述知识数据往往附带有基础数据的外键,将其与基础数据库中的数据进行匹配识别出知识数据附带的基础数据外键的含义;
根据每句话中知识数据之间的要素化信息匹配句子中要素化之间的关系,得到相应的关系规则线,每条关系规则线对应一条语义或者隐藏含义;
将所...

【专利技术属性】
技术研发人员:郭振东
申请(专利权)人:深圳市东恒达智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1