文本检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32965646 阅读:8 留言:0更新日期:2022-04-09 11:21
本申请涉及一种文本检测方法、装置、计算机设备和存储介质。所述方法包括:获取待检测文本;检测所述待检测文本的物理结构和/或逻辑结构;根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取。采用本方法能够提高文本检测的准确性。提高文本检测的准确性。提高文本检测的准确性。

【技术实现步骤摘要】
文本检测方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种文本检测方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,出现了文档检测技术,文本检测主要是为了提取文本中的关键信息,从而方便用户根据关键信息以得到文本的内容。
[0003]传统技术中,对于文本信息的提取可以是通过IF

IDF进行,其主要是采用文本逆频率IDF对TF值加权取权值大的作为关键信息。
[0004]然而,IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF

IDF算法的精度并不是很高。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高检测精度的文本检测方法、装置、计算机设备和存储介质。
[0006]一种文本检测方法,所述方法包括:
[0007]获取待检测文本;
[0008]检测所述待检测文本的物理结构和/或逻辑结构;
[0009]根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取。
[0010]在其中一个实施例中,所述检测所述待检测文本的物理结构,包括:
[0011]对所述待检测文本进行处理以得到所述待检测文本中每一分类的物理对象;
[0012]对所述物理对象进行预处理;
[0013]按照所述待检测文本的阅读顺序对预处理后的所述物理对象进行排序,得到所述待检测文本的物理结构。
[0014]在其中一个实施例中,所述对所述物理对象进行预处理包括以下至少一种:
[0015]合并被拆分的物理对象;
[0016]删除冗余的物理对象。
[0017]在其中一个实施例中,所述逻辑结构的检测方法包括:
[0018]获取待检测文本的物理结构;
[0019]根据所述物理结构得到所述待检测文本的标题以及标题关系;
[0020]根据所述标题以及标题关系构建逻辑框架;
[0021]将所述物理结构中除标题以外的物理对象补充进所述逻辑框架中,得到所述待检测文本的逻辑结构。
[0022]在其中一个实施例中,所述根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取,包括:
[0023]根据所述物理结构和/或逻辑结构通过至少一种算法对所述待检测文本进行关键
词提取;
[0024]对各个所述算法提取的待处理关键词进行融合得到初始关键词;
[0025]对所述初始关键词进行后处理得到目标关键词。
[0026]在其中一个实施例中,所述根据所述物理结构和/或逻辑结构通过至少一种算法对所述待检测文本进行关键词提取,包括:
[0027]根据所述物理结构和/或逻辑结构对所述待检测文本进行特征提取;
[0028]将所提取的特征分别输入至少一种算法中以对所述待检测文本进行关键词提取。
[0029]在其中一个实施例中,所述根据所述物理结构和/或逻辑结构对所述待检测文本进行特征提取,包括:
[0030]对所述待检测文本中的物理对象进行分词提取;
[0031]计算所述分词在每一类所述物理对象中的频率;
[0032]根据所述分词在每一类所述物理对象中的频率计算得到逆向文件频率;
[0033]按照所述逆向文件频率对所提取的分词进行排序,并选取排序靠前的预设数量的分词生成特征向量。
[0034]在其中一个实施例中,所述根据所述分词在每一类所述物理对象中的频率计算得到逆向文件频率,包括:
[0035]根据以下公式计算得到每一分词对应的逆向文件频率:
[0036][0037]其中,P(m
k
)为所述分词m在当前的所述物理对象的类别k的频率,P(m
k
)

为所述分词m在其他所述物理对象的类别k的频率。
[0038]在其中一个实施例中,所述将所提取的特征分别输入至少一种算法中以对所述待检测文本进行关键词提取,包括:
[0039]获取所提取的特征的句子标识、位置标识以及字或词向量;
[0040]根据所述句子标识、位置标识以及字或词向量确定每一特征中的分词对应的标签;
[0041]通过概率图模型中的约束条件对所述分词进行滤波处理;
[0042]根据滤波处理后的分词的标签得到关键词。
[0043]在其中一个实施例中,所述获取待检测文本,包括:
[0044]通过多层存储模式的节点获取待检测文本,且当当前执行的节点故障,则从下一层的存储节点中获取对应的节点进行处理,且每一层对应的节点的数据实时备份。
[0045]一种文本检测装置,所述装置包括:
[0046]待检测文本获取模块,用于获取待检测文本;
[0047]检测模块,用于检测所述待检测文本的物理结构和/或逻辑结构;
[0048]提取模块,用于根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取。
[0049]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
[0050]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执
行时实现上述的方法的步骤。
[0051]上述文本检测方法、装置、计算机设备和存储介质,先对待检测文本进行物理结构和/或逻辑结构的检测,从而后续关键词提取的时候可以充分考虑到物理结构和/或逻辑结构,保证了准确性。
附图说明
[0052]图1为一个实施例中文本检测方法的应用环境图;
[0053]图2为一个实施例中文本检测方法的流程示意图;
[0054]图3为一个实施例中双层Redis存储模型的示意图;
[0055]图4为一个实施例中的检测得到的物理对象的示意图;
[0056]图5为一个实施例中对物理对象进行预处理的示意图;
[0057]图6为一个实施例中的物理对象的有序序列的示意图;
[0058]图7为一个实施例中的逻辑结构的实体图;
[0059]图8为另一个实施例中文本检测方法的示意图;
[0060]图9为一个实施例中文本检测装置的结构框图;
[0061]图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0062]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0063]本申请提供的文本检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与数据库104进行通信,其中,终端102用于从数据库104获取到待检测文本,并检测待检测文本的物理结构和/或逻辑结构;根据物理结构和/或逻辑结构对待检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,其特征在于,所述方法包括:获取待检测文本;检测所述待检测文本的物理结构和/或逻辑结构;根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取。2.根据权利要求1所述的方法,其特征在于,所述检测所述待检测文本的物理结构,包括:对所述待检测文本进行处理以得到所述待检测文本中每一分类的物理对象;对所述物理对象进行预处理;按照所述待检测文本的阅读顺序对预处理后的所述物理对象进行排序,得到所述待检测文本的物理结构。3.根据权利要求2所述的方法,其特征在于,所述对所述物理对象进行预处理包括以下至少一种:合并被拆分的物理对象;删除冗余的物理对象。4.根据权利要求2所述的方法,其特征在于,所述逻辑结构的检测方法包括:获取待检测文本的物理结构;根据所述物理结构得到所述待检测文本的标题以及标题关系;根据所述标题以及标题关系构建逻辑框架;将所述物理结构中除标题以外的物理对象补充进所述逻辑框架中,得到所述待检测文本的逻辑结构。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取,包括:根据所述物理结构和/或逻辑结构通过至少一种算法对所述待检测文本进行关键词提取;对各个所述算法提取的待处理关键词进行融合得到初始关键词;对所述初始关键词进行后处理得到目标关键词。6.根据权利要求5所述的方法,其特征在于,所述根据所述物理结构和/或逻辑结构通过至少一种算法对所述待检测文本进行关键词提取,包括:根据所述物理结构和/或逻辑结构对所述待检测文本进行特征提取;将所提取的特征分别输入至少一种算法中以对所述待检测文本进行关键词提取。7.根据权利要求6所述的方法,其特征在于,所述根据所述物理结构和/或逻辑结构对所述待检测文本进行特征提取,包括:对所述待检测文本中的物理对象进行分词提取;计算所述分词在每一类所述物理对象中的频率;根据所...

【专利技术属性】
技术研发人员:张小成张路路涂闪
申请(专利权)人:太平金融科技服务上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1