文本检测方法、相似度计算方法、模型训练方法及装置制造方法及图纸

技术编号:24353573 阅读:36 留言:0更新日期:2020-06-03 02:05
本说明书实施例提供一种文本检测方法、相似度计算方法、模型训练方法、装置及设备。获取第二文本以及待检测的第一文本,生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n‑元笔画向量,将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度,基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。基于文本各词语的n元笔画向量计算文本相似度,可以从更粒度地提取词语之间的关联,也解决了预测中出现新词语的问题,可以有效检测测出目标类别的文本。

Text detection method, similarity calculation method, model training method and device

【技术实现步骤摘要】
文本检测方法、相似度计算方法、模型训练方法及装置
本说明书涉及计算机
,尤其涉及一种文本检测方法、相似度计算方法、模型训练方法、装置及设备。
技术介绍
在某些情况下,需要检测出满足一定条件的目标类别的文本。通常,在检测一个文本是否为目标类别的文本时,可以将该文本与一个目标类别的文本进行比对,如果两者相似度较高,即可判定该文本属于目标类别,因此准确地计算文本的相似度显得非常关键。举个例子,有些不法分子会采取非法手段对一些保险服务进行骗保,比如,不法分子通过建立QQ群进行团伙骗保作案,针对这种骗保方式,仅通过常规的地理位置、账号注册设备等信息分析,已经不能很好的抓取团伙成员。经过对骗保理赔文本的仔细研究,发现在同一个作案团伙中,骗保团伙成员填写的保险理赔文本在语义上非常相似,因此可以通过文本语义分析的手段,挖掘潜在的骗保团队成员。为了更有效和更准确的识别出目标类别的文本,有必要对文本相似度的计算方法和文本的检测方法加以改进。
技术实现思路
基于此,本说明书提供了一种文本检测方法、相似度计算方法、模型训练方法、装置及设备。根据本说明书实施例的第一方面,提供一种目标文本的检测方法,所述方法包括:获取第二文本以及待检测的第一文本;生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;>基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。根据本说明书实施例的第二方面,提供一种文本相似度计算模型的训练方法,所述方法包括:获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。根据本说明书实施例的第三方面,提供一种确定文本相似度的方法,所述方法包括:获取至少两个文本;生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;将所述至少两个文本以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本之间的相似度。根据本说明书实施例的第四方面,提供一种目标文本的检测装置,所述装置包括:获取模块,用于获取第二文本以及待检测的第一文本;向量生成模块,用于生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;计算模块,用于将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;判定模块,用基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。根据本说明书实施例的第五方面,提供一种文本相似度计算模型的训练装置,所述装置包括:获取模块,用于获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;向量生成模块,用于生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;训练模块,用于根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。根据本说明书实施例的第六方面,提供一种确定文本相似度的装置,所述装置包括:获取模块,用于至少两个文本;向量生成模块,用于生成所述至少两个文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;计算模块,用于将所述至少两个文本中的各词语以及所述向量集合输入到预先训练的文本相似度计算模型,计算所述文本中两两文本的相似度。根据本说明书实施例的第七方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。应用本说明书实施例方案,一方面,在进行文本相似度计算模型的训练时,将了训练文本中各词语的词向量外,还将各词语的n元笔画向量作为模型输入,对模型进行训练,可以在更细的粒度上刻画中文词语的语义信息,也可以将更多的训练数据中未出现的词语,通过n元笔画向量也进行刻画,使得模型计算的文本相似度更加准确。另一方面,在计算文本之间的相似性时,将文本中各词语的词向量以及n元笔画向量作为特征输入到预先训练的模型中进行相似度计算,可以从更粒度地提取词语之间的关联,也解决了预测中出现新词语的问题,使得计算结果更加准确。通过这种方式,可以更加准确地计算文本之间的相似度,也可以更加准确地通过文本的相似度检测出目标类别的文本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。图1是本说明书一个实施例的一种文本相似度计算模型训练方法流程图。图2是本说明书一个实施例的一种文本相似度计算方法的流程图。图3是本说明书一个实施例的一种目标类别的文本的检测方法流程图。图4是本说明书一个实施例的一种文本相似度计算模型训练装置的逻辑结构框图。图5是本说明书一个实施例的一种文本相似度计算装置的逻辑结构框图。图6是本说明书一个实施例的一种目标类别的文本的检测装置的逻辑结构框图。图7是本说明书一个实施例的用于实施本说明书方法的计算机设备的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使本文档来自技高网...

【技术保护点】
1.一种目标类别的文本的检测方法,所述方法包括:/n获取第二文本以及待检测的第一文本;/n生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;/n将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;/n基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。/n

【技术特征摘要】
1.一种目标类别的文本的检测方法,所述方法包括:
获取第二文本以及待检测的第一文本;
生成所述第一文本以及所述第二文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
将所述第一文本中各词语、所述第二文本中各词语以及所述向量集合输入到预先训练的文本相似度计算模型,以计算所述第一文本和第二文本的相似度;
基于所述相似度以及所述第二文本的类别确定所述第一文本是否为目标类别的文本。


2.根据权利要求1所述的检测方法,所述向量集合还包括所述词语的n-元拼音向量。


3.根据权利要求1所述的检测方法,生成所述第一文本以及所述第二文本中各词语的向量集合之前,所述方法还包括:
对所述第一文本以及第二文本进行分词处理,得到一个或多个词语。


4.根据权利要求1所述的检测方法,所述第二文本的类别通过无监督学习模型得到。


5.根据权利要求1所述的检测方法,所述文本相似度计算模型基于第一训练文本中的各词语、第二训练文本中的各词语、以及由第一训练文本中的各词语和第二训练文本中的各词语的词向量和n元笔画向量构成的向量集合训练得到。


6.根据权利要求1所述的检测方法,所述文本相似度计算模型为DSSM模型。


7.一种文本相似度计算模型的训练方法,所述方法包括:
获取第一训练文本、第二训练文本以及所述第一训练文本与所述第二训练文本的相似度;
生成所述第一训练文本和所述第二训练文本中各词语的向量集合,所述向量集合包括所述词语的词向量以及n-元笔画向量;
根据所述第一训练文本中的各词语、所述第二训练文本中的各词语、所述向量集合以及所述相似度训练得到所述文本相似度计算模型。


8.一种确定文本相似度的方法,所述方法包括:
获取至少两个文本;
生成所述至少两个文本中各...

【专利技术属性】
技术研发人员:曹绍升
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1