文本主题的确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31716063 阅读:12 留言:0更新日期:2022-01-01 11:21
本发明专利技术涉及人工智能,提供一种文本主题的确定方法、装置、计算机设备及存储介质。方法包括:根据预设的分句规则将目标文本分成多个文本句子;将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;根据句子向量集合确定各摘要句子分别与各文本句子的余弦相似度,得到包含每个摘要句子与各文本句子的余弦相似度的摘要句子相似度集合;根据摘要句子相似度集合确定各摘要句子的句子重要值;根据句子重要值从多个摘要句子中确定目标文本的文本主题。本发明专利技术实施例使用Bert模型得到的句子向量结合了句子上下文的语义,所以通过使用Bert模型得到的句子向量确定文本主题,可以提高主题抽取的精度。可以提高主题抽取的精度。可以提高主题抽取的精度。

【技术实现步骤摘要】
文本主题的确定方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本主题的确定方法、装置、计算机设备及存储介质。

技术介绍

[0002]一般文章,特别是研究类报告,文章中都会包括摘要文本以及正本文本两部分,为了让读者快速地看到文章的关注点,文章除了总结性的摘要文本,还会有主题,主题一般为摘要的一部分,例如为摘要中的一个或多个句子,但是,很多文章的作者没有标明主题,此时,为了自动识别文章的主题,一般地,会通过寻找文章关键词,然后根据句子中关键词的数量给句子打分,最后选出分数最高的一个或多个句子作为文章的主题。
[0003]但是,该方法忽略了关键句在上下文的含义,主题的抽取特别生硬,导致主题抽取的精度不高。

技术实现思路

[0004]本专利技术实施例提供了一种文本主题的确定方法、装置、计算机设备及存储介质,可以提高文本主题抽取的精度。
[0005]第一方面,本专利技术实施例提供了一种文本主题的确定方法,其包括:
[0006]根据预设的分句规则将目标文本分成多个文本句子;
[0007]将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;
[0008]根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度,得到摘要句子相似度集合;
[0009]根据所述摘要句子相似度集合确定各摘要句子的句子重要值;
[0010]根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。
[0011]第二方面,本专利技术实施例还提供了一种文本主题的确定装置,其包括:
[0012]分句单元,用于根据预设的分句规则将目标文本分成多个文本句子;
[0013]输入单元,用于将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;
[0014]第一确定单元,用于根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度,得到摘要句子相似度集合;
[0015]第二确定单元,用于根据所述摘要句子相似度集合确定各摘要句子的句子重要值;
[0016]第三确定单元,用于根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。
[0017]第三方面,本专利技术实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
[0018]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。
[0019]本专利技术实施例提供了一种文本主题的确定方法、装置、计算机设备及存储介质。其中,所述方法包括:根据预设的分句规则将目标文本分成多个文本句子;将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度,得到摘要句子相似度集合;根据所述摘要句子相似度集合确定各摘要句子的句子重要值;根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。本专利技术实施例使用Bert模型得到的句子向量结合了句子上下文的语义,所以通过使用Bert模型得到的句子向量确定文本主题,可以提高主题抽取的精度。
附图说明
[0020]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的文本主题的确定方法的应用场景示意图;
[0022]图2为本专利技术实施例提供的文本主题的确定方法的流程示意图;
[0023]图3为本专利技术实施例提供的文本主题的确定方法的一子流程示意图;
[0024]图4为本专利技术实施例提供的文本主题的确定方法的另一子流程示意图;
[0025]图5为本专利技术实施例提供的文本主题的确定方法的另一子流程示意图;
[0026]图6为本专利技术实施例提供的文本主题的确定装置的示意性框图;
[0027]图7为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0030]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0031]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0032]本专利技术实施例提供了一种文本主题的确定方法、装置、计算机设备及存储介质。
[0033]该文本主题的确定方法的执行主体可以是本专利技术实施例提供的文本主题的确定
装置,或者集成了该文本主题的确定装置的计算机设备,其中,该文本主题的确定装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
[0034]请参阅图1,图1为本专利技术实施例提供的文本主题的确定方法的应用场景示意图。该文本主题的确定方法应用于图1中的计算机设备10中,该计算机设备10根据预设的分句规则将目标文本分成多个文本句子;将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度,得到摘要句子相似度集合;根据所述摘要句子相似度集合确定各摘要句子的句子重要值;根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。
[0035]图2是本专利技术实施例提供的文本主题的确定方法的流程示意图。如图2所示,该方法包括以下步骤S110

150。
[0036]S110、根据预设的分句规则将目标文本分成多个文本句子。
[0037]其中,所述目标文本包括摘要文本以及正文文本,目标文本为需要进行主题抽取的文本,例如,是从金融机构官方微信公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本主题的确定方法,其特征在于,包括:根据预设的分句规则将目标文本分成多个文本句子;将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度,得到摘要句子相似度集合;根据所述摘要句子相似度集合确定各摘要句子的句子重要值;根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。2.根据权利要求1所述的方法,其特征在于,所述根据所述摘要句子相似度集合确定各摘要句子的句子重要值,包括:将所述摘要句子相似度集合中大于或等于预设相似度阈值的余弦相似度化为1,将根据所述摘要句子相似度集合中小于所述预设相似度阈值的余弦相似度化为0,得到第一摘要相似度集合;根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值,包括:获取各摘要句子的句子长度,以及获取各摘要句子的第一摘要相似度中元素值为1的元素个数;针对各摘要句子的第一摘要相似度中的每个第一元素,将所述第一元素乘以对应的句子长度并除以对应的元素个数,得到由各摘要句子的第二摘要相似度组成的第二摘要相似度集合;根据所述第二摘要相似度集合确定各摘要句子的句子重要值。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值,包括:根据所述句子向量集合确定各文本句子间的余弦相似度,得到文本句子相似度集合;将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值,得到包含所述各文本句子的文本重要值的文本重要值集合;针对各摘要句子的第二摘要相似度中的每个第二元素,将所述第二元素乘以所述文本重要值集合中与所述第二元素对应的文本重要值,得到多个元素重要值;针对各摘要句子,将对应的元素重要值进行累加处理,得到各摘要句子的句子重要值。5.根据权利要求4所述的方法,其特征在于,所述根据所述句子向量集合确定各文本句子间的余弦相似度,得到文本句子相似度集合之后,所述方法还包括:根据聚类算法对所述文本句子相似度集合进行聚类处理,得到多个簇的文本句子相似度子集...

【专利技术属性】
技术研发人员:于连涛
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1