一种信息提取方法技术

技术编号:39817088 阅读:11 留言:0更新日期:2023-12-22 19:36
本申请实施例提供了一种信息提取方法

【技术实现步骤摘要】
一种信息提取方法、装置、设备及存储介质


[0001]本专利技术实施例涉及人工智能
,尤其涉及一种信息提取方法

装置

设备及存储介质


技术介绍

[0002]随着开源概念的逐步深入,开源软件的规模和重要性都在不断增长,但开源软件的使用受到开源许可证的制约,为了保证许可证使用的合规性,许可证条款的提取是重中之重,许可证条款提取可以帮助开发者和用户了解特定软件的条件

保护软件开发者的知识产权

[0003]相关技术下,通过人工对许可证进行分析,以提取其中的许可证条款,然而,该方法费时费力,且效率较低


技术实现思路

[0004]本申请实施例提供了一种信息提取方法

装置

设备及存储介质,用于提高许可证提取的效率

[0005]一方面,本申请实施例提供了一种信息提取方法,包括:
[0006]获取待处理许可证文本;
[0007]将所述待处理许可证文本切分为多个子文本信息;
[0008]将所述多个子文本信息,输入已训练的生成对抗网络模型中的生成器进行处理,确定所述待处理许可证文本中的至少一个许可证条款,所述已训练的生成对抗网络模型是基于标注的真实许可证条款集合训练获得的

[0009]本申请实施例中,通过将待处理的许可证文本切分为多个子文本信息后,将多个子文本信息输入生成对抗网络模型中的生成器后,可以确定待处理许可证文本的至少一个许可证条款,实现了自动对待处理许可证文本中的许可证条款的提取,避免了人工提取费时费力,提升了许可证条款提取的效率

[0010]可选地,所述将所述多个子文本信息,输入已训练的生成对抗网络模型中的生成器进行处理,确定所述待处理许可证文本中的至少一个许可证条款之后,包括:
[0011]针对每个许可证条款,若所述许可证条款与合规参考信息之间的相似度大于预设阈值,则确定所述许可证条款为合规条款;
[0012]若所述许可证条款与合规参考信息之间的相似度小于等于预设阈值,则确定所述许可证条款为不合规条款,并触发告警

[0013]本申请实施例中,通过对每个许可证条款与合规参考信息之间进行比较,可以确定每个许可证条款是否为合规的,实现了在自动提取许可证条款的同时,还可以对提取到的许可证条款的合规性进行判断,避免了提取的许可证条款因不合规而导致无法使用的问题

[0014]可选地,还包括:
[0015]对所述许可证条款进行随机哈希操作,确定所述许可证条款的目标签名;
[0016]基于所述目标签名与所述合规参考信息中相同元素的数量,以及所述目标签名中的总元素数量,确定所述许可证条款与所述合规参考信息之间的相似度

[0017]本申请实施例中,通过确定许可证条款的目标签名,可以进而得到许可证条款与合规参考信息之间的相似度,可以得到许可证条款与合规参考信息之间的相似度,通过相似度可以判断许可证条款是否合规

[0018]可选地,所述对所述许可证条款进行随机哈希操作,确定所述许可证条款的目标签名,包括:
[0019]将所述许可证条款表示成多个语言模型;
[0020]对所述多个语言模型分别进行随机哈希操作,获得多个哈希值;
[0021]将所述多个哈希值中的最小哈希值,作为所述许可证条款的目标签名

[0022]本申请实施例中,通过使用语言模型,可以判断生成器生成的许可证条款语句是否为合理的,避免了生成的许可证条款不符合常理的问题

[0023]可选地,所述已训练的生成对抗网络模型是基于标注的真实许可证条款集合训练获得的,包括:
[0024]采用标注的真实许可证条款集合,对待训练的生成对抗网络模型进行迭代训练,直到满足迭代停止条件,获得所述已训练的生成对抗网络模型,其中,每次迭代过程包括以下步骤:
[0025]通过待训练的生成对抗网络模型中的生成器,基于随机噪声和预设的限定条件,生成预测许可证条款;
[0026]通过待训练的生成对抗网络模型中的判别器,对所述预测许可证条款和相应的真实许可证条款进行区分判别,获得判别结果;
[0027]采用所述判别结果对所述待训练的生成对抗网络模型进行参数调整

[0028]本申请实施例中,通过添加随机噪声,可以降低模型的敏感性,提升模型的泛化能力

通过添加预设的限定条件,可以按照需求生成预测许可证条款

通过判别器对预测许可证条款和真实许可证条款进行区分判别,可以提升模型的精确性

[0029]可选地,还包括:
[0030]将预设时段内记录的合规条款,对所述已训练的生成对抗网络模型进行微调训练,获得更新后的生成对抗网络模型

[0031]本申请实施例中,通过不断更新生成对抗网络模型,可以使得模型的准确性更高,同时提升许可证条款的多样性

[0032]可选地,所述生成对抗网络模型为不对称的网络模型

[0033]一方面,本申请实施例提供了一种信息提取装置,包括:
[0034]获取模块,用于获取待处理许可证文本;
[0035]切分模块,用于将所述待处理许可证文本切分为多个子文本信息;
[0036]处理模块,用于将所述多个子文本信息,输入已训练的生成对抗网络模型中的生成器进行处理,确定所述待处理许可证文本中的至少一个许可证条款,所述已训练的生成对抗网络模型是基于标注的真实许可证条款集合训练获得的

[0037]可选地,所述处理模块具体用于:
[0038]针对每个许可证条款,若所述许可证条款与合规参考信息之间的相似度大于预设阈值,则确定所述许可证条款为合规条款;
[0039]若所述许可证条款与合规参考信息之间的相似度小于等于预设阈值,则确定所述许可证条款为不合规条款,并触发告警

[0040]可选地,所述处理模块还用于:
[0041]对所述许可证条款进行随机哈希操作,确定所述许可证条款的目标签名;
[0042]基于所述目标签名与所述合规参考信息中相同元素的数量,以及所述目标签名中的总元素数量,确定所述许可证条款与所述合规参考信息之间的相似度

[0043]可选地,所述处理模块还用于:
[0044]将所述许可证条款表示成多个语言模型;
[0045]对所述多个语言模型分别进行随机哈希操作,获得多个哈希值;
[0046]将所述多个哈希值中的最小哈希值,作为所述许可证条款的目标签名

[0047]可选地,所述处理模块具体用于:
[0048]采用标注的真实许可证条款集合,对待训练的生成对抗网络模型进行迭代训练,直到满足迭代停止条件,获得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种信息提取方法,其特征在于,包括:获取待处理许可证文本;将所述待处理许可证文本切分为多个子文本信息;将所述多个子文本信息,输入已训练的生成对抗网络模型中的生成器进行处理,确定所述待处理许可证文本中的至少一个许可证条款,所述已训练的生成对抗网络模型是基于标注的真实许可证条款集合训练获得的
。2.
如权利要求1所述的方法,其特征在于,所述将所述多个子文本信息,输入已训练的生成对抗网络模型中的生成器进行处理,确定所述待处理许可证文本中的至少一个许可证条款之后,包括:针对每个许可证条款,若所述许可证条款与合规参考信息之间的相似度大于预设阈值,则确定所述许可证条款为合规条款;若所述许可证条款与合规参考信息之间的相似度小于等于预设阈值,则确定所述许可证条款为不合规条款,并触发告警
。3.
如权利要求2所述的方法,其特征在于,还包括:对所述许可证条款进行随机哈希操作,确定所述许可证条款的目标签名;基于所述目标签名与所述合规参考信息中相同元素的数量,以及所述目标签名中的总元素数量,确定所述许可证条款与所述合规参考信息之间的相似度
。4.
如权利要求3所述的方法,其特征在于,所述对所述许可证条款进行随机哈希操作,确定所述许可证条款的目标签名,包括:将所述许可证条款表示成多个语言模型;对所述多个语言模型分别进行随机哈希操作,获得多个哈希值;将所述多个哈希值中的最小哈希值,作为所述许可证条款的目标签名
。5.
如权利要求2所述的方法,其特征在于,所述已训练的生成对抗网络模型是基于标注的真实许可证条款集合训练获得的,包括:采用标注的真实许可证条款集合,对待训练的生成对抗网络模型进行迭代训练,直到满足迭代停止条件,获得...

【专利技术属性】
技术研发人员:徐文想何晔高思雨
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1