一种多维度文本综合辨识方法技术

技术编号:37346108 阅读:11 留言:0更新日期:2023-04-22 21:40
本发明专利技术公开了一种多维度文本综合辨识方法,包括:获取待辨识文本,并将其划分为多个分句;对所述多个分句进行常识检测,得到第一文本真实概率和常识冲突列表;对所述多个分句进行事实检测,得到第二文本真实概率和事实冲突列表;对所述多个分句进行内容检测,得到第三文本真实概率以及支撑判断结果的句子和词语;基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率,得到文本综合辨识结果。本发明专利技术不仅能够对文本进行常识符合性、事实符合度以及文本内容的全维综合辨识,还能够对辨识结果进行可解释性分析,以综合辨识报告的形式呈现。识报告的形式呈现。识报告的形式呈现。

【技术实现步骤摘要】
一种多维度文本综合辨识方法


[0001]本专利技术涉及文本检测
,特别是一种多维度文本综合辨识方法。

技术介绍

[0002]随着网络和自媒体技术的不断发展,我们进入了一个知识爆炸的时代。人们在享受互联网带来的便捷和自媒体带来的愉悦的同时,也遭受着虚假新闻、谣言的很多困扰。
[0003]虚假新闻通常分为人工智能合成和人为杜撰两大类别。介于当前大规模预训练语言模型技术发展迅速,基于人工智能合成的虚假新闻已经能够做到了语句流畅、可读性高,但往往会有违背常识的情况出现。人为杜撰的虚假新闻,可以通过人的知识储备,规避违背常识的情况,但又常会存在违反事实的情况。现有的虚假文本智能辨识模型往往基于文本内容本身,不具备常识和事实的冲突检测和真伪辨识能力。如何借助领域常识、客观事实等一系列知识,进行多维度文本综合辨识,是当前亟待解决的问题。

技术实现思路

[0004]鉴于此,本专利技术提供一种多维度文本综合辨识方法,能够结合常识库、事件库等既有客观知识以及文本内容,对文本内容进行综合辨识。
[0005]本专利技术公开了一种多维度文本综合辨识方法,包括:
[0006]获取待辨识文本,并将其划分为多个分句;
[0007]对所述多个分句进行常识检测,得到第一文本真实概率和常识冲突列表;
[0008]对所述多个分句进行事实检测,得到第二文本真实概率和事实冲突列表;
[0009]对所述多个分句进行内容检测,得到第三文本真实概率以及支撑判断结果的句子和词语;
[0010]基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率,得到文本综合辨识结果。
[0011]进一步地,还包括:
[0012]将所述常识冲突列表、所述事实冲突列表和所述支撑判断结果的句子和词语进行拼接后,输入可解释性文本生成模型中,得到综合辨识报告。
[0013]进一步地,所述对所述多个分句进行常识检测,得到第一文本真实概率和常识冲突列表,包括:
[0014]抽取所述多个分句中所有的常识知识,并形成常识知识集合;其中,所述常识知识包括头实体、关系和尾实体;
[0015]从所述常识知识集合的第一个常识知识开始遍历,计算当前遍历的常识知识的头实体和关系的组合分别与常识知识库中所有的头实体和关系的组合之间的相似度,并从所有相似度中选出最大相似度;
[0016]基于最大相似度和第一预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识;
[0017]基于相匹配的常识和第二预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识;
[0018]直至完成所述常识知识集合中所有常识知识的判断为止,最终输出第一文本真实概率和常识冲突列表。
[0019]进一步地,所述基于最大相似度和第一预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识,包括:
[0020]将最大相似度与第一预设阈值进行比较;
[0021]若最大相似度小于第一预设阈值时,则常识知识库中不存在与当前遍历的常识知识相匹配的常识,将最大相似度作为第一文本真实概率,并同时输出当前遍历的常识在常识知识库中无匹配的注释;
[0022]在输出当前遍历的常识在常识知识库中无匹配的注释之后,还包括:
[0023]人工判断当前遍历的常识是否可以采信;若是,则将当前遍历的常识知识存入常识知识库;
[0024]若最大相似度大于或等于第一预设阈值时,则常识知识库中存在与当前遍历的常识知识相匹配的常识。
[0025]进一步地,所述基于相匹配的常识和第二预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识,包括:
[0026]将常识知识库中相匹配的常识的三元组与当前遍历的常识知识的头实体、关系和尾实体的组合进行相似度计算,得到相似度值,并从相似度值中选出最大相似度值;
[0027]将最大相似度值与第二预设阈值进行比较;
[0028]若最大相似度值小于第二预设阈值,则当前遍历的常识知识与常识知识库中的常识存在冲突,输出最大相似度值和常识冲突列表,其中,最大相似度值为第一文本真实概率;否则,当前遍历的常识知识与常识知识库中的常识不冲突。
[0029]进一步地,所述对所述多个分句进行事实检测,得到第二文本真实概率和事实冲突列表,包括:
[0030]从所述多个分句中抽取所有的事件句,并形成事件句集合;
[0031]对每个事件句进行要素抽取,得到每个事件句对应的要素;其中,所述要素为事件时间、事件地点、事件主体、事件客体、事件触发词;
[0032]从所述事件句集合的第一个事件句开始遍历,对于当前遍历的事件句的事实检测,将当前遍历的事件句与其对应的要素进行组合,作为一个文本;
[0033]计算文本与领域事件库中每个事件句的相似度,并从相似度中选出最大值;
[0034]若最大值小于第三预设阈值,则将最大值作为第二文本真实概率输出,并备注领域事件库中没有与文本匹配的事件;
[0035]若最大值大于或等于第三预设阈值,则计算文本的文本描述与最大值在所述事件句集合中对应的事件句的文本描述之间的相似度,记为第一相似度;
[0036]基于第一相似度和第四预设阈值,判断文本是否与领域事件库中的事件句相冲突;
[0037]直至完成所述事件句集合中所有事件句的事实检测为止,输出第二文本真实概率和事实冲突列表。
[0038]进一步地,在计算文本与领域事件库中每个事件句的相似度,并从相似度中选出最大值之前,还包括:
[0039]分别通过预训练语言模型得到所述文本和所述领域事件库中所有事件对应的嵌入表示。
[0040]进一步地,所述基于第一相似度和第四预设阈值,判断文本是否与领域事件库中的事件句相冲突,包括:
[0041]若第一相似度大于或等于第四预设阈值,则设置采信阈值,当第四预设阈值大于采信阈值时,将文本判为高可信度事件,并将其加入领域事件库;
[0042]若第一相似度小于第四预设阈值,则文本与领域事件库中的事件存在冲突,输出事实冲突项列表和第一相似度;其中,第一相似度为第二文本真实概率。
[0043]进一步地,所述对所述多个分句进行内容检测,得到第三文本真实概率以及支撑判断结果的句子和词语,包括:
[0044]分别对所述多个分句进行关键词识别,得到每个关键词对应的关键度;
[0045]对所有关键度按照降序进行排列,得到关键度集合;
[0046]将文本虚假检查的最长输入字符长度记为len_max,截取关键度集合中前u个句子,u个句子的字符总数记为char
u
,确保char
u
≤len_max,char
u+1
<len_max,若char
n
≤len_max,则令u=n;
[0047]将u个句子组成的新文本输入预训练语言模型,进行虚假性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多维度文本综合辨识方法,其特征在于,包括:获取待辨识文本,并将其划分为多个分句;对所述多个分句进行常识检测,得到第一文本真实概率和常识冲突列表;对所述多个分句进行事实检测,得到第二文本真实概率和事实冲突列表;对所述多个分句进行内容检测,得到第三文本真实概率以及支撑判断结果的句子和词语;基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率,得到文本综合辨识结果。2.根据权利要求1所述的方法,其特征在于,还包括:将所述常识冲突列表、所述事实冲突列表和所述支撑判断结果的句子和词语进行拼接后,输入可解释性文本生成模型中,得到综合辨识报告。3.根据权利要求1所述的方法,其特征在于,所述对所述多个分句进行常识检测,得到第一文本真实概率和常识冲突列表,包括:抽取所述多个分句中所有的常识知识,并形成常识知识集合;其中,所述常识知识包括头实体、关系和尾实体;从所述常识知识集合的第一个常识知识开始遍历,计算当前遍历的常识知识的头实体和关系的组合分别与常识知识库中所有的头实体和关系的组合之间的相似度,并从所有相似度中选出最大相似度;基于最大相似度和第一预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识;基于相匹配的常识和第二预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识;直至完成所述常识知识集合中所有常识知识的判断为止,最终输出第一文本真实概率和常识冲突列表。4.根据权利要求3所述的方法,其特征在于,所述基于最大相似度和第一预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识,包括:将最大相似度与第一预设阈值进行比较;若最大相似度小于第一预设阈值时,则常识知识库中不存在与当前遍历的常识知识相匹配的常识,将最大相似度作为第一文本真实概率,并同时输出当前遍历的常识在常识知识库中无匹配的注释;在输出当前遍历的常识在常识知识库中无匹配的注释之后,还包括:人工判断当前遍历的常识是否可以采信;若是,则将当前遍历的常识知识存入常识知识库;若最大相似度大于或等于第一预设阈值时,则常识知识库中存在与当前遍历的常识知识相匹配的常识。5.根据权利要求4所述的方法,其特征在于,所述基于相匹配的常识和第二预设阈值,判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识,包括:将常识知识库中相匹配的常识的三元组与当前遍历的常识知识的头实体、关系和尾实体的组合进行相似度计算,得到相似度值,并从相似度值中选出最大相似度值;
将最大相似度值与第二预设阈值进行比较;若最大相似度值小于第二预设阈值,则当前遍历的常识知识与常识知识库中的常识存在冲突,输出最大相似度值和常识冲突列表,其中,最大相似度值为第一文本真实概率;否则,当前遍历的常识知识与常识知识库中的常识不冲突。6.根据权利要求1所述的方法,其特征在于,所述对所述多个分句进行事实检测,得到第二文本真实概率和事实冲突列表,包括...

【专利技术属性】
技术研发人员:高翔崔莹代翔陈伟晴何健军潘磊廖泓舟丁洪丽戴礼灿王侃
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1