一种多维度文本综合辨识方法技术

技术编号：37346108 阅读：11 留言：0更新日期：2023-04-22 21:40

本发明专利技术公开了一种多维度文本综合辨识方法，包括：获取待辨识文本，并将其划分为多个分句；对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表；对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表；对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语；基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率，得到文本综合辨识结果。本发明专利技术不仅能够对文本进行常识符合性、事实符合度以及文本内容的全维综合辨识，还能够对辨识结果进行可解释性分析，以综合辨识报告的形式呈现。识报告的形式呈现。识报告的形式呈现。

全部详细技术资料下载

【技术实现步骤摘要】
一种多维度文本综合辨识方法

[0001]本专利技术涉及文本检测
，特别是一种多维度文本综合辨识方法。

技术介绍

[0002]随着网络和自媒体技术的不断发展，我们进入了一个知识爆炸的时代。人们在享受互联网带来的便捷和自媒体带来的愉悦的同时，也遭受着虚假新闻、谣言的很多困扰。
[0003]虚假新闻通常分为人工智能合成和人为杜撰两大类别。介于当前大规模预训练语言模型技术发展迅速，基于人工智能合成的虚假新闻已经能够做到了语句流畅、可读性高，但往往会有违背常识的情况出现。人为杜撰的虚假新闻，可以通过人的知识储备，规避违背常识的情况，但又常会存在违反事实的情况。现有的虚假文本智能辨识模型往往基于文本内容本身，不具备常识和事实的冲突检测和真伪辨识能力。如何借助领域常识、客观事实等一系列知识，进行多维度文本综合辨识，是当前亟待解决的问题。

技术实现思路

[0004]鉴于此，本专利技术提供一种多维度文本综合辨识方法，能够结合常识库、事件库等既有客观知识以及文本内容，对文本内容进行综合辨识。
[0005]本专利技术公开了一种多维度文本综合辨识方法，包括：
[0006]获取待辨识文本，并将其划分为多个分句；
[0007]对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表；
[0008]对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表；
[0009]对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语；
[0010...

【技术保护点】

【技术特征摘要】
1.一种多维度文本综合辨识方法，其特征在于，包括：获取待辨识文本，并将其划分为多个分句；对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表；对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表；对所述多个分句进行内容检测，得到第三文本真实概率以及支撑判断结果的句子和词语；基于所述第一文本真实概率、所述第二文本真实概率和所述第三文本真实概率，得到文本综合辨识结果。2.根据权利要求1所述的方法，其特征在于，还包括：将所述常识冲突列表、所述事实冲突列表和所述支撑判断结果的句子和词语进行拼接后，输入可解释性文本生成模型中，得到综合辨识报告。3.根据权利要求1所述的方法，其特征在于，所述对所述多个分句进行常识检测，得到第一文本真实概率和常识冲突列表，包括：抽取所述多个分句中所有的常识知识，并形成常识知识集合；其中，所述常识知识包括头实体、关系和尾实体；从所述常识知识集合的第一个常识知识开始遍历，计算当前遍历的常识知识的头实体和关系的组合分别与常识知识库中所有的头实体和关系的组合之间的相似度，并从所有相似度中选出最大相似度；基于最大相似度和第一预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识；基于相匹配的常识和第二预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识；直至完成所述常识知识集合中所有常识知识的判断为止，最终输出第一文本真实概率和常识冲突列表。4.根据权利要求3所述的方法，其特征在于，所述基于最大相似度和第一预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相匹配的常识，包括：将最大相似度与第一预设阈值进行比较；若最大相似度小于第一预设阈值时，则常识知识库中不存在与当前遍历的常识知识相匹配的常识，将最大相似度作为第一文本真实概率，并同时输出当前遍历的常识在常识知识库中无匹配的注释；在输出当前遍历的常识在常识知识库中无匹配的注释之后，还包括：人工判断当前遍历的常识是否可以采信；若是，则将当前遍历的常识知识存入常识知识库；若最大相似度大于或等于第一预设阈值时，则常识知识库中存在与当前遍历的常识知识相匹配的常识。5.根据权利要求4所述的方法，其特征在于，所述基于相匹配的常识和第二预设阈值，判断常识知识库中是否存在与当前遍历的常识知识相冲突的常识，包括：将常识知识库中相匹配的常识的三元组与当前遍历的常识知识的头实体、关系和尾实体的组合进行相似度计算，得到相似度值，并从相似度值中选出最大相似度值；
将最大相似度值与第二预设阈值进行比较；若最大相似度值小于第二预设阈值，则当前遍历的常识知识与常识知识库中的常识存在冲突，输出最大相似度值和常识冲突列表，其中，最大相似度值为第一文本真实概率；否则，当前遍历的常识知识与常识知识库中的常识不冲突。6.根据权利要求1所述的方法，其特征在于，所述对所述多个分句进行事实检测，得到第二文本真实概率和事实冲突列表，包括...

【专利技术属性】
技术研发人员：高翔，崔莹，代翔，陈伟晴，何健军，潘磊，廖泓舟，丁洪丽，戴礼灿，王侃，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人