当前位置: 首页 > 专利查询>张仲维专利>正文

一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法技术

技术编号:39822421 阅读:22 留言:0更新日期:2023-12-22 19:42
本发明专利技术涉及一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法

【技术实现步骤摘要】
一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法


[0001]本专利技术涉及自然语言处理
,尤其是一种文本知识自动获取方法,更具体涉及一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法


技术介绍

[0002]文本知识获取是一种从自由文本
(
如网络博客

新闻

电子书籍

维基百科等
)
中,获取句子文本形式的知识的任务,通常是给定一个大规模的语料库,从中自动地获取大量文本知识,这些知识一般包括常识知识

概念的定义以及一些大众熟知的事实等

[0003]文本形式的知识可用于智能问答

知识推理等基于知识库的多个领域

以知识推理领域为例,知识推理对于人工智能的可解释性和鲁棒性十分重要,传统的符号推理方法和基于知识图谱的推理方法存在难以处理复杂知识

人工标注成本高

无法自动获取知识

难以推广应用等问题,近年来,越来越多的研究开始关注文本知识推理

文本知识推理所选用知识库的质量和规模对推理效果影响巨大,一个质量高规模大的知识库可能直接包含假设或与假设相似的知识,不需要推理就能得出假设结论,而一个质量低规模小的知识库可能导致推理不出结论或者推理出错误的结果

文本知识自动获取方法为文本知识推理提供大量的高质量文本知识,是实现文本知识推理必不可少的环节

[0004]目前已有的文本知识获取方法,抽取出的知识形式过于简单,无法应用到复杂的推理任务中;已有的文本知识库,规模较小,无法满足大规模知识推理的需求,亟需一种可以从自由文本中自动获取大规模高质量文本知识的方法


技术实现思路

[0005]针对现有技术的不足,本专利技术提出一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法

本专利技术采用从粗粒度到细粒度两阶段的方式,首先收集大规模自由文本,在初步的数据预处理后,根据基于词汇

语法

句法和开放式信息抽取结果设计粗粒度的筛选规则,将不是知识的句子从上述文本中过滤掉,得到粗粒度的候选知识集;然后基于预训练语言模型训练一个知识分类器,对上述候选知识集中的句子按照是否是知识进行的细粒度分类,将分类结果为知识的句子视为获取的文本知识;最后对该文本知识进行去重操作,从而得到最终的文本知识,并对其进行准确率评价,验证所获知识的合理性

[0006]本专利技术的技术方案为
: 一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法,包括以下步骤:
[0007]S1)、
收集大规模自由文本
(
如网络博客

新闻

电子书籍

维基百科等
)
,对收集到的文本进行分句

清洗等预处理,去除文本里存在的噪音;
[0008]S2)、
对于步骤
S1)
所得的去噪文本,根据基于词汇

语法

句法和开放式信息抽取结果设计出筛选规则,将不是知识的句子从上述文本中过滤掉,得到候选知识集;
[0009]S3)、
基于预训练语言模型训练知识分类器,对步骤
S2)
所产生的候选知识集的候
选句子按照是否是知识进行分类,将分类结果为知识的句子视为获取的文本知识;
[0010]S4)、
对步骤
S3)
所产生的文本知识进行去重操作,从而得到最终的自动获取的文本知识;
[0011]S5)、
对步骤
S4)
所产生的文本知识进行准确率评价,验证所获文本知识的合理性

[0012]上述方法中,步骤
S1)
中,对收集到的文本进行分句

清洗等预处理,去除文本里存在的噪音,具体如下:
[0013]连续的多个空白字符只保留一个,对文本进行分句;
[0014]去除包含感叹号

疑问号的句子;
[0015]去除有效字符少于
15
或字符数大于
200
的句子;
[0016]去除长度短于3个词或长度长于
40
个词的句子;
[0017]去除包含特殊符号和只有左括号或者右括号的句子

[0018]上述方法中,步骤
S2)
中,对于步骤
S1)
所得的去噪文本,根据基于词汇

语法

句法和开放式信息抽取结果设计出筛选规则,将不是知识的句子从上述文本中过滤掉,具体如下:
[0019]基于词汇的筛选规则包括:去除包含特定类型如货币

作品

法律等命名实体词的句子

去除包含感叹词和语气词的句子

去除包含某些指向非知识语境的词汇的句子;
[0020]基于语法的筛选规则包括:去除包含性别第三人称代词的句子

去除句首是指示代词的句子

去除同时包含第一人称和第二人称代词的句子

去除包含专有名词的句子;
[0021]基于句法的筛选规则包括:去除核心词是过去时态的句子

去除包含集体代词且此前未出现名词的句子;
[0022]基于开放式信息抽取结果的筛选规则包括:去除开放式信息抽取结果为空的句子

去除开放式信息抽取结果中主谓宾三元组均不完整的句子

其中,开放式信息抽取是指给定一个自然语言句子,以
(
主语
, 关系
, 宾语
)
三元组的形式抽取信息

[0023]上述方法中,步骤
S3)
中,基于预训练模型训练知识分类器,具体如下:
[0024]使用人工标注好的知识辨别数据集对预训练语言模型,如
BERT、RoBERTa
等进行微调

其中知识辨别数据集由正样本和负样本两类数据组成,正样本的形式是
(
知识,
1)
这样的二元组;负样本的形式为
(
非知识,
0)
这样的二元组

[0025]知识辨别数据集的人工构造过程遵循以下标注规则:一般性的事实
(
即对某一类事物的客观的概括性的总结
)、
规则

概念定义

科学定理

公理等应标注为正样本;某个特定事实
...

【技术保护点】

【技术特征摘要】
1.
一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法,其特征在于,包括以下步骤:
S1)、
收集大规模自由文本(如网络博客

新闻

电子书籍

维基百科等),对收集到的文本进行分句

清洗等预处理,去除文本里存在的噪音;
S2)、
对于步骤
S1)
所得的去噪文本,根据基于词汇

语法

句法和开放式信息抽取结果设计出筛选规则,将明显不是知识的句子从上述文本中过滤掉,得到候选知识集;
S3)、
基于预训练语言模型训练知识分类器,对步骤
S2)
所产生的候选知识集的候选句子按照是否是知识进行分类,将分类结果为知识的句子视为获取的文本知识;
S4)、
对步骤
S3)
所产生的文本知识进行去重操作,从而得到最终的自动获取的文本知识;
S5)、
对步骤
S4)
所产生的文本知识进行准确率评价,验证所获文本知识的合理性
。2.
根据权利要求1所述的一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法,其特征在于:步骤
S2)
中,对于步骤
S1)
所得的去噪文本,根据基于词汇

语法

句法和开放式信息抽取结果设计出筛选规则,将明显不是知识的句子从上述文本中过滤掉,具体如下:基于词汇的筛选规则包括:去除包含特定类型如货币

作品

法律等命名实体词的句子

去除包含感叹词和语气词的句子

去除包含某些指向非知识语境的词汇的句子;基于语法的筛选规则包括:去除包含性别第三人称代词的句子

去除句首是指示代词的句子

去除同时包含第一人称和第二人称代词的句子

去除包含专有名词的句子;基于句法的筛选规则包括:去除核心词是过去时态的句子

去除包含集体代词且此前未出现名词的句子;基于开放式信息抽取结果的筛选规则包括:去除开放式信息抽取结果为空的句子

去除开放式信息抽取结果中主谓宾三元组均不完整的句子

其中,开放式信息抽取是指给定一个自然...

【专利技术属性】
技术研发人员:张仲维陈涛贾旭东黄智胜
申请(专利权)人:张仲维
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1