【技术实现步骤摘要】
一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法
[0001]本专利技术涉及自然语言处理
,尤其是一种文本知识自动获取方法,更具体涉及一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法
。
技术介绍
[0002]文本知识获取是一种从自由文本
(
如网络博客
、
新闻
、
电子书籍
、
维基百科等
)
中,获取句子文本形式的知识的任务,通常是给定一个大规模的语料库,从中自动地获取大量文本知识,这些知识一般包括常识知识
、
概念的定义以及一些大众熟知的事实等
。
[0003]文本形式的知识可用于智能问答
、
知识推理等基于知识库的多个领域
。
以知识推理领域为例,知识推理对于人工智能的可解释性和鲁棒性十分重要,传统的符号推理方法和基于知识图谱的推理方法存在难以处理复杂知识
、
人工标注成本高
、
无法自动获取知识
、
难以推广应用等问题,近年来,越来越多的研究开始关注文本知识推理
。
文本知识推理所选用知识库的质量和规模对推理效果影响巨大,一个质量高规模大的知识库可能直接包含假设或与假设相似的知识,不需要推理就能得出假设结论,而一个质量低规模小的知识库可能导致推理不出结论或者推理出错误的结果
。
文本知识自动获取方法为文本知识推理提供大量的高质量文本知识,是实现文本知识
【技术保护点】
【技术特征摘要】
1.
一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法,其特征在于,包括以下步骤:
S1)、
收集大规模自由文本(如网络博客
、
新闻
、
电子书籍
、
维基百科等),对收集到的文本进行分句
、
清洗等预处理,去除文本里存在的噪音;
S2)、
对于步骤
S1)
所得的去噪文本,根据基于词汇
、
语法
、
句法和开放式信息抽取结果设计出筛选规则,将明显不是知识的句子从上述文本中过滤掉,得到候选知识集;
S3)、
基于预训练语言模型训练知识分类器,对步骤
S2)
所产生的候选知识集的候选句子按照是否是知识进行分类,将分类结果为知识的句子视为获取的文本知识;
S4)、
对步骤
S3)
所产生的文本知识进行去重操作,从而得到最终的自动获取的文本知识;
S5)、
对步骤
S4)
所产生的文本知识进行准确率评价,验证所获文本知识的合理性
。2.
根据权利要求1所述的一种基于规则筛选和预训练语言模型分类的文本知识自动获取方法,其特征在于:步骤
S2)
中,对于步骤
S1)
所得的去噪文本,根据基于词汇
、
语法
、
句法和开放式信息抽取结果设计出筛选规则,将明显不是知识的句子从上述文本中过滤掉,具体如下:基于词汇的筛选规则包括:去除包含特定类型如货币
、
作品
、
法律等命名实体词的句子
、
去除包含感叹词和语气词的句子
、
去除包含某些指向非知识语境的词汇的句子;基于语法的筛选规则包括:去除包含性别第三人称代词的句子
、
去除句首是指示代词的句子
、
去除同时包含第一人称和第二人称代词的句子
、
去除包含专有名词的句子;基于句法的筛选规则包括:去除核心词是过去时态的句子
、
去除包含集体代词且此前未出现名词的句子;基于开放式信息抽取结果的筛选规则包括:去除开放式信息抽取结果为空的句子
、
去除开放式信息抽取结果中主谓宾三元组均不完整的句子
。
其中,开放式信息抽取是指给定一个自然...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。