【技术实现步骤摘要】
一种文本知识提取方法、装置、电子设备和存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种文本知识提取方法、装置、电子设备和计算机存储介质。
技术介绍
[0002]文本知识的提取一直是人工智能领域获取知识的重点关注技术。由于电子化文本数据在因特网和各企业中的数量巨大,文本中潜在的知识规模巨大,因此从电子化文本中提取知识的技术对于结构化知识的快速增长具有重要的推动作用。
[0003]相关技术中,对于文本知识的提取,主要包括面向结构化文本、半结构化文本和非结构化文本的三种类型;面向结构化文本的知识提取方法的主要处理对象是表格数据,例如,从数据库导出的表格数据、超文本标记语言(Hyper Text Markup Language,HTML)文档中的表格数据、Excel文档的表格数据、Word文档中的表格数据等。表格数据中的表头信息一般概括了对应列的概念名,对应列除了概念名外,一般对应该概念名的实例信息。基于这一主要的关系原理,可以采用额外的辅助方法过滤非概念类知识,从而实现文本知识的提取。这类方法的特点是根据表 ...
【技术保护点】
【技术特征摘要】
1.一种文本知识提取方法,其特征在于,所述方法包括:获取待处理的文档;对所述文档建立文档对象模型DOM,根据所述DOM确定第一标签集;对第一标签集中至少一个标签进行分词;针对所述至少一个标签的分词结果,提取文本知识;所述文本知识表示所述标签中相邻分词之间的关系。2.根据权利要求1所述的方法,其特征在于,所述对第一标签集中至少一个标签进行分词,包括:在所述至少一个标签的字号大小和字符个数满足第一设定条件,或者所述至少一个标签的字号大小和水平起始位置满足第二设定条件的情况下,对所述至少一个标签进行分词。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述第一标签集中的标签的字号大于所述第一标签集中的标签相邻的两个标签的字号,且所述第一标签集中的标签的字符个数小于K的情况下,确定所述第一标签集中的标签满足第一设定条件,其中,K为大于0的正整数;在所述第一标签集中的标签的字号大于所述第一标签集中的标签相邻的两个标签的字号,且所述第一标签集中的标签的水平起始位置的坐标小于所述第一标签集中的标签相邻的两个标签的水平起始位置的坐标的情况下,确定所述第一标签集中的标签满足第二设定条件。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据所述DOM,查找所述第一标签集中的标题型标签,所述标题型标签表示字号大小或者水平起始位置满足第三设定条件的标签;查找所述标题型标签的父级标签,在所述父级标签为标题型标签的情况下,对所述标题型标签和所述标题型标签的父级标签进行分词;提取第三知识集,其中,所述第三知识集表示所述标题型标签的分词结果与对应的父级标签的分词结果之间的关系。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在所述第一标签集中的标签的字号大于所述第一标签集中的标签相邻的两个标签的字号,或者所述第一标签集中的标签的水平起始位置的坐标小于所述第一标签集中的标签相邻的两个标签的水平起始位置的坐标的情况下,确定所...
【专利技术属性】
技术研发人员:蔡敦波,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。