【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成信息的方法和装置。
技术介绍
无论是用户学习过程中,还是知识图谱构建过程中等,获得某个知识点的父节点或者其子节点,都是非常频繁的需求。它可以帮助用户了解这个知识点相关联的较大领域的知识,也可以让用户了解这个知识点还可以进一步分解为更小的知识点。因此,挖掘知识点之间的父子关系,具有重要的意义和作用。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取待处理文本信息,其中,待处理文本信息包括至少一个句子;从至少一个句子中提取出满足第一预设条件的句子,组成句子集合;对于句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;将组成的三元组合并为三元组集合,从三元组集合中选取三元组作为目标三元组;从目标三元组中的宾语中提取出并列词,将目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示父知识点与子知 ...
【技术保护点】
1.一种用于生成信息的方法,包括:/n获取待处理文本信息,其中,所述待处理文本信息包括至少一个句子;/n从所述至少一个句子中提取出满足第一预设条件的句子,组成句子集合;/n对于所述句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;/n将组成的三元组合并为三元组集合,从所述三元组集合中选取三元组作为目标三元组;/n从所述目标三元组中的宾语中提取出并列词,将所述目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示所述父知识点与所述子知识点之间的父子关系的父子关系信息。/n
【技术特征摘要】
1.一种用于生成信息的方法,包括:
获取待处理文本信息,其中,所述待处理文本信息包括至少一个句子;
从所述至少一个句子中提取出满足第一预设条件的句子,组成句子集合;
对于所述句子集合中的句子,从该句子中提取出主语、谓语和宾语,组成三元组,其中,宾语中存在并列词;
将组成的三元组合并为三元组集合,从所述三元组集合中选取三元组作为目标三元组;
从所述目标三元组中的宾语中提取出并列词,将所述目标三元组中的主语作为父知识点,将提取出的并列词中的词作为子知识点,生成用于指示所述父知识点与所述子知识点之间的父子关系的父子关系信息。
2.根据权利要求1所述的方法,其中,所述第一预设条件包括:句子包括预设的关键词集合中的关键词和预设的字符集合中的字符,其中,所述关键词集合中的关键词是用于在句子中陈述主语的动词或用于修饰所述动词的副词;所述字符集合中的字符是用于在句子中连接存在并列关系的词的连词或标点符号。
3.根据权利要求2所述的方法,其中,所述从所述至少一个句子中提取出满足第一预设条件的句子,包括:
对于所述至少一个句子中的句子,确定该句子是否包括所述关键词集合中的关键词;若是,则进一步确定该句子是否包括所述字符集合中的字符;若该句子包括所述字符集合中的字符,则提取出该句子。
4.根据权利要求2所述的方法,其中,所述第一预设条件还包括:句子的长度不大于预设字数;以及
所述从所述至少一个句子中提取出满足第一预设条件的句子,包括:
对于所述至少一个句子中的句子,确定该句子是否包括所述关键词集合中的关键词;若是,则进一步确定该句子是否包括所述字符集合中的字符;若该句子包括所述字符集合中的字符,则再进一步确定该句子的长度是否大于所述预设字数;若该句子的长度不大于所述预设字数,则提取出该句子。
5.根据权利要求1所述的方法,其中,所述对于所述句子集合中的句子,从该句子中提取出主语、谓语和宾语,包括:
对于所述句子集合中的句子,将该句子作为待处理句子,对所述待处理句子进行句法分析和语义角色分析,得到分析结果,基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语。
6.根据权利要求5所述的方法,其中,所述分析结果包括用于指示所述待处理句子中的核心动词的第一标注信息和用于指示所述核心动词的施事部分的第二标注信息;以及
所述基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语,包括:
确定所述分析结果是否还包括用于指示所述核心动词的受事部分的第三标注信息;
若包括所述第三标注信息,则将所述第二标注信息所指示的施事部分、所述第一标注信息所指示的核心动词、所述第三标注信息所指示的受事部分依次确定为所述待处理句子中的主语、谓语和宾语,从所述待处理句子中提取出所确定的主语、谓语和宾语。
7.根据权利要求6所述的方法,其中,所述分析结果还包括至少一个第四标注信息,第四标注信息用于指示所述待处理句子中的核心动词和除核心动词以外的词之间的动宾关系;以及
所述基于所述分析结果,从所述待处理句子中提取出主语、谓语和宾语,还包括:
响应于确定所述分析结果不包括所述第三标注信息,在所述至少一个第四标注信息中确定满足第二预设条件的目标第四标注信息,基于所述目标第四标注信息,从所述待处理句子中提取出短语作为宾语,将所述第二标注信息所指示的施事部分、所述第一标注信息所指示的核心动词依次作为所述待处理句子中的主语和谓语,从所述待处理句子中提取出所确定的主语、谓语和宾语。
8.根据权利要求1所述的方法,其中,所述从所述三元组集合中选取三元组作为目标三元组,包括:
获取目标分类模型,其中,所述目标分类模型是经训练后的、用于预测三元组中的主语、谓语和宾语之间的关系是否正确的分类模型;
基于所述目标分类模型,从所述三元组集合中选取出所包括的主语、谓语和宾语之间的关系是正确的三元组,组成第一三元组集合;
从所述第一三元组集合中选取三元组作为目标三元组。
9.根据权利要求8所述的方法,其中,所述获取目标分类模型,包括:
获取所述三元组集合中的至少一个三元组的标注信息,其中,标注信息用于指示所对应的三元组中的主语、谓语和宾语之间的关系是否正确;
对于所述至少一个三元组中的三元组,对该三元组进行特征提取,得到特征信息,将该三元组的特征信息输入初始模型,得到与该三元组对应的预测结果,其中,所述预测结果用于指示该三元组中的主语、谓语和宾语之间的关系是否正确;将所述预测结果与该三元组的标注信息进行比较,根据比较结果确定初始模型是否达到预设的优化目标;响应于确定初始模型达到所述优化目标,将初始模型作为目标分类模型。
10.根据权利要求8所述的方法,其中,所述从所述第一三元组集合中选取三元组作为目标三元组,包括:
对所述第一三元组集合中的三元组执行预设的歧义消除操作;
将经歧义消除操作后的第一三元组集合中的三元组作为目标三元组。
11.一种用于生成信息的装置,包括:
获取单元,被配置成获取待处理文本信息,其中,所述待处理文本信息包括至少一个句子;
第一生成单元,被配置成从所述至少...
【专利技术属性】
技术研发人员:沈之锐,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。