三元组抽取方法、设备及计算机存储介质技术

技术编号:33039883 阅读:15 留言:0更新日期:2022-04-15 09:20
本发明专利技术实施例涉及人工智能领域,公开了一种三元组抽取方法、设备及计算机存储介质。本发明专利技术中三元组抽取方法包括:获取待处理语料集;通过人工智能相似性搜索算法faiss对待处理语料集进行聚类,得到若干个相似语料集;通过依存句法分析相似语料集中每个文本的词语之间的依存关系;根据依存关系确定各个相似语料集对应的抽取模板,并根据抽取模板抽取三元组。整个三元组抽取过程无需人工标注数据,节省时间节省人力。省时间节省人力。省时间节省人力。

【技术实现步骤摘要】
三元组抽取方法、设备及计算机存储介质


[0001]本专利技术实施例涉及人工智能领域,特别涉及一种三元组抽取方法、设备及计算机存储介质。

技术介绍

[0002]知识图谱中的三元组(包括主体、客体、主体与客体之间的关系)在实体问答、实体推荐等各应用场景中有着重要的作用。三元组抽取是知识图谱构建中的重要前置任务,根据处理数据源的不同可以分为:结构化文本抽取、半结构化文本抽取、非结构化文本抽取。业界对非结构化文本的关系抽取做了大量研究,包括深度学习、机器学习等监督学习,或者半监督学习方法。
[0003]但是,利用监督学习方法或半监督学习方法需要一组已知类别的样本作为参考,因此需要耗费人力和时间对大量的数据进行标注。通过人工对全量的三元组数据直接标注的方式,标注所消耗的时间成本或人工成本较高。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种三元组抽取方法、设备及计算机存储介质,达到省时省力的目的。
[0005]为解决上述技术问题,本专利技术的实施例提供了一种三元组抽取方法包括:获取待处理语料集;通过人工智能相本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种三元组抽取方法,其特征在于,包括:获取待处理语料集;通过人工智能相似性搜索算法faiss对所述待处理语料集进行聚类,得到若干个相似语料集;通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系;根据所述依存关系确定各个相似语料集对应的抽取模板,并根据所述抽取模板抽取三元组。2.根据权利要求1所述的三元组抽取方法,其特征在于,在所述得到若干个相似语料集之后,还包括:将所述若干个相似语料集与正则表达式相匹配;若相似语料集与所述正则表达式相匹配,则根据所述正则表达式抽取三元组;若相似语料集与所述正则表达式不匹配,则执行所述通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系步骤。3.根据权利要求1或2所述的三元组抽取方法,其特征在于,在所述通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系之前,还包括:分析所述相似语料集中每个文本的词语的词性;识别所述相似语料集中每个文本中的专有名词;所述根据所述依存关系确定各个相似语料集对应的抽取模板,包括:根据所述相似语料集中每个文本的所述词性、所述专有名词、和所述依存关系确定所述对应的抽取模板。4.根据权利要求3所述的三元组抽取方法,其特征在于,所述根据所述相似语料集中每个文本的所述词性、所述专有名词、和所述依存关系确定所述对应的抽取模板,包括:根据所述词性对所述文本中的词语进行筛选;在所述筛选后的词语中确定专有名词;根据所述专有名词和所述依存关系,确定所述文本的核心词;根据所述核心词在文本中的位置、以及所述核心词的词性确定所述对应的抽取模板。5.根据权利要求3所述的三元组抽取方法,其特征在于,包括:所述抽取模板至少包括:基本三元组模板和属性三元组模板;其中,所述基本三元组模板的结构包括第一实体,关联词,第二实体;所述属性三元组模板的结构包括第一名词性词,第二名词性词,第三名词性词。6.根据权利要求5所述的三元组抽取方法,其特征在于,所述通过依存句法分析所述相似语料集中每个文本的词语之间的依存关系,包括:获取所述文本的长度;若所述文本的长度超过预设阈值,则根据所述文本的从句结构对所述文本进行分解;通过依存...

【专利技术属性】
技术研发人员:聂建豪
申请(专利权)人:达闼机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1