一种语义短语抽取方法及相关装置制造方法及图纸

技术编号:31757100 阅读:42 留言:0更新日期:2022-01-05 16:40
本申请实施例公开了一种语义短语抽取方法,包括:对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,输入文本信息为用于训练的信息;将所述待处理文本信息进行转换得到文本向量矩阵;基于激活函数,根据所述文本向量矩阵计算文本向量;对所述文本向量进行聚类得到第一正则表达式;根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。体和动词加名词实体的短语。体和动词加名词实体的短语。

【技术实现步骤摘要】
一种语义短语抽取方法及相关装置


[0001]本申请实施例涉及人工智能领域,尤其涉及一种语义短语抽取方法及相关装置。

技术介绍

[0002]随着技术的不断发展,尤其是互联网技术的应用与普及,信息能够以更高的速度传递,这使得人们能够接收到越来越多的信息。基于这些接收信息,人们可以进行适当的处理,从而使得工作和生活的效率不断提高。
[0003]然而,大量信息会使用户应接不暇,分散注意力,信息的处理难度也较大,从而使得用户需花费不必要的时间和精力去识别出真正需要的信息,这导致用户的体验较差,效率受到限制。

技术实现思路

[0004]本申请实施例提供了一种语义短语抽取方法及语义短语抽取装置。
[0005]一种语义短语抽取方法,包括:
[0006]对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
[0007]将所述待处理文本信息进行转换得到文本向量矩阵;
[0008]基于激活函数,根据所述文本向量矩阵计算文本向量;
[0009]对所述文本向量进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语义短语抽取方法,其特征在于,包括:对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;将所述待处理文本信息进行转换得到文本向量矩阵;基于激活函数,根据所述文本向量矩阵计算文本向量;对所述文本向量进行聚类得到第一正则表达式;根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。2.根据权利要求1所述的语义短语抽取方法,其特征在于,基于激活函数,根据所述文本向量矩阵计算文本向量包括:根据以下公式计算所述文本向量:y
i
=f(∑ω
i
·
x
i,i+m
‑1+β);y
i
表示第i维的文本向量;f表示所述激活函数;ω
i
表示第i维的权重矩阵;β表示偏置值;m表示每层卷积核的步长;x
i,i+m
‑1表示根据卷积核从第i行向量到第i+m

1行向量形成的矩阵。3.根据权利要求1至2任一项所述的语义短语抽取方法,其特征在于,对所述文本向量进行聚类得到第一正则表达式之后,根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语之前,所述方法还包括:识别所述输入文本信息中的输入语义短语之间的候选依存关系;根据所述候选依存关系确定目标依存关系;通过所述目标依存关系得到第二正则表达式;根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语包括:根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语,所述第一目标语义短语包括所述第一正则表达式的抽取结果和所述第二正则表达式的抽取结果。4.根据权利要求3所述的语义短语抽取方法,其特征在于,通过所述目标依存关系得到第二正则表达式之后,根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语之前,所述方法还包括:识别所述输入文本信息中的名词模块;根据所述名词模块中名词之间的语义关系,构建词典;根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语包括:根据所述第一正则表达式、所述第二正则表达式、所述词典和与所述词典匹配的模板,对所述目标文本信息进行抽取,得到所述第一目标...

【专利技术属性】
技术研发人员:徐林海孟超葛天艺欧红飞
申请(专利权)人:南京奥派信息产业股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1