基于词义分布假设构造的语言处理方法和系统技术方案

技术编号:32855481 阅读:12 留言:0更新日期:2022-03-30 19:25
本发明专利技术提供一种基于词义分布假设构造的语言处理的方法和系统,通过将语句输入句法模型中,进行初步断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,获取当前语句的上文,根据上文的含义预测出接下来的候选词组,将其与第二词分量匹配,根据匹配结果赋予第二词分量的含义,进而得出语句的含义。语句的含义。语句的含义。

【技术实现步骤摘要】
基于词义分布假设构造的语言处理方法和系统


[0001]本申请涉及网络多媒体领域,尤其涉及一种基于词义分布假设构造的语言处理的方法和系统。

技术介绍

[0002]随着网络的快速发展,需要能够快速准确理解语言含义的自动化机器,但是现有的语言理解机器难以准确理解,尤其是中文词汇存在一词多义的情况,机器更是难以胜任,需要开发出能够结合上下文理解词汇含义的机器。
[0003]因此,急需一种针对性的基于词义分布假设构造的语言处理的方法和系统。

技术实现思路

[0004]本专利技术的目的在于提供一种基于词义分布假设构造的语言处理的方法和系统,通过将语句输入句法模型中,进行初步断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,获取当前语句的上文,根据上文的含义预测出接下来的候选词组,将其与第二词分量匹配,根据匹配结果赋予第二词分量的含义,进而得出语句的含义。
[0005]第一方面,本申请提供一种基于词义分布假设构造的语言处理的方法,所述方法包括:
[0006]获取网络数据流,从中提取出语句,将所述语句输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;
[0007]将所述第一词分量逐个输入语义分析模型,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;
[0008]设置上文宽度为N,所述N为正整数,根据所述上文宽度获取当前语句的上文,将该上文输入到语义分析模型,分析该上文的含义并预测上文接下来的候选词组,将所述候选词组与所述第二词分量匹配,根据匹配结果赋予所述第二词分量的含义;
[0009]其中,所述匹配是指将候选词组中的单词逐个与第二词分量中的单词比较,计算相同单词的数量,当该数量大于预设的阈值时,则认定所述候选词组与所述第二词分量匹配;
[0010]重组所述第二词分量,组成新的语句,得出该新的语句的含义。
[0011]结合第一方面,在第一方面第一种可能的实现方式中,所述根据每个单词类型设置不同宽度的提取窗口,包括更新单词的类型,将新的单词类型与提取窗口宽度建立对应关系。
[0012]结合第一方面,在第一方面第二种可能的实现方式中,所述语义分析模型按照句子语法要求进行语义分析。
[0013]结合第一方面,在第一方面第三种可能的实现方式中,所述语义分析模型和句法模型的内核均使用神经网络模型。
[0014]第二方面,本申请提供一种基于词义分布假设构造的语言处理的系统,所述系统包括处理器以及存储器:
[0015]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0016]所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
[0017]第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
[0018]本专利技术提供一种基于词义分布假设构造的语言处理的方法和系统,通过将语句输入句法模型中,进行初步断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,获取当前语句的上文,根据上文的含义预测出接下来的候选词组,将其与第二词分量匹配,根据匹配结果赋予第二词分量的含义,进而得出语句的含义。
附图说明
[0019]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术方法的流程图。
具体实施方式
[0021]下面结合附图对本专利技术的优选实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0022]图1为本申请提供的基于词义分布假设构造的语言处理的方法的流程图,包括:
[0023]获取网络数据流,从中提取出语句,将所述语句输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;
[0024]将所述第一词分量逐个输入语义分析模型,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;
[0025]设置上文宽度为N,所述N为正整数,根据所述上文宽度获取当前语句的上文,将该上文输入到语义分析模型,分析该上文的含义并预测上文接下来的候选词组,将所述候选词组与所述第二词分量匹配,根据匹配结果赋予所述第二词分量的含义;
[0026]其中,所述匹配是指将候选词组中的单词逐个与第二词分量中的单词比较,计算相同单词的数量,当该数量大于预设的阈值时,则认定所述候选词组与所述第二词分量匹
配;
[0027]重组所述第二词分量,组成新的语句,得出该新的语句的含义。
[0028]在一些优选实施例中,所述根据每个单词类型设置不同宽度的提取窗口,包括更新单词的类型,将新的单词类型与提取窗口宽度建立对应关系。
[0029]在一些优选实施例中,所述语义分析模型按照句子语法要求进行语义分析。
[0030]在一些优选实施例中,所述语义分析模型和句法模型的内核均使用神经网络模型。
[0031]本申请提供一种基于词义分布假设构造的语言处理的系统,所述系统包括:所述系统包括处理器以及存储器:
[0032]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0033]所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。
[0034]本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法。
[0035]具体实现中,本专利技术还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本专利技术各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
[0036]本领域的技术人员可以清楚地了解到本专利技术实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本专利技术实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词义分布假设构造的语言处理方法,其特征在于,所述方法包括:获取网络数据流,从中提取出语句,将所述语句输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;将所述第一词分量逐个输入语义分析模型,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;设置上文宽度为N,所述N为正整数,根据所述上文宽度获取当前语句的上文,将该上文输入到语义分析模型,分析该上文的含义并预测上文接下来的候选词组,将所述候选词组与所述第二词分量匹配,根据匹配结果赋予所述第二词分量的含义;其中,所述匹配是指将候选词组中的单词逐个与第二词分量中的单词比较,计算相同单词的数量,当该数量大于预设的阈值时,则认定...

【专利技术属性】
技术研发人员:苏长君曾祥禄
申请(专利权)人:北京智美互联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1