基于词义分布假设构造的语言处理方法和系统技术方案

技术编号：32855481 阅读：12 留言：0更新日期：2022-03-30 19:25

本发明专利技术提供一种基于词义分布假设构造的语言处理的方法和系统，通过将语句输入句法模型中，进行初步断句，得到第一词分量，将所述第一词分量逐个输入语义分析模型，得到第二词分量，获取当前语句的上文，根据上文的含义预测出接下来的候选词组，将其与第二词分量匹配，根据匹配结果赋予第二词分量的含义，进而得出语句的含义。语句的含义。语句的含义。

全部详细技术资料下载

【技术实现步骤摘要】
基于词义分布假设构造的语言处理方法和系统

[0001]本申请涉及网络多媒体领域，尤其涉及一种基于词义分布假设构造的语言处理的方法和系统。

技术介绍

[0002]随着网络的快速发展，需要能够快速准确理解语言含义的自动化机器，但是现有的语言理解机器难以准确理解，尤其是中文词汇存在一词多义的情况，机器更是难以胜任，需要开发出能够结合上下文理解词汇含义的机器。
[0003]因此，急需一种针对性的基于词义分布假设构造的语言处理的方法和系统。

技术实现思路

[0004]本专利技术的目的在于提供一种基于词义分布假设构造的语言处理的方法和系统，通过将语句输入句法模型中，进行初步断句，得到第一词分量，将所述第一词分量逐个输入语义分析模型，得到第二词分量，获取当前语句的上文，根据上文的含义预测出接下来的候选词组，将其与第二词分量匹配，根据匹配结果赋予第二词分量的含义，进而得出语句的含义。
[0005]第一方面，本申请提供一种基于词义分布假设构造的语言处理的方法，所述方法包括：
[0006]获取网络数据流，从中提取出语句，将所述语句输入句法模型中，进行初步断句，得到第一词分量，所述句法模型根据每个单词类型设置不同宽度的提取窗口，以该提取窗口为断句依据，窗口宽度内的单词组成所述第一词分量；
[0007]将所述第一词分量逐个输入语义分析模型，如果还能够识别成短句的话，则认定该第一词分量的初步断句没有成功，需要将该第一词分量再次输入所述句法模型，再次进行断句，得到第二词分量；如果无法识别成短句、被...

【技术保护点】

【技术特征摘要】
1.一种基于词义分布假设构造的语言处理方法，其特征在于，所述方法包括：获取网络数据流，从中提取出语句，将所述语句输入句法模型中，进行初步断句，得到第一词分量，所述句法模型根据每个单词类型设置不同宽度的提取窗口，以该提取窗口为断句依据，窗口宽度内的单词组成所述第一词分量；将所述第一词分量逐个输入语义分析模型，如果还能够识别成短句的话，则认定该第一词分量的初步断句没有成功，需要将该第一词分量再次输入所述句法模型，再次进行断句，得到第二词分量；如果无法识别成短句、被识别成词组的话，则认定该第一词分量的初步断句成功，所述第一词分量直接标识为第二词分量；所述词组由若干个单词组成，不具有句法结构；设置上文宽度为N，所述N为正整数，根据所述上文宽度获取当前语句的上文，将该上文输入到语义分析模型，分析该上文的含义并预测上文接下来的候选词组，将所述候选词组与所述第二词分量匹配，根据匹配结果赋予所述第二词分量的含义；其中，所述匹配是指将候选词组中的单词逐个与第二词分量中的单词比较，计算相同单词的数量，当该数量大于预设的阈值时，则认定...

【专利技术属性】
技术研发人员：苏长君，曾祥禄，
申请(专利权)人：北京智美互联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人