一种自然语言处理的算法制造技术

技术编号:24206575 阅读:54 留言:0更新日期:2020-05-20 14:55
本发明专利技术公开了一种自然语言处理的算法,包括以下步骤:S1:获取需要处理的自然语言文本;S2:将自然语言文本中的字符串转化为词向量;S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;S5:从最接近类别中获得该词向量所代表的含义,直到将待处理的自然语言文本中所有词向量的含义表示出来。本发明专利技术通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。

An algorithm of natural language processing

【技术实现步骤摘要】
一种自然语言处理的算法
本专利技术涉及信息处理
,特别涉及一种自然语言处理的算法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学,如何将自然语言有效的与计算机系统结合起来,是目前智能发展的热点话题,目前的自然语言处理在对词句的理解上容易出现偏差,无法准确理解自然语言中的含义,导致输出的结论出现很大的错误。
技术实现思路
本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种自然语言处理的算法,解决目前自然语言处理过程中无法准确理解自然语言中的含义,导致无法正确输出表达文本中的内容的问题。为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术一种自然语言处理的算法,包括以下步骤:S1:获取需要处理的自然语言文本;S2:将自然语言文本中的字符串转化为词向量;S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。作为本专利技术的一种优选技术方案,所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为对于每一类训练文本,计算该类的质心的计算公式为其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。作为本专利技术的一种优选技术方案,所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为其中,J(c,μ)表示误差和,x(i)表示词向量,μc(i)表示词向量x(i)距离最近的那个类的质心。作为本专利技术的一种优选技术方案,所述步骤S4中,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。作为本专利技术的一种优选技术方案,所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。与现有技术相比,本专利技术的有益效果如下:本专利技术通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术的整体结构流程图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。此外,如果已知技术的详细描述对于示出本专利技术的特征是不必要的,则将其省略。实施例1如图1所示,本专利技术提供一种自然语言处理的算法,包括以下步骤:S1:获取需要处理的自然语言文本;S2:将自然语言文本中的字符串转化为词向量;S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为对于每一类训练文本,计算该类的质心的计算公式为其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为其中,J(c,μ)表示误差和,x(i)表示词向量,μc(i)表示词向量x(i)距离最近的那个类的质心。所述步骤S4中,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。下面进行举例说明:假设给出的自然语言文本的字符串的词向量为{x(1)、x(2)……x(i)}根据词向量x(i)找出数据库中具有相同词向量的训练文本,将具有相同词向量的训练文本的类别记为j,类别个数记为m,计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为对于每一类训练文本,计算该类的质心的计算公式为在对上述内容进行收敛,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数,从而确定最接近类别,误差和的计算公式为由于数据库中记录有相同词向量的训练文本中词向量的含义,因此可以根据相近类别的训练文本找出词向量x(i)的含义,重复上述步骤,从而将各个词向量{x(1)、x(2)……x(i)}的含义都表示出来,形成自然语言。本专利技术通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。最后应说明的是:以上所述仅为本专利技术的优选实施例而已,并不用于限制本专利技术,尽管参照前述实施例对本专利技术进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种自然语言处理的算法,其特征在于,包括以下步骤:/nS1:获取需要处理的自然语言文本;/nS2:将自然语言文本中的字符串转化为词向量;/nS3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;/nS4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;/nS5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。/n

【技术特征摘要】
1.一种自然语言处理的算法,其特征在于,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。


2.根据权利要求1所述的一种自然语言处理的算法,其特征在于,所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
对于每一类训练文本,计算该类的质心的计算公式为



其中,m...

【专利技术属性】
技术研发人员:孙践知蔡添刘瑞军王向上
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1