一种计算句子语义向量的方法技术

技术编号：24251572 阅读：73 留言：0更新日期：2020-05-22 23:35

本发明专利技术提供了一种计算句子语义向量的方法，包括以下步骤：A、将语料库中的各句子样本进行分词得到词集合，采用词向量生成工具训练得到每个词的词向量，构成词向量集合；B、通过所述词向量集合对待计算句子进行词向量均值计算，得到待计算句子的句子向量；C、在所述词集合中找出与待计算句子的各构成词相似度最高的若干个词，分别组成候选集；D、计算候选集中每个词与所述句子向量的距离，以该距离为权重，乘以候选集的词向量，得到待计算句子的语义向量。本方法通过结合句子中每个构成词的临近词的词向量，进行句子语义向量的计算，充分使用了所有词的语义信息，使表达更为合理。

A method of calculating sentence semantic vector

全部详细技术资料下载

【技术实现步骤摘要】
一种计算句子语义向量的方法
本专利技术涉及文本信息处理
，具体涉及一种计算句子语义向量的方法。
技术介绍
互联网逐渐成为记录人们生活和工作的信息载体，给人们的生活和工作带来了获取信息的便利，同时在被使用的过程中产生了大量的文本数据，从复杂的文本数据中及时有效的提取出重要信息，需要依赖人工智能对自然语言(NaturalLanguage)的有效处理，而在自然语言处理(NaturalLanguageProcessing，NLP)领域中，句子语义的计算是一种基础语义表达，合理的句子语义表达方式能够对下游应用效果提供有利支持。传统的句子语义生成通常是对词向量的再计算，最常用的方式是对句子中的词向量求均值，或者将神经网络训练中生成中间结果作为句子向量，然而由于句子的构成词有时会出现用词不准确或者表达方式有误的情况，此时，现有的句子语义表达方式也会出现不准确的结果，无法为下游应用提供有利的支持。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供一种计算句子语义向量的方法，本方法通过结合句子中每个构成词的临近词的词向量，进行句子语义向量的计算，充分使用了所有词的语义信息，具有实现方式简单，表达更为合理等优点，可解决因句子构成词或表达方式有误而造成的句子语义表达有误的情况，为下游的应用效果提供有利支持。本专利技术采用的技术方案为，一种计算句子语义向量的方法，包括以下步骤：A、将语料库中的各句子样本进行分词得到词集合，采用词向量生成工具训练得到每个词的词向量，构成词向量集合；B、通过...

【技术保护点】
1.一种计算句子语义向量的方法，其特征在于，包括以下步骤：/nA、将语料库中的各句子样本进行分词得到词集合，采用词向量生成工具训练得到每个词的词向量，构成词向量集合；/nB、通过所述词向量集合对待计算句子进行词向量均值计算，得到待计算句子的句子向量；/nC、在所述词集合中找出与待计算句子的各构成词相似度最高的若干个词，分别组成候选集；/nD、计算候选集中每个词与所述句子向量的距离，以该距离为权重，乘以候选集的词向量，得到待计算句子的语义向量。/n

【技术特征摘要】
1.一种计算句子语义向量的方法，其特征在于，包括以下步骤：
A、将语料库中的各句子样本进行分词得到词集合，采用词向量生成工具训练得到每个词的词向量，构成词向量集合；
B、通过所述词向量集合对待计算句子进行词向量均值计算，得到待计算句子的句子向量；
C、在所述词集合中找出与待计算句子的各构成词相似度最高的若干个词，分别组成候选集；
D、计算候选集中每个词与所述句子向量的距离，以该距离为权重，乘以候选集的词向量，得到待计算句子的语义向量。

2.根据权利要求1所述的方法，其特征在于，所述步骤B包括：
从所述词向量集合中提取待计算句子的各构成词的词向量；

【专利技术属性】
技术研发人员：罗立刚，刘辉，张正宽，张天泽，常涛，王玲，
申请(专利权)人：零氪科技天津有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人