【技术实现步骤摘要】
一种高效的短文本相似性确定方法和装置
[0001]本申请一般涉及自然语言处理(NLP),尤其涉及高效的短文本相似性确定。
技术介绍
[0002]文本相似性度量是NLP领域常见的问题。针对长文本和短文本,学术界和工业界也分别研究了不同的度量方法。
[0003]对于长文本的相似性度量方法,通常有两种范式:一、对字或词语进行向量化表示,聚合得到长文本的向量表征后计算相似度,常见的有:Word2vec、Bow模型等;二、引入深度学习网络结构,根据上下文语义,学习句子或文本的向量,常见的有Elmo、Bert等,通过构建的句子向量直接计算相似度。
[0004]对于短文本的相似性度量方法,通常也有两种经典范式:一、不对句子进行向量化表征,直接计算字符级别的相似度系数,常见的有jaccard相似度、Sorensen相似度系数、Levenshtein距离以及汉明距离等;二、分词后对句子进行向量化表征,如经典的one
‑
hot、TF
‑
idf算法等。
[0005]然而,对于短文本的相似 ...
【技术保护点】
【技术特征摘要】
1.一种短文本相似性确定方法,包括:对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向量;以及基于所述词频向量来确定所述短文本与其他短文本的相似性。2.如权利要求1所述的方法,其中,确定每个词的所述调整后的逆文档频率包括:确定所述语料库中的文本总数;确定所述语料库中包含该词的文本数;基于所述惩罚来对所述语料库中包含该词的文本数进行调节,以使得当所述语料库中的短文本总数小于第一阈值时,所述语料库中包含该词的文本数被指数式增大;以及基于所述文本总数和经调节的所述语料库中包含该词的文本数来确定所述调整后的逆文档频率。3.如权利要求2所述的方法,其中,基于所述惩罚来对所述语料库中包含该词的文本数进行调节进一步使得当所述语料库中的短文本总数大于第二阈值时,所述语料库中包含该词的文本数不被增大。4.如权利要求2所述的方法,其中,所述惩罚包括指数式平滑因子,并且所述调节包括将所述语料库中包含该词的文本数加上所述指数式平滑因子。5.如权利要求1所述的方法,其中,用所述调整后的逆文档频率对每个词的词频进行加权包括将所述词频乘以基于所述惩罚计算的所述调整后的逆文档频率。6.如权利要求1所述的方法,进一步包括:若对所述短文本进行分词获得的词序列与所述其他短文本的词序列长度不同,则对所述短文本的词序列或所述其他短文本的词序列进行填补或切割以使得两者长度相同。7.如权利要求1所述的方法,基于所述词频向量来确定所述短文本与其他短文本的相似性包括:计算所述短文本的词频向量与所述其他短文本的词频向量之间的余弦距离。8.一种短文本相似性确定装置,包括:存储器;以及耦合到所述存储器的处理器,所述处理器被配置成:对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向...
【专利技术属性】
技术研发人员:刘东亚,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。