The invention discloses a similarity calculation method and system based on text representation Chinese characters attribute vector, the method comprises the following steps: S1. vector Chinese characters based on attribute representation to construct text similarity calculation model; S2. short text annotated based on the set of parameters similar to construct to obtain the calculation model for training the model, obtained the mature text similarity calculation model; short text message S3. to calculate the similarity input mature text similarity calculation model, get the similarity between the short text, and the results and feedback to the user. The invention provides a representation based on the attribute vector Chinese characters text similarity calculation method and system can get accurate and effective short text analysis, is conducive to dig out valuable information from massive short text messages, convenient for users to use.
【技术实现步骤摘要】
一种基于汉字属性向量表示的文本相似性计算方法及系统
本专利技术涉及中文文本挖掘
,尤其涉及一种基于汉字属性向量表示的文本相似性计算方法及系统。
技术介绍
互联网尤其是移动互联网的快速发展使得社交媒体成为了人们传递信息的主要平台。每天在社交媒体上都产生着难以计数的信息交互,其中文本是这种信息交互的主要载体,此外互联网上产生的信息大多以短文本形式存在。文本相似度计算是中文文本挖掘领域中的关键问题,其应用场景非常广泛;如在推荐系统中,基于内容相似性的推荐;论文文献查重以及文本聚类、分类等;在做文本相似度计算之前需要对文本进行向量化表示,传统的处理过程中常基于向量空间模型(VectorSpaceModel,VSM),然而此种表示方法不仅维度较高空间开销大而且无法表征语义信息;此外,也有基于奇异值分解来获取词的语义信息的方法,可是其计算复杂度偏高。而当下对于短文本相似性的计算方法中:传统的TF-IDF(词频-逆文档频率)及其他相关向量化文本的方法依赖于词语的共现,但语义相关与否并非与是否有共同的词语一定相关;基于主题模型(LatentDirichletAllocation,LDA)的方法,由于短文本的语义的稀疏性问题,也不适用。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于汉字属性向量表示的文本相似性计算方法及系统,能够得到准确有效的短文本分析结果,有利于从海量短文本消息中挖掘出有价值的信息,方便于用户使用。本专利技术的目的是通过以下技术方案来实现的:一种基于汉字属性向量表示的文本相似性计算方法,包括以下步骤:S1.基于汉字属性的向量表示构建 ...
【技术保护点】
一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:包括以下步骤:S1.基于汉字属性的向量表示构建文本相似性计算模型;S2.基于带标注的短文本集,对构建的相似性计算模型进行训练以获取模型的参数,得到成熟的文本相似性计算模型;S3.将待计算相似度的短文本消息输入成熟的文本相似性计算模型中,得到短文本对之间的相似性,并结果并反馈给用户。
【技术特征摘要】
1.一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:包括以下步骤:S1.基于汉字属性的向量表示构建文本相似性计算模型;S2.基于带标注的短文本集,对构建的相似性计算模型进行训练以获取模型的参数,得到成熟的文本相似性计算模型;S3.将待计算相似度的短文本消息输入成熟的文本相似性计算模型中,得到短文本对之间的相似性,并结果并反馈给用户。2.根据权利要求1所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:步骤S1中所述文本相似性计算模型的数据处理方式包括以下子步骤:S11.基于汉字属性将短文本消息向量化;S12.提取向量化后短文本消息的特征语义向量;S13.依据短文本的语义特征向量,计算短文本消息的相似性。3.根据权利要求2所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:所述的步骤S11包括以下子步骤:S111.对于短文本消息中的每个字,基于汉字笔画库和拼音库构建其字向量表示,获得该短文本消息中的各个字向量ci,其中ci表示该短文本中第i个字的字向量;S112.将构建的字向量按其在短文本中出现的顺序进行拼接获得该短文本消息的向量表示。4.根据权利要求3所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:所述的字向量ci的维度为32位,1-5位分别为该字中包含的横、竖、撇、捺、折的个数,6-31位为汉字对应的26个拼音,第32位为汉字拼音的声调。5.根据权利要求2所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:所述的步骤S12包括以下子步骤:S121.设置滑动窗口d,将滑动窗口内字的字向量按顺序拼接形成上下文拼接向量:第i个滑动窗口内的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d个字的字向量拼接而成,记为Li:S122.定义卷积矩阵为WL,用卷积矩阵WL和激活函数tanh作用于上下文拼接向量Li,获得局部特征向量Fi:Fi=tanh(WL*Li);S123.将获得的所有局部特征向量Fi每一个维度的最大值提取出来形成表征向量R;S124.定义语义矩阵为WS,将语义矩阵WS和激活函数tanh作用于表征向量R获得最终的语义特征向量y:y=tanh(WS*R)。6.根据权利要求2所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:所述的步骤S13包括:基于距离度量方法func计算两个短文本消息构成的文本对之间语义特征向量(y1,y2)的相似性:
【专利技术属性】
技术研发人员:李平,朱婷婷,陈凯琪,胡栋,陈雁,朱鹏军,彭欣宇,代臻,文敏,汪丽娟,
申请(专利权)人:西南石油大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。