【技术实现步骤摘要】
文本模板识别方法、装置及计算机可读存储介质
本专利技术涉及自然语言处理
,尤其涉及一种文本模板识别方法、装置及计算机可读存储介质。
技术介绍
随着互联网技术的发展,各行各业的人们都能够通过网络平台自由发布和下载信息,这使得网络上的信息越来越多,大数据分析即对网络上海量的数据进行分析进而提取所需的信息。在进行大数据分析时有时需要用到文本模板,即包含某些特定文字的文本信息。通常,相同的文本信息或类似的文本信息可以对应一个文本模板。现有技术中,获取文本模板的方法通常是由工作人员从各种信息中进行提取,然而这种方法耗时耗力,工作人员需要花费很长的时间去识别进而获取文本模块。
技术实现思路
本专利技术提供一种文本模板识别方法、装置及计算机可读存储介质,其主要目的在于提高文本模板识别的效率和准确度。为实现上述目的,本专利技术还提供一种文本模板识别方法,该方法包括:获取预设文本模板和匹配文本;根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;当所述第一相似度和/或所述第二 ...
【技术保护点】
1.一种文本模板识别方法,其特征在于,所述方法包括:获取预设文本模板和匹配文本;根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。
【技术特征摘要】
1.一种文本模板识别方法,其特征在于,所述方法包括:获取预设文本模板和匹配文本;根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。2.如权利要求1所述的文本模板识别方法,其特征在于,其特征在于,所述根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度包括:利用向量空间模型计算所述匹配文本与所述预设文本模板的第一相似度;利用LDA文档主题生成模型计算所述匹配文本与所述预设文本模型的第二相似度;所述第一相似度和所述第二相似度满足预设相似度条件包括:根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度;判断所述第三相似度是否大于第三预设相似度;若所述第三相似度大于所述预设相似度,确定所述第一相似度和所述第二相似度满足预设相似条件。3.如权利要求2所述的文本模板识别方法,其特征在于,所述根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度包括:将所述第一相似度、所述第二相似度输入至预设线性加权公式,输出所述匹配文本与所述预设文本模板的第三相似度,所述预设线性加权公式为:sim(p,q)=αsimLDA(p,q)+βsimTFIDF(p,q),其中,p和q分别为所述匹配文本和所述预设文本模板,simTFIDF(p,q)为所述第一相似度,simLDA(p,q)为所述第二相似度,sim(p,q)为所述第三相似度,α和β为预设权重值。4.如权利要求2或3所述的文本模板识别方法,其特征在于,所述方法还包括:获取用于线性加权的权重值,包括:对所述权重值赋予第一初始值,根据所述第一初始值计算所述第三相似度;通过预设聚类算法判断所述匹配模板与所述预设文本模板是否为相同类别,获取聚类结果;通过所述聚类结果判断根据所述第一初始值计算得到的所述第三相似度是否准确;若确定根据所述第一初始值计算得到的所述第三相似度准确,确定所述第一初始值为用于线性加权的权重值;若确定根据所述第一初始值计算得到的所述第三相似度准确不准确,调整所述第一初始值,执行所述根据所述第一初始值计算所述第三相似度的操作。5.如权利要求1所述的文本模板识别方法,其特征在于,所述第一相似度或所述第二相似度满足预设相似度条件包括:所述第一相似度大于第一预设相似度或所述第二相似度大于第二预设相似度。6.一种文本模板识别装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可...
【专利技术属性】
技术研发人员:刘轲,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。