【技术实现步骤摘要】
语句主题获取方法和装置
本公开涉及一种语句主题获取方法和装置。
技术介绍
现有技术中,当需要获取一段语句的主题时,通常采用分词工具将该语句分为单独的词,根据各个词对应的实数映射关系构建词向量,根据词向量计算相似度从而找到对应主题。然而,在论坛中、商品评价区中等,用户的留言往往是比较偏口语化、且短小的语句,通过现有技术对口语化语句进行分词往往无法得到有意义的分词结果,从而导致获取语句主题的准确率低。
技术实现思路
本公开的一个方面提供了一种语句主题获取方法,包括:获取语句数据,该语句数据表示待处理语句;从该语句数据生成句式结构数据,该句式结构数据表示属于预置主题类别的特定句式结构;基于该特定句式结构确定所述待处理语句的主题。可选地,上述从语句数据生成句式结构数据包括:预置多个主题类别,任一主题类别对应至少一个样本语句;基于滑动窗口从待处理语句中提取至少一个片段,将所提取的片段按照在待处理语句中的位置顺序构成候选句式结构;将所构成的候选句式结构与所述主题类别对应的样本语句进行匹配,计算该候选句式结构在所述主题类别中的词频;将该候选句式结构与所述多个主题类别对应的样本语句进 ...
【技术保护点】
1.一种语句主题获取方法,包括:获取语句数据,所述语句数据表示待处理语句;从所述语句数据生成句式结构数据,所述句式结构数据表示属于预置主题类别的特定句式结构;基于所述特定句式结构确定所述待处理语句的主题。
【技术特征摘要】
1.一种语句主题获取方法,包括:获取语句数据,所述语句数据表示待处理语句;从所述语句数据生成句式结构数据,所述句式结构数据表示属于预置主题类别的特定句式结构;基于所述特定句式结构确定所述待处理语句的主题。2.根据权利要求1所述的方法,其中,所述从所述语句数据生成句式结构数据包括:预置多个主题类别,所述主题类别对应至少一个样本语句;基于滑动窗口从所述待处理语句中提取至少一个片段,将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构;将所述候选句式结构与所述主题类别对应的样本语句进行匹配,计算所述候选句式结构在所述主题类别中的词频;将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配,计算所述候选句式结构在所述多个主题类别中的逆文档频率;当所述词频和/或所述逆文档频率满足预设条件时,确定所述候选句式结构为属于所述主题类别的特定句式结构。3.根据权利要求2所述的方法,其中,所述基于滑动窗口从所述待处理语句中提取至少一个片段,将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构包括:利用长度可变的滑动窗口在所述待处理语句上滑动,提取落入所述滑动窗口的片段;由所提取的任一片段按照在所述待处理语句中的位置顺序构成所述候选句式结构;或者由所提取的任意多个无重叠的片段按照在所述待处理语句中的位置顺序构成所述候选句式结构。4.根据权利要求2所述的方法,其中;在所述基于滑动窗口从所述待处理语句中提取至少一个片段之前,所述方法还包括:对所述待处理语句进行预处理;所述对所述待处理语句进行预处理包括如下至少一项:当所述待处理语句中包括数字时,利用第一预设占位符替换所述数字;并且/或者当所述待处理语句中包括日期时,利用第二预设占位符替换所述日期;并且/或者当所述待处理语句中包括时间时,利用第三预设占位符替换所述时间;并且/或者当所述待处理语句包括连续多个相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。