【技术实现步骤摘要】
一种样本数据处理方法及装置
本申请涉及计算机
,尤其涉及一种样本数据处理方法及装置。
技术介绍
随着微博、社交网站和热线电话等应用的发展,越来越多的信息开始以短文本的形式呈现,并且呈爆炸式增长。文本分类可以帮助人们快速有效的从海量数据中获取关键信息,而文本分类的准确性依赖于机器学习模型的性能,机器学习模型的性能又依赖于样本数据。现有的文本样本数据处理方法大多采用基于关键词词袋(BagofWords)模型的方法,该方法用在长文本中通常能取得较好的效果,但是用在短文本中常常效果不佳、质量低。主要原因是,相较于长文本,短文本具有特征稀疏、主题不明确的特点。首先,由于短文本长度的限制,其特征词很少,而用关键词词袋模型生成的样本数据维度大,这增加了文本处理的难度。其次,在长文本中,跟主题相关的词通常会大量出现,可以由此来判断整篇文章的主要内容;而在短文本中则不能根据词频来判断主要内容。比如短文本“咨询羽毛球主题的餐厅中”,“羽毛球”和“餐厅”的词频相同,但显然该文本的主题是“餐厅”,在文本分类时应被分到“餐饮”这一类别而不是“运动”类别。由此可见,现有的样本数据处理方 ...
【技术保护点】
1.一种样本数据处理方法,其特征在于,包括:获取短文本样本进行分词后得到的分词结果,并获取包含N个关键词的关键词词袋,所述分词结果中包括至少一个词;根据所述分词结果与所述关键词词袋确定出第一元素集合,所述第一元素集合中包括N个元素,所述第一元素集合中各个元素的值为所述关键词词袋中各个关键词在所述分词结果中出现的次数;获取所述分词结果中的目标词,并获取所述目标词与所述关键词词袋中各个关键词的相似度值,所述目标词包括在所述分词结果中存在且在所述关键词词袋中不存在的词;若所述目标词与所述关键词词袋中的第一关键词的相似度值大于相似度阈值,则根据所述目标词与所述第一关键词的相似度值更 ...
【技术特征摘要】
1.一种样本数据处理方法,其特征在于,包括:获取短文本样本进行分词后得到的分词结果,并获取包含N个关键词的关键词词袋,所述分词结果中包括至少一个词;根据所述分词结果与所述关键词词袋确定出第一元素集合,所述第一元素集合中包括N个元素,所述第一元素集合中各个元素的值为所述关键词词袋中各个关键词在所述分词结果中出现的次数;获取所述分词结果中的目标词,并获取所述目标词与所述关键词词袋中各个关键词的相似度值,所述目标词包括在所述分词结果中存在且在所述关键词词袋中不存在的词;若所述目标词与所述关键词词袋中的第一关键词的相似度值大于相似度阈值,则根据所述目标词与所述第一关键词的相似度值更新所述第一元素集合中所述第一关键词对应的第一元素,得到第二元素集合;其中,所述第二元素集合中的各个元素用于构建用于短文本分类的机器学习模型。2.根据权利要求1所述的方法,其特征在于,所述获取包含N个关键词的关键词词袋,包括:获取用于生成关键词词袋的训练样本集;根据词频-逆文档频率算法从所述训练样本集中确定出N个关键词,根据所述N个关键词生成所述关键词词袋。3.根据权利要求1或2所述的方法,其特征在于,所述第一元素集合为第一向量,所述第一向量中包括N个元素,所述第一向量满足:其中,所述V1表示所述第一向量,所述表示关键词词袋中的第n个关键词在所述分词结果中出现的次数,所述n的取值范围为1到N的自然数。4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取所述目标词与所述关键词词袋中各个关键词的相似度值,包括:从词向量数据库中获取所述目标词的词向量,并从所述词向量数据库中获取所述关键词词袋中各个关键词的词向量;计算所述目标词的词向量与所述各个关键词的词向量之间的相似度值;所述若所述目标词与所述关键词词袋中的第一关键词的相似度值大于相似度阈值,则根据所述目标词与所述第一关键词的相似度值更新所述第一元素集合中所述第一关键词对应的第一元素,得到第二元素集合,包括:若所述目标词的词向量与所述关键词词袋中第一关键词的词向量之间的相似度值大于相似度阈值,则计算所述相似度值与所述目标词在所述分词结果中出现的次数的乘积;将所述第一元素集合中所述第一关键词对应的第一元素更新为所述乘积与所述第一元素之和,得到第二元素集合。5.根据权利要求1-4任一项所述的方法,其特征在于,所述在得到所述第二元素集合之后,所述方法还包括:获取所述第二元素集合中M个0元素对应的M个第二关键词;获取所述关键词词袋中的至少一个第三关键词,所述第三关键词在所述分词结果中出现的次数大于或等于1;根据所述M个第二关键词中各个第二关键词与所述关键词词袋中各个第三关键词之间的相似度值替换所述第二元素集合中的0元素,得到第三元素集合;其中,所述第三元素集合中的各个元素用于构建用于...
【专利技术属性】
技术研发人员:周涛涛,周宝,陈远旭,王健宗,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。