语料的获取方法、装置、设备及存储介质制造方法及图纸

技术编号:32119934 阅读:25 留言:0更新日期:2022-01-29 19:05
本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大的词典,节省了资源。节省了资源。节省了资源。

【技术实现步骤摘要】
语料的获取方法、装置、设备及存储介质


[0001]本公开实施例涉及文本处理
,尤其涉及一种语料的获取方法、装置、设备及存储介质。

技术介绍

[0002]用户直连制造(Customer

to

Manufacturer,简称C2M)模式,是一种用户直连制造商的商业模式。在C2M模式下,制造商可以根据商品的历史表现企划出符合消费者需求和市场的商品。在对商品的历史表现进行分析时,通常采用的是实体发现技术,而在实体发现技术中如何从信息文本中获取足够准确、全面,且符合商品特性的语料是本领域技术人员长期致力于解决的技术问题。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种语料的获取方法、装置、设备及存储介质。
[0004]本公开实施例的第一方面提供了一种语料的获取方法,包括:
[0005]获取对象的多个信息文本;
[0006]分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料的获取方法,其特征在于,包括:获取对象的多个信息文本;分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。2.根据权利要求1所述的方法,其特征在于,所述分别对每个信息文本进行处理,得到每个信息文本的中间语料,包括:分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果;基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料;其中,所述第一分词结果中包括所述信息文本拆分得到的单个文字和/或单词。3.根据权利要求2所述的方法,其特征在于,所述基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料,包括:针对每个信息文本的第一分词处理结果,从所述第一分词处理结果中删除第一预设字符,得到所述信息文本的第二分词处理结果;基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料;其中所述第一预设字符包括标点符号和/或空格。4.根据权利要求3所述的方法,其特征在于,所述基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料,包括:将所述第二分词处理结果中具有数字含义的词替换为第二预设字符,得到第三分词处理结果;将所述第三分词处理结果作为中间语料。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料,包括:将所述中间语料中相邻的两个词进行组合,得到多个组合词;针对每个组合词,将所述组合词的词频与所述组合词的TFIDF值进行乘积运算,得到第一运算值;将所述第一运算...

【专利技术属性】
技术研发人员:张浩应森辞董宇霍承富周凯任卫军
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1