一种语料处理方法和装置及语料分析方法和装置制造方法及图纸

技术编号:15265655 阅读:47 留言:0更新日期:2017-05-03 23:46
本发明专利技术公开了一种语料处理方法和装置及语料分析方法和装置。该方法包括:获取所有或部分语料,作为语料集合;确定语料集合中每一条语料对应的意图;对语料集合中的每一条语料进行分词,确定每条语料中的词语;确定语料集合中每个词语出现的次数;确定每个词语在每个意图上出现的次数;根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。

Data processing method and apparatus, and data analysis method and device

The invention discloses a method and a device for processing corpus, a corpus analysis method and a device thereof. The method includes: acquiring all or part of the corpus as the data collection; to determine the intent set each corpus corpus corresponding word segmentation; for each corpus corpus collection, identify each corpus of words; the number of data collection to determine each word appears in each word; determine the number of times each intention appears according to the data set; each word appears in the number of times and each word each intention appears, determine the weight of each word in each intention.

【技术实现步骤摘要】

本专利技术涉及移动通讯领域,特别是涉及一种语料处理方法和装置及语料分析方法和装置
技术介绍
随着海量网络信息的积累和规模的高速增长,准确快捷的找到自己所需要的信息已成为人们迫切的需求。自动问答系统通过理解人们自然语言形式的问句,返回答案或者包含答案的文本片段,在一定程度上提高了用户检索的效率和准确性。但是,在实际的应用环境中,由于自然语言自身的特性和用户对系统的不熟悉,导致用户录入的交互信息很随意;有时是寒暄信息,或业务质询,或对系统的投诉;有时是价格咨询,或业务流程咨询,或产品基本信息咨询;如果不做区别的应答,答案的准确性将会大打折扣,无法满足用户需求,极大地影响了用户的满意度,降低了用户体验。
技术实现思路
鉴于现有技术中自动问答系统,无法满足用户需求,及大地影响了用户的满意度,降低了用户体验的问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的语料处理方法和装置及语料分析方法和装置。本专利技术提供一种语料处理方法,包括:获取所有或部分语料,作为语料集合;确定语料集合中每一条语料对应的意图;对语料集合中的每一条语料进行分词,确定每条语料中的词语;确定语料集合本文档来自技高网...
一种语料处理方法和装置及语料分析方法和装置

【技术保护点】
一种语料处理方法,其特征在于,包括:获取所有或部分语料,作为语料集合;确定所述语料集合中每一条语料对应的意图;对语料集合中的每一条语料进行分词,确定每条语料中的词语;确定所述语料集合中每个词语出现的次数;确定每个词语在每个意图上出现的次数;根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。

【技术特征摘要】
1.一种语料处理方法,其特征在于,包括:获取所有或部分语料,作为语料集合;确定所述语料集合中每一条语料对应的意图;对语料集合中的每一条语料进行分词,确定每条语料中的词语;确定所述语料集合中每个词语出现的次数;确定每个词语在每个意图上出现的次数;根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。2.如权利要求1所述的方法,其特征在于,利用下述公式确定每个词语在每个意图上的权重F(Xi):F(Xi)=(Mi/P)*(1/Ln(P)),其中,Xi表示词语,i表示词语的序号,i的取值范围是自然数,M表示意图,Mi表示Xi在意图M上出现的次数,P表示Xi在所述语料集合中出现的总次数,Ln是自然对数。3.如权利要求1或2所述的方法,其特征在于,所述对语料集合中的每一条语料进行分词,确定每条语料中的词语的处理包括以下之一:ansj分词、stanford分词、庖丁解牛。4.一种语料处理装置,其特征在于,包括:获取模块,用于获取所有或部分语料,作为语料集合;意图确定模块,用于确定所述语料集合中每一条语料对应的意图;分词确定模块,用于对语料集合中的每一条语料进行分词,确定每条语料中的词语;次数确定模块,用于确定所述语料集合中每个词语出现的次数,以及用于确定每个词语在每个意图上出现的次数;权重确定模块,用于根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。5.如权利要求4所述的装置,其特征在于,利用下述公式确定每...

【专利技术属性】
技术研发人员:牛国扬
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1