一种基于机器学习的中文商业文本预处理方法技术

技术编号:22565184 阅读:19 留言:0更新日期:2019-11-16 12:03
本发明专利技术公开了一种基于机器学习的中文商业文本预处理方法,对输入的中文商业文本采用以下步骤进行处理:(1)对中文商业文本进行分句和分词;(2)利用决策树对分好的词语进行词性标注;(3)基于贝叶斯分类器利用条件概率进行词义消歧;(4)利用One‑Hot编码与Skip‑Gram模型结合的混合模型表示词向量;(5)利用TF‑IDF调整词语权重,确定多义词在当前语境下对应的词义;(6)输出基于机器学习预处理后的中文商业文本。本发明专利技术能够有效的解决中文商业问答系统由于文本预处理不足导致系统答非所问,应答情景有限的问题,提高计算机理解文本的准确性,使得机器翻译、智能问答等延伸工作具有可实施性。

A preprocessing method of Chinese business text based on machine learning

The invention discloses a preprocessing method of Chinese business text based on machine learning, which adopts the following steps to process the input Chinese business text: (1) sentence segmentation and word segmentation of Chinese business text; (2) part of speech tagging of the divided words using decision tree; (3) word sense disambiguation based on Bayesian classifier using conditional probability; (4) one \u2011 hot The hybrid model of encoding and skip \u2011 gram model is used to represent word vector; (5) TF \u2011 IDF is used to adjust word weight to determine the corresponding meaning of polysemous words in the current context; (6) Chinese business text is output based on machine learning preprocessing. The invention can effectively solve the problem that the Chinese business question answering system does not answer the question and the answer situation is limited due to the lack of text preprocessing, improve the accuracy of the computer understanding of the text, and make the extension work of machine translation, intelligent question answering, etc. have the feasibility.

【技术实现步骤摘要】
一种基于机器学习的中文商业文本预处理方法
本专利技术属于自然语言处理领域,具体涉及一种基于机器学习的中文商业文本预处理方法。
技术介绍
商业发展和人工智能的结合受到越来越广泛的关注,语音识别技术是人机交互的基础。现阶段的自然语言处理通常采用以下两种方法,一种是基于规则的自然语言处理方法,国内外利用这种方法进行多年的实验后,效果依然十分不理想,原因是它从该语言的语法句法等方面出发,按照语言的规则来分析和处理,因为规则太多,没有固定的方法,同时通过人们的生产生活,不断地增添新的规则,所以实现起来十分困难。另一种方法是基于统计的自然语言处理方法,这种方法基于收集大量的语料数据,通过统计学习的方式来理解语言,这在当代越来越受重视而且已经成为趋势。目前,计算机功能和数据存储的快速增长,使访问大量的语言数据成为可能。中文数据与其他语言存在巨大差异,如中文是连续书写的,没有语态和时态的变化以及存在多音字等,使得中文更加的灵活,许多国外成熟的技术无法用于处理中文文本。本专利技术提出一种基于机器学习的中文商业文本预处理方法。
技术实现思路
针对上述问题,本专利技术提出一种基于机器学习的中文商业文本预处理方法。实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种基于机器学习的中文商业文本预处理方法,其特征在于:对输入的中文商业文本采用以下步骤进行处理:(1)对中文商业文本进行分句和分词;(2)利用决策树对分好的词语进行词性标注;(3)基于贝叶斯分类器利用条件概率进行词义消歧;(4)利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量;(5)利用TF-IDF调整词语权重,确定多义词在当前语境下对应的词义;(6)输出基于机器学习预处理后的中文商业文本。作为本专利技术的进一步改进,所述的步骤(1)中利用句号作为识别符对文本进行分句,基于概率统计模型对文本进行分词,具体为:输入由C=[c1,c2,…,cn]T表示的字符串,输出由S=[w1,w2,…,wm]T表示的分词串,其中m≤n,之后利用如下公式进行分词:比较不同分割方案出现概率的大小,概率最大的方案即为确定的分割方案S;其中,P(S|C)为当输入字符串为C时,输出分词串为S的条件概率;P(C|S)为当输出分词串为S时,输入字符串为C的条件概率;P(S)为分词串S出现的概率;P(C)为输入字符串C出现的概率,是一个用于标准化的固定值。作为本专利技术的进一步改进,步骤(2)通过使用词语特征划分数据集,其中特征A是根据信息增益,增益比和基尼指数三个决策树指标确定的。作为本专利技术的进一步改进,所述的信息增益,用于衡量分类前后信息的变化,公式如下:g(D,A)=H(D)-H(D|A)其中,H(D)为所述数据集D的熵,H(D|A)为所述数据集D和所述特征A之间的互信息,g(D,A)为所述数据集D分类前后的信息变化。作为本专利技术的进一步改进,所述的增益比公式如下:其中,g(D,A)为所述信息增益,HA(D)表示通过使用特征A作为样本集D的随机变量而获得的经验熵,gR(D,A)为所述增益比;分类时在候选特征中找到所述信息增益高于平均值的特征,然后选择具有最高增益比的特征。作为本专利技术的进一步改进,所述基尼指数,公式如下:其中,D为所述数据集,Di为根据第i个所述特征A所划分的数据集D的子集,n为所述特征A的总个数,Gini(D,A)为基于所述特征A划分所述样本集D时的基尼指数。作为本专利技术的进一步改进,包括采用以词语的结构或偏旁部首作为所述的特征A。作为本专利技术的进一步改进,步骤(3)用于确定在上下文语境T条件下,确定具有多义词v的语义K,其中,P(K|T)为当上下文语境为T时,所述多义词v的语义为K的条件概率;P(T|K)为当所述多义词v的语义为K时,上下文语境为T的条件概率;P(K)为所述多义词v的语义为K的概率;P(T)是一个固定值,为上下文语境T出现的概率;当P(K|T)取得最大值时为对应确定的语义K。作为本专利技术的进一步改进,所述的步骤(4)用于建立利于机器理解的语句,首先采用One-Hot编码将词语转化成随机离散的向量,之后通过Skip-Gram模型利用欧式距离表示向量间的关系,降低向量维度,增加每个向量所包含的信息量,生成最终的词向量。作为本专利技术的进一步改进,所述的步骤(5)中的词向量加权是利用TF-IDF技术调整词语权重,公式如下:其中,wij表示为某词w赋予的权重,mi表示某词w在文档中出现的次数,M为文档总词数,N为语料库中的总文档数,ni表示包含某词w的文档数。本专利技术的有益效果:本专利技术所提出的基于机器学习的中文商业文本预处理方法,能够有效的解决中文商业问答系统由于文本预处理不足导致系统答非所问,应答情景有限的问题,大大提高了计算机理解文本的准确性,同时使得机器翻译、智能问答等延伸工作具有可实施性。附图说明图1是本专利技术技术方案中提供的一种基于机器学习的中文商业文本预处理方法的流程示意图;图2是本专利技术技术方案中决策树结构示意图。图3是本专利技术技术方案中Skip-Gram模型结构示意图;图4是本专利技术一种实施例中Skip-Gram模型结构示意图;图5是本专利技术一种实施例中输出结果示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。本专利技术使用python语言在Windows平台上进行实现,如图1-3所示,将输入平台中的中文商业文本采用以下的步骤中的方案进行处理:(1)对中文商业文本进行分句和分词分句利用句号作为识别符进行划分,所述分词基于统计概率模型进行划分。所述的分词具体过程为将输入的字符串由C=[c1,c2,…,cn]T表示,输出的分词串由S=[W1,w2,…,Wm]T表示,其中m≤n,所述分词就是在所述分割方案S中利用统计方法找到统计概率最大的方案,具体公式如下:其中,P(S|C)为当输入字符串为C时,输出分词串为S的条件概率;P(C|S)为当输出分词串为S时,输入字符串为C的条件概率;P(S)为分词串S出现的概率;P(C)为字符串C出现的概率,是一个用于标准化的固定值。(2)利用决策树对分好的词语进行词性标注决策树中的分类有三个衡量指标:信息增益,增益比和基尼指数。通过使用特征A来划分数据集D,特征A包括名词、动词、形容词、叹词等,如图2所示。所述信息增益,公式如下:g(D,A)=H(D)-H(D|A)其中,H(D)为所述数据集D的熵,H(D|A)为所述数据集D和所述特征本文档来自技高网...

【技术保护点】
1.一种基于机器学习的中文商业文本预处理方法,其特征在于:对输入的中文商业文本采用以下步骤进行处理:/n(1)对中文商业文本进行分句和分词;/n(2)利用决策树对分好的词语进行词性标注;/n(3)基于贝叶斯分类器利用条件概率进行词义消歧;/n(4)利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量;/n(5)利用TF-IDF调整词语权重,确定多义词在当前语境下对应的词义;/n(6)输出基于机器学习预处理后的中文商业文本。/n

【技术特征摘要】
1.一种基于机器学习的中文商业文本预处理方法,其特征在于:对输入的中文商业文本采用以下步骤进行处理:
(1)对中文商业文本进行分句和分词;
(2)利用决策树对分好的词语进行词性标注;
(3)基于贝叶斯分类器利用条件概率进行词义消歧;
(4)利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量;
(5)利用TF-IDF调整词语权重,确定多义词在当前语境下对应的词义;
(6)输出基于机器学习预处理后的中文商业文本。


2.根据权利要求1所述的一种基于机器学习的中文商业文本预处理方法,其特征在于:所述的步骤(1)中利用句号作为识别符对文本进行分句,基于概率统计模型对文本进行分词,具体为:
输入由C=[c1,c2,…,cn]T表示的字符串,输出由S=[w1,w2,…,wm]T表示的分词串,其中m≤n,之后利用如下公式进行分词:



比较不同分割方案出现概率的大小,概率最大的方案即为确定的分割方案S;
其中,P(S|C)为当输入字符串为C时,输出分词串为S的条件概率;
P(C|S)为当输出分词串为S时,输入字符串为C的条件概率;
P(S)为分词串S出现的概率;
P(C)为输入字符串C出现的概率,是一个用于标准化的固定值。


3.根据权利要求1所述的一种基于机器学习的中文商业文本预处理方法,其特征在于:步骤(2)通过使用词语特征A划分数据集D,其中特征A是根据信息增益,增益比和基尼指数三个决策树指标确定的。


4.根据权利要求3所述的一种基于机器学习的中文商业文本预处理方法,其特征在于:所述的信息增益,用于衡量分类前后信息的变化,公式如下:
g(D,A)=H(D)-H(D|A)
其中,H(D)为所述数据集D的熵,H(D|A)为所述数据集D和所述特征A之间的互信息,g(D,A)为所述数据集D分类前后的信息变化。


5.根据权利要求3所述的一种基于机器学习的中文商业文本预处理方法,其特征在于:所述的增益比公式如下:


<...

【专利技术属性】
技术研发人员:桂冠张婕杨洁
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1