一种基于机器学习的中文商业文本预处理方法技术

技术编号：22565184 阅读：19 留言：0更新日期：2019-11-16 12:03

本发明专利技术公开了一种基于机器学习的中文商业文本预处理方法，对输入的中文商业文本采用以下步骤进行处理：（1）对中文商业文本进行分句和分词；（2）利用决策树对分好的词语进行词性标注；（3）基于贝叶斯分类器利用条件概率进行词义消歧；（4）利用One‑Hot编码与Skip‑Gram模型结合的混合模型表示词向量；（5）利用TF‑IDF调整词语权重，确定多义词在当前语境下对应的词义；（6）输出基于机器学习预处理后的中文商业文本。本发明专利技术能够有效的解决中文商业问答系统由于文本预处理不足导致系统答非所问，应答情景有限的问题，提高计算机理解文本的准确性，使得机器翻译、智能问答等延伸工作具有可实施性。

A preprocessing method of Chinese business text based on machine learning

The invention discloses a preprocessing method of Chinese business text based on machine learning, which adopts the following steps to process the input Chinese business text: (1) sentence segmentation and word segmentation of Chinese business text; (2) part of speech tagging of the divided words using decision tree; (3) word sense disambiguation based on Bayesian classifier using conditional probability; (4) one \u2011 hot The hybrid model of encoding and skip \u2011 gram model is used to represent word vector; (5) TF \u2011 IDF is used to adjust word weight to determine the corresponding meaning of polysemous words in the current context; (6) Chinese business text is output based on machine learning preprocessing. The invention can effectively solve the problem that the Chinese business question answering system does not answer the question and the answer situation is limited due to the lack of text preprocessing, improve the accuracy of the computer understanding of the text, and make the extension work of machine translation, intelligent question answering, etc. have the feasibility.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的中文商业文本预处理方法
本专利技术属于自然语言处理领域，具体涉及一种基于机器学习的中文商业文本预处理方法。
技术介绍
商业发展和人工智能的结合受到越来越广泛的关注，语音识别技术是人机交互的基础。现阶段的自然语言处理通常采用以下两种方法，一种是基于规则的自然语言处理方法，国内外利用这种方法进行多年的实验后，效果依然十分不理想，原因是它从该语言的语法句法等方面出发，按照语言的规则来分析和处理，因为规则太多，没有固定的方法，同时通过人们的生产生活，不断地增添新的规则，所以实现起来十分困难。另一种方法是基于统计的自然语言处理方法，这种方法基于收集大量的语料数据，通过统计学习的方式来理解语言，这在当代越来越受重视而且已经成为趋势。目前，计算机功能和数据存储的快速增长，使访问大量的语言数据成为可能。中文数据与其他语言存在巨大差异，如中文是连续书写的，没有语态和时态的变化以及存在多音字等，使得中文更加的灵活，许多国外成熟的技术无法用于处理中文文本。本专利技术提出一种基于机器学习的中文商业文本预处理方法。
技术实现思路
针对上述问题，本专利技术提出一种基于机器学习的中文商业文本预处理方法。实现上述技术目的，达到上述技术效果，本专利技术通过以下技术方案实现：一种基于机器学习的中文商业文本预处理方法，其特征在于：对输入的中文商业文本采用以下步骤进行处理：(1)对中文商业文本进行分句和分词；(2)利用决策树对分好的词语进行词性标注；(3)基于贝叶斯分类器利用条件...

【技术保护点】
1.一种基于机器学习的中文商业文本预处理方法，其特征在于：对输入的中文商业文本采用以下步骤进行处理：/n(1)对中文商业文本进行分句和分词；/n(2)利用决策树对分好的词语进行词性标注；/n(3)基于贝叶斯分类器利用条件概率进行词义消歧；/n(4)利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量；/n(5)利用TF-IDF调整词语权重，确定多义词在当前语境下对应的词义；/n(6)输出基于机器学习预处理后的中文商业文本。/n

【技术特征摘要】
1.一种基于机器学习的中文商业文本预处理方法，其特征在于：对输入的中文商业文本采用以下步骤进行处理：
(1)对中文商业文本进行分句和分词；
(2)利用决策树对分好的词语进行词性标注；
(3)基于贝叶斯分类器利用条件概率进行词义消歧；
(4)利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量；
(5)利用TF-IDF调整词语权重，确定多义词在当前语境下对应的词义；
(6)输出基于机器学习预处理后的中文商业文本。

2.根据权利要求1所述的一种基于机器学习的中文商业文本预处理方法，其特征在于：所述的步骤(1)中利用句号作为识别符对文本进行分句，基于概率统计模型对文本进行分词，具体为：
输入由C＝[c1，c2，…，cn]T表示的字符串，输出由S＝[w1，w2，…，wm]T表示的分词串，其中m≤n，之后利用如下公式进行分词：

比较不同分割方案出现概率的大小，概率最大的方案即为确定的分割方案S；
其中，P(S|C)为当输入字符串为C时，输出分词串为S的条件概率；
P(C|S)为当输出分词串为S时，输入字符串为C的条件概率；
P(S)为分词串S出现的概率；
P(C)为输入字符串C出现的概率，是一个用于标准化的固定值。

3.根据权利要求1所述的一种基于机器学习的中文商业文本预处理方法，其特征在于：步骤(2)通过使用词语特征A划分数据集D，其中特征A是根据信息增益，增益比和基尼指数三个决策树指标确定的。

4.根据权利要求3所述的一种基于机器学习的中文商业文本预处理方法，其特征在于：所述的信息增益，用于衡量分类前后信息的变化，公式如下：
g(D,A)＝H(D)-H(D|A)
其中，H(D)为所述数据集D的熵，H(D|A)为所述数据集D和所述特征A之间的互信息，g(D，A)为所述数据集D分类前后的信息变化。

5.根据权利要求3所述的一种基于机器学习的中文商业文本预处理方法，其特征在于：所述的增益比公式如下：

<...

【专利技术属性】
技术研发人员：桂冠，张婕，杨洁，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人