一种车型名称识别方法技术

技术编号:36809299 阅读:10 留言:0更新日期:2023-03-09 00:35
本发明专利技术公开了一种车型名称识别方法,方法包括获取文本信息的原始语料,对原始语料进行文本纠错修复,获得第一数据;通过别名识别模型对第一数据进行别名信息提取,获得第二数据;其中,别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型,第二数据包括第一别名和第一上下文信息;通过车型标准名称匹配模型对第二数据进行车型名称反推,获得第一车型名称,实现文本信息的车型名称识别。本实施例实现了从文本信息中自动纠错并识别车型名称,避免出现别名与标准名称之间多对多时无法识别的情况,提高识别准确率。提高识别准确率。提高识别准确率。

【技术实现步骤摘要】
一种车型名称识别方法


[0001]本专利技术涉及车型名称识别领域,尤其涉及一种车型名称识别方法。

技术介绍

[0002]随着互联网融入人们生活,论坛、热聊和各种社交媒体中消费者的评论已经成为汽车厂商了解消费者用车需求和获得使用反馈的重要渠道。由于消费者评论都是文字形式,通过人工阅读来总结消费者的用车需求和反馈,需要耗费大量的人力和时间,因此利用自然语言处理的各种算法提取文字中的主要信息是提高效率节约成本的一个重要方法。在从评论文本中提取信息时“车型名称”是最基础,同时也是最重要的部分,它确定了各种分析结果的对象,处理不好,分析的结果会发生偏差甚至错误。例如:如果将提及“A4”的文本全部认为评论的是奥迪A4(进口旅行车)就会发生严重错误,因为人们在评论国产轿车奥迪A4L时也常常称其为“A4”。而将消费者对A4L的评论混入对进口A4的评论中将使得分析结果出现严重偏差。
[0003]由于多数消费者评论都相当口语化,对于车型名称也常常使用简短的别称或者喜爱的昵称,这一现象使得车型名称和车型的别名之间会出现多对多的关系。例如:两个车型对应同一个昵称如马自达3和宝马3系的别名都包含“小三”、国产轿车奥迪A4L常常被称为“A4”与奥迪A4(进口旅行车)混淆;一个车型名称对多个别名,如奔驰C级别名包括“老C”、“C系”、“小奔奔”、“200”;车型别名与具有其它意义的词语混淆如大众宝来的别名包括“小宝”、“自舒宝”、“传奇”(宝来在19年推出过传奇款)。
[0004]在各种评论或者文章的文本信息中,这种车型名称和车型别名之间存在多对多的关系、别名和具有其它意义的常用词混淆以及拼写错误等现象,为识别车型名称带来不少困难,在车型名称识别中常常出现的情况有:将别名对应到错误车型;不是车型的别名识别成了别名;别名因和普通词汇相似,而没有正确识别出等现象。一旦车型名称识别发生错误,整个文本解读出来的内容就会被归到错误的车型下面,使得分析出来的该车的消费者需求发生偏差。因此,准确的车型名称识别对于厂商低成本高质量地了解消费者需求具有重要的意义。
[0005]在现有技术中,对于在文本信息中识别车型名称,常采用的方法包括基于规则和基于模型及规则,其中,基于规则的车型名称识别采用语言学专家手工构造规则模板,选用各种特征如:标点、关键字、指示词、位置词等方法,以模式和字符串匹配程度来进行识别。基于模型及规则的车型识别用模型提取句子中最大可能的状态序列并将各状态序列与规则相匹配的部分识别为别名,模型仅是辅助找出可能符合规则的序列片段,实际效果仍然依赖于规则的设计,因此和基于规则的车型识别有同样的缺陷。这两种方法都存在的弊端在于:1)只识别别名,没有解决车型标准名称和别名之间多对多的问题,不能由别名反推出对应的车型的标准名称使得其实用性受到很大限制(比如只能识别“A4”是昵称,但是不能识别该评论信息是针对国产的奥迪A4L还是进口的奥迪A4L。这种不能确定评论对象的情况下评论是无法被进一步使用);2)不能处理评论中很常见的拼写错误问题;3)忽略上下文语
境降低了准确率;4)依赖规则模板设计过度依赖人工经验,自动化程度不高;5)对聊天这类口语化的文本匹配程度低且效果差;5)在别名用型号简称而非车型简称时根本识别不出来。

技术实现思路

[0006]本专利技术提供了一种车型名称识别方法,实现从文本信息中自动纠错并识别车型名称,避免出现别名与标准名称之间多对多时无法识别的情况,提高识别准确率。
[0007]为了解决上述技术问题,本专利技术实施例提供了一种车型名称识别方法,包括:
[0008]获取文本信息的原始语料,对原始语料进行文本纠错修复,获得第一数据;
[0009]通过别名识别模型对第一数据进行别名信息提取,获得第二数据;其中,别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型,第二数据包括第一别名和第一上下文信息;
[0010]通过车型标准名称匹配模型对第二数据进行车型名称反推,获得第一车型名称,实现文本信息的车型名称识别。
[0011]实施本专利技术实施例,获取文本信息的原始语料,对原始语料进行文本纠错修复,获得第一数据,通过文本纠错修复,实现自动识别并纠正拼写错误,进一步提高识别准确率。通过汽车BERT模型、全连接层神经网络模型和条件随机场模型形成的别名识别模型,对第一数据进行别名信息提取,获得第二数据;其中,第二数据包括别名和上下文信息,通过模型识别实现不依赖于专家规则自动寻找别名,不但能识别出基于车型名称而产生的别名还能识别出基于型号名称而产生的别名。通过车型标准名称匹配模型,对第二数据进行车型名称反推,获得车型标准名称,实现文本信息的车型名称识别。提取别名和上下文信息,利用上下文其它信息可解决别名与标准名称之间多对多的情况,实现用别名+上下文其它信息反推其对应的车型标准名称,实现从文本信息中自动识别车型名称,别名信息提取和车型名称反推的过程中结合了上下文信息,可有效提高识别车型名称的准确性。
[0012]作为优选方案,对原始语料进行文本纠错修复,获得第一数据,具体为:
[0013]根据车型名称库,获得全部的第二车型名称;
[0014]将当前第二车型名称,拆分成第一字符列表;
[0015]根据第一字符列表,生成各字符的第一发音列表;
[0016]根据谐音库,找出各字符的第一发音列表的每个发音所对应的全部谐音,获得各字符的全部谐音,并根据各字符的全部谐音,获得当前第二车型名称的衍生谐音;
[0017]根据各第二车型名称的衍生谐音和各第二车型名称,建立车名谐音词库。
[0018]施本专利技术实施例,根据车型名称所有衍生谐音,建立车名谐音词库,扩大词库识别范围,有效抓住汉语发音特点,得到最接近真实的评论原始文本,有利于后期提取别名和车型名称反推。
[0019]作为优选方案,将原始语料转化为字符级发音列表,并根据字符级发音列表和车名谐音词库,进行发音匹配,获得错误车名,将错误车名替换成正确车名,具体为:
[0020]将原始语料拆分成单字,并将单字转化成发音,获得字符级发音列表;
[0021]根据车名谐音词库中所有谐音词的长度,获得长度阈值范围;
[0022]根据长度阈值范围,确定当前长度;
[0023]根据当前长度和松散容忍度,获得当前窗口长度;
[0024]根据当前窗口长度、原始语料和字符级发音列表,进行窗口顺文本滑动,获得当前窗口框选的待识别文本;
[0025]在车名谐音词库中搜索各衍生谐音的长度,找出衍生谐音的长度与当前长度相同的衍生谐音,获得第二衍生谐音;
[0026]将待识别文本的字符级发音列表与第二衍生谐音做匹配,若匹配成功,则将待识别文本标记为错误车名;
[0027]将错误车名替换成正确车名。
[0028]实施本专利技术实施例,谐音匹配成功时即认为为拼写错误,对原始语料进行拼写错误检查与自动修复,实现自动识别并纠正拼写错误,避免因为拼写错误,导致车型名称的错误识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车型名称识别方法,其特征在于,包括:获取文本信息的原始语料,对所述原始语料进行文本纠错修复,获得第一数据;通过别名识别模型对所述第一数据进行别名信息提取,获得第二数据;其中,所述别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型,所述第二数据包括第一别名和第一上下文信息;通过车型标准名称匹配模型对所述第二数据进行车型名称反推,获得第一车型名称,实现所述文本信息的车型名称识别。2.如权利要求1所述的车型名称识别方法,其特征在于,所述对所述原始语料进行文本纠错修复,获得第一数据,具体为:根据车型名称库,进行谐音扩充,建立车名谐音词库;将所述原始语料转化为字符级发音列表,并根据所述字符级发音列表和所述车名谐音词库,进行发音匹配,获得错误车名,将所述错误车名替换成正确车名。3.如权利要求2所述的车型名称识别方法,其特征在于,所述根据车型名称库,进行谐音扩充,建立车名谐音词库,具体为:根据所述车型名称库,获得全部的第二车型名称;将当前所述第二车型名称,拆分成第一字符列表;根据所述第一字符列表,生成各字符的第一发音列表;根据谐音库,找出所述各字符的所述第一发音列表的每个发音所对应的全部谐音,获得所述各字符的所述全部谐音,并根据所述各字符的所述全部谐音,获得当前所述第二车型名称的衍生谐音;根据各所述第二车型名称的所述衍生谐音和各所述第二车型名称,建立所述车名谐音词库。4.如权利要求3所述的车型名称识别方法,其特征在于,所述将所述原始语料转化为字符级发音列表,并根据所述字符级发音列表和所述车名谐音词库,进行发音匹配,获得错误车名,将所述错误车名替换成正确车名,具体为:将所述原始语料拆分成单字,并将所述单字转化成发音,获得字符级发音列表;根据所述车名谐音词库中所有谐音词的长度,获得长度阈值范围;根据所述长度阈值范围,确定当前长度;根据所述当前长度和松散容忍度,获得当前窗口长度;根据所述当前窗口长度、所述原始语料和所述字符级发音列表,进行窗口顺文本滑动,获得当前窗口框选的待识别文本;在所述车名谐音词库中搜索各所述衍生谐音的长度,找出所述衍生谐音的长度与所述当前长度相同的所述衍生谐音,获得第二衍生谐音;将所述待识别文本的所述字符级发音列表与所述第二衍生谐音做匹配,若匹配成功,则将所述待识别文本标记为所述错误车名;将所述错误车名替换成正确车名。5.如权利要求1所述的车型名称识别方法,其特征在于,所述通过别名识别模型对所述第一数据进行别名信息提取,获得第二数据,具体为:根据汽车评论语料和基础BERT模型,建立所述汽车BERT模型;根据所述汽车评论语料和所述汽车BERT模型,建立所述全连接层神经网络模型;
根据所述汽车评论语料、所述汽车BERT模型和所述全连接层神经网络模型,建立所述条件随机场模型;将所述第一数据,按照句子进行分割,获得第三数据,将所述第三数据输入所述汽车BERT模型,获得第二向量,将所述第二向量输入所述全连接层神经网络模型,获得第一标记概率,将所述第一标记概率输入所述条件随机场模型,输出第一标注,根据所述第一标注,提取别名信息,获得所述第一别名...

【专利技术属性】
技术研发人员:周策蓬蕾黄忠礼程博
申请(专利权)人:广东数鼎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1