当前位置:首页 > 技术研究 > 正文内容

ASR语音智能车牌识别解决方案源代码

陈雄7个月前技术研究4887

方案介绍


背景介绍


随着智能客服类产品的与日俱增,行业角逐也越发激烈,客户的要求也越来越高,对产品的专业度有了更高的要求,本次项目也是由某汽车领域的客户提出了需要对车牌号进行准确识别的要求,不仅限于基础的外呼功能和AI服务,更要解决客户场景化的业务需求。


为了能够准确识别到车牌号,一号互联专门成立了内部算法攻坚组,专项攻克车牌号识别的难题,满足客户的需求。




行业痛点


1、汽车4S店:在汽车保养和汽车维修的过程中, 客户会报读:我的车牌号是XXX,这个时候需要准确识别到客户的车牌号,才能查到历史单据。

2、停车场:在停车场自动出入时,有时已经通过微信扣费后,还会出现重复扣费的情况,在客户申诉时,客户会报读:我的车牌号是XXX,这个时候需要准确识别到客户的车牌号,才能查到历史停车记录,缴费信息。

3、高速ETC:客户会经常查询通行账单时,需要先采集信息,客户会报读:我的车牌号是XXX,这个时候需要准确识别到客户的车牌号,才能查到通行账单,通行历史。


需求分解


1、使用场景:在机器人与客户对答的过程中,客户会说:”我的车牌号是约B而97d额落“。需要从字符串中提取出正确的车牌号“粤B297DL”;

2、在使用ASR引擎进行转译的过程中,很多内容会被转译错误,形成不正确的内容,例如,ASR识别为“约B而97d额落”,需要进行纠错过程;

3、纠错完成后,形成了7位的车牌号,需要进行车牌号校验,校验通过后,输出最终的车牌号结果;


解决方案


经过组内的多次沟通,不断碰撞,最终共同确定了项目解决方案,在此过程中,两个部门的同事也是频繁交流,互换思想,学习对方的优点,也为项目的成功奠定了基础。

1、数据准备:基于用户真实数据并结合实际中出现的音近、方言、不规范表达等情况,构建了2000w条训练语料,并随机采样200w、400w、800w。

2、车牌号识别提取:基于序列标注任务对车牌号进行的提取,利用车牌组成为34个省,24个字母,10个数字等限定类型组成。将车牌类别转化为68种类型的序列标注任务。

3、车牌号纠错:基于自研的RNNs模型,训练NER模型,并对用户的错音、表达不规范等情况进行识别纠错。。

4、车牌号校验:纠错后的数据,再根据车牌号特征值,进行68种类型的序列标注,验证当前车牌号的准确性。

5、返回数据:将校验后的数据,返回给应用层做业务处理。



核心技术


序列标注


序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。

序列标注一般可以分为两类:

1、原始标注(Raw labeling):每个元素都需要被标注为一个标签。

2、联合标注(Joint segmentation and labeling):所有的分段被标注为同样的标签。

命名实体识别(Named entity recognition, NER)是信息提取问题的一个子任务,需要将元素进行定位和分类,如人名、组织名、地点、时间、质量等。

举个NER和联合标注的例子。一个句子为:Yesterday , George Bush gave a speech. 其中包括一个命名实体:George Bush。我们希望将标签“人名”标注到整个短语“George Bush”中,而不是将两个词分别标注。这就是联合标注。



BIO标注法


解决联合标注问题的最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。

BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。

比如,我们将 X 表示为名词短语(Noun Phrase, NP),则BIO的三个标记为:

1、B-NP:名词短语的开头

2、I-NP:名词短语的中间

3、O:不是名词短语



使用效果


通过asr识别后的车牌号文本内容为“约B而97d额落”,则经过发音训练的纠错和标注后为:B-粤 B-B B-2 B-9 B-7 B-D B-L I-L;因此最终输出的车牌号为“粤B297DL”。




项目总结


经过这段时间一号互联内部算法攻坚组的密切合作,已经在项目中有所建树,业务端需要底层算法的支持,底层算法也需要业务端的表现才能发光发热。这次项目的合作成果不仅是一次项目的成功,也为了公司未来的发展壮大奠定了基础。



标签: asr
返回列表

上一篇:为什么需要智能质检

没有最新的文章了...

相关文章

centos部署seafile服务器

centos部署seafile服务器

按照官网安装一直没有成功,网络上收集资料,本人成功,在阿里云ESCseafile部署environment:OS:CentOS6.8 64 bit osInternal IP: seafil...

推荐免费的SIP软件,带CRM功能的SIP客户端

推荐免费的SIP软件,带CRM功能的SIP客户端

目前大家在用的SIP客户端,都是界面一般,功能过于简单。如果SIP客户端可以带CRM(通讯录功能)那就非常完美了,最近发现一号互联通信助手客户端,非常好:1.免费,不免费,不推荐;2.有手机端。PC端...

wifi路由器误区

wifi路由器误区

 无线路由器的设置,实际上需要在速度、稳定和兼容性之间,尽量获得均衡的结果。这里也只能给出一系列建议啦。误区1、频段的选择——5G一定比2.4G好?    5G频段的确有...

汇编破解应用

汇编破解应用

一、掌握NOP、JNE、JE、JMP、CMP汇编指令的机器码①NOP:NOP指令即“空指令”。执行到NOP指令时,CPU什么也不做,仅仅当做一个指令执行过去并继续执行NOP后面的一条指令。(机器码:9...

苹果应用商店下线腾讯产品?

苹果应用商店下线腾讯产品?

5月5日晚,朋友圈很多人转发了“重要通知!!!苹果app store 所有腾讯产品都已经下架,请不要轻易删除手机中微信及qq。”朋友圈一片哗然,什么原因让苹果干掉了腾讯?我也测试了,搜索qq出现非正常...

Erlang MQTT消息服务器 emqttd

Erlang MQTT消息服务器 emqttd

[emqttd]是采用Erlang语言开发,全面支持MQTT V3.1.1协议,支持集群和大规模连接的开源MQTT消息服务器。 [emqttd]致力于发布一个基于Erlang/OTP语言平台,企业级稳...

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。