拿下微软人脸识别世界杯冠军的中国公司什么背景

2017-07-31 16:35:51 来源:AI Lab 热度:
2016年6月,微软向公众发布了大规模现实世界面部图像数据集MS-Celeb-1M,含有10万个名人的约1000万(10M)张脸部图片,鼓励研究人员使用这些数据集开发、测试人脸识别技术。
 
 
同时,微软还宣布了MS-Celeb-1M百万人脸识别挑战赛。参赛者需要根据(但不限于)挑战赛提供的数据集作为训练数据,开发图像识别系统,从脸部图像中识别100万个名人。
 
简而言之,抽取一张名人照片,参赛团队利用自己设计的模型识别出这个人是谁,这个使用场景非常贴近日常生活,且更容易进入商业环境,比如图像字幕和新闻视频分析、舆情分析等等。
 
即使是在微软看来,MS-Celeb-1M这件事儿是非常有意义的——数据集有效填补了工业界跟学术界的空白,通过有针对的评估指标设计,竞赛实现了人脸“端到端”识别,有助于参赛模型投入现实应用。
 
在今年的一场挑战赛中,一家中国初创公司获得了百万名人识别子命题有限制类第一名,它的名字是猎户星空。
 
有限类数据比赛,比拼的是技术算法、团队的产品逻辑思维
 
借助AI界计算机视觉领域顶级会议ICCV 2017的平台,微软推出了——既包括大规模人脸识别竞赛(Hard Set及Random Set),也推出全新的、更具挑战性的小样本学习(Low-Shot Learning)竞赛,堪称“级别最高、难度最大”的技术赛事。
 
在这场赛事中,无限制类不是单纯算法的比拼,在某种程度上是在比拼数据,数据越多训练的模型越好,无限制类是算法和数据的综合比拼;而有限制类则是单纯算法的比拼,也是从算法层面难度更大的比拼,据PingWest品玩(微信号:wepingwest)了解这个——“东西只能靠算法,因为数据是一定的。当没有外部数据的情况下达到最高精度是非常困难的。”因此,组委会也认为了猎户星空的难度极高,单独列了一项采用受限数据集的子项目。
 
所以在猎户星空所参与的这个项目里,不可以使用外部数据,有限制类别只能在限定的数据集内调用,比拼团队的算法能力。
 
简而言之,就是用尽量少的资源输出最好的结果,其难点在于技术算法以及团队整体的产品设计思维。
 
猎户星空介绍,有限定数据集的竞赛难度主要在于——竞赛数据噪声很大,无法直接用于训练;而整个训练数据集非常大,适合人脸模型大规模训练的模型对资源的要求又很高,很难做到又快又好。
 
“训练数据太脏。这里的脏是指一个类别里有很多不同的人,有时我观察一个类别都不知道正确的人应该是谁,这种数据直接训练很难。”PingWest品玩向相关人士了解到。
 
经过研究,猎户星空设计了一种鲁棒的去噪算法,可以针对各类不同程度的噪声数据都进行有效地去噪。同时选择采用适合大规模训练的triplet模型,并创新地使用了一种巧妙的设计,在有限资源下加速了triplet网络的训练,也大大提升了性能。
 
最终猎户星空团队获得0.75/0.606(random set/hard set)的高分。用比赛举办方的话来说,0.75已经接近满分,是一个非常难以达到的成绩。而在hard set上0.606的成绩,也是远远超过去年的最好成绩(0.534)。
 
一个问题是——一年成立刚刚一年的公司,就能在这样的赛事里拿下这样的成绩,这家公司是什么背景?
 
猎户星空的背后,是图像、语音识别两大核心技术
 
AI技术所面临的问题,现在已经明显——学术界的人才不停发paper,却不一定能在大公司中将技术应用落地,快速推向市场;而目前缺失的是工业界的人才——他们面临着如何将论文、学术转化为实际产品应用的问题。如何打开AI技术的应用市场,其实更注重后者。
 
猎户星空所扮演的角色就是后者,让技术落地,更贴近消费者。如今也已经拥有了不少落地产品。
 
检索这家公司的资料——猎户星空全名为北京猎户星空科技有限公司,创立于2016年9月,是猎豹移动旗下人工智能公司。猎户星空成立初就汇聚了全球人工智能的精英人才,初创团队拥有来自美国硅谷,日本,台湾地区,中国北京,深圳等全球一流科技公司技术大牛和产品极客。
 
最早,猎户星空投身人脸识别的研究和探索,他们在今年LFW人脸识别的评测中取得了前三名的成绩,技术算法上——与只追求精度的团队不同的是猎户星空是用尽量小的网络来追求尽量高的精度的事情;而产品应用上,他们的策略就是快速应用到产品上。
 
据了解——关于这次人脸识别的比赛技术,猎户星空会运用到实际场景中,最后将会落地在门禁、机器人、移动app等具体的产品里。
 
其人脸识别技术已经应用到猎豹移动旗下的直播产品Live.me中,在Live.me上主要的作用就是鉴黄,直播平台每天会产生超过20万小时的直播内容,而运用图像识别技术进行24小时的实时监控,极大地提高工作效率和成果。
 
语音识别方面,今年6月,猎户星空联合喜马拉雅发布了一款面向用户的小雅AI音箱。这是猎户星空AI生态链上的第一款产品,小雅AI音箱背后的核心便是猎户星空全链路自研的远场语音交互技术,这套系统从有呼必应、优质点播体验和海量内容等多方面打造完美的用户体验。
 
仅仅过了一个月,小米也发布了小米的第一款AI音箱——“小爱同学”。这也是猎豹移动旗下人工智能公司猎户星空与小米的首次合作,这款产品由猎户星空提供人声回应技术以语音合成等技术。
 
简而言之,当“小爱同学”再被唤醒的时候,回答的那一声“诶”“我在”等交流内容由猎户星空提供;而语音合成技术则是处理语音回馈时候的语音模型、语调,让她听起来不那么机器人呢,更像是一个自然人。通过TTS语音合成模式,还可以让你喜欢的明星用它的语气和声调每天叫你起床。
 
让技术快速和旗下应用产品结合,正是这一家产品思维型AI公司的核心诉求。
 
傅盛的AI思维和猎豹的转变
 
在猎豹CEO傅盛看来,互联网+是上一波认知红利,下一个则是AI ,AI+时代已经到来。
 
互联网产业改变了我们传统意义上认知的那个新闻+互联网,变成了一个更庞大的互联网世界。而AI人工智能技术也会是对整个产业的重构,是对我们整个思维方法的重新塑造。
 
“AI就跟互联网一样,互联网本质上是一个技术突破吗?它是由于产生这个协议、产生这个网站以后,使得很多的产品形式发生了改变。今天你看到的所有比如是支付,我们也叫互联网+,所有的行业都架在互联网上。今天互联网所有的红利都来自于和传统行业的结合、和应用的结合。我们真正想一想互联网的第一波其实也是一个互联网+,它是把新闻和互联网结合,然后是内容和互联网结合、娱乐和互联网结合,它都是一种基本的技术手段。
 
所以AI我认为也是这样一个东西,它其实是可以改变很多行业的行业规则的,它本身很难成为一个所谓独立的行业,一定要和应用的结合。所以叫AI+时代的到来。”
 
人工智能将现实所有物理事件产生的东西归结于一个点——数据。然后,再把这个数据,用神经网络的方式去认知和理解,达到过去所有算法无法企及的高度。
 
傅盛认为,深度学习的机会在于和应用的结合而不是技术输出。深度学习的核心是数据驱动,虽然有模型调参,有自己的优势,但别人有更多的数据调参很快拉平优势,很难真的想像一家公司通过提供技术输出就能成功。
 
在傅盛这样的思维下,猎豹已经展开了内容产品的布局。
 
猎豹移动最早期的定位是安全、工具类产品。在成功实现了工具产品的商业化之后,猎豹移动开始升级赛道。
 
除了在美国市场做直播产品Live.me,收购新闻服务运营商News Republic,猎豹还投资了Musical.ly短视频团队。
 
根据2017年第一季度的财报显示,内容型应用对猎豹总收入的贡献从上一季度的11.3%增长到了18.8%,环比增长55.2%。这都得益于旗下内容型产品——Live.me、News Republic等在海外市场的抢眼表现,两款产品都使用到了人工智能的技术。
 
这家猎户星空公司,应该就是驱动猎豹步伐加快的新动力吧。

责任编辑:黄焱林