亚马逊firefly,图像识别创业者谈Firefly:视频识别是难点 数据将成门槛 | 雷锋网

关注

上周,亚马逊推出了其首款智能手机Fire Phone,其中号称能“扫描一切”的图像识别应用Firefly被认为是该产品上最大的亮点,也引起了业界对于图像识别技术的新一轮关注。

另一方面,由于Fire Phone尚未出货,许多关注Firefly的人对这款产品提出了一系列疑问:它的识别准确度如何?亚马逊的数据是否能帮它建立起门槛?它又会给图像识别领域带来怎样的影响?

在此之前,已有不少图像识别领域的创业团队在图书、商品、人脸、视频识别方面做了不少尝试,并推出了相关应用,例如来自提供图像识别和增强现实解决方案的亮风台、专注于人脸识别的Face++以及来自硅谷的图像识别创业公司Orbeus。

近日,亮风台创始人廖春元、Face++联合创始人印奇以及Orbeus的联合创始人刘天强、王盟先后接受了雷锋网的采访,谈及了自己对于Firefly的看法。

雷锋网:之前是否关注过亚马逊在图像识别方面的进展?

廖春元:在4、5年前,亚马逊收购了SnapTell公司时就开始关注。

王盟:亚马逊一直花了很多精力做图像识别,在历届计算机视觉会议上都能看到他们的身影。他们的A9团队一直在做基于特征点的图像匹配,效果还不错。

印奇:有。之前亚马逊就推出了Flow这个应用,它是Firefly的前身,在移动端商品、视觉搜索领域做出了很前沿的尝试。

雷锋网:你认为亚马逊在图书封面、商品包装、视频流媒体方面的图像识别的准确率能达到怎样的水平?

王盟:图书封面、商品包装基本已经很成熟了。产品实物识别还比较难,不过随着最近几年深度学习的成熟,被解决的时机也指日可待。

廖春元:没有专门的测试集我无法给出准确估计,但亚马逊在这方面布局很久,应该不差。

雷锋网:在Firefly涉及到的这些领域里,哪一个的技术难度最高?

印奇:这些技术里,类似图书封面这类的视觉搜索相对简单,因为有很多图像和OCR的信息。商品包装和流媒体搜索用的是不同技术,都很有挑战性。

廖春元:在识别图书、包装和视频等内容中,识别技术上应该都差不多。如果要根据视频中任意一帧,识别出该视频的来源,则难度会相对高一些,因为需要索引的东西比普通书籍封面等多得多。

王盟:准确的文字检测。

刘天强:就单纯图像、模式识别这些方面,识别精度亚马逊并不出众,但是Fire Phone设计上,多摄像头对于形成物体的三维信息有很大的帮助,因此对于物体识别来说,他们能够拿到比其他手机更全的信息,降低了识别的门槛。具体来说,其技术特点在于:一是用更多的特征数据来区分物体,二是将算法构架在Amazon巨大的商品数据库上面,三是对区分算法精度要求很高(如果正如他们声称的能够识别超过一亿类的物品,实在是一件了不起的工作)。

雷锋网:亚马逊拥有大量的图书、商品、电影资源,他们的数据库是否能够成为他们在这些领域的图像识别方面的门槛?

印奇:数据一定是一个核心资源,但未来这些数据一定会越来越开放。最终还是“搜索引擎”本身的技术能有多准确,多普适。

刘天强:当然,这是这项技术最高的门槛,算法谁都可以提高,但是数据却并不是谁都有,海量的带标注的数据,就更加难得。

廖春元:是的。

雷锋网:你们是否会与其他的电商、视频网站合作推出类似的产品?

刘天强:目前我们在App store上已经有了ReKoEye这个应用,扫描物品得到其信息,暂时没有推出类似产品的计划,因为两个原因。第一,算法精度达不到识别具体品牌的程度,例如我们可以识别某个物体是衣服,甚至可以识别出衣服的种类,但是识别不出来是哪些牌子,这会给消费者产生误导。想象这样的场景:一个用户用我们的app扫眼前朋友身上的衣服,我们App就告诉她这是件短袖,然后推荐网站上同颜色的短袖,这件事情不是不能做,但目前已经有不少相关App出现,个别app还依托于电商巨头的数据库(哪一家你懂的!),在商业上的表现也就是不温不火。第二,我们认为这类App,并不是目前物体识别技术最佳的应用领域,因为目前的技术更加适合在大的数据集上跑,做统计、做搜索或者视频更合适,而无法保证对单张图片的识别95%以上都正确,这样就很难做到很好的用户体验。

雷锋网:此前是否有手机厂商希望与你们合作,把图像识别的功能深度集成在手机中?

印奇:我们的技术被应用在很多手机中,但现阶段都没有做深度合作,未来有可能。

刘天强:有的,还不少,也考虑过,但是我们暂时打算继续坚持云计算路线,因为我们相信未来多媒体数据最终一定都是在云端的。

廖春元:是,比如最近和Oppo合作推出的O-video就有类似功能,只不过数据量没有亚马逊大,还在扩充中。

雷锋网:Firefly会给整个图像识别领域带来怎样的影响?

刘天强:3D方面的识别会被带起来,之前深度学习等工作,目前在视觉上比较常见的领域还是2D图像,如果亚马逊这种布局摄像头的方式成为业界普遍接受的标准,那么甚至有可能本质改变图像的表示形式,例如现在图像就是由像素点组成的,未来会不会由三维点阵组成的3D模型呢?让我们拭目以待。

廖春元:会加速教育用户,刺激创新,推动这个领域技术的产品化

印奇:Firefly算是第一个大规模商业化的移动端视觉搜索,会是里程碑意义的。现在大家都在想什么才是真正移动搜索的形态,也许Firefly会给大家很多启发。

雷锋网:对你们公司呢?

印奇:未来我们会在人脸识别领域持续专注的同时,会从人脸领域扩展到更广的图像识别理解领域。不排除做视觉搜索的可能性。

廖春元:既有挑战也有机会。挑战是在世界范围内有这样强劲的对手;机会是为我们树立了一个行业标杆,加速中国市场的培育。

王盟:让人们知道我们的东西的重要性。

雷锋网:它能否帮助用户真正养成用手机扫描图片、视频进行识别的习惯?

刘天强:亚马逊不是第一家做了类似的产品,过去其他公司用了众包的方法做,比如IQ Engine和Camera Find,效果也很精确,但暂时都没有取得商业上的成功。亚马逊和他们的区别在于识别全自动,但对于真正需要购买该商品的用户来讲,不会在乎多等几秒钟时间,更何况目前亚马逊的App如果没有Fire Phone的支持,对于非刚性的物体的识别精度还不够,不如目前市面上做物体识别的许多公司,比如我们Orbeus。

廖春元:手机扫描只是交互的实现方式。从用户体验的本源来看,当一个人看到当下周边环境中有感兴趣的目标时,的确有冲动想要了解更多。这个产品以简单的输入方式满足用户的这种需求,借助亚马逊强大的内容和技术资源,是有可能培养用户习惯的。也许将来不一定是用手机,可能是和智能眼镜,但视觉搜索这个功能会像当年的关键字搜索一样成为生活必需。

印奇:我觉得因为在手机端文字输入太低效,未来大家一定会像现在习惯扫二维码一样习惯去扫更多的东西,Firefly是一个很好的开端。

雷锋网:Firefly也提供了SDK,会有更多人用他们的图像识别技术直接开发应用,是否担心它会对你们带来冲击?

刘天强:当然,在物体识别这个领域必然会有竞争,但是Orbeus的技术更加细分,除了物体场景识别外,还支持用户自定义数据库,而不仅仅只是识别亚马逊库里才有的商品。例如用户想识别狗,想识别猫,这些活物,就不会是亚马逊上的商品;再比如用户希望手机能识别所有Facebook的好友的脸,这些数据集都是非常个性化的,亚马逊并不具备这方面的技术优势,对他们目前的布局也没有太大的贡献。因此,在大的识别领域,我们并不构成竞争。

廖春元:作为一个成功的产品,除了识别算法外,本地化的数据积累、产品设计、市场营销等都必不可少。我们在国内有先发优势,这和云计算领域国内产品和AWS的竞争类似。另一方面,使用SDK开发会有一定局限性,难以在垂直领域优化性能;而我们公司拥有自己的全套自主知识产权识别算法和系统,最灵活,最容易单点突破。

雷锋网(公众号:雷锋网):未来是否会有更多手机搭载四枚或更多的前摄像头,以支持这类功能?

廖春元:多镜头手机是趋势,也是应对用户对3D输入、输出的要求。

印奇:硬件永远是软件的延伸。如果亚马逊这些视觉功能未来被大家广泛使用,硬件改造难度并不高。

(题图来源:The Hindu)

“硅谷锋向标”(guigufxb),雷锋网硅谷新闻中心出品,关注硅谷动向的科技人士不可不看的前沿资讯平台。请通过微信扫描以下二维码关注:

雷锋网原创文章,未经授权禁止转载。详情见转载须知。