作者丨张洁
【51CTO.com原创稿件】计算机视觉 (Computer Vision,变幻 CV) 在人工智能领域里相当于人类的眼睛,致力于让计算机能够像人类一样,何方识别、江湖计算机视觉路理解和处理图像以及视频中的变幻信息。得益于深度学习的何方兴起和发展,目前 CV 领域进展迅速,江湖计算机视觉路此项技术已经广泛应用到安防、变幻金融、何方自动驾驶、江湖计算机视觉路医疗等行业,变幻也逐渐成为人工智能领域里应用最广的何方技术之一。当越来越多的江湖计算机视觉路应用场景被挖掘出来时,也意味着计算机视觉的变幻发展前景将无比广阔。
2012 年之后,何方深度学习兴起,颠覆了几乎所有的计算机视觉任务。其特点是将传统的特征工程和模型学习合为一体,即能够在学习的过程中进行特征设计。在过去的 2021 年里,传统科技巨头公司表现依旧令人瞩目,不少模型一经推出就获得广泛关注。
OpenAI 同时发布了两个连接文本与图像的神经网络:CLIP 和 DALL·E 。基于这两个模型,机器学习社区的开发者在文本与图像的匹配方面尝试了很多新的玩法。
谷歌大脑团队公布了 Vision Transformer(ViT)进阶版 ViT-G/14,参数高达 20 亿的 CV 模型,经过 30 亿张图片的训练,刷新了 ImageNet 上最高准确率记录——90.45%。
……
此外,过去一年间 CV 领域的论文发布也堪称百花齐放。据统计,今年的 CVPR(Computer Vision and Pattern Recognition,计算机视觉领域顶级峰会之一)举办的 12 次会议共发表了超过 1600 篇论文,其中一些新主题来到了聚光灯下。
其一,使用对抗样本学习。通过对抗性学习,当加入不同级别的噪声时,每个样本的可靠性可以根据其预测标签的稳定性来估计。这使模型能够识别和关注对噪声更具弹性的样本,从而降低其对对抗性示例的敏感性。
其二,自监督和对比学习。自监督学习是创建数据高效人工智能系统的几种计划之一,主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。
其三,视觉语言模型。VL 使用不同形式的数据,可以更好地进行特征映射和提取。此外,可以使用大量数据样本来训练这些系统。与自监督学习类似,学习到的特征是通用的,可用于多个下游任务。此外,VL 模型可用于学习更好的视觉特征和增强语言表示。
其四,有限数据学习。弱监督学习和迁移学习有助于减少训练 CV 模型所需的标记数据量,从而增加这些模型在工业中的应用和采用。弱监督学习还可以帮助模型在存在噪声标签的情况下表现得更好。不过,弱监督学习和迁移学习都是相对较新的领域,要在工业中使用尚需时日。
自 2012 年计算机视觉领域出现神经网络技术之后,算法进行多次稳步改进,在某些视觉任务上的性能已经可以与人类相媲美,甚至有所超越。随着计算机视觉技术日趋成熟,其商业价值和发展潜力也得到了资本市场的普遍认同。
根据 Crunchbase 统计,过去 8 年里约 1800 家计算机视觉创始公司获得风险投资超 150 亿美元。仅就中国市场来说,计算机视觉行业市场规模发展也相当迅速,据前瞻产业研究院整理,2020 年我国计算机视觉产品的市场规模占整个人工智能行业的 57%。
就行业分布来说,热门赛道集中于零售、安防、制造、医疗。
零售业可基于场景化营销、商品识别分析、消费者行为分析、防盗损等应用,为改善用户体验、门店运营智能化改革提供了途径;安防作为 CV 落地最早的场景之一,在视频监控、智能交通、智慧园区等领域应用广泛;制造业对 CV 技术的使用包括智慧现场安监、预测性维护、智能辅助运输和工业视觉质检等方向,场景丰富多样;在医疗领域,CV 产品和解决方案作为提升现代医疗诊断和治疗水平的重要工具, 使实施风险低、创伤性小的手术方案成为可能。
总体而言,计算机视觉和产业融合的加深,也加速了产业规模的增长。资料显示,到 2025 年我国计算机视觉技术及视觉核心产品及带动的相关产业规模将达到 6000 亿。不过,这个赛道固然潜力无限,但对于身处这个赛道的玩家来说依旧暗流汹涌。
2021 年 12 月,在商汤科技上市的关键时刻,美国财政部将其列入“中国军工复合体企业”清单,美国投资人被禁止投资商汤科技。而在此前被列入制裁名单的还有与商汤科技并称“AI 四小龙”的另外 3 家企业(旷视科技、云从科技、依图科技)。
当前,中美两国在科技领域角力日趋激烈。在互联网行业整体发展放缓的大背景下,美国对中国人工智能公司的打压无疑是雪上加霜。截至 2021 年 12 月 31 日,同属于计算机视觉领域的“AI 四小龙”均已启动上市计划,但仅有商汤科技几经波折后在港股成功上市。
四小龙上市之路的曲折多舛,撇开外因作用,折射的更多是整个 AI 行业在商业化之路上的步履维艰。
AI 发展几经起落,与其烧钱快、落地难的现实不无关系。以 AI 四小龙为例,他们同处计算机视觉领域,创业之初产品同质化程度较高,落地场景也较多地集中在安防和金融领域,要寻求发展,开发更多的产品解决方案和落地场景是刚需。但要在更为细分的赛道力求落地无疑是更大的挑战,在持续的业务扩张、高昂的研发投入下,落地不及预期的阴影始终没有散去,常年亏损的局面也未有扭转。
计算机视觉技术的应用落地需要更深入业务、更深入行业,加强用户洞察,满足千人千面的需求,这要求企业未来在重视前沿算法研发的同时,进一步加强算法和商业应用的融合,在产业落地的深水区,寻求和其他行业、合作伙伴共建生态,实现价值闭环。
纵观 2021 年计算机视觉领域的整体发展,英特尔软件创新者、谷歌开发者专家 Sayak Paul 提出了五大新趋势。
原因:
原因:
原因:
自监督学习不使用任何 GT 标签(Ground Truth Labeler ),而是使用前置任务(pretext tasks);然后使用大量未标注的数据集进行模型训练。
与之相比,监督学习存在这样一些挑战:
总体来说,未标注数据的准备成本非常低,而且在计算机视觉领域,SEER 等(一种自监督模型)模型在对象检测和语义分割方面的表现要优于监督学习。
原因:
Transformers 是一种新的机器学习架构,采用的是 Self-Attention(自注意力)机制,其与传统 Attention(注意力)机制有很大不同。这种方式能通过量化成对实体之间的关系(pairwise entity interactions),有效获取源端或目标端自身词与词之间的依赖关系,有助于网络学习对齐数据中的上下文信息。另外,当 self-attention 与 CNNs 相结合,会构建强大的 baselines(BoTNet)
与 CNN 相比,Transformer 的优势:
与 CNN 相比,Transformer 的劣势:
预训练时,对大数据机制的依赖性更强。因为 transformer 没有和 CNNs 那样的明确定义的先验
视觉模型容易受到很多因素干扰,影响其性能。
目前主要面临以下三个问题:
可以提升鲁棒性的尝试:
计算机视觉带给机器的并不止于通过视觉理解世界的能力,更是与世界建立联系,基于理解进行决策,最终实现交互的路径。像其他技术一样,CV 也经历着缺口、泡沫、泡沫挤出、理性回归、再度崛起的起起落落,商业化依旧任重而道远。不过我们依然愿意相信,历史的车轮永远向前,距离计算机视觉普惠人类生活的那一天已经不会太远。
附参考资料:
从 CVPR 2021 的论文看计算机视觉的现状:
https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_area
IEEE Fellow 梅涛:视觉计算的前沿进展与挑战:
https://www.yanxishe.com/blogDetail/28319
2021 年中国人工智能行业市场现状与优势赛道分析计算机视觉成为千亿级大赛道:
https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pc
Sayak Paul | Deep Learning, Computer Vision, etc.:
https://sayak.dev/
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】
责任编辑:武晓燕 来源: AI深一度 AI 计算机视觉
(责任编辑:热点)
深圳市大鹏新区大鹏街道助企纾困 预计将为租户减租共计1284.61万元
棠记控股(08305.HK)预计年度亏损不少于50万港元 毛利严重下降