隐私计算,人工智能

抛弃真实数据集?生成式AI“踢馆”人工智能下半场

行业前沿 算力智库 2022/07/05 08:00

前段时间,一款突然“蹿火”的AI自动绘画程序Disco Diffusion,在朋友圈刷屏。


只需输入描述场景的关键词,程序便会自动绘制渲染出对应的图像,效果堪称惊艳。


图:Disco Diffusion绘画作品


值得称道的是,这并非是现实中某幅画作的复刻版,而是完全原创的全新作品。


AI绘画,玩兴大发,新奇之外,其背后的隐藏“发动机”——生成式AI正成为人工智能战事风云的新焦点。


日前,Gartner发布了2022年重要战略技术趋势。其中,生成式人工智能(Generative Artificial Intelligence)位列12项重要战略技术之首,同时也被选入2022年银行和投资服务行业的三大热门技术趋势之一,Venture Beat则在3月20日更为直接指出深度生成模型可以为人工智能提供最有希望的前景。


在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。


来源:Gartner Hype Cycle for Artificial Intelligence, 2021


所以,生成式AI是什么?为什么被赋予如此高的期待?


1.AI训练的福音:

合成数据“取代”真实数据?


“因为生成式AI解决了人工智能最为“头疼”的数据问题”。一位人工智能从业者向算力智库表示。


作为“数据驱动型”技术,获取正确的数据是构建强大AI最重要和最具挑战性的部分,但现实是:无“数”可用和采样偏见已成为行业核心瓶颈,这也导致了人工智能普遍存在的“黑盒子”问题——可解释性缺乏和数据歧视。


曾经美国使用的犯罪风险评估算法COMPAS 被证明对黑人犯罪嫌疑人造成歧视,导致白人更多被评为低犯罪风险人群,而黑人更多被评为高犯罪风险人群,这一逻辑让COMPAS 臭名昭著,而其主因则要归咎于采样过程中人为主观因素的掺杂和介入。环环相扣,连锁反应,“数据歧视”带来了“决策歧视”。


不仅是采样偏差问题,在数据可获得性上,也阻碍重重。


比如说科研人员想要训练一辆自动驾驶汽车的计算机视觉模型,往往需要投喂大量完整、干净、正确标注的高质量图像数据,而这些数据(集)却并没有那么容易获得,一是需遵守日益严格苛刻的数据隐私法规,数据共享必须慎之又慎。二是特定任务的模型训练需要特定领域的专业数据,这种专业型有效数据,本身样本就是稀缺的。


既然仰赖真实数据容易处处“碰壁”,麻烦连连,那么是否可以“另辟蹊径”?让AI自己合成数据,自己创造自己,自己进化自己?在这个设想上,生成式AI的出现有望让其成真。


对于生成式AI,Gartner这样定义:通过各种机器学习(ML)方法从数据中学习工件的组件(要素),进而生成全新的、完全原创的、真实的工件(一个产品或物品或任务),这些工件与训练数据保持相似,而不是复制。其关键技术是生成式对抗网络(GAN, Generative Adversarial Network ),在原理上,生成式对抗网络使用两个神经网络相互对立,一个生成器和一个判别器,这两个神经网络都经过交替周期训练,生成器不断学习生成更逼真的数据,判别器则更善于区分假数据和真实数据,双方在对抗中不断完善,最终生成接近于源数据的新数据或内容。


这种“新数据或内容”也即我们所说的“合成数据”,理论上来讲GAN可以创建无限数量的数据样本,这也是其被寄予厚望的重要原因。


合成数据集与真实数据集拥有相同的数学与统计学属性,但不会明确指代真实个体,也可以将其理解为真实数据的一种数字化镜像,能够在统计学层面反映实际情况,在数据稀缺的某些情况下,使用合成数据可以增加(称为数据增强)或改变训练集中的数据量以达到训练目标。如此一来,就意味着可以在完全虚拟的场域中训练AI系统,并且能更轻松地针对医疗保健、零售、金融、运输乃至农业等各类用例实现数据定制。


据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,尽管目前这一比例还不到 1%,但生成式AI与合成数据的崛起,已是可预见的必然,并且无疑会成为人工智能下半场竞逐的“新前线”,由此掀起的AI 2.0浪潮也在逼近。


2.赛道开“卷”,谁显锋芒?


Forrester Research最近明确将生成式AI及合成数据列为实现“AI 2.0”的必要因素之一,并且认为其能本质上扩展AI的应用可能性,是推动多个领域数字化进程的关键技术,可支撑下一代的自动编程、内容开发、视觉艺术、社交、商业服务、工程设计与流程自动化。


这些以生成式AI为主要驱动力的应用场景,正是目前中国AI数字商业链亟待填补的拼图。


“尽管GAN已诞生六年多,但遗憾的是,目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察,国内知名的人工智能企业(如商汤、云从、旷视、依图等),他们的主要商用场景基本都是人脸识别、语音智能等,以识别与检测为主,可以说生成式AI是国内计算机视觉领域被遗落的‘一方宝藏’ ”。新加入人工智能创业公司ZMO.ai的马里千在公开采访中如是表示。


确然,在前瞻产业研究院《中国AI数字商业展望2021-2025》的报告中也指出,从目前各人工智能技术在落地应用环节的表现来看,生成式AI和组合式AI为代表的人工智能新兴技术最具增长潜力。


图:中国AI数字商业两大关键应用技术栈

来源:前瞻产业研究院《中国AI 数字商业展望2021-2025》


上述的这位行业新兵马里千,曾就读于北大,后前往鲁汶大学(KU Leuven)攻读博士,师从 Luc Van Gool,也是欧洲计算机视觉研究领域的翘楚之一,他选择加入的这家以生成式AI为主攻领域的初创企业ZMO.ai,于2020年成立,在今年5月份刚刚宣布完成800万美元的A轮融资。


马里千是投身于生成式AI大军里的一位,ZMO.ai亦是站在生成式AI风口初现的“探路者”之一,人才和企业的涌入,折射的是正在升温的整个赛道。


“我认为计算机视觉商用的下一个十年,AI生成势必占有一席之地”,马里千表示到。


的确,算力智库发现,在推动生成式AI商用落地的进程中,已有一批企业率先抢滩试水。


算力智库不完全统计:部分生成式AI企业/应用


从表格中可以看出,国内生成式AI仍处于“预热赛段”,大多是由综合性互联网大厂为实现“业务增值”而布局,原生的垂直人工智能公司反而“染指”较少,且主要的发力方向集中在“内容和商贸”两大应用领域,在以内容为流通的文娱传媒领域,比如影像、视频、图片等载体,生成式AI可以大幅提升内容生产效率,降低人工成本,而在以实物为流通的商贸领域,比如家具设计、电商虚拟试衣、工程化履约等,生成式AI化为最佳交互体验技术,辅助数字商业实现以客户体验、场景驱动为核心的增长。


以影谱科技为例,其推出的AI赛事动态内容生成方案Moviebook SAiDT是工程化履约的典型代表,为媒体机构及赛事平台提供近乎即时的AI增强内容生成能力。其发布的另一个数字商业内容生成方案Moviebook CSAI可以在极短时间内创建商品的3D可视化体验与交互,数据显示,理想状态下,CSAI方案可助力合作方实现平均交易规模增加50%,每笔交易项目增加30%,商品退货率同比减少80%,平均销售周期缩短30%。


3.生成式AI的“是与非”


光环加身,也抵不住争议不断。


GAN作为近年来深度合成(Deep synthesis)技术的基石,一开始主要被应用于图像生成模型领域,从图像生成模型,延伸出了深度伪造(Deepfake)、人脸合成、语音合成、视频生成、数字虚拟人物等不同应用。它的出现,证明了利用算法做生成可以取得如此逼真的效果。


图:Deepfake换脸技术


但坏也坏在“逼真”上。


Gartner指出:“可以创建和生成超逼真的内容的AI能力,将对人们相信自己的眼睛所看到的产生变革性的影响。” 并且从AI市场的5个角度进行了预测,就企业如何应对和适应这些未来的挑战提出了建议:


到2025年,预先训练的AI模型将主要集中在1%的供应商中,这将使AI的负责任地使用成为社会关注的问题。


在2023年,成功的账户接管攻击将有20%使用Deepfake,它将会成为社会工程学攻击的一部分。


到2024年,将有60%的AI提供商会将缓解危害/滥用行为作为其软件的一部分。


到2025年,将有10%的政府通过使用合成AI来避免隐私和安全问题。


到2025年,工作场所75%的对话将被记录和分析,以用于增加组织价值和评估风险。


这些分析中的每一个都足以引起“社会风暴”,如果将这些预测结合起来,就可以勾勒出未来的严峻形势,其中涉及道德问题,潜在的AI滥用以及工作场所隐私的丧失。


围绕Deepfake和生成式AI的安全问题,Gartner建议组织安排有关Deepfake的培训,并指出:“我们现在正在进入零信任的世界,除非使用加密的数字签名证明它是经过认证的,否则任何事物都不能被信任。”


犹如潘多拉魔盒的开启,在攀爬“科技树”的过程,派生的科技治理问题总是如影随形,后真相时代和虚拟化创新之间,如何适应并加以规制,这又将是一个值得探索的命题。


参考资料

《生成式AI来了,我们还能相信自己的眼睛吗?》科技云报道

《迪士尼、影谱科技等发力生成式AI,重新定义新下一代数字内容》亿欧网

《中国AI 数字商业展望2021-2025》前瞻产业研究院

《AI训练的福音:关于合成数据的一切》科技行者

《数据稀缺?生成式AI正在学习如何创造自己》澎湃新闻