FIND研究员∶萧宏智
资本市场寒冬,生成式AI异军突起
2022年美国联准会为打压通膨,开始加速升息步伐,因而垫高资金成本,对新创投资趋於保守。资本市场寒冬下,生成式AI新创却逆势而起,屡屡创下钜额募资的佳绩。以生成行销文案为业务主轴的Jasper AI,在A轮募资取得1.25亿美元,市场估值15亿美元;另一家开发图像生成开源模型的Stability AI,宣布完成1.01亿美元种子轮融资,估值也站上10亿美元,与Jasper AI同样跻身独角兽的行列。就如同今(2022)年9月红杉资本(Sequoia Capital)发表之《生成式AI∶一个创造性的新世界》报告所说,生成式AI虽蕴藏巨大市场潜力,各领域的应用仍方兴未艾,我们不期待人工智慧可以写出像托尔斯泰那样的旷世巨著,但可以确定生成式AI将是新一轮典范移转的开端。
资料来源∶Jasper AI
图一、Jasper AI官网首页
深度学习模型驱动生成式AI发展
生成式AI之所以在这一两年来快速发展,主要是因为生成对抗网路(Generative Adversarial Network)、生成扩散模型(Diffusion Model)、基础模型(Foundation Model)等深度学习技术的突破。其中生成对抗网路与生成扩散模型都有助於生成更为细致逼真的图形或影像,两者差别在於生成对抗网路要先建立生成器(Generator)和判别器(Discriminator)两种神经网路,透过彼此攻防对抗来生成图像;生成扩散模型则运用热力学扩散原理,透过连续添加噪讯来破坏训练图像,直到图片变成完全杂讯,再将此步骤逆向还原以生成图像,因此无须判别器的辅助。
驱动生成式AI更重要的关键,在於基础模型的兴起,基础模型系由史丹福大学教授李飞飞在2021年联合百馀位学者发表并命名。以往深度学习模型多半聚焦在单一领域,只能解决特定问题。基础模型先搜集大规模未标记的数据样本,并透过预训练(Pre-training),建构具通用性的深度学习模型,之後再进行模型参数微调,就可以胜任不同任务,应用於更多元的落地场景。以OpenAI开发的GPT-3生成模型为例,调整参数高达1,750亿个,运用GPT-3可自动生成程式码、个人履历、行销文案、文章阅读摘要等。
生成式AI落地应用与产业现况
结合上述生成对抗网路、生成扩散模型、基础模型等深度学习技术,不但可生成文本,更可以从文字生成图形、声音、影像、3D模型等,在不同媒介之间转换,成为跨领域、多模态(Multimodal)内容生成的通才。根据Gartner发布之2022年重大技术趋势,生成式AI将造就下一波生产力革命,成为未来企业数位创新的引擎,预估到2025年生成式AI产制的内容将占所有数位内容10%。此外,Gartner也指出,从技术成熟度曲线(Gartner Hype Cycle)来看,生成式AI已跨越新兴科技的促动期,迈向高峰期,未来将进入主流市场采用阶段。
红衫资本盘点目前生成式AI之落地应用场景,主要分为文本生成、图像生成、语音生成、影像生成、3D建模、程式码自动撰写等不同类别。以图像生成、文本生成与程式码自动撰写相关应用较为成熟,投入业者也较为踊跃,其中图像生成可用於社群经营、媒体广告、平面设计等;文本生成可用於行销文案、产品贩售、客服支援与一般写作等;程式码撰写除了产生程式代码,还可以生成软体说明文件、网页/App或资料库SQL指令等。
以下列举两家国外具代表性的生成式AI业者,以勾勒现阶段生成式AI的产业发展现况,包括Github Copilot藉由AI自动生成程式码,还有OpenAI推出热门的图像生成工具DALL-E 2。
Github是全世界最大的开放原始码社群与协同合作平台,2021年Github结合GPT-3生成模型,提供Github Copilot服务,程式设计师只要描述想要实现的演算逻辑,Copilot就可以理解并生成相对应的程式码,且支援包括Python、JavaScript、TypeScript、Ruby等主流程式语言。
OpenAI是总部位於美国旧金山的人工智慧实验室,2019年微软投资10亿美元,2020年OpenAI开发出GPT-3生成模型,并由微软取得独家授权。OpenAI在今(2022)年推出图像生成工具DALL-E 2,继Midjourney之後,引爆AI图像生成风潮,OpenAI在今年9月表示,有超过150万名用户每天使用DALL-E 2,创建超过200万张的图像,用户包括艺术家、创作者与创意总监。借助生成式AI强劲的增长力道,微软更在2022年产品发表会,宣布其新款的平面设计软体Microsoft Designer将纳入DALL-E 2技术,使用者可根据输入文字,自动生成情境图画与视觉版型。
资料来源∶Sequoia Capital
图二、生成式AI落地应用与产业现况
既竞争又合作的产业发展格局
依生成式AI近年来的发展态势,已清楚看出从使用者生成内容(User Generated Content)到人工智慧生成内容(AI Generated Content)的脉络,未来几年随XR虚拟体验时代的来临,对於沈浸式内容的需求更为迫切,进一步带动AI生成影像、视讯或3D模型之应用。
此外,生成式AI是以基础模型为底层技术,若将生成式AI简单分为基础层与应用层,就基础层而言,可以发现包括微软、谷歌、百度、阿里巴巴等科技巨头都竞相投入或支持基础模型的研发,形成算法、算力与数据的军备竞赛;就应用层来说,未来将有更多新创业者寻求与大型科技平台合作,在不同领域发展落地应用与解决方案,共创商业生态系。
资料来源∶
1.封面照片为笔者运用OpenAI DALL-E 2生成人工智慧意象图
https://openai.com/dall-e-2/
2.红杉资本发布之研究报告《生成式AI∶一个创造性的新世界》
Generative AI: A Creative New World | Sequoia Capital US/Europe
3.生成对抗网路(Generative Adversarial Network)技术原理
https://en.wikipedia.org/wiki/Generative_adversarial_network
4.生成扩散模型(Diffusion Model)技术原理
https://en.wikipedia.org/wiki/Diffusion_model
5.基础模型(Foundation Model)技术原理
https://en.wikipedia.org/wiki/Foundation_models
6.Gartner发布之2022年重大技术趋势报告
The Gartner Top 12 Strategic Technology Trends for 2022