从AI@'22大会，看谷歌的生成式及进展

财经极客网 2022-11-11 13:18

极客网·人工智能11月11日 2022年是生成式AI发展进程中的重要一年。大型语言模型在生成文本和软件代码方面不断取得进展。与此同时，随着DALL-E2、Imagen和StableDiffusion等模型的引入，人们看到了文本到图像生成器的巨大进步。

2022年还标志着生成式AI模型的产品化加速。生成模型的科学和技术如今已经发展成熟到能够解决实际问题的地步。像微软和谷歌这样的公司正在寻求一个新市场中占据领先地位的方法，这可能会改变创造力的未来。

谷歌公司在其日前举办的AI@'22大会上，展示了在其产品利用生成模型的路线图。其战略可能是该领域的发展方向和未来竞争可能发生变化的前奏。

谷歌的生成模型进展

谷歌Parti使用Transformers从文本令牌创建图像

在AI@'22会议上，谷歌研究中心首席科学家Douglas Eck列出了该公司目前在四个领域对生成模型的研究：文本、源代码、音频、图像和视频。

谷歌目前正在所有这些领域运行测试项目，着眼于在未来创建产品。Wordcraft Writers Workshop致力于帮助作者在写作中从大型语言模型中获得帮助。这是一个使用语言模型LaMDA根据用户提供的提示生成文字的工具。该工具被设计成在一个迭代过程中使用模型，在这个过程中，作者和大型语言模型(LLM)进行交互，共同创建故事。

Eck说，“使用LaMDA来写一个完整的故事将成为了一个死胡同。当它用来增加趣味、为特定角色或增强故事的某个方面时，这可能是一个更有效的工具。用户界面也必须是正确的。Wordcraft工具是从头开始设计的，可以让作者与生成模型进行交互。”

学习代码是一个使用大型语言模型(LLM)为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具，它包括单行和多行代码完成建议。

AudioLM使用语言模型生成音频。该模型将一个音频样本作为输入。它可以用来生成音乐和语音。

也许Eck在AI@'22会议上展示的最先进的模型是文本到图像模型Imagen和Parti。Imagen的工作原理类似于OpenAI的DALL-E2，它使用扩散模型将语言嵌入转化为图像。Parti使用Transformers架构从文本标记生成图像。DreamBooth是一个可以调优文本到图像生成器(如Imagen)的模型，以在不同的场景中显示主题。DreamFusion将扩散模型的功能与神经辐射场(NeRF)结合起来，神经辐射场(NeRF)是一种深度学习架构，可以从2D图像创建3D模型。

谷歌DreamBooth对生成模型进行微调，以在不同的环境中显示特定的主题

Eck还展示了谷歌与Imagen Video和Phenaki在视频生成方面的研究的预览。Imagen Video使用扩散模型创建一系列高分辨率图像，这些图像可以拼接在一起创建视频。Phenaki基于Transformers架构，将文本提示序列转换为图像序列。Imagen Video和Phenaki结合使用，可根据提示序列创建高分辨率视频。

谷歌的生成模型战略

Eck在会上演讲中明确表示，生成式模型并不意味着自动化或取代人类的创造力。“这不再是一个创造现实画面的生成模型，而是自己创造的东西。技术应该满足我们的需要，让我们对自己的工作有代理权和创造性的控制权。”

在讨论谷歌的“负责任的AI”战略时，他进一步强调了这一点，并在演讲结束时说：“创造力是使我们成为人类的重要组成部分。我认为在构建这些AI系统时，牢记这一点很重要。”

Eck的一些言论是为了缓解生成式AI模型取代人类创造力的恐惧(这在很大程度上被夸大了)，强调积极的影响，将该领域转向以人为中心的AI。AI系统应该以一种提供透明度和控制的方式设计，以增强人类的能力。如果没有人类的控制和监督，生成模型等AI系统将表现不佳，因为它们无法像人类一样掌握基本概念。

谷歌能在生成式AI领域获得竞争优势吗？

AI研究和产品化之间的差距很难弥合。当然，谷歌的大型语言模型(LLM)和文本到图像模型的质量不会低于OpenAI的GPT-3和DALL-E2。但问题是，谷歌能否基于这些模式推出成功的产品?

在考虑将技术产品化时，需要考虑以下一些问题：这项技术会成为新产品的基础技术吗?如果没有，它会被集成到现有的产品中吗?它解决的是什么问题，目前存在的替代解决方案是什么?产品是否提供了足够的附加值来说服用户转换?它是否有助于巩固企业在现有市场中的地位?

企业通常会将技术带到他们擅长的领域或市场。在写作领域，微软领先于谷歌。Office 365的市场份额超过了GSuite，在将大型语言模型(LLM)集成到其产品中方面，微软公司已经领先一步。

微软在GitHub Copilot和Codex的编码方面也处于领先地位，它们已经进入生产模式，而不是谷歌的内部代码生成工具。谷歌最受欢迎的开发工具是Colab和Android Studio，这将为它提供一个测试和推出代码AI的场所。但这些集成开发环境(IDE)的市场份额无法与微软的Visual Studio Code和GitHub Codespaces(也属于微软)相提并论。

在图像、视频和音频领域，Adobe公司将成为生成式AI的赢家。Adobe公司已经拥有最大的市场份额和完善的工具，并定期更新AI功能。Adobe已经在其工具套件中尝试生成式AI工具。

然而，这并不意味着现有这些公司一定会主导生成式AI领域。目前，从目前使用的工具(如文字处理器、集成开发环境和图像编辑应用程序)的角度来看待生成模型。基本上，行业厂商正在研究生成模型如何自动化或改进已经在做的任务(完成句子、编写代码块、编辑或生成照片等等)。当他们创造新的工具系统和工作流程时，AI的真正潜力将得到充分发挥，这些工具和流程能够充分利用生成模型和AI的其他进步，以完全不同的方式来实现目标。

正如谷歌重塑了信息发现模式，亚马逊随着网络的普及重塑了购物模式那样，发现并拥抱AI新机遇的企业必然会改变市场现状或塑造新的市场。

【以上内容转自“极客网”，不代表本网站观点。如需转载请取得极客网许可，如有侵权请联系删除。】