亚马逊发布生成式AI服务Amazon Bedrock和Amazon Titan大模型

你可能不知道,亚马逊其实也有参与生成人工智能领域。 但它不是自行构建人工智能模型,而是招募第三方在 AWS 上托管模型。

AWS今天推出了Amazon Bedrock,通过来自AI21实验室、Anthropic和Stability AI等初创公司的预训练模型,提供了一种构建生成式人工智能应用程序的方法。Bedrock还提供了Titan FMs(基础模型)的访问,是AWS内部训练的模型系列。

“将机器学习应用于现实世界,以规模解决实际业务问题,是我们最擅长的事情,”AWS的生成式AI副总裁Vasi Philomin在接受采访时表示。“我们认为,每个应用程序都可以通过生成式人工智能进行重新构想。”

AWS最近与几家生成式人工智能初创公司签订了合作伙伴关系,并不断增加对构建生成式人工智能应用所需技术的投资,因此Bedrock的推出有些先见之明。

去年11月,Stability AI选择了AWS作为其首选云服务提供商,3月份,Hugging Face和AWS合作,将前者的文本生成模型引入了AWS平台。最近,AWS为初创企业推出了生成式人工智能加速器,并表示将与Nvidia合作构建“下一代”基础架构来训练AI模型。

Bedrock和定制模型

据Grand View Research估计,到2030年,生成式人工智能市场的价值可能接近1100亿美元,Bedrock是亚马逊在这个市场中最有力的进攻。

通过使用API,AWS客户可以选择从不同供应商的人工智能模型中获取数据,包括AWS。具体细节有些模糊,比如亚马逊还没有宣布正式的定价。但是,该公司强调Bedrock旨在面向大型客户构建“企业级”人工智能应用程序,这使其与一些人工智能模型托管服务(如Replicate以及传统竞争对手Google Cloud和Azure)区分开来。

人们可以推测,生成式人工智能模型供应商受到AWS的影响或潜在的收益分享机制的激励而加入Bedrock。然而,亚马逊并没有透露模型许可或托管协议的具体条款。

托管在Bedrock上的第三方模型包括AI21 Labs的Jurassic-2系列,这些模型支持多种语言,可以用西班牙语、法语、德语、葡萄牙语、意大利语和荷兰语生成文本。Anthropic的模型Claude可以执行各种对话和文本处理任务。与此同时,Stability AI的一套Bedrock托管的文本到图像模型,包括Stable Diffusion,可以生成图像、艺术品、标志和图形设计。

AWS bedrock

至于亚马逊的定制产品而言,目前Titan FM系列共有两个型号,未来可能会有更多:一个是文本生成模型,另一个是嵌入模型。文本生成模型类似于OpenAI的GPT-4(但不一定在性能上与之相当),可以执行像写博客文章和电子邮件、摘要文档和从数据库中提取信息等任务。嵌入模型将文本输入(如单词和短语)翻译成数字表示形式,即嵌入,包含文本的语义含义。Philomin称这与驱动Amazon.com搜索的模型之一相似。

AWS客户可以通过指向 Amazon S3 中的一些标记示例来定制任何Bedrock模型——只要有20个示例即可。亚马逊表示,不会使用客户数据来训练底层模型。

“在AWS上,我们在民主化机器学习方面发挥了关键作用,并使任何想要使用它的人都可以访问它,”Philomin说。“Amazon Bedrock是构建和扩展生成AI应用程序的最简单方式,具有基础模型。”

当然,鉴于存在关于生成AI的未解答的法律问题,人们不禁想知道有多少客户会接受。

微软的生成AI模型套件Azure OpenAI Service取得了成功,该套件将OpenAI模型与面向企业客户的其他功能捆绑在一起。微软在一篇博客文章中表示,截至3月份,已有超过1,000个客户在使用Azure OpenAI Service。

但是,有几个关于生成AI技术的诉讼正在进行中,其中包括来自OpenAI和Stability AI的诉讼,原告声称使用了受版权保护的数据,主要是艺术作品,未经允许用于训练生成模型。(生成AI模型通过在样本图像和文本上“训练”来“学习”创作艺术品、代码和更多内容,通常是从网络上任意收集的。)另一个正在通过法院的案件旨在确定不给出归属或信用的代码生成模型是否实际上可以商业化,并且澳大利亚一位市长威胁要对OpenAI的生成模型ChatGPT的不准确言论提起诽谤诉讼。

坦率地说,Philomin并没有给人太多信心,他拒绝透露亚马逊的Titan FM系列到底是在哪些数据上进行训练的。相反,他强调Titan模型是为了检测和消除AWS客户提供的数据中的“有害”内容,拒绝用户输入的“不适当”内容,并过滤包含仇恨言论、亵渎和暴力的输出。

当然,即使是最好的过滤系统也可能被规避,就像ChatGPT所展示的那样。所谓的提示注入攻击已经针对ChatGPT和类似模型进行,用于编写恶意软件、识别开源代码中的漏洞以及生成令人憎恶的性别歧视、种族主义和虚假信息内容。(生成AI模型往往会放大训练数据中的偏见,或者如果它们用完了相关的训练数据,就会编造出一些东西。)

但是Philomin对这些担忧置之不理。

他说:“我们致力于负责任地使用这些技术。我们正在监测监管环境…我们有很多律师帮助我们查看哪些数据可以使用,哪些数据不能使用。”

尽管Philomin试图保证,但品牌可能不想为所有可能出现的问题负责。(在诉讼事件中,AWS的客户、AWS本身或违规模型的创建者是否会被追究责任还不是完全清楚的。)但是个人客户可能会被追究责任,特别是如果使用这些技术是免费的。

CodeWhisperer、Trainium和Inferentia2正式推出

在这个话题上,同时也与其今天的大力推动生成AI有关,亚马逊宣布其AI驱动的代码生成服务CodeWhisperer现在可以免费向开发人员提供,而且没有任何使用限制。

这一举措表明CodeWhisperer并没有像亚马逊希望的那样受到广泛使用。它的主要竞争对手GitHub的Copilot截至1月份已经有100万用户,其中数千个是企业客户。CodeWhisperer肯定还有很长的路要走,但它打算在企业方面同时推出CodeWhisperer专业版。CodeWhisperer专业版增加了与AWS身份和访问管理集成的单点登录功能,以及更高的安全漏洞扫描限制。

CodeWhisperer于6月底作为AWS IDE Toolkit和AWS Toolkit IDE扩展的一部分推出,可以说是对上述Copilot的一种回应。CodeWhisperer是在数十亿行公开可用的开源代码和亚马逊自己的代码库、以及公共论坛上的文档和代码的训练下,可以根据只有一条注释或几个按键就能自动完成Java、JavaScript和Python等语言的整个函数的自动完成功能。

亚马逊 CodeWhisperer

CodeWhisperer现在支持几种额外的编程语言——具体来说是Go、Rust、PHP、Ruby、Kotlin、C、C++、Shell脚本、SQL和Scala。与之前一样,它会突出显示并可选择过滤与其建议的函数相关的许可证,这些函数与其训练数据中发现的现有代码片段相似。

这种突出显示是为了避免GitHub面临的法律挑战。时间将会告诉我们是否成功。

“有了这些工具,开发人员可以变得更加高效,”Philomin说。“对于开发人员来说,跟上所有的东西是很困难的……这样的工具可以帮助他们不用担心这些。”

在不那么有争议的领域,亚马逊今天宣布推出由公司的AWS Inferentia2芯片驱动的弹性云计算(EC2)Inf2实例,这些芯片去年在亚马逊的Invent大会上进行了预览。Inf2实例旨在加速AI运行时间,提供表面上更好的吞吐量和更低的延迟,以提高整体推理价格性能。

此外,亚马逊还宣布,由AWS Trainium驱动的EC2 Trn1n实例今天也已经向客户普遍提供。Trainium是亚马逊为AI培训量身定制的芯片,其提供的网络带宽高达1600 Gbps,旨在为大型、网络密集型模型提供比Trn1高20%的性能,亚马逊表示。

Inf2和Trn1n都与谷歌和微软的竞争产品相竞争,例如谷歌的用于AI培训的TPU芯片。

“AWS为生成AI提供了最有效的云基础设施,”Philomin充满信心地说。“客户的一个需求是处理这些模型的正确成本……这也是为什么许多客户没有将这些模型投入生产的原因之一。”

这是一种斗争的话语——据报道,生成AI的增长曾经使Azure陷入困境。亚马逊会遭遇同样的命运吗?这有待确定。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享