谷歌新型AI模型Gemini:能否超越OpenAI的GPT-4?
最近,谷歌推出了新型AI模型“Gemini”,宣称其推理能力超越了业界领先的OpenAI GPT-4。这一消息立刻在科技界引起了广泛的关注和讨论。
据了解,Gemini分为四个等级,从小到大依次是Gemini Nano-1、Gemini Nano-2、Gemini Pro和Gemini Ultra。其中,最引人注目的当属Gemini Ultra,它在多项基准测试中超越了GPT-4,显示出了强大的潜力。
比如在MMLU测试中,Gemini Ultra以90%的高分超越了GPT-4的86.4%,而在数学推理的GSM8K测试中,更是以94.4%的成绩超过了GPT-4的92%。在高等数学的MATH测试中,Gemini Ultra以53.2%的成绩微弱领先于GPT-4的52.9%。
尽管在大多数基准测试中Gemini Ultra的表现都优于GPT-4,但差距并不显著。唯一显著超越的是在HumanEval测试中,Gemini Ultra以74.4%的成绩超过了GPT-4的67%,这个测试评估了编程能力,包括函数实现、问题解决和数据处理等任务。
在公开的9个基准测试中,Gemini Ultra在8个测试中表现超过GPT-4。但在HellaSwag测试中,Gemini的数值低于GPT-4和其他模型。HellaSwag基准测试中GPT-4的分数为95.3%,Gemini Ultra为87.8%。
Gemini的市场反响并不如预期?
据TechCrunch等媒体报道,用户对于Gemini的初步体验感到失望。原因之一是用户实际使用的是Gemini Pro,而非宣传中的Gemini Ultra。Gemini Pro在技术报告中的表现与GPT-4相比有明显差距,这与谷歌在其宣传页面上强调的Gemini Ultra的优越性形成了鲜明对比,导致了用户的期待落空。
此外,谷歌宣传页面上的比较方法也受到了批评。它在展示MMLU测试结果时,Gemini Ultra和GPT-4采用了不同的测试方法,这可能导致了用户对比较结果的误解。这种期待与现实之间的差距可能是用户感到失望的原因之一。
例如,虽然Gemini Pro在测试中的表现优于GPT-3.5,与GPT-4和Gemini Ultra相比则略显逊色,但Gemini Ultra的测试成绩是通过“CoT@32”方法得到,而GPT-4的数值是通过“5-shot”的方法。即便如此,Gemini 与GPT的差距依然没有明显拉开。
「CoT@32」指的是AI模型使用32个样本(令牌)来生成“思维链条”,并从中选择最具逻辑性和正确性的回答。而「5-shot」则指的是给AI模型提供5个示例,让它学习任务,然后生成对任意提示的回答。
在相同的比较基础上,Gemini Ultra、Gemini Pro和GPT-4的技术报告中进行了等同的比较,可以说是适合预测各个模型的性能。
采用CoT@32方法进行MMLU基准测试时,Gemini Ultra的得分为90.02%,Gemini Pro的得分为79.13%,GPT-4的得分为87.29%。另一方面,使用5-shot方法进行MMLU基准测试时,Gemini Ultra的得分为83.7%,Gemini Pro的得分为71.8%,GPT-4的得分为86.4%。
从这些数据中可以看出,首先在5-shot方法的比较中,GPT-4依然表现出最高的性能。此外,这种方法也显示出Gemini的性能明显下降的趋势。尤其是Gemini Pro,其得分为71.8%,几乎与使用同样的5-shot方法的GPT-3.5的基准得分70%相当。
展望未来
Gemini Ultra计划在2024年投入使用。如果它能够如技术报告所示,在大多数任务上超越GPT-4,那么它将有可能成为OpenAI的强大竞争者。但是,到那时OpenAI可能已经推出了GPT-4的升级版或是全新的GPT-5模型,AI领域的竞争将变得更加激烈。换句话说,Gemini是否能够在未来的AI竞赛中超越OpenAI,成为领军者,还需要时间来证明。
您也可以联系文章作者本人进行修改,若内容侵权或非法,可以联系我们进行处理。
任何个人或组织,转载、发布本站文章到任何网站、书籍等各类媒体平台,必须在文末署名文章出处并链接到本站相应文章的URL地址。
本站文章如转载自其他网站,会在文末署名原文出处及原文URL的跳转链接,如有遗漏,烦请告知修正。
如若本站文章侵犯了原著者的合法权益,亦可联系我们进行处理。
暂无评论内容