Gemini是否能够在未来的AI竞赛中超越OpenAI？

谷歌新型AI模型Gemini：能否超越OpenAI的GPT-4？

最近，谷歌推出了新型AI模型“Gemini”，宣称其推理能力超越了业界领先的OpenAI GPT-4。这一消息立刻在科技界引起了广泛的关注和讨论。

据了解，Gemini分为四个等级，从小到大依次是Gemini Nano-1、Gemini Nano-2、Gemini Pro和Gemini Ultra。其中，最引人注目的当属Gemini Ultra，它在多项基准测试中超越了GPT-4，显示出了强大的潜力。

Google Ads
这些广告安全、信息丰富且有趣。请考虑关闭该网站的广告拦截器，些许广告收入有助于维持网站的活力，谢谢

请关闭广告拦截器

比如在MMLU测试中，Gemini Ultra以90%的高分超越了GPT-4的86.4%，而在数学推理的GSM8K测试中，更是以94.4%的成绩超过了GPT-4的92%。在高等数学的MATH测试中，Gemini Ultra以53.2%的成绩微弱领先于GPT-4的52.9%。

尽管在大多数基准测试中Gemini Ultra的表现都优于GPT-4，但差距并不显著。唯一显著超越的是在HumanEval测试中，Gemini Ultra以74.4%的成绩超过了GPT-4的67%，这个测试评估了编程能力，包括函数实现、问题解决和数据处理等任务。

在公开的9个基准测试中，Gemini Ultra在8个测试中表现超过GPT-4。但在HellaSwag测试中，Gemini的数值低于GPT-4和其他模型。HellaSwag基准测试中GPT-4的分数为95.3%，Gemini Ultra为87.8%。

Gemini的市场反响并不如预期？

据TechCrunch等媒体报道，用户对于Gemini的初步体验感到失望。原因之一是用户实际使用的是Gemini Pro，而非宣传中的Gemini Ultra。Gemini Pro在技术报告中的表现与GPT-4相比有明显差距，这与谷歌在其宣传页面上强调的Gemini Ultra的优越性形成了鲜明对比，导致了用户的期待落空。

此外，谷歌宣传页面上的比较方法也受到了批评。它在展示MMLU测试结果时，Gemini Ultra和GPT-4采用了不同的测试方法，这可能导致了用户对比较结果的误解。这种期待与现实之间的差距可能是用户感到失望的原因之一。

例如，虽然Gemini Pro在测试中的表现优于GPT-3.5，与GPT-4和Gemini Ultra相比则略显逊色，但Gemini Ultra的测试成绩是通过“CoT@32”方法得到，而GPT-4的数值是通过“5-shot”的方法。即便如此，Gemini 与GPT的差距依然没有明显拉开。

Gemini Ultra为90%，GPT-4为86.4%

「CoT@32」指的是AI模型使用32个样本（令牌）来生成“思维链条”，并从中选择最具逻辑性和正确性的回答。而「5-shot」则指的是给AI模型提供5个示例，让它学习任务，然后生成对任意提示的回答。

在相同的比较基础上，Gemini Ultra、Gemini Pro和GPT-4的技术报告中进行了等同的比较，可以说是适合预测各个模型的性能。

采用CoT@32方法进行MMLU基准测试时，Gemini Ultra的得分为90.02%，Gemini Pro的得分为79.13%，GPT-4的得分为87.29%。另一方面，使用5-shot方法进行MMLU基准测试时，Gemini Ultra的得分为83.7%，Gemini Pro的得分为71.8%，GPT-4的得分为86.4%。

从这些数据中可以看出，首先在5-shot方法的比较中，GPT-4依然表现出最高的性能。此外，这种方法也显示出Gemini的性能明显下降的趋势。尤其是Gemini Pro，其得分为71.8%，几乎与使用同样的5-shot方法的GPT-3.5的基准得分70%相当。

展望未来

Gemini Ultra计划在2024年投入使用。如果它能够如技术报告所示，在大多数任务上超越GPT-4，那么它将有可能成为OpenAI的强大竞争者。但是，到那时OpenAI可能已经推出了GPT-4的升级版或是全新的GPT-5模型，AI领域的竞争将变得更加激烈。换句话说，Gemini是否能够在未来的AI竞赛中超越OpenAI，成为领军者，还需要时间来证明。

THE END