Created
Aug 8, 2024 07:00 AM
Favorite
Favorite
Priority
备注
推荐
类型

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

在开始之前,我想告诉大家,这两天电脑送去维修了(一切的错都是因为一瓶水... ...),So,断更啦,唉。。。

notion image
它甚至击败了Claude 3.5、GPT-4O等,这真的非常棒。
好吧,还是让我们回到文章吧,谷歌推出了新的Gemini 1.5 Pro版本,这是一个实验版本,并且在语言模型领域中表现优异,非常牛B
notion image
它甚至击败了Claude 3.5、GPT-4O等,这真的非常棒。
notion image
▲ 该模型现在完全与 SOTA 模型相当,并且在 LMSys Arena 中排名高于所有其他模型。
你可以在Google AI Studio免费测试它,目前没有公布任何基准测试数据,所以我们需要自己试用。
这可能也是对Gemini 2模型的早期预览,因为很多人说这是Gemini 2 Pro模型。
notion image
这个模型也据说有和以前一样的200万输出token,这也非常酷。
notion image
无论如何,让我们来试一下吧。你可以去Google AI Studio:https://ai.google.dev/aistudio?hl=zh-cn,在这里找到这个模型。我们可以从这里开始测试。
notion image
我会用这12个问题来测试它,所以让我们开始吧。
第一个问题是:以“Leah”结尾的国家的首都是哪个城市?这里指的是国家名称。答案应该是堪培拉或者任何与“Leah”押韵的国家首都。我们发送这个问题并查看答案。好,这是答案,
notion image
这个也是正确的,所以我们也算它通过。
这个答案是正确的,所以我们算它通过。
接下来是第二个问题:与我们用来形容高大植物的词押韵的数字是什么?答案应该是“三”。让我们看看它能否回答。这里是答案,
notion image
这个也是正确的,所以我们也算它通过。
第三个问题:John有三盒铅笔,每盒有12支铅笔。John总共有多少支铅笔?答案应该是36。我们发送这个问题并查看答案。好,这是答案,
notion image
这个也是正确的,所以我们也算它通过。
接下来是第四个问题:Lucy的糖果数量是Mike的两倍,如果Mike有7颗糖果,那么Lucy有多少颗糖果?答案应该是14。我们发送这个问题并查看答案。好,这是答案,
notion image
这个也是正确的,所以我们也算它通过。
接下来的问题是:我有两个苹果,然后我又买了两个。我用两个苹果做了一个馅饼,吃了一半后,我还剩下多少个苹果?答案应该是两个。我们发送这个问题并查看答案。好,这是答案,
notion image
这个也是正确的,我也算它通过。到目前为止它表现得很好。
这个也是正确的,所以我们也算它通过。
接下来是第六个问题:Sally是一个女孩,她有三个兄弟,每个兄弟都有同样的两个姐妹。Sally有几个姐妹?答案应该是一个。我们发送这个问题并查看答案。好,这是答案,
notion image
这个也是正确的,我也算它通过。到目前为止它表现得很好。
接下来是第七个问题:如果一个正六边形的短对角线是64,那么它的长对角线是多少?我们发送这个问题并查看答案。好,这是答案:
notion image
但它没有正确回答这个问题,所以这次是失败的。我猜它的数学能力不太好,就像我一样。
之后的问题是基于编程的。第一个问题是:创建一个HTML页面,当你点击按钮时会爆炸出彩纸,你可以使用CSS和JS。让我们看看它能否做到。好,这是代码,现在我们预览一下。
notion image
这也运行得很好,我没有什么意见,所以这次也算它通过。
这效果挺好,我没有什么意见,所以这次算它通过。
接下来的问题是:创建一个Python程序,根据用户输入打印出接下来的X个闰年。让我们看看它能否做到。好,这是代码,让我们运行一下。
notion image
这也运行得很好,我没有什么意见,所以这次也算它通过。
接下来的问题是:生成一个蝴蝶的SVG代码。这有点棘手,让我们看看它能否做到。好,这是代码,我们预览一下。
notion image
好吧,这看起来不像蝴蝶,所以这次不算通过。
接下来的问题是:为一家AI公司创建一个登陆页面,页面应有四个部分:标题、横幅、功能和联系我们。确保登陆页面看起来时尚现代,你可以使用HTML、CSS、JS。让我们看看它能否做到。好,这是代码,我们预览一下。
notion image
这也很好,它有我们想要的横幅部分和其他部分,所以这次也算通过。
接下来的问题是:编写一个在终端上运行的Python生命游戏。我们发送这个问题并查看答案。好,这是代码,让我们运行一下。
notion image
这也运行得很好,看起来也很酷,所以这次也算通过。
这是最终的成绩单,
notion image
如你所见,除了两个问题外,它几乎回答了所有问题,这很好。这意味着这个模型非常有能力,完全可以与Claude或GPT-4O媲美。
我认为这可能是Gemini 2,但我不确定。此外,这个模型据说是多模态的,所以让我们也测试一下。
我会尝试一些我喜欢的问题,来自于Grok 1.5V测试中共享的以及一些我自己的问题。
第一个问题是:这是一个食品包装,显示了卡路里等信息。我想知道五片这种食品的卡路里是多少。
notion image
答案应该是100。我们发送这个问题并查看答案。好,它回答得很好,也完全正确,
notion image
我没想到它能给出这么好的解释,但这真的非常酷。
所以这次也算通过。
接下来的问题是:这是一个表情包,你能理解这个表情包的意思吗?
notion image
我没想到它能给出这么好的解释,但这真的非常酷。
让我们看看Gemini是否理解这个。好,这是答案,它也给出了一个很好的解释,这真的非常酷。
notion image
我没想到它能给出这么好的解释,但这真的非常酷。
接下来是一个表格,我想把它转成CSV格式。
notion image
我们问问它能否做到。好,这是答案,它也做对了。
notion image
所以它在多模态方面也非常出色。我认为它还支持视频和其他东西,这显然也非常酷。
从我的角度来看,这是谷歌最好的模型之一。我不知道这是不是Gemini 1.5 Pro的改进版本,还是一个全新训练的模型。我认为这是一个更好的Gemini 1.5 Pro版本,但我可能错了。
不管怎样,这个模型真的很酷,可能和Claude 3.5 Sonet相当或更好。后面我可能会有一篇用它和AER进行协作的文章。
🌟希望这篇文章对你有帮助,感谢阅读!
视频教程https://www.youtube.com/watch?v=CZbhUfmTXaE参考链接:
[1] Google AI Studio:https://ai.google.dev/aistudio?hl=zh-cn
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
notion image
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
Loading...