大语言模型「新王」Claude 3全面测评:原生多模态大模型各项能力实力超群,连打麻将都学会,实测比GPT-4好用

AI快讯 2025-02-10 15:09更新网络

OpenAI「不可战胜」的神话,看样子是要被打破了。随着Claude 3一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。

而且Claude 3的多版本发布后,“中杯”Sonnet直接免费体验,“大杯”Opus充个会员也能即刻享受,各路测评纷至沓来。

所以,Claude 3的武力值究竟如何?究竟比GPT-4如何?我甚至听说学会了大模型无法搞定的打麻将?

9K长大模型微调教程直出、读图超显专业

Claude 3一出来,它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了一篇博客文章。

有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话。需要提醒的是,投喂给Claude的并不是视频文件,而是视频的字幕文件,同时包括每5秒一次的截图静态帧。

这是所用提示词的一部分,要求非常之多:

测试者指出:

这展现的是Claude 3遵循多个复杂指令的能力。

除了解读视频教程,Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且,编写速度之快,可谓人眼都跟不上。

代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。

多模态能力上,最让网友惊讶的是:CV置信度都能认出来,相当专业。

以及PLC梯形图也能读,直接跪了:

至于同样赶超的推理以及数学等能力。

Claude 3已经可以直接解决迄今为止只有GPT-4才解决的一道“超级难题”:

更令人为之震惊的是,Claude 3直接搞定了所有模型都没能搞定的学会打麻将的问题?!

目前我们只能看到朋友圈的研究人员发布的这样一则消息,准确性还待进一步验证。

最后,不得不感慨的是,Claude在“自我认知”方面上竟然有了一些自主的意识。

有网友要求Claude 3 Opus画一幅自画像——

您猜怎么着,它这么描述自己:

我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。

整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……

相关文章