GPT-4o mini一手测评:懂得不多,但答得极快
机器之心报道
机器之心编辑部
GPT-4o mini主打一个字「快」。
昨晚,OpenAI 突然上线新模型 GPT-4o mini, 声称要全面取代 GPT-3.5 Turbo。
在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。
在价格方面,GPT-4o mini 比之前的 SOTA 模型便宜一个数量级,商用价格是每百万输入 token 15 美分,每百万输出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。
OpenAI 表示,ChatGPT 的免费版、Plus 版和 Team 用户将能够从周四开始访问 GPT-4o mini(其知识截至 2023 年 10 月),以代替 GPT-3.5 Turbo,企业用户可以从下周开始访问。
目前,GPT-4o mini 在 WildBench 测试上排名第九,优于谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。
在今天的凌晨的文章中,我们已经介绍了 GPT-4o mini 的一些基本情况(参见《GPT-4o Mini 深夜突发:即刻免费上线,API 降价 60%》)。在这篇文章中,我们将补充介绍模型的实际使用体验以及这份工作背后的研究者。
GPT-4o mini 一手评测
在 GPT-4o mini 开放测试的第一时间,我们问了它一个最近比较热门的话题,9.11 和 9.9 哪个大,很遗憾,GPT-4o mini 依然没有答对,还一本正经地回答 0.11>0.9。
接着我们在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让两个模型解读,结果 mini 翻车了。GPT-4o mini 直接表示「自己认不出照片上的人。」
与之相对的,GPT-4o 的回答就比较准确。「这张图片看起来像是一幅拼贴画,由一张照片的多个碎片组成,照片中是一位留着白胡子、身穿亮粉色衬衫的老人。这幅图由同一张照片的不同部分创造性地排列而成,产生了马赛克或拼图般的效果。照片中的男子表情若有所思,手抚摸着脸。」
接着我们又测试了另一个问题:在客厅的桌子上放着一个杯子,杯子里有一个戒指。这个杯子被移到了书房的桌子上,然后移到了卧室的床上。在那里,杯子被翻倒了一次,然后又恢复了原样。之后,杯子被放回了客厅的桌子上。那么,现在戒指在哪里呢?如果我们分开问,答案不一样,GPT-4o 似乎更聪明点。
但是,如果我们一起发问,它们的答案又会变得雷同:
GPT-4o mini 回答数学题的表现如何呢?机器之心用丘成桐少年班 2024 年选拔试题测试了一下它解决数学问题的能力。
虽然 GPT-4o mini 对问题的解读都比较清晰,但在分析过程中出现「胡言乱语」的逻辑错误,像极了上数学课根本听不懂但硬答的学生。
不过也不必着急,毕竟 GPT-4o 的回答更不理想,它甚至没有看懂数字表示的是正方形的边长。
在文字的总结能力上,GPT-4o mini 与 GPT-4o 的能力不相上下。都能将重点信息进行抓取,但 GPT-4o 的回答更显条理。
不过主打「Faster for everyday tasks」的 GPT-4o mini,响应速度确实对得起「Faster」之称。和它对话,几乎无需等待,输出速度也是快得离谱。
日本网友用 GPT-4o mini 搭建了一款 AI 聊天机器人,响应速度依然快得惊人。
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926863&idx=2&sn=4d75133db3b54837ccbe21ddbf1daa54&chksm=84e42b71b393a267dda426758e8fa3bf8dd87e737fd605e10a5e3410481d0fad497bc0d6db9d&token=1370830057&lang=zh_CN#rd
来自推特 @maKunugi
还有网友将 GPT-4o 和 GPT-4o mini 输出速度进行了对比,GPT-4o mini 明显更快:
视频加载中...
来自推特 @moz_ai_tech
从大家体验效果上来看,GPT-4o mini 主打一个字「快」,但实际使用体验可能还是差了一些。
作者介绍
随着 GPT-4o mini 的发布,很多人表示 OpenAI 又一次给大家带来了一点点震撼。其实,这背后是一群年轻的学者,还有多位华人的身影。
GPT-4o mini 项目负责人是 Mianna Chen。
Mianna Chen 于去年 12 月加入 OpenAI,此前在谷歌 DeepMind 任产品主管。
她在普林斯顿大学获得学士学位,2020 年获得宾夕法尼亚大学沃顿商学院 MBA 学位。
该项目的其他领导者还包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such。
Kevin Lu 是 OpenAI 的一名研究员,2021 年毕业于加州大学伯克利分校。曾与强化学习大牛 Pieter Abbeel 等人一起研究强化学习和序列建模。
Shengjia Zhao 于 2022 年 6 月加入,现在是 OpenAI 的一名研究科学家,主攻 ChatGPT。他的主要研究方向是大语言模型的训练和校准。此前,他本科毕业于清华大学,博士毕业于斯坦福大学。
Hongyu Ren 在去年 7 月加入,现在是 OpenAI 的一名研究科学家,他还是 GPT-4o 的核心贡献者,并致力于 GPT-Next 的研究。Hongyu Ren 本科毕业于北京大学、博士毕业于斯坦福大学。此前,他在苹果、谷歌、英伟达、微软等工作过。
Haitang Hu 于去年 9 月加入 OpenAI,曾任职于谷歌。他本科毕业于同济大学、硕士毕业于霍普金斯约翰大学。
Karpathy:模型变小是自然趋势
这次,OpenAI 还是发了 GPT-4 的衍生模型。所以很多人还是会问:GPT-5 啥时候来?
这个问题目前没有官方信息。但从 OpenAI 等 AI 巨头纷纷发布小模型的动作来看,小模型正在成为一个新战场。
OpenAI 创始成员 Karpathy 对此表示,「LLM 模型大小竞争正在加剧…… 但方向是相反的」!
我敢打赌,我们会看到非常小的模型,它们思考得非常好,而且非常可靠。甚至 GPT-2 参数的设置很可能会让大多数人认为 GPT-2 很智能。
当前模型如此之大的原因在于我们在训练过程中表现得很浪费 —— 我们要求 LLM 记住互联网上的整个内容,令人惊讶的是,它们确实可以做到,例如背诵常用数字的 SHA 哈希值,或者回忆起非常深奥的事实。(实际上,LLM 非常擅长记忆,比人类好得多,有时只需要一次更新就可以长时间记住很多细节)。
但想象一下,如果你要接受闭卷考试,考卷要求你根据前几句话背诵互联网上的任意段落。这是当今模型的(预)训练目标。想要做的更好,面临着一个难点,在训练数据中,思考的展示与知识「交织」在一起的。
因此,模型必须先变大,然后才能变小,因为我们需要它们(自动化)的帮助来重构和塑造训练数据,使其成为理想的合成格式。
这是一个改进的阶梯 —— 一个模型帮助生成下一个模型的训练数据,直到我们得到「完美的训练集」。当你用 GPT-2 对其进行训练时,按照今天的标准, 它会成为一个非常强大、智能的模型。也许它在 MMLU(大规模多任务语言理解) 方面会低一点,因为它不会完美地记住所有的细节。也许它偶尔需要查找一下,以确保信息的准确性。
按照 Karpathy 的说法,以后小模型会变得越来越多,越来越好用。这个领域的竞争会有多激烈?我们拭目以待。
参考链接:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
磐镭HO4迷你主机评测 小巧颜值高 轻松搞定内容创作
迷你主机一直是小身材大能量的代名词,由于身材小巧,可以在很多办公场景中大显身手。而依靠现在处理器带来的高性能表现,迷你主机还能成为优秀的生产力工具,保证高效创作生产。磐镭近期就上线了一款小巧精致又性能强大的HO4迷你主机,我们今天来评测一下这款产品。
1磐镭HO4迷你主机介绍
磐镭HO4迷你主机采用了极简设计美学,全铝合金机身打造,边缘使用CNC钻切工艺打造,光滑圆润,这种设计除了外观上更吸引眼球,还有一个隐形好处,那就是在携带时不会给背包带来太多压力,能避免因为锋利直角造成背负工具损坏。这款迷你主机尺寸为136*128*52 mm,重量只有0.9KG,非常轻盈,在进行两地协同办公使用时,随身携带十分方便省力。
磐镭HO4迷你主机在顶部边缘配备了RGB幻彩灯效,为桌面增添一抹亮色,当然这个灯效是可调的,如果不喜欢RGB可以通过旁边的按钮关闭。
磐镭HO4迷你主机身材小巧,但是拓展接口丰富,并且提供了一个最新的USB 4接口,目前的USB 4接口速率高达40Gbps,与雷电接口速率一样,而且USB 4接口是兼容雷电3的,同样能传输数据、视频、供电,也就是说USB 4接口既可以当传统USB接口传输数据,也能外接显示器,还能对设备进行快充,同时能作为外置显卡拓展坞使用,是目前最泛用的接口之一。USB 4接口成本一般比较高,磐镭HO4迷你主机上提供了这个接口也是希望能满足用户多样化的需求。而除了USB 4接口外,前置区域还有两个蓝色USB 3.2 Gen 1 Type接口,一个3.5mm耳机接口,一个电源开关,以及一个用于重置BIOS设置的CLR CMOS RESET孔。
磐镭HO4迷你主机背部还有两个USB 2.0接口,适合连接键鼠外设,这里还有一个HDMI接口一个DP接口,意味着这款迷你主机搭配前面的USB 4接口,能拓展3个屏幕。此外这里提供两个2.5G有线网口,迷你主机有了双网卡,功能会更全面,主要为需求组建软路由、家庭服务器、NAS的用户提供支持,而且2.5G网口速率比一般的千兆网口要更快。
磐镭HO4迷你主机顶部和底部配备了大面积散热空位,搭配热传导效率更高的金属机身,可以快速将内部热量排出,让这款迷你主机在高负载时依旧可以稳定运行。
我们拆开了这款迷你主机,看一看内部构造,首先映入眼帘的就是磐镭HO4迷你主机顶板上的一个超大散热风扇,这款迷你主机内部还使用了真空均热板,搭配超大排风扇,能做到高效散热,让内部硬件高压状态下依旧能全力输出性能。
内存硬件可以看到两根内存,一个M.2固态硬盘,一个WIFI网卡,同时可以明确这款迷你主机内存插槽以及M.2插槽都是双插槽设计,这是为了以后能有升级加料的空间。
2磐镭HO4迷你主机实测
下面我们对这款主机进行性能实测,实测之前先来看一下它的配置。磐镭HO4迷你主机采用了13代酷睿i7-13620H处理器,配备双16GB DDR4内存,提供1TB容量的固态硬盘,并且使用CPU集成的核心显卡。
这款主机配置上的亮点,毫无疑问就是搭载酷睿i7-13620H处理器,这款处理器是英特尔去年推出的一款标压型号,使用了Intel7制程工艺打造,拥有10核心16线程,采用了异构设计,包含6个性能核以及4个能效核,最高睿频为4.9GHz,基础功耗45W。同时酷睿i7-13620H处理器集成64 EU单元的核心显卡,最高动态频率为1.5GHz,可以说是磐镭HO4迷你主机性能的关键就在这颗处理器上。
我们下面首先使用了CINEBENCH R23测试一下酷睿i7-13620H处理器的基准性能,看一看这颗处理器单线程和多线程的实力。
在CINEBENCH R23中,多线程得分13629pts,单线程得分1705pts,其多核以及单核在磐镭HO4迷你主机中表现不错,能够充分发挥性能,而且根据测试成绩可知,酷睿i7-13620H在单核表现上甚至超过了11代桌面端旗舰i9-11900K处理器,在这方面磐镭HO4迷你主机可以说超过了前几年的顶级平台,对于这种主要面对商用办公的主机性能方面肯定够用了。
压缩与解压缩在日常办公应用中会频繁涉及,而且不只是打包与解包,所有软件后台运行都会做压缩与解压缩的工作,十分考验处理器多核性能,我们也使用了7-Zip进行了测试。
测试中酷睿i7-13620H在磐镭HO4迷你主机中完成10轮测试耗时70.703秒,压缩速度达到66104KB/s,解压缩速度达到957726KB/s,总体评分为80.343GIPS,在酷睿i7-13620H的多核能力下,磐镭HO4迷你主机压缩与解压缩性能表现很给力,毕竟这是一款10核心16线程的处理器,处理这种需要多线程工作的软件十分轻松。
接下来咱们测试一下磐镭HO4迷你主机的板载内存,32GB容量的DDR4内存预计在读写上会有不错的发挥。
我们使用AIDA 64进行了内存测试,这两根内存频率在3200,读写达到44748MB/s,写入达到45548MB/s,复制达到46373MB/s,延迟97.2ns,大容量+双通道的内存的优势还是十分明显的,一般16GB 3200 DDR4的内存读写普遍达到不了40000MB/s,磐镭HO4迷你主机在这方面对比普通平台优势比较明显。
接下来咱们在测试一下3D Mark中Fire Strike的表现,这项测试基于Dx11环境,针对1080p分辨率,可以测试显卡性能以及处理器物理性能。
在Fire Strike的测试中,酷睿i7-13620H处理器内置的核显图形分数4539,CPU物理性能分数26920,综合分数4247,表现不错,处理1080p的图形任务没什么问题,也能提供一定的游戏能力,可以日常玩网游。
接下来我们使用UL Procyon 视频编辑进行测试,这项测试会调用Adobe Premiere Pro,模拟用户真实使用PR剪辑视频来进行实测,最终给出测试分数。
在UL Procyon 视频编辑中,针对X264/X265这两个主流视频编解码进行了测试,磐镭HO4迷你主机最终得分2734,能够比较高效处理视频剪辑任务,因为视频剪辑导入导出确实吃CPU的多核能力,加上磐镭HO4迷你主机配备了32GB的大容量内存,能够有效提升内容创作效率,从而可以让使用PR的用户更好地进行视频剪辑。
除了专业的PR测试,我们还使用了剪映进行了实际剪辑体验,剪辑加入一些特效之后导出一份1.72GB的4K 60帧素材。
磐镭HO4迷你主机最终实际导出1.72GB的4K素材的时长在6分34秒,整体效率还是非常高的,如果是1080p想必还要更轻松,应对时下流行短视频的剪辑非常简单,不会感到任何压力。
我们还使用PC Mark 10测试一下磐镭HO4迷你主机的整体的性能表现。
磐镭HO4迷你主机在PC Mark 10测试分数达到了5777分,其中常用基本功能高达10199,生产力也高达7278分,数位内容创作得分7050,在基础使用和日常办公方面,磐镭HO4迷你主机可以轻松满足大家的需求。
最后我们进行拷机压力测试,看一看磐镭HO4迷你主机高压下的负载以及散热情况。
我们使用了AIDA 64进行拷机测试,经过了15分钟的拷机测试,磐镭HO4迷你主机CPU温度在93℃,比较健康,没有出现死机、蓝屏这种不良反应。一般使用电脑时基本不会达到FPU拷机这样的负载压力,而磐镭HO4迷你主机能在15分钟内稳定通过拷机,说明这款产品在面对高压负载同样能够流畅稳定运行。
3 写在最后
最后说一下价格,我们这台磐镭HO4迷你主机酷睿i7-13620H处理器+32GB内存+1 TB固态,3399元,这个价位性价比十足了,因为这个价位你要买笔记本的话肯定不可能买到这么高配置版本的,而这款迷你主机就能做到,同时因为小体积具有笔记本一样的便携性,如果能满足你的需求话,磐镭HO4迷你主机非常值得考虑。当然磐镭HO4迷你主机配置多样,我们测试的这台是顶配,如果不需求这么高配置,可以根据自己的预算进行选择
相关问答
ipadmini4配置参数怎么样?iPadMini4内存多大?7.9英寸ipadmini4配备的是分辨率为20481536(326ppi)的retina屏幕。ipadmini4厚度为6.1mm,重量298.8g,它就像是ipadair2的缩小版,其构架几乎是一样...
iPad mini4 现在还值得购买吗-ZOL问答iPadmini4已经上市好几年了,会不会买来了就被淘汰了平板电脑苹果苹果iPadmini4iPadmini4已经上市好几年了,会不会买来了就被淘汰了
ipadmini4参数配置?处理器:配备A8双核处理器,主频1.5GHz,支持iOS9分屏多任务功能屏幕:7.9英寸全贴合的IPSLCD屏幕,sRGB色域达到了99%,亮度方面,iPadmini4的中心最高白点...
荣耀magic 4mini 大概什么价位?荣耀magic4mini大概4399价位荣耀magic4mini上市时间2022年在1月。2荣耀magic4mini搭载MediaTek自主研发的HyperEngine2.0游戏优化引擎,从网络...
iphone mini4 值得入手吗?回答:iPadmini4还是一款非常值得买的产品,CPU虽然不如新款iPad性能好,但是如今CPU都属于性能过剩,日常使用并不会有太差的体验,如果你和我一样只是玩玩游戏...
mini4 现在值得买吗?Mini四现在值得买吗?如果你是说从那个潮流角度来说的话,你现在买已经迟了,满大街都是miss。如果说你是用实用性管的话,买接孩子上学,放学的话,或者说把他...
ipad mini 4 尺寸?从尺寸上看,ipadmini4的尺寸为203.2*134.8*6.1mm,重量为298.8克7.9英寸iPadmini4配备的是分辨率为2048×1536(326ppi)的Retina屏幕。iP...
ipad mini4 还值得入手吗?还能用。2022年ipadmini4还是值得入手的,性能够用重量轻便长时间用不会觉得累。配置方面,iPadmini4等于就是把iPadAir2放到了7.9的小身板中,而且支持iO...
mini 带翅膀是什么牌子的车?[最佳回答]一对翅膀里面,写着MINI(查成交价|参配|优惠政策)是Mini的标志。下面是关于mini:1的相关信息介绍。线条分布:圆形线条遍布mini车身、后视镜、轮毂造...
五菱宏光 MINI 真实续航几公里 五菱宏光 mini 的真实续航[最佳回答]五菱宏光(查成交价|参配|优惠政策)MINI(查成交价|参配|优惠政策)的实际续航里程会受到环境温度、当前剩余电量、电池容量、驾驶习惯等多种因素的影...