首页 新闻 紧凑型AI的推理能力:挑战GPT?

紧凑型AI的推理能力:挑战GPT?

作者 : Nora 更新日期:Apr 11,2025

近年来,大型语言模型(LLMS)的成功吸引了AI领域。这些模型最初是为自然语言处理而设计的,已演变为强大的推理工具,能够通过类似人类的逐步思维过程来解决复杂问题。但是,尽管具有出色的推理能力,但LLMS仍具有重要的缺点,包括高计算成本和缓慢的部署速度,这使得它们对于在资源受限的环境(例如移动设备或边缘计算)中的现实使用中不切实际。这导致人们对开发较小,更高效的模型的兴趣日益增加,这些模型可以提供类似的推理能力,同时最大程度地减少成本和资源需求。本文探讨了这些小推理模型的兴起,它们对AI的未来的潜力,挑战和影响。

观点的转变

对于AI最近的大部分历史,该领域都遵循“缩放定律”的原则,这表明模型性能随着数据,计算功率和模型大小的增加而预测的。尽管这种方法产生了强大的模型,但它也导致了重大的权衡,包括高基础设施成本,环境影响和潜伏期问题。并非所有应用都需要具有数百十亿个参数的大型模型的全部功能。在许多实际情况下,例如在设备助理,医疗保健和教育等情况下,如果有效的推理,则模型模型可以取得相似的结果。

了解AI中的推理

AI中的推理是指模型遵循逻辑链,理解因果关系,推论含义,计划步骤中的含义并确定矛盾的能力。对于语言模型,这通常意味着不仅要检索信息,还意味着通过结构化的逐步方法来操纵和推断信息。通常,通过微调LLMS来实现这种推理水平,以在获得答案之前执行多步理学。尽管有效,这些方法需要大量的计算资源,并且部署可能会缓慢且昂贵,这引起了人们对其可及性和环境影响的担忧。

了解小推理模型

小推理模型旨在复制大型模型的推理能力,但在计算能力,内存使用和延迟方面具有更高的效率。这些模型通常采用一种称为知识蒸馏的技术,其中较小的模型(“学生”)从较大的预训练模型(“老师”)中学习。蒸馏过程涉及对较大数据生成的数据训练较小的模型,以传递推理能力。然后,对学生模型进行微调以提高其性能。在某些情况下,采用特定领域特定奖励功能的增强学习来进一步增强模型执行特定于任务推理的能力。

小推理模型的兴起和进步

小型推理模型发展中的一个显着里程碑是DeepSeek-R1的发布。尽管接受了相对适量的较旧GPU的培训,但DeepSeek-R1还是在MMLU和GSM-8K等基准上的OpenAi O1(例如OpenAI的O1)竞争的性能。这一成就导致了对传统缩放方法的重新考虑,该方法假设较大的模型本质上是优越的。

DeepSeek-R1的成功可以归因于其创新的培训过程,该过程将大规模的强化学习结合在一起而不依赖于早期阶段的监督微调。与大型推理模型相比,这一创新导致了DeepSeek-R1-Zero的创建,该模型具有令人印象深刻的推理能力。进一步的改进,例如使用冷启动数据,增强了模型的连贯性和任务执行,尤其是在数学和代码等领域。

此外,事实证明,蒸馏技术对于从较大的模型开发较小,更有效的模型至关重要。例如,DeepSeek发布了其模型的蒸馏版本,尺寸从15亿到700亿个参数不等。使用这些模型,研究人员培训了一个较小的模型DeepSeek-R1-Distill-Qwen-32b,该模型的表现优于OpenAI的O1-Mini,跨越了各种基准。这些模型现在可以使用标准硬件部署,使其成为广泛应用程序的更可行的选择。

小型型号可以匹配GPT级别的推理吗?

为了评估小型推理模型(SRMS)是否可以与GPT这样的大型模型(LRM)的推理能力匹配,评估其在标准基准测试上的性能很重要。例如,在MMLU测试中,DeepSeek-R1模型在0.844左右得分,可与大型模型(例如O1)相媲美。 DeepSeek-R1的蒸馏型在GSM-8K数据集(GSM-8K数据集)上,达到了顶级性能,超过了O1和O1 Mini。

在编码任务(例如LiveCodeBench和CodeForces上的任务)中,DeepSeek-R1的蒸馏模型的执行方式类似于O1-Mini和GPT-4O,在编程中表明了强大的推理能力。但是,较大的模型在需要更广泛的语言理解或处理长上下文窗口的任务中仍然具有优势,因为较小的模型往往更特定于任务。

尽管有优势,但小型模型仍可能在扩展的推理任务或面对分发数据时挣扎。例如,在LLM国际象棋模拟中,DeepSeek-R1比大型模型犯了更多的错误,这表明其长期保持专注和准确性的能力限制。

权衡和实践意义

将SRM与GPT级LRMS进行比较时,模型大小和性能之间的权衡至关重要。较小的模型需要更少的内存和计算能力,使其非常适合边缘设备,移动应用程序或需要离线推理的情况。这种效率会导致运营成本较低,而诸如DeepSeek-R1之类的型号比O1等大型型号便宜96%。

但是,这些效率提高带来了一些妥协。较小的模型通常用于特定任务,与较大的型号相比,这可能会限制其多功能性。例如,尽管DeepSeek-R1在数学和编码方面表现出色,但它缺乏多模式功能,例如解释图像的能力,例如GPT-4O(例如GPT-4O)可以处理的图像。

尽管存在这些局限性,但小推理模型的实际应用还是广泛的。在医疗保健方面,它们可以为分析标准医院服务器的医疗数据提供动力。在教育方面,它们可用于开发个性化的辅导系统,向学生提供逐步的反馈。在科学研究中,他们可以在数学和物理等领域进行数据分析和假设检验。诸如DeepSeek-R1之类的模型的开源性质也促进了协作并使对AI的访问权限,使较小的组织能够从先进的技术中受益。

底线

语言模型转化为较小的推理模型是AI的重大进步。尽管这些模型可能尚未完全匹配大语言模型的广泛功能,但它们在效率,成本效益和可访问性方面具有关键优势。通过在推理能力和资源效率之间达到平衡,较小的模型将在各种应用程序中发挥关键作用,从而使AI更实用和可持续性。

热门游戏 更多 +
最新游戏 更多 +
音乐 | 25.62MB
发现2021年热门钢琴游戏!立即畅玩钢琴魔法之星3! 现在就在您的移动设备上免费畅玩2021年钢琴游戏! 游戏规则 选择您喜爱的歌曲 轻触所有黑色小猫方块 躲避空白区域,感受节奏律动! 就这么简单! 核心特色 轻触黑色方块时体验真实音乐反馈 每周更新,收录热门歌曲 多种音乐流派:古典、流行、电子舞曲、乡村音乐等 可与心爱的乐器互动:钢琴、吉他、小提琴、鼓、竖琴及其他乐器 畅玩优美乐曲,享受放松体验!准备好在这款免费游戏中发现您最喜爱的旋律吧! 支持 如您有建议或遇到问题,请联系我
动作 | 28.0 MB
吐司幽灵:一段怀旧的平台跳跃冒险 《吐司幽灵》将经典平台游戏的精华元素融合为一体,带来一场令人振奋的复古冒险! 适合所有年龄层的玩家,操控你英勇的吐司穿越色彩斑斓的世界。运用你的幽灵击碎吐司、可靠的烤面包机以及壁面跳跃技能,争取获得最高分数。 游戏内提供完整操作说明,但核心目标非常简单: 收集八个漂浮的幽灵 将它们送入烤面包机 击碎阻挡你道路的敌对幽灵 抵达出口门 你的目标是尽可能快速地烤熟每一个幽灵,并抵达出口。你的速度将直接决定最终得分! 每个关卡根据表现奖励金、银或铜牌。获得银牌或金牌即可
竞速 | 73.93MB
专为热爱竞速的玩家打造,体验逼真的3D城市驾驶与惊险刺激的越野冒险。你准备好开启一场激动人心、肾上腺素飙升的驾驶之旅了吗?你是否痴迷于在城市街道上漂移的快感?立即免费下载《帕萨特B6漂移模拟器:城市驾驶 - 3D赛车游戏》!精彩体验热爱极限驾驶冒险吗?今年最真实的越野模拟游戏中,驾驶性能强劲的4x4越野车,感受令人惊叹的卡车驾驶乐趣。在山路中尽情享受无尽乐趣,驾驭如牧马人、塔undra、普拉多及LX等车型。本游戏专为赛车爱好者打造,立即上车,磨练你的专业3D赛车技巧!沙漠冒险包含众多路线与多重挑
音乐 | 180.9MB
节奏钢琴舞:一款注重节奏感的音乐游戏!跟随节拍,连击得分! 准备好了吗?点击那些钢琴方块吧! 踏入钢琴方块的惊险世界! 在《节奏钢琴舞》中重新发现你钟爱的歌曲——一场全新的音乐冒险之旅。解锁全新旋律,追逐你缤纷的音乐梦想! 从经典到现代,我们提供多样化的音乐类型,满足每一种品味。数不清的歌曲等你来征服! 立即免费畅玩这款在线钢琴游戏!挑战与惊喜远超你的想象! 权限说明:为获得最佳体验,下载时将请求“存储”权限。 开启你的音乐之旅——今天就以专业水准尽情演奏!
桌游 | 13.85MB
通过著名教练维克托·赫夫金的指导,掌握残局组合的基础知识! CT-ART 残局组合课程之所以脱颖而出,主要有两个原因:其理论内容质量极高,以及采用了创新的 iBook 学习技术。该技术利用超链接和附加窗口,使学习材料异常易用。由著名教练维克托·赫夫金精心策划,本课程包含 14 个主题模块,共 1,200 个具有教学意义的实例,每个模块均展示特定棋子在杀王进攻中的运用方式,另有 700 道练习题供巩固提升。 本课程属于《国际象棋之王学习系列》(https://learn.chessking.com
动作 | 183.69MB
投身激烈的坦克大战,这款动作十足的第一人称射击枪战游戏中,消灭敌方士兵,体验极致快感。 在《战争狙击手》这款划时代的战斗游戏中,体验战争的巅峰。沉浸于高速激烈的战场行动中,你的武器库包括狙击步枪、威力强大的坦克以及先进的无人机。 《战争狙击手》带来惊险逼真的战斗体验,配备丰富的离线战役模式,以及紧张刺激的实时PvP多人对战。你准备好了吗?瞄准目标,带领你的小队取得胜利! 主要特色: • 狙击对决:化身战场最致命的狙击手,掌握精准射击技巧。从隐蔽位置消灭关键目标,让每一发子弹都发挥最大威力。 •