首页 新闻 紧凑型AI的推理能力:它可以竞争GPT吗?

紧凑型AI的推理能力:它可以竞争GPT吗?

作者 : Zoey Apr 11,2025

近年来,大型语言模型(LLMS)的成功吸引了AI领域。这些模型最初是为自然语言处理而设计的,已演变为强大的推理工具,能够通过类似人类的逐步思考过程来解决复杂问题。但是,尽管具有出色的推理能力,但LLMS仍具有重要的缺点,包括高计算成本和缓慢的部署速度,这使得它们对于在资源受限的环境(例如移动设备或边缘计算)中的现实使用中不切实际。这导致人们对开发较小,更高效的模型的兴趣日益增加,这些模型可以提供类似的推理能力,同时最大程度地减少成本和资源需求。本文探讨了这些小推理模型的兴起,它们对AI的未来的潜力,挑战和影响。

观点的转变

对于AI最近的大部分历史,该领域都遵循“缩放定律”的原则,这表明模型性能随着数据,计算功率和模型大小的增加而预测的。尽管这种方法产生了强大的模型,但它也导致了重大的权衡,包括高基础设施成本,环境影响和潜伏期问题。并非所有应用都需要具有数百十亿个参数的大型模型的全部功能。在许多实际情况下,例如在设备助手,医疗保健和教育等案件中,如果有效的理由,他们的模型可以取得相似的结果。

了解AI中的推理

AI中的推理是指模型遵循逻辑链,理解因果关系,推论含义,计划步骤中的含义并确定矛盾的能力。对于语言模型,这通常意味着不仅要检索信息,还意味着通过结构化的逐步方法来操纵和推断信息。通常,通过微调LLMS来实现这种推理水平,以在获得答案之前执行多步理学。尽管有效,这些方法需要大量的计算资源,并且部署可能会缓慢且昂贵,这引起了人们对其可及性和环境影响的担忧。

了解小推理模型

小推理模型旨在复制大型模型的推理能力,但在计算能力,内存使用和延迟方面具有更高的效率。这些模型通常采用一种称为知识蒸馏的技术,其中较小的模型(“学生”)从较大的预训练模型(“老师”)中学习。蒸馏过程涉及对较大数据生成的数据训练较小的模型,以传递推理能力。然后,对学生模型进行微调以提高其性能。在某些情况下,采用特定领域特定奖励功能的增强学习来进一步增强模型执行特定于任务推理的能力。

小推理模型的兴起和进步

小型推理模型发展中的一个显着里程碑是DeepSeek-R1的发布。尽管接受了相对适量的较旧GPU的培训,但DeepSeek-R1还是在MMLU和GSM-8K等基准上的OpenAi O1(例如OpenAI的O1)竞争的性能。这一成就导致了对传统缩放方法的重新考虑,该方法假设较大的模型本质上是优越的。

DeepSeek-R1的成功可以归因于其创新的培训过程,该过程将大规模的强化学习结合在一起而不依赖于早期阶段的监督微调。与大型推理模型相比,这一创新导致了DeepSeek-R1-Zero的创建,该模型具有令人印象深刻的推理能力。进一步的改进,例如使用冷启动数据,增强了模型的连贯性和任务执行,尤其是在数学和代码等领域。

此外,事实证明,蒸馏技术对于从较大的模型开发较小,更有效的模型至关重要。例如,DeepSeek发布了其模型的蒸馏版本,尺寸从15亿到700亿个参数不等。使用这些模型,研究人员培训了相对较小的模型DeepSeek-R1-Distill-Qwen-32b,该模型的表现优于OpenAI的O1-Mini,跨越了各种基准。这些模型现在可以使用标准硬件部署,使它们在广泛的应用程序中更可行。

小型型号可以匹配GPT级别的推理吗?

为了评估小型推理模型(SRMS)是否可以与GPT这样的大型模型(LRM)的推理能力匹配,评估其在标准基准测试上的性能很重要。例如,在MMLU测试中,DeepSeek-R1模型在0.844左右得分,可与大型模型(例如O1)相媲美。 DeepSeek-R1的蒸馏型在GSM-8K数据集(GSM-8K数据集)上,达到了顶级性能,超过了O1和O1 Mini。

在编码任务(例如LiveCodeBench和CodeForces上的任务)中,DeepSeek-R1的蒸馏模型的执行方式类似于O1-Mini和GPT-4O,在编程中表明了强大的推理能力。但是,较大的模型仍然具有需要更广泛的语言理解或处理长上下文窗口的任务中的优势,因为较小的模型往往更具体。

尽管有优势,但小型模型仍可能在扩展的推理任务或面对分发数据时挣扎。例如,在LLM国际象棋模拟中,DeepSeek-R1比大型模型犯了更多的错误,这表明其长期保持专注和准确性的能力限制。

权衡和实践意义

将SRM与GPT级LRMS进行比较时,模型大小和性能之间的权衡至关重要。较小的模型需要更少的内存和计算能力,使其非常适合边缘设备,移动应用程序或需要离线推理的情况。这种效率会导致运营成本较低,而诸如DeepSeek-R1之类的型号比O1等大型型号便宜96%。

但是,这些效率提高带来了一些妥协。较小的模型通常用于特定任务,与较大的型号相比,这可能会限制其多功能性。例如,尽管DeepSeek-R1在数学和编码方面表现出色,但它缺乏多模式功能,例如解释图像的能力,例如GPT-4O(例如GPT-4O)可以处理的图像。

尽管存在这些局限性,但小推理模型的实际应用还是广泛的。在医疗保健方面,它们可以为分析标准医院服务器的医疗数据提供动力。在教育方面,它们可用于开发个性化的辅导系统,向学生提供逐步的反馈。在科学研究中,他们可以在数学和物理等领域进行数据分析和假设检验。诸如DeepSeek-R1之类的模型的开源性质也促进了协作并使对AI的访问权限,使较小的组织能够从先进的技术中受益。

底线

语言模型转化为较小的推理模型是AI的重大进步。尽管这些模型可能尚未完全匹配大语言模型的广泛功能,但它们在效率,成本效益和可访问性方面具有关键优势。通过在推理能力和资源效率之间达到平衡,较小的模型将在各种应用程序中发挥关键作用,从而使AI更实用和可持续性。

最新文章 更多
  • 《风之所向》封闭测试二阶段于部分区域开启

    第二轮封闭测试注册截止至5月15日 封闭测试将于5月16日启动,支持多语言 游戏计划于今年晚些时候正式发布 继去年冬季首次公开这款开放世界动作RPG后,Everstone Studio 正式宣布了《风之所向》的第二轮封闭测试,以配合今年的正式上线。这款视觉惊艳的武侠风格冒险游戏将为全球PC与PlayStation 5玩家提供抢先体验机会,目前注册通道已开放,截止至5月15日。居住在美国、加拿大、日本和韩国的玩家可参与此次早期动作冒险体验。在动荡的中国五代十国时期中穿梭,掌握正宗的武侠战斗系

    Feb 22,2026
  • PolyFootball 将简约低多边形体育竞技带入 iOS,即将上线

    PolyFootball 是体育模拟领域的最新力作。 以全新视觉风格,体验经典管理玩法。 在 iOS 上享受简洁直观的体育模拟体验。值得注意的是,在多年来的体育模拟游戏不断追求更大、更好、更视觉震撼的体验之后,一种悄然的转变正在出现——尤其在呈现风格上,而 PolyFootball 正完美体现了这一趋势。从玩法上看,PolyFootball 并非重新发明轮子。如果你玩过《足球经理》或《Retro Bowl》,你已熟悉其核心体验:场外管理你的球队,通过交易打造一支统治级的美式足球队,然后踏上球场,

    Feb 21,2026
  • 《跳跃之王》全球扩展:移动端上线与内容更新

    Jump King,这款以极度困难著称的2D平台游戏,曾考验了全球玩家的耐心,现已正式登陆移动端。在经历了一段时间的区域限测后,Nexile 与 UKIYO Publishing 已在全球范围内为 Android 和 iOS 平台正式发布本作。 是什么让 Jump King 独特? 这款免费游玩的作品延续了曾让 PC(2019)和主机(2020)版本声名狼藉的严苛跳跃机制。玩家操控一名全副武装的骑士,其唯一能力便是跳跃——精准的时机决定着是继续前进,还是遭遇痛苦的失败。每一次失误都会让你跌落,迫

    Feb 20,2026
  • 小泉献策将3D大金刚概念引入《马里奥奥德赛》团队

    当《大金刚班扎》首次公布时,许多人推测它是由开发《超级马里奥奥德赛》的同一团队制作的。这一猜测后来被证实是正确的,并进一步引发了传言,称这款游戏最初是作为《奥德赛》的可下载内容或续作构思的,之后才转变为《大金刚》主题游戏。然而,我们现在知道这一后半部分并不准确。 在与IGN的采访中,《大金刚班扎》的制作人兼《超级马里奥奥德赛》的导演本多容介分享了《班扎》的诞生过程。据他称,任天堂高管小林雅之曾主动找到《奥德赛》团队,明确要求他们探索开发一款3D版的《大金刚》游戏。 当本多分享这一细节时,我询问小

    Feb 19,2026
  • 2025年召唤师战争锦标赛在巴黎拉开帷幕

    SWC2025 赛季现已正式开启 预选赛将于七月和八月全程进行 决赛定于11月1日在巴黎举行 《召唤师战争》携其第九届年度世界竞技场锦标赛重返全球电子竞技舞台,今年的比赛将成为有史以来规模最大的一届。随着区域赛事的扩展、国际资格赛的引入,以及在巴黎举行的高规格决赛,SWC2025 赛季已正式拉开帷幕。SWC2025 的注册现已通过《召唤师战争:天域竞技场》活动页面开放,并将持续至太平洋时间6月30日午夜。来自世界竞技场第32和33赛季的顶尖玩家将被选中,参加欧洲、美洲和亚太三大区域的预选赛

    Feb 18,2026
  • TinyTan回归,BTS重返厨房

    TinyTan 以 BTS Cooking on Stove 重新诠释了原始的 Cooking On 体验 新增功能包括与 Smilegate 的 STOVE 平台集成 这意味着最新版本中社区功能得到了显著增强 BTS 是历史上最受欢迎的韩国男子音乐组合,无需过多介绍。粉丝们很可能已熟悉这款风靡的《Diner Dash》风格益智游戏《BTS Cooking On:TinyTan 餐厅》。那么,这款新推出的准续作《BTS Cooking on Stove:TinyTan》究竟有何不同?本质上

    Feb 18,2026