4月15日消息,美国人工智能公司OpenAI本周一宣布推出一系列全新的人工智能模型,这些模型专为编程任务优化,旨在应对来自谷歌、Anthropic等公司日益激烈的竞争。开发者现已可通过OpenAI的应用程序编程接口(API)使用这些模型。
OpenAI此次发布三个版本模型:GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano。公司首席产品官凯文·韦尔(Kevin Weil)在直播活动中表示,新模型在多方面超越当前主流产品GPT-4o,在某些性能指标上甚至优于最强大的旗舰模型GPT-4.5。

在权威的SWE-Bench编程基准测试中,GPT-4.1获得55%的得分,较其他OpenAI模型高出几个百分点。韦尔称:"这些新模型不仅擅长编程,更能精准执行复杂指令,是开发'智能体'的绝佳选择。"
近几个月来,人工智能模型的代码生成能力显著提升,推动软件原型开发自动化与"智能体"能力升级。竞争对手Anthropic和谷歌均已推出擅长代码生成的模型。此前业内盛传OpenAI将发布GPT-4.1,知情人士透露该公司曾以"Alpha Quasar"为代号在多个评测平台进行匿名测试。有Reddit用户反馈该"匿名"模型"修复了其他大语言模型生成的所有不完整代码"。
新模型能同时分析的代码量是前代产品的八倍,代码优化与漏洞修复能力显著提升。其遵循指令能力也大幅改进,用户无需反复调整指令即可获得预期结果。演示中,GPT-4.1仅凭自然语言提示便快速构建出语言学习闪卡应用等程序。
“开发者非常看重编程能力,我们重点提升了模型生成可执行代码的水平,”OpenAI后续训练团队负责人米歇尔·波克拉丝(Michelle Pokrass)透露。“我们持续改进模型遵循多种编程格式的能力,使其能更深入地探索代码库、可靠运行单元测试,并编写可直接编译的代码。”
OpenAI表示,GPT-4.1较开发者最常用的GPT-4o提速40%,查询输入成本降低80%。
人工智能编程工具Windsurf的首席执行官瓦伦·莫汉(Varun Mohan)在直播中表示,他们在对GPT-4.1进行内部基准测试时发现,新模型性能较GPT-4o提高60%。他透露,新模型错误行为明显减少,新模型错误读取和编辑无关文件所耗费的时间显著减少。
过去几年中,OpenAI凭借2022年底推出的卓越聊天机器人ChatGPT引发的狂热关注,将公众兴趣转化为不断扩大的业务,逐步构建起包含多款先进模型的商业版图。上周,公司首席执行官萨姆·奥特曼(Sam Altman)在TED访谈中透露,OpenAI每周活跃用户已超过5亿且持续快速增长。
如今,OpenAI上线了种类繁多、功能各异、定价各不相同的模型。今年2月份公司发布最强大的旗舰模型GPT-4.5,不过目前仍处于“研究预览”阶段。
此外,OpenAI还上线了具备模拟推理能力的o1和o3模型。这些模型能够将问题分解为多个部分解决,响应用户的耗时较长,且使用成本较高。
ChatGPT的成功使得竞争对手近年来纷纷加大研发投入,力图赶超OpenAI。据斯坦福大学本月发布的一份报告,谷歌、DeepSeek等公司开发的模型性能已经比肩OpenAI。报告还指出,Anthropic、Meta以及法国创企Mistral等公司亦紧随其后。
华盛顿大学名誉教授奥伦·埃齐奥尼(Oren Etzioni)表示,未来不太可能由单一模型或一家公司垄断市场。“随着成本下降、开源普及以及生物、芯片设计等专业领域的专用模型崛起,未来将呈现多元发展格局。”曾任艾伦人工智能研究所(AI2)负责人的埃齐奥尼呼吁行业着眼大模型训练成本与环境影响。
面对盈利压力,OpenAI正加速商业化步伐。今年2月份公司首席运营官布拉德·莱特卡普(Brad Lightcap)接受采访时表示,每周活跃用户虽已经超过4亿,较2024年12月份增长30%,但由于持续重金投资研发和基础设施建设,OpenAI仍亏损数十亿美元。今年1月份,OpenAI宣布将与软银、Oracle和MGX合作推进“星际之门”计划,承诺斥资5000亿美元建设人工智能数据中心。
近期OpenAI持续推出新功能。上周,奥特曼宣布ChatGPT将升级“记忆”功能,使聊天机器人能更好地记住并调用此前的对话内容;3月底,奥特曼宣布计划今年夏季将推出一款开源权重模型,允许开发者免费下载并修改,公司将在未来几周内开始测试。由于开放权重模型能够根据不同用途进行定制且使用成本更低,它们已受到研究人员、开发者和初创企业的广泛欢迎。(辰辰)
来源: 网易科技报道