栏目分类
热点资讯

新闻动态

你的位置:开云·kaiyun(中国)体育官方网站 登录入口 > 新闻动态 > 开云体育即使靠近那些已知存在正解的逻辑任务-开云·kaiyun(中国)体育官方网站 登录入口

开云体育即使靠近那些已知存在正解的逻辑任务-开云·kaiyun(中国)体育官方网站 登录入口

2026-05-21 07:45    点击次数:135

开云体育即使靠近那些已知存在正解的逻辑任务-开云·kaiyun(中国)体育官方网站 登录入口

4月8日,由李飞飞集中指点的斯坦福大学以东谈主为本东谈主工智能商议所(Stanford HAI)发布了《2025年东谈主工智能指数呈文》(Artificial Intelligence Index Report 2025)。这份长达456页的呈文开云体育,长远判辨了2024年专家东谈主工智能行业的发展态势,揭示了12大要害趋势。

图片开始:斯坦福大学以东谈主为本东谈主工智能商议所官网

呈文觉得,AI正变得更高效、更普惠。跟着小模子性能飙升,达到GPT-3.5水平的系统推理老本在曩昔两年间下落到了蓝本的280分之一。

呈文还指出,中国高性能AI模子的数目和质料陆续升迁,中好意思AI模子性能近乎捏平。与此同期,中国在AI范畴论文数目和专利数目上保捏最初地位。

AI性能飙升,施展缓缓接近东谈主类

2023年,商议东谈主员推出了MMMU、GPQA和SWE-bench等颇具挑战性的新基准测试,用于测试AI系统的极限。

测试发现,只是一年后,AI系统的性能便杀青大幅跃升——在MMMU测试中得分升迁18.8个百分点;在GPQA测试中提高48.9个百分点;SWE-bench测试里更是升迁了67.3个百分点。

从举座趋势来看,AI在各大范畴的施展缓缓接近东谈主类,甚而在某些情形下,AI智能体能在限时编程任务中稀奇东谈主类。

在部分评测目的上,AI期间性能施展与东谈主类水平的对比图片开始:《2025年东谈主工智能指数呈文》

然则,复杂的推理关于AI模子而言,仍然是一个挑战。

在处理访佛外洋数学奥林匹克竞赛题目这类任务时,AI模子施展出色。但靠近诸如PlanBench等复杂推理基准测试时,却仍显得贫乏。即使靠近那些已知存在正解的逻辑任务,AI也往往无法可靠地处分逻辑任务,这极大死心了AI在对精度条款极高的高风险行业中的欺诈。

各大模子在PlanBench基准测试上的正确率 图片开始:《2025年东谈主工智能指数呈文》

专家AI投资飙升

2024年,生成式AI在专家范围内眩惑了339亿好意思元的私东谈主投资,与2023年比较,增长幅度达到18.7%。

与此同期,企业对AI的接管率显耀升迁,从2023年的55%飞腾至2024年的78%。越来越多的商议扫尾标明,AI不仅大略有用升迁分娩力,在无数情况下,还能沉着劳能源的妙技差距。

值得缓和的是,将生成式AI欺诈于至少一项业务职能的企业数目出现了激增。2023年,这一比例仅为33%,而到了2024年,该比例跃升至71%,增幅最初一倍。

2017年至2024年,将AI欺诈于至少一项业务职能企业的比例陆续飞腾 图片开始:《2025年东谈主工智能指数呈文》

中好意思模子性能近乎捏平

数据显现,好意思国在AI模子的数目上处于最初地位。2024年,总部位于好意思国的机构领有40个闻明AI模子,最初中国(15个)和法国(3个)。

图片开始:《2025年东谈主工智能指数呈文》

不外,呈文强调,中好意思模子之间的性能差距正在飞速沉着。以MMLU和HumanEval等主流基准测试扫尾来看,2023年,中好意思顶尖模子之间的性能差距还在两位数,然则到了2024年,这一差距已大幅沉着,险些处于褪色水平。

与此同期,中国在AI范畴论文数目和专利数目上依旧保捏最初地位。

小模子性能飙升,推理老本降至280分之一

呈文指出,AI正变得愈加高效、经济实惠和易于赢得。

跟着小模子性能升迁,达到GPT-3.5水平的系统推理老本在曩昔两年间下落至280分之一。在硬件层面,老本每年下落30%,而能源效果每年提高40%。

2022年,在MMLU基准测试中,得分超60%的最小模子是PaLM,参数目为5400亿。到了2024年,微软Phi-3-mini仅用38亿参数,就取得了相似的实力。这代表,两年多的时刻里模子参数减少了142倍。

此外开云体育,开源模子正在奋发图强,与闭源模子的差距缓缓沉着。2023年,开源模子彰着过期于闭源模子。而到2024年,这一差距险些隐匿。2024年1月初,顶尖闭源模子在大模子竞技场排名榜上以8.0%的收货最初了顶尖开源模子。而到2025年2月,这一差距已沉着至1.7%。

2022年至2024年,在MMLU上得分高于60%的小模子 图片开始:《2025年东谈主工智能指数呈文》

中国对AI的魄力最乐不雅

在对AI的魄力方面,中国事专家主要国度和地区中最乐不雅的。

呈文显现,2024年中国有83%的东谈主觉得AI居品和作事利大于弊,排在背面的是印度尼西亚(80%)和泰国(77%)。比较之下,好意思国(39%)、加拿大(40%)等的乐不雅脸色远低于中国。

2022年至2024年,列国觉得“使用AI居品和作事利大于弊”的比例 图片开始:《2025年东谈主工智能指数呈文》

不外,从举座趋势而言,列国关于AI的乐不雅脸色正缓缓升温,相称是在一些曾对AI最捏怀疑魄力的国度。数据显现,自2022年起,好意思国觉得“使用AI居品和作事利大于弊”的比例升迁了4%,加拿大增长了8%,法国增长了10%。

三分之二受访者称AI将在异日3至5年对平日生涯产生显耀影响

从医疗保健到交通运载,AI正飞速从实验室走向平日生涯。

2023年,好意思国食物药品监督不竭局(FDA)批准了223款AI医疗开采,而2015年仅有6款。

1995年至2023年FDA批准的AI医疗开采数目 图片开始:《2025年东谈主工智能指数呈文》

谈路交勾引样因AI期间发生着日眉月异的变化。自动驾驶汽车不再只是实验,而是徐徐驶入执行生涯。

好意思国最大的运营商之一Waymo每周提供最初15万次自动驾驶作事,而百度旗下的“萝卜快跑”(Apollo Go)无东谈主驾驶出租车队已在中国多个城市负责插足运营。

此外,东谈主们对AI融入平日生涯的期待与认同度正在飞腾。据统计,专家范围内,有多达三分之二的受访者觉得,在异日三到五年内,AI居品及作事将对平日生涯产生显耀影响。



Powered by 开云·kaiyun(中国)体育官方网站 登录入口 @2013-2022 RSS地图 HTML地图

Powered by站群系统