百度这波赢麻了！文心大模型3.5扒掉了所有国产AI大模型的“底裤”--快科技--科技改变未来

正文内容 评论（0）

百度这波赢麻了！文心大模型3.5扒掉了所有国产AI大模型的“底裤”

2023-07-21 20:03:27 出处：快科技作者：朝晖编辑：朝晖评论(0)

#国产 #AI

最近，“百模大战”迎来了第一次专业会考，可以看作是各个大模型实力检验的“期中考试”。

权威IT市场研究和咨询公司IDC日前发布了首个大模型评估报告——《AI大模型技术能力评估报告，2023》，对国内主流AI大模型进行了一次专业且系统地评估。

虽然结果公布之前心里多少有个大概，但真正看到统一维度和评定标准下，各个大模型的差距直观展示到面前的时候，多多少少还是有些震撼。

IDC《AI大模型技术能力评估报告，2023》：百度7项满分、综合评分第一

这份报告显示，百度文心大模型3.5拿下12项指标的7个满分，综合评分第一，算法模型第一，行业覆盖第一！

这三个绝对第一，把百度文心大模型的基础技术深度和产业应用覆盖广度，展现的淋漓尽致。

要知道，在全球大厂当中，百度首个发布了对标ChatGPT的大模型产品文心一言。算是起步最早，也是第一个敢于对国外大模型发起挑战的国产大模型。

所以，那句话怎么说来着，你大爷终究还是你大爷。

“百模大战”第一次会考：文心大模型3.5拿下7个满分、3个绝对第一

IDC在业界的“江湖地位”相信不用跟大家过多介绍了，从1964年至今，IDC在全球110多个国家跟踪技术趋势，也是也是最早进入中国市场的科技市场研究机构之一。

过去10年，IDC的研究报告被超100个IPO申请引用。其研究服务覆盖三大领域四大类别，在金融、能源、医疗、制造、零售、政府和通信服务等行业的研究引领全球。

在此之前，尽管各种第三方测试报告众多，但市面上一直缺少统一的大模型评估标准。大多数企业依旧在拼参数量级，通过更大的参数量来提升模型的准确度。

但“无脑”堆参数量级，到了一定程度之后，就会出现数据多少和模型的性能收益出现边际效应递减的现象，投入和产出不成正比了。随着大模型的越来越多，业界迫切需要一套科学的大模型评估标准。

IDC选择在这个时候发布第一个大模型评估报告，自然意义重大，而且极具参考价值，给大模型发展指明了道路，也为用户选择厂商提供帮助和建议。

我们来看看IDC是怎么评估大模型的。

首先，IDC将大模型分为三层，即服务生态、产品技术以及行业应用。

同时，对每一层的能力进行测评，主要考察指标为：算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等10余个指标（具体包括36项细颗粒度的评估标准），每个指标有1分-5分五个层级，得分越高代表厂商大模型技术能力越强，最终评估结果通过雷达图展示。

其次，在大模型的选择上，IDC选取了中国市场9家大模型技术厂商进行重点研究，分别为阿里巴巴、百度、第四范式、科大讯飞、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌。

除此之外，IDC还观察到了360、MiniMax、华为、商汤科技、腾讯等大模型。IDC也表示，会持续更新测评，涵盖更多技术厂商。

IDC《AI大模型技术能力评估报告，2023》：百度获算法模型、行业覆盖唯一满分

根据评估报告，百度文心大模型获得了7项核心指标满分（5分）：算法模型、通用能力、创新能力、平台能力、生态合作、行业覆盖、能源行业；

3项国内唯一满分（5分）：算法模型、行业覆盖、能源行业；

5项指标4分：安全可解释、服务能力、金融行业、工业行业、医疗行业。

在大模型的评定标准中，“算法模型”和“行业覆盖”是衡量大模型能力极其重要的两个指标。其中，“算法模型”是大模型能力最为核心的要素，“行业覆盖”体现了大模型在产业落地上的实力。这两个指标，百度文心大模型在众多厂商中均获得唯一满分，核心技术上明显领先其它竞品。

文心大模型取得这一成绩，有惊喜，但也在预料之中。早在4年前，大模型还没被广泛关注的时候，百度就推出了文心大模型1.0。然后持续演进到2.0、3.0版本。如今，文心大模型已经迭代到3.5版本，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，新版本在效果、功能、性能全面提升。与3月份的3.0版本相比，训练速度提升了2倍，推理速度提升了17倍，模型效果累计提升超过50%。

多个公开测评显示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4 的表现；综合能力在评测中超过ChatGPT，遥遥领先于其他大模型。

在评估报告中，IDC对百度文心大模型也不乏溢美之词。

IDC在报告中指出，百度AI大模型整体竞争力位于领先水平，在模型能力、工具平台、生态布局以及行业覆盖上优势明显，并已提前进入商业化落地探索阶段。

IDC认为，百度文心大模型源于产业实践，服务于产业实践。在近年的大模型技术探索与产业实践中，百度文心形成了支撑大模型产业落地的关键路径，构建文心大模型层、工具平台层，以及以基于文心大模型构建的系列产品与社区。

另外，IDC很看重百度的一点——百度文心大模型不只是一个模型或者一个产品。文心大模型包含数 30 多个大模型，涵盖基础大模型、任务大模型、行业大模型的三级体系，可以全面满足产业应用需求。

不仅如此，作为推进大模型在行业深度应用的关键举措，百度文心联合国网、浦发、泰康、吉利、哈尔滨市、深圳燃气、TCL、上海辞书出版社等企业单位，合作发布了涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等11个行业大模型，加速推动行业的智能化转型升级。

文心大模型为什么这么强？三大核心优势别人学不来

“当别人刚刚开始思考如何进行训练的时候，我们已经在推理上冲出了很远。”李彦宏曾经说过，算力可以买来，创新能力是买不来的。

在笔者看来，文心大模型今天“遥遥领先”的背后，除了长期技术积累、行业先发带来的领先之外，核心还在于百度“芯片-框架-模型-应用”四层技术栈优势、知识增强的核心特色以及繁荣的大模型生态三大优势。

大家都知道，过去，无论是PC还是移动时代， IT技术栈都是三层，芯片层、操作系统层、应用层。但到了人工智能时代，IT技术栈变成了四层，即：芯片层、框架层（深度学习框架）、模型层（比如文心大模型、信息分发大模型、交通大模型、能源大模型等）、应用层。

百度投入人工智能已经超过10年，在芯片、框架、模型、应用四层有全栈布局，在关键核心技术攻坚上，是全球为数不多的全栈布局的人工智能公司，在四层架构都有自主研发的领先产品和技术，因此可以进行端到端的优化，迅速提升大模型训练和推理的效率。同时，文心大模型是完全自主可控的，做到了数据可控、框架可控、模型可控。

比如，在框架层，百度拥有自研的深度学习平台飞桨，有力支撑了大模型的高效训练和推理。

飞桨与文心的协同优化，让文心大模型3.5最新版本的模型效果提升50%，训练速度提升2倍，推理速度提升30倍。

而在芯片层，百度自研的昆仑芯，已实现两代通用AI芯片产品的量产及落地应用。昆仑芯 1 代 AI 芯片于 2020 年量产，在百度搜索引擎、小度等业务中部署数万片，是国内唯一一款经历过互联网大规模核心算法考验的云端 AI 芯片，同时也被广泛部署在互联网、工业制造、智慧金融、智慧交通等领域。

搭载新一代架构 XPU-R 的昆仑芯 2 代 AI 芯片于 2021 年 6 月回片并当天点亮，8 月量产发布。昆仑芯 2 代 AI 芯片是国内首款采用 GDDR6 显存的通用 AI 芯片，相比昆仑芯 1 代 AI 芯片性能提升 2-3 倍，且在通用性、易用性方面也有显著增强。昆仑芯 2 代 AI 芯片已经开启互联网及各行业客户交付，当前商业化进展顺利。据悉，百度昆仑芯前两代的产品已有数万片的部署，第三代会在明年的年初上市。

百度文心大模型全景图

另外，知识增强作为文心大模型的核心特色之一，实现了更高的效率、更好的效果、更强的可解释性。在大模型生态方面，百度文心已形成企业、教育、社区三位一体的生态体系。最新数据显示，百度有超过750万开发者基础，20万企业生态基础，多层次开展大模型人才培训、企业赋能、开发者运营。百度还设立了10亿创投基金鼓励大模型创意、繁荣大模型生态。

“百模大战”终局提前预演：百度已提前胜出下一个是谁？

今年，AI大模型成为行业关键词。一波由ChatGPT带动的“百模大战”正愈演愈烈。如今出门开发布会不提AI大模型，都不好意思跟人打招呼。

据媒体不完全统计，在OpenAI发布ChatGPT后，全球已发布数百个大模型，仅今年上半年在中国就发布了80多个大模型产品。到今年下半年，预计国内市面上的大模型将超过百款。

与此同时，我们也能清晰的看到，有的大模型各项能力已经愈发成熟，提前进入商业化落地探索阶段。而绝大多数大模型，还在给观众看PPT。

百度这波赢麻了！文心大模型3.5扒掉了所有国产AI大模型的“底裤”