顶想云AI周报20240524——大模型评测专题
流年 · 1年前

近期国内大模型降价潮后,如何更加理性的选择大模型成了企业和应用开发者普遍关注的问题,本期周报我们整理了一期关于大模型评测的主题,希望对大家有所参考,<strong>针对不同需求场景来选择对应能力较强的模型</strong>。如果你不想看太多,建议直接收藏:[https://www.superclueai.com/](https://www.superclueai.com/)
## 一周热点
### 中国大模型价格战背后的真相
DeepSeek v2 宣布其价格为 1 元/百万 token 后,随即引来了大模型价格战,智谱、面壁、字节、阿里、百度,以及今天跟进的科大讯飞、腾讯云相继宣布了模型推理价格降低。
模型技术的攀升,才是 API 调用商业模式能继续增长的前提。其实细看今天宣布降价的模型产品也是一样,真正大规模、高性能、支持高并发的模型推理还是要收费,降价幅度是有限的。[查看详情](https://mp.weixin.qq.com/s/HA4RtjXvUhOY-sdHXYvUpg)
### FP研究:大模型一定会降价,但绝对不是今天
不管对于大厂还是模型层创业公司而言,降低 token 成本都是未来大势所趋。便宜的模型价格、繁荣的开发者生态、第一方应用都是这场「百模大战」接下来的竞争关键。降价是大势所趋,未来 token 会便宜到忽略不计,会变成行业的基础设施,可以在这样的前提背景下去解决真实问题、关键问题。[查看详情](https://mp.weixin.qq.com/s/F0_WgWkYm3oWrpgWN2M6GQ)
### 百川智能发布Baichuan 4及首款AI智能助手百小应,模型能力国内第一
5月22日,百川智能发布最新一代基座大模型Baichuan 4,并推出成立之后的首款AI助手"百小应"。作为百川智能发布的最新一代基座大模型,Baichuan 4在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一,相较上一代大模型Baichuan 3提升显著。[查看详情](https://mp.weixin.qq.com/s/iOl4T7UhfG6KlZDBTP3Fnw) \| [发布会问答整理](https://mp.weixin.qq.com/s/TK-Gu4yt7GhwCllsEFvdQg)
### 清华大学:superBench大模型综合能力评测报告
截止2024年3月,国家互联网信息办公室公布已经有117家"大模型"成功备案,包括文心一言、通义千问、kimi、智谱清言、云雀(已经改名为豆包)、abab、日日新、星火、盘古以及最新的滴滴出行大模型等。在这场"百模大战"中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。[查看详情](https://mp.weixin.qq.com/s/gRNPO5FB30f4z-ycOgtmdg)
### 大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一
周二,知名大模型竞技场LMSYS Chatboat Arena盲测评测结果更新,国内大模型独角兽零一万物的千亿参数闭源大模型Yi-Large在最新总榜中排名世界第七,中国大模型中第一,超过Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与GPT-4o并列第一。不过参与评测的国内模型并不多,还有阿里Qwen-Max和智谱GLM4。[查看详情](https://mp.weixin.qq.com/s/oF3yB1ox7jEw7vBvII8t9g)
### SuperCLUE总排行榜 \| 中文通用大模型综合测评榜
在国内模型降价的同时,我们不妨也关注下中文模型的综合评测,有用才是硬道理。SuperCLUE 是专注于中文通用大模型的综合性测评平台,提供了一系列的测试和评估工具,衡量大模型在不同任务和能力上的表现。[查看官网](https://www.superclueai.com/)
### OpenCompass司南 \| 综合测评国内外主流大模型
OpenCompass 是一个专注于大模型能力评测的平台,提供了一个全面的评测体系,包括权威的评测榜单、高质量的评测基准社区和大模型评测全栈工具链。
OpenCompass 榜单综合测评了主流前沿大模型,有国内也有国外,有开源也有闭源,还覆盖了多个细分领域。[评测榜单](https://rank.opencompass.org.cn/home)
### Artificial Analysis \| 一份更完备、更客观的 AI大模型购物指南
不仅基于数据进行了大量分析和可视化,还给出了 质量、价格、性能、速度、上下文窗口等关键指标的详细排名,帮你选择最合适的大模型和API提供商(主要是国外模型)。[查看官网](https://artificialanalysis.ai/)
### 国内外140+大模型、8万+考题测评结果出炉
2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。
本次智源评测,分别从<strong>主观</strong>、<strong>客观</strong>两个维度考察了<strong>语言模型</strong>的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对<strong>多模态模型</strong>则主要评估了多模态理解和生成能力。[查看详情](https://www.jiqizhixin.com/articles/2024-05-18-5)
### 中文大模型基准测评2024年4月报告
SuperCLUE团队发布了《中文大模型基准测评2024年度4月报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。[查看详情](https://mp.weixin.qq.com/s/M30WsBu5HXsaoYU27dQXXA) \| [报告下载](https://www.cluebenchmarks.com/superclue_2404)
### 智源与HuggingFace联合推出开放中文大语言模型榜单 - 旗鉴榜
近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在跟踪、排名和评估开放式中文大语言模型,通过开源社区共建、用户自主贡献的方式,持续推动和完善中文语言大模型的科学、客观排名榜。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。
为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分。[查看官网](https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard)
### 微软携生态级 Agent 杀入,并带来了 50+ 项重大更新
微软召开了其年度发布会,Microsoft Build 2024,发布了包括大杀器 Copilot Studio 在内的 50+ 项更新。[查看详情](https://mp.weixin.qq.com/s/UJs0EJHafeBubEHbX5Xtiw)
## 启智动态
### `ThinkChat`新版上线——更智能更精彩

`ThinkChat2.0`升级版本现已上线,基于官方全新的`ThinkAI`底座重构,可以支持更多模型切换和功能体验,<strong>致力于打造私人定制AI助理 —— 更智能更精彩!</strong> [立刻体验](https://chat.topthink.com/)
## 应用案例

### 腾讯入场,元器 Agent 平台究竟如何?第一手内测!
继字节和阿里之后,在 5 月 17 日的"腾讯云生成式AI产业应用峰会"上,基于混元大模型的一站式 AI 智能体创作与分发平台——[腾讯元器](https://yuanqi.tencent.com/)首次亮相。不过鉴于腾讯混元目前的能力,智能体尚在初期阶段,相比扣子并没有特别优势。
元器主要面向的用户是<strong>企业和开发者</strong>,这些创作者可以在腾讯元器上通过提示词直接创建智能体,同时支持使用腾讯官方的插件和知识库;智能体创建完成后,创作者还可以将这些智能体一键分发到 QQ、微信客服、腾讯云等渠道上。[查看详情](https://mp.weixin.qq.com/s/dPTZ-M8Pu8nLpsAyHt6wkQ)
## 学习资源
### 如何评估大语言模型(LLM)的质量——框架、方法、指标和基准。
LLM评估是指在人工智能系统中评估和改进语言和语言模型的过程。随着大模型的版本升级和应用的持续,对大模型的评估也绝非一次性,而是需要多次迭代的过程。建立一个有效的、可持续的评估过程非常重要。[查看详情](https://mp.weixin.qq.com/s/Bf2amPKyuN8VWCLv3eVaPw)
### 《大模型应用开发 动手做 AI Agent》

由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent,[查看详情](https://mp.weixin.qq.com/s/mIcOCHajAutduzqjfAVChw)
### 生成式人工智能 (Generative AI) 常识科普图:GenAI 最经常被讨论的 20 个话题
文章通过图片的方式对GenAI 最经常被讨论的 20 个话题,进行了详细的文字说明,帮助理解其在生态中的作用。[查看原文](https://cartography-of-generative-ai.net/) \| [下载PDF原图](https://cartography-of-generative-ai.net/genai_cartography.pdf)
### AI工具推荐
* [2024 年必备的 5 款 AI 音视频转录工具](https://mp.weixin.qq.com/s/sI1DjidD5PRX5W1cQURz1g)
* [2024 年必备的 9 款 AI PPT 生成工具](https://mp.weixin.qq.com/s/2vSvFcz5pwtPimZqv36d-w)
资讯来源:https://blog.topthink.com/ai-weekly-20240524.html
投递资讯
立即投递欢迎投递软件、IT 行业相关新闻
推荐资讯
-
你和专业文档手册之间,只差一个"录制"按钮
2025年11月12日
-
客服团队的效率革命:培训文档制作时间立省80%,告别无效内耗
2025年11月12日
-
从AI焦虑到AI从容:给企业的AI转型心理指南
2025年11月12日
-
从"文档"到"知识资产":企业知识管理的三个进化阶段
2025年11月12日
-
ThinkWiki上线智写流程,一键生成用户手册
2025年10月24日
最新资讯
-
你和专业文档手册之间,只差一个"录制"按钮
2025年11月12日
-
客服团队的效率革命:培训文档制作时间立省80%,告别无效内耗
2025年11月12日
-
从AI焦虑到AI从容:给企业的AI转型心理指南
2025年11月12日
-
从"文档"到"知识资产":企业知识管理的三个进化阶段
2025年11月12日
-
ThinkWiki上线智写流程,一键生成用户手册
2025年10月24日