顶想云AI周报20240524——大模型评测专题

流年 · 1年前

![](https://blog.topthink.com/lfs/bf694b209407f47e61f5ea2aaa3b23c6800526efe92802dce899607e9a964c4f.dat) 近期国内大模型降价潮后,如何更加理性的选择大模型成了企业和应用开发者普遍关注的问题,本期周报我们整理了一期关于大模型评测的主题,希望对大家有所参考,针对不同需求场景来选择对应能力较强的模型。如果你不想看太多,建议直接收藏:[https://www.superclueai.com/](https://www.superclueai.com/) ## 一周热点 ### 中国大模型价格战背后的真相 DeepSeek v2 宣布其价格为 1 元/百万 token 后,随即引来了大模型价格战,智谱、面壁、字节、阿里、百度,以及今天跟进的科大讯飞、腾讯云相继宣布了模型推理价格降低。模型技术的攀升,才是 API 调用商业模式能继续增长的前提。其实细看今天宣布降价的模型产品也是一样,真正大规模、高性能、支持高并发的模型推理还是要收费,降价幅度是有限的。[查看详情](https://mp.weixin.qq.com/s/HA4RtjXvUhOY-sdHXYvUpg) ### FP研究:大模型一定会降价,但绝对不是今天不管对于大厂还是模型层创业公司而言,降低 token 成本都是未来大势所趋。便宜的模型价格、繁荣的开发者生态、第一方应用都是这场「百模大战」接下来的竞争关键。降价是大势所趋,未来 token 会便宜到忽略不计,会变成行业的基础设施,可以在这样的前提背景下去解决真实问题、关键问题。[查看详情](https://mp.weixin.qq.com/s/F0_WgWkYm3oWrpgWN2M6GQ) ### 百川智能发布Baichuan 4及首款AI智能助手百小应,模型能力国内第一 5月22日,百川智能发布最新一代基座大模型Baichuan 4,并推出成立之后的首款AI助手"百小应"。作为百川智能发布的最新一代基座大模型,Baichuan 4在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一,相较上一代大模型Baichuan 3提升显著。[查看详情](https://mp.weixin.qq.com/s/iOl4T7UhfG6KlZDBTP3Fnw) \| [发布会问答整理](https://mp.weixin.qq.com/s/TK-Gu4yt7GhwCllsEFvdQg) ### 清华大学:superBench大模型综合能力评测报告截止2024年3月,国家互联网信息办公室公布已经有117家"大模型"成功备案,包括文心一言、通义千问、kimi、智谱清言、云雀(已经改名为豆包)、abab、日日新、星火、盘古以及最新的滴滴出行大模型等。在这场"百模大战"中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。[查看详情](https://mp.weixin.qq.com/s/gRNPO5FB30f4z-ycOgtmdg) ### 大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一周二,知名大模型竞技场LMSYS Chatboat Arena盲测评测结果更新,国内大模型独角兽零一万物的千亿参数闭源大模型Yi-Large在最新总榜中排名世界第七,中国大模型中第一,超过Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与GPT-4o并列第一。不过参与评测的国内模型并不多,还有阿里Qwen-Max和智谱GLM4。[查看详情](https://mp.weixin.qq.com/s/oF3yB1ox7jEw7vBvII8t9g) ### SuperCLUE总排行榜 \| 中文通用大模型综合测评榜在国内模型降价的同时,我们不妨也关注下中文模型的综合评测,有用才是硬道理。SuperCLUE 是专注于中文通用大模型的综合性测评平台,提供了一系列的测试和评估工具,衡量大模型在不同任务和能力上的表现。[查看官网](https://www.superclueai.com/) ### OpenCompass司南 \| 综合测评国内外主流大模型 OpenCompass 是一个专注于大模型能力评测的平台,提供了一个全面的评测体系,包括权威的评测榜单、高质量的评测基准社区和大模型评测全栈工具链。 OpenCompass 榜单综合测评了主流前沿大模型,有国内也有国外,有开源也有闭源,还覆盖了多个细分领域。[评测榜单](https://rank.opencompass.org.cn/home) ### Artificial Analysis \| 一份更完备、更客观的 AI大模型购物指南不仅基于数据进行了大量分析和可视化,还给出了质量、价格、性能、速度、上下文窗口等关键指标的详细排名,帮你选择最合适的大模型和API提供商(主要是国外模型)。[查看官网](https://artificialanalysis.ai/) ### 国内外140+大模型、8万+考题测评结果出炉 2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。[查看详情](https://www.jiqizhixin.com/articles/2024-05-18-5) ### 中文大模型基准测评2024年4月报告 SuperCLUE团队发布了《中文大模型基准测评2024年度4月报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。[查看详情](https://mp.weixin.qq.com/s/M30WsBu5HXsaoYU27dQXXA) \| [报告下载](https://www.cluebenchmarks.com/superclue_2404) ### 智源与HuggingFace联合推出开放中文大语言模型榜单 - 旗鉴榜近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在跟踪、排名和评估开放式中文大语言模型,通过开源社区共建、用户自主贡献的方式,持续推动和完善中文语言大模型的科学、客观排名榜。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分。[查看官网](https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard) ### 微软携生态级 Agent 杀入,并带来了 50+ 项重大更新微软召开了其年度发布会,Microsoft Build 2024,发布了包括大杀器 Copilot Studio 在内的 50+ 项更新。[查看详情](https://mp.weixin.qq.com/s/UJs0EJHafeBubEHbX5Xtiw) ## 启智动态 ### `ThinkChat`新版上线——更智能更精彩 ![](https://blog.topthink.com/lfs/03d5654e21b84582efd9d8ece0c8a57b4ca08b7b80e82219e55ddaafdb1aed67.dat) `ThinkChat2.0`升级版本现已上线,基于官方全新的`ThinkAI`底座重构,可以支持更多模型切换和功能体验,致力于打造私人定制AI助理 —— 更智能更精彩! [立刻体验](https://chat.topthink.com/) ## 应用案例 ![](https://blog.topthink.com/lfs/479bf0148723d27cb2dd117fa60a51e63ea5cf249ef522cdb62f921341716eef.dat) ### 腾讯入场,元器 Agent 平台究竟如何?第一手内测! 继字节和阿里之后,在 5 月 17 日的"腾讯云生成式AI产业应用峰会"上,基于混元大模型的一站式 AI 智能体创作与分发平台——[腾讯元器](https://yuanqi.tencent.com/)首次亮相。不过鉴于腾讯混元目前的能力,智能体尚在初期阶段,相比扣子并没有特别优势。元器主要面向的用户是企业和开发者,这些创作者可以在腾讯元器上通过提示词直接创建智能体,同时支持使用腾讯官方的插件和知识库;智能体创建完成后,创作者还可以将这些智能体一键分发到 QQ、微信客服、腾讯云等渠道上。[查看详情](https://mp.weixin.qq.com/s/dPTZ-M8Pu8nLpsAyHt6wkQ) ## 学习资源 ### 如何评估大语言模型(LLM)的质量——框架、方法、指标和基准。 LLM评估是指在人工智能系统中评估和改进语言和语言模型的过程。随着大模型的版本升级和应用的持续,对大模型的评估也绝非一次性,而是需要多次迭代的过程。建立一个有效的、可持续的评估过程非常重要。[查看详情](https://mp.weixin.qq.com/s/Bf2amPKyuN8VWCLv3eVaPw) ### 《大模型应用开发动手做 AI Agent》 ![](https://blog.topthink.com/lfs/93a3b0fd943768c27de8178816844fe5d651c9d7dcc28a6bae886c1dff02242e.dat) 由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent,[查看详情](https://mp.weixin.qq.com/s/mIcOCHajAutduzqjfAVChw) ### 生成式人工智能 (Generative AI) 常识科普图:GenAI 最经常被讨论的 20 个话题文章通过图片的方式对GenAI 最经常被讨论的 20 个话题,进行了详细的文字说明,帮助理解其在生态中的作用。[查看原文](https://cartography-of-generative-ai.net/) \| [下载PDF原图](https://cartography-of-generative-ai.net/genai_cartography.pdf) ### AI工具推荐 * [2024 年必备的 5 款 AI 音视频转录工具](https://mp.weixin.qq.com/s/sI1DjidD5PRX5W1cQURz1g) * [2024 年必备的 9 款 AI PPT 生成工具](https://mp.weixin.qq.com/s/2vSvFcz5pwtPimZqv36d-w)

资讯来源:https://blog.topthink.com/ai-weekly-20240524.html

投递资讯

立即投递

欢迎投递软件、IT 行业相关新闻

NIUCLOUD通用管理系统后台框架

PHP8、MYSQL8、插件化+云编译架构。已有上千名开发者、服务商正在积极拥抱生态。欢迎开发者们免费入驻,一起助力发展!

小板报

你的私人AI助理,提升工作和学习效率

官方服务

资源

顶想云AI周报20240524——大模型评测专题

投递资讯

推荐资讯

NIUCLOUD通用管理系统后台框架

小板报

ThinkPHPV8.1正式发布

🚀ThinkORM4全新重构版本发布

📣ThinkPHP推广奖励计划

✒️ThinkWiki写作智能体

最新资讯