Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

工业级民航领域大模型的评估基准 CAMB ,既可以用来评估 LLM ,也可以用来评估 Embedding 模型

License

Notifications You must be signed in to change notification settings

CodeAsPoetry/CamBenchmark

Repository files navigation

CAMB---民用航空维修评估基准

简体中文 | English

📄 论文 • 🏆 评测结果 • 🤗 数据集

简介

民航维修领域,行业标准严苛,知识密集,典型的富含知识和推理的业务场景。我们结合民航维修领域的业务和对大模型的理解,建设并开源了一套民航维修领域工业级的大模型评测基准(Civil Aviation Maintenance Benchmark),既可以评测向量嵌入模型(Embedding),也可以评测大语言模型(LLM),同时也在一定程度上弥补了目前大多仅在数学和代码领域研究大模型推理的评测短板。

评测任务

CAMB 评测基准涵盖民航维修场景中的 7 个任务,涉及到 8 个评估数据集:

  • 民航术语双语对齐(Alignment bilingual terminology)
    • Embedding,构建为双语挖掘(BitextMining)任务
    • LLM,构建为中英翻译(Translation)任务
  • 民航故障系统定位(Aircraft fault system location)
    • Embedding,利用"民航飞行器一级系统"向量重排(Rerank)构建为分类(Classification)任务
    • LLM,构建为分类(Classification)任务
  • 民航文本系统章节定位(Aircraft text chapter location)
    • Embedding,利用"章节系统向量重排(Rerank)"构建为聚类(Cluster)任务
    • LLM,构建为文本分类(Classification)任务
  • 故障描述与 FIM 手册排故条目匹配(Fault description and FIM manual match)
    • Embedding,利用句对向量,构建为匹配(PairClass)任务
    • LLM,构建为匹配(FIM Manual Match)任务
  • 民航维修执业资格及上岗考试(Civil aviation maintenance Multiple choice)
    • Embedding,利用"选项向量重排(Rerank)"构建为重排(Rerank-choice)任务
    • LLM,构建为选择题(Multiple-Choice)任务
  • 民航维修知识问答(Civil aviation maintenance QA)
    • Embedding,分别构建为文本检索(Retrieval)和文本重排(Rerank-text)任务
    • LLM,构建为问答(maintenance QA)任务
  • 民航排故树推理问答(Troubleshooting tree-structured QA)
    • Embedding,利用"候选故障原因向量重排"构建为树节点重排(TroubleTree)任务
    • LLM,构建为树结构溯因推理(Reasoning on Tree)任务

评测结果

Note: 目前评测时间截止到 2025 年 8 月 22 日

以下表格分别显示了目前 Embedding 和 LLM 在 CAMB 的性能表现。

Embedding

LLM

评估数据集

除了此项目外,后续会上传到Hugging Face或者ModelScope,方便获取我们的数据。

数据集说明

  • chineseEnglishAligned

    • bitextmine.xlsx,更多信息

      数据展示
      {
       "en": "airfoil",
       "ch": "机翼,螺旋桨"
      }
      {
       "en": "VOR:VHF omnidirectional range",
       "ch": "甚高频全向信标台"
      }
      
  • classification

    • classification.xlsx,更多信息

      数据展示
      {
       "描述": "MCC:空中机组反映7#前缘缝翼灯闪亮;测试当前无代码,襟缝翼收放正常。襟缝翼收放正常。拔出P18-2上的E7跳开关,并安装跳开关夹,制作不工作标牌并置于靠近指示牌面板处。",
       "一级系统": "飞行操纵"
      }
      
  • cluster

    • cluster.xlsx,更多信息

      数据展示
      {
       "文本": "驾驶盘指令经过扰流板操纵扇形盘轴传到比例变换器输入杆。
       一副翼凸轮一定中凸轮 一滚轴(2)一输出杆 (2)一连杆和曲柄
       当驾驶盘转动向左横滚时,左机翼的扰流向上动,驾驶盘指令引起扰流板操纵扇形盘转顺时针转动。这使比例变换器输入杆向右移动。该连杆使曲柄转动而使连杆向下。控制杆顺时针转动副翼凸轮。在凸轮转动时,右滚轴移动并使右输出杆顺时针转动一小部分。这使右扰流板保持在下位。
       下列是扰流板混合器的部件:
       副翼凸轮移动左滚轴,使左输出杆顺时针转动,使左扰流板输出扇形盘顺时针转动,而使左飞行扰流板向上。
       -比例变换器输入杆—曲柄—杆一减速板输入扇形盘一扰流板输出扇形盘(2)
       减速板手柄的使用
       减速板手柄的指令传到减速板输入扇形盘。
       当减速板手柄向上时,减速板输入扇形盘反时针转动,这使输出杆转动,且扰流板输出扇形盘向上方向转动。",
       "类别": "操纵系统"
      }
      
  • pairclassification

    • paircls.xlsx,更多信息

      数据展示
      {
       "question": "过站机组反映关车接通APU电源1分钟后,APU FAULT 灯亮,APU 自动关车",
       "description": "Oil Filter Switch Shows Short Circuit",
       "label": "1"
      }
      
  • multipleChoice

    • air_choice.xlsx,更多信息

      数据展示
      {
       "试题题目": "自动增压工作时几个马达控制外流活门",
       "选项A": "2个",
       "选项B": "3个",
       "选项C": "4个",
       "选项D": "5个",
       "答案": "A",
       "flag": "737NG-ME" # 机型
      }
      
  • qa

  • faultTree

    • trouble_tree.jsonl,更多信息

      数据展示
       {
       "prompt": "## 历史推理路径\n- 1-1: 近期NG飞机经常在空中出现无线电高度指示不正常故障,地面却测试无线电高度表正常。并且由于无线电高度表故障,导致许多使用无线电高度信号的系统发生故障。以下是无线电高度表异常的相关的故障报告: 1.左右座无线电高度表指示偏差过大; 2.进近时候双通道自动驾驶不能衔接或者断开; 3.飞行指引杆不正常消失; 4.起飞后、进近阶段、复飞阶段不正常的构型警告; 5.音响高度报告功能失效; 6.速度刹车不在预位灯在自动速度刹车预位时不正常点亮; 自动油门慢车状态在FMA上不正常显示。 | 知识: 原理分析 无线电高度表收发机产生发射电波信号经过传输电缆发送到发射天线,发射天线把发射电波信号发送出去,遇到地面后反射;接收天线接收经地面反射的电波信号,并把接收到的电波信号反馈回无线电高度表收发机;无线电高度表收发机利用发送信号和接收信号的时间差来计算出飞机所在的无线电高度,并把解算出来的高度数据用总线形式发送给DEU和其他飞机各个系统,分别用来在PFD上显示无线电高度和用于其它各个系统的功能计算。无线电高度系统不正常会导致PFD上显示的无线电高度异常,而且还会导致其他利用无线电高度信号计算的系统发生故障。.造成无线电高度表故障的故障部件: 1.发射天线、接收天线(M1737/M1739/M1738/M1740) 2.线路故障:天线到收发机之间的同轴电缆、同轴电缆接头; 3.收发机(M1735/1736) 4.上述的故障部件的组合 ", 
       "gold_list": ["在故障再现的时候,必须首先按照FIM34-33 TASK 801 LRRA BITE PROCEDURE 进行无线电高度系统 BITE,并记录故障灯或故障代码,切忌不要先复位跳开关,把故障信息消除。然后根据故障代码按照FIM手册排故"]
       }
      

提示词(prompt)

请参考paper 的附录 B(Prompts)部分

评估脚本及 Pipeline

Note: 各个任务在 Embedding 和 LLM 下的评估脚本,包括评估指标等,请分别查看对应目录对应模型类别的脚本,如 chineseEnglishAligned 任务 embedding 模型的 bitextmine.py

我们在这里重点提及两点:

  1. 关于 Embedding 模型,它的加载方式多样,有 Huggerface/ModelScope 的 Transformer、SentenceTransformer、vllm 等,结合官方给出的参考以及我们的多次实验,最终选择能稳定实现最好性能的加载方式,并封装了统一加载 Embedding 模型的工具包

  2. 关于评估 LLM,重点指出 qa 和 faultTree 任务,采用了 LLM-as-judger,利用 gpt-4o 自动化评估

我们对此做了 LLM-as-judger 与人工评估一致性的验证,发现与人工评估高度一致。

最后我们还开源了自动流水线评估框架,只需通过配置 yaml 文件,实现流水线自动评估。更多信息在此

贡献

引用

@misc{zhang2025cambcomprehensiveindustrialllm,
 title={CAMB: A comprehensive industrial LLM benchmark on civil aviation maintenance},
 author={Feng Zhang and Chengjie Pang and Yuehan Zhang and Chenyu Luo},
 year={2025},
 eprint={2508.20420},
 archivePrefix={arXiv},
 primaryClass={cs.CL},
 url={https://arxiv.org/abs/2508.20420},
}

许可证

CAMB 数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

About

工业级民航领域大模型的评估基准 CAMB ,既可以用来评估 LLM ,也可以用来评估 Embedding 模型

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%

AltStyle によって変換されたページ (->オリジナル) /