1. 微调的目的是什么?是否必须微调?没有经验的情况下微调只会耗费大量资源而且降低模型本身的能力。能用提示词搞定的就优先用提示词。如果要求是能问答企业内部知识的场景,考虑 RAG 是否可以完成?
2. 考虑并发会到多少?并发数直接影响到你需要的显卡资源数量。按我观察的经验来看,大部分企业员工在应用 AI 这件事情上尝鲜的程度多于真正日常使用的程度,也就是说部署一个并发数在个位数的服务就完全绰绰有余了。
3. 如果不是严格要求私有化部署的情况下,使用公有服务是最优选择。
4. PDF 总结也有很多种做法,显存资源不够的情况下对应的就是上下文长度较小,那就分块总结再合并总结,也能完成任务。
Python 的话 Playwright 就可以,我是和你完全一样的需求,需要渲染 ECharts 图表,部署在阿里云函数,每次调用平均用时 4 秒的样子。