必示科技联合多家单位发布 OpsEval:运维大语言模型评测榜单
01 引言
大规模语言模型(LLMs)在NLP相关任务如翻译、摘要和生成方面展现出了卓越的能力。由于大模型的记忆、生成和推理等高级能力,它在智能运维(AIOps)领域也具有巨大的应用潜力。然而,当前LLMs在AIOps特定任务的性能尚不明确,需要一个全面的基准来指导针对AIOps领域的LLMs的优化。
为了解决这些问题,清华大学、中国科学院计算机网络信息中心、南开大学、必示科技、中兴通讯、中亦图灵等多家单位联合发布了OpsEval:面向大规模语言模型的多层次智能运维能力评价基准。此榜单发布于中国科技网(CSTNET)上,中国科技网是中国科学院领导下的学术性、非盈利的科研计算机网络,是中国第一个全功能正式接入国际互联网的网络,主要面向全国科技界、政府和高新技术企业提供网络服务,覆盖30余个省、市、自治区、直辖市,拥有网络用户100余万。中国科技网由中国科学院计算机网络信息中心建设维护。中心成立于1995年3月,是中国互联网诞生地。
OpsEval首次评估了LLMs在三个关键场景(有线网络运营、5G通信运营和数据库运营)的各种任务难度级别(知识召回、推理、应用)的熟练程度。基准测试包括7200个问题,既有选择题,也有问答题,提供英文和中文。我们非常欢迎其他垂直领域的单位提供更多评测题目,我们会统一评估,并定期更新到OpsEval网站上。
我们评估了十余种主流大模型,我们的发现揭示了传统的BLEU指标不适合用于专业领域的知识型问答评估,而GPT-4得分可以作为人类评估指标的最佳替代品。最后,我们探讨了不同模型量化方法对总体性能的影响。
02 相关工作
随着传统的自然语言处理(NLP)评价指标越来越无法满足LLMs的评估需求,针对LLMs的评价指标越来越受到重视。它们可以分为两类:通用能力指标和特定领域指标。
通用能力指标,如HELM、BIG-bench、C-Eval、AGIEval等等,用于评估LLMs在各类任务上的通用能力,例如是否包含常识、通用知识、推理能力等等,不会局限在某一特定领域上。而特定领域指标,包括金融领域的FinEval、医疗领域的CMB、HuoTuo-26M、MultiMedQA等等,被用于评价LLMs是否处理特定垂直领域的问题。
最近提出的NetOps,被用于评估LLMs在网络领域下的能力,包含中英文选择题、少量的填空和问答题。与之相比,我们的工作包括了传统网络运维、5G网络通信、数据库运维等多个方面,在AIOps领域涵盖更加广泛和深入的评价方式,在任务话题和任务难度上进行了更加细致的划分,并且对常见LLMs在各类任务上的表现进行了详细的分析。
03 OpsEval 评估基准
在对AIOps领域的大型语言模型进行评估时,我们将问题分为客观和主观两类。客观问题通常为多项选择题,提供明确答案,但可能导致模型过度依赖模式识别而非真正理解。主观题无预设选项,更能考察模型的理解力和知识库。我们通过结合这两类问题,旨在全面、平衡地评估模型的认知能力和理解力。
3.1 客观题
数据来源:客观问题主要来自于全球公认的AIOps领域的国际认证考试,我们从各种书籍、在线资源和合作单位中收集问题。这些问题主要以选择题的形式出现,包括单选和多选两种形式。每个问题都配有问题提示、可能的答案选择以及相关的解释或分析。我们主要关注的领域包括有线网络运营、5G通信运营和数据库运营。我们还将继续在未来完善和扩大评估领域。
数据处理:我们的原始数据集的处理包括五个阶段:初步筛选、去重、内容过滤、格式标准化和手动审查。这个细致的过程最终得到了一个包含大约7000个客观题的精炼数据集。
任务分类:在复杂的运维领域,认识到任务和挑战的多维性是至关重要的。为了全面评估AIOps领域的大型语言模型,我们设计了一个分类,涵盖了专业人员在实际环境中面临的各种场景。我们的八个不同的运维场景的制定受到了行业相关性、任务频率和每个领域在AIOps中的重要性的影响。这些类别包括:
•通用领域知识
•故障分析和诊断
•网络配置
•软件部署
•性能优化
•监控告警
•自动化脚本
•混合型任务
3.2 主观题
数据收集:OpsEval数据集中的主观题来源于精心策划的多种资源,以确保其全面性和相关性:
•从客观问题生成:我们的一部分主观题是从原始数据集中精心挑选的客观问题中派生出来的。这些问题在被确定具有潜在的深度和广度后,被转化为主观形式。
•从书籍中提取:为了增强我们数据集的多样性和深度,我们还从涵盖AIOps领域的权威书籍中获取了主观题。这确保了我们的数据集不仅广泛,而且符合行业标准和当前的最佳实践。
数据处理:
1.问题总结:被选中转化为主观题的客观问题经过了一个总结过程。这涉及到提炼每个问题的主要内容,并以没有预定义选项的开放题形式呈现。
2.引入参考资料:对于在GPT-4的帮助下生成的问题,我们在提示中提供了参考文本,以指导生成过程并确保准确性。
3.数据结构化:每个主观题都被精心结构化,包括原始问题、答案的关键点、详细答案、领域和相关任务。这种结构化的方法便于评估和分析。
3.3 评估指标
客观题:使用准确性作为指标。由于LLMs可能输出除选项之外的更多内容,因此LLMs的答案是通过基于正则表达式的选项提取器从其原始回复中提取的。
主观题:用两种类型的指标,一种基于词重叠,另一种基于语义相似性。对于第一种类型,我们使用Rouge和Bleu,这在NLP任务中被广泛使用,尤其是在翻译任务中。对于第二种类型,我们使用GPT-4和人类来获取LLMs输出的分数,这在OpsEval中分别被称为GPT4-Score和Expert Evaluation。
•GPT4-Score是由GPT4生成的分数,使用精心设计的提示。尤其是在LLMs的参数变大后,越来越多地使用LLMs进行评分。我们将问题的评分提示、真实关键点、真实详细答案和待评分的LLM答案组合起来。分数在1到10之间,越高越好。
•专家评估(Expert Evaluation)是为OpsEval专门设计的指标,根据三个与网络操作需求高度相关的标准对LLMs的输出进行手动评分。考虑的三个标准如下:
1.流畅性(Fluency):评估模型输出的语言流畅性,符合主观问题的回答要求,以及段落重复或无关文本的存在与否。
2.准确性(Accuracy):评估模型输出的精确性和正确性,包括是否充分覆盖了真实答案的关键点。
3.证据量(Evidence):检查模型的输出是否包含足够的论证和证据支持,以确保答案的可信度和可靠性。
04 OpsEval 实验设计
4.1 考察模型
我们选取了比较流行的能够处理中英文输入的不同参数大小、不同机构发布的模型,并将它们在OpsEval上进行评估。所评估的模型及具体细节见下表。
此外,为了了解不同量化参数对模型性能的影响,我们评估了LLaMA-2-70B的两个量化版本。具体而言,我们使用LLaMA-2-70B的带有3位和4位量化参数的GPTQ模型。
4.2 实验设置
4.2.1 客观题
为了全面了解不同语言模型在OpsEval上的表现,我们使用尽可能多的评估方式来进行评估。在评测中,我们分别使用zero-shot方式和few-shot方式(我们的实现中为3-shot)进行评估。对于zero-shot方式,我们希望从普通用户的角度评估语言模型的能力,因为用户在普通使用中不会提供任何示例。对于few-shot方式,我们旨在从开发人员的角度评估语言模型的潜力,这通常比zero-shot设置获得更好的性能。
对于每个评估方式,我们使用4种设置来评估语言模型,即原始问答(Naive)、自我一致性(SC)、思维链(CoT),结合思维链的自我一致性(CoT+SC)。由于我们有英文和中文问题,我们分别为两种语言设计对应的原始问答提示与思维链提示。
•原始问答(Naive):希望语言模型在没有任何其他解释的情况下生成答案。由于我们有每个问题的场景,因此我们将问题的场景集成到提示中,如下图所示。
•自我一致性(SC):将相同的问题多次询问语言模型,提取模型生成答案中出现次数最高的答案。在实现中,我们将SC的查询次数设置为 5 。
•思维链(CoT):通过让模型生成中间推理步骤使语言模型获得复杂的推理能力。在CoT设置的zero-shot评估中,我们进行两步问答。第一步,在问题后添加“让我们一步一步地思考。”,语言模型会输出其推理思路。第二步,我们将问题的提示和生成的推理思路组合起来,输入语言模型,并获得最终答案。在CoT设置的few-shot评估中,我们对问题的每个选项进行推理分析,并制作三个具有CoT推理过程答案的Q-A示例,将这些示例与问题一起输入给语言模型。CoT的提示构造示例如下图所示。
•结合思维链的自我一致性(CoT+SC):将CoT和SC结合在一起,以提高CoT的表现。与 SC一样,在实现中,我们将SC的查询次数设置为 5 。
4.2.1 主观题
我们将每个问题的场景和任务以及问题本身结合起来作为语言模型的输入。在主观题中,我们希望模拟普通用户对语言模型的日常使用,将问题输入给语言模型,然后生成答案。因此,我们只使用Naive设置中对语言模型进行zero-shot评估。
05 OpsEval 评估效果
5.1 总体表现
所有模型在英文网络操作测试集的八种设置结果显示在下表中(更多评测结果请参阅论文原文和网站)。我们统计平均准确率,并从总体性能中得出了几个发现。
首先,GPT-4始终优于所有其他模型,超越了所有其他模型的最佳结果。
在网络操作问题集中,当使用CoT+SC提示方法时,LLaMA-2-13b-chat和Baichuan-13b-chat在英文和中文测试数据集中接近ChatGPT的性能。
在5G通信问题集中,LlaMA-2-13B和Qwen-7B-Chat在英文和中文测试数据集中超过了ChatGPT的性能。
在Oracle数据库问题集中,LlaMA-2-13B和Qwen-7B-Chat仍然领先于GPT-4和ChatGPT以外的模型。
较小的模型,如LLaMA-2-7b-chat和Internlm-chat-7b,在客观的问答任务中表现出有竞争力的性能,接近具有13B参数的模型的能力,这归功于它们的微调过程和训练数据的质量。
5.2 不同设置间效果对比
从测试结果中,有几点有趣的观察:
1.对于大多数模型,从Naive到SC、CoT、CoT+SC,评估性能稳步提高,其中CoT带来的提高最为显著。
2.SC提示只能带来相对较小的改进,因为模型的回应在重复中倾向于保持一致,符合运营场景中需要可靠性和一致性的期望结果。
3.在某些情况下,更高级的提示方法(如CoT)令人惊讶地导致了更差的结果。我们分析了这种现象背后的可能原因:
a.一些模型可能在需要逐步思考时对CoT提示提供的指导反应不佳,导致次优的输出。下图是CoT失败的一个例子:被测试的模型无法理解逐步思考的概念。
b.few-shot评估可能会导致一些模型认为任务涉及生成问题而不是回答问题,从而导致模型回答效果变差。
5.3 不同场景与任务效果
为了研究模型在不同运维场景(通用领域知识、监控告警、软件部署、网络配置、故障分析与诊断、自动化脚本、性能优化、混合型任务)以及不同任务(知识回忆、分析思考和实际应用)中的表现,我们根据前文提到的结构化评分分类,总结了不同参数大小模型组的结果。
通过按参数大小对模型进行分组,我们发现,尽管13B模型在最佳情况下的准确率比参数少于7B的模型高,但不同的13B模型的性能差异极大,导致其下限甚至低于7B。另一方面,7B模型在组内的性能范围更稳定。
5.4 不同量化等级效果对比
上图展示了LLaMA-2-70B在中英文客观问题上的不同量化参数的准确性。我们使用Naive设置下进行了zero-shot和few-shot评估。显然,在推理过程中使用量化会降低LLM的性能。
4位量化模型与原模型相比,准确率比较接近。具体来说,在英文客观题上,与LLaMA-2-70B相比,4位量化模型在zero-shot评估中的准确性降低了3.50%,在few-shot评估中降低了0.27%。在中文客观题上,与LLaMA-2-70B相比,4位量化模型在zero-shot评估中的准确性降低了3.67%,在few-shot评估中降低了5.18%。
另一方面,3位量化模型的性能下降较大。平均来说,3位量化模型的准确性相比原始LLaMA-2-70B降低了12.46%,相比4位量化模型降低了9.30%。可见,3位量化后,原始模型中的信息丢失太多。
5.5 主观题表现
下表展示了50个主观英文问题的评估结果,这些问题涵盖了四类指标:Rouge、Bleu、GPT4-Score和专家评估,按照GPT4-Score结果排序。
我们观察到,基于Rouge和Bleu得分的排名与GPT4-Score和专家评估的排名并不一致。实际回答性能较差的模型可能会生成关键词,从而得到较高的Rouge和Bleu得分。相反,由于与标准答案的措辞差异,回答性能好的模型可能会得到较低的Rouge/Bleu得分。
关于GPT4-Score评估,排名与基于人类评分的排名非常接近。在专家评估的三个指标中,GPT4-Score排名与准确性指标最为接近,这表明GPT4在事实性上最为可靠,因为它有庞大的知识库。生成内容的格式和长度也对GPT4的评分有很大影响,这由GPT4-Score和流畅性之间的高正相关性所证明。另一方面,关于证据量指标的排名有更多的错排,这表明GPT4的评分需要充分考虑论据和证据的作用,特别是在答案模糊的情况下。
06 总结与展望
本文介绍了OpsEval,一个为大规模语言模型(LLMs)设计的综合性任务导向的智能运维领域基准测试。OpsEval的独特之处在于,它在考虑了不同的能力水平(包括知识召回、推理和应用)的前提下,评估了LLMs在三个关键场景(有线网络运营、5G通信运营和数据库运营)中的熟练程度。这一综合性基准测试包括7200道选择题和问答题,分别以英文和中文呈现。
通过量化和定性的结果支持,我们详细阐释了各种LLMs技术(如零样本学习、少样本学习和思维链)对模型性能的影响。值得注意的是,与广泛使用的Bleu和Rouge相比,GPT4分数显现出更可靠的度量标准,这表明它有潜力取代大规模定性评估中的自动度量标准。
OpsEval框架的灵活性为未来的探索提供了机会。这一基准测试的可适应性使其能够无缝集成更多细粒度的任务,为继续研究和优化针对智能运维领域的LLMs提供了基础。
评论