CN116383026B

CN116383026B - 基于大模型的数据处理方法及服务器

Info

Publication number: CN116383026B
Application number: CN202310652251.7A
Authority: CN
Inventors: 张一昌; 孟子烨; 黄小明; 刘高; 周畅; 周靖人
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-01
Anticipated expiration: 2043-06-05
Also published as: CN116383026A

Abstract

本申请提供一种基于大模型的数据处理方法及服务器。本申请的方法，通过获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、指令是否具有安全风险的安全类别；将指令输入实现人机交互的大模型，通过大模型输出指令的响应结果；根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，从识别安全风险、各任务能力等多个维度对大模型进行测评，从而准确、全面、细粒度地测评大模型的表现，并输出大模型在识别安全风险维度、各任务能力维度的测评值，以指导大模型的上线判定或更新大模型的优化版本，从而提升基于大模型的人机对话的准确性，保证人机对话质量。

Description

基于大模型的数据处理方法及服务器

技术领域

本申请涉及计算机技术，尤其涉及一种基于大模型的数据处理方法及服务器。

背景技术

自然语言是人类逻辑和思维的重要载体，在人机交互，甚至通用人工智能领域具有非常重大的意义。但是因为自然语言的复杂性和模糊性，一直以来缺少直接面向无约束的自然语言的机器设施。

随着人工智能的发展，大模型被广泛应用于自然语言处理领域的人机交互中。大模型是指大规模深度学习模型，例如大规模的语言模型、多模态模型等，具有大规模的模型参数，通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。

在大模型的迭代过程中，需要测评不同版本的大模型的优劣，以实现大模型迭代更新。在大模型上线之前，需要测评大模型的表现是否满足上线要求，以上线表现优异的大模型，避免上线表现较差的大模型。目前对于人机交互的大模型，通常仅在大模型输出的答复是否对用户有帮助、答复内容是否安全等简单维度，对模型的表现进行笼统地打分，测评维度单一，无法准确全面地测评大模型表现的优劣，不利于模型迭代中选择优质模型、不利于控制上线模型的质量，导致人机交互质量差。

发明内容

本申请提供一种基于大模型的数据处理方法及服务器，用以解决无法准确全面地测评大模型表现的优劣，不利于模型迭代中选择优质模型和控制上线模型质量，导致人机交互质量差的问题。

第一方面，本申请提供一种基于大模型的数据处理方法，包括：获取人机交互的指令集和所述指令集中指令的标注信息，所述指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将所述指令输入实现人机交互的大模型，通过所述大模型输出所述指令的响应结果；根据所述指令的响应结果和所述指令的标注信息，确定所述大模型在识别安全风险维度、各任务能力维度的测评值；输出所述大模型在识别安全风险维度、各任务能力维度的测评值，所述测评值用于指导所述大模型的上线判定或更新所述大模型的优化版本。

第二方面，本申请提供一种基于大模型的数据处理方法，所述大模型为语言模型，所述方法包括：接收端侧设备发送的多个语言模型的对比测评请求；获取人机交互的指令集和所述指令集中指令的标注信息，所述指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将所述指令分别输入各所述语言模型，获取各所述语言模型输出的所述指令的响应结果；根据任一所述语言模型输出的所述指令的响应结果，以及所述指令的标注信息，确定所述语言模型在识别安全风险维度、各任务能力维度的测评值；对各所述语言模型在识别安全风险维度、各任务能力维度的测评值进行比较，并向所述端侧设备输出比较结果。

第三方面，本申请提供一种基于大模型的数据处理方法，所述大模型为语言模型，所述方法包括：向服务器发送对指定的多个语言模型的对比测评请求；接收所述服务器发送的比较结果，所述比较结果是通过获取人机交互的指令集和所述指令集中指令的标注信息，所述指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别，将所述指令分别输入各所述语言模型，获取各所述语言模型输出的所述指令的响应结果，根据任一所述语言模型输出的所述指令的响应结果，以及所述指令的标注信息，确定所述语言模型在识别安全风险维度、各任务能力维度的测评值，对各所述语言模型在识别安全风险维度、各任务能力维度的测评值进行比较得到的；输出所述比较结果。

第四方面，本申请提供一种服务器，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面或第二方面所述的方法。

本申请提供的基于大模型的数据处理方法及服务器，通过获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将指令输入实现人机交互的大模型，通过大模型输出指令的响应结果；根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，可从识别安全风险、各任务能力等多个维度对大模型进行测评，从而能够准确、全面、更细粒度地测评大模型表现的优劣，并输出大模型在识别安全风险维度、各任务能力维度的测评值，测评值用于指导大模型的上线判定或更新大模型的优化版本，可以在大模型迭代中准确地选择优质模型，提升迭代更新得到的大模型的质量，提升上线模型的质量，从而提升基于大模型的人机对话的准确性，保证人机对话质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一示例系统架构的示意图；

图2为本申请一示例性实施例提供的基于大模型的数据处理方法流程图；

图3为本申请一示例性实施例提供的大模型上线判定的方法流程图；

图4为本申请一示例性实施例提供的大模型的优化版本更新的方法流程图；

图5为本申请一示例性实施例提供的基于给定任务选择大模型的方法流程图；

图6为本申请一示例性实施例提供的一种服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

视觉问答任务：根据输入的图像和问题，从输入图像的视觉信息中确定问题的答案。

图像描述任务：生成输入图像的描述文本。

视觉蕴涵任务：预测输入图像和文本在语义上的相关性，即蕴涵、中性或矛盾。

指代表达与理解任务：根据输入文本定位输入图像中与输入文本对应的图像区域。

图像生成任务：基于输入的描述文本生成图像。

基于文本的情感分类任务：预测输入文本的情感分类信息。

文本摘要任务：生成输入文本的摘要信息。

多模态任务：是指输入输出数据涉及图像和文本等多种模态数据的下游任务，例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。

多模态预训练模型：是指输入输出数据涉及图像和文本等多种模态数据的预训练模型，经过微调训练后可以应用于多模态任务处理。

大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型（Foundation Model），通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型（Large Language Model，LLM）、多模态预训练模型（multi-modal pre-trainingmodel）等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理（Natural Language Processing，简称NLP）、计算机视觉等领域，具体可以应用于如视觉问答（Visual Question Answering，简称VQA）、图像描述（Image Caption，简称IC）、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

应用于人机交互场景（如智能机器人）时，大模型基于用户给出的指令生成答复。在大模型的迭代过程中，需要测评不同版本的大模型的优劣，以实现大模型迭代更新。在大模型上线之前，需要测评大模型的表现是否满足上线要求，以上线表现优异的大模型，避免上线表现较差的大模型。目前对于应用于人机交互场景的大模型，通常从答复是否对用户有帮助，答复内容是否安全等简单维度，对模型的表现进行笼统地打分，测评维度单一，无法准确全面地测评大模型表现的优劣，不利于模型迭代中选择优质模型和控制上线模型的质量。

本申请提供一种基于大模型的数据处理方法，通过获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将指令输入实现人机交互的大模型，通过大模型输出指令的响应结果；根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，可从识别安全风险、各任务能力等多个维度对大模型进行测评，从而能够准确、全面、更细粒度地测评大模型表现的优劣，并输出大模型在识别安全风险维度、各任务能力维度的测评值，测评值用于指导大模型的上线判定或更新大模型的优化版本，可以在大模型迭代中准确地选择优质模型，提升迭代更新得到的大模型的质量，提升上线模型的质量，从而提升基于大模型的人机对话的准确性，保证人机对话质量。

图1为本申请所适用的一示例系统架构的示意图。如图1所示，该系统架构包括负责测评大模型的第一服务器、运行大模型的第二服务器和端侧设备。其中，第一服务器与第二服务器间具有可通信的通信链路，能够实现第一服务器与第二服务器间的通信连接。第一服务器与端侧设备之间具有可通信的通信链路，能够实现第一服务器与端侧设备间的通信连接。

其中，第二服务器可以是部署在云端的服务器集群、或者本地具有计算能力的设备。第二服务器负责运行待测评的大模型，基于给定的指令生成响应结果。一个第二服务器上可以部署一个或者多个大模型，对于待测评的多个大模型，可以部署在一个或者多个第二服务器上。

端侧设备是用户所使用的电子设备，具体可以为具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、服务器等。用户通过端侧设备向第一服务器发送大模型测评请求，该测评请求包含待测评的一个或者多个大模型的信息。

第一服务器可以是部署在云端的服务器集群、或者本地具有计算能力的设备。第一服务器负责测评大模型，生成大模型在识别安全风险、各任务能力等多个维度的测评值，并指导大模型的上线判定或更新大模型的优化版本。

在一示例场景中，在实现人机交互的大模型上线之前，用户通过端侧设备向第一服务器发送待上线的大模型的测评请求，该测评请求包含待测评的大模型的相关信息，如调用大模型的应用程序接口、大模型的访问地址等。第一服务器响应于该测评请求，获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；基于大模型的相关信息，将指令集中的指令输入大模型，通过大模型输出指令的响应结果；根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，以实现大模型的全面、准确地测评。

进一步地，对于大模型在识别安全风险维度、各任务能力维度的测评值，可以用于指导大模型的上线判定。可选地，第一服务器根据大模型在识别安全风险维度、各任务能力维度的测评值，确定大模型是否满足上线条件，并输出大模型的上线提示信息，上线提示信息指示大模型是否满足上线条件。可选地，第一服务器向端侧设备发送大模型在识别安全风险维度、各任务能力维度的测评值。端侧设备输出大模型在识别安全风险维度、各任务能力维度的测评值，以指导用户判断大模型是否满足上线条件；或者，端侧设备根据大模型在识别安全风险维度、各任务能力维度的测评值，确定大模型是否满足上线条件，并输出大模型的上线提示信息，上线提示信息指示大模型是否满足上线条件。

在另一示例场景中，在大模型迭代优化过程中，对得到的新版本进行测评。用户可以通过端侧设备向第一服务器发送新版本的大模型的测评请求，该测评请求包含新版本的大模型的相关信息，如调用大模型的应用程序接口、大模型的访问地址等。第一服务器响应于该测评请求，获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；基于新版本的大模型的相关信息，将指令集中的指令输入新版本的大模型，通过新版本的大模型输出指令的响应结果；根据指令的响应结果和指令的标注信息，确定新版本的大模型在识别安全风险维度、各任务能力维度的测评值，以实现新版本大模型的全面、准确地测评。

进一步地，对于新版本大模型在识别安全风险维度、各任务能力维度的测评值，可以用于指导大模型的优化版本的更新。可选地，第一服务器根据新版本的大模型在识别安全风险维度、各任务能力维度的测评值，以及上一版本在识别安全风险维度、各任务能力维度的测评值，对新版本及上一版本在识别安全风险维度、各任务能力维度的测评值进行比较，得到比较结果，比较结果用于指导更新大模型的优化版本。具体地，第一服务器可以向端侧设备发送比较结果。端侧设备输出不同版本的大模型在识别安全风险、各任务能力等各个维度的测评值的比较结果，以指导用户选择更优的优化版本进行大模型的迭代更新。

在另一示例场景中，用户可以基于待选的多个大模型的测评比较结果，选择更加适合自身当前任务的大模型。用户可以通过端侧设备向第一服务器发送多个大模型的测评请求，该测评请求包含多个大模型的相关信息，如调用大模型的应用程序接口、大模型的访问地址等。第一服务器响应于该测评请求，获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；基于各个大模型的相关信息，将指令集中的指令输入各个大模型，通过各个大模型输出指令的响应结果；根据各个大模型输出的指令的响应结果和指令的标注信息，确定各个大模型在识别安全风险维度、各任务能力维度的测评值，以对各个大模型进行全面、准确地测评。

进一步地，第一服务器对各个大模型在识别安全风险、各任务能力等维度的测评值进行比较，得到各个大模型在识别安全风险、各任务能力等各个维度的测评值的比较结果。第一服务器向端侧设备发送各个大模型在识别安全风险、各任务能力等各个维度的测评值的比较结果。端侧设备输出比较结果，以指导用户选择在当前任务对应的任务能力维度更优的大模型，作为自己选择使用的大模型。可选地，端侧设备可以根据用户指定的任务能力，基于各个大模型在识别安全风险、各任务能力等各个维度的测评值的比较结果，选择在指定任务能力更优的大模型，并根据所选择的大模型的相关信息，下载获取该大模型，或者，使用该大模型实现人机交互。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的基于大模型的数据处理方法流程图。本实施例的执行主体为前述系统架构中的第一服务器。如图2所示，该方法具体步骤如下：

步骤S201、获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别。

其中，指令是指人机交互过程中人类用户发出的问题。基于用户的指令人机交互系统会输出答复，也即指令的响应结果。

本实施例中，可以通过如下至少一个途径来搜集人机交互中的指令，并构建指令集：搜集一个预设的历史时期内人机交互系统中产生的用户指令，或者从网络资源上搜集在人机交互过程中指令，或者人工编写指令。在实际应用中，用户输入的指令可以为问题文本，或者包括文本、图像等多模态信息。

对于任一指令，通过对指令所覆盖的任务能力、是否具有安全风险等进行标注，生成指令的标注信息。

可选地，在获取指令的标注信息时，可以通过人工对指令所覆盖的任务能力进行标注，生成并存储指令所覆盖的任务能力的标注信息。可选地，在获取指令的标注信息时，将指令输入预训练的任务能力分类模型进行分类识别，确定指令所覆盖的至少一项任务能力，并存储指令所覆盖的任务能力的标注信息。

其中，任务能力分类模型可以通过对机器学习模型进行训练得到，任务能力分类模型的输入是用户给出的指令，输出是指令覆盖各项任务能力的概率信息。根据指令覆盖各项任务能力的概率信息，可以确定指令所覆盖的任务能力。

本实施例中，指令所覆盖的任务能力，是指大模型生成指令的响应结果所实现的任务能力。本实施例中，可以预先配置多种不同的任务能力，将各种任务能力作为大模型的响应结果的响应质量的测评维度。在标注指令时，标注出指令覆盖了哪一或哪些任务能力。例如，通用写作、文本点评、文本改写等文本生成类的任务能力，开放对话、角色扮演等闲聊对话类的任务能力，百科知识问答、医疗问答、生活建议等知识问答类的任务能力，文本分类、信息抽取、文本摘要、翻译等文本理解类的任务能力，数学解题、逻辑推理、编程等推理类的任务能力，以及多模态的任务能力等等。示例性地，基于人类的创作、理解和推理这三个大的维度的能力，可以细化配置如下表1所示的多项任务能力，表1中给出了各项任务能力的分类及定义，其中，指令无法理解指的是要求大模型要有容错能力。

表1

在实际应用中，对大模型进行安全性测评时，包括大模型识别存在安全风险的指令的能力。对于输入的指令要尽可能符合人类的价值观。指令不存在安全风险是指指令内容没有违背人类价值观的风险问题。

本实施例中，可以预先配置多种不同维度/类别的安全风险。指令是否具有安全风险的安全类别包括存在安全风险和不存在安全风险两个类别。对于指令是否具有安全风险，可以通过识别指令是否存在至少一种维度/类别的安全风险，如果指令存在至少一种维度/类别的安全风险，则确定指令存在安全风险。如果指令不存在任一种维度/类别的安全风险，则确定指令不存在安全风险。

示例性地，配置的不同维度/类别的安全风险包括但不限于：涉及各类危害社会安全的内容、涉及危害世界和平的内容、传扬非法组织信息、传播非法内容、涉及违法行为。

可选地，在获取指令的标注信息时，可以通过人工对指令是否具有安全风险等进行标注，生成并存储指令是否存在安全风险的标注信息。可选地，在获取指令的标注信息时，将指令输入预训练的安全风险识别模型进行分类识别，确定指令的安全类别，安全类别指示指令是否具有安全风险，并存储指令是否存在安全风险的标注信息。

其中，安全风险识别模型可以通过对机器学习模型进行训练得到，安全风险识别模型的输入是用户给出的指令，输出是指令是否具有安全风险的概率信息。根据指令是否具有安全风险的概率信息，可以确定指令是否具有安全风险。另外，安全风险识别模型还可以确定指令所具有的安全风险的维度/类别。

在一可选实施方式中，在对指令进行标注时，若确定指令存在安全风险，则可以仅标注指令存在安全风险，不再进行如所覆盖的任务能力等其他维度的标注。

可选的在实际应用中，为了保证基于指令集对大模型的测评结果的可靠性，可以设定指令集中各维度的指令的最少数量。例如，设定覆盖任意任务能力的指令的最少数量，设定具有任意一类安全风险的指令的最少数量等。

步骤S202、将指令输入实现人机交互的大模型，通过大模型输出指令的响应结果。

本实施例中，待测评的大模型可以为各类语言模型、多模态预训练模型等，此处不做具体限定。

可选地，第一服务器可以获取大模型的应用程序接口/大模型服务接口，通过调用大模型的应用程序接口/大模型服务接口，将指令输入大模型，并接收大模型输出的指令的响应结果。

可选地，第一服务器可以获取大模型的访问地址信息，第一服务器向大模型所在的第二服务器发送指令执行请求，该请求包含待执行的指令。第二服务器响应于指令执行请求，将指令输入大模型，获取到大模型输出的指令的响应结果，并将指令的响应结果发送至第一服务器。

步骤S203、根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值。

本实施例中，指令的响应结果体现了大模型在识别安全风险维度的强弱，以及大模型执行指令所覆盖的任务能力的强弱。

在获取到指令集中各指令的响应结果之后，第一服务器基于指令的响应结果，对大模型在识别该指令对应的安全风险、在实现指令所覆盖的任务能力时的响应质量等维度进行测评，得到大模型在执行各指令时在识别安全风险、响应质量的测评值。进一步地，基于指令集中各指令的标注信息，根据同一测评维度的多个指令的测评值，计算确定大模型在该测评维度的测评值，可以得到大模型在识别安全风险维度、各任务能力维度的测评值。

示例性地，对于任一任务能力，基于指令集中各指令的标注信息，可以确定覆盖该任务能力的多条指令，基于大模型执行这多条指令的响应结果的响应质量的测评值，综合计算大模型在实现该任务能力时的测评值。

示例性地，对于任一类安全风险，基于指令集中各指令的标注信息，可以确定具有该类安全风险的多条指令，基于大模型执行这多条指令时识别安全风险的测评值，综合计算大模型在实现该类安全风险的测评值。

步骤S204、输出大模型在识别安全风险维度、各任务能力维度的测评值，测评值用于指导大模型的上线判定或更新大模型的优化版本。

本实施例中，第一服务器在得到大模型在识别安全风险维度、各任务能力维度的测评值之后，将大模型在识别安全风险维度、各任务能力维度的测评值进行可视化输出，以向用户输出测评结果，该测评结果可以指导用户做出大模型是否上线的判定、或者将哪个版本的大模型作为优质模型进行大模型的迭代优化、或者选择哪个大模型作为执行特定任务的目标大模型。

本实施例通过获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将指令输入实现人机交互的大模型，通过大模型输出指令的响应结果；根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，可从识别安全风险、各任务能力等多个维度对大模型进行测评，从而能够准确全面地测评大模型表现的优劣，并输出大模型在识别安全风险维度、各任务能力维度的测评值，测评值用于指导大模型的上线判定或更新大模型的优化版本，可以在大模型迭代中准确地选择优质模型，提升迭代更新得到的大模型的质量，提升上线模型的质量，从而提升基于大模型的人机对话的准确性，保证人机对话质量。

在一可选实施例中，前述步骤S203中，根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，具体可以采用如下方式实现：

根据指令的响应结果和指令的安全类别，计算大模型在识别安全风险维度的第一测评值；在大模型的第一测评值满足安全测评条件的情况下，获取指令的响应结果的质量测评值，根据指令所覆盖的任务能力，以及指令的响应结果的质量测评值，计算大模型在处理各任务能力的指令时的第二测评值，得到大模型在各任务能力维度的第二测评值。

具体地，在实现根据指令的响应结果和指令的安全类别，计算大模型在识别安全风险维度的第一测评值时，第一服务器根据指令的响应结果，识别大模型是否对指令做出了拒绝响应的处理；如果大模型对指令做出了拒绝响应的处理，说明大模型对指令的安全风险识别结果为存在安全风险；如果大模型未对指令做出拒绝响应的处理，而是给出了答复信息，说明大模型对指令的安全风险识别结果为不存在安全风险。根据大模型对指令的安全风险识别结果，以及指令是否存在安全风险的标注信息，确定大模型在对该指令的安全风险识别结果的测评值。

示例性地，若大模型对指令的安全风险识别结果与指令是否存在安全风险的标注信息一致，则将大模型在对该指令的安全风险识别结果的测评值置为第一分值。若大模型对指令的安全风险识别结果与指令是否存在安全风险的标注信息不一致，则将大模型在对该指令的安全风险识别结果的测评值置为第二分值。例如，第一分值为1，第二分值为0。其中，第二分值通常为0，第一分值还可以设置为一个较大值，第一分值大于第二分值。测评值越大表示大模型识别安全风险的能力越高。例如，第一分值可以设置为2、5、10等，以增加安全风险识别的重要程度。第一分值和第二分值可以根据经验值进行配置，也可以开放给用户设置。

可选地，大模型对指令的安全风险识别结果为不存在安全风险时，响应结果中可以包含指令存在的安全风险的类别信息。根据响应结果中的安全风险类别信息，以及标注信息中指令对应的安全风险类别，若大模型正确识别出指令存在的安全风险类别，将大模型在对该指令的安全风险识别结果的测评值置为第三分值，其中，第三分值大于第一分值。第三分值可以根据经验值进行配置，也可以开放给用户设置。

进一步地，可选地，通过计算大模型对各个指令的安全风险识别结果的测评值的平均值，作为大模型在安全风险识别维度的第一测评值。可选地，对于任一安全风险类别的多个指令，计算大模型对同一安全风险类别的多个指令的安全风险识别结果的测评值的平均值，作为大模型在该类别的安全风险识别维度的测评值。根据各个安全风险类别的权重系数，计算大模型在各个类别的安全风险识别维度的测评值的加权平均值，作为大模型在安全风险识别维度的第一测评值。其中，各个安全风险类别的权重系数可以根据经验值进行配置，也可以开放给用户根据自己注重的安全风险类别进行设置。

本实施例中，在得到大模型的第一测评值之后，根据预先配置的安全测评条件，确定大模型的第一测评值是否满足安全测评条件。其中，安全测评条件可以设置大模型的第一测评值的第一阈值，当大模型的第一测评值大于或等于第一阈值时，满足安全测评条件；否则不满足安全测评条件。其中，第一阈值可以根据经验值进行配置，也可以开放给用户进行设置。

在大模型的第一测评值满足安全测评条件的情况下，第一服务器继续测评大模型在各项任务能力维度的第二测评值。具体地，第一服务器获取指令的响应结果的响应质量的质量测评值，根据指令所覆盖的任务能力，以及指令的响应结果的质量测评值，计算大模型执行覆盖同一项任务能力的多条指令的响应结果的质量测评值的平均值，作为大模型在该项任务能力维度的第二测评值，由此可以得到大模型在各任务能力维度的第二测评值。

在另一可选实施例中，前述步骤S203中，根据指令的响应结果和指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值，具体还可以采用如下方式实现：

根据指令的响应结果和指令的安全类别，计算大模型在识别安全风险维度的第一测评值；并且，根据指令所覆盖的任务能力，以及指令的响应结果的质量测评值，计算大模型在处理各任务能力的指令时的第二测评值，得到大模型在各任务能力维度的第二测评值。

本实施例中，不管大模型的第一测评值是否满足安全测评条件，第一服务器均会测评大模型在各项任务能力维度的第二测评值。计算大模型的第一测评值与计算大模型在各项任务能力维度的第二测评值，可以并行地进行也可以按照任意顺序先后执行，此处不做具体限定。另外，本实施例中，计算大模型在识别安全风险维度的第一测评值的具体实现方式与前述实施例中的实现方式相同，此处不再赘述。测评大模型在各项任务能力维度的第二测评值，具体参见前述实施例中在大模型的第一测评值满足安全测评条件的情况下，第一服务器测评大模型在各项任务能力维度的第二测评值的实现过程，此处不再赘述。

在前述任一方法实施例的基础上，在一可选实施例中，指令的标注信息还可以包括：指令所属的行业。在通过大模型输出指令的响应结果之后，第一服务器根据指令的响应结果和指令所属的行业，确定大模型在各行业维度的测评值；和/或，第一服务器根据指令的响应结果和指令所属的行业，确定大模型在各行业与各任务能力的组合维度的测评值。

可选地，在获取指令所属行业的标注信息时，可以通过人工对指令所属行业进行标注，并存储指令所属行业的标注信息。可选地，在获取指令所属行业的标注信息时，将指令输入预训练的行业分类模型进行分类识别，确定指令所属的行业。

其中，行业分类模型可以通过对机器学习模型进行训练得到，行业分类模型的输入是用户给出的指令，输出是指令属于各行业的概率信息。根据指令属于各行业的概率信息，可以确定指令所属的行业。

示例性地，基于国民经济行业分类划分，降低行业划分的专业度，融合大众对行业划分的普遍理解进行行业的划分。表2给出了一种行业划分的示例，表2中给出了各行业的说明。

表2

其中，表2中的行业的划分仅为一种示例，在其他实施例中还可以采用其他行业划分方式。例如，表2中的“教育培训”行业还可以细分为“基础教育培训”、“留学相关教育培训”两个细分行业。

在一可选实施方式中，在对指令进行标注时，若确定指令存在安全风险，则可以仅标注指令存在安全风险，不再进行如所覆盖的任务能力、所属行业等其他维度的标注。示例性地，基于表1所示的任务能力，表2示出的行业，表3给出了指令及标注信息的几个示例：

表3

进一步地，可选地，根据指令的响应结果和指令所属的行业，确定大模型在各行业维度的测评值，具体可以采用如下方式实现：根据指令所属的行业，以及指令的响应结果的质量测评值，计算大模型在处理各行业的指令时的第三测评值，得到大模型在各行业维度的第三测评值。

具体地，第一服务器获取指令的响应结果的响应质量的质量测评值，根据指令所属的行业，以及指令的响应结果的质量测评值，计算大模型执行属于同一行业的多条指令的响应结果的质量测评值的平均值，作为大模型在处理该行业的指令时的第三测评值，也即大模型在该行业维度的第三测评值，由此可以得到大模型在各个行业维度的第三测评值。

进一步地，可选地，根据指令的响应结果和指令所属的行业，确定大模型在各行业与各任务能力的组合维度的测评值，具体还可以采用如下方式实现：根据指令所属的行业和所覆盖的任务能力，以及指令的响应结果的质量测评值，计算大模型在处理任意行业下各任务能力的指令时的第四测评值，得到大模型在各行业与各任务能力的组合维度的第四测评值。

具体地，第一服务器获取指令的响应结果的响应质量的质量测评值，根据指令所属的行业和所覆盖的任务能力，以及指令的响应结果的质量测评值，根据行业和任务能力的组合维度对指令集中指令进行分组，每个分组对应一个行业和一个任务能力，同一组中的指令属于对应行业且覆盖对应的任务能力。按照分组，计算同一分组中指令的响应结果的质量测评值的平均值，作为大模型在处理对应行业下对应任务能力的指令时的第四测评值，也即大模型在该分组对应行业与对应任务能力的组合维度的第四测评值，由此可以得到大模型在各行业与各任务能力的组合维度的第四测评值。通过第四测评值，可以对大模型进行更全面更准确地测评。

在前述任一方法实施例的基础上，在一可选实施例中，将指令输入实现人机交互的大模型，通过大模型输出指令的响应结果之后，可以通过如下方式获取指令的响应结果的质量测评值：

第一种方式：在交互界面上输出指令的响应结果，接收在交互界面输入的对指令的响应结果的质量测评值。在第一种方式中，第一服务器可以提供交互界面，交互界面中显示指令的响应结果，并隐藏指令的响应结果来自于哪个大模型。交互界面中提供输入响应结果的质量测评值的输入区域。

示例性地，第一服务器通过端侧设备上运行的客户端设备显示交互界面。用户可以在交互界面中对指令的响应结果的响应质量进行打分，作为响应结果的质量测评值提交到端侧设备，端侧设备指令的响应结果的质量测评值发送至第一服务器。

通过第一种方式，用户在未知指令的响应结果来自于哪个大模型的情况下，对指令的响应结果的响应质量进行人工标注，第一服务器获取经人工标注的响应结果的质量测评值。

第二种方式：将指令的响应结果输入预训练的响应质量测评模型进行响应质量测评，得到指令的响应结果的质量测评值。在第二种方式中，通过预训练的响应质量测评模型，自动对指令的响应结果的响应质量进行测评，得到指令的响应结果的质量测评值，可以提升响应结果测评的效率和客观性。其中，响应质量测评模型可以使用预先标注好质量测评值的响应结果和指令，对机器学习模型训练得到，能够较精准地对指令的响应结果的响应质量进行测评。

在一可选实施例中，基于前述任一方法实施例测评得到的大模型在识别安全风险维度、各任务能力维度的测评值，可以应用于指导大模型的上线判定，这一过程可以由第一服务器或者端侧设备执行，此处不做具体限定。

具体地，根据大模型在识别安全风险维度、各任务能力维度的测评值，以及识别安全风险维度、各任务能力维度对应的权重系数，计算大模型的综合测评值；根据大模型的综合测评值，确定大模型是否满足上线条件；输出大模型的上线提示信息，上线提示信息指示大模型是否满足上线条件。

本实施例中，支持用户自定义配置识别安全风险维度、各任务能力维度对应的权重系数。具体地，显示识别安全风险维度、各任务能力维度的权重配置界面；获取在权重配置界面上配置的识别安全风险维度、各任务能力维度的权重系数。

另外，上线条件包括大模型的综合测评值的第二阈值，若大模型的综合测评值大于或等于第二阈值时，则大模型满足上线条件，否则，大模型不满足上线条件。上线条件中的第二阈值可以由用户根据具体应用场景的需要进行自定义配置。

示例性地，图3为本申请实施例提供的大模型上线判定的方法流程图。如图3所示，方法的具体步骤如下：

步骤S301、端侧设备向第一服务器发送对待上线的大模型的测评请求。

其中，待上线的大模型可以是预训练的语言模型、多模态预训练模型等，具体应用于自然语言处理（NLP）、计算机视觉等领域，具体可以应用于如视觉问答（VQA）、图像描述（IC）、视觉蕴涵（VE）、指代表达与理解（REC）等NLP与计算机视觉交叉领域的任务，以及基于文本的情感分类任务和文本摘要任务等自然语言处理领域的任务，可以应用于数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等各应用场景。

步骤S302、第一服务器接收端侧设备发送的对待上线的大模型的测评请求。

步骤S303、第一服务器获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别。

该步骤的具体实现方式与前述步骤S201的实现方式相同，具体参见前述实施例中的相关内容，此处不再赘述。

步骤S304、第一服务器将指令输入待上线的大模型，获取大模型输出的指令的响应结果。

该步骤的具体实现方式与前述步骤S202的实现方式类似，该步骤S304中待测评的大模型是用户指定的待上线的大模型，具体实现方式参见前述实施例中的相关内容，此处不再赘述。

步骤S305、第一服务器根据大模型输出的指令的响应结果，以及指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值。

该步骤的具体实现方式与前述步骤S203的实现方式相同，具体参见前述实施例中的相关内容，此处不再赘述。

步骤S306、第一服务器根据大模型在识别安全风险维度、各任务能力维度的测评值，判断大模型是否满足上线条件。

具体地，根据大模型在识别安全风险维度、各任务能力维度的测评值，以及识别安全风险维度、各任务能力维度对应的权重系数，计算大模型的综合测评值；根据大模型的综合测评值，确定大模型是否满足上线条件。

步骤S307、第一服务器向端侧设备发送大模型是否满足上线条件的判断结果。

其中，大模型是否满足上线条件的判断结果包括满足上线条件、不满足上线条件中的一种。

步骤S308、端侧设备输出大模型是否满足上线条件的判断结果。

本实施例中，以第一服务器判断大模型是否满足上线条件为例进行示例性地说明，另外，在另一可选实施例中，在步骤S305之后，第一服务器可以将大模型在识别安全风险维度、各任务能力维度的测评值发送至端侧设备。端侧设备执行步骤S306和S308，根据大模型在识别安全风险维度、各任务能力维度的测评值，判断大模型是否满足上线条件，并输出大模型是否满足上线条件的判断结果。

在另一可选实施例中，在步骤S305之后，第一服务器可以根据大模型在识别安全风险维度、各任务能力维度的测评值，以及识别安全风险维度、各任务能力维度对应的权重系数，计算大模型的综合测评值。进一步地，第一服务器将大模型的综合测评值发送至端侧设备。端侧设备根据大模型的综合测评值确定大模型是否满足上线条件，并输出大模型是否满足上线条件的判断结果。

本实施例中，在大模型上线之前，通过端侧设备向第一服务器发送对待上线的大模型的测评请求，第一服务器响应于测评请求，获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将指令输入待上线的大模型，获取大模型输出的指令的响应结果，根据大模型输出的指令的响应结果，以及指令的标注信息，确定大模型在识别安全风险维度、各任务能力维度的测评值。进一步地，基于大模型在识别安全风险维度、各任务能力维度的测评值和配置的上线条件，可以自动做出大模型是否满足上线条件的判断，并输出大模型是否满足上线条件的判断结果，以提供是否将大模型上线的参考依据，可避免将质量不过关的大模型上线，提升上线大模型的质量，从而提升基于大模型进行人机交互的质量。

在一可选实施例中，基于前述任一方法实施例测评得到的大模型在识别安全风险、各任务能力、各行业等维度的测评值，可以应用于指导更新大模型的优化版本，或者选择适合当前任务的目标大模型。示例性地，对于迭代产生的大模型的不同版本，基于前述任一方法实施例测评得到的大模型在识别安全风险、各任务能力、各行业等维度的测评值，并存储各版本的大模型在识别安全风险、各任务能力、各行业等维度的测评值。

进一步地，根据新版本的大模型在识别安全风险维度、各任务能力维度的测评值，以及大模型的上一版本的在识别安全风险维度、各任务能力维度的测评值，对新版本的大模型及上一版本在识别安全风险维度、各任务能力维度的测评值进行比较，并输出第一比较结果，第一比较结果用于指导更新大模型的优化版本。

示例性地，图4为本申请实施例提供的大模型的优化版本更新的方法流程图。如图4所示，方法的具体步骤如下：

步骤S401、端侧设备向服务器发送对新版本的大模型的测评请求。

其中，新版本的大模型可以是预训练的语言模型、多模态预训练模型等，具体应用于自然语言处理（NLP）、计算机视觉等领域，具体可以应用于如视觉问答（VQA）、图像描述（IC）、视觉蕴涵（VE）、指代表达与理解（REC）等NLP与计算机视觉交叉领域的任务，以及基于文本的情感分类任务和文本摘要任务等自然语言处理领域的任务，可以应用于数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等各应用场景。

步骤S402、第一服务器接收端侧设备发送的对新版本的大模型的测评请求。

步骤S403、第一服务器获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别。

步骤S404、第一服务器将指令输入新版本的大模型，获取新版本的大模型输出的指令的响应结果。

该步骤的具体实现方式与前述步骤S202的实现方式类似，该步骤S304中待测评的大模型是用户指定的新版本的大模型，具体实现方式参见前述实施例中的相关内容，此处不再赘述。

步骤S405、第一服务器根据新版本的大模型输出的指令的响应结果，以及指令的标注信息，确定新版本的大模型在识别安全风险维度、各任务能力维度的测评值。

步骤S406、第一服务器将新版本的大模型在识别安全风险维度、各任务能力维度的测评值发送至端侧设备。

本实施例中，第一服务器负责测评给定版本的大模型在识别安全风险维度、各任务能力维度的测评值，并将测评结果发送至端侧设备。

步骤S407、端侧设备接收新版本的大模型在识别安全风险维度、各任务能力维度的测评值。

本实施例中，端侧设备可以存储各个版本的大模型在识别安全风险维度、各任务能力维度的测评值，以便于与新版本的大模型的测评结果进行比较。

步骤S408、端侧设备将新版本的大模型与至少一个旧版本在识别安全风险维度、各任务能力维度的测评值进行比较，得到多个不同版本大模型的比较结果。

本实施例中，端侧设备可以分别针对各个不同测评维度对不同版本的大模型的测评值进行比较，以确定在各测评维度上不同版本的大模型的优劣，从而使得相关技术人员可以基于比较结果，非常容易地得出新版本的大模型在哪些测评维度的能力得到了提升，哪些测评维度的能力反而下降了。另外，用户还可以通过端侧设备指定自己关注的一个或者多个测评维度（包括安全风险识别、各任务能力等），端侧设备突出显示用户指定的测评维度上不同版本大模型的测评值的比较结果，或者，端侧设备仅在用户指定的测评维度上对不同版本大模型的测评值进行比较。可选地，与新版本进行比较的至少一个旧版本可以由用户进行指定，或者默认与上一个版本进行比较，或者可以默认设置与前若干个版本进行比较，此处不做具体限定。

步骤S409、端侧设备输出比较结果。

端侧设备可以可视化地输出比较结果，并对用户指定的重点关注的测评维度进行突出显示，并对能力提升和下降的维度进行区分显示，以指导用户选择质量较优的版本作为大模型的优化版本，更新大模型的优化版本。

本实施例中，以端侧设备存储多个不同版本的大模型的测评结果，执行不同版本大模型的测评结果的比较为例，进行示例性地说明，另外，在另一可选实施例中，第一服务器可以存储各个版本的大模型的测评结果，在步骤S405之后，第一服务器将新版本的大模型与至少一个旧版本在识别安全风险维度、各任务能力维度的测评值进行比较，得到多个不同版本大模型的比较结果，并将比较结果发送至端侧设备。端侧设备输出比较结果。另外，端侧设备/第一服务器还可以基于比较结果，从比较的多个不同版本的大模型中，选择质量较优的大模型，作为优化版本推荐给用户。

本实施例中，在大模型迭代过程中，通过第一服务器获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将指令输入多个不同版本的大模型，获取各个版本的大模型输出的指令的响应结果，根据各版本的大模型输出的指令的响应结果，以及指令的标注信息，确定各版本的大模型在识别安全风险维度、各任务能力维度的测评值。进一步地，对多个不同版本的大模型在识别安全风险维度、各任务能力维度的测评值进行比较，并输出比较结果，以提供选择优质大模型的参考依据，可提升大模型迭代优化的质量，从而提升基于大模型进行人机交互的质量。

在一可选实施例中，前述任一方法实施例中，待测评的大模型可以包括多个大模型，通过对多个大模型采用统一的测评方法分别进行测评，得到的各个大模型在识别安全风险、各任务能力、各行业等维度的测评值，进一步对各个大模型的测评结果进行比较，比较结果可以应用于指导用户选择适合当前任务的目标大模型。

示例性地，根据多个大模型在识别安全风险维度、各任务能力维度的测评值，对多个大模型在识别安全风险维度、各任务能力维度的测评值进行比较，并输出第二比较结果，第二比较结果用于指导从多个大模型中选择适合当前任务的目标大模型。

示例性地，根据多个大模型在识别安全风险维度、各任务能力维度、各行业维度的测评值，对多个大模型在识别安全风险维度、各任务能力维度、各行业维度的测评值进行比较，并输出第三比较结果，第三比较结果用于指导从多个大模型中选择适合指定行业的当前任务的目标大模型。

图5为本申请一示例性实施例提供的基于给定任务选择大模型的方法流程图。本实施例中，以大模型可以为语言模型为例，具体可以应用于需要对多个语言模型进行对比测评的应用场景中，例如对于多个不同版本的语言模型的迭代更新、或者从给定多个不同的语言模型中选择适合用户给定任务能力的语言模型等。

需要说明的是，本实施例中以大模型可以为语言模型为例，对基于给定任务选择大模型的交互流程进行示例性地说明，在另一实施例中，待选择的大模型还可以是多模态预训练模型，将语言模型替换为多模态预训练模型，可以用于基于给定多模态任务选择多模态预训练模型。

如图5所示，本实施例中第一服务器与端侧设备的交互流程如下：

步骤S501、端侧设备向服务器发送对指定的多个语言模型的对比测评请求。

步骤S502、第一服务器接收端侧设备发送的多个语言模型的对比测评请求。

步骤S503、第一服务器获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别。

步骤S504、第一服务器将指令分别输入各语言模型，获取各语言模型输出的指令的响应结果。

该步骤的具体实现方式与前述步骤S202的实现方式类似，该步骤S304中待测评的大模型包括用户指定的多个大模型，具体实现方式参见前述实施例中的相关内容，此处不再赘述。

步骤S505、第一服务器根据任一语言模型输出的指令的响应结果，以及指令的标注信息，确定语言模型在识别安全风险维度、各任务能力维度的测评值。

步骤S506、第一服务器对各语言模型在识别安全风险维度、各任务能力维度的测评值进行比较，并向端侧设备输出比较结果。

本实施例中，第一服务器可以分别针对各个不同测评维度对多个大模型的测评值进行比较，以确定在各测评维度上不同大模型的优劣，从而使得相关技术人员可以基于比较结果，非常容易地从多个大模型中筛选出适合当前任务的优质大模型。另外，用户还可以通过端侧设备指定当前任务对应的任务能力，第一服务器可以根据当前任务对应的任务能力，基于在该任务能力维度对多个大模型的测评值的比较结果，向用户推荐适合当前任务的优质大模型。

步骤S507、端侧设备接收服务器发送的比较结果。

步骤S508、端侧设备输出比较结果。

端侧设备可以可视化地输出比较结果，并对用户指定的重点关注的测评维度（如任务能力维度）进行突出显示，并对能力提升和下降的维度进行区分显示，以指导用户选择适合当前任务的优质大模型。

在一可选实施例中，对比测评请求还可以包括用户指定的当前任务覆盖的任务能力。在步骤S506中，第一服务器对各语言模型在用户指定的当前任务覆盖的任务能力的维度进行测评值比较，并向端侧设备输出比较结果。

在一可选实施例中，在步骤S505第一服务器确定语言模型在识别安全风险维度、各任务能力维度的测评值之后，第一服务器可以将多个语言模型在识别安全风险维度、各任务能力维度的测评值发送至端侧设备。端侧设备根据用户指定的当前任务覆盖的任务能力，对各语言模型在用户指定的当前任务覆盖的任务能力的维度进行测评值比较，并向端侧设备输出比较结果。可选地，端侧设备还可以根据比较结果，输出适合当前任务的大模型的信息，以向用户推荐适合当前任务的优质大模型。

本实施例中，对于多个大模型，通过第一服务器获取人机交互的指令集和指令集中指令的标注信息，指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；将指令输入各个大模型，获取各个大模型输出的指令的响应结果，根据各个大模型输出的指令的响应结果，以及指令的标注信息，确定各个大模型在识别安全风险维度、各任务能力维度的测评值。进一步地，对多个大模型在当前任务覆盖的任务能力维度的测评值进行比较，并输出比较结果，以提供选择适合当前任务的优质大模型的参考依据，可提升当前任务的执行质量。

图6为本申请实施例提供的一种服务器的结构示意图。如图6所示，该服务器包括：存储器601和处理器602。存储器601，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在服务器上的操作。处理器602，与存储器601通信连接，用于执行存储器601存储的计算机执行指令，以实现上述任一方法实施例中第一服务器所执行的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。可选的，如图6所示，该服务器还包括：防火墙603、负载均衡器604、通信组件605、电源组件606等其它组件。图6中仅示意性给出部分组件，并不意味着服务器只包括图6所示组件。

本申请实施例还提供一种端侧设备，该端侧设备包括：存储器和处理器。存储器用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在端侧设备上的操作。处理器与存储器通信连接，用于执行存储器存储的计算机执行指令，以实现上述任一方法实施例中端侧设备所执行的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例中第一服务器所执行的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例中端侧设备所执行的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，端侧设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得端侧设备执行上述任一方法实施例中端侧设备所执行的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中第一服务器或端侧设备的技术方案。可选的，该芯片还包括存储模块（如，存储器），存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例中第一服务器或端侧设备所执行的技术方案。上述存储器可以是对象存储(Object Storage Service，OSS)。上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点（WiFi），第二代移动通信系统（2G）、第三代移动通信系统（3G）、第四代移动通信系统（4G）/长期演进（LTE）、第五代移动通信系统（5G）等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、只读光盘存储器（CD-ROM）、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户属性信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。 “多个”的含义是两个以上，除非另有明确具体的限定。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种基于大模型的数据处理方法，其特征在于，包括：

获取人机交互的指令集和所述指令集中指令的标注信息，所述指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别；

将所述指令输入实现人机交互的大模型，通过所述大模型输出所述指令的响应结果；

根据所述指令的响应结果和所述指令的安全类别，确定所述大模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值；

输出所述大模型在识别安全风险维度、各任务能力维度的测评值，所述测评值用于指导所述大模型的上线判定或更新所述大模型的优化版本。

2.根据权利要求1所述的方法，其特征在于，所述指令的标注信息还包括：指令所属的行业，

所述通过所述大模型输出所述指令的响应结果之后，还包括：

根据所述指令的响应结果和所述指令所属的行业，确定所述大模型在各行业维度的测评值；

和/或，

根据所述指令的响应结果和所述指令所属的行业，确定所述大模型在各所述行业与各所述任务能力的组合维度的测评值。

3.根据权利要求1所述的方法，其特征在于，所述根据所述指令的响应结果和所述指令的安全类别，确定所述大模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值，包括：

根据所述指令的响应结果和所述指令的安全类别，计算所述大模型在识别安全风险维度的第一测评值；

在所述大模型的所述第一测评值满足安全测评条件的情况下，获取所述指令的响应结果的质量测评值，根据所述指令所覆盖的任务能力，以及所述指令的响应结果的质量测评值，计算所述大模型在处理各所述任务能力的指令时的第二测评值，得到所述大模型在各任务能力维度的第二测评值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述指令的响应结果和所述指令的安全类别，确定所述大模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值，包括：

根据所述指令的响应结果和所述指令的安全类别，计算所述大模型在识别安全风险维度的第一测评值；并根据所述指令所覆盖的任务能力，以及所述指令的响应结果的质量测评值，计算所述大模型在处理各所述任务能力的指令时的第二测评值，得到所述大模型在各任务能力维度的第二测评值。

5.根据权利要求2所述的方法，其特征在于，所述根据所述指令的响应结果和所述指令所属的行业，确定所述大模型在各所述行业维度的测评值，包括：

根据所述指令所属的行业，以及所述指令的响应结果的质量测评值，计算所述大模型在处理各所述行业的指令时的第三测评值，得到所述大模型在各所述行业维度的第三测评值。

6.根据权利要求2所述的方法，其特征在于，所述根据所述指令的响应结果和所述指令所属的行业，确定所述大模型在各所述行业与各所述任务能力的组合维度的测评值，包括：

根据所述指令所属的行业和所覆盖的任务能力，以及所述指令的响应结果的质量测评值，计算所述大模型在处理任意所述行业下各所述任务能力的指令时的第四测评值，得到所述大模型在各所述行业与各所述任务能力的组合维度的第四测评值。

7.根据权利要求3-6中任一项所述的方法，其特征在于，所述将所述指令输入实现人机交互的大模型，通过所述大模型输出所述指令的响应结果之后，还包括：

在交互界面上输出所述指令的响应结果，接收在所述交互界面输入的对所述指令的响应结果的质量测评值；

或者，

将所述指令的响应结果输入预训练的响应质量测评模型进行响应质量测评，得到所述指令的响应结果的质量测评值。

8.根据权利要求1-6中任一项所述的方法，其特征在于，所述获取所述指令集中指令的标注信息，包括：

将所述指令输入预训练的任务能力分类模型进行分类识别，确定所述指令所覆盖的至少一项任务能力；

将所述指令输入预训练的安全风险识别模型进行分类识别，确定所述指令的安全类别，所述安全类别指示所述指令是否具有安全风险。

9.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据所述指令的响应结果和所述指令的安全类别，确定所述大模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值之后，还包括：

根据所述大模型在识别安全风险维度、各任务能力维度的测评值，以及所述识别安全风险维度、各任务能力维度对应的权重系数，计算所述大模型的综合测评值；

根据所述大模型的综合测评值，确定所述大模型是否满足上线条件；

输出所述大模型的上线提示信息，所述上线提示信息指示所述大模型是否满足上线条件。

10.根据权利要求9所述的方法，其特征在于，还包括：

显示所述识别安全风险维度、各任务能力维度的权重配置界面；

获取在所述权重配置界面上配置的所述识别安全风险维度、各任务能力维度的权重系数。

11.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据所述指令的响应结果和所述指令的安全类别，确定所述大模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值之后，还包括：

根据所述大模型在识别安全风险维度、各任务能力维度的测评值，以及所述大模型的上一版本的在识别安全风险维度、各任务能力维度的测评值，对所述大模型及上一版本在识别安全风险维度、各任务能力维度的测评值进行比较，并输出比较结果，所述比较结果用于指导更新所述大模型的优化版本。

12.一种基于大模型的数据处理方法，其特征在于，所述大模型为语言模型，所述方法包括：

接收端侧设备发送的多个语言模型的对比测评请求；

将所述指令分别输入各所述语言模型，获取各所述语言模型输出的所述指令的响应结果；

根据任一所述语言模型输出的所述指令的响应结果，以及所述指令的安全类别，确定所述语言模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值；

对各所述语言模型在识别安全风险维度、各任务能力维度的测评值进行比较，并向所述端侧设备输出比较结果。

13.一种基于大模型的数据处理方法，其特征在于，所述大模型为语言模型，所述方法包括：

向服务器发送对指定的多个语言模型的对比测评请求；

接收所述服务器发送的比较结果，所述比较结果是通过获取人机交互的指令集和所述指令集中指令的标注信息，所述指令的标注信息包括指令所覆盖的至少一项任务能力、以及指令是否具有安全风险的安全类别，将所述指令分别输入各所述语言模型，获取各所述语言模型输出的所述指令的响应结果，根据任一所述语言模型输出的所述指令的响应结果，以及所述指令的安全类别，确定所述语言模型在识别安全风险维度的测评值，根据所述指令的响应结果的响应质量的测评值和所述指令所覆盖的任务能力，确定大模型在各任务能力维度的测评值，对各所述语言模型在识别安全风险维度、各任务能力维度的测评值进行比较得到的；

输出所述比较结果。

14.一种服务器，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-12中任一项所述的方法。