CN114911655A - 一种自检方法和服务器 - Google Patents

一种自检方法和服务器 Download PDF

Info

Publication number
CN114911655A
CN114911655A CN202210283839.5A CN202210283839A CN114911655A CN 114911655 A CN114911655 A CN 114911655A CN 202210283839 A CN202210283839 A CN 202210283839A CN 114911655 A CN114911655 A CN 114911655A
Authority
CN
China
Prior art keywords
self
server
partition
checking
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210283839.5A
Other languages
English (en)
Inventor
廖德甫
张德
朱春燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202210283839.5A priority Critical patent/CN114911655A/zh
Publication of CN114911655A publication Critical patent/CN114911655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请实施例公开了自检方法和服务器,用于解决服务器中部分硬件资源故障不感知的问题,避免服务器带隐患或故障工作。本申请实施例方法包括:服务器响应于接收到的自检指令,服务器对所述服务器的待自检资源进行物理分区,得到自检分区;所述服务器对所述自检分区上电,对所述自检分区进行自检。

Description

一种自检方法和服务器
本申请是分案申请,原申请的申请号是201711381216.7,原申请日是2017年12月19日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机领域,尤其涉及一种自检方法和服务器。
背景技术
物理分区也称硬分区,是指通过硬件模块化设计及系统灵活配置能力,将单台服务器系统从物理上划分为多个分区,每个分区拥有自己专用的硬件资源,这些硬件资源之间电气隔离,互不影响。在服务器计划性下电或者检查时,服务器上的硬件资源需要进行自检,以提前排除故障。如图1所示,目前,如果服务器只划分了分区1和分区2,服务器未划分到分区1和分区2的硬件资源,处于闲置状态,服务器不会对这部分处于空闲状态的硬件资源进行自检。此外,如图1中分区1中的硬件资源,即使已经划分到了分区1中,若分区1配置的策略为服务器启动时该分区不上电,服务器也不会对分区1中的硬件资源进行自检。上述情况下,服务器无法对全部硬件资源进行自检。
发明内容
本申请实施例提供了一种自检方法和服务器,用于解决服务器中部分硬件资源故障不感知的问题,避免服务器的隐患或故障工作。
本申请实施例第一方面提供了一种自检方法,包括:
服务器响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,以得到自检分区。在得到自检分区后,该服务器对该自检分区上电,对该自检分区进行自检。本申请实施例中,服务器上挂载的所有硬件资源在自检过程中都能被检测到,解决了部分硬件资源故障不感知的问题,确保了服务器中的硬件均不存在问题,避免了服务器的隐患或故障工作。
在一种可能的设计中,在本申请实施例第一方面的第一种实现方式中,该待自检资源可包括该服务器的第一硬件资源。其中该第一硬件资源为收到该自检指令之前,已被划分为历史物理分区但未上电的硬件资源。本实现方式中,追加了待自检资源还可以为服务器中历史物理分区但是未上电的资源,增加了本申请的可应用场景。
在一种可能的设计中,在本申请实施例第一方面的第二种实现方式中,该服务器响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,得到该自检分区,具体包括:该服务器删除该第一硬件资源的历史物理分区,删除该第一硬件资源的历史物理分区后,服务器对删除了历史物理分区的第一硬件资源重新进行物理分区,来得到该自检分区。本实现方式中,细化了当待自检资源包括第一硬件资源时,具体的物理分区方式,使得本申请实施例更加具有可操作性。
在一种可能的设计中,在本申请实施例第一方面的第三种实现方式中,该服务器响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,得到自检分区之前,还包括:该服务器接收分区信息,该分区信息包含硬件设备的信息。该服务器查询该硬件设备在挂靠关系树中的位置,该服务器进而可以根据该位置确定该待自检资源。本实现方式中,说明了一种可能的确定待自检资源的方式,增加了本申请实施例的可实现方式。
在一种可能的设计中,在本申请实施例第一方面的第四种实现方式中,该服务器根据该位置确定待自检资源,具体包括:该服务器将该硬件设备,以及在该挂靠关系树中属于该硬件设备的叶子节点的硬件设备确定为该待自检资源。本实现方式中,提供了根据位置确定待自检资源的方式,使得本申请实施例更加具有可操作性。
在一种可能的设计中,在本申请实施例第一方面的第五种实现方式中,该服务器根据该位置确定待自检资源,具体包括:该服务器将该硬件设备,以及在该挂靠关系树中属于该硬件设备的同一级节点的硬件设备确定为该待自检资源。本实现方式中,还提供了一种根据位置确定待自检资源的方式,增加了本申请实施例的可实现方式。
在一种可能的设计中,在本申请实施例第一方面的第六种实现方式中,该服务器接收到该自检分区中的待自检资源正常信息,即该待自检资源运行正常,则该服务器对该自检分区进行下电,并删除该自检分区。本实现方式中,说明了当自检得到待自检资源中的未被分区的资源正常时,服务器对自检分区的后续处理。
在一种可能的设计中,在本申请实施例第一方面的第七种实现方式中,该服务器删除该第一硬件资源的该历史物理分区之前,将该历史物理分区的分区记录备份。本实现方式中,当待自检资源包括第一硬件资源时,还需要备份该第一硬件资源的历史物理分区的信息,以供自检后使用,完善了本申请实施例的操作步骤。
在一种可能的设计中,在本申请实施例第一方面的第八种实现方式中,该服务器接收到该自检分区中的待自检资源正常信息后,该服务器对该自检分区进行下电。之后,该服务器删除该自检分区,根据备份的该历史物理分区的分区记录,恢复该第一硬件资源的该历史物理分区。本实现方式中,说明了当自检得到待自检资源中的第一硬件资源正常时,服务器对自检分区的后续处理,使得本申请实施例更加具有逻辑性。
在一种可能的设计中,在本申请实施例第一方面的第九种实现方式中,该服务器接收到该自检分区中的待自检资源故障信息。本实现方式中,说明了自检分区中的待自检资源存在故障的情况,增加了本申请实施例的应用场景。
本申请实施例第二方面提供了一种服务器,该服务器包括:分区模块,自检模块。其中,该分区模块,用于响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,得到自检分区。该自检模块,用于对该自检分区上电,对该自检分区进行自检。本申请实施例中,服务器上挂载的所有硬件资源在自检过程中都能被检测到,解决了部分硬件资源故障不感知的问题,确保了服务器中的硬件均不存在问题,避免了服务器的隐患或故障工作。
在一种可能的设计中,在本申请实施例第二方面的第一种实现方式中,该待自检资源还包括第一硬件资源,该第一硬件资源为收到该自检指令前已被划分为历史物理分区但未上电的硬件资源。该本实现方式中,追加了待自检资源还可以为服务器中历史物理分区但是未上电的资源,增加了本申请的可应用场景。
在一种可能的设计中,在本申请实施例第二方面的第二种实现方式中,该分区模块具体用于:删除该第一硬件资源的历史物理分区,并对删除该历史物理分区的该第一硬件资源进行物理分区,得到该自检分区。该本实现方式中,细化了当待自检资源包括第一硬件资源时,具体的物理分区方式,使得本申请实施例更加具有可操作性。
在一种可能的设计中,在本申请实施例第二方面的第三种实现方式中,该服务器还包括:第一接收模块,用于接收分区信息,该分区信息包含硬件设备的信息。查询模块,用于查询该硬件设备在挂靠关系树中的位置。确定模块,用于根据该位置确定该待自检资源。本实现方式中,说明了一种可能的确定待自检资源的方式,增加了本申请实施例的可实现方式。
在一种可能的设计中,在本申请实施例第二方面的第四种实现方式中,该确定模块具体用于:将该硬件设备及在该挂靠关系树中属于该硬件设备的叶子节点的硬件设备确定为该待自检资源。本实现方式中,提供了根据位置确定待自检资源的方式,使得本申请实施例更加具有可操作性。
在一种可能的设计中,在本申请实施例第二方面的第五种实现方式中,该确定模块具体还用于:将该硬件设备及在该挂靠关系树中属于该硬件设备的同一级节点的硬件设备确定为该待自检资源。本实现方式中,还提供了一种根据位置确定待自检资源的方式,增加了本申请实施例的可实现方式。
在一种可能的设计中,在本申请实施例第二方面的第六种实现方式中,该服务器还包括:第二接收模块,用于接收到该自检分区中的待自检资源正常信息。下电模块,用于对该自检分区进行下电。删除模块,用于删除该自检分区。本实现方式中,说明了当自检得到待自检资源中的未被分区的资源正常时,服务器对自检分区的后续处理,使得本申请实施例更加具有逻辑性。
在一种可能的设计中,在本申请实施例第二方面的第七种实现方式中,该服务器还包括:备份模块,用于在该删除模块删除该第一硬件资源的该历史物理分区之前,备份该历史物理分区的分区记录。本实现方式中,当待自检资源包括第一硬件资源时,还需要备份该第一硬件资源的历史物理分区的信息,以供自检后使用,完善了本申请实施例的操作步骤。
在一种可能的设计中,在本申请实施例第二方面的第八种实现方式中,该服务器还包括:恢复模块,用于在该删除模块删除该自检分区后,根据备份的该分区记录,恢复该第一硬件资源的该历史物理分区。本实现方式中,说明了当自检得到待自检资源中的第一硬件资源正常时,服务器对自检分区的后续处理,使得本申请实施例更加具有逻辑性。
在一种可能的设计中,在本申请实施例第二方面的第九种实现方式中,该服务器还包括:第三接收模块,用于接收到该自检分区中的待自检资源故障信息。本实现方式中,说明了自检分区中的待自检资源存在故障的情况,增加了本申请实施例的应用场景。
本申请的第三方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面该的方法。
本申请的第四方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面该的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例中,服务器接收到自检指令后,对待自检资源进行物理分区得到自检分区,对自检分区进行上电,对自检分区进行自检,使得服务器上挂载的所有硬件资源或者指定硬件资源在自检过程中都能被检测到,解决了部分硬件资源故障不感知的问题,确保了服务器中的硬件均不存在问题,避免了服务器的隐患或故障工作。
附图说明
图1为一个服务器进行了物理分区的示意图;
图2为本申请实施例提供的一种可能的自检方法的流程示意图;
图3为本申请实施例提供的另一种可能的自检方法的流程示意图;
图4为本申请实施例提供的一种可能的挂靠关系树的示意图;
图5为本申请实施例提供的一种可能的服务器的结构示意图;
图6为本申请实施例提供的另一种可能的服务器的结构示意图;
图7为本申请实施例提供的另一种可能的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中的自检方法可应用于服务器中。为解决服务器中未被物理分区的硬件资源故障不感知的问题,为便于描述,本申请实施例中,将未被物理分区的硬件资源称为待自检资源。其中,本申请中的物理分区可以是一种将一台服务器分为多个处理单元的技术,这些处理单元可以被看做一台台小服务器,使得一个单一多节点的服务器能够在一个独立分区的操作系统上同时执行多个任务。
本申请实施例中通过管理软件对待自检资源以一定原则进行自动物理分区,然后利用基本输入输出系统(basic input output system,BIOS)和/或操作系统(opratesystem,OS)OS、自检工具、自检镜像等进行自检,以便确保服务器中的硬件均不存在问题,从而避免隐患或故障,排除在后续需要使用的时候因硬件故障出现无法使用的情况。
下面对本申请实施例中的自检方法进行具体描述:
请参阅图2,本申请自检方法一个实施例包括:
201、服务器接收自检指令;
可以理解的是,服务器接收到的自检指令可以由用户主动触发,也可以有服务器根据预设的条件触发,此处不作限定。
可选的,作为预设的服务器触发自检指令的条件,可以包括:
1、服务器的上电:即服务器插上电源以后,由于服务器的管理软件并不掉电保存整机的硬件信息,且在服务器的下电过程中可能存在硬件的变更,所以,在服务器上电时,可能需要触发自检指令进行硬件的扫描和自检;
2、例行检查:例行检查分为两种,一种为周期性的例行检查,例如当前在运维层面的一些例行检查计划是在业务吞吐较低的时间段,对设备进行自检操作;另一种为按需求的自检,例如在业务层面检测到一些底层上报的错误,例如I/O上的传输循环冗余校验(Cyclic Redundancy Check,CRC)错误、内存的错误检查和纠正(Error Correcting Code,ECC)错误等,这时候相关人员也会计划或立即进行一些自检操作。
可以理解的是,用户还可以根据需要设定其他的预设自检触发条件,此处不作限定。
202、服务器对待自检资源进行物理分区,得到自检分区;
需要说明的是,其中的待自检资源除了包括未被物理分区的硬件资源,还可以包括第一硬件资源,其中该第一硬件资源为收到自检指令前已被划分为历史物理分区但未上电的硬件资源。具体的待自检资源的范围,也可以由用户提前设定。
可以理解的是,由于在自检过程中主要还是利用BIOS和/或OS(包含OS本身,以及可选的OS上的一些自检工具)进行自检,例如BIOS中可以针对中央处理器(centralprocessing unit,CPU)、内存等进行自检;OS可以在操作系统的层面进行自检等,故BIOS或OS需要知道当前相关的硬件资源情况,因此需要对待自检资源进行物理分区,其中该物理分区可以是分好以后后续可以直接使用的,也可以为仅供自检使用的虚拟分区(即对用户不可见)。
可选的,由于第一硬件资源实际上已经被划分为历史物理分区,因此作为本申请中自检方法另一个实施例,执行本步骤时,服务器具体可以执行如下步骤:
服务器判断待自检资源中是否存在未被物理分区的硬件资源;
若不存在,则确定第一硬件资源的历史物理分区为自检分区,该第一硬件资源的历史物理分区即服务器接收到自检指令之前第一硬件资源的分区;
若存在,则对未被物理分区的硬件资源进行物理分区,将得到的物理分区与第一硬件资源的历史物理分区作为待自检分区。
可以理解的是,在实际应用中,也可以直接对第一硬件资源进行重新物理分区以得到自检分区,具体包括以下步骤:
步骤1、服务器备份第一硬件资源的历史物理分区的分区记录;
步骤2、服务器删除该第一硬件资源的历史物理分区;
步骤3、服务器对删除了历史物理分区的第一硬件资源重新进行物理分区,得到自检分区。
综上,服务器得到自检分区的方式可以包括:1、当待自检资源包括未被物理分区的硬件资源时,对待自检资源进行物理分区,以得到自检分区;2、当待自检资源还包括第一硬件资源时,可以将第一硬件资源的历史物理分区作为自检分区;3、当待自检资源还包括第一硬件资源时,可以将第一硬件资源的历史物理分区的分区记录备份并删除该历史物理分区,重新对第一硬件资源进行物理分区,以得到自检分区,故服务器得到自检分区的方式具体本申请不做限定。
另外,对待自检资源进行物理分区的依据有很多,下面对其中几种进行描述:
1、最快速原则:由于实际的启动和自检中,各个物理分区能独立和并行进行,而且,硬件资源越少,一般启动自检的过程也会越快,所以如果需要在尽可能短的时间里面完成自检,即可以选择该原则,该原则一般为服务器所能支持的最小单位分区(例如HP的SDX为2P,一般可以在产品资料中找到)。
2、最匹配原则:由于有的服务器只支持均等分区等原因,例如某32路的服务器只支持8个4P物理分区/4个8P物理分区/2个16P物理分区/1个32P物理分区,那么如果当前已经有2个8P的物理分区,那么就无法对剩下的资源分成1个16P物理分区或者4个4P物理分区,而只能对剩下的资源也进行1个或者2个8P物理分区的划分。
3、最全面原则:由于考虑到全面兼容、IO资源是否充分等方面的因素,如果将所有可划分资源划分为一个大的物理分区,那么在这种情况下,系统层面的兼容性肯定是最全面的。
4、定制化原则:该原则为针对一定的资源进行定制化物理分区,例如针对具体的一张图形处理器(Graphics Processing Unit,GPU)卡,获得其配套资源(例如CPU等),进行定制化物理分区,该原则中的配套资源获取的方法可参见后述本申请实施例中提供的物理分区方法中的描述,此处不作赘述。
需要说明的是,除此之外,还可以有其他的分区依据或分区原则,在实际应用中,可以根据用户的选择或者预定规则进行相应物理分区方式的选取,此处不作限定。
203、服务器为自检分区发放自检镜像和/或自检程序;
需要说明的是,自检镜像或者自检程序可以为BIOS、OS和自检工具的镜像或程序。
可以理解的是,自检主要基于BIOS、OS和自检工具中的一个或多个进行,例如在BIOS中可以针对CPU、内存等进行自检,还可以调用IO板卡的OPROM进行;OS可以在操作系统的层面进行自检;此外还可以在OS启动后,加载用户、厂商等提供的相关自检工具进行自检。
可选的,在实际应用中,有些待自检分区中可能已经存在自检镜像和/或自检程序,因此,作为本申请实施例中自检方法另一个实施例,执行本步骤时,服务器具体可以执行如下步骤:
服务器确定各待自检分区中是否存在自检镜像和/或自检程序;
服务器为不存在自检镜像和/或自检程序的待自检分区发放自检镜像和/或自检程序。
可选的,服务器在发放自检镜像和/或自检程序后,还可以对各待自检分区中的自检镜像和/或自检程序进行自检前的设置。
204、服务器对待自检分区进行上电,使用自检镜像和/或自检程序对自检分区进行自检,得到自检结果。
本步骤中,服务器使用各待自检分区的自检镜像和/或自检程序中包含的BIOS、OS和自检工具对各待自检分区进行自检,得到各待自检分区的自检结果。
可以理解的是,各待自检分区的自检结果可以在全部自检完成后汇总和上报,可以在自检过程中直接进行上报,此处不作限定。
可选的,在自检结果中,除了包含是否存在故障的硬件资源之外,还可以包含服务器中存在的所有硬件资源的信息,这些信息都可以在自检过程中收集得到。
可选的,若自检结果表示自检分区中的待自检资源没有故障,则服务器可以执行如下操作:
当待自检分区包括未被物理分区的硬件资源时,服务器对待自检分区进行下电和删除;
和/或,
当待自检资源还包括第一硬件资源,则对待自检分区进行下电、删除,并根据备份的第一硬件资源的历史物理分区的分区记录恢复第一硬件资源的历史物理分区。
可选的,若自检结果表示自检分区中的待自检资源存在有故障的硬件资源,则服务器可以保留自检分区,供用户进行进一步的定位诊断和分析解决。
本申请实施例中,服务器接收到自检指令后,对待自检资源进行物理分区得到待自检分区,对待自检资源进行上电,使用下发的自检镜像和/或自检程序对待自检分区进行自检,得到自检结果,使得服务器上挂载的所有硬件资源在自检过程中都能被检测到,解决了部分硬件资源故障不感知的问题,确保了服务器中的硬件均不存在问题,避免了服务器带隐患或故障工作。
上述图2所示的步骤202中提供了对待自检资源进行物理分区的多种依据,下面将基于其中的定制化原则,说明根据用户的分区需求进行定制化的物理分区的方式,请参阅图3,为本申请提供的一种可能的自检方法的实施例示意图,具体包括:
301、服务器确定挂靠关系树;
为清楚直观的表示服务器中各硬件资源的挂靠关系,本申请中可以采用类似树形的方式来进行说明,可定义为挂靠关系树,其中挂靠关系树中各节点的关系即可以理解为服务器中各硬件资源的关系。例如,在该挂靠关系树中,根节点即为服务器,所述服务器具有至少一个叶子节点,服务器的叶子节点包含至少一个平台控制器中心(platformcontroller hub,PCH),PCH的叶子节点包含至少一个CPU,CPU的叶子节点中可以包含高速串行计算机扩展总线(peripheral component interconnect express,PCIE)、双列直插式存储模块(DualInline memory modules,DIMM)和磁盘;因此该挂靠关系树所表示的即为服务器中各硬件资源的挂靠关系,可以由服务器根据物理分区和硬件运行的约束关系梳理得到,例如每个分区都至少包含一个PCH。
为便于理解,图4为一个挂靠关系树的示意图。其中,PCIE、DIMM等资源可以挂靠在CPU下,也可以挂靠在服务器的叶子节点Node下,这个是否能挂靠取决于CPU架构。且PCIE还可以进行细化,例如CPU卡、网卡等,以便方便进一步的根据需求定制化物理分区。上图4中下划线后的数字是为了在图中表述方便,例如体现其节点和层次关系而设定,实际的应用和命名梳理中可以灵活确定。
此外,以上服务器、节点、PCH和CPU等均可以为1对1或1对多的关系,例如PCH和CPU可以为一一对应或者一个PCH对应多个CPU;而CPU与其下层的PICE卡等可以为1对0,1对1或1对多的关系,例如一个CPU下可以只包含一张PCIE卡,也可以包含多个DIMM和多张PCIE卡,或者不包含PCIE卡,具体此处不作限定。
302、服务器接收分区信息;
确定挂靠关系树后,服务器可以接收用户发送的分区信息,该分区信息中包括硬件设备的信息,该硬件设备的信息用于指示用户对该硬件设备的分区需求。
可以理解的是,分区需求可以为根据一个或多个硬件(例如I/O卡)进行相应分区的需求,也可以为根据一项或多项能力(例如GPU能力,虚拟化能力、IO能力等)进行分区的需求,此处不作限定。
其中,可以作为进行分区需求的能力种类可以包括:
1、处理器核数,主要由CPU确定,其与当前根据CPU个数进行物理分区的区别是,同样的需求,会根据实际的CPU型号产生不同结果,例如需求同样是20核,如果使用核数多的CPU(例如24核的CPU),创建1P的物理分区即可满足要求,如果使用核数少的CPU(例如4核的CPU),需要创建4P甚至以上的物理分区才能满足需求;
2、虚拟化能力,主要由GPU确定;
3、图形处理能力,主要由GPU确定;
4、内存能力,主要由内存确定;
5、存储能力,主要由硬盘(对应资源表中的DISK)和/或存储卡(例如PCIE存储卡等)等确定;
6、网络通信能力,主要由网卡确定;
实际应用中,还可以采用其他服务器能实现的能力作为分区需求,此处不作限定。
303、服务器确定分区信息对应的硬件设备;
接收到分区信息后,服务器根据该分区信息中包含的硬件设备的信息确定其对应的硬件设备。
例如,若该分区信息中包括根据一个或多个硬件设备(例如I/O卡)进行相应物理分区的需求,则服务器确定该一个或多个硬件设备。
若该分区信息中包括根据一项或多项能力(例如GPU能力,虚拟化能力、IO能力等)进行物理分区的需求,则服务器根据能力需求,确定能满足这些能力的硬件设备。
304、服务器查询硬件设备在挂靠关系树中的位置;
服务器查找到确定的硬件设备在挂靠关系树中的位置,例如服务器根据确定的GPU卡确定该卡位于哪个槽位(PCIE_XXXX),以便在下一步骤中确定待自检资源情况。
305、服务器根据位置确定待自检资源;
服务器确定了硬件设备在挂靠关系书中的位置后,根据得到的位置确定待自检资源,确定方式可以包括:
服务器将硬件设备及在挂靠关系树中属于硬件设备的叶子节点的硬件设备确定为待自检资源;或,
服务器将硬件设备及在挂靠关系树中属于硬件设备的同一级节点的硬件设备确定为待自检资源。
为便于理解,下面将结合图4所示的挂靠关系树,对确定待自检资源的方法进行描述:
本实施例中,待自检资源的确定可以理解为根据需求确定最小的资源集,例如上图4中,若需要根据某张PCIE卡进行定制化物理分区以便检测该卡是否正常,即可以按以下步骤来进行:
步骤1、确定该PCIE卡在上图4中的位置,例如假设该卡为PCIE_1111+PCIE_2345,或CPU_1NN;
步骤2、根据当前节点,往挂靠资源树的上层节点确定,直至找到PCH这一层以及以上的最小交集。该步骤的解释如下:
如果指定的资源位于同一个PCH以下,那么只需要将该资源对应的PCH节点以及所有下层资源节点打包即可以完成确定,例如如果步骤1中确定的资源(如GPU卡)是上图中的PCIE_1111,则PCH_11以及CPU_111和它下面的所有资源以及CPU_11N和它下面的所有资源为PCIE_1111的待自检资源,也就是说即使指定的卡跟CPU_11N无关,但是由于CPU_11N和PCIE_1111位于同一个PCH以下,那么它们必须被划分在同一个物理分区下;
如果指定的资源位于节点_1这个节点,例如节点控制器,那么其待自检资源必须包含这个节点以及其下面的所有资源;
如果指定的资源位于多个节点,那么其待自检资源确定即为相关节点的组合甚至整个服务器。
可以理解的是,对于多张卡,是可以进行组合和指定的,例如同样3张GPU卡,可以指定3张GPU卡组合到1个物理分区,或者3张GPU卡独立分3个物理分区,还可以指定为某两张卡组合为一个物理分区而剩余的一张卡进行独立物理分区,这几种情况下确定的分区数量和每个物理分区的配套资源情况是不一样的。
可以理解的是,在实际应用过程中,步骤303至步骤305可能被执行多次,例如用户想设置多个物理分区,分别需要虚拟化的能力和IO能力,若步骤303中确定的分区需求对应的硬件设备在步骤305中为满足某个分区需求已被划分给了其他物理分区,则可以再次执行步骤303,确定其他空闲的硬件设备。
306、服务器接收自检指令;
本实施例中,步骤306与上述图2所示的步骤201类似,具体此处不再赘述。
307、服务器对待自检资源进行物理分区,得到自检分区;
服务器按照确定的分区的数量和各个物理分区的待自检资源进行实际的物理分区。
308、服务器为自检分区发放自检镜像和/或自检程序;
309、服务器对待自检分区进行上电,使用自检镜像和/或自检程序对待自检分区进行自检,得到自检结果。
本实施例中,步骤308至步骤309与上述图2所示的步骤203至204类似,具体此处不再赘述。
本申请实施例中,服务器可以根据用户的需求进行定制化的物理分区,简化了用户的操作,提升了人机交互性能。
需要说明的是,图3所示的物理分区方法不仅可以基于本申请的自检方法的场景中,还可以基于其他的有物理分区过程的应用场景,例如用户购买了一块板卡,在不影响当前物理分区和业务的情况下,需要对该板卡的特定硬件进行检测,则可以采用该物理分区方法进行划分,检测完成后再删除,因此,本申请所提供的根据用户的分区需求进行定制化的物理分区方法在实际中的应用场景具体此处不做限定。
请参阅图5,本申请实施例中可执行自检方法的服务器一个实施例包括:
该服务器包括:分区模块501,自检模块502;
分区模块501,用于响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,得到自检分区;
自检模块502,用于对该自检分区上电,对该自检分区进行自检。
本申请实施例中,分区模块响应于接收到的自检指令后,对待自检资源进行物理分区得到自检分区,自检模块对自检分区进行上电,对自检分区进行自检,使得服务器上挂载的所有硬件资源或者指定硬件资源在自检过程中都能被检测到,解决了部分硬件资源故障不感知的问题,确保了服务器中的硬件均不存在问题,避免了服务器的隐患或故障工作。
请参阅图6,本申请实施例中可执行自检方法的服务器另一个实施例包括:
服务器包括:分区模块601,自检模块602;
分区模块601,用于响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,得到自检分区;
自检模块602,用于对该自检分区上电,对该自检分区进行自检。
可选的,作为本申请实施例中服务器另一个实施例,该待自检资源还包括第一硬件资源,且该第一硬件资源为收到该自检指令前已被划分为历史物理分区但未上电的硬件资源。
可选的,作为本申请实施例中服务器另一个实施例,上述分区模块601具体用于:
删除该历史物理分区,并对删除该历史物理分区的第一硬件资源进行物理分区,得到该自检分区。
可选的,作为本申请实施例中服务器另一个实施例,上述服务器还可以包括:
第一接收模块603,用于接收分区信息;该分区信息包含硬件设备的信息;
查询模块604,用于查询该硬件设备在挂靠关系树中的位置;
确定模块605,用于根据该位置确定该待自检资源。
可选的,作为本申请实施例中服务器另一个实施例,上述确定模块605具体用于:
将该硬件设备及在该挂靠关系树中属于该硬件设备的叶子节点的硬件设备确定为该待自检资源。
可选的,作为本申请实施例中服务器另一个实施例,上述确定模块605具体还用于:
将该硬件设备及在该挂靠关系树中属于该硬件设备的同一级节点的硬件设备确定为该待自检资源。
可选的,作为本申请实施例中服务器另一个实施例,上述服务器还包括:
第二接收模块606,用于接收到该自检分区中的待自检资源正常信息;
下电模块607,用于对该自检分区进行下电;
删除模块608,用于删除该自检分区。
可选的,作为本申请实施例中服务器另一个实施例,上述服务器还可以包括:
备份模块609,用于在该删除模块删除该第一硬件资源的该历史物理分区之前,备份该历史物理分区的分区记录。
可选的,作为本申请实施例中服务器另一个实施例,上述服务器还可以包括:
恢复模块610,用于在删除模块608删除该自检分区后,根据备份的该分区记录,恢复该第一硬件资源的历史物理分区。
可选的,作为本申请实施例中服务器另一个实施例,上述服务器还可以包括:
第三接收模块611,还用于接收到该自检分区中的待自检资源故障信息。
本申请实施例中,服务器可以根据用户的需求进行定制化的物理分区,简化了用户的操作,提升了人机交互性能。
图4中所示的控制器110的具体实现可参考前面实施例中描述,其中各模块可以分别由对应的硬件芯片实现。在另一种实现中,一个或多个模块可以集成在一个硬件芯片上。
上面从单元化功能实体的角度对本申请实施例中的服务器进行了描述,下面从硬件处理的角度对本申请实施例中的服务器进行描述,请参阅图7,为本申请实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)701(例如,一个或一个以上处理器)和存储器709,一个或一个以上存储应用程序709或数据709的存储介质708(例如一个或一个以上海量存储设备)。其中,存储器709和存储介质708可以是短暂存储或持久存储。存储在存储介质708的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器701可以设置为与存储介质708通信,在服务器700上执行存储介质708中的一系列指令操作。
服务器700还可以包括一个或一个以上电源702,一个或一个以上有线或无线网络接口703,一个或一个以上输入输出接口704,和/或,一个或一个以上操作系统705,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图7对服务器的各个构成部件进行具体的介绍:
处理器701是服务器的控制中心,可以按照设置的自检方法进行处理。处理器701利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器709内的软件程序和/或模块,以及调用存储在存储器709内的数据,执行服务器的各种功能和处理数据。
存储器709可用于存储软件程序以及模块,处理器701通过运行存储在存储器709的软件程序以及模块,从而执行服务器700的各种功能应用以及数据处理。存储器709可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器709可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在本申请实施例中提供的自检方法的程序和接收到的数据流存储在存储器中,当需要使用时,处理器701从存储器709中调用。
其中,通过调用存储器709存储的操作指令,处理器701,用于执行如下步骤:
响应于接收到的自检指令,对该服务器的待自检资源进行物理分区,得到自检分区;
对该自检分区上电,对该自检分区进行自检。
本申请的一些实施例中,待自检资源包括该服务器的第一硬件资源,该第一硬件资源为收到自检指令前已被划分为历史物理分区但未上电的硬件资源,该处理器701具体用于执行如下操作:
删除历史物理分区;对删除该历史物理分区的该第一硬件资源进行物理分区,得到该自检分区。
本申请的一些实施例中,该输入输出接口704还用于执行如下操作:
接收分区信息;该分区信息包含硬件设备的信息;
该处理器701具体用于执行如下操作:
查询该硬件设备在挂靠关系树中的位置,根据该位置确定该待自检资源。
本申请的一些实施例中,该处理器701具体用于执行如下操作:
将该硬件设备及在该挂靠关系树中属于该硬件设备的叶子节点的硬件设备确定为该待自检资源。
本申请的一些实施例中,该处理器701具体用于执行如下操作:
将该硬件设备及在该挂靠关系树中属于该硬件设备的同一级节点的硬件设备确定为该待自检资源。
本申请的一些实施例中,该输入输出接口704还用于执行如下操作:
接收到该自检分区中的待自检资源正常信息;
该处理器701还用于执行如下操作:
对该自检分区进行下电,并删除该自检分区。
本申请的一些实施例中,该处理器701还用于执行如下操作:
删除该第一硬件资源的历史物理分区之前,备份该历史物理分区的分区记录。
该处理器701还用于执行如下操作:
删除该自检分区后,根据备份的该分区记录,恢复该第一硬件资源的历史物理分区。
本申请的一些实施例中,该输入输出接口704还用于执行如下操作:
接收到该自检分区中的待自检资源故障信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

1.一种自检方法,其特征在于,所述方法包括:
服务器响应于接收到的自检指令,对所述服务器的待自检资源进行物理分区,得到自检分区,所述待自检资源包括所述服务器的第一硬件资源,所述第一硬件资源为收到所述自检指令前已被划分为历史物理分区但未上电的硬件资源;
所述服务器对所述自检分区上电,对所述自检分区进行自检。
2.根据权利要求1所述的方法,其特征在于,所述服务器响应于接收到的自检指令,对所述服务器的待自检资源进行物理分区,得到所述自检分区,具体包括:
所述服务器删除所述历史物理分区;
所述服务器对删除所述历史物理分区的所述第一硬件资源进行物理分区,得到所述自检分区。
3.根据权利要求1或2所述的方法,其特征在于,所述服务器响应于接收到的自检指令,对所述服务器的待自检资源进行物理分区,得到自检分区之前,所述方法还包括:
所述服务器接收分区信息,所述分区信息包含硬件设备的信息;
所述服务器查询所述硬件设备在挂靠关系树中的位置;
所述服务器根据所述位置确定所述待自检资源。
4.根据权利要求3所述的方法,其特征在于,所述服务器根据所述位置确定所述待自检资源,具体包括:
所述服务器将所述硬件设备及在所述挂靠关系树中属于所述硬件设备的叶子节点的硬件设备确定为所述待自检资源。
5.根据权利要求4所述的方法,其特征在于,所述服务器根据所述位置确定所述待自检资源,具体包括:
所述服务器将所述硬件设备及在所述挂靠关系树中属于所述硬件设备的同一级节点的硬件设备确定为所述待自检资源。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
所述服务器接收到所述自检分区中的待自检资源正常信息;
所述服务器对所述自检分区进行下电;
所述服务器删除所述自检分区。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
所述服务器删除所述第一硬件资源的所述历史物理分区之前,备份所述历史物理分区的分区记录。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述服务器删除所述自检分区后,根据备份的所述分区记录,恢复所述第一硬件资源的所述历史物理分区。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
所述服务器接收到所述自检分区中的待自检资源故障信息。
10.一种服务器,其特征在于,所述服务器包括:分区模块,自检模块;
所述分区模块,用于响应于接收到的自检指令,对所述服务器的待自检资源进行物理分区,得到自检分区,所述待自检资源包括所述服务器的第一硬件资源,所述第一硬件资源为收到所述自检指令前已被划分为历史物理分区但未上电的硬件资源;
所述自检模块,用于对所述自检分区上电,对所述自检分区进行自检。
11.根据权利要求10所述的服务器,其特征在于,所述分区模块具体用于:
删除所述历史物理分区;
对删除所述历史物理分区的所述第一硬件资源进行物理分区,得到所述自检分区。
12.根据权利要求10或11所述的服务器,其特征在于,所述服务器还包括:
第一接收模块,用于接收分区信息;所述分区信息包含硬件设备的信息;
查询模块,用于查询所述硬件设备在挂靠关系树中的位置;
确定模块,用于根据所述位置确定所述待自检资源。
13.根据权利要求12所述的服务器,其特征在于,所述确定模块具体用于:
将所述硬件设备及在所述挂靠关系树中属于所述硬件设备的叶子节点的硬件设备确定为所述待自检资源。
14.根据权利要求13所述的服务器,其特征在于,所述确定模块具体还用于:
将所述硬件设备及在所述挂靠关系树中属于所述硬件设备的同一级节点的硬件设备确定为所述待自检资源。
15.根据权利要求10至14中任一项所述的服务器,其特征在于,所述服务器还包括:
第二接收模块,用于接收到所述自检分区中的待自检资源正常信息;
下电模块,用于对所述自检分区进行下电;
删除模块,用于删除所述自检分区。
16.根据权利要求15所述的服务器,其特征在于,所述服务器还包括:
备份模块,用于在所述删除模块删除所述第一硬件资源的所述历史物理分区之前,备份所述历史物理分区的分区记录。
17.根据权利要求16所述的服务器,其特征在于,所述服务器还包括:
恢复模块,用于在所述删除模块删除所述自检分区后,根据备份的所述分区记录,恢复所述第一硬件资源的所述历史物理分区。
18.根据权利要求10至17中任一项所述的服务器,其特征在于,所述服务器还包括:
第三接收模块,用于接收到所述自检分区中的待自检资源故障信息。
19.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-9中任意一项所述的方法。
20.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1-9中任意一项所述的方法。
CN202210283839.5A 2017-12-19 2017-12-19 一种自检方法和服务器 Pending CN114911655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210283839.5A CN114911655A (zh) 2017-12-19 2017-12-19 一种自检方法和服务器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711381216.7A CN108196990B (zh) 2017-12-19 2017-12-19 一种自检方法和服务器
CN202210283839.5A CN114911655A (zh) 2017-12-19 2017-12-19 一种自检方法和服务器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201711381216.7A Division CN108196990B (zh) 2017-12-19 2017-12-19 一种自检方法和服务器

Publications (1)

Publication Number Publication Date
CN114911655A true CN114911655A (zh) 2022-08-16

Family

ID=62577114

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210283839.5A Pending CN114911655A (zh) 2017-12-19 2017-12-19 一种自检方法和服务器
CN201711381216.7A Active CN108196990B (zh) 2017-12-19 2017-12-19 一种自检方法和服务器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201711381216.7A Active CN108196990B (zh) 2017-12-19 2017-12-19 一种自检方法和服务器

Country Status (1)

Country Link
CN (2) CN114911655A (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117388B2 (en) * 2003-04-28 2006-10-03 International Business Machines Corporation Dynamic, Non-invasive detection of hot-pluggable problem components and re-active re-allocation of system resources from problem components
US20050076179A1 (en) * 2003-10-02 2005-04-07 International Business Machines Corporation Cache optimized logical partitioning a symmetric multi-processor data processing system
JP2005122640A (ja) * 2003-10-20 2005-05-12 Hitachi Ltd サーバシステム及びi/oスロット共有方法。
JP4882736B2 (ja) * 2006-12-27 2012-02-22 富士通株式会社 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
WO2013030976A1 (ja) * 2011-08-31 2013-03-07 富士通株式会社 情報処理装置及び方法、プログラム
CN105260275A (zh) * 2015-10-27 2016-01-20 浪潮电子信息产业股份有限公司 一种适用于高端主机的自动配置分区的开关机测试方法

Also Published As

Publication number Publication date
CN108196990A (zh) 2018-06-22
CN108196990B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US20230138736A1 (en) Cluster file system-based data backup method and apparatus, and readable storage medium
US9507672B2 (en) Method, apparatus, and system for generating and recovering memory snapshot of virtual machine
JP4544146B2 (ja) 障害回復方法
US9489274B2 (en) System and method for performing efficient failover and virtual machine (VM) migration in virtual desktop infrastructure (VDI)
US10303458B2 (en) Multi-platform installer
US11803412B2 (en) Containerized application management system and management method
CN109168328B (zh) 虚拟机迁移的方法、装置和虚拟化系统
CN111352700A (zh) 一种虚拟机跨云在线迁移方法、系统、终端及存储介质
CN113626256A (zh) 一种虚拟机磁盘数据备份方法、装置、终端及存储介质
CN111181780A (zh) 基于ha集群的主机池切换方法、系统、终端及存储介质
US8990608B1 (en) Failover of applications between isolated user space instances on a single instance of an operating system
CN104216771A (zh) 软件程序的重启方法及装置
US7673082B2 (en) Method and system to determine device criticality for hot-plugging in computer configurations
CN106557354B (zh) 设置私有镜像的属性参数的方法及计算机设备
CN108196990B (zh) 一种自检方法和服务器
CN111399999A (zh) 计算机资源处理方法、装置、可读存储介质和计算机设备
CN113127258A (zh) 一种数据备份方法、装置、设备及介质
CN115576743B (zh) 操作系统恢复方法、装置、计算机设备和存储介质
US20190250994A1 (en) Backup control method and backup control system
WO2014024279A1 (ja) メモリ障害リカバリ装置、方法、及びプログラム
US20200110668A1 (en) Intelligent handling of consistency level of virtual machines
US10684843B1 (en) Firmware updates using updated firmware files in a dedicated firmware volume
US8799616B2 (en) Method and system for preferred CPU binding on virtual partitions
CN118377657B (zh) 数据的恢复方法及装置、存储介质及电子设备
CN110908607B (zh) 板载raid数据重建方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination