CN102170460A - 一种集群存储系统及其数据存储方法 - Google Patents

一种集群存储系统及其数据存储方法 Download PDF

Info

Publication number
CN102170460A
CN102170460A CN2011100575768A CN201110057576A CN102170460A CN 102170460 A CN102170460 A CN 102170460A CN 2011100575768 A CN2011100575768 A CN 2011100575768A CN 201110057576 A CN201110057576 A CN 201110057576A CN 102170460 A CN102170460 A CN 102170460A
Authority
CN
China
Prior art keywords
file
data
value
preferred value
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100575768A
Other languages
English (en)
Inventor
刘家驹
张立强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN2011100575768A priority Critical patent/CN102170460A/zh
Publication of CN102170460A publication Critical patent/CN102170460A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种集群存储系统及其数据存储方法,涉及集群存储系统。本发明公开的系统,包括共享存储设备,位于元节点的数据分级服务器和DRBD,其中:所述数据分级服务器,确定所述共享存储设备中各文件的优先值,并将优先值大于设定值的文件的数据上传到所述DRBD;所述DRBD,接收所述数据分级服务器上传的文件的数据并存储。本发明实施例采用混合存储架构兼顾集中式存储低沉本大容量的优势和分布式存储高可靠性的优点,同时构建数据提取模型分类安放数据,便于数据管理,提高整个集群的容灾性,为电子信息系统的安全运行提供了有效保障。

Description

一种集群存储系统及其数据存储方法
技术领域
本发明涉及集群存储系统,特别涉及一种集群存储系统及其数据存储方法。
背景技术
目前,不少企事业单位所采用的传统HA架构存在一定缺陷,比如两台小型机搭配一个磁盘阵列,组成一套集群系统,所有的信息数据都存储在这台磁盘阵列上,存储只有一份,一旦此磁盘阵列发生问题,就面临整个业务系统停顿的危险,而采用分布式存储,虽然可以保证备份,但是磁盘利用率低下,且受成本限制容量受到限制。可见,要实现业务的高可用,必须先保证存储高可用;或者说,缺少高可用性存储的业务系统,不能实现真正的高可用性。针对这种情况,我们提出了存储高可用解决方案。
发明内容
本发明所要解决的技术问题是,如何提高集群系统的容灾性。因此,提供一种集群存储系统及其数据存储方法。
为了解决上述问题,本发明公开了一种集群存储系统,包括共享存储设备,位于元节点的数据分级服务器和DRBD,其中:
所述数据分级服务器,确定所述共享存储设备中各文件的优先值,并将优先值大于设定值的文件的数据上传到所述DRBD;
所述DRBD,接收所述数据分级服务器上传的文件的数据并存储。
较佳地,上述系统中,所述数据分级服务器确定所述共享存储设备中各文件的优先值指:
所述数据分级服务器将所述共享存储设备中文件的参数值的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
或者,上述系统中,所述数据分级服务器确定所述共享存储设备中各文件的优先值指:
所述数据分级服务器为所述共享存储设备中文件的参数值分别确定一权值,将各参数值与其对应的权值的乘积作为优先值计算参数,并将所有优先值计算参数的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
较佳地,上述集群存储系统中至少两个元节点上具有数据分级服务器和DRBD。
本发明还公开了一种如上所述的集群存储系统的数据存储方法,包括:
所述集群存储系统,确定共享存储设备中各文件的优先值,仅将优先值大于设定值的文件的数据存储到分布式复制块设备(DRBD)中。
较佳地,上述方法中,所述集群存储系统确定所述共享存储设备中各文件的优先值指:
所述集群存储系统将所述共享存储设备中文件的参数值的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
或者,上述方法中,所述集群存储系统确定所述共享存储设备中各文件的优先值指:
所述集群存储系统为所述共享存储设备中文件的参数值分别确定一权值,将各参数值与其对应的权值的乘积作为优先值计算参数,并将所有优先值计算参数的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
较佳地,上述集群存储系统中至少两个元节点上具有DRBD。
本发明实施例采用混合存储架构兼顾集中式存储低沉本大容量的优势和分布式存储高可靠性的优点,同时构建数据提取模型分类安放数据,便于数据管理,提高整个集群的容灾性,为电子信息系统的安全运行提供了有效保障。
附图说明
图1为本实施例1中集群存储系统结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明技术方案做进一步详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
目前,集群存储系统中有两种广泛采用的存储方式。其一是集中式存储方式,采用该方式,存储器成为单一失效节点。其二是分布式存储方式,采用该方式,存储器磁盘利用率太低,并且数据安放策略单一,不能进行有效管理。基于此,本发明申请人考虑到可采用混合存储架构兼顾集中式存储低沉本大容量的优势和分布式存储高可靠性的优点,同时构建数据提取模型,以便于数据管理,提高整个集群的容灾性。
具体地,通过修改/etc/multipath.conf配置文件,实现集群中的各节点对共享存储设备的多路径访问和故障切换。即至少在两个以上的元节点上安装DRBD设备,实现通过网络通信来同步镜像整个设备,有点类似于一个网络RAID的功能。也就是说当用户将数据写入本地的DRBD设备上的文件系统时,数据会同时被发送到网络中的另外一台主机之上,并以完全相同的形式记录在一个文件系统中,从而达到分布式存储的效果。这样既可以满足海量数据的存储要求,也可以部分满足数据安全的要求,提高磁盘利用率并且平衡成本。
实施例1
本实施例基于上述思想,提供一种集群存储系统,该系统架构如图1所示,包括位数据分级服务器、分布式复制块设备(DRBD,Distributed ReplicatedBlock Device)以及共享存储设备,本实施例中共享存储设备选用共享阵列,共享阵列用来满足业务级HA的需求保证节点出现故障时服务不中断,DRBD则用于满足存储级HA的要求,保证重要数据不丢失。从图1可以看到,所有节点都与共享阵列整列相连,两个元节点除与共享阵列相连外还安装有DRBD。
其中,数据分级服务器,位于两个元节点上,其主要负责为共享阵列中的文件构建数据提取模型以确定各文件的优先值,并将共享阵列中优先值大于设定值的文件的数据上传到DRBD;
具体地,在客户调研的基础上,数据分级服务器将文件的参数值的和作为文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
在优选方案中,数据分级服务器除了将文件的各参数值的和作为优先值时,还要考虑到各参数的权重,即为共享存储设备中文件的参数值分别确定一权值,将各参数值与其对应的权值的乘积作为优先值计算参数,并将所有优先值计算参数的总和作为该文件的优先值。例如,将文件数据的大小值记为x、文件数据的读取频率值记为y、文件数据的修改频率值记为z,文件对应的用户的等级值记为v,之后建立数据提取模型,即确定文件的优先值如下:
ax+by+cz+dv=f
其中,a、b、c和d为各参数的权值,可通过样本训练确定各参数的权值;
f即为文件的优先值。
另外,事关整个集群运行的关键信息也认为是大于设定值的文件的数据,也要上传到DRBD。这样一旦集群崩溃或者阵列损坏,可以将数据损失的代价减少到最少,同时使集群在最短时间内恢复运转,达到提高容灾性的目标。
而对于优先值小于设定值的文件的数据仍保留在共享阵列中。
DRBD,存储数据分级服务器上传的文件的数据。
其中,为了提高集群存储系统的容灾性,一般DRBD位于元节点上。
这样,光纤交换机可将共享存储设备(即本实施例中的共享阵列)和每个节点相连,设置/etc/corosync/corosync.conf;由Pacemaker建立起active/active模式的高可用集群,这样每个节点都成为潜在的备源节点,选择两台大内存服务器作为元节点,通过设置DRBD和配置文件,建立起active/passive模式的高可用集群,这样在一个集群里既有active/active模式又有active/passive模式,从而实现混合架构。
共享阵列,存储优先值小于设定值的文件的数据。
本实施例,在大量实验和抽样统计的基础之上,将文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值作为参数值,设计数据提取模型,编写程序,实现数据自动安置,从而达到提高容灾能力的要求,同时维护一份索引,便于查找数据,记录数据迁移状况。此外,将集群中重要的配置文件,设备信息备份在DRBD中,一旦集群崩溃可以迅速恢复。通过对用户授权,限制用户访问DRBD的权限,可提高这个集群的安全性。
实施例2
本实施例基于上述集群存储系统,提出一种集群存储系统的数据存储方法,其核心是对数据进行筛选,将重要数据(即优先值大于设定值的文件的数据)放在分布式复制块设备(DRBD,Distributed Replicated Block Device)中,将一般数据(即优先值小于设定值的文件的数据)置在共享存储设备(本实施例中即为共享阵列)中,这样即使共享阵列损坏,也可以将数据丢失的损失降到最低,并且DRBD中还会备份重要的系统信息(如服务器的配置文件,管理员信息,日志信息等等由管理员确定)当集群崩溃时即可快速恢复。
具体地,该方法包括:集群存储系统确定共享存储设备中各文件的优先值,仅将优先值大于设定值的文件的数据存储到DRBD中。其中,DRBD一般位于各元节点上。
具体地,集群存储系统确定共享存储设备中各文件的优先值指:
将共享存储设备中文件的参数值的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
还有一些优选方案中,集群存储系统为共享存储设备中文件的参数值分别确定一权值,将各参数值与其对应的权值的乘积作为优先值计算参数,并将所有优先值计算参数的总和作为该文件的优先值。例如,将文件数据的大小值记为x、文件数据的读取频率值记为y、文件数据的修改频率值记为z,文件对应的用户的等级值记为v,之后建立数据提取模型,即确定文件的优先值如下:
ax+by+cz+dv=f
其中,a、b、c和d为各参数的权值,可通过样本训练确定各参数的权值;
f即为文件的优先值。
从上述实施例可以看出,本发明的实施例通过搭配使用DRBD和共享存储设备,对数据分类,分开存放,提高了整个系统的容灾能力。同时达到兼顾存储安全性和降低成本的目的。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种集群存储系统,包括共享存储设备,其特征在于,该系统还包括位于元节点的数据分级服务器和分布式复制块设备(DRBD),其中:
所述数据分级服务器,确定所述共享存储设备中各文件的优先值,并将优先值大于设定值的文件的数据上传到所述DRBD;
所述DRBD,接收所述数据分级服务器上传的文件的数据并存储。
2.如权利要求1所述的系统,其特征在于,
所述数据分级服务器确定所述共享存储设备中各文件的优先值指:
所述数据分级服务器将所述共享存储设备中文件的参数值的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
3.如权利要求1所述的系统,其特征在于,
所述数据分级服务器确定所述共享存储设备中各文件的优先值指:
所述数据分级服务器为所述共享存储设备中文件的参数值分别确定一权值,将各参数值与其对应的权值的乘积作为优先值计算参数,并将所有优先值计算参数的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
4.如权利要求1、2或3所述的系统,其特征在于,
所述集群存储系统中至少两个元节点上具有数据分级服务器和DRBD。
5.一种如权利要求1所述的集群存储系统的数据存储方法,其特征在于,该方法包括:
所述集群存储系统,确定共享存储设备中各文件的优先值,仅将优先值大于设定值的文件的数据存储到分布式复制块设备(DRBD)中。
6.如权利要求5所述的方法,其特征在于,
所述集群存储系统确定所述共享存储设备中各文件的优先值指:
所述集群存储系统将所述共享存储设备中文件的参数值的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
7.如权利要求5所述的方法,其特征在于,
所述集群存储系统确定所述共享存储设备中各文件的优先值指:
所述集群存储系统为所述共享存储设备中文件的参数值分别确定一权值,将各参数值与其对应的权值的乘积作为优先值计算参数,并将所有优先值计算参数的总和作为该文件的优先值,其中,文件的参数值包括如下一种或几种:
文件数据的大小值、文件数据的读取频率值、文件数据的修改频率值、文件对应的用户的等级值。
8.如权利要求5、6或7所述的方法,其特征在于,
所述集群存储系统中至少两个元节点上具有DRBD。
CN2011100575768A 2011-03-10 2011-03-10 一种集群存储系统及其数据存储方法 Pending CN102170460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100575768A CN102170460A (zh) 2011-03-10 2011-03-10 一种集群存储系统及其数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100575768A CN102170460A (zh) 2011-03-10 2011-03-10 一种集群存储系统及其数据存储方法

Publications (1)

Publication Number Publication Date
CN102170460A true CN102170460A (zh) 2011-08-31

Family

ID=44491436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100575768A Pending CN102170460A (zh) 2011-03-10 2011-03-10 一种集群存储系统及其数据存储方法

Country Status (1)

Country Link
CN (1) CN102170460A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364465A (zh) * 2011-09-30 2012-02-29 深圳市赫迪威信息技术有限公司 一种文件存储方法及存储集群
CN102810111A (zh) * 2012-05-07 2012-12-05 互动在线(北京)科技有限公司 一种保持Oracle数据库服务高可用的实现方法和系统
CN103036744A (zh) * 2012-12-19 2013-04-10 北京搜房网络技术有限公司 一种监控多机分布式复制块设备的方法及装置
CN103384267A (zh) * 2013-06-07 2013-11-06 曙光信息产业(北京)有限公司 一种基于分布式块设备的Parastor200并行存储管理节点高可用方法
WO2015049554A1 (en) * 2013-10-04 2015-04-09 Paul Kalappurakkal Dibu Human data relation
CN105260377A (zh) * 2015-09-01 2016-01-20 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN106844111A (zh) * 2016-12-26 2017-06-13 创新科存储技术(深圳)有限公司 云存储网络文件系统的访问方法
CN106911777A (zh) * 2017-02-24 2017-06-30 郑州云海信息技术有限公司 一种数据处理方法及服务器
CN107291633A (zh) * 2017-07-14 2017-10-24 长沙开雅电子科技有限公司 一种新型集群存储写缓存分级管理方法
CN107480073A (zh) * 2017-08-20 2017-12-15 长沙曙通信息科技有限公司 一种存储系统热点数据缓存预读实现方法
CN108153787A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种数据库的容灾方法
CN109196459A (zh) * 2016-05-31 2019-01-11 重庆大学 一种去中心化的分布式异构存储系统数据分布方法
CN111641680A (zh) * 2020-05-11 2020-09-08 紫光云技术有限公司 一种Ambari高可用集群的管理方法
CN111966644A (zh) * 2020-08-12 2020-11-20 南方科技大学 超级计算机数据存储方法、装置、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972311A (zh) * 2006-12-08 2007-05-30 华中科技大学 一种基于集群均衡负载的流媒体服务器系统
CN101821696A (zh) * 2007-08-28 2010-09-01 Commvault系统公司 如数据存储操作的自适应能耗管理的数据处理资源的能耗管理

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972311A (zh) * 2006-12-08 2007-05-30 华中科技大学 一种基于集群均衡负载的流媒体服务器系统
CN101821696A (zh) * 2007-08-28 2010-09-01 Commvault系统公司 如数据存储操作的自适应能耗管理的数据处理资源的能耗管理

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364465A (zh) * 2011-09-30 2012-02-29 深圳市赫迪威信息技术有限公司 一种文件存储方法及存储集群
CN102810111A (zh) * 2012-05-07 2012-12-05 互动在线(北京)科技有限公司 一种保持Oracle数据库服务高可用的实现方法和系统
CN102810111B (zh) * 2012-05-07 2016-05-11 互动在线(北京)科技有限公司 一种保持Oracle数据库服务高可用的实现方法和系统
CN103036744B (zh) * 2012-12-19 2016-01-20 北京搜房网络技术有限公司 一种监控多机分布式复制块设备的方法及装置
CN103036744A (zh) * 2012-12-19 2013-04-10 北京搜房网络技术有限公司 一种监控多机分布式复制块设备的方法及装置
CN103384267B (zh) * 2013-06-07 2017-09-01 曙光信息产业(北京)有限公司 一种基于分布式块设备的Parastor200并行存储管理节点高可用方法
CN103384267A (zh) * 2013-06-07 2013-11-06 曙光信息产业(北京)有限公司 一种基于分布式块设备的Parastor200并行存储管理节点高可用方法
WO2015049554A1 (en) * 2013-10-04 2015-04-09 Paul Kalappurakkal Dibu Human data relation
CN105260377A (zh) * 2015-09-01 2016-01-20 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN105260377B (zh) * 2015-09-01 2019-02-12 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN109196459B (zh) * 2016-05-31 2020-12-08 重庆大学 一种去中心化的分布式异构存储系统数据分布方法
CN109196459A (zh) * 2016-05-31 2019-01-11 重庆大学 一种去中心化的分布式异构存储系统数据分布方法
CN108153787B (zh) * 2016-12-02 2019-11-26 中科星图股份有限公司 一种数据库的容灾方法
CN108153787A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种数据库的容灾方法
CN106844111A (zh) * 2016-12-26 2017-06-13 创新科存储技术(深圳)有限公司 云存储网络文件系统的访问方法
CN106844111B (zh) * 2016-12-26 2021-01-08 深圳创新科技术有限公司 云存储网络文件系统的访问方法
CN106911777A (zh) * 2017-02-24 2017-06-30 郑州云海信息技术有限公司 一种数据处理方法及服务器
CN107291633A (zh) * 2017-07-14 2017-10-24 长沙开雅电子科技有限公司 一种新型集群存储写缓存分级管理方法
CN107480073A (zh) * 2017-08-20 2017-12-15 长沙曙通信息科技有限公司 一种存储系统热点数据缓存预读实现方法
CN111641680A (zh) * 2020-05-11 2020-09-08 紫光云技术有限公司 一种Ambari高可用集群的管理方法
CN111966644A (zh) * 2020-08-12 2020-11-20 南方科技大学 超级计算机数据存储方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
CN102170460A (zh) 一种集群存储系统及其数据存储方法
CN106341454B (zh) 跨机房多活分布式数据库管理系统和方法
US8261033B1 (en) Time optimized secure traceable migration of massive quantities of data in a distributed storage system
CN104813321B (zh) 在分布式对象存储生态系统中的去耦合的内容以及元数据
CN103176860B (zh) 数据备份方法和系统
CN103353867B (zh) 具有网络服务客户接口的分布式存储系统
CN102667748B (zh) 使用复制在具有名称空间的分区的内容平台上的固定内容存储
CN103929500A (zh) 一种分布式存储系统的数据分片方法
US20150261784A1 (en) Dynamically Varying the Number of Database Replicas
CN108351806A (zh) 分布式基于流的数据库触发器
CN104580395B (zh) 一种基于现存云存储平台的多云协同存储中间件系统
CN103763383A (zh) 一体化云存储系统及其存储方法
CN105630418A (zh) 一种数据存储方法及装置
CN101986276B (zh) 文件存储方法、文件恢复方法、系统及服务器
CN104243195A (zh) 异地灾备处理方法及装置
CN108319618A (zh) 一种分布式存储系统的数据分布控制方法、系统及装置
WO2024148856A1 (zh) 数据写入方法、系统、存储硬盘、电子设备及存储介质
CN108762982B (zh) 一种数据库恢复方法、装置及系统
CN105872024A (zh) 容灾设备、系统及方法
CN103036952A (zh) 一种企业级异构融合存储管理系统
CN101901173A (zh) 一种灾备系统及灾备方法
CN117851514A (zh) 一种跨多个Hive集群实现数据和任务容灾方法及系统
CN112910974B (zh) 一种基于区块链系统架构的系统及方法
CN116389233A (zh) 容器云管理平台主备切换系统、方法、装置和计算机设备
CN116360687A (zh) 一种集群分布式存储的方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110831