CN111240892A - 数据备份方法及装置 - Google Patents

数据备份方法及装置 Download PDF

Info

Publication number
CN111240892A
CN111240892A CN201911210297.3A CN201911210297A CN111240892A CN 111240892 A CN111240892 A CN 111240892A CN 201911210297 A CN201911210297 A CN 201911210297A CN 111240892 A CN111240892 A CN 111240892A
Authority
CN
China
Prior art keywords
data
search engine
backed
backup
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911210297.3A
Other languages
English (en)
Other versions
CN111240892B (zh
Inventor
杨天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201911210297.3A priority Critical patent/CN111240892B/zh
Publication of CN111240892A publication Critical patent/CN111240892A/zh
Application granted granted Critical
Publication of CN111240892B publication Critical patent/CN111240892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据备份方法、装置、计算机可读存储介质和终端,包括:获取针对分布式搜索引擎的索引参数,索引参数包括待备份数据索引、备份存储地址和分布式搜索引擎的连接信息;根据分布式搜索引擎的连接信息,建立与分布式搜索引擎之间的通信连接;在分布式搜索引擎中,确定待备份数据索引对应的待备份数据目录;调用预设的数据备份命令行工具,通过系统输入输出操作,获取分布式搜索引擎中待备份数据目录对应的数据文件,并将数据文件备份至备份存储地址对应的存储空间中。本发明直接采用系统输入输出操作的方式进行备份,从而减少了对集群资源和主机资源的算力的大量占用,提高了数据备份效率。

Description

数据备份方法及装置
技术领域
本发明属于计算机技术领域,特别是涉及一种数据备份方法、装置、计算机可读存储介质和终端。
背景技术
在使用弹性搜索(ES,Elasticsearch)分布式搜索引擎作为数据存储的单位中,对于误删除、物理机故障等各种无法预知的情况的威胁,通常采用数据备份的手段,以保证数据的安全。
现有技术中,ES分布式搜索引擎的数据备份方式大体分为两种,方案一为调用ES自身的快照接口,对数据进行快照备份,快照备份可以在前一次备份的基础上仅增量备份所修改的部分。方案二为将ES分布式搜索引擎中的数据全部逐条的读取出来,然后再写入备份文件中,并对备份文件进行压缩、加密编码等操作,最后将备份文件存储到备份仓库中。
但是,目前方案中,方案一在面对需要备份的数据量级达到太字节级的时候,快照备份的效率会明显下降,且会出现备份的速度无法超过新增数据的速度,导致备份过程始终无法完成。方案二因为需要对ES分布式搜索引擎中存储的所有的数据进行逐条的读取,势必会进行大量的数据访问操作,增大了ES分布式搜索引擎的读写压力,降低了ES分布式搜索引擎的系统的处理效率。
发明内容
有鉴于此,本发明提供一种数据备份方法、装置、计算机可读存储介质和终端,在一定程度上解决了目前方案中备份的效率较低、导致备份过程始终无法完成、且备份操作影响系统处理效率的问题。
依据本发明的第一方面,提供了一种数据备份方法,该方法可以包括:
获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息;
根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接;
在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录;
调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
依据本发明的第二方面,提供了一种数据备份装置,该装置可以包括:
参数获取模块,用于获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息;
建立模块,用于根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接;
目录确定模块,用于在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录;
备份模块,用于调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
第三方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据备份方法的步骤。
第四方面,本发明实施例提供了一种终端,包括:
处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据备份方法的步骤。
针对在先技术,本发明具备如下优点:
本发明提供的一种数据备份方法,包括:获取针对分布式搜索引擎的索引参数,索引参数包括待备份数据索引、备份存储地址和分布式搜索引擎的连接信息;根据分布式搜索引擎的连接信息,建立与分布式搜索引擎之间的通信连接;在分布式搜索引擎中,确定待备份数据索引对应的待备份数据目录;调用预设的数据备份命令行工具,通过系统输入输出操作,获取分布式搜索引擎中待备份数据目录对应的数据文件,并将数据文件备份至备份存储地址对应的存储空间中。本发明直接采用系统输入输出操作的方式进行备份,从而减少了对集群资源和主机资源的算力的大量占用,降低了主机和服务无法响应其他的请求或者宕机的几率。相较于现有技术中的快照备份方式和数据读取再写入备份方式,本发明实施例提供的方案执行效率更高,对集群的压力更小。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种数据备份方法的步骤流程图;
图2是本发明实施例提供的另一种数据备份方法的步骤流程图;
图3是本发明实施例提供的一种数据备份装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种数据备份方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息。
在本发明实施例中,分布式搜索引擎可以具体为ES分布式搜索引擎,ES分布式搜索引擎是一种基于全文检索的搜索服务器,能够提供分布式多用户能力的全文搜索引擎,ES分布式搜索引擎在数据存储是针对的是数据全文,在根据用户输入的查询内容进行查询时,输出的是查询内容对应的数据的全文。对于ES集群中的数据,为了防止操作人员误操作而删除了必要数据,需要对ES集群中的数据进行备份。这样,在必要数据丢失的情况下,可以采用备份对ES集群中的数据进行还原,从而保证数据的安全性。
在该步骤中,备份服务器获取针对分布式搜索引擎的索引参数的方式具体可以有两种:
方式一、由备份服务器的数据备份服务入口脚本,通过接收命令行的形式获取索引参数,即用户在备份服务器中进行操作,通过命令行的方式选取了一些需要备份的数据的索引参数。
方式二、由备份服务器的自动运行备份任务脚本获取索引参数,即备份服务器中预先建立有数据自动备份任务,当满足备份任务执行条件时,由数据自动备份任务对应的自动运行配置脚本,生成需要备份的数据的索引参数。
具体的,索引参数包括待备份数据索引、备份存储地址和分布式搜索引擎的连接信息。待备份数据索引为需要备份的数据的索引目录;备份存储地址为待备份数据存储的目的地,备份存储地址通常为备份服务器的本地的一个存储空间的地址;分布式搜索引擎的连接信息为分布式搜索引擎的互联网协议地址(IP,Internet Protocol Address)和分布式搜索引擎的端口信息,以供备份服务器与分布式搜索引擎之间建立通信连接。
需要说明的是,索引参数中还可以包括数据保留天数、索引前缀、索引后缀等更具体信息,以提高备份操作的精确度。
步骤102、根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接。
在该步骤中,备份服务器通过连接信息中包括的分布式搜索引擎的IP地址和端口信息,可以建立与分布式搜索引擎的访问连接,实现与分布式搜索引擎之间的通信连接。
步骤103、在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录。
本发明实施例中,由于分布式搜索引擎中的数据以索引—数据目录的对应形式进行存储,因此,在备份服务器建立了与分布式搜索引擎之间的通信连接后,可以根据索引参数包括的待备份数据索引,在分布式搜索引擎中查找到对应的待备份数据目录,且在该过程中,仅关注待备份数据索引对应的待备份数据目录,并不关注待备份数据目录中存储的数据内容。
步骤104、调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
在本发明实施例中,数据备份命令行工具是通过命令提示符,在操作系统中提示进命令行输入的一种工作提示符工具,通过调用预设的数据备份命令行工具,可以直接进行备份服务器操作系统的系统输入输出操作,从而实现将分布式搜索引擎中待备份数据目录所对应的数据文件,复制到备份服务器本地的备份存储地址对应的存储空间中,完成数据的备份。
可选的,数据备份命令行工具为rclone命令行工具。
具体的,因为本发明实施例的数据文件直接采用系统输入输出操作的方式进行备份,从而减少了对集群资源和主机资源的算力的大量占用,降低了主机和服务无法响应其他的请求或者宕机的几率。相较于现有技术中的快照备份方式和数据读取再写入备份方式,本发明实施例提供的方案执行效率更高,对集群的压力更小。
并且,rclone命令行工具可以支持当前常用的数据传输和存储方式,因为rclone命令行工具可以通过配置数据源的方式使数据源对备份操作透明,使得本方案可以灵活的对不同场景下的数据备份操作进行定制操作,并且无需修改项目,提升了项目的可扩展性,可以根据不同的项目环境对数据备份服务”进行定制,以满足不同的现场环境需求。
综上,本发明实施例提供的数据备份方法中,包括:获取针对分布式搜索引擎的索引参数,索引参数包括待备份数据索引、备份存储地址和分布式搜索引擎的连接信息;根据分布式搜索引擎的连接信息,建立与分布式搜索引擎之间的通信连接;在分布式搜索引擎中,确定待备份数据索引对应的待备份数据目录;调用预设的数据备份命令行工具,通过系统输入输出操作,获取分布式搜索引擎中待备份数据目录对应的数据文件,并将数据文件备份至备份存储地址对应的存储空间中。本发明直接采用系统输入输出操作的方式进行备份,从而减少了对集群资源和主机资源的算力的大量占用,降低了主机和服务无法响应其他的请求或者宕机的几率。相较于现有技术中的快照备份方式和数据读取再写入备份方式,本发明实施例提供的方案执行效率更高,对集群的压力更小。
图2是本发明实施例提供的另一种数据备份方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息。
该步骤具体可以参照上述步骤101,此处不再赘述。
可选的,步骤201具体可以包括:
步骤2011、获取用户输入的针对所述分布式搜索引擎的索引参数。
在本发明实施例的一种实施方式中,备份服务器获取针对分布式搜索引擎的索引参数的方式可以包括:由备份服务器的数据备份服务入口脚本,通过接收命令行的形式获取索引参数,即用户在备份服务器中进行操作,通过命令行的方式选取了一些需要备份的数据的索引参数。
具体的,备份服务器的数据备份服务的目录结构如下:
Figure BDA0002297932660000071
其中,conf:备份服务配置文件目录;
deps:备份服务依赖环境文件夹,包含安装脚本运行所必要的依赖包和安装脚本;
logs:备份服务日志目录;
processor:备份服务逻辑代码包;
es_backup.py:数据备份入口脚本;
es_restore.py:数据还原入口脚本;
README:备份服务说明文档;
requirements.txt:用于环境部署的依赖标记文档。
步骤2012、在达到预设触发条件时,根据预设的备份任务脚本,生成所述索引参数,所述预设触发条件用于触发所述备份任务脚本工作。
在本发明实施例的另一种实施方式中,备份服务器获取针对分布式搜索引擎的索引参数的方式可以包括:由备份服务器的自动备份任务脚本获取索引参数,即备份服务器中预先建立有数据自动备份任务,当满足备份任务执行条件时,由数据自动备份任务对应的自动运行配置脚本,生成需要备份的数据的索引参数。
需要说明的是,由于数据备份服务安装包中提供了系统环境依赖和脚本需要的python(蟒蛇)语音环境依赖。因此,在步骤201之前,可以进行:首先安装deps目录下的备份服务依赖,包括pip(一个现代的,通用的Python包管理工具)依赖、python依赖和rclone服务依赖。之后进行配置rclone服务,注册数据备份仓库地址。之后进行创建数据备份仓库。最后进行配置linux定时任务。
步骤202、根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接。
该步骤具体可以参照上述步骤102,此处不再赘述。
步骤203、根据所述待备份数据索引,构建数据查询命令。
在该步骤中,可以根据待备份数据索引构建数据查询命令,数据查询命令用于查询分布式搜索引擎中是否存在待备份数据索引。
步骤204、通过与所述分布式搜索引擎之间的通信连接,将所述数据查询命令发送至所述分布式搜索引擎。
在本发明实施例中,由于建立了备份服务器与分布式搜索引擎之间的通信连接,因此,备份服务器可以将构建好的数据查询命令发送至分布式搜索引擎。
步骤205、在接收到所述分布式搜索引擎根据所述数据查询命令返回的确定索引存在信息的情况下,进入步骤206。
在该步骤中,在接收到分布式搜索引擎根据数据查询命令返回的确定索引存在信息的情况下,可以认定分布式搜索引擎中存在待备份数据索引,之后进行后续备份操作。如果待备份数据索引不存在,则停止当前数据备份任务。
步骤206、在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录。
该步骤具体可以参照上述步骤103,此处不再赘述。
步骤207、调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
该步骤具体可以参照上述步骤104,此处不再赘述。
可选的,在步骤207之后,还可以包括:
步骤208、将所述待备份数据索引、所述待备份数据目录和所述备份存储地址存储在本地。
在该步骤中,在结束数据备份操作之后,可以将数据备份过程中获取的索引名称信息、数据文件路径信息、备份存储地址、数据备份过程消耗的时间信息存储到本地数据库中,用于恢复操作,也可作为页面查看备份任务的依据。
步骤209、发送包括所述待备份数据目录的删除指令至所述分布式搜索引擎,以供所述分布式搜索引擎根据所述删除指令,删除所述待备份数据目录下的数据。
在该步骤中,在结束数据备份操作之后,还可以删除待备份数据目录下的数据。使集群数据节点保存的数据控制在一定的范围之内,避免集群所在的主机资源占用过多导致磁盘资源耗尽和系统宕机等问题。
可选的,在步骤207之前,还可以包括:
步骤A1、根据与所述分布式搜索引擎之间的通信连接,获取所述待备份数据索引的索引状态。
在本发明实施例中,在确定待备份数据目录之后,进行待备份数据目录对应的数据文件的备份操作之前,还可以进行确定待备份数据目录是否为完整目录的操作。具体的,备份服务器可以从分布式搜索引擎中获取待备份数据索引的索引状态。
步骤A2、若所述索引状态为可备份状态,且确定所述待备份数据目录为完整目录,则进入步骤207。
在该步骤中,备份服务器可以确定待备份数据索引的索引状态是否为GREEN状态,如果为GREEN状态,则认为索引状态为可备份状态,备份服务器可以通过与分布式搜索引擎之间的通信连接,构建索引刷新语句,刷新待备份数据索引的状态,将尚未写入待备份数据索引的数据段中的数据刷新到数据段中,使待备份数据索引保持最新的状态,以便后续对待备份数据索引进行备份操作。保证了待备份数据索引的完整性和可用性。
例如,待备份数据索引产生时,其对应的待备份数据目录包括A、B、C三个子目录,但是随着时间的流逝,分布式搜索引擎进一步在该待备份数据目录下建立了新的子目录D并存储了数据,则通过刷新待备份数据索引的状态的方式,可以将子目录D更新到待备份数据目录中,使得待备份数据索引完整,保证了待备份数据索引的时效性。
在将尚未写入待备份数据索引的数据段中的数据刷新到数据段中之后,可以构建索引关闭语句,将待备份数据索引置为关闭状态,使待备份数据索引处于静止状态,待备份数据索引内部和备份服务器不再进行分布式搜索引擎底层的操作和修改,可以锁定待备份数据索引的状态信息。
该过程为通过备份数据文件的方式来备份分布式搜索引擎数据的关键步骤,因为在当数据备份完成后,如果待备份数据索引未处在关闭的状态导致了状态信息特征码的更改,则当数据再次恢复到分布式搜索引擎中时,由于数据节点中的数据文件与管理节点中保存的状态信息特征码不同,待备份数据索引数据分片无法顺利加载,导致了数据丢失或损毁,通过将待备份数据索引置为关闭状态的方式,可以解决上述问题。
则进入步骤207,继续后续备份过程。
步骤A3、若所述索引状态为不可备份状态,则在预设等待时间之后,再次查询所述待备份数据索引的索引状态,直至所述索引状态为可备份状态时停止。
在该步骤中,如果判断不是GREEN状态,则认为索引状态为不可备份状态,备份服务器进一步获取配置的任务等待时间,根据获取的时间将任务挂起,挂起状态结束后,再次查询索引状态。直到索引状态为GREEN时,开始后续备份过程。查询三次不成功后,结束当前数据备份任务。
可选的,在步骤A1之后,还可以包括:
步骤A4、根据与所述分布式搜索引擎之间的通信连接,调用索引副本操作接口,将所述待备份数据索引对应的副本数量设置为0。
在本发明实施例中,还可以根据实际需求,调用索引副本操作接口,将待备份数据索引的副本数置为0,以减少需要备份的文件数量,从而降低备份任务占用的系统资源和网络带宽。
另外,在系统资源和网络带宽充足的情况下,也可以根据实际需求,调用索引副本操作接口,将待备份数据索引的副本数置为大于1的正整数,以达到增加数据备份副本数量的目的,提高数据容灾安全性。
综上所述,本发明实施例提供的数据备份方法,包括:获取针对分布式搜索引擎的索引参数,索引参数包括待备份数据索引、备份存储地址和分布式搜索引擎的连接信息;根据分布式搜索引擎的连接信息,建立与分布式搜索引擎之间的通信连接;在分布式搜索引擎中,确定待备份数据索引对应的待备份数据目录;调用预设的数据备份命令行工具,通过系统输入输出操作,获取分布式搜索引擎中待备份数据目录对应的数据文件,并将数据文件备份至备份存储地址对应的存储空间中。本发明直接采用系统输入输出操作的方式进行备份,从而减少了对集群资源和主机资源的算力的大量占用,降低了主机和服务无法响应其他的请求或者宕机的几率。相较于现有技术中的快照备份方式和数据读取再写入备份方式,本发明实施例提供的方案执行效率更高,对集群的压力更小。
图3是本发明实施例提供的一种数据备份装置的结构框图,如图3所示,该装置可以包括:
参数获取模块301,用于获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息;
可选的,参数获取模块301包括:
获取子模块,用于获取用户输入的针对所述分布式搜索引擎的索引参数;或,在达到预设触发条件时,根据预设的备份任务脚本,生成所述索引参数,所述预设触发条件用于触发所述备份任务脚本工作。
建立模块302,用于根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接;
目录确定模块303,用于在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录;
备份模块304,用于调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
可选的,所述装置还包括:
命令构建模块,用于根据所述待备份数据索引,构建数据查询命令;
发送模块,用于通过与所述分布式搜索引擎之间的通信连接,将所述数据查询命令发送至所述分布式搜索引擎;
数据存在模块,用于在接收到所述分布式搜索引擎根据所述数据查询命令返回的确定索引存在信息的情况下,进入所述在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录的步骤。
状态获取模块,用于根据与所述分布式搜索引擎之间的通信连接,获取所述待备份数据索引的索引状态;
第一处理模块,用于若所述索引状态为可备份状态,且确定所述待备份数据目录为完整目录,则进入所述调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中的步骤;
第二处理模块,用于若所述索引状态为不可备份状态,则在预设等待时间之后,再次查询所述待备份数据索引的索引状态,直至所述索引状态为可备份状态时停止。
设置模块,用于根据与所述分布式搜索引擎之间的通信连接,调用索引副本操作接口,将所述待备份数据索引对应的副本数量设置为0。
存储模块,用于将所述待备份数据索引、所述待备份数据目录和所述备份存储地址存储在本地;
数据管理模块,用于发送包括所述待备份数据目录的删除指令至所述分布式搜索引擎,以供所述分布式搜索引擎根据所述删除指令,删除所述待备份数据目录下的数据。
可循的,所述数据备份命令行工具为rclone命令行工具。
综上所述,本发明实施例提供的数据备份装置,包括:获取针对分布式搜索引擎的索引参数,索引参数包括待备份数据索引、备份存储地址和分布式搜索引擎的连接信息;根据分布式搜索引擎的连接信息,建立与分布式搜索引擎之间的通信连接;在分布式搜索引擎中,确定待备份数据索引对应的待备份数据目录;调用预设的数据备份命令行工具,通过系统输入输出操作,获取分布式搜索引擎中待备份数据目录对应的数据文件,并将数据文件备份至备份存储地址对应的存储空间中。本发明直接采用系统输入输出操作的方式进行备份,从而减少了对集群资源和主机资源的算力的大量占用,降低了主机和服务无法响应其他的请求或者宕机的几率。相较于现有技术中的快照备份方式和数据读取再写入备份方式,本发明实施例提供的方案执行效率更高,对集群的压力更小。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
优选的,本发明实施例还提供一种终端,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述数据备份方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据备份方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的数据备份方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据备份方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种数据备份方法,其特征在于,所述方法包括:
获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息;
根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接;
在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录;
调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
2.根据权利要求1所述的方法,其特征在于,在所述在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录之前,所述根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接之后,所述方法还包括:
根据所述待备份数据索引,构建数据查询命令;
通过与所述分布式搜索引擎之间的通信连接,将所述数据查询命令发送至所述分布式搜索引擎;
在接收到所述分布式搜索引擎根据所述数据查询命令返回的确定索引存在信息的情况下,进入所述在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录的步骤。
3.根据权利要求1所述的方法,其特征在于,在所述调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中之前,所述方法还包括:
根据与所述分布式搜索引擎之间的通信连接,获取所述待备份数据索引的索引状态;
若所述索引状态为可备份状态,且确定所述待备份数据目录为完整目录,则进入所述调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中的步骤;
若所述索引状态为不可备份状态,则在预设等待时间之后,再次查询所述待备份数据索引的索引状态,直至所述索引状态为可备份状态时停止。
4.根据权利要求3所述的方法,其特征在于,在所述根据与所述分布式搜索引擎之间的通信连接,获取所述待备份数据索引的索引状态之后,所述方法包括:
根据与所述分布式搜索引擎之间的通信连接,调用索引副本操作接口,将所述待备份数据索引对应的副本数量设置为0。
5.根据权利要求1所述的方法,其特征在于,在所述调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中之后,所述方法包括:
将所述待备份数据索引、所述待备份数据目录和所述备份存储地址存储在本地;
发送包括所述待备份数据目录的删除指令至所述分布式搜索引擎,以供所述分布式搜索引擎根据所述删除指令,删除所述待备份数据目录下的数据。
6.根据权利要求1所述的方法,其特征在于,所述获取针对分布式搜索引擎的索引参数,包括:
获取用户输入的针对所述分布式搜索引擎的索引参数;
或,在达到预设触发条件时,根据预设的备份任务脚本,生成所述索引参数,所述预设触发条件用于触发所述备份任务脚本工作。
7.根据权利要求1所述的方法,其特征在于,所述数据备份命令行工具为rclone命令行工具。
8.一种数据备份装置,其特征在于,所述装置包括:
参数获取模块,用于获取针对分布式搜索引擎的索引参数,所述索引参数包括待备份数据索引、备份存储地址和所述分布式搜索引擎的连接信息;
建立模块,用于根据所述分布式搜索引擎的连接信息,建立与所述分布式搜索引擎之间的通信连接;
目录确定模块,用于在所述分布式搜索引擎中,确定所述待备份数据索引对应的待备份数据目录;
备份模块,用于调用预设的数据备份命令行工具,通过系统输入输出操作,获取所述分布式搜索引擎中所述待备份数据目录对应的数据文件,并将所述数据文件备份至所述备份存储地址对应的存储空间中。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的数据备份方法。
10.一种终端,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一所述的数据备份方法。
CN201911210297.3A 2019-12-02 2019-12-02 数据备份方法及装置 Active CN111240892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911210297.3A CN111240892B (zh) 2019-12-02 2019-12-02 数据备份方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911210297.3A CN111240892B (zh) 2019-12-02 2019-12-02 数据备份方法及装置

Publications (2)

Publication Number Publication Date
CN111240892A true CN111240892A (zh) 2020-06-05
CN111240892B CN111240892B (zh) 2023-09-29

Family

ID=70879421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911210297.3A Active CN111240892B (zh) 2019-12-02 2019-12-02 数据备份方法及装置

Country Status (1)

Country Link
CN (1) CN111240892B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112436953A (zh) * 2020-08-14 2021-03-02 上海幻电信息科技有限公司 页面数据备份、容灾页面显示方法及装置
CN113297006A (zh) * 2020-08-31 2021-08-24 阿里巴巴集团控股有限公司 数据备份方法、装置、电子设备及计算机可读存储介质
CN113836018A (zh) * 2021-09-24 2021-12-24 中国建设银行股份有限公司 一种测试环境配置参数的备份方法及相关装置
CN115935023A (zh) * 2022-12-21 2023-04-07 北京远舢智能科技有限公司 一种Elasticsearch索引的对象存储方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919675A (zh) * 2017-02-24 2017-07-04 浙江大华技术股份有限公司 一种数据存储方法及装置
CN109558270A (zh) * 2017-09-25 2019-04-02 北京国双科技有限公司 数据备份的方法和装置、数据还原的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919675A (zh) * 2017-02-24 2017-07-04 浙江大华技术股份有限公司 一种数据存储方法及装置
CN109558270A (zh) * 2017-09-25 2019-04-02 北京国双科技有限公司 数据备份的方法和装置、数据还原的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARCIN BAJER: "Building an IoT data hub with elasticsearch,logstash and kibana" *
P.KLEINDIENST: "Building a real-world logging infrastructure with Logstash,Elasticsearch and Kibana" *
刘晓强: "基于ElasticSearch的车型搜索引擎在保险系统中的设计和实现" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112436953A (zh) * 2020-08-14 2021-03-02 上海幻电信息科技有限公司 页面数据备份、容灾页面显示方法及装置
CN113297006A (zh) * 2020-08-31 2021-08-24 阿里巴巴集团控股有限公司 数据备份方法、装置、电子设备及计算机可读存储介质
CN113836018A (zh) * 2021-09-24 2021-12-24 中国建设银行股份有限公司 一种测试环境配置参数的备份方法及相关装置
CN113836018B (zh) * 2021-09-24 2024-04-09 中国建设银行股份有限公司 一种测试环境配置参数的备份方法及相关装置
CN115935023A (zh) * 2022-12-21 2023-04-07 北京远舢智能科技有限公司 一种Elasticsearch索引的对象存储方法、装置、设备及介质
CN115935023B (zh) * 2022-12-21 2024-02-02 北京远舢智能科技有限公司 一种Elasticsearch索引的对象存储方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111240892B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN111240892A (zh) 数据备份方法及装置
US20140075301A1 (en) Information processing apparatus, control method, and recording medium
CN112100152B (zh) 业务数据处理方法、系统、服务器和可读存储介质
CN112799688A (zh) 容器应用内软件包安装方法、装置、计算机设备及介质
US9665732B2 (en) Secure Download from internet marketplace
CN113626286A (zh) 多集群实例处理方法、装置、电子设备及存储介质
CN107580032B (zh) 数据处理方法、装置及设备
CN111104387A (zh) 在服务器上获取数据集的方法和装置
US10606805B2 (en) Object-level image query and retrieval
US20170270031A1 (en) Information processing apparatus, test execution method, and computer-readable recording medium
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN112988062B (zh) 一种元数据读取限制方法、装置、电子设备及介质
CN114328029A (zh) 一种应用资源的备份方法、装置、电子设备及存储介质
CN115964061A (zh) 插件更新方法、装置、电子设备和计算机可读存储介质
CN112579877B (zh) 信源系统的控制方法、装置、存储介质和设备
CN110798358B (zh) 分布式服务标识方法、装置、计算机可读介质及电子设备
JP2006146615A (ja) オブジェクト関連情報管理プログラム、管理方法、および管理装置。
JP2005190221A (ja) キャッシュ制御装置およびその方法ならびにコンピュータプログラム
CN113806309B (zh) 基于分布式锁的元数据删除方法、系统、终端及存储介质
CN105610908B (zh) 一种基于安卓设备的samba服务实现方法及系统
CN110968888B (zh) 一种数据处理方法及装置
CN114490516A (zh) 文件系统的处理方法、回收站管理方法、装置及设备
CN114615263A (zh) 集群在线迁移方法、装置、设备及存储介质
CN111880946A (zh) 本地服务提供方法、装置及设备、存储介质
CN114077587A (zh) 基于规则引擎的业务处理方法、规则引擎、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant