CN112860527A - 应用服务器的故障监测方法及装置 - Google Patents

应用服务器的故障监测方法及装置 Download PDF

Info

Publication number
CN112860527A
CN112860527A CN202110352583.4A CN202110352583A CN112860527A CN 112860527 A CN112860527 A CN 112860527A CN 202110352583 A CN202110352583 A CN 202110352583A CN 112860527 A CN112860527 A CN 112860527A
Authority
CN
China
Prior art keywords
application server
data
log
fault
log file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110352583.4A
Other languages
English (en)
Inventor
聂艳平
杨晓
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110352583.4A priority Critical patent/CN112860527A/zh
Publication of CN112860527A publication Critical patent/CN112860527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种应用服务器的故障监测方法及装置,涉及人工智能技术领域。故障监测方法包括:获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。本发明能够有效提高应用服务器故障监测的准确性和运维效率。

Description

应用服务器的故障监测方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种应用服务器的故障监测方法及装置。
背景技术
随着互联网技术的不断发展,应用服务器数量增多,并且应用服务器故障持续时间短。应用服务器的故障很难在第一时间被运维人员排查到,因此运维人员对于应用服务器的工作情况的监控力度逐渐降低。基于上述情况,运维人员迫切需求能够掌握应用服务器在运行阶段的故障情况监测。
现有监测应用服务器是否故障,主要是通过监控应用交易,统计交易失败率;同时,监控服务器的运行情况(CPU、内存使用情况等);当交易失败率高于一定阈值或CPU、内存使用超过一定阈值时,进行短信、邮件预警。运维人员根据报警内容,查询相关日志内容并分析,给出故障原因。但是,交易失败率、CPU、内存达到一定阈值并进行预警,往往受人为因素影响较大。当阈值设置过低,容易造成大量误警的“报警风暴”、浪费运维人力,阈值设定过高,则增加漏报风险;同时,对于运维人员来说,大量的检索日志,存在着重复性工作,一定程度上降低了工作效率。
由此可见,提供一种应用服务器的故障监测方法以提高故障监测的准确性和运维效率,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种应用服务器的故障监测方法及装置,提高应用服务器故障监测的准确性和运维效率。
为实现上述目的,本发明提供以下技术方案:
第一方面,本发明提供一种应用服务器的故障监测方法,包括:
获取应用服务器上调用信息对应的日志文件和操作系统日志;
根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;
基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
进一步地,在获取应用服务器上调用信息对应的日志文件之后,还包括:
对所述日志文件中的数据进行清洗得到清洗日志文件;
相对应的,根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,包括:
根据所述清洗日志文件提取所述应用服务器上的交易数据和耗时数据。
其中,所述对所述日志文件中的数据进行清洗得到清洗日志文件,包括:
提取所述日志文件中包含了目标数据的日志记录,确定所述日志记录为清洗日志文件;其中,所述目标数据包括:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型和全流程流水号。
进一步地,在基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果之后,还包括:
对所述故障监测结果进行核实处理得到故障核实结果;
根据所述故障核实结果对所述决策树模型进行训练处理,得到优化后的决策树模型。
进一步地,在基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果之后,还包括:
确定所述故障监测结果为应用服务器故障,则发送故障预警请求至服务端,以使服务端从根据所述故障预警请求从应用服务器的日志文件中获取方法出参数据。
其中,所述获取应用服务器上调用信息对应的日志文件和操作系统日志,包括:
将日志采集脚本部署至应用服务器,通过所述日志采集脚本获取日志文件和操作系统日志。
第二方面,本发明提供一种应用服务器的故障监测装置,包括:
采集模块,用于获取应用服务器上调用信息对应的日志文件和操作系统日志;
提取模块,用于根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;
监测模块,用于基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
进一步地,还包括:
过滤模块,用于对所述日志文件中的数据进行清洗得到清洗日志文件;
相对应的,提取模块包括:
提取子模块,用于根据所述清洗日志文件提取所述应用服务器上的交易数据和耗时数据。
其中,所述过滤模块包括:
过滤子模块,用于提取所述日志文件中包含了目标数据的日志记录,确定所述日志记录为清洗日志文件;其中,所述目标数据包括:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型和全流程流水号。
进一步地,还包括:
核对模块,用于对所述故障监测结果进行核实处理得到故障核实结果;
优化模块,用于根据所述故障核实结果对所述决策树模型进行训练处理,得到优化后的决策树模型。
进一步地,还包括:
故障预警模块,用于确定所述故障监测结果为应用服务器故障,则发送故障预警请求至服务端,以使服务端从根据所述故障预警请求从应用服务器的日志文件中获取方法出参数据。
其中,所述采集模块包括:
采集子模块,用于将日志采集脚本部署至应用服务器,通过所述日志采集脚本获取日志文件和操作系统日志。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的应用服务器的故障监测方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的应用服务器的故障监测方法的步骤。
由上述技术方案可知,本发明提供一种应用服务器的故障监测方法及装置,通过获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。能够有效提高应用服务器故障监测的准确性和运维效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的应用服务器的故障监测方法的第一流程示意图。
图2为本发明实施例中的应用服务器的故障监测方法的第二流程示意图。
图3为本发明实施例中的应用服务器的故障监测方法的第三流程示意图。
图4为本发明实施例中的应用服务器的故障监测方法的第四流程示意图。
图5为本发明实施例中的应用服务器的故障监测装置的结构示意图。
图6为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种应用服务器的故障监测方法的实施例,参见图1,所述应用服务器的故障监测方法具体包含有如下内容:
S101:获取应用服务器上调用信息对应的日志文件和操作系统日志;
在本步骤中,应用在服务调用、数据库调用、与外界系统交互时,记录应用服务器具体的调用信息(日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型、全流程流水号),并将调用信息记录到文件中,生成相应的日志文件。
需要说明的是,操作系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。
本实施例中提供一种获取应用服务器上调用信息对应的日志文件和操作系统日志的具体实现方式:将日志采集脚本部署至应用服务器,通过日志采集脚本获取日志文件和操作系统日志。
通过自主编程实现的日志采集脚本,并基于Fluentd(td-agent)的系统日志采集方法,获取日志文件和操作系统日志,用于下一步数据的处理。
S102:根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;
在本步骤中,根据日志文件中的调用信息,提取应用服务器的总交易量、交易失败量、交易失败率、最大耗时、平均耗时、耗时中位数。同时,对操作系统日志进行解析,提取应用服务器的硬件运行数据。其中,交易数据包含:总交易量、交易失败量和交易失败率。耗时数据包含:最大耗时、平均耗时和耗时中位数。硬件运行数据包含:磁盘空间使用率、CPU使用率和内存使用情况。
可以理解的是,调用信息包含:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型、全流程流水号。
S103:基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
在本步骤中,通过预设的决策树模型对应用服务器进行故障诊断。周期性获取应用服务器的所述交易数据、所述耗时数据、所述硬件运行数据,根据获取的数据判断应用服务器当前的状态是否故障。
在本实施例中,通过收集日志信息、硬件运行信息,利用预先通过机器学习技术训练的决策树模型,并根据决策树模型的预测结果判定应用服务器是否故障。实施简单,能够在故障未发生时及时预警,一定程度上降低了生产事故发生的概率。
从上述描述可知,本发明实施例提供的应用服务器的故障监测方法,通过获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。能够有效提高应用服务器故障监测的准确性和运维效率。
在本发明的一实施例中,参见图2,所述应用服务器的故障监测方法的步骤S101之后,具体包含有如下内容:
S104:对所述日志文件中的数据进行清洗得到清洗日志文件;
相对应的,步骤S102根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据,包括:
S1021:根据所述清洗日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据。
需要说明的是,应用服务器针对应用的一次调用请求,会记录两条日志信息,但关键性的数据只会记录在日志标识为E的日志中。
在本实施例中,对采集到的日志文件进行日志文件数据的清洗,得到日志标识为E的日志,并对另外一条日志数据进行过滤,以降低日志文件的数据量,提升后续步骤的处理速度。
具体实施时,提取所述日志文件中包含了目标数据的日志记录,确定所述日志记录为清洗日志文件;其中,含了目标数据的日志记录即为日志标识为E的日志。目标数据包括:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型和全流程流水号。
在本发明的一实施例中,参见图3,所述应用服务器的故障监测方法的步骤S103之后,具体包含有如下内容:
S105:对所述故障监测结果进行核实处理得到故障核实结果;
S106:根据所述故障核实结果对所述决策树模型进行训练处理,得到优化后的决策树模型。
在本实施例中,对故障监测结果进行核实处理,能够确定故障监测结果是否准确。将得到故障核实结果准确的故障监测结果作为决策树模型的训练数据,实现增加了决策树模型的训练数据且改变决策树的深度。通过增加后的训练数据对决策树模型进行调优,得到精度更高的决策树模型,进而提高决策树模型的预测精度。
在本发明的一实施例中,参见图4,所述应用服务器的故障监测方法的步骤S103之后,具体包含有如下内容:
S107:确定所述故障监测结果为应用服务器故障,则发送故障预警请求至服务端,以使服务端从根据所述故障预警请求从应用服务器的日志文件中获取方法出参数据。
在本实施例中,预测应用服务器故障时,需要发送故障预警请求至服务端(后台),服务端在接收到故障预警请求后,服务端从根据故障预警请求从应用服务器的日志文件中获取方法出参数据,并展示应用服务器具体的错误信息。
在本发明的一实施例中,提供应用服务器的故障监测方法中预设的决策树模型的训练方法的实施例,具体包含有如下内容:
本实施例中决策树模型的训练方法,是通过对应用服务器进行破坏性测试(对数据库、网络进行破坏,使应用服务不可用),提取应用服务器的标签数据(标签数据即对数据进行打标,标识这条数据是正例还是负例,具体提取步骤详见下述的标签提取部分);同时,对采集到的日志文件进行清洗,并根据日志记录的时间和破坏性测试时间做比较和统计,得到特征数据;利用极端梯度提升(XGBoost)机器学习算法对特征数据和标签数据合成的样本数据训练得到应用服务器是否故障的决策树模型。具体操作包括:
(1)数据清洗。应用服务器针对应用一次调用请求,会记录两条日志信息,但关键性的数据只会记录在日志标识为E的日志中。因此对采集到的日志文件数据中,另外一条日志数据进行过滤,以降低数据量,提升后续步骤的处理速度。其中,关键性的数据指的是调用信息,调用信息包含;日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型、全流程流水号.
(2)特征提取。根据日志文件中的调用信息,提取应用服务器在某一时刻最近10/30/60/180/300秒内总交易量、交易失败量、交易失败率、最大耗时、平均耗时、耗时中位数。同时,对操作系统日志解析,提取应用服务器在当前时刻的磁盘空间使用率、CPU使用率、内存使用情况。具体特性详见如下表1所示。
表1特性详细表
维度 特征
最近10/30秒钟 最大耗时/平均耗时/耗时中位数
最近1/3/5分钟 最大耗时/平均耗时/耗时中位数
最近10/30秒钟 总交易量/成功交易量/失败交易量
最近1/3/5分钟 总交易量/成功交易量/失败交易量
最近10/30秒钟 总技术交易量/成功技术交易量/失败技术交易量
最近1/3/5分 总技术交易量/成功技术交易量/失败技术交易量
最近10/30秒钟 总业务交易量/成功业务交易量/失败业务交易量
最近1/3/5分钟 总业务交易量/成功业务交易量/失败业务交易量
最近1/3/5分钟 磁盘使用情况
最近1/3/5分钟 Cpu使用情况
最近1/3/5分钟 内存使用情况
(3)标签提取。通过不间断的对应用服务器进行破坏性测试和非破坏性测试,提取应用服务器在某一时刻是否故障的标志。当进行破坏性测试时,服务器是故障的;当进行非破坏性测试时,服务器是非故障的。
(4)样本生成。确定第2步得到的特征数据和第3步得到的标签数据,将特征数据和标签数据根据时间进行关联操作,生成相应的样本数据。
具体格式可参考如下:标签:特征1特征2特征3特征4特征5。
(5)模型训练。根据第4步得到的样本数据,利用极端梯度提升(XGBoost)机器学习算法,对样本进行训练,并得到相应的树模型。
需要说明的是,极端梯度提升(XGBoost)是建立K个回归树,使得树群的预测值尽可能的接近真实值而且有尽量大的泛化能力。回归树是可以用于回归的决策树模型。它的每个非叶子节点也是需要根据某个特征分出子树,但是这个特征的取值是连续的,一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一颗决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始,待测数据域决策树中的特征节点进行比较,并按照比较结果选择下一比较分支,直到叶子节点作为最终的决策结果。
从上述描述可知,本实施例通过数据采集、特征生成、模型训练、模型调优等措施,得到一个精度较高的预测应用服务器是否故障的决策树模型,将该决策树模型在线上实时预测应用服务器是否故障,当故障时,发生预警。该过程相比于现有技术来说,是事前型的,即在应用服务器发生故障前就能通知到相应的应用支持人员和开发人员,他们根据相关的日志信息制定相应的解决方案,从而在一定程度上降低了生产事故的发生,并提高了运维效率。
本发明实施例提供一种能够实现所述应用服务器的故障监测方法中全部内容的应用服务器的故障监测装置的具体实施方式,参见图5,所述应用服务器的故障监测装置具体包括如下内容:
采集模块10,用于获取应用服务器上调用信息对应的日志文件和操作系统日志;
提取模块20,用于根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;
监测模块30,用于基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
进一步地,还包括:
过滤模块,用于对所述日志文件中的数据进行清洗得到清洗日志文件;
相对应的,提取模块包括:
提取子模块,用于根据所述清洗日志文件提取所述应用服务器上的交易数据和耗时数据。
其中,所述过滤模块包括:
过滤子模块,用于提取所述日志文件中包含了目标数据的日志记录,确定所述日志记录为清洗日志文件;其中,所述目标数据包括:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型和全流程流水号。
进一步地,还包括:
核对模块,用于对所述故障监测结果进行核实处理得到故障核实结果;
优化模块,用于根据所述故障核实结果对所述决策树模型进行训练处理,得到优化后的决策树模型。
进一步地,还包括:
故障预警模块,用于确定所述故障监测结果为应用服务器故障,则发送故障预警请求至服务端,以使服务端从根据所述故障预警请求从应用服务器的日志文件中获取方法出参数据。
其中,所述采集模块包括:
采集子模块,用于将日志采集脚本部署至应用服务器,通过所述日志采集脚本获取日志文件和操作系统日志。
本发明提供的应用服务器的故障监测装置的实施例具体可以用于执行上述实施例中的应用服务器的故障监测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本发明实施例提供的应用服务器的故障监测装置,通过获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。能够有效提高应用服务器故障监测的准确性和运维效率。
本申请提供一种用于实现所述应用服务器的故障监测方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述应用服务器的故障监测方法的实施例及用于实现所述应用服务器的故障监测装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图6为本申请实施例的电子设备9600的系统构成的示意框图。如图6所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图6是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,应用服务器的故障监测功能可以被集成到中央处理器9100中。
其中,中央处理器9100可以被配置为进行如下控制:
获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
从上述描述可知,本申请的实施例提供的电子设备,通过获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。能够有效提高应用服务器故障监测的准确性和运维效率。
在另一个实施方式中,应用服务器的故障监测装置可以与中央处理器9100分开配置,例如可以将应用服务器的故障监测配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现应用服务器的故障监测功能。
如图6所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图6中所示的所有部件;此外,电子设备9600还可以包括图6中没有示出的部件,可以参考现有技术。
如图6所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明的实施例还提供能够实现上述实施例中的应用服务器的故障监测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的应用服务器的故障监测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
从上述描述可知,本发明实施例提供的计算机可读存储介质,通过获取应用服务器上调用信息对应的日志文件和操作系统日志;根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。能够有效提高应用服务器故障监测的准确性和运维效率。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域技术人员应明白,本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (14)

1.一种应用服务器的故障监测方法,其特征在于,包括:
获取应用服务器上调用信息对应的日志文件和操作系统日志;
根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;
基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
2.根据权利要求1所述的应用服务器的故障监测方法,其特征在于,在获取应用服务器上调用信息对应的日志文件之后,还包括:
对所述日志文件中的数据进行清洗得到清洗日志文件;
相对应的,根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,包括:
根据所述清洗日志文件提取所述应用服务器上的交易数据和耗时数据。
3.根据权利要求2所述的应用服务器的故障监测方法,其特征在于,所述对所述日志文件中的数据进行清洗得到清洗日志文件,包括:
提取所述日志文件中包含了目标数据的日志记录,确定所述日志记录为清洗日志文件;其中,所述目标数据包括:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型和全流程流水号。
4.根据权利要求1所述的应用服务器的故障监测方法,其特征在于,在基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果之后,还包括:
对所述故障监测结果进行核实处理得到故障核实结果;
根据所述故障核实结果对所述决策树模型进行训练处理,得到优化后的决策树模型。
5.根据权利要求1所述的应用服务器的故障监测方法,其特征在于,在基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果之后,还包括:
确定所述故障监测结果为应用服务器故障,则发送故障预警请求至服务端,以使服务端从根据所述故障预警请求从应用服务器的日志文件中获取方法出参数据。
6.根据权利要求1所述的应用服务器的故障监测方法,其特征在于,所述获取应用服务器上调用信息对应的日志文件和操作系统日志,包括:
将日志采集脚本部署至应用服务器,通过所述日志采集脚本获取日志文件和操作系统日志。
7.一种应用服务器的故障监测装置,其特征在于,包括:
采集模块,用于获取应用服务器上调用信息对应的日志文件和操作系统日志;
提取模块,用于根据所述日志文件提取所述应用服务器上的交易数据和耗时数据,以及根据所述操作系统日志提取应用服务器的硬件运行数据;
监测模块,用于基于所述交易数据、所述耗时数据、所述硬件运行数据和预设的决策树模型确定应用服务器的故障监测结果;其中,所述决策树模型用于根据应用服务器的交易数据、耗时数据、硬件运行数据确定应用服务器当前的状态是否故障。
8.根据权利要求7所述的应用服务器的故障监测装置,其特征在于,还包括:
过滤模块,用于对所述日志文件中的数据进行清洗得到清洗日志文件;
相对应的,提取模块包括:
提取子模块,用于根据所述清洗日志文件提取所述应用服务器上的交易数据和耗时数据。
9.根据权利要求8所述的应用服务器的故障监测装置,其特征在于,所述过滤模块包括:
过滤子模块,用于提取所述日志文件中包含了目标数据的日志记录,确定所述日志记录为清洗日志文件;其中,所述目标数据包括:日志记录时间、日志标识、调用耗时、上游节点IP地址、方法名、方法入参、方法出参、方法返回码、返回码类型和全流程流水号。
10.根据权利要求7所述的应用服务器的故障监测装置,其特征在于,还包括:
核对模块,用于对所述故障监测结果进行核实处理得到故障核实结果;
优化模块,用于根据所述故障核实结果对所述决策树模型进行训练处理,得到优化后的决策树模型。
11.根据权利要求7所述的应用服务器的故障监测装置,其特征在于,还包括:
故障预警模块,用于确定所述故障监测结果为应用服务器故障,则发送故障预警请求至服务端,以使服务端从根据所述故障预警请求从应用服务器的日志文件中获取方法出参数据。
12.根据权利要求7所述的应用服务器的故障监测装置,其特征在于,所述采集模块包括:
采集子模块,用于将日志采集脚本部署至应用服务器,通过所述日志采集脚本获取日志文件和操作系统日志。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的应用服务器的故障监测方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的应用服务器的故障监测方法的步骤。
CN202110352583.4A 2021-03-31 2021-03-31 应用服务器的故障监测方法及装置 Pending CN112860527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110352583.4A CN112860527A (zh) 2021-03-31 2021-03-31 应用服务器的故障监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110352583.4A CN112860527A (zh) 2021-03-31 2021-03-31 应用服务器的故障监测方法及装置

Publications (1)

Publication Number Publication Date
CN112860527A true CN112860527A (zh) 2021-05-28

Family

ID=75992078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110352583.4A Pending CN112860527A (zh) 2021-03-31 2021-03-31 应用服务器的故障监测方法及装置

Country Status (1)

Country Link
CN (1) CN112860527A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114640567A (zh) * 2022-02-23 2022-06-17 中银金融科技有限公司 Apache日志的分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN110555004A (zh) * 2019-07-30 2019-12-10 北京奇艺世纪科技有限公司 服务的监控方法、装置、计算机设备及存储介质
CN111290922A (zh) * 2020-03-03 2020-06-16 中国工商银行股份有限公司 服务运行健康度监测方法及装置
CN112181767A (zh) * 2020-09-27 2021-01-05 深圳前海微众银行股份有限公司 软件系统异常的确定方法、装置和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN110555004A (zh) * 2019-07-30 2019-12-10 北京奇艺世纪科技有限公司 服务的监控方法、装置、计算机设备及存储介质
CN111290922A (zh) * 2020-03-03 2020-06-16 中国工商银行股份有限公司 服务运行健康度监测方法及装置
CN112181767A (zh) * 2020-09-27 2021-01-05 深圳前海微众银行股份有限公司 软件系统异常的确定方法、装置和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114640567A (zh) * 2022-02-23 2022-06-17 中银金融科技有限公司 Apache日志的分析方法及装置

Similar Documents

Publication Publication Date Title
CN112612675B (zh) 微服务架构下的分布式大数据日志链路跟踪方法及系统
CN110442498B (zh) 异常数据节点的定位方法、装置、存储介质及计算机设备
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US20190163552A1 (en) System and method for contextual event sequence analysis
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
CN112434178B (zh) 图像分类方法、装置、电子设备和存储介质
CN109005162B (zh) 工控系统安全审计方法及装置
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN110245077A (zh) 一种程序异常的响应方法及设备
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN113360722A (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN112087320B (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN108613820A (zh) 一种用于gis本体机械缺陷诊断和定位的在线异声监测算法
CN116302989A (zh) 压力测试方法及系统、存储介质、计算机设备
Zhebka et al. Methodology for Predicting Failures in a Smart Home based on Machine Learning Methods
CN112860527A (zh) 应用服务器的故障监测方法及装置
CN113128986A (zh) 长链路交易的报错处理方法及装置
CN116032725B (zh) 故障根因定位模型的生成方法及装置
CN113123955A (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
CN114500178B (zh) 一种自运维的智慧物联网关
CN113626236B (zh) 一种分布式文件系统的故障诊断方法、装置、设备及介质
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质
CN112232960B (zh) 交易应用系统监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination