关注VPS服务器
相关知识分享

云服务器CPU使用率100%和系统负载高的解决案例

服务器CPU使用率100%和系统负载过高的时候,你可能会怀疑中病毒、被黑、被攻击,又或者建站程序、java程序、测试程序有问题等多种原因。当你重做系统之后如果还是频繁发生此类问题,有另外一种可能性不知道你注意过没有,就是来自官方监控程序的问题。

老魏提示:云服务器CPU使用率100%和系统负载高的原因有很多,本文分享一个真实案例,仅代表其中一个可能的原因及解决办法。这类问题的起因并不都由腾讯云·云镜导致,每台服务器部署程序不同、访问量不同、主机配置低、安全防护情况不同、管理者技术水平不同都可能导致CPU使用率100%,老魏遇到的是个例,仅代表求助者的个体情况,不能说凡是遇到 CPU负载100%都是这个原因!

云服务器CPU使用率100%和系统负载高

云服务器CPU使用率100%和系统负载高

CPU使用率100%和服务器负载高

一位朋友求助说服务器 CPU 100%负载和服务器负载过高,差不多每隔几天就有这么一次,很是头疼。为了重新安装了服务器操作系统,之后不久又重新犯病了。登陆腾讯云控制台仔细观察监控详情后发现时间主要在半夜 0点,如下图所示:

服务器 CPU 100%负载和服务器负载过高

服务器 CPU 100%负载和服务器负载过高

如果把监控时间缩短一点就会看到,间隔几天的 0点就会发现 CPU短时间内(持续时间大概 10秒左右) 100%满载,带宽、硬盘I/O读写也会同步大幅度变化的情况。

可能是云镜程序的问题

在老魏的帮助下排除了建站程序、宝塔面板等等众多可能出现问题的地方,后来老魏通过宝塔面板专业版的任务管理器 > 计划任务发现每天的 0时0分有一个计划任务定时执行,程序名中有 YunJing、YDCrontab字样,这就是腾讯云的云镜监控程序。

腾讯云云镜监控程序定时执行

腾讯云云镜监控程序定时执行

经过了解得知这个程序属于购买服务器时默认勾选的项目,云镜也叫主机安全,是腾讯云提供黑客入侵检测和漏洞监测等安全防护的服务。阿里云也有类似云安全服务器叫云盾(安骑士)。不管云镜还是云盾都会定期、不定期的启动安全扫描,检测你的服务器,以获取安全情况。

想办法解决问题

猜测可能是因为每天 0点的程序启动扫描对服务器 CPU、负载、带宽、硬盘造成了较大压力,那么接下来想想办法怎么解决。

经过询问腾讯云客服得知有以下两个解决办法:

1、升级云镜

通过执行命令查看云镜版本

/usr/local/qcloud/YunJing/YDEyes/YDService -v

如果版本低就尝试升级到最新版本,比如 2.1版本升级命令如下

wget http://u.yd.tencentyun.com/ydeyes/download/ydeyes_linux64_2.1.0.198.tar.gz && tar zxvf ydeyes_linux64_2.1.0.198.tar.gz && sh self_cloud_install_linux64.sh

具体你遇到此类问题时的云镜最新版本可以发工单问客服要。

升级后继续观察,如果 CPU还是持续满载请看下面的解决办法。

2、卸载云镜

具体位于腾讯云控制台 > 主机安全> 主机列表 > 找到服务器最右侧点击【卸载】如下图所示:

腾讯云主机安全卸载云镜

腾讯云主机安全卸载云镜

点击【卸载】后等待几分钟再刷新页面,看那里是不是变成了“重新安装”,状态是不是显示“已离线”。如果几分钟后还是不变的话,那么就要执行下面的命令才好用:

/usr/local/qcloud/stargate/admin/uninstall.sh
/usr/local/qcloud/YunJing/uninst.sh
/usr/local/qcloud/monitor/barad/admin/uninstall.sh

阿里云的 linux服务器执行命令:

/etc/init.d/aegis uninstall

就可以卸载云盾了。

然后再观察服务器情况,长时间数据平稳的话就没问题了。

注意事项

1、买服务器时可以取消勾选主机安全(云镜)的这种程序,不让它出现在服务器中;如果你使用中遇到了这种情况考虑卸载。

2、卸载云镜和云盾后无法继续监测服务器详细情况,比如 CPU、内存、硬盘、带宽的情况都看不到了。如果有宝塔面板可以在【监控】里看到相关数据。这三个云产品都是调用系统底层接口数据展示出来,没差别的。

更多点我直达宝塔面板官网了解,宝塔官方赠送3188元优惠券礼包。新用户可享受0.99元体验1个月专业版。

3、有的服务器安装云镜后启动扫描时没有造成这么大的压力也不会影响业务正常访问,而且即使影响了时间也很短,你可以观察自己服务器上的监控程序扫描时间和监控结果再做打算。

后续经过将近1个月时间的观察,CPU负载很少出现100%的情况了,基本上来说这个麻烦解决了。最后老魏还是提醒大家具体问题具体分析,对症下药。

总体上来说云服务器CPU使用率100%和系统负载高的原因有很多种,并不全是因为监控程序扫描造成的。比如当服务器配置无法满足当前业务需要时就会发生这类情况。所以说我们遇到这类问题的时候要先用排除法一个个排除,然后寻找蛛丝马迹,揪出导致服务器满载的罪魁祸首,再解决问题。

本文是全系列中第7 / 208篇:腾讯云

赞(0) 打赏
允许转载,保留出处:魏艾斯笔记 » 云服务器CPU使用率100%和系统负载高的解决案例

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏