谁都知道我健忘,可我常常空想也会红了眼眶。
一服务器怎么运营
检查磁盘使用率当磁盘使用率超过80%可以清除一些日志文件
检查内存使用情况当内存使用过多时需要检查是哪个进程占用是否合理
检查CPU使用情况负载大小当CPU使用过多负载过大时需要检查是哪个进程占用是否合理
检查服务器网卡接口的数据统计和每秒收发包的个数和流量
还需要结合服务器的业务当然这些可用使用监控软件自动检查故障报警等实时掌握服务器的运行情况
二服务器运营注意事项
1提前检查
服务器和网站漏洞检测对Web漏洞弱口令潜在的恶意行为违法信息等进行定期扫描
代码的定期检查安全检查漏洞检查
服务器安全加固安全基线设置安全基线检查
数据库执行的命令添加字段加索引等必须是经过测试检查的命令才能在正式环境运行
2数据备份
服务器数据备份包括网站程序文件备份数据库文件备份配置文件备份如有资源最好每小时备份和异地备份
建立五重备份机制常规备份自动同步LVM快照Azure备份S3备份
定期检查备份文件是否可用避免出故障后备份数据不可用
重要数据多重加密算法加密处理
程序文件版本控制测试发布故障回滚
3安全监控
nagios监控服务器常规状态CPU负载内存磁盘流量超过阈值告警
zabbix或cacti监控服务器常规状态CPU负载内存磁盘流量等状态可以显示历史曲线方便排查问题
监控服务器SSH登录记录iptables状态进程状态有异常记录告警
监控网站WEB日志(包括nginx日志php日志等)可以采用EKL来收集管理有异常日志告警
运维人员都要接收告警邮件和短信至少所负责的业务告警邮件和短信必须接收运维经理接收重要业务告警邮件和短信(除非是专职运维开发)
除服务器内部监控外最好使用第三方监控从外部监控业务是否正常(监控URL端口等)比如监控宝
4故障避免预防
网站WEB增加WAF避免XSS跨站脚本SQL注入网页挂马等漏洞威胁
程序代码连接数据库memcacheredis等可以使用域名(域名HOSTS指定IP)当出问题有备用的服务器就可以通过修改DNS或者HOSTS恢复服务
建立应急预案机制定期演练事故场景估算修复时间
部署蜜罐系统防范企业和服务器内网APT攻击
建立双活集群包括业务服务的高可用避免业务服务单点
服务器集群采用跳板机或堡垒机登录避免服务器集群每台服务器可以远程连接管理
操作重要业务升级迁移扩容之前列一下操作步骤越详细越好实际操作按步骤操作操作完做好记录
5事中操作
网站WEB增加WAF发现XSSSQL注入网页挂马等攻击会自动拦截并记录日志
检查服务器数据备份是否可用
在处理需求和故障时执行风险命令(比如rmrestartreboot等)需再三确认执行命令前检查所在服务器所在服务器路径再执行
不要疲劳驾驶喝酒不上机上机不喝酒尤其别动数据库避免在不清醒的状态下在服务器上执行了错误命令导致数据丢失或业务故障
在处理事故时一定要考虑处理措施是否会引发连锁故障重要操作三思而行
6事后检查分析
实现网络安全可视化管理可以看到每天有那些异常IP和异常URL请求服务器集群开放端口列表等能对全网进行安全策略集中管理统一日志收集和分析
备份及篡改恢复功能程序文件图片数据文件配置文件的备份故障回滚机制
对攻击日志进行深度分析展现攻击路径攻击源协助管理员溯源
践行DevOps的无指责文化尤其是在做事故分析时事故分析重在定位原因制定改进措施