盛大游戏
运维体系
Agenda
盛大游戏运维体系综述
分子系统介绍
游戏运维体系未来展望
Agenda
盛大游戏运维体系综述
分子系统介绍
游戏运维体系展望
盛大游戏运维体系发展历程
可操作
可控制
可管理
自2004年开始,随着服务器数量的快速增长,盛大着手建立
游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式,
提高生产效率
随着自动化体系日益丰富,盛大开始建立报警和监控
系统,快速准确地发现和定位故障,提高运维稳定性
为了更好支持快速发展的业务,运维工作必须朝着
化、
化、可管理的方向发展,08年起盛大也逐步引
入ITIL、安全标准等理念,打造盛大模式的运维体系
盛大游戏运维体系-四大主要部分
• 安全审计
• 应用安全
• 系统安全
• 网络安全
• 事件管理
• 问题管理&知识库
• 变更管理
• 配置管理
• 盛大监控服务体
系
• 服务器虚拟化
• Octopod
• Autopatch
• Uniweb
• 等等
自动化
管理
自动化
监控
安全管
理
流程管
理
Agenda
盛大游戏运维体系综述
分子系统介绍
游戏运维体系未来展望
服务器远程操作平台--Octopod
Octopod是盛大自主研发的服务器远
程管理系统,系统管理员无需再服
务器现场即可完成所有操作。
操作管理信息管理
Octopod Server
基础框架
Octopod Client
用户管理 补丁管理 日志管理 游戏管理
远
程
桌
面
通讯层
基础层
自动化
管理
自动化
监控
安全管
理
流程管
理
服务器虚拟化软件系统
盛大积极倡导虚拟化技术的运用:
• 虚拟化软件采用了盛大自主研发的虚拟化
操作系统
• 虚拟化管理系统和盛大的服务器管理系统
进行无缝的整合
自动化
管理
自动化
监控
安全管
理
流程管
理
高效
服务器虚拟化软件系统
盛大自2007年起建设和推广服务器虚拟化软件系统,
实现了以下目标:
•可将目前一主流台服务器虚拟成独立的多台不等的服务
器
•极大地提高了服务器的部署效率
节地 •大量节约服务器数量;
•大量节约机柜数量
节能 •大量节约电力
盛大游戏客户端补丁自动更新系统
盛大游戏客户端补丁自动更新系统可实现用户
管理、版本管理、补丁上传下发及校验等
功能。
冒险岛
泡泡堂
彩虹岛
热血传奇
传奇世界
英雄年代
……………
DLC前台服务器组
Master Slave
DLC后台服务器组
Autopatch服务器组……………
管理系统
任务信息
Patch文件
SVN
备份
自动化
管理
自动化
监控
安全管
理
流程管
理
盛大业务运维监控体系
盛大业务运维监控体系有针对性地对所有可
能影响游戏运营的因素进行全方位的监控
和数据采集、
,目前能展示10万多条
再现人数和性能曲线,监控覆盖率达
100%,报警有效率达70%以上。
游戏服务器端应用
系统程序
服务器、网络设备
硬件
机房、链路
游戏客户端
•游戏客户端质量监控
•游戏服务器端程序监控
•系统日志的收集和分析
•游戏服务器健康检查
和性能监控
•网络设备和流量监控
•IDC网络质量监控
•IDC机房连通性监控
游
戏
人
数
监
控
自动化
管理
自动化
监控
安全管
理
流程管
理
盛大业务运维监控体系
盛大业务运维监控体系的监控范围包括:
游戏在线人数监控;
游戏服务器端程序监控;
游戏服务器健康检查和性能监控;
系统日志的收集和分析;
网络设备和流量监控;
IDC网络质量监控;
IDC机房连通性监控;
其他专项业务监控
盛大业务运维监控体系
盛大业务运维监控体系的系统特点如下:
从客户端到服务器端的完整覆盖;
支持统一的监控策略配置和完整性检查;
丰富的监控曲线展示界面;
海量报警信息的有效关联和过滤;
与ITIL事件管理紧密结合,报警自动转化为应急响
应工作平台的事件单
7*24小时处理。
玩家
玩家 玩家
玩家
运维安全体系
自动化
管理
自动化
监控
安全管
理
流程管
理安全审计
内部用户登录审计、外部用户权限审计、内部用户操作行为审计
应用安全
•Web漏洞扫描
•Webshell监控
•渗透性测试
•Web代码审计
系统安全
•补丁分发管理
•主机访问控制
•病毒扫描
•漏洞跟踪
网络安全
•ARP攻击测试
•DDOS攻击防御
•网络访问控制
•网络流量分析
运维安全-网络安全
ARP攻击监控
报警
• 自研开发每3
分钟检测一
次
• 发现攻击及
时上报至应
急响应平台
DDOS攻击
防御
• 千兆级抗
DDOS设备
+ACL过滤常见
攻击
• 旁路式全局
DDOS流量清
洗
网络访问
控制
• 防火墙实现
• 交换机ACL实
现
网络流量分析
• 基于Netflow自
研开发
• 实施完成后通
过快速分析异
常流量
• 迅速定位攻击
类型及时响应
网络安全 ARP攻击检测 DDOS攻击防御 网络访问控制 网络流量分析
运维安全体系-系统安全
补丁管理
• 基于Octopod
• 万台服务器补
丁快速分发安
装与检查
主机访问控制
• Uinx/Linux采用
iptables实施控
制
• Windows采用
ipsec实施控制
病毒扫描
• 统一的病毒库
升级策略
• 统一的全网病
扫描策略
• 统一的事件上
报应急响应平
台策略
漏洞跟踪
• 跟踪国外安全
机构最新漏洞
• 跟踪黑客群体
最新动向
• 跟踪最新0day
• 及时预警采取
应对
系统安全 补丁分发管理 主机访问控制 病毒扫描 漏洞跟踪与预警
运维安全体系-应用安全
Web漏洞扫描
• 发现和消除网
站安全漏洞
• 自动化工具定
期扫描
Webshell监控
• 自研开发,对
公司网站每小
时扫描一次
• 统一的网站检
测策略
• 检测报警上报
应急响应平台
渗透性测试
• 定期对内部系
统进行安全性
测试
• 查找权限问题
• SQL注入
• 跨站脚本
• 及时修补安全
问题
网站代码审计
• 通过网站上
线前的代码
检查机制
• 及时处理网
站存在安全
漏洞
应用安全 Web漏洞扫描 web代码审计Webshell监控 渗透性测试
运维安全体系-安全审计
登录审计
• 实现对服务器登录日
志的审计
• 实现内部应用系统登
录日志的审计
• 审计登录中存在的异
常的行为
权限审计
• 实现对用户访问服务
器权限的审计
• 实现对用户访问内部
应用系统的审计
• 审计出不合理的权限
• 消除安全隐患
操作行为审计
• 实现对windows图形
环境屏幕录像审计
• 实现对Octopod操作
日志的审计
• 实现内部应用系统操
作行为的审计
• 审计异常和违规的操
作行为
安全审计 内部用户登录审计 内部用户权限审计 内部用户操作行为审计
运维服务管理体系
随着系统、技术的日益复杂,维护水平要求的
逐步提高,盛大运维团队借鉴业界最佳实践
ITIL的理念,从人员、流程、技术等各方面着
手,逐步提升管理能力,以有限的人力支持不
断扩展的游戏数量。
自动化
管理
自动化
监控
安全管
理
流程管
理
人员
技术
服务
流程
以服务导向取代技
术导向
参考业界最佳实践,
建设规范化流程
调整组织结构,以适应业
务和流程的需求,并实现
量化考核
通过合适的技术,固化流
程,以及提升自动化程度
Information Lifecycle
Management
Service Continuity Management
A Group
监控体系
变更管理
A Group
事件管理
报警事件
设备管理平台/
配置管理数据库
A Group
问题管理
变更请求
变更请求
数据采集/校验
IT服务管理体系
借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、
变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应#管理
#、
流程的推行,使得所提供的服务日趋稳定和成熟。
配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。
运维服务管理体系
知识库
Agenda
盛大游戏运维体系综述
分子系统介绍
游戏运维体系未来展望
盛大游戏运维体系框架—建设愿景
盛大游戏运维体系框架—建设重点
持续发展体系框架下的各模块:
运维自动化
服务器自动安装
服务器虚拟化推广
系统软件自动安装
应用软件自动安装和版本管理
客户端补丁自动更新
监控自动化
全景监控策略配置和监控展示
流程管理
服务导向为核心,建设服务保障
平台
THANK YOU