磁阵
• RAID技术
• 存储架构
• 现网磁阵与相关技术
• 磁阵与ZXFS
内部公开▲
引言
目前常见的磁盘,一般有IDE磁盘,SATA磁盘,
SCSI磁盘。这些磁盘在性能和可靠性上面差别很大。
衡量磁盘的性能,一般从可靠性、转速以及内部工艺
3个方面衡量。
更快的微处理器
低旋转颤动
单一的低成本微处理器
高旋转颤动
单一的低成本微处理器
高旋转颤动
性能
10000/15000 7400 5200/7200 转速
具有更好的测试
性能
支持热插拔,支持命令
排队
不支持热插拔,不支持
命令排队
特性
100%工作负载下
1.5M小时
20%工作负载下500K
小时
20%工作负载下300K小
时
平均故障间隔时间
SCSISATAIDE
内部公开▲
RAID基础
RAID (Redundant Array of Independent Disks)
冗余磁盘阵列
RAID由多个(最少2块)单独的硬盘组成一个大容量的
RAID组
RAID功效
通过在多个硬盘上同时存储和读取数据来提高存储系统
的数据吞吐量
采用校验或镜像备份措施,提高了存储系统的容错度和
稳定冗余性
RAID技术的核心思想就是”磁盘分带(stripping)”
RAID
内部公开▲
RAID类别
区分
软RAID:RAID 的所有功能都是操作系统(OS)与
CPU 来完成,效率低,成本低
硬RAID:采用专门的RAID 控制/处理与I/O 处理芯片,
效率高,成本高
常用RAID级别
RAID按照实现原理的不同分为不同的级别,不同的级
别之间工作模式是有区别的。整个的RAID结构是一些
磁盘结构,通过对磁盘进行组合达到提高效率,减少错
误的目的。
RAID0、RAID1、RAID4、RAID5、RAID6
内部公开▲
II
EE
RAID0
RAID0:没有容错设计的条带磁盘阵列,RAID0也叫条带
在存储数据时由RAID 控制器(硬件或软件)分割成大小相同的
数据块,同时写入阵列中的磁盘,就像一条带子横跨过所有的阵
列磁盘,并且每个磁盘上的条带深度是一样的
任何一块硬盘损坏数据无法恢复
Controller
AA
JJ
FF
BB
KK
GG
CC
……
HH
DD
内部公开▲
RAID1
RAID1:也叫镜像,两个硬盘的内容完全一样
在存储数据时将数据同时写入两个硬盘
任何一个硬盘的数据出现问题,可以马上从另一个硬
盘中进行恢复
Controller
CC
BB
AA
CC
BB
AA
内部公开▲
RAID4
RAID4:独立的数据硬盘与共享的校验硬盘
按数据块为单位进行存储,不同硬盘上的同级数据块通过XOR 进行校验,结果
保存在单独的校验盘。同级的概念就是指在每个硬盘中同一柱面同一扇区位置的
数据算是同级
任何一个硬盘上的数据块损坏,可以通过XOR 校验值和其它硬盘上的同级数据
进行恢复
RAID4的写瓶颈:由于RAID 4使用了一个专有的校验磁盘,所以, RAID 4在处
理写请求时有一个内在的瓶颈,阵列中的多个写操作都要读出校验数据,再重写
到单个磁盘,因此,校验磁盘是一个系统瓶颈
Controller
C0C0
B0B0
A0A0
C1C1
B1B1
A1A1
C2C2
B2B2
A2A2
C ParityC Parity
B ParityB Parity
A ParityA Parity
Block 0 Block1 Block 2 Blocks 0,1,2 Parity
内部公开▲
RAID5
与RAID4的差别:将校验数据以循环的方式放在每一个磁盘中,没有一
个专有校验磁盘,因而,没有像RAID 4一样的写瓶颈
任何一个硬盘上的数据块损坏,可以通过XOR 校验值和其它硬盘上的
同级数据进行恢复
我司光纤磁阵均采用RAID5
Controller
C0C0
B0B0
A0A0
C ParityC Parity
B1B1
A1A1
C1C1
B ParityB Parity
A2A2
C2C2
B2B2
A ParityA Parity
内部公开▲
D3D3D1D1 D2D2A ParityA Parity0 Parity0 Parity
RAID6
RAID4、RAID5:单校验,只能提供一块硬盘的故障冗余
RAID6:双校验,能够提供RAID中两块硬盘同时损坏的故障冗余,但性能也略
低于RAID4和RAID5,各厂商实现也不一致
富士通现在也推出了RAID6
NetAPP的RAIDDP即为RAID6的一种实现方式,如湖北中心节点采用NetAPP的
NAS磁阵就是作的RAIDDP,如下图所示。RAIDDP性能相比RAID4约低2%-3%
Controller
C0C0
B0B0
A0A0
1 Parity1 Parity
B1B1
A1A1
B ParityB Parity
2 Parity2 Parity
A2A2
C1C1
C ParityC Parity
3 Parity3 Parity
C2C2
B2B2
D ParityD Parity
内部公开▲
RAID各级别特点
(n-2)/n
的总磁盘容
量。其中n
为磁盘数
(n-1)/n
的总磁盘容
量。其中n
为磁盘数
(n-1)/n
的磁盘容
量。其中n
为磁盘数
只能用磁盘
容量的50%
总的磁盘容
量可用容量
4个或更多3个或更多3个或更多只需2个1个或多个需要的磁盘数
有有有有没有热备盘选项
双奇偶位奇偶位奇偶位复制没有冗余类型
有有有有没有容错性
RAID-6RAID-5RAID-4RAID-1RAID-0RAID级*
目录
• RAID技术
• 存储架构
• 现网磁阵与相关技术
• 磁阵与ZXFS
内部公开▲
存储架构
NAS
LAN
DAS
LAN
SAN
LAN
SAN
DAS:Direct Access Storage,直接访问存储
NAS:Network Attached Storage,网络附加存储
SAN:Storage Area Network,存储区域网络
内部公开▲
存储架构原理
LANLAN
SAN
LAN
SAN
DAS NAS
应用
文件系统
磁盘
磁盘阵列
服
务
器
应用
磁盘
文件系统
以太网
NAS产品
服
务
器 应用
磁盘
文件系统
存储区域网
磁盘阵列
服
务
器
内部公开▲
DAS
直连JBOD或磁盘阵列
JBOD(硬盘柜)
主要应用:为磁盘阵列扩容
其他应用:直接连接服务器
RAID功能实现:服务器实现软RAID或配置RAID卡
容量扩展:JBOD不可扩容
磁盘阵列
硬盘通道分:ATA、SCSI、FC、SAS…
主机通道分:SCSI、FC…
RAID功能实现:磁盘阵列内部控制器实现
容量扩展:可通过磁盘阵列或JBOD扩容
内部公开▲
NAS
IP架构存储:服务器使用GE卡和千兆交换机连接到
NAS设备
NAS磁阵内置文件系统,向服务器提供文件级的共享
通过NFS
支持所有的UNIX和LINUX主机系统
通过CIFS协议支持WINDOWS主机系统
可以实现异构系统(Windows、Unix和Linux)之间
的文件共享
系统扩展只需要通过增加文件共享mount点就可以进
行
内部公开▲
SAN
与局域网分离的专用网络,连接性与局域网无关
Fibre Channel或者iSCSI之类的高速接口,也叫FC
SAN或IP SAN
服务器上安装SAN共享文件系统(如ZXFS),实现对磁
阵上所有数据的共享
在服务器的后台以数据块(Blocks)的方式进行操作
是否支持异构系统受限于共享文件系统
内部公开▲
DAS/NAS/SAN比较
•远程存储级访问
•存储传输协议
•存储专用网络
•集中管理
•远程文件级访问
•利用网络传输协议
•共享网络带宽
•分布式管理
•本地数据块访问
•存储传输协议
•共享服务器资源
•分布式管理
特
点
缺
点
优
点
复杂
安装费用昂贵
互操作性差
专用的软件和硬件
扩展性不强,扩充成本高
受限于网络带宽
受局限的数据库支持
过分依赖主机
资源共享受限
磁盘空间利用率低
配置维护较复杂
传输距离、带宽和扩展性受限
高性能专用的传输网络
可达到5个9的数据高可用性
扩展性好
减少LAN负载
利用现有网络
较低的管理费用
跨平台的文件共享
强大网络连接能力
即插即用
较低的价格扩展服务器的存储
容量
较好的性能
独立设备不需太多管理
满足中小应用的存储需求
SANNASDAS
目录
• RAID技术
• 存储架构
• 现网磁阵与相关技术
• 磁阵与ZXFS
内部公开▲
现网磁阵型号
DELL/EMC CX300
最早在现网运行的型号,已停产,技术资料不全
FUJISTU E2K M100
目前供货型号
FUJITSU E3K M100
FUJITSU E4K M100
E3K/E4K M100为现网大规模运行的型号,已停产
下面主要以FUJITSU磁阵为例说明磁阵的相关技术
内部公开▲
FUJITSU E3K/E4K M100
M100由1个CE (Controller Enclosure)和1个DE
(Drive Enclosure)组成
CE包含2个CM (Controller Module)、15块硬盘和
2个BBU(Battery Backup Unit)
CM 负责控制 RAID group、RAID cache和 LUN
BBU用途是外部电源停电时,提供电能以保存cache
中的数据
DE就是JBOD,只有15块硬盘
内部公开▲
FUJITSU E3K/E4K M100示意图
….
….
CA : Channel Adapter
CM : Controller Module
DA : Device Adapter
(a logical unit on CM)
FC(2Gbps)
Fibre Channel (2Gbps) Maximum 4 paths
CPU(1.26GHz)
CACHE
CM CM
DA
CACHE
DA
CA CA
CPU(1.26GHz)
15 Disk/DE
Maximum 30 disk drives
Intel PIII 1.26GHz
2 x 512MB
RISC CPU
•分布式计算,控制器CPU不
参与RAID运算,仅负责协调
和控制器间数据传输
•RISC CPU负责具体数据运算
内部公开▲
FUJITSU E2K M100示意图
外部电源停电时,提供电能以保存cache中的数0
SAS
1
SAS
2
SAS
10
SATA
11
SATA
SAS
x2
DDR2
SAS Exp
DDR2
SAS Exp PLD
Ext SAS x4Ext SAS x4
RAID on Chip
PSUPSU
SAS Exp SAS Exp
PSUPSU
FAN
LAN
PLD
LAN
PLDPLD
0
SAS
1
SAS
2
SAS
10
SATA
11
SATA
Controller Module Controller Module
Expander Unit Expander Unit
Controller Enclosure
Drive Enclosure PNL
PNL
RAID on Chip
SAS x4
BBU
0
SAS
1
SAS
2
SAS
10
SATA
11
SATA
SAS
x2
Cache
SAS EXP
Cache
SAS EXP
Host FC x2 Host FC x2
Ext SAS x4Ext SAS x4
RAID on Chip
PSUPSUPSUPSU
SAS EXP SAS EXP
PSUPSUPSUPSU
FAN
LANLAN
0
SAS
1
SAS
2
SAS
10
SATA
11
SATA
Controller Module Controller Module
Expander Module Expander Module
Controller Enclosure
Drive Enclosure PNL
PNL
RAID on Chip
SAS x4
BBU
SAS EXP: SAS Expander PNL: Panel PSU: Power Supply Unit BBU: Battery Backup Unit
内部公开▲
E4K/E3K/E2K M100比较
Dual Core800MHz XScalePIII 1.26GHzPIII 1.26G Hz每控制器CPU
2G2G2G缓存容量
111主柜连接最大从柜数
SAS/73GB/15K/3Gb
SAS/146GB/15K/3Gb
SAS/300GB/15K/3Gb
SATA/500GB/7200/3Gb
SATA/750GB/7200/3Gb
FC/146G/10K/2Gb
FC/300G/10K/2Gb
FC/300GB/10000rpm/2Gb
FC/73GB/10000rpm/2Gb
FC/146GB/10000rpm/2Gb
FC/73GB/15000rpm/2Gb
FC/146GB/15000rpm/2Gb
FC/500GB/7200/2Gb
磁盘类型
222控制器个数
0,1,1+0,5,60,1,1+0,50,1,1+0,5支持RAID格式
7块盘一个Raid5,每个柜子一个
全局热备盘,单柜有效盘数为12
30
15
15
E3K M100
11块盘一个Raid5,每个柜子一个
全局热备盘,单柜有效盘数为10
7块盘一个Raid5,每个柜子一个
全局热备盘,单柜有效盘数为12
建议RAID划分方式
2430最大磁盘数
1215从柜磁盘数
1215主柜磁盘数
产品图片
E2K M100E4K M100
内部公开▲
E4K/E3K/E2K M100比较
E2K web界面与E3K/E4K不同,
且高度是2U
外观区分:从设备外观上可以很明显看到E3K或E4K标志;
Web页面区分:在systemstatus里面可以看到型号;在FC接口卡参
数中,4G的是E4000,2G的是E3000
区分
网管需要添加E2K的MIB一致网管
E2K/E3K/E4K 互不兼容,需成套配置兼容性
5-35°C (Operating),
0-50°C (Non-operating)
5-35°C (Operating),
0-50°C (Non-operating)
5-35°C (Operating),
0-50°C (Non-operating)
温度
2800Mbps1872Mbps1984Mbps吞吐能力
主柜482 x 660 x 88mm[2U]
从柜482 x 660 x 88mm[2U]
主柜483x592x176mm[4U]
从柜483x592x132mm[3U]
主柜483x592x176mm[4U]
从柜483x592x132mm[3U]
尺寸 (W x D x H)
AC 100-120V/AC 200-240V
DC 48V
AC 100-120V/AC 200-240VAC 100-120V/AC 200-240V电源
20 - 80%RH (operating),
8 - 80%RH (non-operating)
20 - 80%RH (operating),
8 - 80%RH (non-operating)
20 - 80%RH (operating),
8 - 80%RH (non-operating)
湿度
24小时
FC
4/100Mb
FC/4/2Gb
E3K M100
Default 48小时(Max 96小时)24小时电池数据保护时长
FC/iSCSIFC支持协议
4/100Mb4/100Mb以太网管理口
FC/4/4Gb or ISCSI/4/1Gb
Or SAS/3Gb
FC/4/4Gb主机接口
E2K M100E4K M100
内部公开▲
EMC/DELL CX300
最早在现网运行的型号,已停产
4个2Gb FC主机端口、2个2Gb FC磁盘通道端口(扩
展JBOD用)
最多可支持 60 个驱动器(光纤驱动器:36 GB / 73
GB / 146 GB / ATA:250 GB)
最多1个控制柜+3个JBOD
控制柜和JBOD均是15块硬盘
2 GB 标准缓存
内部公开▲
FUJITSU磁阵写数据安全
Controller 1
Cache Cache
Write data 1 Write data 2
Controller 2
•写数据存在两块控制卡的cache里,控制卡/Cache失效仍能够保证写
数据的安全
•FUJITSU磁阵特有功能
内部公开▲
FUJITSU磁阵Cache防护功能
镜像cache由不同的电池供电
在系统掉电情况下,一旦电力恢复,在其他操作开始之前,所有cache中
的数据会先写入硬盘
其它磁阵也都具备该功能
ETERNUS3000
Controller
Cache
Controller
Cache
Power
supply
unit
Commercial
Power
X
mirrored
Battery
Battery
Battery
Battery
Power failure
内部公开▲
热备盘
在进行磁阵配置时,一
般都会配置热备盘
可以为每个RAID组指定
热备盘,也可以指定全
局热备盘
热备盘正常情况下不使
用,不属于RAID组
热备盘的功能:
当系统检测到硬盘
故障时,故障硬盘
里的数据会自动拷
贝到热备盘,之后
将热备盘重组到原
来的RAID组里,继
续使用
更换硬盘后,用热
备盘的数据重建更
换硬盘的数据
热备份盘RAID5(4+1)
RAID5(4+1)
RAID5(4+1)
故障
更换硬盘
拷贝回原地
传统拷贝
无冗余性
数据移动
重组
RAID5(4+1)
内部公开▲
FUJITSU磁阵预拷贝功能
预拷贝为FUJITSU磁
阵特有功能
预拷贝功能只负责监
视读错误。对于写错
误,仍按传统方式实
行
明显减少硬盘更换时
间
热备份盘RAID5(4+1)
RAID5(4+1)
RAID5(4+1)
RAID5(4+1)
自动保存
故障预测
更换硬盘
拷贝回原地
预拷贝
拷贝
内部公开▲
磁阵配置的主要步骤1-指定热备盘
以下均以FUJISTU E2K M100配置为例
图示中有2个磁盘柜,指定每个磁盘柜的Disk11为热备盘
内部公开▲
磁阵配置的主要步骤2-创建RAID组
选中需要放在一个RAID组中的硬盘,创建为需要的RAID级别,并指定
RAID所属CM(由哪个CM来管理),一般RAID组均分在2个CM上
内部公开▲
磁阵配置的主要步骤3-划分LUN
一个RAID可以划分为多个LUN
LUN为主机能识别到的最终设备,即SUSELinux系统识别到的sdX设备
名
图示中1个RAID按容量均分成了2个LUN
目录
• RAID技术
• 存储架构
• 现网磁阵与相关技术
• 磁阵与ZXFS
内部公开▲
双光纤交换机全冗余连接
(适用于M100)
双光纤交换机冗余方案要求在
以下几种故障下,ZXFS文件系
统能自动切换磁阵访问路径,
磁阵读写IO中断时间<=60s后
能自动恢复正常:
MSTU刀片一个光口DOWN,
即1故障;
一个光纤交换机DOWN,即2故
障;
一个光纤交换机上的某个光口
DOWN,即3故障;
磁阵控制器上的某个光口
DOWN,即4故障;
磁阵一个控制器DOWN,即5故
障;
刀片与其中一个光纤交换机链
路中断,即6故障;
光纤交换机与磁阵的其中一个
控制器链路中断,即7故障
内部公开▲
单光纤交换机(单点故障)连接方案(适用于CX300)
内部公开▲
ZXFS识别的设备
ZXFS识别的设备为/proc/partitions中的sdX设备,对应磁阵上的
LUN
对于FUJITSU磁阵来说,一般2个CM上的4对光纤全部连接在光
纤交换机上,这样对于每个LUN就有4条访问路径,同时
/proc/partitions中对应每个LUN也就有4个设备名,且4个设备均
可读写访问,因此ZXFS与FUJITSU磁阵一起使用必须进行LUN
的访问路径调整
对于CX300磁阵来说,一般1个CM上只连1对光纤,2个CM连2
对光纤到光纤交换机,这样/proc/partitions中对应每个LUN也有
2个设备名(或者说路径),但只有1个设备名可以读写,另外
一个是虚路径,因此每个设备实际上只有1条可访问路径,不需
要进行路径调整
内部公开▲
ZXFS与FUJITSU M100
如图所示,对于LUN0,黄、红、蓝、绿代
4条访问路径
LUN1、LUN2、LUN3与LUN0相同,也都有4条访问路径
因此ZXFS必须调整对每个LUN的访问路径,否则磁阵上的所有流量默
认都从ZXFS识别到的第1条路径进行,例如红色路径,影响磁阵性能
内部公开▲
ZXFS与FUJITSU M100路径调整原则
将ZXFS对每个LUN的访问均分到各条路径上,使各
路径负载均衡
采用RAID归属CM原则调整路径,即LUN所属RAID归
属于哪个CM,就从哪个CM的端口访问这个LUN
如
红色路径访问LUN0
绿色路径访问LUN1
蓝色路径访问LUN2
黄色路径访问LUN3
内部公开▲
ZXFS与CX300
如图所示,每个LUN都有1条实路径和1条虚路径
LUN归属CM的路径为真实访问路径;另一条为虚路径,操作系统能看到但无法
进行读写。 ZXFS的FAC启动过程中能自动发现虚假路径,而将LUN的访问路径
调整到实路径上,因此与CX300配合,ZXFS不需要调整路径
http://www.dostor.com/