为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

磁盘阵列详解

2013-03-01 41页 pdf 923KB 20阅读

用户头像

is_372936

暂无简介

举报
磁盘阵列详解 磁阵 目录 • RAID技术 • 存储架构 • 现网磁阵与相关技术 • 磁阵与ZXFS 内部公开▲ 引言  目前常见的磁盘,一般有IDE磁盘,SATA磁盘, SCSI磁盘。这些磁盘在性能和可靠性上面差别很大。 衡量磁盘的性能,一般从可靠性、转速以及内部工艺 3个方面衡量。 更快的微处理器 低旋转颤动 单一的低成本微处理器 高旋转颤动 单一的低成本微处理器 高旋转颤动 性能 10000/15000 7400 5200/7200 转速 具有更好的测试 性能 支持热插拔,支持命令 排队 不支持热插拔,不支持...
磁盘阵列详解
磁阵 • RAID技术 • 存储架构 • 现网磁阵与相关技术 • 磁阵与ZXFS 内部公开▲ 引言  目前常见的磁盘,一般有IDE磁盘,SATA磁盘, SCSI磁盘。这些磁盘在性能和可靠性上面差别很大。 衡量磁盘的性能,一般从可靠性、转速以及内部工艺 3个方面衡量。 更快的微处理器 低旋转颤动 单一的低成本微处理器 高旋转颤动 单一的低成本微处理器 高旋转颤动 性能 10000/15000 7400 5200/7200 转速 具有更好的测试 性能 支持热插拔,支持命令 排队 不支持热插拔,不支持 命令排队 特性 100%工作负载下 1.5M小时 20%工作负载下500K 小时 20%工作负载下300K小 时 平均故障间隔时间 SCSISATAIDE 内部公开▲ RAID基础  RAID (Redundant Array of Independent Disks) 冗余磁盘阵列  RAID由多个(最少2块)单独的硬盘组成一个大容量的 RAID组  RAID功效  通过在多个硬盘上同时存储和读取数据来提高存储系统 的数据吞吐量  采用校验或镜像备份措施,提高了存储系统的容错度和 稳定冗余性  RAID技术的核心思想就是”磁盘分带(stripping)” RAID 内部公开▲ RAID类别  区分  软RAID:RAID 的所有功能都是操作系统(OS)与 CPU 来完成,效率低,成本低  硬RAID:采用专门的RAID 控制/处理与I/O 处理芯片, 效率高,成本高  常用RAID级别  RAID按照实现原理的不同分为不同的级别,不同的级 别之间工作模式是有区别的。整个的RAID结构是一些 磁盘结构,通过对磁盘进行组合达到提高效率,减少错 误的目的。  RAID0、RAID1、RAID4、RAID5、RAID6 内部公开▲ II EE RAID0  RAID0:没有容错设计的条带磁盘阵列,RAID0也叫条带  在存储数据时由RAID 控制器(硬件或软件)分割成大小相同的 数据块,同时写入阵列中的磁盘,就像一条带子横跨过所有的阵 列磁盘,并且每个磁盘上的条带深度是一样的  任何一块硬盘损坏数据无法恢复 Controller AA JJ FF BB KK GG CC …… HH DD 内部公开▲ RAID1  RAID1:也叫镜像,两个硬盘的内容完全一样  在存储数据时将数据同时写入两个硬盘  任何一个硬盘的数据出现问题,可以马上从另一个硬 盘中进行恢复 Controller CC BB AA CC BB AA 内部公开▲ RAID4  RAID4:独立的数据硬盘与共享的校验硬盘  按数据块为单位进行存储,不同硬盘上的同级数据块通过XOR 进行校验,结果 保存在单独的校验盘。同级的概念就是指在每个硬盘中同一柱面同一扇区位置的 数据算是同级  任何一个硬盘上的数据块损坏,可以通过XOR 校验值和其它硬盘上的同级数据 进行恢复  RAID4的写瓶颈:由于RAID 4使用了一个专有的校验磁盘,所以, RAID 4在处 理写请求时有一个内在的瓶颈,阵列中的多个写操作都要读出校验数据,再重写 到单个磁盘,因此,校验磁盘是一个系统瓶颈 Controller C0C0 B0B0 A0A0 C1C1 B1B1 A1A1 C2C2 B2B2 A2A2 C ParityC Parity B ParityB Parity A ParityA Parity Block 0 Block1 Block 2 Blocks 0,1,2 Parity 内部公开▲ RAID5  与RAID4的差别:将校验数据以循环的方式放在每一个磁盘中,没有一 个专有校验磁盘,因而,没有像RAID 4一样的写瓶颈  任何一个硬盘上的数据块损坏,可以通过XOR 校验值和其它硬盘上的 同级数据进行恢复  我司光纤磁阵均采用RAID5 Controller C0C0 B0B0 A0A0 C ParityC Parity B1B1 A1A1 C1C1 B ParityB Parity A2A2 C2C2 B2B2 A ParityA Parity 内部公开▲ D3D3D1D1 D2D2A ParityA Parity0 Parity0 Parity RAID6  RAID4、RAID5:单校验,只能提供一块硬盘的故障冗余  RAID6:双校验,能够提供RAID中两块硬盘同时损坏的故障冗余,但性能也略 低于RAID4和RAID5,各厂商实现也不一致  富士通现在也推出了RAID6  NetAPP的RAIDDP即为RAID6的一种实现方式,如湖北中心节点采用NetAPP的 NAS磁阵就是作的RAIDDP,如下图所示。RAIDDP性能相比RAID4约低2%-3% Controller C0C0 B0B0 A0A0 1 Parity1 Parity B1B1 A1A1 B ParityB Parity 2 Parity2 Parity A2A2 C1C1 C ParityC Parity 3 Parity3 Parity C2C2 B2B2 D ParityD Parity 内部公开▲ RAID各级别特点 (n-2)/n 的总磁盘容 量。其中n 为磁盘数 (n-1)/n 的总磁盘容 量。其中n 为磁盘数 (n-1)/n 的磁盘容 量。其中n 为磁盘数 只能用磁盘 容量的50% 总的磁盘容 量可用容量 4个或更多3个或更多3个或更多只需2个1个或多个需要的磁盘数 有有有有没有热备盘选项 双奇偶位奇偶位奇偶位复制没有冗余类型 有有有有没有容错性 RAID-6RAID-5RAID-4RAID-1RAID-0RAID级* 目录 • RAID技术 • 存储架构 • 现网磁阵与相关技术 • 磁阵与ZXFS 内部公开▲ 存储架构 NAS LAN DAS LAN SAN LAN SAN DAS:Direct Access Storage,直接访问存储 NAS:Network Attached Storage,网络附加存储 SAN:Storage Area Network,存储区域网络 内部公开▲ 存储架构原理 LANLAN SAN LAN SAN DAS NAS 应用 文件系统 磁盘 磁盘阵列 服 务 器 应用 磁盘 文件系统 以太网 NAS产品 服 务 器 应用 磁盘 文件系统 存储区域网 磁盘阵列 服 务 器 内部公开▲ DAS  直连JBOD或磁盘阵列  JBOD(硬盘柜)  主要应用:为磁盘阵列扩容  其他应用:直接连接服务器  RAID功能实现:服务器实现软RAID或配置RAID卡  容量扩展:JBOD不可扩容  磁盘阵列  硬盘通道分:ATA、SCSI、FC、SAS…  主机通道分:SCSI、FC…  RAID功能实现:磁盘阵列内部控制器实现  容量扩展:可通过磁盘阵列或JBOD扩容 内部公开▲ NAS  IP架构存储:服务器使用GE卡和千兆交换机连接到 NAS设备  NAS磁阵内置文件系统,向服务器提供文件级的共享  通过NFS支持所有的UNIX和LINUX主机系统  通过CIFS协议支持WINDOWS主机系统  可以实现异构系统(Windows、Unix和Linux)之间 的文件共享  系统扩展只需要通过增加文件共享mount点就可以进 行 内部公开▲ SAN  与局域网分离的专用网络,连接性与局域网无关  Fibre Channel或者iSCSI之类的高速接口,也叫FC SAN或IP SAN  服务器上安装SAN共享文件系统(如ZXFS),实现对磁 阵上所有数据的共享  在服务器的后台以数据块(Blocks)的方式进行操作  是否支持异构系统受限于共享文件系统 内部公开▲ DAS/NAS/SAN比较 •远程存储级访问 •存储传输协议 •存储专用网络 •集中管理 •远程文件级访问 •利用网络传输协议 •共享网络带宽 •分布式管理 •本地数据块访问 •存储传输协议 •共享服务器资源 •分布式管理 特 点 缺 点 优 点 复杂 安装费用昂贵 互操作性差 专用的软件和硬件 扩展性不强,扩充成本高 受限于网络带宽 受局限的数据库支持 过分依赖主机 资源共享受限 磁盘空间利用率低 配置维护较复杂 传输距离、带宽和扩展性受限 高性能专用的传输网络 可达到5个9的数据高可用性 扩展性好 减少LAN负载 利用现有网络 较低的管理费用 跨平台的文件共享 强大网络连接能力 即插即用 较低的价格扩展服务器的存储 容量 较好的性能 独立设备不需太多管理 满足中小应用的存储需求 SANNASDAS 目录 • RAID技术 • 存储架构 • 现网磁阵与相关技术 • 磁阵与ZXFS 内部公开▲ 现网磁阵型号  DELL/EMC CX300  最早在现网运行的型号,已停产,技术资料不全  FUJISTU E2K M100  目前供货型号  FUJITSU E3K M100  FUJITSU E4K M100  E3K/E4K M100为现网大规模运行的型号,已停产  下面主要以FUJITSU磁阵为例说明磁阵的相关技术 内部公开▲ FUJITSU E3K/E4K M100  M100由1个CE (Controller Enclosure)和1个DE (Drive Enclosure)组成  CE包含2个CM (Controller Module)、15块硬盘和 2个BBU(Battery Backup Unit)  CM 负责控制 RAID group、RAID cache和 LUN  BBU用途是外部电源停电时,提供电能以保存cache 中的数据  DE就是JBOD,只有15块硬盘 内部公开▲ FUJITSU E3K/E4K M100示意图 …. …. CA : Channel Adapter CM : Controller Module DA : Device Adapter (a logical unit on CM) FC(2Gbps) Fibre Channel (2Gbps) Maximum 4 paths CPU(1.26GHz) CACHE CM CM DA CACHE DA CA CA CPU(1.26GHz) 15 Disk/DE Maximum 30 disk drives Intel PIII 1.26GHz 2 x 512MB RISC CPU •分布式计算,控制器CPU不 参与RAID运算,仅负责协调 和控制器间数据传输 •RISC CPU负责具体数据运算 内部公开▲ FUJITSU E2K M100示意图 外部电源停电时,提供电能以保存cache中的数0 SAS 1 SAS 2 SAS 10 SATA 11 SATA SAS x2 DDR2 SAS Exp DDR2 SAS Exp PLD Ext SAS x4Ext SAS x4 RAID on Chip PSUPSU SAS Exp SAS Exp PSUPSU FAN LAN PLD LAN PLDPLD 0 SAS 1 SAS 2 SAS 10 SATA 11 SATA Controller Module Controller Module Expander Unit Expander Unit Controller Enclosure Drive Enclosure PNL PNL RAID on Chip SAS x4 BBU 0 SAS 1 SAS 2 SAS 10 SATA 11 SATA SAS x2 Cache SAS EXP Cache SAS EXP Host FC x2 Host FC x2 Ext SAS x4Ext SAS x4 RAID on Chip PSUPSUPSUPSU SAS EXP SAS EXP PSUPSUPSUPSU FAN LANLAN 0 SAS 1 SAS 2 SAS 10 SATA 11 SATA Controller Module Controller Module Expander Module Expander Module Controller Enclosure Drive Enclosure PNL PNL RAID on Chip SAS x4 BBU SAS EXP: SAS Expander PNL: Panel PSU: Power Supply Unit BBU: Battery Backup Unit 内部公开▲ E4K/E3K/E2K M100比较 Dual Core800MHz XScalePIII 1.26GHzPIII 1.26G Hz每控制器CPU 2G2G2G缓存容量 111主柜连接最大从柜数 SAS/73GB/15K/3Gb SAS/146GB/15K/3Gb SAS/300GB/15K/3Gb SATA/500GB/7200/3Gb SATA/750GB/7200/3Gb FC/146G/10K/2Gb FC/300G/10K/2Gb FC/300GB/10000rpm/2Gb FC/73GB/10000rpm/2Gb FC/146GB/10000rpm/2Gb FC/73GB/15000rpm/2Gb FC/146GB/15000rpm/2Gb FC/500GB/7200/2Gb 磁盘类型 222控制器个数 0,1,1+0,5,60,1,1+0,50,1,1+0,5支持RAID格式 7块盘一个Raid5,每个柜子一个 全局热备盘,单柜有效盘数为12 30 15 15 E3K M100 11块盘一个Raid5,每个柜子一个 全局热备盘,单柜有效盘数为10 7块盘一个Raid5,每个柜子一个 全局热备盘,单柜有效盘数为12 建议RAID划分方式 2430最大磁盘数 1215从柜磁盘数 1215主柜磁盘数 产品图片 E2K M100E4K M100 内部公开▲ E4K/E3K/E2K M100比较 E2K web界面与E3K/E4K不同, 且高度是2U 外观区分:从设备外观上可以很明显看到E3K或E4K标志; Web页面区分:在systemstatus里面可以看到型号;在FC接口卡参 数中,4G的是E4000,2G的是E3000 区分 网管需要添加E2K的MIB一致网管 E2K/E3K/E4K 互不兼容,需成套配置兼容性 5-35°C (Operating), 0-50°C (Non-operating) 5-35°C (Operating), 0-50°C (Non-operating) 5-35°C (Operating), 0-50°C (Non-operating) 温度 2800Mbps1872Mbps1984Mbps吞吐能力 主柜482 x 660 x 88mm[2U] 从柜482 x 660 x 88mm[2U] 主柜483x592x176mm[4U] 从柜483x592x132mm[3U] 主柜483x592x176mm[4U] 从柜483x592x132mm[3U] 尺寸 (W x D x H) AC 100-120V/AC 200-240V DC 48V AC 100-120V/AC 200-240VAC 100-120V/AC 200-240V电源 20 - 80%RH (operating), 8 - 80%RH (non-operating) 20 - 80%RH (operating), 8 - 80%RH (non-operating) 20 - 80%RH (operating), 8 - 80%RH (non-operating) 湿度 24小时 FC 4/100Mb FC/4/2Gb E3K M100 Default 48小时(Max 96小时)24小时电池数据保护时长 FC/iSCSIFC支持协议 4/100Mb4/100Mb以太网管理口 FC/4/4Gb or ISCSI/4/1Gb Or SAS/3Gb FC/4/4Gb主机接口 E2K M100E4K M100 内部公开▲ EMC/DELL CX300  最早在现网运行的型号,已停产  4个2Gb FC主机端口、2个2Gb FC磁盘通道端口(扩 展JBOD用)  最多可支持 60 个驱动器(光纤驱动器:36 GB / 73 GB / 146 GB / ATA:250 GB)  最多1个控制柜+3个JBOD  控制柜和JBOD均是15块硬盘  2 GB 标准缓存 内部公开▲ FUJITSU磁阵写数据安全 Controller 1 Cache Cache Write data 1 Write data 2 Controller 2 •写数据存在两块控制卡的cache里,控制卡/Cache失效仍能够保证写 数据的安全 •FUJITSU磁阵特有功能 内部公开▲ FUJITSU磁阵Cache防护功能 镜像cache由不同的电池供电 在系统掉电情况下,一旦电力恢复,在其他操作开始之前,所有cache中 的数据会先写入硬盘 其它磁阵也都具备该功能 ETERNUS3000 Controller Cache Controller Cache Power supply unit Commercial Power X mirrored Battery Battery Battery Battery Power failure 内部公开▲ 热备盘  在进行磁阵配置时,一 般都会配置热备盘  可以为每个RAID组指定 热备盘,也可以指定全 局热备盘  热备盘正常情况下不使 用,不属于RAID组  热备盘的功能:  当系统检测到硬盘 故障时,故障硬盘 里的数据会自动拷 贝到热备盘,之后 将热备盘重组到原 来的RAID组里,继 续使用  更换硬盘后,用热 备盘的数据重建更 换硬盘的数据 热备份盘RAID5(4+1) RAID5(4+1) RAID5(4+1) 故障 更换硬盘 拷贝回原地 传统拷贝 无冗余性 数据移动 重组 RAID5(4+1) 内部公开▲ FUJITSU磁阵预拷贝功能  预拷贝为FUJITSU磁 阵特有功能  预拷贝功能只负责监 视读错误。对于写错 误,仍按传统方式实 行  明显减少硬盘更换时 间 热备份盘RAID5(4+1) RAID5(4+1) RAID5(4+1) RAID5(4+1) 自动保存 故障预测 更换硬盘 拷贝回原地 预拷贝 拷贝 内部公开▲ 磁阵配置的主要步骤1-指定热备盘  以下均以FUJISTU E2K M100配置为例  图示中有2个磁盘柜,指定每个磁盘柜的Disk11为热备盘 内部公开▲ 磁阵配置的主要步骤2-创建RAID组  选中需要放在一个RAID组中的硬盘,创建为需要的RAID级别,并指定 RAID所属CM(由哪个CM来管理),一般RAID组均分在2个CM上 内部公开▲ 磁阵配置的主要步骤3-划分LUN  一个RAID可以划分为多个LUN  LUN为主机能识别到的最终设备,即SUSELinux系统识别到的sdX设备 名  图示中1个RAID按容量均分成了2个LUN 目录 • RAID技术 • 存储架构 • 现网磁阵与相关技术 • 磁阵与ZXFS 内部公开▲ 双光纤交换机全冗余连接(适用于M100)  双光纤交换机冗余方案要求在 以下几种故障下,ZXFS文件系 统能自动切换磁阵访问路径, 磁阵读写IO中断时间<=60s后 能自动恢复正常:  MSTU刀片一个光口DOWN, 即1故障;  一个光纤交换机DOWN,即2故 障;  一个光纤交换机上的某个光口 DOWN,即3故障;  磁阵控制器上的某个光口 DOWN,即4故障;  磁阵一个控制器DOWN,即5故 障;  刀片与其中一个光纤交换机链 路中断,即6故障;  光纤交换机与磁阵的其中一个 控制器链路中断,即7故障 内部公开▲ 单光纤交换机(单点故障)连接方案(适用于CX300) 内部公开▲ ZXFS识别的设备  ZXFS识别的设备为/proc/partitions中的sdX设备,对应磁阵上的 LUN  对于FUJITSU磁阵来说,一般2个CM上的4对光纤全部连接在光 纤交换机上,这样对于每个LUN就有4条访问路径,同时 /proc/partitions中对应每个LUN也就有4个设备名,且4个设备均 可读写访问,因此ZXFS与FUJITSU磁阵一起使用必须进行LUN 的访问路径调整  对于CX300磁阵来说,一般1个CM上只连1对光纤,2个CM连2 对光纤到光纤交换机,这样/proc/partitions中对应每个LUN也有 2个设备名(或者说路径),但只有1个设备名可以读写,另外 一个是虚路径,因此每个设备实际上只有1条可访问路径,不需 要进行路径调整 内部公开▲ ZXFS与FUJITSU M100  如图所示,对于LUN0,黄、红、蓝、绿代4条访问路径  LUN1、LUN2、LUN3与LUN0相同,也都有4条访问路径  因此ZXFS必须调整对每个LUN的访问路径,否则磁阵上的所有流量默 认都从ZXFS识别到的第1条路径进行,例如红色路径,影响磁阵性能 内部公开▲ ZXFS与FUJITSU M100路径调整原则  将ZXFS对每个LUN的访问均分到各条路径上,使各 路径负载均衡  采用RAID归属CM原则调整路径,即LUN所属RAID归 属于哪个CM,就从哪个CM的端口访问这个LUN 如  红色路径访问LUN0  绿色路径访问LUN1  蓝色路径访问LUN2  黄色路径访问LUN3 内部公开▲ ZXFS与CX300  如图所示,每个LUN都有1条实路径和1条虚路径  LUN归属CM的路径为真实访问路径;另一条为虚路径,操作系统能看到但无法 进行读写。 ZXFS的FAC启动过程中能自动发现虚假路径,而将LUN的访问路径 调整到实路径上,因此与CX300配合,ZXFS不需要调整路径 http://www.dostor.com/
/
本文档为【磁盘阵列详解】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索