为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

FusionCube数据库场景技术白皮书

2021-09-24 9页 doc 6MB 21阅读

用户头像 个人认证

IT人

暂无简介

举报
FusionCube数据库场景技术白皮书DOCPROPERTYPartNumberDOCPROPERTY"Product&ProjectName"FusionCubeDOCPROPERTYProductVersion6.0DOCPROPERTYDocumentName技术白皮书(数据库)前言概述本文档华为FusionCube6.0版本数据库基础设施的产品价值、产品架构、高性能、线性扩展、系统安全以及系统可靠性。读者对象本文档主要适用于以下工程师:营销工程师技术支持工程师维护工程师符号约...
FusionCube数据库场景技术白皮书
DOCPROPERTYPartNumberDOCPROPERTY"Product&ProjectName"FusionCubeDOCPROPERTYProductVersion6.0DOCPROPERTYDocumentName技术白皮书(数据库)前言概述本文档华为FusionCube6.0版本数据库基础设施的产品价值、产品架构、高性能、线性扩展、系统安全以及系统可靠性。读者对象本文档主要适用于以下工程师:营销工程师技术支持工程师维护工程师符号约定在本文中可能出现下列标志,它们所代表的含义如下。符号说明表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。表示如不避免则可能导致死亡或严重伤害的具有中等级风险的危害。表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。“须知”不涉及人身伤害。对正文中重点信息的补充说明。“说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。目录TOC\h\z\t"标题1,1,标题2,2,标题3,3,标题4,4,标题5,5,标题7,1,标题8,2,标题9,3,Heading1NoNumber,1,Appendixheading1,1,Appendixheading2,2,Appendixheading3,3,Appendixheading4,4,Appendixheading5,5,Heading1,1,Heading2,2,Heading3,3,Heading4,4,Heading5,5,Heading7,1,Heading8,2,Heading9,3"HYPERLINK\l"_Toc67596885"前言PAGEREF_Toc67596885\hiiHYPERLINK\l"_Toc67596886"1产品概述PAGEREF_Toc67596886\h1HYPERLINK\l"_Toc67596887"2产品价值PAGEREF_Toc67596887\h2HYPERLINK\l"_Toc67596888"3产品架构PAGEREF_Toc67596888\h3HYPERLINK\l"_Toc67596889"3.1节点架构PAGEREF_Toc67596889\h4HYPERLINK\l"_Toc67596890"3.2典型配置PAGEREF_Toc67596890\h5HYPERLINK\l"_Toc67596891"3.3组网PAGEREF_Toc67596891\h7HYPERLINK\l"_Toc67596892"4分布式存储PAGEREF_Toc67596892\h8HYPERLINK\l"_Toc67596893"4.1架构概述PAGEREF_Toc67596893\h9HYPERLINK\l"_Toc67596894"4.2关键业务流程PAGEREF_Toc67596894\h12HYPERLINK\l"_Toc67596895"4.2.1数据路由PAGEREF_Toc67596895\h12HYPERLINK\l"_Toc67596896"4.2.2IO路径PAGEREF_Toc67596896\h13HYPERLINK\l"_Toc67596897"4.2.3Cache机制PAGEREF_Toc67596897\h15HYPERLINK\l"_Toc67596898"4.3存储管理PAGEREF_Toc67596898\h17HYPERLINK\l"_Toc67596899"4.3.1存储集群管理PAGEREF_Toc67596899\h17HYPERLINK\l"_Toc67596900"4.3.2存储服务化PAGEREF_Toc67596900\h17HYPERLINK\l"_Toc67596901"4.4数据冗余PAGEREF_Toc67596901\h18HYPERLINK\l"_Toc67596902"4.4.1多副本PAGEREF_Toc67596902\h18HYPERLINK\l"_Toc67596903"4.4.2ErasureCodePAGEREF_Toc67596903\h18HYPERLINK\l"_Toc67596904"4.5特性介绍PAGEREF_Toc67596904\h19HYPERLINK\l"_Toc67596905"4.5.1SCSI/iSCSI块接口PAGEREF_Toc67596905\h19HYPERLINK\l"_Toc67596906"4.5.2精简配置PAGEREF_Toc67596906\h21HYPERLINK\l"_Toc67596907"4.5.3重删压缩PAGEREF_Toc67596907\h22HYPERLINK\l"_Toc67596908"4.5.4快照PAGEREF_Toc67596908\h24HYPERLINK\l"_Toc67596909"4.5.5链接克隆PAGEREF_Toc67596909\h26HYPERLINK\l"_Toc67596910"4.5.6多资源池PAGEREF_Toc67596910\h26HYPERLINK\l"_Toc67596911"4.5.7QoSPAGEREF_Toc67596911\h27HYPERLINK\l"_Toc67596912"5硬件设备平台PAGEREF_Toc67596912\h28HYPERLINK\l"_Toc67596913"5.1机架服务器平台PAGEREF_Toc67596913\h28HYPERLINK\l"_Toc67596914"5.1.11288HV5机架服务器PAGEREF_Toc67596914\h28HYPERLINK\l"_Toc67596915"5.1.22288HV5机架服务器PAGEREF_Toc67596915\h29HYPERLINK\l"_Toc67596916"5.1.32488HV5机架服务器PAGEREF_Toc67596916\h30HYPERLINK\l"_Toc67596917"5.1.4ARM机架服务器PAGEREF_Toc67596917\h31HYPERLINK\l"_Toc67596918"5.2E9000刀片服务器平台PAGEREF_Toc67596918\h32HYPERLINK\l"_Toc67596919"5.2.1E9000机框PAGEREF_Toc67596919\h32HYPERLINK\l"_Toc67596920"5.2.2E9000刀片PAGEREF_Toc67596920\h33HYPERLINK\l"_Toc67596921"5.2.3高性能交换板PAGEREF_Toc67596921\h35HYPERLINK\l"_Toc67596922"6安装部署和运维管理PAGEREF_Toc67596922\h37HYPERLINK\l"_Toc67596923"6.1自动化部署PAGEREF_Toc67596923\h37HYPERLINK\l"_Toc67596924"6.1.1FusionCubeBuilderPAGEREF_Toc67596924\h37HYPERLINK\l"_Toc67596925"6.1.2系统初始化PAGEREF_Toc67596925\h39HYPERLINK\l"_Toc67596926"6.1.3设备自动发现PAGEREF_Toc67596926\h40HYPERLINK\l"_Toc67596927"6.2统一运维管理PAGEREF_Toc67596927\h41HYPERLINK\l"_Toc67596928"6.2.1一键式运维PAGEREF_Toc67596928\h42HYPERLINK\l"_Toc67596929"6.2.2CallHomePAGEREF_Toc67596929\h45HYPERLINK\l"_Toc67596930"7性能和可扩展性PAGEREF_Toc67596930\h46HYPERLINK\l"_Toc67596931"7.1系统高性能PAGEREF_Toc67596931\h46HYPERLINK\l"_Toc67596932"7.1.1分布式I/O环PAGEREF_Toc67596932\h46HYPERLINK\l"_Toc67596933"7.1.2分布式SSDCache加速PAGEREF_Toc67596933\h47HYPERLINK\l"_Toc67596934"7.1.2.1Read/WriteCachePAGEREF_Toc67596934\h48HYPERLINK\l"_Toc67596935"7.1.2.2大块PassThroughtPAGEREF_Toc67596935\h50HYPERLINK\l"_Toc67596936"7.1.3硬件加速PAGEREF_Toc67596936\h51HYPERLINK\l"_Toc67596937"7.2线性扩展PAGEREF_Toc67596937\h52HYPERLINK\l"_Toc67596938"7.2.1存储平滑扩容PAGEREF_Toc67596938\h52HYPERLINK\l"_Toc67596939"7.2.2性能线性扩展PAGEREF_Toc67596939\h53HYPERLINK\l"_Toc67596940"7.2.3一键式扩容PAGEREF_Toc67596940\h54HYPERLINK\l"_Toc67596941"7.3FusionCube分布式存储相对于传统SAN的性能优势PAGEREF_Toc67596941\h55HYPERLINK\l"_Toc67596942"7.3.1更高的性能PAGEREF_Toc67596942\h55HYPERLINK\l"_Toc67596943"7.3.2线性Scale-up/Scale-outPAGEREF_Toc67596943\h56HYPERLINK\l"_Toc67596944"7.3.3大池POOLPAGEREF_Toc67596944\h58HYPERLINK\l"_Toc67596945"7.3.4SSDCachevsSSDTierPAGEREF_Toc67596945\h59HYPERLINK\l"_Toc67596946"8系统可靠性PAGEREF_Toc67596946\h61HYPERLINK\l"_Toc67596947"8.1数据可靠性PAGEREF_Toc67596947\h61HYPERLINK\l"_Toc67596948"8.1.1块存储集群可靠性PAGEREF_Toc67596948\h61HYPERLINK\l"_Toc67596949"8.1.2数据一致性PAGEREF_Toc67596949\h62HYPERLINK\l"_Toc67596950"8.1.3数据冗余保护PAGEREF_Toc67596950\h62HYPERLINK\l"_Toc67596951"8.1.4·快速数据重建PAGEREF_Toc67596951\h63HYPERLINK\l"_Toc67596952"8.2硬件可靠性PAGEREF_Toc67596952\h64HYPERLINK\l"_Toc67596953"8.3管理可靠性PAGEREF_Toc67596953\h64HYPERLINK\l"_Toc67596954"8.4系统亚健康增强PAGEREF_Toc67596954\h64HYPERLINK\l"_Toc67596955"9系统安全PAGEREF_Toc67596955\h69HYPERLINK\l"_Toc67596956"9.1系统安全威胁PAGEREF_Toc67596956\h69HYPERLINK\l"_Toc67596957"9.2总体安全框架PAGEREF_Toc67596957\h70HYPERLINK\l"_Toc67596958"9.2.1网络安全PAGEREF_Toc67596958\h71HYPERLINK\l"_Toc67596959"9.2.2应用安全PAGEREF_Toc67596959\h72HYPERLINK\l"_Toc67596960"9.2.2.1权限管理PAGEREF_Toc67596960\h72HYPERLINK\l"_Toc67596961"9.2.2.2Web安全PAGEREF_Toc67596961\h72HYPERLINK\l"_Toc67596962"9.2.2.3数据库加固PAGEREF_Toc67596962\h73HYPERLINK\l"_Toc67596963"9.2.2.4日志管理PAGEREF_Toc67596963\h73HYPERLINK\l"_Toc67596964"9.2.3主机安全PAGEREF_Toc67596964\h74HYPERLINK\l"_Toc67596965"9.2.3.1操作系统加固PAGEREF_Toc67596965\h74HYPERLINK\l"_Toc67596966"9.2.4数据安全PAGEREF_Toc67596966\h74HYPERLINK\l"_Toc67596967"9.2.4.1数据加密PAGEREF_Toc67596967\h74HYPERLINK\l"_Toc67596968"10兼容性PAGEREF_Toc67596968\h76HYPERLINK\l"_Toc67596969"10.1数据库兼容性PAGEREF_Toc67596969\h76产品概述随着数据不断增长以及互联网业务的兴起,新兴业务的激增、业务数据呈现几何倍数增加,传统服务器+存储的架构已经无法很好满足业务发展需求,分布式、云化技术应运而生。越来越多的企业采用虚拟化与云计算技术来构建IT系统,提升IT系统的资源利用率以及缩短业务上线周期。但在应用过程中,企业面临如下挑战:管理复杂,运维费用仍然维持增长趋势。安装部署复杂,硬件来自多厂商,规划、部署、调优需要丰富的经验支撑。多厂商设备,售后支持界面多,解决问题慢。系统庞大(不同厂商硬件设备维护、虚拟平台管理),维护难度大。企业越来越关注成本控制、业务敏捷、风险管控,希望能拥有总成本低、新业务的上线时间快、资源可弹性伸缩、安全可靠、高性能的IT系统。华为FusionCube是一个开放的、可扩展的系统,具有计算/存储/网络融合、预集成、高性能、高可靠、高安全、业务自动化快捷部署、统一管理、资源智能弹性伸缩、运维简单的特点,可帮助客户业务快速上线,快速实现不同云应用的部署,同时降低维护管理的难度。产品价值FusionCube遵循开放架构标准,集成服务器、分布式存储及网络交换机为一体,无需外置存储设备,并预集成了分布式存储引擎及管理软件,资源可按需调配、线性扩展。主要价值如下:融合FusionCube实现了计算、存储和网络资源的融合:硬件融合:计算存储网络高度集成,线性扩容。管理融合:统一运维管理,提高资源利用率,降低OPEX费用。应用融合:针对应用业务模型,软硬件深度调优,实现性能提升。简单FusionCube实现了预集成和预验证、上电后的设备自动发现、统一的维护管理,端到端的简化了业务交付:简化安装:提供快速安装工具,一键完成系统软件安装。简捷交付:设备上电自动发现,参数自动配置,实现业务快速上线。简单维护:统一界面管理,故障主动排查,简化日常运维。优化FusionCube通过采用业界领先硬件,以及分布式存储软件,为应用提供最优的业务体验:存储优化:通过内置分布式存储,为数据库应用提供了高并发、高吞吐量的存储服务。网络优化:支持100GbpsInfiniBand,提供业界最快的交换网络开放FusionCubeDB是开放的数据库基础设施平台,不绑定特定的上层应用,可以为业界主流数据库等提供计算、存储和网络资源:开放高效的平台,兼容OracleRAC、IBMDB2、GuassDB、人大金仓、Mysql、IBMinformix等各种主流商用数据库。产品架构华为FusionCubeDB总体架构主要由:硬件平台、分布式存储软件、安装部署和运维管理平台构成,可提供OracleRAC、DB2、GuassDB、人大金仓、Mysql、Informix等数据库相应的运行资源。华为FusionCubeDB总体架构详细构成如下图所示:华为FusionCubeDB总体架构华为FusionCubeDB总体架构组件说明名称说明FusionCubeCenterFusionCube的管理软件,管理其中的虚拟化资源、硬件资源,提供系统监控管理和运维管理等功能。FusionCubeBuilder提供现场快速安装部署FusionCube系统软件,可用于现场更换虚拟化平台软件或者更新版本。FusionStorage使用分布式存储技术,通过合理有序组织服务器的本地硬盘,提供高性能高可靠的块存储业务。硬件平台服务器使用E9000/X6800/X6000/机架服务器,支持计算、存储、交换、电源模块化设计,计算和存储节点按需混配,计算、存储都在服务器内部署完成,支持GPU,SSDPCIe等IO加速扩展,支持丰富的交换模块IB,根据业务要求灵活配置。华为FusionCubeDB是华为公司IT产品线的旗舰产品。FusionCube遵循开放架构标准,融合服务器、分布式存储及网络交换机为一体,无需外置存储设备,并预集成了分布式存储引擎及管理软件,资源可按需调配、线性扩展。HYPERLINK\l"_ZH-CN_TOPIC_0207594089"\o""3.1节点架构HYPERLINK\l"_ZH-CN_TOPIC_0207594082"\o""3.2典型配置HYPERLINK\l"_ZH-CN_TOPIC_0207593979"\o""3.3组网节点架构在FusionCubeDB场景下,分布式存储与数据业务分离部署在不同的节点上,根据节点提供的功能特性差异,又分为管理节点、存储节点、计算节点和物理数据库节点。存储软件部署在存储节点OS内,节点的HDD和SSDCache存储介质通过FusionCube分布式存储软件构造成系统共享的存储池资源;计算节点上部署存储软件块设备机头,提供数据库存储资源;管理节点上部署FusionCubeCenter管理平台,提供系统的管理运维能力,详细的节点架构如下图:FusionCubeDB场景节点架构FusionCube场景各类节点说明名称说明部署原则MCNA(管理节点)具有管理功能的节点,其上部署了FusionCubeCenter管理平台。必须部署1个。SNA(存储节点)具有存储功能的节点。提供FusionCube分布式存储HDD磁盘以及SSDCache存储资源。根据需要部署3个~多个。DBN(数据库节点)物理部署节点,可提供系统数据库计算资源根据需要部署1个~多个。典型配置FusionCube6.0版本可支持大容量的HDD+SSDCache混合部署场景以及高性能的全SSD部署场景。具体的场景配置具体如下:混合部署场景节点典型配置:配置项典型配置说明服务器类型V5机架服务器/E9000V5刀片服务器(停止销售)根据客户对机柜空间、磁盘大小、密度、PCIE网卡数量等选择合适的服务器类型;机架服务器:最灵活,支持各类硬盘类型,预留多个PCIE槽位。但空间占用大;E9000刀片:集成度高,可支持计算、存储、网络集成在一个E9000机柜内,但只支持2.5寸HDD以及NVMESSD盘,单节点容量偏小,节点网卡配置固定;CPU/内存配置2*Intel®Xeon®Gold5120Processor8*32GBRDIMMDDR42666MHzCPU/内存配置根据客户的业务规格和配置可以动态调整配置,提供更多的计算资源磁盘2T/4T/6T/8TSATA盘,1.2T/1.8T/2.4TSAS盘操作系统盘默认为2*600GBSAS盘FusionCube分布式存储要求SATA盘必须要采用3副本或者EC配比为N+2以上的冗余策略,SAS盘可采用2副本、三副本或者EC配比为N+2以上的冗余策略。Cache华为自研NVMESSDV5盘或卡;华为自研SASSSDV5盘;系统的cache大小可根据客户业务压力灵活配置,一般默认配置为2*3200GBNVMESSDV5盘/卡;Cache类型出华为自研的NVMESSD和SASSSD外,还可支持Intel、三星、镁光等完成兼容性验证的SAS/SATASSD盘。网卡2*GE/10GE+2*10GE+4*100GbIB(计算)2*GE/10GE+2*100GbIB(存储)计算和存储节点存储网络平面默认采用IB网卡;管理平面默认采用GE/10GE网卡;计算节点业务平面根据实际的业务网络需求配置一张或多张10GE网卡。全闪存部署场景节点典型配置:配置项典型配置说明服务器类型V5机架服务器/E9000V5刀片服务器(停止销售)根据客户对机柜空间、磁盘大小、密度、PCIE网卡数量等选择合适的服务器类型;机架服务器:最灵活,支持各类硬盘类型,预留多个PCIE槽位,但空间占用大;E9000刀片:集成度高,可支持计算、存储、网络集成在一个E9000机柜内,但只支持2.5寸HDD以及NVMESSD盘,单节点容量偏小,节点网卡配置固定;CPU/内存配置2*Intel®Xeon®Gold5120Processor8*32GBRDIMMDDR42666MHzCPU/内存配置根据客户的业务规格和配置可以动态调整配置,提供更多的计算资源磁盘ES3000NVMESSDV5盘;ES3000SASSSDV5盘操作系统盘为2*480GBSATASSD盘或2*600GBSAS盘FusionCube分布式存储默认全闪存场景采用2副本或者EC配比为N+2以上的冗余策略,客户如果要求更高的可靠性也可采用三副本()。全闪存磁盘默认采用华为自研盘,推荐采用3DWPD磁盘,业务写入数据量不大场景下,可采用1DWPD磁盘。网卡2*GE/10GE+2*10GE+4*100GbIB(计算)2*GE/10GE+2*100GbIB(存储)计算和存储节点存储网络平面默认采用IB网卡;管理平面默认采用GE/10GE网卡;计算节点业务平面根据实际的业务网络需求配置一张或多张10GE网卡。组网华为FusionCube6.0版本的系统组网包含:管理平面、存储平面、业务平面、BMC平面。详细的组网情况如下:FusionCubeDB场景系统组网图通信平面类型说明介绍:管理平面:FusionCube系统的管理网络平面,用于系统的业务操作和运维管理,支持TCP/IP,支持GE/10GE组网;存储平面:FusionCube分布式存储节点间数据读写操作网络平面,支持IRDMA协议,支持IB组网,独占IB网卡;数据库心跳默认复用存储IB网络平面,支持IPOIB,默认为UDP方式,支持RDS协议(华为自编译,且驱动版本有一定约束,不推荐使用);业务平面:客户业务通信网络平面,支持TCP/IP协议,支持GE/10GE组网,根据业务带宽要求,配置一张或多上10GE网卡;BMC平面:服务器设备管理IP平面,访问FusionCube系统服务器设备的运维管理;分布式存储FusionCube内置分布式存储为业务提供存储服务,FusionCube分布式存储提供是块存储设备,采用独特的并行架构、创新的缓存算法、自适应的数据分布算法,既消除了热点也提高了性能,并且能够以超快的重建时间实现自动化自修复,提供卓越的可用性和可靠性。线性扩展和弹性FusionCube分布式存储采用全分布式DHT架构,将所有元数据按分布在各节点,避免了元数据瓶颈,支持线性扩展。FusionCube分布式存储采用了独特的数据分块切片技术,以及基于DHTHash的数据路由算法,可以将卷的数据均匀的分散到较大的资源池故障域范围内,使得每个卷可以获得更大的IOPS和MBPS性能,也使得每个硬件资源的负载相对均衡。高性能FusionCube分布式存储免锁化调度的IO软件子系统,彻底解决了分布式锁冲突,使得IO路径上无需进行任何锁操作和元数据查询,IO路径短、时延低;分布式的无状态机头,可以充分发挥各个硬件节点的能力,大大提升了系统的并发IOPS和并发MBPS。同时FusionCube分布式存储采用分布式的SSDcache技术,配合大容量的SAS/SATA盘做主存,使得系统的性能可以具备SSD的性能和SAS/SATA的容量。高可靠性FusionCube分布式存储支持多种数据冗余保护机制,如2副本、3副本、EC等;在此基础上,FusionCube分布式存储支持设置灵活的数据可靠性策略,允许将不同的副本放在不同的服务器上,保证在服务器故障的情况下,数据仍然不丢失、仍然可访问。同时采用对有效数据分片进行数据的冗余保护,在硬盘、服务器故障的时候,能够对有效数据进行并行重建,1TB硬盘的重建时间小于30分钟,大大增强系统的可靠性。丰富的存储高级功能精简配置,当用户对卷进行写操作时才分配实际物理空间,来为用户提供比物理存储资源更多的虚拟存储资源。卷快照,将用户的逻辑卷数据在某个时间点的状态保存下来,作为快照点;快照不限次数且性能不下降。链接克隆,基于增量快照提供链接克隆,一个快照可以创建出多个克隆卷,各个克隆卷刚创建出来时的数据内容与快照中的数据内容一致,后续对于克隆卷的修改不会影响到原始的快照和其他克隆卷。卷的灵活划分,可以根据整个业务实际需求,灵活创建卷,且卷的大小不受物理磁盘空间的限制,单卷最大支持256TB。HYPERLINK\l"_ZH-CN_TOPIC_0207593985"\o""4.1架构概述HYPERLINK\l"_ZH-CN_TOPIC_0207594063"\o""4.2关键业务流程HYPERLINK\l"_ZH-CN_TOPIC_0207594039"\o""4.3存储管理HYPERLINK\l"_ZH-CN_TOPIC_0207594099"\o""4.4数据冗余HYPERLINK\l"_ZH-CN_TOPIC_0207594103"\o""4.5特性介绍架构概述FusionCube分布式存储采用分布式集群控制技术和DHT路由技术,提供分布式存储功能特性。FusionCube分布式存储功能架构如REF_fig64797827\r\h图4-1所示。FusionCube分布式存储功能框架图系统描述类型描述业务系统访问接入用于应用访问存储系统的标准访问接口,支持SCSI/iSCSI标准访问接口协议卷特性层卷提供各种特性,如快照,克隆,迁移,异步复制,双活等企业级特性,均在此层实现索引层用于数据逻辑空间和物理空间的转换,重删压缩等在该层实现持久化层采用Plog接口访问(一种AppendOnly的ROW写机制)用于数据的存放,包括多副本,EC,数据均衡与重构等,并通过OSD/VDB对盘进行管理和数据读写业务管理子系统FusionStorageManager资源管理存储资源池进行管理和分配,提供数据冗余保护,包括多副本保护和纠错码保护业务管理支持按存储资源池发放块存储服务系统管理支持对系统进行初始化配置和必要的业务功能配置,设备拓扑管理,可提供系统设备拓扑关系图,方便查看和管理设备间的拓扑关系。用户管理支持对用户的增删改查,包括用户的等级,权限等安装部署完成系统的初始安装,部署升级支持对系统的升级,包括软件升级,操作系统升级,固件升级扩容完成系统的在线扩容缩容巡检/信息收集设备详情管理,可提供设备详细配置和运行状态信息收集,方便了解设备配置信息和健康状态。FusionCube分布式存储逻辑架构如REF_fig1425420459165\r\h图4-2所示。FusionCube分布式存储逻辑架构图FusionCube分布式存储逻辑组件名称说明FSMFusionStorageManager缩写,FusionStorage管理模块,提供告警、监控、日志、配置等操作维护功能。与FusionCubeCenter共部署在一起,工作在主备模式下FSAFusiostorageAgent缩写,代理进程,部署在各节点上,实现各节点与FusionStorageManager通信,可收集各节点的监控与告警信息或在升级本节点软件组件时接收升级包与执行升级。ZKZookeeper缩写。一个系统需部署3、5、7等奇数个Zookeeper组成。Zookeeper集群,为MDC集群提供选主仲裁,Zookeeper至少3个,必须保证大于总数一半的Zookeeper处在活跃可访问状态。MDC元数据控制组件,实现对分布式集群的状态控制,以及控制数据分布规则、数据重建规则等。一个系统至少部署3个MDC,形成MDC集群,系统启动时由Zookeeper集群在多个MDC中选举主MDC,主MDC对其它MDC进行监控,主MDC故障时产生新的主MDC。每个资源池有一个归属MDC,当某池的归属MDC故障时,主MDC指定另外的MDC托管这个资源池,一个MDC最多管理两个资源池。MDC作为一个进程可以在每个存储节点启动,增加资源池会自动启动MDC,一个系统最多启动96个MDC。VBS虚拟块存储管理组件,执行卷元数据管理,VBS通过SCSI或iSCSI接口提供分布式存储接入点服务,使计算资源能够通过VBS访问分布式存储资源。VBS与其所能访问的资源池的所有OSD点对点通信,使VBS能并发访问这些资源池的所有硬盘。每个节点上默认部署一个VBS进程,多个节点上的VBS形成VBS集群,VBS启动时与主MDC连接并协调主VBS。节点上也可以通过部署多个VBS来提升IO性能。OSDKV设备服务,执行具体的I/O操作。在每个节点上部署多个OSD进程,一块磁盘默认对应部署一个OSD进程。在SSD卡作主存时,为了充分发挥SSD卡的性能,可以在1张SSD卡上部署多个OSD进程进行管理,例如2.4TB的SSD卡可以部署6个OSD进程,每个OSD进程负责管理400GB。EDSEEnterpriseDataService组件,接收到来自VBS的I/O业务之后,执行具体的I/O操作。在EDS服务里面,会执行有关快照、克隆等与块相关的特性,同时还对存储空间的做管理,将块的数据与存储空间建立索引关系,确保每块数据通过索引都能找到对应的存储位置;同时在数据存储到物理空间之前,可以进行重删压缩处理。CMClusterManager,集群管理软件,用于管理整个存储集群的状态信息,包括各组件的状态信息,实时监控各组件的状态,当组件出现故障时,根据组件状态触发相关来恢复错误。CCDBClusterConfigurationDatabase,集群配置数据库,用于保存用户配置信息的数据库,当前在EDS组件中会采用CCDB存放配置信息。关键业务流程数据路由FusionCube分布式存储数据路由采取分层处理方式:VBS通过计算确定数据存放在哪个节点的哪块硬盘上。OSD通过计算确定数据存放在硬盘的具体位置。具体流程如下图所示:FusionCube分布式存储数据路由示意图第一层DHThash环的目的是通过hash算法将数据分发到计算出来的存储服务器节点处理该数据,通过该hash算法,确保每个数据都有对应的服务器节点来处理,保证了业务处理的均衡。系统根据LUNID和LBA定位到服务器节点,然后再定位到该服务器上的vnode上,由该vnode逻辑处理单元来处理该数据;vnode是一种逻辑处理单元,将物理服务器节点分为4个逻辑处理单元,即4个vnode,例如:一个由6个物理服务器组成的一个存储集群,当其中1个物理服务器故障时,该服务器上的4个vnode处理的业务,可以分别被该集群中另外的4个物理服务器去接管,这样剩下的5个物理服务器中,有4个物理服务器运行有5个vnode,1个物理服务器运行4个vnode,通过vnode机制,可以确保故障节点的业务可以分散到不同的服务器节点上去接管,就可以防止只用一个物理服务器接管带来的业务处理瓶颈问题。该DHThash环打散粒度是按64MB对齐打散。第二层DHThash环的目的是通过hash算法将数据转到对应存储空间去保存,完成数据的持久化。通过该hash算法,确保数据存储空间的均衡性。系统根据PlogID和Offset定位到硬盘应该存放的具体位置,避免在海量数据中进行查找和计算,该DHT路由技术,采用华为自研算法,不仅能保证数据在各个硬盘的均衡性,而且在硬件增减(故障或扩容)时,自动快速调整,并保证数据迁移的有效性,确保自动快速自愈,自动资源均衡。存储空间根据可靠性有机柜级、节点级、硬盘级,默认是跨节点组织副本/EC。IO路径读IO流程FusionCube分布式存储系统中的读IO(EC)流程如REF_fig74362371173\r\h图4-4所示。FusionCube分布式存储读IO流程①上层应用下发读IO请求到存储服务,存储服务的VBS(VirtualBlockService)模块收到该IO请求,根据第一层的DHThash算法将数据转到指定服务器;②服务器上的EDS(Index+Dedup)模块处理该数据。EDS接收到读IO请求后,优先在内存的写缓存中查找,如果找到就返回给VBS。③如果内存写缓存中没有命中,则再在内存读缓存中去查找,如果仍然没有找到,则到存储介质中去读,先在SSDCache中去读,如果还不命中,则到存储介质)中去读(详细见ReadCache章节说明)。写IO流程FusionCube分布式存储系统中的写IO(EC)流程如REF_fig223055615173\r\h图4-5所示。FusionCube分布式存储写IO(EC)流程上层应用下发写IO请求到存储服务,存储服务的VBS(VirtualBlockService)模块收到该IO请求(图中①),根据第一层的DHThash算法将数据转到指定服务器;由这个服务器上的EDS(Index+Dedup)模块处理该数据(图中②上);EDS接收到写IO请求后,以小比例EC形式写入CacheLayer层的SSD缓存盘上(图中②下),同时该EDS所在服务器的内存中仍然保持一份该数据,EDS返回写IO成功给VBS(图中③),再由VBS返回给上层应用。待内存中的数据聚合到更大的块,走刷盘流程异步刷入(图中④)到CapacityLayer的存储介质中。Cache机制FusionCube分布式存储采用多级Cache机制提升存储IO性能,读、写Cache机制采用不同流程。WriteCacheVBS发送的写IO操作(图中WriteIOFromHost)时,会将WriteIO在MemoryWriteCache内存中保存一份,同时同步以日志的方式(采用固定的2+2小分片EC)记录到SSDWALCache中并返回成功完成本次写操作,这个流程通常称为HostWriteIO流程。通常SSDDiskCache分为两个部分:SSDWriteCache和SSDReadCache。MemoryWriteCache中的数据会进行IO排序重整并等待满分条以副本或EC的方式直接写入到SSDWriteCache中并返回;对于大块IO则直接由MemoryWriteCache直通写到HDD中,而不驻留在SSDWriteCache里;当SSDWriteCache中的保存数据水位达到40%时,则由SSDWriteCache往HDD中搬迁。随着MemoryWriteCache中的数据逐步刷盘到SSDWriteCache时,SSDWALCache中的数据将逐步淘汰掉,我们通常会进行异步的垃圾回收。FusionCube分布式存储写Cache机制示意图相比较传统的副本方式写入SSDCache,然后异步的再从SSDCache中读出满分条到持久化存储层HDD,FusionCube分布式存储的SSDWALCache方案带来4大优势:FusionCube分布式存储的SSDWALCache的写放大比较小,2+2的EC的Overhead为2;而副本方式的SSDCache,OverHead最低必须为2。由于写放大较小,FusionCube分布式存储对网络的带宽消耗也较低FusionCube分布式存储的SSDWALCache可靠性高,是+2的冗余保护。FusionCube分布式存储的数据往主存上刷盘通常是由RAM中触发完成的,比传统的后台异步先从SSDCache读出再写到主存中的效率高。ReadCacheFusionCube分布式存储的读缓存采用分层机制。第一层为内存Cache,内存Cache采用LRU机制缓存数据;第二层为SSDCache,SSDCache采用热点读机制,系统会统计每个读取的数据,并统计热点访问因子,当达到阈值时,系统会自动缓存数据到SSD中,同时会将长时间未被访问的数据移出SSD。OSD在收到VBS发送的读I/O操作时,会进行如下步骤处理:从内存“MemoryWriteCache”中查找是否存在所需I/O数据,如果存在,则直接返回,同时调整该IO数据到“读Cache”LRU队首,否则执行HYPERLINK\l"li1787011516337"\o""步骤2;从内存“MemoryReadCache”中查找是否存在所需IO数据,如果存在,则直接返回,同时增加该IO数据的热点访问因子,否则执行HYPERLINK\l"li12678853193310"\o""步骤3;从SSD的“SSDWriteCache”中查找是否存在所需IO数据,如果存在,则直接返回,如果不存在,执行HYPERLINK\l"li1750018559338"\o""步骤4;从SSD的“SSDReadCache”中查找是否存在所需IO数据,如果存在,则直接返回,同时增加该IO数据的热点访问因子;如果热点访问因子达到阈值,则会被缓存在SSD的“SSDReadCache”中,如果不存在,执行HYPERLINK\l"li13172757103319"\o""步骤5;从硬盘中查找到所需IO数据并返回,同时增加该IO数据的热点访问因子,如果热点访问因子达到阈值,则会被缓存在SSD的“SSDReadCache”中。----结束FusionCube分布式存储读Cache机制示意图存储管理存储集群管理FusionCube分布式存储通过集群管理软件完成集群的管理工作,功能包括集群基本信息监控、性能监控、告警管理、用户管理、license管理、硬件管理。集群基本信息监控:查看集群的基本信息,包括集群名称、健康状态、运行状态、节点信息、节点进程信息、卷的挂载点查询、存储使用空间等。性能监控:查看CPU利用率、内存利用率、带宽、IOPS、时延、磁盘利用率、存储池利用率统计。告警管理:提供查看告警信息、清除告警、屏蔽告警的功能。用户管理:系统管理员可以创建新的管理员,为该管理员赋予一定的管理权限,以便多个管理员按照所授权限进行系统或资源管理。对用户的操作包括:查询、删除、创建、解锁、冻结用户等。支持设置密码策略以提升系统安全。License管理:提供查看已激活的license和导入新license功能。硬件管理硬件管理包括服务器管理个磁盘管理。服务器管理对系统中的所有服务器集中管理,可查看服务器的软件安装状态、软件版本号、是否加入集群,可查看在服务器上创建的存储池状态以及存储池在该服务器的拓扑信息,支持将服务器设置为维护模式以方便对服务器进行故障恢复处理,支持对服务器的CPU、内存进行性能监控。磁盘管理将系统中所有的磁盘集中管理,支持查看磁盘的状态、槽位号、序列号、磁盘使用率、类型等,支持磁盘包括IOPS、时延、带宽、利用率等监控性能统计。存储服务化FusionCube分布式存储的管理平台用户按角色分为“系统管理员”、“系统操作员”和“系统查看员”,提供的管理功能可分为资源接入和配置、资源管理和维护、系统管理和维护三类。资源管理维护包括系统概览汇总信息、存储池管理、块客户端管理、卷管理、虚拟文件系统管理、硬件管理等。存储池管理存储池管理可查看选定存储池的统计信息,查看选定存储池的硬盘拓扑,为选定存储池扩容、减容,以及删除存储池。还提供创建新存储池功能。块客户端管理块客户端管理提供创建、删除客户端功能。也提供查看块客户端的挂载信息与CPU及内存的监控统计信息,为块客户端进行挂载和卸载卷等操作。卷管理卷管理提供卷的创建和删除功能。创建卷需指定资源池、卷名、卷大小等信息。对于创建后的卷若按SCSI协议使用需要挂载卷,若按iSCSI协议使用需要做iSCSI映射。还提供iSCSI卷映射界面完成创建主机/主机组、配置启动器、配置CHAP认证、为主机/主机组映射/解映射卷等操作。注:默认情况下iSCSI功能是关闭的,若要使用iSCSI功能需要先开启iSCSI功能并添加iSCSI监听的IP地址和端口。QoS策略管理QoS策略管理支持创建、删除QoS策略,及分页查看QoS策略信息。快照管理快照管理支持分页出查看快照列表,列表信息包括快照名称、容量、所属存储池和创建时间;支持创建链接克隆卷、设置QoS策略和删除快照。数据冗余FusionCube分布式存储支持两种数据冗余保护机制,一种是多副本方式,一种是ErasureCode(EC,纠错码)方式。多副本FusionCube分布式存储采用数据多副本备份机制来保证数据的可靠性,即同一份数据可以复制保存为2~3个副本。针对系统中的每1个卷,默认按照1MB进行分片,分片后的数据按照DHT算法保存集群节点上。如REF_fig1450518463392\r\h图4-8所示,对于节点Server1的磁盘Disk1上的数据块P1,它的数据备份为节点Server2的磁盘Disk2上P1’,P1和P1’构成了同一个数据块的两个副本。例如,当P1所在的硬盘故障时,P1’可以继续提供存储服务。FusionCube分布式存储多副本示意图ErasureCodeFusionCube分布式存储也可以采用ErasureCode(EC,纠删码)方式来保证数据的可靠性。相对三副本,EC数据冗余保护机制在提供高可靠性的同时也能够提供更高的磁盘利用率。基于EC的FusionCube分布式存储的数据保护技术,是建立在分布式、节点间冗余的基础上的。FusionCube分布式存储采用自研LDEC(LowDensityErasureCode)算法,基于XOR和伽罗华域乘法相结合的一种MDS阵列码,编码最小粒度512B,支持Intel指令加速,支持各种主流配比。数据进入系统之后,首先被切分为N个数据条带,然后计算出M个冗余数据条带,并最终保存在N+M个不同的节点中。FusionCube分布式存储EC示意图弹性EC是一种增强型数据冗余保护机制,广泛应用于分布式存储领域。EC在分布式存储系统中使用N个数据块和M个校验块保证数据的可靠性,这N+M个数据块中有任意M个块数据损坏,都可以通过其他N个块上的数据恢复M个块的数据。相比于副本存储方式,EC数据冗余保护机制在提供高可靠性的同时也能够提供更高的硬盘利用率,从而降低成本。比如一个4M的IO,在三副本存储方式下,共占有12M的硬盘空间,而在4+2配比的EC存储方式下,4个数据节点每个占用1M空间,2个校验节点各占用1M空间,共6M空间,在提供相同可靠性的前提下,EC比三副本节省了6M硬盘空间。EC在节点扩容时支持扩列功能,对于N+M配比扩至规则为2*N+M,如4+2的EC扩列时直接扩到8+2,然后到16+2EC在节点故障时,如果节点数不满足EC最小节点数时,就会采用缩列方式,确保可靠性不下降;对于N+M的缩列机制,通常采用N/2+M的方式缩列,如4+2的EC缩列时直接缩到2+2,8+2的EC缩列则缩到4+2,10+2的EC缩列则缩到4+2(不能采用奇数数据列数,如果为奇数则向下偶数取整)EC的性能通常比副本的性能高15%左右,在高比例EC配比中,最大能支持到22+2、20+3和20+4三种最大配比。特性介绍SCSI/iSCSI块接口FusionCube分布式存储通过VBS以SCSI或iSCSI方式提供块接口。SCSI方式可为安装VBS的本机提供存储访问,物理部署、FusionSphere或KVM等采用SCSI方式。iSCSI方式可为安装VBS以外的虚拟机或主机提供存储访问,VMWare、MSSQLServer集群采用iSCSI模式。FusionCube分布式存储iSCSI应用示意图对于SCSI协议支持SCSI-3持久预留锁和非持久预留锁:持久预留锁可用于HANA集群。非持久预留锁可用于MSCS集群。对于iSCSI协议的支持是通过VBS提供iSCSITarget,块存储使用方通过本机的Initiator与iSCSITarget联接来访问存储。对于iSCSI协议需要保证安全访问,FusionCube分布式存储支持以下安全访问的标准:支持CHAP身份验证以保证客户端的访问是可信与安全的。CHAP全称是PPP询问握手认证协议(ChallengeHandshakeAuthenticationProtocol)。该协议可通过三次握手周期性的校验对端的身份,可在初始链路建立时以及链路建立之后重复进行。通过递增改变的标识符和可变的询问值,可防止来自端点的重放攻击,限制暴露于单个攻击的时间。支持LUNMASKING给Host对Lun的访问进行授权。对于SAN存储主机将Lun当作本地设备,在主机端进行数据的维护,需要对各主机对Lun的访问进行隔离,避免各主机互相破坏对方的数据。LUNMasking将Lun与主机的HBAWWN地址绑定,通过LunMasking功能保证Lun只能被指定的Host或Host集群访问,未授权的Host将无法访问。主机与Lun间既可有多对一的关系也可有一对多的关系,一对多能满足虚拟化场景小LUN方式使用存储的需求,多对一能满足OracleRAC等集群系统使用共享卷的需求。LunMasking核心功能由Port、Host、HostGroup、LUN几大组件相互建立映射关系实现。LunMasking组件关系图支持LUNMAPPING将Lun与存储端的端口绑定,主机端连接不同的端口使用不同的Lun。当一个存储系统同时为多个应用系统提供数据存储服务,且不同的应用系统的主机分别处于不同的地理地址时,
/
本文档为【FusionCube数据库场景技术白皮书】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索