为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

常用英特尔至强处理器比拟[精品]

2017-09-27 50页 doc 3MB 29阅读

用户头像

is_589748

暂无简介

举报
常用英特尔至强处理器比拟[精品]常用英特尔至强处理器比拟[精品] 英特尔至强5600处理器经典问答集锦2010-03-12,,,,,09:47,,,,,洪钊峰,,,,,IT168,,,,, 跟至强5500相比,至强5600(代号:Westmere-EP)的重要变化在于:32纳米工艺、6核心12线程设计、3.46GHz的更高主频、12MB的更大L3缓存,以及在能耗管理方面的增强技术等。本文对至强5600进行了详细的介绍。 2010年,根据英特尔TICK-TOCK的策略,至强服务器不仅将延承Nehalem架构的诸多优势,还将进入全新的32纳米工艺时代。在基于英...
常用英特尔至强处理器比拟[精品]
常用英特尔至强处理器比拟[精品] 英特尔至强5600处理器经典问答集锦2010-03-12,,,,,09:47,,,,,洪钊峰,,,,,IT168,,,,, 跟至强5500相比,至强5600(代号:Westmere-EP)的重要变化在于:32纳米工艺、6核心12线程设计、3.46GHz的更高主频、12MB的更大L3缓存,以及在能耗管理方面的增强技术等。本文对至强5600进行了详细的介绍。 2010年,根据英特尔TICK-TOCK的策略,至强服务器不仅将延承Nehalem架构的诸多优势,还将进入全新的32纳米工艺时代。在基于英特尔平台的双路服务器市场,最值得期待的莫过于“采用32纳米工艺和Nehalem微架构,代号Westmere-EP的新一代至强5600系列处理器”。IT168服务器频道收集整理了关于至强5600的一些常见问解答,希望能够帮助大家对这一代新产品有更清晰的认识。 问题1:与上一代至强5500相比,至强5600有哪些重要不同? 同样针对双路服务器市场,跟至强5500相比,至强5600(代号:Westmere-EP)的重要变化在于:32纳米工艺、6核心12线程设计、3.46GHz的更高主频、12MB的更大L3缓存,以及在能耗管理方面的增强技术等。由于决定处理器最关键的因素有处理器微架构和制造工艺,至强5600仍然沿用了至强5500的Nehalem架构,因此,最重要的不同就在于32纳米工艺。和至强5500一样,至强5600采用相同的插槽、芯片组,同样具有两个QPI通道,三个内存通道,支持DDR3规格内存,主频范围基本相当,也支持超线程、Turbo,,,,,Boost等技术。具体如下表所示: 英特尔至强5500与至强5600规格对照表 对至强5500 至强5600 比 发 布2009年3月31日 2010年3月16日 时 间 代Nehalem-EP Westmere-EP 号 制 程45纳米 32纳米 工 艺 晶 体7.31亿 11.7亿 管 数 架 构/ 芯Intel,,,,,5520芯片组 Intel,,,,,5520芯片组 片 组 内 核/4核(E5502,,,,,是双核) 4核 6核 线 程 多 线8线程 8线程 12线程 程 8MB缓存、6.40,,,,,GT/秒 QPI:W5590(3.33,,,,,GHz)、 W5580(3.20,,,,,GHz)、 X5570(2.93,,,,,GHz)、 X5560(2.80,,,,,GHz)、7款:,,,,, X5550(2.66,,,,,GHz) 6款: L5609(1.86GHz) 8MB缓存、5.86,,,,,GT/秒W3680(3.33GHz) L5630(2.13GHz) QPI:E5540(2.53,,,,,GHz)、L5640(2.26GHz) 型E5620(2.4GHz) E5530(2.40,,,,,GHz)、X5650(2.66GHz) 号 E5630(2.53GHz) E5520(2.26,,,,,GHz)、X5660(2.8GHz) E5640(2.66GHz) L5530(2.40,,,,,GHz)、X5670(2.93GHz) X5667(3.06GHz) L5520(2.26,,,,,GHz) X5680(3.33GHz) X5677(3.46GHz) 4MB缓存、4.80,,,,,GT/秒 QPI:E5506(2.13,,,,,GHz)、 L5506(2.13,,,,,GHz)、 E5504(2.00,,,,,GHz)、 E5502(1.86,,,,,GHz) 主1.86GHz,,,,,~,,,,,3.33GHz 1.86-3.46GHz 2.26-3.33GHz 频 QPI 数2 2 2 量 QPI4.80,,,,,GT/秒, 速5.86,,,,,GT/秒,6.40,,,,,GT/秒 6.40,,,,,GT/秒 率 6.40,,,,,GT/秒 L2 缓4,,,,,x,,,,,256,,,,,KB 4,,,,,x,,,,,256,,,,,KB 6,,,,,x,,,,,256,,,,,KB 存 L3 缓4MB/8MB共享 12MB共享 12MB共享 存 指 令SSE,SSE2,SSE3,SSE4.2, 集/Intel-VT,VT-d,L5609不支持超线程和睿频全部支持Turbo,,,,,Boost 虚Turbo,,,,,Boost,加速 睿频加速技术 拟Hyper-Threading 化 内集成内存控制器 集成内存控制器 集成内存控制器 存三通道三通道三通道控DDR3,,,,,800/1066/1333MHz DDR3,,,,,800/1066/1333MHz DDR3,,,,,800/1066/1333MHz 制 器 TDP 功60W,80W,95W,130W 40W,80W,95W,130W 60W,95W,130W 耗 IT168服务器频道,2009年12月 问题2:与45纳米相比,32纳米工艺带来了什么样的进步? 英特尔32纳米工艺由于采用了第二代高-K金属栅极晶体管技术,用于高K材料的等价氧化物(电介质)的厚度从45纳米工艺时的1纳米缩小至0.9纳米,栅极长度缩小到了30纳米,所以单位面积可以集成更多晶体管,处理器的同比封装尺寸将是45nm产品的70%;同时采用了第4代应变硅,电子在晶体管中的流通更顺畅,阻力更小,耗电更低。因此,相比较于45纳米,最新的32纳米处理器更小,更快,更强,更高能效。总之,32纳米工艺进一步提升了英特尔部署晶体管密度的能力,提升了单位晶体管的性能,降低了单位晶体管的能耗。因此,可以在相同成本下提高性能,在同样的功耗下提升主频,也可以加入更多内核,把缓存做得更大。比如,得益于工艺进步,与上一代产品中最高端的X5570(2.93GHz,95w)相比,L5640(6核,2.26GHz,60w)的性能相当,但功耗却降低了30%。 32nm、6核心Westmere-EP核心照 问题3:英特尔32纳米的处理器有哪些? 32纳米制程工艺会被英特尔用来生产桌面、移动、服务器、嵌入式等面向不同领域的处理器产品。今年1月份英特尔已经发布了32纳米Core,,,,,i5/i3处理器(Clarkdale),面向桌面台式机和单路服务器市场。3月中旬,英特尔将发布的是32纳米的至强5600系列(Westmere-EP),针对双路服务器市场。预计明后年,英特尔会推出32纳米的至强7000系列(Westmere-EX),针对四路以上的系统。对于四路以上服务器市场,英特尔对新技术的采取相对缓慢,往往比双路服务器要晚上一年左右,目前最新的进展是3月底将要发布的45纳米至强7500系列(Nehalem-EX)。 问题4:什么是英特尔的钟摆模式(Tick-Tock)? 就象钟表发出的滴嗒声一样,英特尔也希望其处理器发展能够象钟摆那样有规律,以协调英特尔内部产品研发、制造、市场等部门以及与外部软硬件合作伙伴的配套步伐,增强产品的市场竞争力。具体而言,Tick-Tock摆钟式的处理器发展战略,就是在奇数年推出新的制程工艺,偶数年推出新的处理器微架构,这样每两年,英特尔就可以将决定处理器的两大关键核心因素提升到一个新的层次。比如奇数年2005年推出65nm工艺、2007年推出45nm工艺、2009年推出32nm工艺;偶数年2006年推出让Core微架构、2008年推出具有划时代意义的Nehalem微架构、2010年推出新一代Sandy,,,,,Bridge微架构。值得注意的是,英特尔的处理器包括桌面、移动、服务器等多种类型,虽然共享微架构和制程工艺的新技术,但这些处理器的具体发布时间并不相同。 问题5:至强5600系列有哪些具体型号,都有什么规格? 3月17日正式发布的首批至强5600系列共有13款型号,有6款4核版本和7款6核版本。 6核12线程的“Xeon,,,,,X5680/X5670/X5660/X5650/L5640”,主频从3.33GHz到2.26GHz不等,三级缓存12MB,热设计功耗最高端型号X5680,,,,,130W、低压版型号L5640,,,,,60W,其它均为95W,全部支持Turbo,,,,,Boost 睿频加速技术。 4核8线程的“Xeon,,,,,X5677/X5667/E5640/E5630/E5620/L5630/L5609”,主频从1.86GHz到3.46GHz不等,三级缓存容量同样是12MB,热设计功耗则有130W、95W、80W、40W四种,其中两款Xeon,,,,,L5600系列低压版本都是40W,但是注意Xeon,,,,,L5609不支持超线程和睿频加速技术。具体如下表所示: 型号 核心 线程 主频 三级缓存 睿频加速 热设计功耗 Xeon,,,,,X5680 6 12 3.33GHz 12MB + 130W Xeon,,,,,X5670 6 12 2.93GHz 12MB + 95W Xeon,,,,,X5660 6 12 2.80GHz 12MB + 95W Xeon,,,,,X5650 6 12 2.66GHz 12MB + 95W Xeon,,,,,L5640 6 12 2.26GHz 12MB + 60W Xeon,,,,,W3680 6 12 3.33GHz 12MB + 130W Xeon,,,,,X5677 4 8 3.46GHz 12MB + 130W Xeon,,,,,X5667 4 8 3.06GHz 12MB + 95W Xeon,,,,,E5640 4 8 2.66GHz 12MB + 80W Xeon,,,,,E5630 4 8 2.53GHz 12MB + 80W Xeon,,,,,E5620 4 8 2.40GHz 12MB + 80W Xeon,,,,,L5630 4 8 2.13GHz 12MB + 40W Xeon,,,,,L5609 4 4 1.86GHz 12MB - 40W 问题6:与以前的处理器相比,至强5600的性能提升幅度有多大? 至强5600由于采用了更先进的32纳米工艺,可以进一步提升主频,增加缓存,同时降低功耗,预计性能会比45纳米的至强5500高60%,如果与2005年的单核至强处理器相比,性能高达15倍之多。换句话说,今天的一台至强5600服务器相当于5年前单核服务器的15台。更多内容,请关注IT168评测中心3月17日发布的报告。 问题7:至强5600在节能方面有哪些改进? 在自适应能效方面,至强5600主要在4个方面进行了改进: 一是CPU功耗更低,每瓦特性能更高,六核版本至强5600的最低功耗为60W,四核版本至强5600的最低功耗只有40W。 二是增强了智能节能技术,可以调节六个内核以及uncore部分的能耗状态,性能功耗比更接近理想的线性状态。与Xeon,,,,,5500一样,至强5600芯片还是被分为“Core”和“Uncore”部分。在Nehalem微构架中英特尔为每个核心引入了Power,,,,,Gate(功率门限)技术,6个核心区域具有独立的时钟频率和供电部分。关闭空闲的核心,芯片的Uncore区域保持满功率运行,核心的状态被存储在芯片缓存中,这样可以降低处理器的能耗。L3缓存和内存控制器位于芯片的“Uncore”区域,也具有了独立的Power,,,,,gate,使得芯片在实际应用中会更加节能。 三是处理器内核的能耗管理算法进行了更新,可以让Turbo,,,,,Boost睿频更高效,同时对内存的能耗管理做到更精细化。 四是Westmere-EP所集成的内存控制器提供了对1.35v低电压DDR3内存的支持,而的DDR3电压为1.5v。支持低电压内存的实际效果是在不牺牲性能的前提下可以降低20%的热量。 问题8:如果用新服务器去整合老旧服务器上的应用,多久能收回投资? 根据Gartner统计,去年由于受经济危机影响,全球大约有100万台服务器的升级计划受到延缓。2010年,随着经济形势转好,服务器更新带来了可观的市场机会。另外,根据IDC在去年第三季度发布的统计数据,全球市场中仍然保有38%的单核服务器和42%的双核服务器。由于至强5600的性能是单核至强的15倍,更新服务器可以 带来维护管理成本、空间成本、电力成本、软件许可证费用的极大节省,因此也有望引发新一轮的服务器更新换代潮。 如果利用至强5600来对这些单核产品进行15:1的整合,每年可以节省95%的电力支出,得益于电力、软件方面的成本节省,仅5个月就可以收回投资。如果实现1:1的替换,性能可以提高15倍,预计每年电力支出可以减少8%。 英特尔、惠普等公司都提供了投资回报率(ROI)的计算器,有兴趣的朋友可以参考使用: 惠普ProLiant,,,,,G6,,,,,ROI计算器 英特尔至强服务器更新换代ROI计算器 问题9:从至强5500升级到至强5600平台,是否方便? 对于至强5500服务器用户来说,至强5600的最大好处就在于使用相同的平台——Intel,,,,,5520芯片组,无须更换主板,只刷新BIOS,就可以进行升级,从而获得最高60%的性能提升。 问题10:支持至强5600的英特尔服务器主板有哪些? 虽然现有的至强5500主板可以通过刷新BIOS进行升级,但为更好发支持至强5600,英特尔也会发布新的主板,预计包括Intel,,,,,S5520UR,,,,,(Urbanna)、S5520HC/S5500HCV,,,,,(Hanlan,,,,,Creek)、S5500BC,,,,,(Bluff,,,,,Creek)、S5500WB,,,,,(Willowbrook)和S5520SC,,,,,(Shady,,,,,Cove)等。 问题11:至强5600服务器平台在I/O方面有哪些改进? 在一个向上扩展的多核系统中,数据存取的层次是CPU、缓存、内存、硬盘,越往外层,I/O越慢,因此,随着 CPU的核心数量越多,CPU喂不饱的现象会更加严重,I/O因此成为多核计算之路上最重要的因素。 从至强5500开始,英特尔就已经引入QPI总线,集成内存控制器,以满足CPU与CPU之间、CPU与内存之间的快速数据传输,QPI传输带宽高达6.4GT/s,以完全取代过去一直制约服务器I/O的前端总线架构。 而在至强5600中,一方面将L3缓存由上一代的8MB增加到了12MB,可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能;另一方面,英特尔对于整个双路服务器平台的I/O方面进行了配套改进,如采用10GbE万兆以太网技术、SSD固态硬盘技术等。在目前处理器核心越来越多、性能越来越强的情况下,大部分服务器系统却仍然局限在1Gb的网络带宽,性能无法得到充分的发挥,如果使用10GbE技术,系统的IO瓶颈有望得到解决。 问题12:至强5600在安全性方面有哪些改进? 随着虚拟化、云计算应用的普及,对于底层硬件平台的安全性要求也越来越高。在至强5600中,英特尔新增加了两项技术:AES-NI加密指令集和Intel,,,,,TXT可信执行技术。 工艺进步让英特尔的设计工程师有了更多晶体管资源预算来增加新的功能,比如在45纳米时,在Penryn处理器 中增加了SSE4.1指令集,而在32纳米的Westmere中,英特尔又新加了AES(Advanced,,,,,Encryption,,,,,Standard)指令集,专门用来加密数据。AES加密处理是对输入的128位明文,使用加密的密钥通过有限次的迭代运算(每一次称为一轮:round)最终得到128位的加密块。解密遵循相反的过程,迭代次数一样,但是需要“解密密钥”而不是加密的“密钥”。在每一轮加密解密中都使用不同的阶段密钥,由原始密钥通过密钥序列算法生成。AES的标准密钥分为128,192和256位,各自对应的迭代次数为10、12和14轮。 Intel的AES增强指令集包括了下面7条指令,分成两部分:Carry-less,,,,,Multiplication,,,,,Instruction(无进位乘法指令):一条单独的无进位乘法指令(Carry-less,,,,,Multiplication):PCLMULQDQ,一次可以处理两个64位宽度的数据。不进位乘法是实现GCM(Galois,,,,,Counter,,,,,Mode)的重要部分。GCM,,,,,是对称加密算法分组密码的一种工作模式。分组密码工作模式可以分为加密模式、认证模式和认证加密模式等。GCM模式为认证模式的一种,提供认证和加密两种功能。GCM在IEEE,,,,,802.1ae标准、IPsec(RFC,,,,,4106)、P1619存储标准和SPoFC(Security,,,,,Protocols,,,,,over,,,,,Fiber,,,,,Channel,ISO-T11的一个标准)中都有应用。另一部分是AES,,,,,Extension,,,,,Instructions(AES扩展指令),包括两条AES加密迭代加速:AESENC和AESENCLAST,两条AES解密迭代加速:AESDEC和AESDECLAST,两条密钥序列生成:AESIMC和AESKEYGENASSIST。 在安全性方面,英特尔还引入了早先就有的Intel,,,,,Trusted,,,,,Execution,,,,,Technology可信赖计算技术。Intel,,,,,TXT所能够提供的功能主要包括:,,,,,Protected,,,,,Execution:在未取得系统授权的情况下无法执行其它软件。Sealed,,,,,Storage:提供硬件加密及存储序列号,使其无法在其它平台中开启并使用。Protected,,,,,Input:所有输入端均需要认证,如USB设备,在无序列号时无法开启使用。Protected,,,,,Graphics:不允许输出画面被非法截取。Protected,,,,,Launch:可以控制操作系统及应用软件不会被开始或进行其它动作。 Intel,,,,,TXT能保护虚拟化运算环境下的数据,配合英特尔新一代的虚拟化技术– Intel,,,,,Virtualization,,,,,Technology,,,,,for,,,,,Directed,,,,,I/O之后,Intel,,,,,TXT可确保虚拟机器监控程序,,,,,(virtual,,,,,machine,,,,,monitor),,,,,更强的抗攻击能力,可发现目前传统软件信息安全解决无法侦测到的攻击。透过这种硬件防护隔离指定的内存,系统能保护各分隔虚拟环境下的数据,避免其它分隔环境内的软件进行未经授权的存取。 问题13:英特尔的“智能计算”概念是什么意思? 由于IT环境正在快速变化,今天IT系统要面对的应用和工作负载的各类非常多,因此整个IT基础设施往智能方向转变是一种必然。无论是数据中心,还是云计算,上面跑的应用负载种类非常多,而不同的工作负载对于底层计算的需求是不一样的,有的是计算密集型,有的是内存密集型,有的是单线程应用,有的则需要多线程并行。真正的智能计算就是要让系统感知到它是一种什么样的负载,然后自动地满足负载的计算性能需求,表现为“按需、自动、可扩展”三大特征。 Intel至强Sandy,,,,,Bridge处理器首发评测2011年04月06日,,,,,00:00,,,,,来源:it168网站,,,,,作者:刘策,,,,,编辑:刘策 SiSoftware,,,,,Sandra是一款很不错的软件,但是对于Sandy,,,,,Bridge平台来说,原来的2010版本已经不能使用,而目前提供免费下载的版本型号为2011Lite。相比我们之前使用的Business版本来说,Lite版简化了许多的功能,还好我们常用的测试项目都还在。 在成绩分析前我们必须要清楚,这两个相对比的服务器平台所配的处理器分属于英特尔至强5500和5600前后两个不同的系列,虽然二者每个处理器都是4个核心,但是二者的工作频率却有比较大的差距,联想万全R525,,,,,G3采用的至强E5620的工作主频为2.4GHz,是至强5600系列中主频最低的,而对比服务器平台所选用的至强X5570却是至强5500系列中工作主频最高的,为2.93GHz。接下来的对比也将是两个处理器配置悬殊的服务器平台间的较量。 产品名称 至强X3430 至强E3-1275 平台类型 单路Sandy,,,,,Bridge 单路Lynnfield Processor,,,,,Arithmetic,,,,,Benchmark 处理器算术运算测试 Dhrystone,,,,,ALU 136.74GIPS 62244MIPS Dhrystone,,,,,ALU,,,,,vs,,,,,SPEED 35.98MIPS/MHz 48.75MIPS/MHz Whetstone,,,,,iSSE3 83.43,,,,,GFLOPS 29187MFLOPS Dhrystone,,,,,iSSE3,,,,,vs,,,,,SPEED 21.96,,,,,MFLOPS/MHz 12.16MFLOPS/MHz Processor,,,,,Multi-Media,,,,,Benchmark 处理器多媒体测试 Multi-Media,,,,,Int,,,,,x16,,,,,iSSE4.1 201.26MPixel/s 106.74MPixel/s Multi-Media,,,,,Int,,,,,x16,,,,,iSSE4.1,,,,,vs,,,,,SPEED 78.26,,,,,kPixels/s/MHz 44.48kPixels/s/MHz Multi-Media,,,,,Float,,,,,x8,,,,,iSSE2 153MPixel/s 81.28MPixel/s Multi-Media,,,,,Float,,,,,x8,,,,,iSSE2,,,,,vs,,,,,SPEED 59.48,,,,,kPixels/s/MHz 33.87kPixels/s/MHz Multi-Media,,,,,Double,,,,,x4,,,,,iSSE2 83.54MPixel/s 42.24MPixel/s Multi-Media,,,,,Double,,,,,x4,,,,,iSSE2,,,,,vs,,,,,SPEED 32.49,,,,,kPixels/s/MHz 17.60kPixels/s/MHz Multi-Core,,,,,Efficiency,,,,,Benchmark,,,,, 处理器效能测试 Inter-Core,,,,,Bandwidth 16,,,,,GB/s 13.27GB/s Inter-Core,,,,,Bandwidth,,,,,vs,,,,,SPEED 4.29,,,,,MB/s/MHz 5.66MB/s/MHz Inter-Core,,,,,Latency(越小越好) 42.4ns 60ns Inter-Core,,,,,Latency,,,,,vs,,,,,SPEED(越小越好) 0.01ns/MHz 0.03ns/MHz .NET,,,,,Arithmetic,,,,,Benchmark .NET算术运算测试 Dhrystone,,,,,.NET 18GIPS 11567MIPS Dhrystone,,,,,.NET,,,,,vs,,,,,SPEED 5MIPS/MHz 4.82MIPS/MHz Whetstone,,,,,.NET 50.1,,,,,GFLOPS 26730MFLOPS Whetstone,,,,,.NET,,,,,vs,,,,,SPEED 13.92MFLOPS/MHz 11.14MFLOPS/MHz .NET,,,,,Multi-Media,,,,,Benchmark .NET多媒体测试 Multi-Media,,,,,Int,,,,,x1,,,,,.NET 37.72,,,,,MPixel/s 21.93MPixel/s Multi-Media,,,,,Int,,,,,x1,,,,,.NET,,,,,vs,,,,,SPEED 9.93MPixel/s 9.14kPixels/s/MHz Multi-Media,,,,,Float,,,,,x1,,,,,.NET 13.7MPixel/s 7.26MPixel/s Multi-Media,,,,,Float,,,,,x1,,,,,.NET,,,,,vs,,,,,SPEED 3.61kPixels/s/MHz 3.03kPixels/s/MHz Multi-Media,,,,,Double,,,,,x1,,,,,.NET 27.22,,,,,MPixel/s 11.82MPixel/s Multi-Media,,,,,Double,,,,,x1,,,,,.NET,,,,,vs,,,,,SPEED 7.16,,,,,kPixels/s/MHz 4.92kPixels/s/MHz 依然是一边倒的成绩,我们甚至觉得选择X3430作为对比产品有点怠慢了E3-1275。不过没办法,单路服务器处理器数量太少,我们手中的数据有较为有限。 英特尔在2009年至强5500服务器发布时引入了“智能计算”这一表概念,其具体技术主要集中在智能性能、智能节能、虚拟化三个方面,比如智能睿频加速(Turbo,,,,,Boost)技术可以自动地感知工作负载,采取关闭核心、提升主频的措施,超线程技术可以针对多线程优化比较好的应用启动多线程并发执行功能,智能节能技术可以对内核与非内核部分的功耗进行精细化管理,Intel,,,,,VT硬件辅助虚拟化技术可以提高虚拟化效率。在至强5600中,英特尔仍然延续智能计算的理念,并有所增强。 Intel至强Sandy,,,,,Bridge处理器首发评测 第1页:Intel至强Sandy,,,,,Brid首发评测ge处理器 【IT168 评测中心】前不久,Intel对外发布了最新的基于Sandy,,,,,Bridge微架构的32nm至强处理器——E3系列。虽然这并非是Intel第一次发布基于Sandy,,,,,Bridge微架构的产品,虽然E3仅仅面向单路应用而生,但不管怎么说,E3的出现的确标志着Intel在至强处理器发展中迈出了重要的一步,也是Tick-Tock战略中重要的内容(Tock)。IT168评测中心有幸在第一时间拿到了至强E3系列的产品,接下来我们将为大家展示的是Sandy,,,,,Bridge架构强 大的性能与未来广阔的发展趋势。 Intel发布Sandy,,,,,Bridge微架构32nm至强处理器 得益于桌面级Sandy,,,,,Bridge处理器的成功,许多人对于至强Sandy,,,,,Brideg处理器也充满了期待。虽然对于至强处理器应用的服务器环境来说,多媒体性能并非是人们应该关注的内容。而每当提到Sandy,,,,,Bridge的技术特点——环形总线、AVX指令集、Turbo,,,,,Boost2等内容都是众多报道中频繁出现的内容。究竟这些技术为我们带来了什么,它们的存在会有哪些的好处。这些还要从Sandy,,,,,Brideg之前的Nehalem开始说起。 第2页:英特尔Sandy,,,,,Bridge至强处理器路线图 ? 按照Intel著名的时钟规律——Tick-Tock来看,Sandy,,,,,Bridge明显属于后者,也就是Tock范畴。Tock主要是指处理器微架构方面的改变,而核心工艺的上一次升级已经由我们熟悉的Westmere完成了,下一次22nm的升级还要再等等才行。 在进行系统的分析之前,我们先来看看最新的至强Sandy,,,,,Bridge处理器路线图。相比以往的产品来说,Sandy,,,,,Bridge至强处理器采用了与桌面级酷睿处理器类似的命名规范,分为E3、E5和E7三个系列。其中,E3系列是面向入门级单路服务器的产品,E5系列则面对了主流的双路服务器平台。唯一有特点的是E7,这款产品虽然在型号上采用了新的命名规则,但是在本质上E7还是上一代架构的产品,它还有一个大家非常熟悉的名字——Westmere-EX,,,,,。 至强处理器路线图 本次我们要介绍的至强E3系列属于面向单路服务器应用的产品,使用的是LGA115接口,也就是图中的Sandy,,,,,Bridge-DT。按照产品布局分析,Sandy,,,,,Bridge-DT主要定位在入门级的单路服务器,虽然同样是单路,但是高端应用的任务则是由Sandy,,,,,Bridge-EN来承担。 第3页:新一代的环形总线,不一样的风景 正如我们刚才提到的,新一代的至强Sandy,,,,,Bridge处理器给我们带来的一个印象就是采用了环形总线架构,这 Nehalem和Westmere之后继续使用环形总线的架构。 也是Intel在继 Sandy,,,,,Bridge核外架构图 Sandy,,,,,Bridge处理器使用了新的环形总线设计。事实上从之前的Nehalem开始,Intel就转向了融合核心的理念。在Nehalem当中,Intel将内存控制器融入其中,而在接下来的Westmere当中,GPU也作为融入的对象而出现(只是那时候的GPU还仅仅使用的是45nm工艺)。在之前的8核心Nehalem-EX上,我们就看到了环形总线的身影,不过当时的产品在性能和功耗上并没有表现出明显的优势。 本次Sandy,,,,,Bridge使用的是重新设计的核外结构,全新的Ring,,,,,Bus环形总线更能够较好的展示出Sandy,,,,,Bridge的真实性能。通过上图大家可以看到,Ring,,,,,Bus环形总线连接各个CPU核心、LLC缓存(L3缓存)、融合进去的GPU以及System,,,,,Agent(系统北桥)等部分。 这个图片或许可以更好的说明问题。新的Ring,,,,,Bus环形总线由四条独立的环组成,分别是数据环Data,,,,,Ring、请求环Request,,,,,Ring、响应环Acknowledge,,,,,Ring和侦听环Snoop,,,,,Ring。借助于环形总线,CPU与GPU可以共享LLC缓存,将大幅度提升GPU性能。 在这个环形总线上,分布着多个Ring,,,,,Stop,也就是俗称的“站台”。这个“站台”在每个CPU/LLC块上具有两个连接点,而之前使用环形总线的产品,也就是Nehalem-EX环在每个CPU/LLC块上只有一个连接点。 环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了若干部分,借助于每个站台,核心可以快速的访问LLC。LLC小容量缓存的延迟优势与核心频率一致性在这里也就体现了出来,这就使得Sandy,,,,,Bridge的周期相比以往产品有所缩减,从原来的35-40个缩减到了26-31个。同时,由于每个核心与LLC之间可以提供若干带宽,使得Sandy,,,,,Bridge的整体带宽也提升了4倍。 第4页:全新System,,,,,Agent,更快速的北桥 在Sandy,,,,,Bridge处理器中,Intel使用了一个全新的概念——System,,,,,Agent(系统助手)。事实上,System,,,,,Agent也就是我们之前所说的核外架构,只是Intel本次给予了其全新的命名,而在以往的名称中,我们亲切的称之为系统北桥。 系统助手 System,,,,,Agent包含了比以往产品更为丰富的功能,包括整合内存控制器、支持16条PCIE2.0通道的PCIE控制器、图形处理器(GPU)、电源控制单元(PCU)以及DMI总线的IO接口。 PCI-E控制器,可提供16条PCI-E,,,,,2.0信道,支持单条PCI-E,,,,,x16或者两条PCI-E,,,,,x8插槽; 重新设计的双通道DDR3内存控制器,内存延迟也恢复了正常水平(Westmere将内存控制器移出CPU、放到了GPU上); 此外还有DMI总线接口、显示引擎、电源控制单元(PCU)。 系统助手的频率要低于其他部分,有自己独立的电源层。 第5页:新加入AVX指令集,256位向量计算 在Sandy,,,,,Bridge处理器中,最大的改进要算是增加了全新的AVX指令集——Advanced,,,,,Vector,,,,,Extensions,高级矢量扩展。这个指令集的增加是X86处理器中的重要内容,不仅仅是提供了更为良好的性能,同时也是对现有指令集的整合与优化。 介绍AVX指令集之前,先要引入一个向量的概念。所谓向量,就是多个标量的组合,通常意味着SIMD(单指令多数据),就是一个指令同时对多个数据进行处理,达到很大的吞吐量。早在1996年,Intel就在X86架构上应用了MMX(多媒体扩展)指令集,那时候还仅仅是64位向量。到了1999年,SSE(流式SIMD扩展)指令集出现了,这时候的向量提升到了128位。 如今,Sandy,,,,,Bridge的AVX将向量化宽度扩展到了256位,原有的16个128位XMM寄存器扩充为256位的YMM寄存器,可以同时处理8个单精度浮点数和4个双精度浮点数。换句话说,Sandy,,,,,Bridge的浮点吞吐能力可以达到前代的两倍。不过现在,AVX的256位向量还仅仅能够支持浮点运算。不过AVX的特别之处在于,它可以应用128位的SIMD整数和SIMD浮点路径。 AVX指令集是和Sandy,,,,,Bridge微架构紧密结合的,因此,微架构的浮点寄存器也要从128位扩展到256位,此外,Load单元也要适应一次载入256位的能力,Sandy,,,,,Bridge没有直接扩展原有Load单元的位宽,而是通过增加了一个Load单元来达到256bit,,,,,Load的能力。 在进行新性能扩展的同时,AVX指令集的出现对于原有的X86指令集也进行了优化与重新组合——这主要源于AVX指令集新的操作码编码方式。AVX指令集的编码方式叫做VEX(Vector,,,,,Extension),其主要用途是缩短指令长度,降低无谓的代码冗余,并且也降低了对解码器的压力,实现的方式也很特别——压缩各式各样的Prefix前缀,集中到一个比较固定的字段中,从而达到了精简指令集的目的。 第6页:革命性的整合GPU,32nm终成正果 既然我们一直在讨论Sandy,,,,,Bridge核心,那么不谈到其特色的整合GPU显然是不合适的,虽然对于服务器的应用来说多媒体性能的确是无足轻重。其实我们在文章最初就提到过,作为Tioc-Tock时钟式的重要内容,其实从Wesrtmere,,,,,32nm处理器开始,Intel就在处理器中整合了GPU,不过仅仅是将二者封装在一个Die上。因为45nm的GPU与32nm的CPU在制程上不一致,最重要的是关键的内存控制器被放在了45nm的GPU当中,造成了32nm,,,,,Westmere性能并没有想象的那么出色。而在Tock中,Sandy,,,,,Bridge的出现解决了这一问题,特别是将GPU整合在了环形总线之内,实现了二者真正的融合。 SandyBridge,,,,,GPU有自己的电源岛和时钟域,也支持Turbo,,,,,Boost技术,可以独立加速或降频,并共享三级缓存。显卡驱动会控制访问三级缓存的权限,甚至可以限制GPU使用多少缓存。将图形数据放在缓存里就不用绕道去遥远而“缓慢”的内存了,这对提升性能、降低功耗都大有裨益。 可编程着色硬件被称为EU,包含着色器、核心、执行单元等,可以从多个线程双发射时取指令。内部ISA映射和绝大多数DX10.1,,,,,API指令一一对应,架构很像CISC,结果就是有效扩大了EU的宽度,IPC也显著提升。抽象数学运算由EU内的硬件负责,性能得以同步提高。 ,,,,, Intel此前的图形架构中,寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少,剩余寄存器 就会分配给其他线程。这样虽能节省核心面积,但也会限制性能,很多时候线程可能会面临没有寄存器可用的尴尬。在芯片组集成时代,每个线程平均64个寄存器,Westmere,,,,,HD,,,,,Graphics提高到平均80个,Sandybridge则每个线程固定为120个。 第7页:无法平滑升级,至强E3-1270登场 好了,介绍了这么多,终于轮到我们本次评测的主角——至强E3系列登场了。关于至强E3系列,一共有7款产品,其中两款为超低功耗版的产品。它们的主频最低为2.2GHz,最高为2.5GHz。 本次我们拿到的测试产品是E3系列中的E3-1275和E3-1220。前者是E3系列中的高端产品,主频为3.4GHz,支持超线程技术,TDP为80W;后者是E3系列标准版中的最低规格,主频仅为3.1GHz,不支持超线程技术。其中,整合GPU的处理器命名统一以5结尾。 至强E3-1220处理器 至强E3-1275处理器 LGA1155接口处理器 至强E3系列处理器采用的是LGA1155接口,从处理器的背面来看其布局与LGA1156有非常大的区别,也就是说用户不可能直接从LGA1156平滑升级到LGA1155处理器,必须要更换平台。 对于桌面级的Sandy,,,,,Bridge处理器来说,6系列芯片组,包括P67和H67都是比较好的选择。而在本次测试中,由于我们暂未难道应用于E3系列处理器的主板,因此在测试中我们只能选择P67芯片组进行。这次,我们将针对高端的E3-1270处理器进行测试。 第8页:测试平台及测试环境介绍 对于至强E3-1270处理器的测试,我们搭建了一套专门的平台,具体配置如下: 服务器 产品名称 至强E3-1275处理器 平台类型 Intel,,,,,P67芯片组 处理器子系统 处理器型号 Intel,,,,,Xeon,,,,,E3-1275 处理器架构 Intel,,,,,32nm,,,,,Sandy,,,,,Bridge 代号 Sandy,,,,,Bridge 处理器封装 Socket,,,,,1155,,,,,LGA 核心/线程数量 4/8 主频 3.4GHz MMX,SSE,SSE2,SSE3, 处理器指令集 SSE4.1,SSE4.2,EM64T,VT-x,AES 2×QPI 2933MHz 外部总线 6.40GT/s 单向12.8GB/s(QPI) 双向25.6GB/s(QPI) 4×,,,,,32KB,,,,,8路集合关联 L1,,,,,Code,,,,,Cache 4×,,,,,32KB,,,,,4路集合关联 L1,,,,,Data,,,,,Cache 4×,,,,,256KB,,,,,8路集合关联 L2,,,,,Cache 8MB,,,,,16路集合关联 L3,,,,,Cache 服务器主板 主板型号 Intel,,,,,DP67BG 主板芯片组 Intel,,,,,P67 2×QPI 北桥芯片特性 VT-d,,,,,Gen,,,,,2 内存子系统 内存控制器 每CPU集成双通道R-ECC,,,,,DDR3,,,,,1333 内存类型 2GB,,,,,R-ECC,,,,,DDR3,,,,,1333,,,,,SDRAM,,,,,×4条 存储子系统 磁盘控制器 Intel,,,,,ICH10R,,,,,SATA,,,,,AHCI,,,,,Controller 4x,,,,,SATA,,,,,3Gb/s+2x,,,,,SATA,,,,,6Gb/s 磁盘控制器规格 AHCI,,,,,w/,,,,,NCQ,,,,, RAID,,,,,0/1/10 控制器驱动 Intel,,,,,Matrix,,,,,Storage,,,,,Manager,,,,,8.8.0.1009 Seagate 硬盘型号数量 Barracuda,,,,,7200.12 ST3250318AS 7200RPM 500GB 硬盘规格 SATA,,,,,3Gb/s NCQ 16MB,,,,,Cache 网络连通性 网卡控制器 Intel,,,,,82576EB ,,,,,Port,,,,,Gigabit,,,,,Network,,,,,Controller 网卡驱动 Intel,,,,,PRO,,,,,Set,,,,,15.8.76.0 软件环境 操作系统 Windows,,,,,Server,,,,,2008,,,,,R2,,,,,Enterprise,,,,,Edition,,,,,SP1,,,,,x64 本次我们为这款平台搭配的是Windows,,,,,Server,,,,,2008,,,,,R2操作系统,而且还增加了SP1补丁。刚刚我们在介绍AVX指令集的时候提到,这个指令集在SP1版本下有比较好的表现,因此我们特别安装了SP1补丁。平台方面,P67平台是当下我们的无奈选择,好在这个是Intel原厂的主板,还算是比较搭配。出于测试SPEC,,,,,CPU,,,,,2006的考虑,我们为平台搭配了4条宇瞻,,,,,DDR3,,,,,1333内存,这样系统的内存容量达到了16GB。 第9页:服务器测试方法介绍 对于服务器的测试,我们主要从产品满足用户应用的角度出发,分功能和性能两个方面来考察。其中性能测试主要体现的是服务器在提供特定服务时的具体的事务处理能力,而在功能上,主要反映的是服务器的可靠性、可扩展性以及易用性等方面的特征。另外,由于不论是最终用户还是处理器厂商,大家对于服务器的能耗问题都给以了很高的重视,为此,我们也继续将能耗作为考察服务器使用成本的重要指标。 ?网络测试环境 贴近应用的性能测试 在实际的应用中,不同的应用条件对于服务器子系统性能的要求也有一定的偏重,因此同一服务器在不同应用中所表现出的性能状况常会出现较大差异。为了能准确反映出服务器的性能状况,我们选择了Web、文件服务器和数据库等三种较为普遍的应用作为测试重点。之所以选用以上三种应用作为性能测试点,这几项应用相对较为普遍是原因之一,此外我们也考虑到这三种应用对于服务器子系统的要求也各有偏重,这样可以更全面的考察服务器各子系统的性能状况。 讲求实用的功能测试 可靠性、可扩展性和易用性同样也是用户关心的内容,但不同的用户对这三方面的需求会有所不同。比如一些中高端服务器产品,在应用中多采用专用机房或托管方式,这时其易用性中的可管理性方面就显得非常重要,远程管理会让工程师及时了解服务器工作状况,实现及时有效的管理和维护。而对于入门级服务器来说,由于很多用户会随着业务的增长会对其处理能力、存储容量有进一步的要求,这时其可扩展性就显得更为重要。可靠性是服务器的一个关键特性,它反映了服务器在应用过程中系统能否确保长时间正常工作,这也是服务器与普通PC之间的重要区别。对于以上三个方面,我们都制定了详细项目进行逐一考察。 兼顾使用成本的能效测试 服务器的售价反映的它是一次性的购买成本,而后期的使用成本是一个不容小视的问题,作为一个要求7×24连续工作的设备,它所产生的电费将是一笔不小的开销。实际上在评判服务器的运算能力时,一定不能将功耗问题视而不见,性能功耗比是衡量服务器运算效能的一个重要指标,测试中我们利用功率分析仪对服务器在加电关机、开机空载以及满负载三种状态下的功耗进行测定,为服务器的能效以及使用成本的估算提供数据支持。 第10页:服务器测试工具介绍 对于服务器性能方面的考察,我们主要分为子系统测试和应用性能测试。在子系统测试中我们按处理器、内存以及磁盘等各个子系统进行了分项测试,当然各子系统的测试成绩也是相辅相成,也需要其它子系统的支持,并非是完全独立的,只是对考察的子系统有所偏重而已。 处理器子系统测试 对服务器处理器子系统的考察,我们主要采用的是业界公认的SPEC,,,,,CPU,,,,,2006测试,该项测试通过对数十个典型应用程序的运行,来测试系统处理器子系统在应用中的整、浮点运算效率。SPEC,,,,,CPU,,,,,2006测试具 有很好的开放性,因此在业界为广大用户所接受,可以利用这一公开的测试结果进行系统间运算性能的比较。 此外SiSoftware,,,,,Sandra也有测试子项可用于处理器运算性能测试,其结果通常以每秒完成的指令数来表现。也可以用作不同处理器间运算效率的比较。 SPEC,,,,,CPU,,,,,2006,,,,,v1.1 SPEC是标准性能评估公司(Standard,,,,,Performance,,,,,Evaluation,,,,,Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。 SPEC,,,,,CPU,,,,,2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC,,,,,CPU,,,,,2000。和上一个版本一样,SPEC,,,,,CPU,,,,,2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,后者则用于测量和对比浮点性能,SPEC,,,,,CPU,,,,,2006中对SPEC,,,,,CPU,,,,,2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。 SPEC,,,,,CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC,,,,,CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC,,,,,CPU2006的影响非常的小。 SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web 服务器等基于整数应用的多处理器系统的性能。 我们在被测服务器中安装了Intel,,,,,C++,,,,,11.1.034,,,,,Compiler、Intel,,,,,Fortran,,,,,11.1.034,,,,,Compiler这两款SPEC,,,,,CPU,,,,,2006必需的编译器,通过最新出现的QxS编译参数,Intel,,,,,Compiler,,,,,10版本开始支持对Intel,,,,,SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft,,,,,Visual,,,,,Studio,,,,,2003,,,,,SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC,,,,,rate,,,,,base测试结果(基于base标准编译,SPEC,,,,,base,,,,,rate测试代表系统同时处理多个任务的能力)。 和其它测试部件不同,SPEC,,,,,CPU,,,,,2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows,,,,,Server,,,,,2008,,,,,R2,,,,,下完成,对于每个运算核心,最低配置1.5GB内存。 内存子系统测试 对于内存子系统的考察,也是利用SiSoftware,,,,,Sandra来实现,在该软件中有相应组件可进行内存带宽、内存延迟等方面的测试。 SiSoftware,,,,,Sandra,,,,,v2011 SiSoftware,,,,,Sandra是一款可运行在32bit和64bit,,,,,Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic,,,,,benchmarks增加了对SSE3&SSE4,,,,,SSE4的支持,在Multi-Media,,,,,benchmark中增加了对于SSE4的支持,另外还升级了File,,,,,System,,,,,benchmark和Removable,,,,,Storage,,,,,benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware,,,,,Sandra,,,,,2010对NUMA架构以及最新的Windows,,,,,7/Windows,,,,,Server,,,,,2008,,,,,R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware,,,,,Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。 第11页:CPU-Z软件检测信息 激动人心的时刻终于到来了。对于一款处理器来说,许多人都喜欢使用CPU-Z来观察它的规格。下面我们就一起来看看至强Sandy,,,,,Bridge处理器给我们带来了什么。 因为测试处理器为ES版,所以依然识别为Core,,,,,i7处理器,不过下面一行倒是看得很清楚——E3,,,,,1275 8MB三级缓存,由4个核心共享,每核心分配2MB 测试主板使用的是P67芯片组 我们使用了4条宇瞻4GB,,,,,DDR3,,,,,1333内存,系统总内存容量为16GB 第12页:Everest软件检测信息 AIDA64(原EVEREST)是一个测试软硬件系统信息的工具,它可以详细的显示出PC硬件每一个方面的信息。支持上千种(3400+)主板,支持上百种(360+)显卡,支持对并口/串口/USB这些PNP设备的检测,支持对各式各样的处理器的侦测。支持查看远程系统信息和管理,结果导出为HTML、XML功能。 之前这款软件命名为AIDA32,后改名为EVEREST,现在又改名为AIDA64,真是够折腾的。 E3-1275支持超线程技术,我们可以看到完整的8个线程 P67主板仅能够支持双通道内存,不过我们刚刚在介绍System,,,,,Agent的说过,这个双通道是经过重新设计的 系统北桥实际上就是System,,,,,Agent,因为我们使用的是P67而非H67,所以显示自带的GPU已禁用 主板南桥信息 第13页:SPEC,,,,,CPU,,,,,2006浮点运算性能测试 SPEC,,,,,CPU,,,,,2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves,,,,,流体力学、416.gamess,,,,,量子化学、433.milc,,,,,量子力学、434.zeusmp,,,,,物理:计算流体力学、435.gromacs,,,,,生物化学/分子力学、436.cactusADM,,,,,物理:广义相对论、437.leslie3d,,,,,流体力学、444.namd,,,,,生物/分子、447.dealII,,,,,有限元分析、450.soplex,,,,,线形编程、优化、453.povray,,,,,影像光线追踪、454.calculix,,,,,结构力学、459.GemsFDTD,,,,,计算电磁学、465.tonto,,,,,量子化学、470.lbm,,,,,流体力学、481.wrf,,,,,天气预报、482.sphinx3,,,,,语音识别共17项测试。 首先我们看到的是浮点预算的测试成绩,我们采用的对比处理器为至强X3430。至强X3430是上一代的单路服务器产品,采用45nm工艺,其主频为2.4GHz,4核心4线程。从这个测试结果来看,E3-1275大幅度领先于对比产品,许多项目的性能提升在一倍以上。 这个原因是多方面的。首先从主频上来看,E3-1275相比X3430提升了1GHz的主频,差距很明显;其次是超线程的应用,8线程相比4线程也提升了一倍;第三是处理器微架构的差别,包括整体的设计及制造工艺。因此,至强E3-1275的明显优势也就没什么好奇怪的了。 第14页:SPEC,,,,,CPU,,,,,2006整数运算性能测试 SPEC,,,,,CPU,,,,,2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC,,,,,CPU,,,,,2006的整数运算包含了400.perlbench,,,,,PERL编程语言、 401.bzip2,,,,,压缩、403.gcc,,,,,C编译器、429.mcf,,,,,组合优化、445.gobmk,,,,,人工智能:围棋、456.hmmer,,,,,基因序列搜索、458.sjeng,,,,,人工智能:国际象棋、462.libquantum,,,,,物理:量子计算、464.h264ref,,,,,视频压缩、471.omnetpp,,,,,离散事件仿真、473.astar,,,,,寻路算法、483.xalancbmk,,,,,XML处理共12项。 刚才我们说过了E3-1275在硬件规格及软件设计上的三点优势,这些优势在整数运算中表现更为明显,部分项目领先了X3430达5倍之多。 第15页:开启超线程Sisoftware,,,,,2011处理器性能,,,,, SiSoftware,,,,,Sandra是一款很不错的软件,但是对于Sandy,,,,,Bridge平台来说,原来的2010版本已经不能使用,而目前提供免费下载的版本型号为2011Lite。相比我们之前使用的Business版本来说,Lite版简化了许多的 功能,还好我们常用的测试项目都还在。 在成绩分析前我们必须要清楚,这两个相对比的服务器平台所配的处理器分属于英特尔至强5500和5600前后两个不同的系列,虽然二者每个处理器都是4个核心,但是二者的工作频率却有比较大的差距,联想万全R525,,,,,G3采用的至强E5620的工作主频为2.4GHz,是至强5600系列中主频最低的,而对比服务器平台所选用的至强X5570却是至强5500系列中工作主频最高的,为2.93GHz。接下来的对比也将是两个处理器配置悬殊的服务器平台间的较量。 产品名称 至强X3430 至强E3-1275 平台类型 单路Sandy,,,,,Bridge 单路Lynnfield Processor,,,,,Arithmetic,,,,,Benchmark 处理器算术运算测试 Dhrystone,,,,,ALU 136.74GIPS 62244MIPS Dhrystone,,,,,ALU,,,,,vs,,,,,SPEED 35.98MIPS/MHz 48.75MIPS/MHz Whetstone,,,,,iSSE3 83.43,,,,,GFLOPS 29187MFLOPS Dhrystone,,,,,iSSE3,,,,,vs,,,,,SPEED 21.96,,,,,MFLOPS/MHz 12.16MFLOPS/MHz Processor,,,,,Multi-Media,,,,,Benchmark 处理器多媒体测试 Multi-Media,,,,,Int,,,,,x16,,,,,iSSE4.1 201.26MPixel/s 106.74MPixel/s Multi-Media,,,,,Int,,,,,x16,,,,,iSSE4.1,,,,,vs,,,,,SPEED 78.26,,,,,kPixels/s/MHz 44.48kPixels/s/MHz Multi-Media,,,,,Float,,,,,x8,,,,,iSSE2 153MPixel/s 81.28MPixel/s Multi-Media,,,,,Float,,,,,x8,,,,,iSSE2,,,,,vs,,,,,SPEED 59.48,,,,,kPixels/s/MHz 33.87kPixels/s/MHz Multi-Media,,,,,Double,,,,,x4,,,,,iSSE2 83.54MPixel/s 42.24MPixel/s Multi-Media,,,,,Double,,,,,x4,,,,,iSSE2,,,,,vs,,,,,SPEED 32.49,,,,,kPixels/s/MHz 17.60kPixels/s/MHz Multi-Core,,,,,Efficiency,,,,,Benchmark,,,,, 处理器效能测试 Inter-Core,,,,,Bandwidth 16,,,,,GB/s 13.27GB/s Inter-Core,,,,,Bandwidth,,,,,vs,,,,,SPEED 4.29,,,,,MB/s/MHz 5.66MB/s/MHz Inter-Core,,,,,Latency(越小越好) 42.4ns 60ns Inter-Core,,,,,Latency,,,,,vs,,,,,SPEED(越小越好) 0.01ns/MHz 0.03ns/MHz .NET,,,,,Arithmetic,,,,,Benchmark .NET算术运算测试 Dhrystone,,,,,.NET 18GIPS 11567MIPS Dhrystone,,,,,.NET,,,,,vs,,,,,SPEED 5MIPS/MHz 4.82MIPS/MHz Whetstone,,,,,.NET 50.1,,,,,GFLOPS 26730MFLOPS Whetstone,,,,,.NET,,,,,vs,,,,,SPEED 13.92MFLOPS/MHz 11.14MFLOPS/MHz .NET,,,,,Multi-Media,,,,,Benchmark .NET多媒体测试 Multi-Media,,,,,Int,,,,,x1,,,,,.NET 37.72,,,,,MPixel/s 21.93MPixel/s Multi-Media,,,,,Int,,,,,x1,,,,,.NET,,,,,vs,,,,,SPEED 9.93MPixel/s 9.14kPixels/s/MHz Multi-Media,,,,,Float,,,,,x1,,,,,.NET 13.7MPixel/s 7.26MPixel/s Multi-Media,,,,,Float,,,,,x1,,,,,.NET,,,,,vs,,,,,SPEED 3.61kPixels/s/MHz 3.03kPixels/s/MHz Multi-Media,,,,,Double,,,,,x1,,,,,.NET 27.22,,,,,MPixel/s 11.82MPixel/s Multi-Media,,,,,Double,,,,,x1,,,,,.NET,,,,,vs,,,,,SPEED 7.16,,,,,kPixels/s/MHz 4.92kPixels/s/MHz 依然是一边倒的成绩,我们甚至觉得选择X3430作为对比产品有点怠慢了E3-1275。不过没办法,单路服务 器处理器数量太少,我们手中的数据有较为有限。 第16页:开启超线程Sisoftware,,,,,2011内存性能 产品名称 至强X3430 至强E3-1275 单路平台类型 单路Lynnfield Sandy,,,,,Bridge Memory,,,,,Bandwidth,,,,,Benchmark 内存带宽测试 Int,,,,,Buff'd,,,,,iSSE2,,,,,Memory,,,,,Bandwidth 17.37,,,,,GB/s 13.78GB/s Float,,,,,Buff'd,,,,,iSSE2,,,,,Memory,,,,,Bandwidth 17.37GB/s 13.77GB/s Memory,,,,,Latency,,,,,Benchmark 内存延迟测试 Memory(Random,,,,,Access),,,,,Latency,,,,,(越小73.3ns 89ns 越好) Speed,,,,,Factor,,,,,(越小越好) 68.20 57.50 Internal,,,,,Data,,,,,Cache 4clocks 4clocks L2,,,,,On-board,,,,,Cache 11clocks 9clocks L3,,,,,On-board,,,,,Cache 35clocks 47clocks Cache,,,,,and,,,,,Memory,,,,,Benchmark 缓存及内存测试 Cache/Memory,,,,,Bandwidth 97.76GB/s 51.08GB/s Cache/Memory,,,,,Bandwidth,,,,,vs,,,,,SPEED 27.06MB/s/MHz 21.79MB/s/MHz Speed,,,,,Factor,,,,,(越小越好) 38.10 27.10 Internal,,,,,Data,,,,,Cache 427.84GB/s 205.08GB/s L2,,,,,On-board,,,,,Cache 287.5GB/s 175.49GB/s 内存带宽测试中,同样是双路的两款平台在性能上出现了较大的差异,特别是L3缓存的项目中差距较大,这都是环形总线的功劳 第17页:开启超线程CineBench性能测试 CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。 产品名称 至强E3-1275 至强X3430 平台类型 单路Sandy,,,,,Bridge 单路Lynnfield CPU,,,,,Benchmark Rendering,,,,,(1,,,,,CPU) 6041 CB-CPU 3868,,,,,CB-CPU Rendering,,,,,(x,,,,,CPU) 23643,,,,,CB-CPU 12964,,,,,CB-CPU Multiprocessor,,,,,Speedup 3.91x 3.35x OpenGL,,,,,Benchmark OpenGL,,,,,Standard 335 CB-GFX 7690,,,,,CB-GFX 至强E3-1275处理器。 第18页:关闭超线程Sisoftware,,,,,2011处理器性能 本次测试的至强E3-1275是E3系列的高端产品,具备了4核心8线程,性能非常强悍。下面,我们将关闭E3-1275的超线程功能,观察在这个状态下它的性能表现,以便总结超线程技术对于Sandy,,,,,Bridge处理器的影响。 至强E3-1275(关产品名称 至强E3-1275(开启) 闭) 单路单路平台类型 Sandy,,,,,Bridge Sandy,,,,,Bridge Processor,,,,,Arithmetic,,,,,Benchmark 处理器算术运算测试 Dhrystone,,,,,ALU 136.74GIPS 106.77GIPS Dhrystone,,,,,ALU,,,,,vs,,,,,SPEED 35.98MIPS/MHz 28.86MIPS/MHz Whetstone,,,,,iSSE3 83.43,,,,,GFLOPS 49.57,,,,,GFLOPS 21.96,,,,,MFLOPS/MHDhrystone,,,,,iSSE3,,,,,vs,,,,,SPEED 13.40MFLOPS/MHz z Processor,,,,,Multi-Media,,,,,Benchmark 处理器多媒体测试 Multi-Media,,,,,Int,,,,,x16,,,,,iSSE4.1 201.26MPixel/s 163.79MPixel/s Multi-Media,,,,,Int,,,,,x16,,,,,iSSE4.1,,,,,vs,78.26,,,,,kPixels/s63.69kPixels/s/M,,,,SPEED /MHz Hz 111.37,,,,,MPixeMulti-Media,,,,,Float,,,,,x8,,,,,iSSE2 153MPixel/s l/s Multi-Media,,,,,Float,,,,,x8,,,,,iSSE2,,,,,vs,,59.48,,,,,kPixels/s43.3kPixels/s/MH,,,SPEED /MHz z Multi-Media,,,,,Double,,,,,x4,,,,,iSSE2 83.54MPixel/s 60.16MPixel/s Multi-Media,,,,,Double,,,,,x4,,,,,iSSE2,,,,,vs,32.49,,,,,kPixels/s23.4kPixels/s/MH,,,,SPEED /MHz z Multi-Core,,,,,Efficiency,,,,,Benchmark,,,,, 处理器效能测试 Inter-Core,,,,,Bandwidth 16,,,,,GB/s 8.84GB/s Inter-Core,,,,,Bandwidth,,,,,vs,,,,,SPEED 4.29,,,,,MB/s/MHz 2.45MB/s/MHz Inter-Core,,,,,Latency(越小越好) 42.4ns 40.2ns Inter-Core,,,,,Latency,,,,,vs,,,,,SPEED(越小越0.01ns/MHz 0.11ns/MHz 好) .NET,,,,,Arithmetic,,,,,Benchmark .NET算术运算测试 Dhrystone,,,,,.NET 18GIPS 15.81GIPS Dhrystone,,,,,.NET,,,,,vs,,,,,SPEED 5MIPS/MHz 4.16MIPS/MHz Whetstone,,,,,.NET 50.1,,,,,GFLOPS 29.34GFLOPS Whetstone,,,,,.NET,,,,,vs,,,,,SPEED 13.92MFLOPS/MHz 7.72MFLOPS/MHz .NET,,,,,Multi-Media,,,,,Benchmark .NET多媒体测试 Multi-Media,,,,,Int,,,,,x1,,,,,.NET 37.72,,,,,MPixel/s 29.17MPixel/s Multi-Media,,,,,Int,,,,,x1,,,,,.NET,,,,,vs,,,,,7.68kPixels/s/MH9.93MPixel/s SPEED z Multi-Media,,,,,Float,,,,,x1,,,,,.NET 13.7MPixel/s 8.16MPixel/s Multi-Media,,,,,Float,,,,,x1,,,,,.NET,,,,,vs,,,2.15kPixels/s/MH3.61kPixels/s/MHz ,,SPEED z Multi-Media,,,,,Double,,,,,x1,,,,,.NET 27.22,,,,,MPixel/s 16.24MPixel/s Multi-Media,,,,,Double,,,,,x1,,,,,.NET,,,,,vs,,7.16,,,,,kPixels/s/4.27kPixels/s/MH,,,SPEED MHz z 对比开启与关闭超线程的测试数据我们发现,处理器计算性能方面,开启超线程之后会有30%-50%左右的性能提升,多媒体方面的性能提升为30%左右。而在.NET测试中,这个数值被缩小到了15%-30%,效能测试的时候两者的差距大约为40%。总体而言,在开启超线程之后,Sandy,,,,,Bridge至强处理器在运算性能上会有30%左右的提升,这个数值与Nehalem与Westmere的成绩是差不多的,事实上我们也没发现Sandy,,,,,Bridge在超线程方面有什么特别大的改动。 第19页:关闭超线程Sisoftware,,,,,2011内存性能 接下来同样是开启与关闭超线程下的内存/缓存系统测试。 至强E3-1275至强E3-1275产品名称 (开启) (关闭) 单路单路平台类型 Sandy,,,,,Bridge Sandy,,,,,Bridge Memory,,,,,Bandwidth,,,,,Benchmark 内存带宽测试 Int,,,,,Buff'd,,,,,iSSE2,,,,,Memory,,,,,Bandwidth 17.37,,,,,GB/s 17.78GB/s Float,,,,,Buff'd,,,,,iSSE2,,,,,Memory,,,,,Bandwidth 17.37GB/s 17.78GB/s Memory,,,,,Latency,,,,,Benchmark 内存延迟测试 Memory(Random,,,,,Access),,,,,Latency,,,,,(越小73.3ns 73.2ns 越好) Speed,,,,,Factor,,,,,(越小越好) 68.20 68.30 Internal,,,,,Data,,,,,Cache 4clocks 4clocks L2,,,,,On-board,,,,,Cache 11clocks 11clocks L3,,,,,On-board,,,,,Cache 35clocks 35clocks Cache,,,,,and,,,,,Memory,,,,,Benchmark 缓存及内存测试 Cache/Memory,,,,,Bandwidth 97.76GB/s 100.55GB/s Cache/Memory,,,,,Bandwidth,,,,,vs,,,,,SPEED 27.09MB/s/MHz 27.09MB/s/MHz Speed,,,,,Factor,,,,,(越小越好) 38.10 39.10 Internal,,,,,Data,,,,,Cache 424.22GB/s 424.22GB/s L2,,,,,On-board,,,,,Cache 355.42GB/s 355.42GB/s 相对比的两台服务器所作用的处理器都采用了集成内存控制器的设计,由于工作主频的不同,这两款不同处理器的QPI传输并不一样,联想万全R525,,,,,G3所用处理器的QPI带宽为5.86GT/s,而对比平台的至强X5570处理器的QPI为6.4GT/s。不过这两个服务器平台的内存的实际工作频率却并不一样,虽然在测试中两个平台所使用的内存条都是DDR3,,,,,1333,联想万全R525,,,,,G3共安装了6条,它的实际工作频率为1066,而对比平台共装配了18条内存,内存工作频率只能达到800MHz,也正是以上这一内存安装方式的不同,直接导致了处理器QPI频率较低的联想万全R525,,,,,G3内存带宽成绩占了上风。 第20页:关闭超线程CineBench性能测试 最后我们进行的是CineBench项目的测试。CineBench测试中有一个处理器核心能效比的内容,我们相信这个项目更可以看出开关超线程之后的性能差距。 产品名称 至强E3-1275(开启) 至强E3-1275(关闭) 平台类型 单路Sandy,,,,,Bridge 单路Sandy,,,,,Bridge CPU,,,,,Benchmark Rendering,,,,,(1,,,,,CPU) 6041,,,,,CB-CPU 6188 CB-CPU Rendering,,,,,(x,,,,,CPU) 23643,,,,,CB-CPU 20886,,,,,CB-CPU Multiprocessor,,,,,Speedup 3.91x 3.38x OpenGL,,,,,Benchmark OpenGL,,,,,Standard 335 CB-GFX 336 CB-GFX CineBench10所进行测试项目在于考察单核心与多核心的性能对比。我们可以看到,对于CineBench,,,,,R10来说,开启超线程下的MS成绩为3.91,关闭的时候只有3.38,相比之下提升了15.6%。 产品名称 至强E3-1275(开启) 至强E3-1275(关闭) 平台类型 单路Sandy,,,,,Bridge 单路Sandy,,,,,Bridge CPU,,,,,Benchmark Rendering,,,,,(1,,,,,CPU) 1.52,,,,,pts 1.42,,,,,pts Rendering,,,,,(x,,,,,CPU) 6.84,,,,,pts 5.59,,,,,pts MP,,,,,Ratio 4.51x 3.95x OpenGL,,,,,Benchmark OpenGL - - 而在最新的Cinebench,,,,,R11.5进行的测试中,两者的成绩差距并没有拉大,依然在15%左右。因为CineBench只考察核心与效能的关系,而之前我们的测试项目更多还依赖于整体平台的性能,因此单纯从提升来说,CineBench只能看到15%的提升,但是开启超线程之后,整体平台的提升会更高一些。 第21页:IT168评测中心观点 【IT168 评测中心】Tick-Tock战略的出现,使Intel避免了在同一年更新制程和微架构,有效的规避了新平台、新制程出现所带来的商业风险。而将新品首先试水桌面平台,进而在推广到服务器平台也是非常明智的举措,这次Sandy,,,,,Bridge处理器就充分说明了这个问题。事实上,由于配套芯片组的问题,Sandy,,,,,Bridge处理器在推广之初就遭遇挫折,幸好Intel的反应够快,在服务器平台上我们并没有发现这样的问题。而随着至强Sandy,,,,,Bridge处理器的推出,也标志着Intel在桌面和服务器两个平台上全面转向了新的微架构,Tock时代终于到来了。 至强Sandy,,,,,Bridge处理器终于现身了 Sandy,,,,,Bridge处理器相比上一代的产品有了非常大的改进,包括AVX指令集、环形总线架构、全新System,,,,,Agent系统助手、革命性的整合GPU等内容。事实上,Sandy,,,,,Bridge最大的特征在于全32nm整合CPU和GPU,但对于服务器来说,GPU作为多媒体工具来说并没有实际的用处,除非可以通过GPU加速运算。 我们再来看看性能。相比上一代的至强3400系列来说,至强E3系列在性能上有了大幅度的提升, 有着至少30%的性能优势,部分项目的性能优势得到了翻倍。相比之下,超线程方面自从Nehalem开始为至强处理器增加了这一功能之后,在Sandy,,,,,Bridge上面我们并没有看到明显的革新。 对于至强系列来说,E3仅仅是低端的入门版本,今年Intel主推的依然是面向双路服务器应用的E5系列,不过这个系列要等到下半年才可以看到。今天,Intel发布了E7系列的产品,虽然使用了全新的命名,但是E7却是我们熟知的Westmere-EX。 我们相信,随着新一代Sandy,,,,,Bridge至强处理器的出现,我们在服务器领域可以看到越来越多的、性能更为出色的产品出现。我们期待着这一天的早日到来。 新制程新动力,,,,,六款至强5600服务器横评 作者:中关村在线,,,,,张桂林,,,,,【原创】,,,,,CBSi中国?ZOL,,,,,2010年12月31日 一、至强5600:双路新霸主 ,,,,,在英特尔Tick-Tock处理器发展步调下,2010年堪称英特尔的一个芯片大年。面向关键任务应用的安腾9300、x86架构的Nehalem家族的至强5600和7500相继问世,英特尔服务器产品线在今年第二季度就已完成全线升级,实现新产品的全面布局。 ,,,,,Nehalem至强的问世让英特尔在2009年风光无限,这种优势在新至强发布后更加稳固,具有多项RAS特性的至强7500让x86首度可以挑战RISC的地位,而作为至强5500的继任者,至强5600将继续扩大英特尔在双路市场的优势,继续把持住这块出货量最大的市场。 双路新霸主:英特尔至强5600 ,,,,,至强5600工艺进步到32nm,代号“Westmere-EP”。新的制程工艺让至强5600芯片面积更小(240平方毫米,至强5500为263平方毫米),从而可以集成更多的晶体管(11.7亿个,至强5500为7.31亿个),还可以集成更多的计算核心(最多6个,至强5500最多4个),可以集成更大的片上缓存(全线集成12MB,,,,,L3缓存,至强5500为最大8MB)。 ,,,,,工艺、核心数量、缓存上的进步可以大幅推进至强5600的性能,英特尔的测试数据表示,在技术计算和通用计算环境,至强5600的性能要提升50%以上。不过至强5600相对同属Nehalem架构的至强5500提升的不仅是制程与核心数量,在能耗控制、智能节能、虚拟化等方面进行了优化,并增加了AES-NI加密指令集和Intel,,,,,TXT可信执行技术等新特性。 ,,,,,比如,至强5600增加了更高能效的低功耗CPU、支持低功耗DDR3内存,并且在智能节能技术和CPU功耗管理等方面均进行了优化,在能耗上更有优势;并且至强5600具有更高的服务器整合率,而且可以从至强5500平滑升级,只需刷新BIOS,就可以在至强5500平台上升级至强5600处理器,操作非常简便。 ,,,,,平滑升级的特性可以让服务器提供商们可以在原有平台进行升级,迅速推出至强5600服务器产品,今年我们可以看到至强5600服务器新品的上市速度非常快,或者在原至强5500机型机型升级,或者推出新的机型,使之更加契合至强5600的特点。截至2010年末,至强5600服务器已经基本完成对至强5500机型的替换。 ,,,,,那么,在2010年双路市场扮演主角的这些至强5600服务器产品有哪些特点,相对至强5500平台有哪些提升,为了能够为读者展现至强5600服务器的特点及进步,继2009年双路至强5500服务器横评之后,ZOL服务器频道在2010年末组织了一次双路至强5600服务器横评,希望通过对这些新平台的对比,能够为用户采购提供一些参考。 二、参测服务器介绍 ,,,,,本次横评范围限定为英特尔双路至强5600服务器产品,可以是由至强5500平台进行升级的机型、或者是今年发布的新机型。机架、塔式均可,刀片服务器由于具有特殊性,不在本次横评的范围之内。 ,,,,,感谢服务器厂商对ZOL服务器频道的支持~横评邀请函发出后,我们陆续收到了来自浪潮、联想、曙光、华硕、正睿、富士通的六款主流双路至强5600机型,其中包括在至强5500平台进行升级的机型,如华硕和曙光;其余四款均是今年发布的至强5600新机型,值得一提的是富士通的送测产品,是今年首度进入中国市场的一款主流双路机架,也是今年横评中唯一的一款国际品牌产品。 ,,,,,由于种种原因,三大国际品牌IBM、HP、DELL的双路至强5600服务器缺席了本次横评,经过多方协调无果,令本次横评失色不少,笔者也感觉十分惋惜。不过参测机型基本覆盖了国内几大主流厂商,也能够反映国内服务器的发展水平,这一点还是值得欣慰。另外x86市场的新进者富士通参加了本次横评,能够抢先体验这款在今年首度进入中国的产品颇令人鼓舞,我们也期待它能够具有和国际三大巨头竞争的实力。 ,,,,,参测机型(按送测时间排序): ,,,,,参加本次横评的机型分别为浪潮英信NF5280M2、联想万全T260,,,,,G3、华硕RS520-E6/RS8、曙光I620r-G、正睿I24962812S-H、富士通RX300S6。 浪潮英信NF5280M2(左)和,,,,,联想万全T260,,,,,G3 ,,,,, 华硕RS520-E6/RS8(左),,,,,和,,,,,曙光I620r-G ,,,,, 正睿I24962812S-H(左),,,,,和,,,,,富士通RX300S6 ,,,,,华硕RS520-E6/RS8是一款在至强5500平台进行升级的产品,机身比常见的2U机架要更短一些,这样更加节省空间,也缩减了成本。在硬盘、风扇和电源等部件采用了模块化设计,提供了冗余。 ,,,,,曙光I620r-G是在至强5500平台进行升级的机型,在去年曾经造访ZOL评测室。存储扩展能力优秀,最大支持12块3.5寸硬盘,做工扎实,在产品设计、管理功能等方面独具特点。 ,,,,,浪潮NF5280M2是至强5500平台的经典机型NF5280的升级版本,不过它并不仅仅是处理器的升级,而是一款自主研发的全新产品,机箱、主板、阵列卡、散热系统等多个部件自行设计。性能、能耗、管理等方面较为均衡。 ,,,,,联想T260,,,,,G3是今年发布的新机型,面向中小企业,是本次横评中唯一一款塔式机型。节能静音是这款机型最大特点,在扩展性、管理功能、安全性设计等方面契合中小企业需求。 ,,,,,正睿I24962812S-H是今年11月上市的新品,凭借优良的性价比,上市后广受中小企业关注。扩展性优秀, 内存和最大24块2.5寸SAS硬盘,适合成长型企业。 支持18根 ,,,,,富士通RX300S6是本次横评中唯一的一款国际品牌产品,今年刚刚进入中国。由德国和日本两个团队联合设计,做工精良,具有多项独特设计,能够代表富士通x86服务器的主流水平。 ,,,,,六款产品各具特点,我们希望对这六款产品的设计、性能、管理功能、能耗等方面测试对比,找到市场主流双路至强5600服务器的共性及区别,以及至强5600平台对至强5500平台的提升。 三、横评方法 ,,,,,本次横评包含产品设计、性能、管理功能、能耗四大部分。 ,,,,,产品设计评估:产品设计是体现产品特点的重要部分,也是体现服务器厂商实力之处。优秀的产品设计直接关系服务器的性能、可靠性、能耗等指标,比如散热设计和风道设计关系着服务器的散热能力,关系着服务器的稳定性;电源设计和能耗控制设计关系着服务器的能耗高低;机箱的结构设计也关系着服务器的散热能力以及扩展性等等。 ,,,,,在这个环节我们将对机箱规格、硬件配置进行评估。机箱规格评估包括对机箱规格尺寸、拆装方式、结构设计、热插拔托架设计、散热设计等进行评估;硬件配置评估包括对处理器、内存、芯片组、磁盘子系统、网络系统、散热系统、供电系统、扩展插槽、I/O接口和托架等部分的规格和配置进行评估。 ,,,,,性能评估:性能是服务器的一个重要指标,关系着服务器能够提供服务的“质量”,也正是对于服务器性能永不停止的追求,推动着服务器处理器、内存、磁盘等技术的不断发展。至强5600采用了新的制程工艺,并增加了核心数量和缓存容量,在性能上非常值得期待,性能也是我们重点考量的一个部分。 ,,,,,不过“配置决定性能”,这是颠扑不破的真理。不同的配置情况也会导致不同的性能表现。故而我们将参测机型的配置进行统一—配置相同规格的CPU、内存、硬盘等主要硬件。但由于各产品规格存在差异,配置上还是完全统一,但我们力求将差异降到最低。性能评估分为处理器、内存、磁盘等几大部分。 ,,,,,管理功能评估:管理功能是服务器的一个重要组成部分,丰富而便捷的管理功能可以大大降低服务器的监控、管理难度,降低管理成本,从而帮助企业降低TCO。对于管理功能的评估主要包括对服务器硬件管理模块、随机管理软件的功能丰富度和操作简便度进行评估。 ,,,,,能耗评估:能耗评估中我们主要考量服务器三个状态的功耗:通电不开机、空载和满载状态。通电不开机指 连接好服务器电源,但是不开机的状态,这时候的服务器会有一个待机功耗;空载状态即CPU使用率为0%;满载状态为CPU使用率100%。我们将采用功耗测试仪来评估这三个状态的能耗。 四、参测服务器规格汇总 ,,,,,下面是参测服务器的规格汇总:(点击放大) ,,,,,服务器类型:除了联想T260,,,,,G3是5U塔式结构,其余机型均是2U机架结构。2U机架更加节省空间,并且可以兼顾扩展性,是数据中心非常青睐的一种类型,是市场需求量较大的一种类型。 ,,,,,可扩展性:6款产品均采用双路设计,但定位不同,扩展性也不尽相同。内存方面,浪潮、正睿、富士通的产品采用最高规格设计,具有18个内存插槽;华硕、曙光产品为12个、联想产品为8个。硬盘扩展性方面表现 均不错,联想T260,,,,,G3虽然采用塔式结构,但支持硬盘数量最少,为5个;其余机型均可配置8个以上的硬盘,其中正睿产品可以支持24块2.5寸硬盘,曙光产品可支持12个3.5寸硬盘,比较出色。 ,,,,,冗余设计:6款机型均提供了热插拔硬盘配置,联想产品包含一个非热插拔硬盘的选项,其余产品所有硬盘均支持热插拔。电源方面除联想产品配置单电源,其余均提供了冗余电源选项。 ,,,,,处理器:我们为六款机型配置了相同的处理器,Intel,,,,,Xeon,,,,,X5650,这款处理器具有6个核心,采用32nm工艺,主频2.66GHz,集成12MB,,,,,L3缓存,具备6.4GT/s的QPI总线,支持英特尔超线程及睿频加速技术,TDP为95W,是至强5600系列中比较具有代表性的产品。 ,,,,,芯片组:在芯片组上,浪潮、曙光、正睿、富士通的产品采用了I/O扩展能力更强的Intel,,,,,5520芯片组,联想、华硕产品采用了Intel,,,,,5500。两款芯片组的区别在于对PCIe通道数量支持的不同,Intel,,,,,5520支持36个,而Intel,,,,,5500支持24个,这说明采用Intel,,,,,5520的主板可以具备更好的I/O扩展能力,可以支持速度更高、或者数量更多的PCI-E设备。相比Intel,,,,,5520,Intel,,,,,5500平台在成本上更低一些。 ,,,,,内存:6款机型均采用了ECC,,,,,DDR3-1333规格内存,为了获得最大的内存带宽,我们为服务器配置了能够实现最大通道数的内存数量,其中联想T260,,,,,G3只有8个内存插槽,只能实现双通道内存传输,所以只配置了四根内存。其余机型均配置了六根内存,实现三通道传输。内存容量上未作统一,在后面的CPU、内存带宽等测试中内存容量对结果影响并不是很大。 ,,,,,硬盘:由于送测服务器硬盘托架、支持硬盘类型有所差异,故而硬盘未作统一配置。接口方面,联想T260,,,,,G3配置了SATA硬盘,其余机型均配置了SAS硬盘。硬盘尺寸上,正睿和富士通的产品配置了2.5寸硬盘,其余均为3.5寸。转速上,联想产品配置了7200转硬盘,正睿产品为万转,其余产品均为15000转硬盘。 ,,,,,阵列卡:阵列卡配置没有统一。从类型上来看,联想T260,,,,,G3采用了板载的RAID功能,支持阵列模式较为单一,其余产品均配置了独立的阵列卡,支持阵列模式较为丰富。从速率上来看,浪潮、曙光、正睿、富士通的产品配置了6Gb/s的阵列卡,较为高端。 ,,,,,管理功能:管理功能是服务器上非常重要的一个方面,丰富便捷的管理功能可以大大降低服务器后期管理维护的难度,降低管理成本,并提高服务器的可用性。本次送测的6款机型全部配置了BMC远程管理模块。 五、产品设计评估 ,,,,,服务器作为为网络中的计算机提供服务的核心设备,承载着关键业务应用,需要具备可扩展性、易使用性、可用性、易管理性等特点。为了实现上述这些特性,服务器并不是简单的硬件堆砌,在处理器、内存、硬盘等部件,以及机箱、散热系统、电源、线缆等部分都需要经过专门的设计。 近年来随着服务器技术的不断发展,服务器的易用性也大大增强,如机箱的免工具设计、模块化设计等并不鲜见,提高服务器可用性的冗余和热插拔技术也大行其道,降低管理难度的服务器监控管理软硬件也更加丰富。此外随着“绿色IT”的口号越叫越响,服务器上的绿色节能设计也炙手可热,低功耗处理器、温控风扇、高效电源等设计也越来越有市场。 为了实现产品的差异化,目前大部分服务器厂商都在产品设计上投入了更多的精力,这也是最能够体现厂商设计实力的部分,也是获得市场的前提。 ,,,,,1、机箱结构设计:评估内容包括拆装方式、硬盘托架、按钮、指示灯、故障诊断功能、接口等部分。 ,,,,,拆装简便度:评估机箱顶盖、硬盘、电源、风扇、内存、处理器、扩展卡等部件的拆装难易度,这对于服务器的故障恢复和升级具有比较实际的意义,方便的拆装可以大大降低服务器维护管理难度。 富士通的产品机箱采用免工具设计,主要部件大多采用 ,,,,,6款产品硬盘均采用了热插拔设计,比较容易拆装; 模块化设计,拆装简便,比其他五款产品在拆装上要更胜一筹。华硕RS520-E6/RS8机身比普通2U更短一些,结构紧凑,风扇、电源、扩展卡等部分细节设计可圈可点。总体来看国内产品在机箱的拆装简便度上略有不足,借助工具的程度要更高。 ,,,,, 富士通RX300S6(左)和,,,,,华硕RS520-E6/RS8(右) ,,,,, 浪潮NF5280M2(左)和,,,,,曙光I620r-G ,,,,, 联想T260,,,,,G3(左),,,,,和,,,,,正睿I24962812S-H ,,,,,最大热插拔硬盘托架:热插拔硬盘技术在服务器上已经非常普及,参测的6款服务器均提供了热插拔硬盘支 浪潮NF5280M2提供了2.5寸和3.5寸热插拔硬盘的选择,持,但支持数量和规格不同。其中富士通RX300S6和 配置较为灵活。从支持的数量看,曙光I620r-G和正睿I24962812S-H较为突出,前者最大支持12块3.5寸热插拔硬盘,后者最大支持24块2.5寸热插拔硬盘。 ,,,,, 曙光I620r-G(左)和正睿I24962812S-H支持热插拔硬盘数量较多 ,,,,,接口、按钮和指示灯:作为最基本的功能部分,按钮、接口和指示灯的丰富度也关系着服务器的易用性。其中正睿I24962812S-H无前置接口,这影响了服务器的易用性。6款产品均配置了双千兆以太网网口,除了联想T260,,,,,G3,另五款产品均提供了独立的远程管理接口。 ,,,,,故障诊断:故障诊断功能对于服务器的故障恢复具有非同一般的意义,快速的确定故障部件所在可以减少服务器修复时间,将损失降到最低。参测的6款产品在前面板均至少提供了一个故障指示灯,可以通过不同颜色或者闪烁来提示硬件故障,不过在功能性上比较简单,并非能够起到很好的故障定位作用,在这一点上6款产品要比具有独立故障诊断面板的IBM、HP、Del等产品逊色不少。 ,,,,,可扩展性:可扩展性对于服务器来说是一个重要特性,决定服务器的升级能力,我们主要考量参测服务器的处理器、内存、硬盘、I/O扩展槽位等部分的扩展能力。其中浪潮NF5280M2、富士通RX300S6、正睿I24962812S-H相对来看规格较高,如内存均支持18根,支持硬盘数量和I/O选项较为丰富。曙光和华硕的产品在内存扩展性上要逊色一些,只有12个内存插槽。联想T260,,,,,G3虽然采用宽大的塔式结构,但是定位较低,扩展性上并没有什么优势。 ,,,,, 浪潮NF5280M2(左)和富士通RX300S6规格较高 ,,,,,机箱结构设计评估小结:在机箱结构设计上国内产品和国际产品还是有一定的差距,相比之下,国内产品近年来在设计上已经有了很大进步,虽然规格可以很高,扩展性优秀,但在人性化设计以及细节处理上相比国际老牌厂商还有不足,细节处理不够。富士通的产品在机箱设计上要略胜一筹,做工精细,设计人性,大量采用模块化设计,机箱免工具,无线缆,优势较为明显。 ,,,,,2、散热系统设计 ,,,,,散热系统是服务器至关重要的一个部分,关系着服务器工作的可靠性,为服务器所承载的业务提供着保障。为了能够达到良好的散热效果,服务器的散热部分可以称得上是一个系统工程,散热风扇设计、处理器散热器设计、机箱设计、风道设计等都决定着服务器的散热效果。 散热系统的设计决定着服务器的可靠性,也体现着厂商的设计实力,故而我们将6款服务器的散热系统独立拿出来比较,看一看各产品都有怎样的特色。 ,,,,, 浪潮NF5280M2的导流风罩采用了分区设计,将两颗CPU隔离,可以获得更高的气流强度,配置了6个模块化的温控冗余风扇 ,,,,, 联想T260,,,,,G3处理器采用主动散热,散热器做工精良,另外配置三个大尺寸的机箱风扇,形成前后贯通的风道,机箱宽大散热效果良好,并且十分静音 ,,,,, 华硕RS520-E6/RS8采用4个模块化风扇,具备SmartFan技术,具备导流风罩 ,,,,, ,,,,, 曙光I620r-G配置了3个模块化风扇,可以独立拆卸,CPU和内存上覆盖了导流风罩 ,,,,, 正睿I24962812S-H处理器采用主动散热方式,机箱配置了3个模块化温控风扇 ,,,,, 富士通RX300S6采用仿生学的Coolsafe散热设计,大量采用蜂窝状散热窗口,配置了导流风罩,机箱前方配置了5个模块化热插拔冗余风扇,最大可以安装10个,风扇模块可以整体拆卸,单个风扇可以独立拆卸 ,,,,,散热系统设计小结:散热系统是服务器的重要组成部分,直接关系着服务器的可靠性。在散热设计上6款产品都花了不少心思,设计各具特色,但普遍采用了模块化的冗余风扇,这一点均值得肯定。能够提高气流强度,提高散热效果的散热风道、导流罩设计也并不鲜见。其中联想、正睿产品处理器采用了主动散热方式,其余均采用被动散热,这两款产品也没有导流风罩的设计。 ,,,,,3、供电设计 ,,,,,电源是服务器的动力源泉,一颗稳定的电源是服务器稳定工作的保障,对于服务器这种7x24不间断工作的设备来说,电源的品质更加重要,冗余电源也为服务器提供了多一重的保障。 ,,,,,为了能够更加绿色节能,高转化率电源目前在服务器上的得到了较为普遍的应用。如我们熟知的80Plus标准,即在20%、50%、100%负载状况下电源转化效率均高于80%。并且根据转化效率不同,80Plus被分为“白牌”、“铜牌”、“银牌”、“金牌”等标准,最高转化效率可达90%以上。 80Plus电源标准 80Plus电源标准 20%负载 50%负载 100%负载 80Plus 80% 80% 80% 80Plus,,,,,Bronze(铜牌),,,,, 81% 85% 81% 80Plus,,,,,Silver(银牌),,,,, 85% 89% 85% 80Plus,,,,,Gold,,,,,(金牌),,,,, 88% 92% 88% ,,,,,下面来看一下6款产品的电源部分: ,,,,, 富士通RX300S6配置两颗800W冗余电源,转化率高达92% ,,,,, 正睿I24962812S-H配置了两颗全汉500W冗余电源,做工扎实品质较高 ,,,,, 曙光I620r-G配置了两颗750W,,,,,80Plus银牌冗余电源,转化率高于85% ,,,,, 华硕RS520-E6/RS8提供了冗余电源选项,配置了一颗770W,,,,,80Plus铜牌电源,转化效率高于81% ,,,,, 联想T260,,,,,G3采用单电源设计,配置了一颗台达400W电源,可选650W的版本,通过80Plus认证 ,,,,, 浪潮NF5280M2配置了一颗650W长城电源,可选1+1冗余电源 ,,,,,供电设计小结:从6款产品的共性来看,无一例外的在电源部分不惜工本,采用了高品质的电源。冗余设计较为普及,除了塔式的联想T260,,,,,G3,其余5款机架产品均提供了1+1冗余电源的选项,避免单颗电源失效导致的服务器宕机。从电源的转化率上来看,各产品均配置了较高转化率的电源,如富士通电源转化率高于92%,曙光、华硕、联想产品电源均通过80Plus认证。 新制程新动力,,,,,六款至强5600服务器横评 作者:中关村在线,,,,,张桂林,,,,,【原创】,,,,,CBSi中国?ZOL,,,,,2010年12月31日,,,,,[评论11条],,,,, 六、性能评估 ,,,,,性能是服务器的一个重要指标,更强大的性能让服务器可以胜任更加繁重的工作,也能够实现更高的服务器整合率,为企业降低硬件上的成本。英特尔至强5600处理器相对至强5500在工艺、核心数量、缓存等方面明显提升,制程进步到32nm、核心数量增加为6个、缓存增加到12MB,这有效的推进了处理器的性能。根据英特尔发布的数据,在科学计算和通用计算中,至强5600平台可以有50%左右的性能提升。 ,,,,,对至强5600平台的性能表现,我们充满了期待。性能评估将分为处理器性能、内存性能、磁盘性能三大部分。为了让参测的6款服务器具有可比性,我们尽量将其配置进行统一,但是由于服务器规格以及配件的限制,最终还是无法将服务器的配置做到完全一致。配置的差异一定会产生性能的差异,因此我们更希望能够通过性能部分的测试,发现至强5600平台相对上一代平台的提升,而不是去过分的纠结完全相同配置下个体之间的细微性能差异。 ,,,,,1、处理器性能测试 ,,,,,我们将6款测试机型处理器统一配置为2颗Intel,,,,,Xeon,,,,,X5650,主频2.66GHz,共12个物理核心,开启超线程技术。 处理器性能测试 CPU配置 2*Intel,,,,,Xeon,,,,,X5650(2.66GHz、共12核心、开启HT) CineBench,,,,,R10 测试软件 CineBench,,,,,R11.5 SiSoftware,,,,,Sandra,,,,,Pro,,,,,Business,,,,,2010 操作系统 Windows,,,,,Server,,,,,2003,,,,,R2中文企业版,,,,, ,,,,,CineBench是一款以处理器的运算能力直接进行特定分辨率CG图片的渲染测试软件,可以测试多核心处理器效能以及多处理器协调性能的表现。我们通过CineBench主要测试的是处理器在进行多任务处理时候的性能表现,以及多核处理器在多任务处理时候的优势能有多大。R11.5是新发布的版本,采用了全新评分机制,并对新架构CPU进行优化,测试结果更加准确。 ,,,,, CineBench,,,,,R10(左)和R11.5所渲染的CG图片 ,,,,,我们采用CineBench,,,,,R10和CineBench,,,,,R11.5,渲染特定分辨率的CG图片来测试处理器的运算能力,在单个核心情况和12个核心、24线程并发的情况下分别进行渲染测试,这样可以对比出多核处理与单核处理情况下性能的提升,并可以测试多处理器之间的协调能力,从而测试服务器的平台性能。 ,,,,,CineBench,,,,,R10测试结果和处理器的主频、核心数量和缓存大小有关,得分越高越好。从结果来看,配置2颗至强X5650的6款参测机型在得分上都要明显领先上一代的至强5500平台,即使相对主频更高的2颗X5570,优势也是较为明显,看来具有更多核心的至强5600平台在性能上得到了大幅提升。 ,,,,,虽然配置了同样的处理器,但是6款产品在R10测试中还是出现了差异,分数比较领先的有富士通、正睿和浪潮的产品,华硕和曙光得分偏低。下面再来看看CineBench,,,,,R11.5的测试结果,R11.5针对多核处理器进行了优化,得分更加的准确,结合两次测试结果,比较能反应真实的性能情况。 ,,,,,CineBench,,,,,R11.5测试中六款产品得分更加接近了一些,不过还是有一些差异,其中富士通RX300S6表现突出,得分较其他产品稍高。曙光I620r-G得分与富士通接近,浪潮NF5280M2得分稍低,其余三款产品得分都较为接近。 ,,,,,SiSoftware,,,,,Sandra,,,,,Pro,,,,,Business,,,,,2010是一款Windows系统上的分析软件,可以查看系统的软硬件信息,并可以对处理器、内存、网络、磁盘等子系统进行测试,如处理器数学计算、多媒体计算、多核计算等,内存带宽、延迟、缓存性能等。2010版本对Windows,,,,,Server,,,,,2008,,,,,R2进行了优化,最高可以支持32/64路平台。 ,,,,,我们首先利用SiSoftware,,,,,Sandra来测试6款服务器的算术性能、多媒体性能、多核效率和加密解密性能: SiSoftware,,,,,Sandra处理器测试(其中多核效率测试在Win2003系统下无法正常得出结果,我们在Win2008,,,,,R2英文企业版系统下进行此项测试) ,,,,,在SiSoftware,,,,,Sandra的CPU测试中,由于配置了同样的CPU,6款产品均比较接近,但是也出现了一些 富士通RX300S6表现突出,在测试中一直独秀,以微弱的优势拔得头筹。曙光、浪潮的产品表现也不错,差异。 紧随其后。但整体看来配置同样CPU的6款服务器并没有出现明显的差异,个位数的分值差别在实际应用中不会产生明显的不同。 ,,,,,综合CineBench和SiSoftware,,,,,Sandra的处理器测试结果,我们发现6款同样CPU配置的参测服务器在处理器性能上差别并不明显,但相比上一代的至强5500平台,这种领先优势就十分的明显了。其中富士通RX300S6的表现不俗,在两项测试中均以微弱优势胜出。 ,,,,,2、内存性能测试 ,,,,,6款机型均采用了ECC,,,,,DDR3-1333规格内存,为了获得最大的内存带宽,我们为服务器配置了能够实现最大通道数的内存数量,其中联想T260,,,,,G3只有8个内存插槽,只能实现双通道内存传输,所以只配置了四根内存。其余机型均配置了六根内存,实现三通道传输。内存容量上未作统一,在后面的CPU、内存带宽等测试中内存容量对结果影响并不是很大。 机型 内存规格 数量 通道 浪潮NF5280M2 2GB,,,,,ECC,,,,,DDR3-1333 6 3 联想T260,,,,,G3,,,,, 2GB,,,,,ECC,,,,,DDR3-1333 4 2 曙光I620r-G 4GB,,,,,ECC,,,,,DDR3-1333 6 3 华硕RS520-E6/RS8 2GB,,,,,ECC,,,,,DDR3-1333 6 3 正睿I24962812S-H 4GB,,,,,ECC,,,,,DDR3-1333 6 3 富士通RX300S6 4GB,,,,,ECC,,,,,DDR3-1333 6 3 ,,,,,SiSoftware,,,,,Sandra,,,,,Pro,,,,,Business,,,,,2010中提供了内存带宽、内存延迟和缓存性能的测试,我们继续用这个工具来考量6款服务器的内存性能: 内存带宽测试对比 ,,,,,内存测试小结:6款机型配置了同样的X5650,,,,,CPU、均采用ECC,,,,,DDR3-1333规格内存,至强5600平台集成三通道内存控制器,理论上最大可以实现32GB/s的内存带宽。从结果来看,华硕、曙光、正睿、富士通的产品在内存带宽上几乎完全相同,这看上去是由相同的配置规格所决定的。但是浪潮和联想的产品比较出人意料,获得了更高的分数,其中联想T260,,,,,G3只支持双通道传输,配置了4根内存,但是却获得了较高的分值。 ,,,,,3、存储子系统测试 ,,,,,存储子系统由硬盘和磁盘控制器或RAID卡组成,性能和磁盘转速、接口、缓存、磁盘控制器、RAID卡主控芯片、缓存等有关。下面先来看看6款机型磁盘子系统的配置情况: 存储子系统配置情况 ,,,,,6款机型硬盘托架不尽相同,所以我们没有进行统一的配置,采用送测机型的原始配置进行测试。这样虽然不能测试出同样的存储子系统在不同平台的性能差异,但是可以比较出不同配置的存储子系统的性能差异。6款机型中联想T260,,,,,G3没有配置独立的阵列卡,并采用了SATA接口硬盘;其余5款均采用了较高规格的独立阵列卡,6Gb/s产品比较普遍,并且均配置了性能更好的SAS硬盘。 ,,,,,我们利用Iometer来测试6款服务器存储子系统的读写性能。Iometer是一款功能非常强大的IO测试软件,它包含了负载发生器(IOMeter称其为Worker),提供一系列标准测试组件以模仿实际应用,如WebServer(网站服务器)、FileServer(文件服务器)和在OLTP(OnLine,,,,,Transaction,,,,,Processing,在线交易处理)服务器。这些测试组件产生不同大小的输入输出请求和读/写分布,以模仿实际应用中的行为。 ,,,,,为了测试服务器的最大I/O性能,我们采用这样的脚本进行测试: Max,,,,,IO(read): 测试读取尺寸为512Bytes,100%读取操作,随机率为0%,即为100%连续读取,队列深度256,用于检测磁盘子系统的最大读能力。 ,,,,,Max,,,,,IO(write): 测试写入尺寸为512Bytes,0%读取操作,随机率为0%,即为100%连续写入,队列深度256,用于检测磁盘子系统的最大写能力。 存储子系统Iometer测试结果 ,,,,,存储子系统测试小结:不同配置的存储子系统的读写性能差异还是较为明显的,从参测产品的共性看,高转速SAS硬盘+6Gb/s,,,,,SAS,,,,,RAID卡的应用已经成为主流,能够显著提升存储子系统的读写性能。 ,,,,,从结果来看,富士通RX300S6存储子系统的读写性能均十分优异,读写分值几乎一样,绝对分值也非常高。正睿I24962812S-H配置了LSI,,,,,6Gb/s,,,,,SAS,,,,,RAID卡和四块万转SAS硬盘,读写性能同样出色。浪潮NF5280M2采用了自主研发的6GB/s,,,,,SAS,,,,,RAID卡,搭配3块15000转SAS硬盘,读写性能也非常均衡,表现优良。曙光I620r-G虽然也采用了高规格的阵列卡和SAS硬盘,读取性能不错,但是写入性能有较大差异,可能和没有配置电池导致。联想T260,,,,,G3仅配置了两块SATA硬盘,并采用板载RAID功能,组建RAID1阵列,所以分数并不高。 七、能耗评估 ,,,,,能耗测试中我们主要对比三个状态的功耗:通电不开机、空载(CPU使用率0%)和满载(CPU使用率100%)状态。通过这三个状态的能耗评估,我们能够了解一台服务器日常工作中所消耗电力的的大致范围。我们通过功耗测试仪来测试6款服务器这三个状态的能耗表现。 ,,,,,首先还是来看一下6款服务器的电源配置情况: 机型 电源规格 数量 说明 浪潮NF5280M2 650W 1 可选1+1冗余 联想T260,,,,,G3,,,,, 400W,,,,, 1 单电源,80+,可选625W 曙光I620r-G 750W 2 80+,,,,,银牌 80+,,,,,铜牌,可选1+1华硕RS520-E6/RS8 770W 1 冗余 正睿I24962812S-H 500W 2 - 富士通RX300S6 800W 2 转化率高于92% ,,,,,下面来看能耗测试结果: 能耗测试对比 ,,,,,能耗测试小结:能耗和配置也是息息相关。对于服务器来说,处理器耗电最大,硬盘、风扇随着数量的增加,耗电也不容小觑。芯片组和DDR3内存的能耗相对要小一些。6款服务器配置了同样的两颗X5650处理器,采用了能耗几乎一致的芯片组平台(Intel,,,,,5520和5500),内存配置接近,虽然硬盘配置上有些差异(2.5寸和3.5寸、数量2~4块不等),总体来看配置还是较为接近,所以测试数据能够在一定程度上反应出6款服务器的能耗控制能力。 ,,,,,加电不开机状态下,联想T260,,,,,G3和浪潮NF5280M2表现优异,功耗只有5W左右,富士通RX300S6表现偏高。 ,,,,,空载状态下富士通RX300S6拔得头筹,配置不低的这款服务器空载功耗只有125W,体现出了优秀的能耗控制能力,联想T260G3紧随其后,能耗同样很低。 ,,,,,满载状态下联想T260,,,,,G3一骑绝尘,能耗要明显低于其他产品,虽然它的配置稍低(无独立这列卡,仅配置2块SATA硬盘),但还是能够看出这款产品具有优良的能耗控制能力。富士通和浪潮的产品满载状态能耗同样让人满意。 ,,,,,综合来看,联想T260,,,,,G3和富士通RX300S6的能耗表现较为突出,堪称两款绿色节能的产品,体现出了厂商在能耗控制设计上的不凡功力。浪潮NF5280M2在能耗控制上也表现不俗,三个状态的能耗都控制在了一个 较低的水平。 八、管理功能评估 ,,,,,管理功能是服务器的一个重要组成部分,丰富而便捷的管理功能可以大大降低服务器的监控、管理难度,降低管理成本,从而帮助企业降低TCO。参测的6款服务器均配置了BMC(Baseboard,,,,,Management,,,,,Controller)功能,能够有效降低服务器管理维护的难度,大部分产品还提供了导航、监控管理软件,从这点可以看出当前服务器的可管理性及易用性已经成为服务器厂商非常重视的一个部分。 ,,,,,首先来看一下6款服务器所配备的管理功能: 机型 BMC 导航 管理软件 集成BMC+IKVM管浪潮NF5280M2 睿捷导航软件 睿捷服务器管理软件 理模块 万全慧眼IV专业版服务联想T260,,,,,G3,,,,, 集成BMC功能 万全导航软件 器管理系统 集成BMC+IKVM管曙光智能导航系曙光I620r-G Gridview管理软件 理功能 统 ASMB4-iKVM管理华硕RS520-E6/RS8 无 ASMB4-iKVM管理控制台 模块 ASMB4-iKVM管理正睿I24962812S-H 无 ASMB4-iKVM管理控制台 模块 iRMC远程管理模ServerView安装富士通RX300S6 ServerView管理套件 块 管理器 ,,,,,管理功能评估主要包括对服务器硬件管理模块、随机管理软件的功能丰富度和操作简便度进行评估: 管理功能评估主要项目 功能丰富度 操作简便度 维护和更新BIOS、更新硬件驱动程序、补丁更新、管 更新 理系统固件升级等 界面友操作界面语言、导航栏设 系统信息检测、系统日志、主要硬件健康状况、好度 定、上手难易度等 监控功温度、电压、风扇转速、入侵检测、进程和服能 务、主要部件利用率等 报警功报警方式、硬件利用率阀值设定、温度阀值设导航功是否支持导航功能、操作 能 定、功耗阀值设定等 能 系统部署、磁盘阵列管 理、备份等 远程KVM 远程KVM 电源管远程开机、关机、重启等 理 ,,,,,评估结果: 机型 BMC主要功能 导航主要功能 总评 多节点控制、系统信息、系统健康状??浪潮NF5280M2 况、网络配置、报警、远程电源控制、安装操作系统 ?? 控制台重定向 多节点控制、机柜管理、系统信息、联想??系统健康状况、服务进程监控、设置安装操作系统 T260,,,,,G3,,,,, ?? 阈值、报警、远程电源控制 系统信息、系统健康状况、仪表式节??曙光I620r-G 点实时监控、报警、远程电源控制、安装操作系统 ?? 控制台重定向 系统信息、系统健康状况、网络配置、??华硕RS520-E6/RS8 无 报警、远程电源控制、控制台重定向 ? 系统信息、系统健康状况、网络配置、??正睿I24962812S-H 无 报警、远程电源控制、控制台重定向 ? 系统信息、系统健康状况、查看日志、配置阵列、详细全?? 富士通RX300S6 电源管理及远程控制、能耗管理、报面的系统设置、安?? 警、控制台重定向 装操作系统 ? ,,,,,浪潮NF5280M2配置了独立BMC+IKVM远程管理卡和睿捷服务器管理软件。可以通过浏览器就可以实现对多节点服务器的监控,进行系统信息的同步察看,实时了解服务器主要部件健康状况,并支持远程KVM功能,非常直观,界面友好简单易用。导航功能中提供了OS安装功能,不能配置阵列卡。(参考链接) ,,,,,联想T260,,,,,G3提供了万全慧眼IV远程管理系统,是联想服务器第四代管理软件,新增了服务器群组批量操作的功能,能够帮助用户通过网络同时管理多达128台服务器,并实时严密监控服务器CPU温度、机箱内部温度、CPU电压、主板电压波动、风扇转速等服务器的核心、基础参数。但是没有提供远程KVM功能,没有提供芯片级的服务器控制。导航软件提供了OS安装功能,不能配置阵列卡。(参考链接) ,,,,,曙光I620r-G提供了Gridview,,,,,V2.0系统管理软件,通过BMC可以登录一个类似于Windows的界面,操作十分简便。可以实现状态监控,对服务器节点的运行状态监控,用户在监控机群整体运行状态的同时,也可具体监控各节点的运行状态。性能实时监控和节点性能监控采用柱状图和仪表式显示,具备远程KVM功能直观形象。导航软件提供了OS安装功能,不能配置阵列卡。(参考链接) ,,,,,华硕RS520-E6/RS8和正睿I24962812S-H采用了同样的华硕ASMB4-iKVM管理模块,提供了基本的服务器信息检测、报警和健康状况检测等功能,可以远程电源控制,具备远程KVM功能。两款服务器均没有导航软件。(参考链接) ,,,,,富士通RX300S6配置了iRMC远程管理模块和ServerView管理套件,功能十分丰富齐全。管理控制台中提 供了系统信息、iRMC信息与设置、电源控制、能耗管理、传感器信息、系统日志、网络设置、警报、用户管理、控制台重定向这几大功能,可以远程实现对服务器的绝大多数管理功能。同时ServerView套件中的导航功能也十分丰富,可以实现无人值守OS安装、配置阵列卡以及详细的系统配置。(参考链接) ,,,,,管理功能评估小结:6款产品均配置了BMC功能及管理软件,除华硕和正睿产品外均配置了导航软件。总体来看6款产品的管理功能都能够为管理员有效的降低管理难度,其中富士通所附带的iRMC+ServerView套件功能最为丰富,也是唯一一款导航中可以配置阵列的产品。联想、浪潮、曙光所附带的管理功能也较为丰富实用,并且中文界面更加适合国内用户。华硕和正睿产品附带了基本的管理功能,没有提供导航功能,在功能丰富度上要稍逊一些。 九、横评总结 ,,,,,通过对6款英特尔双路至强5600服务器的横向评测,我们能够看到它们所具备的一些共性和区别。 ,,,,,首先来看共性。在性能测试中,基于至强5600平台的6款服务器相比至强5500平台具有明显的性能提升,这也在预料之中,毕竟至强5600具有新的制程、更多核心和缓存。总体来看,新的至强5600没有令我们失望,足以接过前辈至强5500在双路市场的大旗,成为新的双路王者。 ,,,,,在产品设计上,我们欣喜的看到国产服务器的整体设计水平在提升,在机箱设计、散热、供电、管理功能等部分已经摆脱了以往的千篇一律,逐渐迈向差异化设计,各具特点。国内产品在规格上可以做得很高,但是不能回避的,在产品的整体设计水平,以及人性化、易用性等设计上和国际产品还有一定差距。 ,,,,,绿色节能已经成为所有服务器产品所追求的一致目标。在绿色节能设计上,可以看到各家产品均花费了不少心思,比如基本采用高转化率绿色电源、采用温控风扇等等,力图将能耗控制做到最佳。国产服务器的可管理性 浪潮、联想、曙光、华硕均提供了各具特点而实用的管理功能,虽然并不完美,但我们要为国产厂也在加强,如 商的努力而鼓掌。 ,,,,,再来看看区别。首先看性能,本次横评我们尽力减小6款服务器在配置上的差异,但是不同产品间还是存在着性能上的不同,这也在一定程度上反映了服务器厂商在产品设计以及整体系统优化上的功力。其中富士通RX300S6性能优势明显,在处理器、内存、存储子系统上性能表现优异,整体性能相对其他5款产品要略胜一筹。 ,,,,,从产品设计上看,富士通RX300S6产品做工细致扎实,具有模块化、免工具、无线缆等设计特点,通风散热设计独到,扩展能力一流,整体设计上继续胜出。浪潮NF5280M2值得肯定,这款服务器在主板、阵列卡、通风散热等部分均属自主研发,在推进服务器国产化方面值得称道,扩展性强,整体设计较为均衡,体现出了国内产品的领先水平。 ,,,,,再从能耗上看,联想T260,,,,,G3能耗表现最为突出,在加电不开机、空载和满载状态能耗都控制在一个很低的水平,节能而且静音,体现出了优秀的能耗控制水平。富士通RX300S6和浪潮NF5280M2紧随其后,也将能耗控制在了一个较低的水平。 ,,,,,管理功能上,富士通RX300S6还是略胜一筹,除了英文界面有些不便,其功能相比另外几款产品要更加丰 理系统令人眼前一亮,类Windows的操作界面、仪表式监控为这款功能丰富的富。国内产品中曙光Gridview管 管理系统增色不少。浪潮睿捷、联想慧眼管理软件也值得肯定,界面友好功能实用。华硕管理系统附带了远程KVM功能和电源控制,也是一款不错的管理系统。 ,,,,,综合产品设计、性能、能耗、管理功能四大方面的表现,我们推荐: 编辑推荐奖:富士通PRIMERGY,,,,,RX300S6 ,,,,,点评:由德国和日本两个设计团队联手打造的富士通RX300S6完美融合了东西方的设计理念,沉稳、严谨而又不乏细腻。精良的设计、一流的性能、低功耗和丰富的管理功能,让RX300S6在2010年度服务器横评中脱 颖而出,摘得本次编辑推荐大奖。 创新设计奖:浪潮英信NF5280M2 ,,,,,点评:自主研发,是浪潮NF5280M2的立身之本。在这款产品上我们看到了国产服务器在自主化道路上的探寻,虽然设计上并不完美,相对国际产品还有一些差距,但这种自主化的努力值得鼓励。在扩展性、散热设计、性能、能耗、管理功能方面NF5280M2表现可圈可点,我们给予其2010年度服务器横评创新设计奖。 绿色节能奖:联想万全T260,,,,,G3 ,,,,,点评:联想万全T260,,,,,G3的低功耗令人眼前一亮。这是本次横评中唯一的一款塔式产品,但相比其他5款机型扩展性上并不突出,不过作为一款为中小企业打造的产品也足够满足需求。在性能、产品设计、能耗和管理上,T260,,,,,G3能够较好的契合中小企业应用,是一款值得推荐的产品。我们给予其2010年度服务器横评绿色节能奖。 ,,,,,最后,再次感谢浪潮、联想、华硕、曙光、正睿、富士通对ZOL服务器频道、以及本次服务器横评的大力支持~ 英特尔已透露至强处理器产品路线(图) 2011年02月23日06:10中关村在线 x86服务器市场一直在英特尔至强处理器发展下不断推陈出新,随着32纳米至强5600系列产品在去年成功推广,使得用户对于在摩尔定律下的芯片技术又有所期待。据悉,新一代的英特尔至强处理器将采用新的命名规则,让Sandy,,,,,Bridge架构下的至强处理器更增添一份神秘。而近日,在国外曝光的最新Intel,,,,,Xeon处理器的路线图上,显示了Sandy,,,,,Bridge架构在服务器领域的前景。 转播到腾讯微博 最新Intel,,,,,Xeon处理器的路线图 新一代至强处理器与之前推出的至强3000、5000、7000系列以及安腾系列一样有着规律性对应关系。低端至强E3处理器对应之前至强3000系列产品,至强E3-1200系列处理器规格,与其搭配的C202、C204和C206服务器芯片组部分规格之前有所介绍。该芯片组采用英特尔主动管理技术7.0,支持状态管理、硬件和软件列表、报警、远程配置等功能。 转播到腾讯微博 相比较之前的至强3000系列处理器性能提升30% 转播到腾讯微博 至强E3处理器 英特尔采用接口形式LGA-1155至强E3处理器会有很多不同型号来丰富市场。Intel将会提供TDP在95、80、45甚至是20W的处理器型号。除了型号为E3-1260L的集成HD,,,,,2000显卡,11款型号里面还有其他4款处理器集成HD,,,,,3000显卡。 随着至强7500处理器在高端服务器领域的成功,在2011年上半年将有一款面向多路服务器的至强Westmere-EX处理器推出,虽然不是Sandy-Bridge架构,但其在制造工艺、核心数量、缓存容量等各方面都有巨大进步。 转播到腾讯微博 至强7500与Westmere-EX 至强7500继任者Westmere-EX,在技术上有很多改变不仅提升三级缓存容量到30MB以及集成的内存控制器数量32GB,同时在虚拟化方面,具有增强的虚拟化支持,将提升虚拟机的切换速度,并加入Real,,,,,mode功能、减少延迟和响应时间以及RAS特性方面改进。 据国外披露,英特尔的新款面向多路服务器领域服务器的处理器将被命名为至强E7系列,包括两个子系列:Xeon,,,,,E7-2800面向双路服务器,Xeon,,,,,E7-4800面向四路服务器。 转播到腾讯微博 至强E7系列(Westmere-EX)处理器 从命名可以看出,至强E7系列(Westmere-EX)是用以替代目前的至强7500(Nehalem-EX)产品的新处理器,根据英特尔的路线图,至强E7-2800系列有一款六核心、两款八核心、三款十核心,主频1.73GHz起步,三级缓存18-30MB不等,TDP为105W或者130W两种。 转播到腾讯微博 据资料显示,至强E7-4800系列核心分布和三级缓存容量18-30MB不等,但起跳频率增加到1.83GHz,但最低热设计功耗只有95W。此外还有至少一款低功耗十核心至强E7-8867L,热设计功耗仅为105W,频率依然有2.13GHz,三级缓存也保留了全部30MB,QPI总线频率也是全速6.4GT/s。 信维评测室:基于华硕双路主板至强5600性能测试2010-03-25,,,,,10:58:50,,,,,作者:Kew,,,,,编辑:Kew 英特尔公司继推出被业界高度认可的全新酷睿?,,,,,微体系架构、32纳米新一代智能处理器后,近日终于强力推出了拥有这一先进制造工艺的服务器处理器----英特尔?,,,,,至强?,,,,,处理器5600系列,该系列处理器的研发代号较5500系列的Nehalem提升为Westmere-EP。该系列处理器主要用于双路服务器和工作站系统,可为分布于不同行业和专注于不同应用领域的用户带来更加出色的计算性能及能效。那么与上一代的5500系列处理器相比,5600系列到底有那些方面的优势呢,近日,华硕服务器主板大陆唯一总代理——信维国际旗下评测室以华硕Z8PE-D18主板为平台,对全新的至强5600系列处理器进行了评测,下面让我们一起体验新至强的新魅力~ 首先,超智能的发挥服务器性能,可顺应业务和应用的要求自动优化性能。和英特尔?,,,,,至强?,,,,,处理器5500系列相比,至强?,,,,,处理器5600系列基于全新的32纳米微结构,可提供多达6个处理器核心(12线程)和12兆的3级缓存,从而带来了显著的性能提升。5600系列运用更加优化的因特尔睿频加速技术(Turbo,,,,,Boost)和因特尔超线程技术,进一步提升了性能;而全新的采用基于硬件的高级加密标准AES-NI指令集更加速了服务器的安全处理性能,这为我们的用户在数据安全方面提供了更多的保证。 自动化能效特性,可按比例调整工作负载的能耗使用情况,实现最佳的性能功耗比和减少运营成本。全新的32纳米和第二代的High-K制程带来了处理器功耗水平的降低;因特尔智能节能技术和低功耗状态更是可以自动调整功耗和内存的工作量。和5500系列处理器相比,英特尔?,,,,,至强?,,,,,处理器5600系列包括了功耗低至40W的低功耗至强处理器,并且支持低电压DDR3内存,从而更加节省了服务器的耗能和用户的成本。 灵活的虚拟化特性,可在虚拟化环境中提供一流的性能和可管理性,增强IT基础设施的功能和减少成本。可能有人会说,虚拟化技术在因特尔以前的处理器中出现过,是的。和以前的处理器相比,英特尔?,,,,,至强?,,,,,处理器5600系列能够一更高的性能支持更多的虚拟机,从而提高了你的客户在虚拟化环境中的整合能力,而新的TXT技术(Intel,,,,,Trusted,,,,,Execution,,,,,Tecnology)更是增强了你的客户在面对新威胁时的安全性 能。 此次因特尔共发布12款5600系列处理器,其中六核心十二线程的处理器将有五款,分别是Xeon,,,,,X5680/X5670/X5660/X5650/L5640,主频从3.33GHz到2.26GHz不等,热设计功耗最高端型号X5680,,,,,130W、低压版型号L5640,,,,,60W,其他均为95W,全部支持Turbo,,,,,Boost睿频加速技术。四核心版本有七款,型号分别为Xeon,,,,,X5677/X5667/E5640/E5630/E5620/L5630/L5609,可能由于核心数量减少流出的TDP空间(L5630和L5609,,,,,TDP低至40W),四核心版本中主频最高的X5677达到了3.46GHz。 英特尔?,,,,,至强?,,,,,处理器5600系列产品列表 测试平台与环境搭建 话不多说,下面进入我们的测试阶段,来体会新产品带来的新性能,首先介绍一下我们此次的测试平台与环境。本次评测的宗旨是尽量发挥出X5670处理器对双路主板支持好,支持低电压DDR3内存等特性,所以最终选择了华硕Z8PE-D18主板。内存选择了每个CPU3条组成一组三通道,本次评测与硬盘的关系不是太大,所以就要了一个一般的西部数据500GB,,,,,SATA硬盘,测试系统还是我们最常用的Windows,,,,,Server,,,,,2003 企业版。 测试配置表 系统 Windows,,,,,Server,,,,,2003企业版 中央处理器 2*Intel,,,,,Xeon,,,,,x5670 ASUS,,,,,Z8PE-D18主板 主板及芯片组 Intel,,,,,5520+ICH10R芯片组 内存 6*4GB,,,,,DDR3,,,,,1333,,,,,内存 硬盘 1*西部数据500GB,,,,,SATA 测试软件列表: 测试软件列表 CPU-Z; CineBench,,,,,R10; CPU SiSoftware,,,,,Sandra,,,,,2009; super_pi_mod EVERES_Ultimate 内存 SiSoftware,,,,,Sandra,,,,,2009 CPU-Z检测处理器参数 通过CPU-Z的检测来看CPU的参数,我们可以清楚的看到处理器的型号是Intel(R)Xeon(R)X5670,主频是2.93GHz,它的核心数是6个,由于又继承因特尔处理器的超线程技术,因此它总的线程达到了超多的12路,三级缓存更是由上一代的8MB提高到了12MB。我们还可以清楚的看到它的核心速度是3202.3MHz,为什么比它的主频还高呢?不要奇怪,这就是睿频技术(Turbo,,,,,Boost)为5600系列处理器带来的最智能最高效的改变。该技术支持动态的调整处理器的速度,甚至在条件允许的状况下关闭部分未使用的处理器核心,同事提升正在被使用的核心的速度,使处理器能够快速而且充分的发挥其性能。 CineBench处理器性能测试 CineBench是业界公认的基准测试软件,在国内外主流媒体的多数系统性能测试中都能看到它的身影,目前最新的是R10版本。它使用该公司针对电影电视行业开发的Cinema,,,,,4D特效软件引擎,可以测试CPU和显卡的性能。CineBench在测试处理器性能时纯粹使用CPU渲染一张高精度的3D场景画面,在单处理器单线程下只运行一次,如果系统有多个处理器核心或支持多线程,则第一次只使用一个线程,第二次运行使用全部处理器核心和线程,以此来给出一个最终的分数来表征处理器的性能。通过CineBench,,,,,R10我们可以看到X5670和E5504处理器在华硕Z8PE-D18上分别使用单核渲染和多核渲染所用时间和得到的分数,以及多核相比单核的提升倍数,以此来判断处理器的运算能力,运算能力越强,用时越短、得分越高。 现在我们来看CineBench,,,,,R10的测试成绩。E5504处理器,主频只有2.0GHz,由于主频不是很高,所以在采用单核渲染的时候成绩一般,得分2329,而X5670的主频其实也只有2.93GHz,但它在单核渲染时的成绩是3707,应该说这种差距的体现不只是主频之间的差距能表现出来的。多核心渲染方面,在完成一幅800×600像素、8bit,,,,,RGB的图像时,X5670仅用时34秒,相对单核时的性能有了6.94倍的提升,其在多核心渲染方面的成绩达到了25717;E5504在完成此项测试时用时却要1分钟零3秒,总成绩是13964,相对单核时的性能提升了6倍整。当然,6核的X5670比4核的E5504性能要好是理所当然的,但我们可以从数据中看出,X5670虽然只比E5504多出2个核心,但总体成绩却要好于接近一倍,这样的结果相信大家是乐意看到的。 CineBench,,,,,R10,,,,,X5670测试 CineBench,,,,,R10,,,,,E5504测试 SiSoftware,,,,,Sandra处理器性能测试 接下来我们再看X5670处理器在算术处理性能和多媒体能力会给我们带来什么样的结果,本次评测用的测试软件是SiSoftware,,,,,Sandra,,,,,2009,,,,,SP3c。SiSoftware是一款始终处在技术领域的最前沿的测试软件,是在像多核心,Wireless,,,,,MMX,AMD64/EM64T,IA64,NUMA,SMT(Hyper-Threading),SMP(多线程),SSE2,SSE,3DNow!,,,,,Enhanced,3DNow!,Enhanced,,,,,MMX和MMX这些新技术出现时最早提供基准测试的软件商之一。Sandra是一个非常有现实意义的合成基准测试,它放弃了使用含义模糊的指数,改为采用有实际意义的性能数字,例如像每秒执行指令数或每秒字节数等。 从测试结果中我们可以看到,X5670处理器在算术运算能力方面取得了综合算术运算性能210GOPS的成绩,比较一下E5504处理器的69GOPS,即使是同频率的X5570成绩也只有145.16GOPS,也要高出30%以上,因此这样的结果是相当理想的。在多媒体性能方面,X5670同样是以平均成绩347.49,,,,,MPixel/s,,,,,高出E5504的117.84,,,,,MPixel/s一倍之多。 X5670处理器算术性能测试 E5504处理器算术性能测试 SuperPI软件处理器运算性能测试 为了进一步的检验新一代5600系列处理器的运算性能,我们再来用一款通过计算圆周率来检测处理器性能的工具SuperPI,在测试里面可以有效的反映CPU的运算性能。在这款主板上处理器在整数、浮点运算方面表现仍然不错,仅用了12.687秒,就完成了百万位次的运算,性能表现非常优越。而E5504仍然是以多出约8成的时间才能完成此次百万位次的运算,所用时间是20.296秒。这里再一次验证了X5670的超强运算能力。 X5670,,,,,SuperPI测试结果 E5504,,,,,SuperPI测试结果 EVERES_Ultimate检测处理器AES性能 EVERES_Ultimate对比测试各处理器的高级加密标准新指令集(AES),通过更快的加密和解密敏感信息,AES技术能够为用户的重要服务器数据和交易提供安全的环境。 EVERES_Ultimate对比测试各处理器的高级加密标准新指令集(AES) 本次评测总结 因特尔公司依旧依照着自己的“Tick-Tock”理念的产品发展理念,为大家带来的是采用32nm制程工艺的至强5600系列处理器,产品代号Westmere-EP。综合前面的测试,我们可以发现,,,,,Intel,,,,,32nm,,,,,Westmere-EP,,,,,X5670和上一代的45nm,,,,,Nehalem-EP,,,,,E5504相比在不同的测试当中具有着相当大的的性能提升,而功耗只是稍微有所增加,即使是与同频率的 Nehalem-EP,,,,,X5570相比,其整体性能也有大约30%的提升。 还有在内存支持方面也是Westmere-EP的一个明显增强的地方,Westmere-EP现在支持低电压DDR3,电压值从原来的1.65V降低到1.50V有得甚至只有1.35V。对于追求更高的DDR3读写速度,又不愿意牺牲内存容量的用户而言,新的5600系列处理器无疑是最佳的选择。至强处理器5600系列(X5650,,,,,,X5660,,,,,,X5670,X5677和X5680)每个内存通道最高支持2条DDR3,,,,,1333,,,,,MHz内存,即双路的服务器系统最多可以同时支持12条DDR3,,,,,1333MHz。和之前的至强处理器5500系列相比,系统支持的高速DDR3,,,,,1333,,,,,MHz内存容量翻倍。对于追求低功耗的用户而言,所有的5600系列处理器都可以支持低功耗DDR3内存模块。 另外,不得不提的5600系列处理器优化了的超智能的睿频加速技术(Turbo,,,,,Boost),为工作量需求变化很快的用户提供恰好符合其需求的性能。该技术支持动态的调整处理器的速度,充分提高处理器的工作效率。比如处理器只有一个核心在处理一个程序,处理器就可以自动调高正在工作的核心的频率,其他未被使用的核心有的甚至会被自动的暂时关闭,想想真是聪明啊。 智能的睿频加速技术 此外,新的因特尔TXT技术和高级加密标准新指令集(AES-NI)的作用不得不说,新的TXT技术对那些运行虚拟化系统的用户是个非常理想的帮手,这些用户运行的虚拟机很容易受到潜在的攻击,包括系统管理程序,BIOS,或其他固件攻击,恶意软件工具的安装,和其他基于软件的但是没有被防毒软件及时发现的类似攻击。因特尔TXT技术建立了一个可监控的启动环境(MLE),能够精准的衡量所有的关键启动环境要素,并且为每一个被批准启动的组件加上独特的识别标志。任何不符合批准的代码将通过硬件来封锁。AES-NI是通过更快的加密和解密敏感信息,为用户的重要服务器数据和交易提供安全的环境。 为响应用户对基于至强?,,,,,处理器5600系列的全新计算系统的需求,包括思科、戴尔、富士通、惠普、IBM、甲骨文在内的多家世界级服务器及工作站系统制造商,将从即日起到未来一段时间内发布多款基于至强?,,,,,处理器5600系列的服务器和工作站产品,然而,我们也知道Westmere-EP只是Nehalem微架构的工艺改进版本,将Nehalem-EP从45nm进化为32nm,其他结构方面变化并不大,因此,我们仍然可以使用原有的平台,但需要去主板厂商的官网下载最新的BIOS程序,信维评测室本次评测的华硕Z8PE-D18主板就是笔者在华硕官网下载的BISO程序,在刷了新的BIOS后,就可以支持新的5600系列处理器。 归纳,因特尔至强5600系列处理器不但继承了上一代5500系列处理器优美的微架构和强有力的总线技术,而且在智能性能,自动化能效特性,灵活的虚拟化特性等方面有着明显的提升。我们知道依照因特尔“Tick-Tock”理念的产品发展理念,Westmere属于Tick-Tock中的Tick,那么下一代的Tock又会带来什么样变化呢,我们一起期待吧~ 关于信维 信维国际科技有限公司为香港信维科技全资子公司,以服务器产品及配件为主营业务,具有雄厚的技术和资金实力,致力为用户提供最新的IT产品和具有创新价值的解决方案。信维国际科技有限公司目前已在全国建立了完善的销售网络渠道,覆盖全国各大中小城市,公司已成为中国IT市场上最具影响力和发展潜力的服务器配件分销公司。 Intel至强5600家族全线产品与性能解析 发布时间:2010.03.24,,,,,10:39,,,,, ,,,,,来源:ZDnet ,,,,,作者:赵效民,,,,, Westmere企业级家族成员与价格信息,,,,, 代号为Westmere-EP的至强5600于3月17日(北京时间)终于正式发布,它也全面揭开了神秘的面纱。由于它与至强5500处理器引脚兼容,平台共用,所以本次发布的重点并不是相关的新款服务器,事实上任何一款至强5500服务器都只需更BIOS,然后将至强5500处理器拔出来,再把至强5600处理器插进去,就变成了一台全新的至强5600服务器。所以本文的重点也就放在了新品信息介绍与相关的性能测试成绩方面。 首先我们来看看Westmere家族企业级产品的型号列表与基本情况,见下图(点击放大): (点击放大) 在这张表中,我们能发现Westmere家族企业级产品共面向3个市场,分别是传统双插槽服务器市场、单插槽服务器与工作站市场和嵌入式服务器市场,与上一代至强5500刚发布时要更完整(至强5500刚发布时,并没有嵌入式版本),可见平台成熟度已经成为了至强5600系列一个水到渠成的亮点,至强5500所打造的平台环境可以被至强5600无缝利用。那么在价格方面呢,至强5600相对于至强5500又有怎样的变化呢, 2010年3月14日发布的最新至强5500价格列表,但英特尔可能搞错了,把L3,,,,,Cache标成了L2,,,,,Cache 我们以6核心主频相同为条件来进行比较,结果发现至强5600平均要比至强5500贵4%左右,但如果同是4核心时,至强5600更便宜,比如E5640的价格是774美元,同主频(2.66GHz)的X5550则是958美元,虽然X5550的QPI速率更高,但E5640的L3缓存更大。按照英特尔给出的数据L5640的性能就已经和X5570相当了,所以E5640的性能肯定也比X5550要高(同一代产品型号后两位代表了性能水平,越大性能越好,相同则代表处在同一水平)。因而,从这点来说,升级到至强5600还是很有吸引力。 英特尔的数据表明,即使是,,,,,2.26GHz的L5640的性能也已经与2.93GHz的X5570相当了,但能耗下降了30%(X5570的TDP功耗是95W,L5640是,,,,,60W) 下面我们再来看看新一代至强5600的性能表现。在此之前,我们先回顾一下这两者的主要规格参数: 对于每核心平均内存容量,我们没有给出具体的数值,而只给出了平均的DIMM数量,因为单条DIMM的容量并不确定,大家可以自行根据具体的配置来计算,比如以单条8GB计算,至强5500满配时每个CPU核心平均内存容量为18GB,而至强5600则为12GB 我们注意到至强5600的核心数量增加了两个,但内存、QPI总带宽都没有变化,因此平均到每个核心上的带宽资源实际上较至强5500反而是变少了,基本上是至强5500的66.7%,这也就意味着新增加的两个核心无法像原来的那4个核心充分发挥出自己的威力,这在下面的评测成绩中,尤其是那些对内存和I/O带宽较为敏感的应用测试中能明显体现出来。 至强5600/5500性能对比测试:整数/浮点性能,,,,, 在整数性能测试中,至强5600的最高端型号X5680的成绩是至强X5570的1.4倍 在浮点性能测试中,X5680的成绩是X5570的近1.26倍 新一代的至强5600相对于至强5500在基本运算能力方面有了不小的提升,整数运算性能提升幅度已经接近于核心数量的比值1.5。 在浮点运算性能方面,X5680的理论浮点性能是79.92GFLOPS,X5570的浮点性能则是46.88GFLOPS,理论上前者是后者的1.7倍左右。SPECfp_rate的测试成绩比值与实际性能成绩有较大偏差的主要原因应该就是 内存与I/O带宽并没有提高,所以新增加的两个核心的性能并没有充分的发挥出来。其实从理论上讲,X5482的浮点性能(51.2GFLOPS)都要比X5570更高,但落后的FSB总线与内存带宽让其大幅度落后于X5570。 至强5600/5500性能对比测试:企业应用性能,,,,, Java应用服务器性能测试,X5680系统性能是X5570的1.3倍 SPECjAppServer2004是一款Java应用服务器(Java,,,,,Application,,,,,Server)的基准性能测试工具,主要是测试基于Java,,,,,2,,,,,Enterprise,,,,,Edition(J2EE)的应用服务器性能,在这方面至强5600较至强5500的性能最高可提升30%。 SAP的ERP性能测试,X5680是X5570的1.42倍 在ERP服务器性能测试中,基于SAP-SD,,,,,2-Tier的测试结果显示,至强5600较至强5500系统最高可提升42%的性能,接近于核心数量的提升比例。 在基于Java平台的电子交易服务器性能测试,X5680是X5570的1.47倍 SPEC,,,,,Java,,,,,Business,,,,,Benchmark,,,,,2005是一款用Java编写的多线程测试工具,它的评测是模拟一个企业基于若干个仓库为多个客户提供交易服务的环境,以每秒的操作数(BOPS, Business,,,,,Operations,,,,,per,,,,,Second)来评估性能,从测试中可以看出至强5600较至强5500最多可提升47%的交易操作数量。 总体上看,至强5600在商用领域的性能幅度还是比较明显的。 至强5600/5500性能对比测试:虚拟化/能效/Web服务,,,,, VMware的VMmark测试成绩,从分值上看X560是X5570的1.43倍 VMware的VMmark测试程序以节片(Tile)为负载单位,一个节片内含6个工作负载,等效为6个虚拟机,VMware用这6个虚拟机分别模拟常见的应用,它们分别是Web服务器、文件服务器、邮件服务器、数据库服务器、Java服务器以及一个空闲的虚拟机。这6个虚拟机同时工作,VMmark测试总体的应用水平,分值越大代表虚拟化性能越高。VMwark的原理在于,只要服务器的性能有节余就增加节片,如果此时节片内的虚拟机性能没有降低,总体性能得分就会提高,但如果增加节片后,虚拟机性能下降,那总体得分也就下降,所以VMmark就截取最高分,即服务器虚拟化的最大极限,并注明此时的节片数量。 X5680系统所得到的分数为35.83/26tiles,也就是说在26个节片即156个虚拟机时的得分为35.83,而X5570则在17个节片(102个虚拟机)的情况得分为25.06。目前VMmark还没有做到以一个统一的参考基准数值来评价虚拟化性能,所以在这里只能做大概的比较,不过从所可有效支持的虚拟机数量来看,X5680足足提高了52%。 不过,X5680系统的核心数量为12个,所以与8核心的X5570系统比较有些占便宜,那么与同样是12核心的双插槽AMD伊斯坦布尔系统相比的性能又如何呢,采用AMD伊斯坦布尔处理器的HP,,,,,ProLiant,,,,,DL385,,,,,G6服务器的VMmark得分为15.54@11,,,,,tiles,也就是说双插槽伊斯坦布尔系统能有效支持的虚拟机数量为66个,X5680是其的2.37倍,分值的差距也在2.3倍,领先幅度巨大。 在能效测试中,X5670较L5530系统提高了约43% SPECpower_ssj2008是服务器的性能与能耗比的基准测试工具,通过11个级别的工作负载来衡量服务器的性能与能耗表现,而至强5600借助于32nm工艺和第二代High-k技术取得了很好的成绩。 Web服务器性能,X5680较X5570提高了25.5% 在Web服务器性能测试中,SPECWeb,,,,,2005通过三个独立的测试项目还给出综合的评价,这三项目分别是 面向银行业Web服务的SPECweb,,,,,2005_Banking,面向电子商务Web服务的SPECweb,,,,,2005_Ecommerce,和面向Web支持平台的SPECweb,,,,,2005_Support。至强5600平台相较5500平台,性能提升了1/4。 至强5600/5500性能对比测试:高性能计算,,,,, 单结点ANSYS,,,,,FLUENT,,,,,12.1测试,总体综合性能,X5670是X5560系统的1.34倍 ANSYS,,,,,FLUENT,,,,,12.1提供了一组模拟流体计算的基准测试软件,通过6个不同的基准测试来评价系统在流体计算应用的性能表现,至强X5670较X5560提升了34%。 在碰撞模拟计算测试中,X5670较X5560有近1.3倍的性能提升 LS-DYNA是一个通用的是世界上最著名的瞬变动力有限元分析程序,能够模拟真实世界的各种复杂问题,可用多种行业,包括汽车设计、航空航天、制造业以及生物工程。而汽车碰撞模拟就是其典型的应用之一,这组测试中包含了三车追尾碰撞、两车正面碰撞和单车障碍物碰撞模拟计算(单节点),其中相关对最为简单的单车碰撞测试,X5670较X5560的性能提高了30%,最为复杂的三车碰撞则提升了23%,两车碰撞性能提高了25%。 OpenMP基准性能测试,X5680的性能约是X5570的1.2倍 SPEC,,,,,OMP,,,,,Mbase2001用来最大限度模拟真实环境下的科学与工程计算,并以此来测试系统的OpenMP运算性能,基本可以理解为单机环境下并行运算能力的综合体现。X5680相对于X5570系统,OpenMP性能提升了19.5%。 MPI环境下,在2、4、8、16节点时X5670节点集群性能分别是X5570的1.124、1.109、1.157和1.127倍 SPEC,,,,,MPI2007主要考查在一个分布式的集群环境下,通过消息传递接口(MPI,Message-Passing,,,,,Interface)进行并行浮点计算的性能,目前以集群形式的HPC系统基本上都是基于MPI架构组建,SPEC,,,,,MPI2007测试了2、3、8、16节点(基于InfiniBand,,,,,4x,,,,,QDR和千兆以太网)时的性能表现。 在2、4、8、16节点时X5670节点集群性能分别较X5570提高了12.4%、10.9%、15.7%和12.7%。而以各级节点数量的性能能增长来看,4节点较2节点时,性能提高了86.9%、8节点较4节点提高了89.7%、16节点较8节点提高了74.7%,反观X5570,各节点数量提高一档后性能提升幅度分别为91.5%、81.8% 和79.2%,从中可以看出至强5600在MPI扩展性能提供幅度方面稍逊于至强5500,这应该与每核心分配的内存与I/O带宽更低有关,不过从4节点向8节点扩展时,X5670的提升幅度反而较2至4和8到16节点扩展时更高,显得与众不同。 Black-Scholes成绩,X5680比X5570少用时7.23秒 Black-Scholes是金融业中常用的期权模型算法,也可以认为是一种典型的金融类运算模型,Black-Scholes的测试结果也基本上能代表了该系统在金融计算中的性能。在这个测试中,X5680的计算用时较X5570减少了7.23秒,即性能提高了38.6%。 至强5600的性能扩展保持着近乎于线性的效率 在核心效率方面,通过单插槽与双插槽的X5680的性能对比来看,LINPACK的浮点运算性能达到了2倍的提升,整数与Java商业性能也得到了1.98和1.99倍的提高,而浮点性能提升比例为1.96倍,体现出了优秀的扩展效率,基本达到了1:1的线性扩展比例。 综上所述,至强5600系列在HPC领域的较至强5500系列的提升幅度并不如其在商业应用中的表现,归根结底应该还是与至强5500相同的内存与I/O带宽拖了后腿,使其新增加的两个核心未能充分的发挥作用。我们可以做个简单的计算,若以X5680与X5570的理论浮点性能比——1.7去剩以0.67(6核心至强5600每核所分带宽较4核心5500的比例),结果是1.139倍(即浮点性能增幅为13.9%),这与上面的一些综合基准测试的结果基本相符。当然,这个计算并不精确,但能说明一定的问题。 不过在不少应用基准测试中,至强5600基本上得到了30%的性能改善,这对于HPC应用来说已经难能可贵了,因此我们也非常期待至强5600在今年全球乃至中国HPC市场的出色表现。 责任编辑:云中子 十载寒窗,,,,,英特尔至强处理器历代记2011-04-11,,,,,10:58,,,,,佚名,,,,,IT168,,,,,我要评论(0) 第,,,,,1,,,,,页:Dempsey核心,,,,,至强5000系列 2011年4月6日,Intel在北京发布了采用全新命名的至强E7系列,回顾至强处理器发展的历程,面向双路的产品从最初的至强5000系列到5400系列,到Nehalem架构的至强5500、Westmere架构的至强5600;而四路及多路处理器方面,最初的至强7100、六核心的Dunnington至强7400、上一代的Westmere至强7500再到最新的至强E7,算下来Intel在双路及四路以上服务器处理器中已经整整更新了10代产品。 这些产品见证了至强这个品牌一步步走向辉煌,同时这些产品也帮助数以万计的企业获得成功。今天,我们就来回顾一下最近几年Intel至强的10代产品,为了那些曾经忘却的纪念。 Dempsey核心,,,,,至强5000系列 英特尔公司的“Bensley”平台包括代号为“Dempsey”的双核Xeon,,,,,DP处理器和代号为“Blackford”的Intel,,,,,5000系列芯片组,另外还有一系列的新技术,比如I/O,,,,,AT技术、FBD内存技术、更新的安全特性等等。 型号 5080 5070 5060 5063(MV) 5050 5040 5030 5020 sSpec SL968 SL969 SL96A SL96B SL96C SL96D SL96E SL96F 主频 3.73GHz 3.46GHz 3.2GHz 3.2GHz 3.0GHz 2.83GHz 2.66GHz 2.5GHz CPUID,,,,,string 0F64 0F64 0F64 0F64 0F64 0F64 0F64 0F64 封装类型 771pin 771pin 771pin 771pin 771pin 771pin 771pin 771pin 1.25-1.41.25-1.41.25-1.41.25-1.41.25-1.41.25-1.41.25-1.41.25-1.4核心电压 0 0 0 0 0 0 0 0 总线速度 1066MHz 1066MHz 1066MHz 1066MHz 667MHz 667MHz 667MHz 667MHz Thermal,,,,,Guideline 130W 130W 130W 95W 95W 95W 95W 95W Core,,,,,stepping C1 C1 C1 C1 C1 C1 C1 C1 Thermal,,,,,Spec 78? 78? 78? 68? 68? 68? 68? 68? L2,,,,,Cache,,,,,Size 4MB 4MB 4MB 4MB 4MB 4MB 4MB 4MB L2,,,,,Cache,,,,,Speed 3.73GHz 3.46GHz 3.2GHz 3.2GHz 3.0GHz 2.83GHz 2.66GHz 2.5GHz Manufacturing,,,,,Technolog65nm 65nm 65nm 65nm 65nm 65nm 65nm 65nm y Bus/Core,,,,,Ratio 14 13 12 12 18 17 16 15 英特尔当时一共发布了8款基于“Dempsey”核心的处理器:Xeon,,,,,5080、Xeon,,,,,5070、Xeon,,,,,5060、Xeon,,,,,5063、Xeon,,,,,5050、Xeon,,,,,5040、Xeon,,,,,5030和Xeon,,,,,5020。这些处理器依然采用了NetBurest微架构,它们将会是最后一个采用该微架构的Xeon系列产品。在Xeon,,,,,5000系列处理器中整合了两个完整的NetBurst微架构处理器,并且对于NetBurst微架构进行了进一步的优化——主要涉及到超管线技术(Hyper,,,,,Pipelined,,,,,Technology)和执行追踪缓存(Execution,,,,,Trace,,,,,Cache)。每个处理器拥有独立的2MB二级缓存,其前端总线为1066MHz或者667MHz,可以提供8.5GB/s或者5.3GB/s的传输带宽。 Xeon,,,,,5000系列处理器采用了65nm制程,这对于有效的抑制Xeon处理器的发热量具有至关重要的作用。采用90nm制程的Irwindale核心的单核Xeon处理器TDP在130瓦左右,而Xeon,,,,,5000系列双核处理器TDP也只有135瓦甚至更低。Xeon,,,,,5000系列处理器不再采用Socket604封装,改用了FC-LGA6,,,,,LGA771封装,可进一步改进处理器的电气性能,更利于功率传导。 这个系列的处理器依然支持超线程技术(Hyper-Threading,,,,,Technology),这样每个核心可以处理2个线程,每颗双核心处理器可以并行处理4个线程,双路配置的处理器则能可以同时处理8个线程。另外,这个系列的处理器支持EIST、EM64T、VT、XDbit等技术,对于TM1功能也提供了支持。 第,,,,,2,,,,,页:Woodcrest核心,,,,,至强5100 Woodcrest核心,,,,,至强5100 基于Woodcrest核心的至强5100 英特尔目前已经发布了7款基于Woodcrest核心的Xeon,,,,,5100处理器,它们是Xeon,,,,,5160、Xeon,,,,,5150、Xeon,,,,,5148、 Xeon,,,,,5140、Xeon,,,,,5130、Xeon,,,,,5120和Xeon,,,,,5110。 Xeon,,,,,5100系列处理器的主频变化很大,他们没有延续上一代产品的主频,已经发布的处理器中主频最低是1.6GHz,而最高的也只有3.0GHz。Xeon,,,,,5000系列处理器的最低主频为2.5GHz,最高则达到了3.73GHz。处理器主频的大幅度下降帮助Xeon,,,,,5100处理器明显的降低了功耗,在7款处理器中只有5160的TDP为80瓦,5150/5140/5130/5120/5110等五款处理器TDP为65瓦,Xeon,,,,,5148的TDP只有40瓦。 Xeon,,,,,5100系列处理器(Xeon,,,,,5160/5150/5148/5140/5130)增加了对于1333MHz前端总线的支持,该总线实际运行频率为333MHz,可以4倍于其频率的速率传输数据,因此理论上每秒可传输10.66,,,,,GB的数据。而部分低端的处理器(Xeon,,,,,5120/5110)则支持1066,,,,,MHz前端总线,此时其系统时钟频率为266MHz,带宽为8.5,,,,,GB/s。之前的Xeon,,,,,5000系列处理器中则有4款产品采用了1066MHz前端总线,还有4款产品采用了667MHz前端总线。前端总线的技术并没有明显地的改变,依然利用了分离传输(split-transaction)、延迟应答协议(deferred,,,,,reply,,,,,protocol)和地址和数据的源同步传输(Source-Synchronous,,,,,Transfer,SST)等技术。 从英特尔公布的文档来看,Xeon,,,,,5100系列处理器还进一步改进了热量和功率管理能力,它除了支持原有的TM1和EIST技术之外,还增加了对于TM2的支持——它主要增加了调节处理器电压的作用。另外,双核英特尔Xeon,,,,,5100系列处理器也支持EDBit(Execute,,,,,Disable,,,,,Bit)功能和英特尔虚拟化技术(Intel,,,,,VT)。不过超线程技术并没有应用在Xeon,,,,,5100系列处理器上。 第,,,,,3,,,,,页:代号Clovertown,,,,,至强5300系列 代号Clovertown,,,,,至强5300系列 Quad-core,,,,,Xeon,,,,,5300系列处理器是定位于双路服务器/工作站应用的处理器,代号为Clovertown,它将两个双核核心整合在一个处理器基板上,率先向市场上推出了四核双路处理器。 英特尔首先发布了5款处理器X5355、E5345、E5335、E5320和E5310,随后又陆续发布了L5335、X5365等处理器。这些处理器均采用了65纳米制程和LGA6封装(LGA771),配置了8MB,,,,,L2缓存(每颗处理器4MB,,,,,L2缓存),主频分别为最高达到了3.0GHz。型号最后一位是“5”的FSB频率为1333MHz,传输带宽可达10.6GB/s,型号最后一位是“0”的FSB频率为1066MHz,传输带宽可达8.5GB/s。 四核Xeon,,,,,5300系列的TDP提升到了一个新的水平,X5355/X5365处理器TDP为120瓦,E系列的四款均为80瓦,L系列为50瓦。双核Xeon,,,,,5100系列处理器中,Xeon,,,,,5160的TDP为80瓦,Xeon,,,,,5148,,,,,LV的TDP为40瓦,其余的均为65瓦。从英特尔公布的这些TDP数据来看,虽然四核处理器是两颗双核处理器的“简单整合”,但是其功率应该并非两个双核处理器的功率之和。 上图显示的是Xeon,,,,,5320处理器的基本信息:Intel,,,,,Xeon,,,,,5320处理器,主频为1.86GHz,前端总线频率为1066MHz,每个核心配置有32KB,,,,,L1数据缓存,32KB,,,,,L1代码缓存,每个DIE则整合有4MB,,,,,L2缓存(也就是两个核心共享4MB,,,,,L2缓存),整个处理器总共具有8MB,,,,,L2缓存。总的来说,Xeon,,,,,5100所有的特性,Xeon,,,,,5300全都具有,最大的改变无 非是核心的数量从2个增加到了4个。但是,毫无疑问的是四核处理器的出现使得计算资源的密度大幅度提升,而功耗基本保持不变,这对于寸土寸金的IDC而言绝对是有重大意义的。 第,,,,,4,,,,,页:代号Harpertown,,,,,至强5400系列 代号Harpertown,,,,,至强5400系列 Intel严格的按照其“Tick-Tock”战略,在2007年的11月份推出了基于45nm制程的四核处理器,代号Harpertown。相对于上一代65nm,,,,,Clovertown核心的产品,Harpertown进一步优化了微架构,添加了功能并且升级了主要规格。 Xeon,,,,,E5430处理器,2.66GHz,12M缓存,1333MHz,,,,,FSB,具有适中的性能、功耗及价格 从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。 较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器 和上一代Clovertown相比,Harpertown处理器将2,,,,,x,,,,,4MB的L2缓存提升到了2,,,,,x,,,,,6MB,,,,,L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz,,,,,FSB,而开始支持更高的1333MHz/1600MHz,,,,,FSB。由于采用了45nm,,,,,High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP为80瓦、120瓦和150瓦,并且频率规格也有所提高,最高端的Xeon,,,,,X5492处理器可以达到3.4GHz,而上一代Xeon,,,,,X5365只有3.00GHz。 第,,,,,5,,,,,页:Nehalem核心,,,,,至强5500系列 Nehalem核心,,,,,至强5500系列,,,,, 对于Intel的Tick-Tock战略已经是老生常谈了;从另一方面讲,这标明了Tick-Tock战略的成功之处,一个简单、明晰、有序和易于理解的发展计划,对合作厂商、用户和投资者都是极为有利的。TIck-Tock战略简而言之就是Intel处理器在奇数年进行制程转换(Tick),例如2005年的65nm和2007年的45nm,而在偶数年进行处理器的架构更新(Tock),Nehalem架构发布的2008年轮换到了Tock,也就是处理器的架构更新。 Nehalem作为Intel用以取代Penryn微架构的新一代处理器架构,和Penryn相比,Nehalem的微架构并非是全新的,不过,架构上则是一个很大的飞跃:Nehalem采用了直联架构。除此之外,Nehalem还具有一个鲜明的设计理念,就是采用了可扩展的模块化设计,它将处理器划分为两个部分:Core核心和Uncore非核心(或者叫“核外”),所有产品线的Nehalem处理器,其Core核心部分都是一样的,只是Uncore部分可能不同,以满足Intel对其提出的动态可扩展的要求。Nehalem满足了这个要求,它的内核具有可 扩展的高可伸缩架构。 由于共处在一个Tick-Tock上,因此Nehalem和Penryn都同样属于45nm工艺,从65nm工艺转变到45nm工艺带来的巨大能耗降低已经无法再次重现,因此Nehalem就不再注重于能耗的降低,而是注重于性能的提升,这样的设计理念,带来了处理器架构的巨大变化,这些变化均面向性能的提高,也即是说,我们可以期望Nehalem具有着强大的性能。 第,,,,,6,,,,,页:Westmere核心,,,,,至强5600系列 Westmere核心,,,,,至强5600系列 双路六核服务器版本和双核客户版本Westmere处理器配置 Westmere处理器家族是Nehalem处理器家族的下一代,Nehalem基于45nm制程,Westmere则基于32nm制程,它们都使用了high-κ,,,,,metal-gate(高K金属栅极)工艺,在微架构上,Westmere就是Nehalem的增强版本。 Intel,,,,,High-k,,,,,Metal,,,,,Gate晶体管,这两个技术都是为了增强晶体管的场效应和降低其漏电 除了工艺之外,Westmere最大的特点就是最高集成了6个处理器核心,包括12MB,,,,,L3缓存,共多达11.7亿晶体管,四核心的Nehalem包括8MB,,,,,L3缓存则有7.31亿晶体管,而这两者具有接近的核心面积(Westmere的还要小一点)。 双核和六核Westmere晶圆图 和Nehalem一样,Westmere也实现了Power,,,,,Gates技术,和Nehalem不同的是,Westmere的Power,,,,,Gates不仅仅限于关闭处理器核心,它还扩展到了可以关闭L3缓存以及Uncore上的全局队列(Westmere晶圆上正中央下方的部分)。在所有核心都被Power,,,,,Gate之后,L3缓存将会被部分刷新并且Uncore部分的供电将会线形地降低,L3/Uncore的漏电楼将得到降低。在最限制的情况下,L3缓存和全局队列将会全部刷新并Power,,,,,Gated关闭,只有一块附属于L3的SRAM会用来保持所有核心的关键状态。 和Nehalem一样,Westmere也使用了Long-Le晶体管(Long,,,,,Channel长沟道晶体管)技术,Nehalem-EX和Dunnington也有使用,只是“分量”有些不同。Westmere有60%的核心部分使用了长沟道晶体管,Uncore部分则同时使用了超低漏电晶体管和长沟道晶体管。Nehalem则是58%的核心部分使用了长沟道晶体管。 最后,Westmere的漏电功耗大约是总功耗的23%。Nehalem上这个数值是16%。 什么是长沟道晶体管技术呢, 样表:沟道长度(横坐标)与漏电流(纵坐标)的关系,请自行理解(越低的延迟,越高的漏电电流) 在IC设计当中通常需要根据不同的情况使用不同沟道长度的晶体管,非时序关键(non-timing-critical)的线路可以使用性能略差的长沟道MOSFET晶体管以减少亚阈值漏电。亚阈值漏电:subthreshold,,,,,leakage,MOSFET的subthreshold亚阈值特性被广泛利用在低电压线路上。 第,,,,,7,,,,,页:Tulsa核心,,,,,至强7100系列 基于Tulsa核心的至强7100系列 型号 制程 缓存 主频 前端总线 TDP SMP 双核心 超线程 16,,,,,MB,,,,,L3 7150N 65,,,,,nm 3.50,,,,,GHz 667,,,,,MHz 150W MP 支持 支持 2x1,,,,,MB,,,,,L2 16,,,,,MB,,,,,L3 7140M 65,,,,,nm 3.40,,,,,GHz 800,,,,,MHz 150W MP 支持 支持 2x1,,,,,MB,,,,,L2 16,,,,,MB,,,,,L3 7140N 65,,,,,nm 3.33,,,,,GHz 667,,,,,MHz 150W MP 支持 支持 2x1,,,,,MB,,,,,L2 8,,,,,MB,,,,,L3 7130M 65,,,,,nm 3.20,,,,,GHz 800,,,,,MHz 150W MP 支持 支持 2x1,,,,,MB,,,,,L2 8,,,,,MB,,,,,L3 7130N 65,,,,,nm 3.10,,,,,GHz 667,,,,,MHz 150W MP 支持 支持 2x1,,,,,MB,,,,,L2 7120M 65,,,,,nm 4,,,,,MB,,,,,L3 3,,,,,GHz 800,,,,,MHz 95W MP 支持 支持 2x1,,,,,MB,,,,,L2 4,,,,,MB,,,,,L3 7120N 65,,,,,nm 3,,,,,GHz 667,,,,,MHz 95W MP 支持 支持 2x1,,,,,MB,,,,,L2 4,,,,,MB,,,,,L3 7110M 65,,,,,nm 2.60,,,,,GHz 800,,,,,MHz 95W MP 支持 支持 2x1,,,,,MB,,,,,L2 4,,,,,MB,,,,,L3 7110N 65,,,,,nm 2.50,,,,,GHz 667,,,,,MHz 95W MP 支持 支持 2x1,,,,,MB,,,,,L2 7041 90,,,,,nm 2x2,,,,,MB 3,,,,,GHz 800,,,,,MHz N/A MP 支持 支持 7040 90,,,,,nm 2x2,,,,,MB 3,,,,,GHz 667,,,,,MHz N/A MP 支持 支持 7030 90,,,,,nm 2x1,,,,,MB 2.8,,,,,GHz 800,,,,,MHz N/A MP 支持 支持 7020 90,,,,,nm 2x1,,,,,MB 2.66,,,,,GHz 667,,,,,MHz N/A MP 支持 支持 采用Paville核心的Xeon,,,,,MP处理器属于Xeon,,,,,7000系列,而采用Tulsa核心的Xeon,,,,,MP处理器属于Xeon,,,,,7100系列。Xeon,,,,,7100系列处理器主频范围在2.5GHz到3.5GHz之间,前端总线分为667MHz和800MHz两种,型号后缀为N的前端总线为667MHz,型号后缀为M的前端总线为800MHz。Xeon,,,,,7000利用处理器主频和前端总线频率来区隔不同型号的产品(Xeon,,,,,5000/5100系列处理器也是如此),而Xeon,,,,,7100则不仅利用主频、前端总线还利用L3缓存来区隔不同型号的产品。 从我们所掌握的资料来看,Tulsa和Paville在处理器微架构上并没有明显的区别。因此Tulsa处理器如果要具有比Paxville更吸引人的性能,除了提升频率之外,就是在缓存上做文章了。 每个Xeon,,,,,7100处理器均包含两个完整的核心,每核心均配置了1MB,,,,,L2缓存,这仅是Xeon,,,,,7030/7040处理器L2缓存容量的一半。不过,Xeon,,,,,7100的两个核心可以共享“新增”的L3缓存,比如7110和7120均配置了4MB,,,,,L3缓存,7130配置了8MB,,,,,L3缓存,而7140和7150都配置了16MB,,,,,L3缓存,因此缩减了L2缓存容量并不一定会牺牲处理器整体性能。特别需要说明的是,7140和7150的L3缓存容量达到了16MB,仅次于Intel于今年发布的双核Itanium,,,,,2,,,,,9000处理器24MB,,,,,L3缓存的容量。但是增加L3缓存并非创新,从Xeon,,,,,MP的历史来看,这样的“改变”仅仅是一次回归而已。 65纳米制程的应用使得Tulsa处理器得以集成更大容量的缓存。不过即便如此,Tulsa核心面积依然达到了424平方毫米,而之前的单核Potomac核心面积为354平方毫米,Paville的核心面积也只有299平方毫米。如果处理器复杂程度变化不大,从90纳米制程升级到65纳米制程则意味着同样尺寸的晶圆可以切出更多的芯片,从而大幅度降低成本,但是Tulsa集成度远远高于前两代产品,因此其成本不会因此有明显降低。 同样,因为集成度的提高(Xeon,,,,,7100处理器内包含13亿个晶体管),Tulsa的功耗的绝对值也维持着较高的水平。 Xeon,,,,,7110/7120的TDP为95W,而7130、7140和7150则均达到了150W。考虑到Xeon,,,,,7100系列处理器主频更高,而且整合了L3缓存,其相对于Paxville处理器在能耗控制上还是取得了很大的进步的。 Intel提供的资料显示,采用Tulsa核心的Xeon,,,,,7100系列处理器在ERP、SCM、CRM等商业应用中性能有60%以上的提升,更可以将交易处理速度提升70%以上(TPC-C测试,Tulsa,,,,,320000,,,,,TPM,Paxville,,,,,188000,,,,,TPM,Potomac,,,,,115000TPM),部分电子商务应用软件中其性能提升1倍以上。同时,Intel还宣称Xeon,,,,,7100系列处理器的每瓦特性能是上一代产品的2.8倍。 大容量L3缓存除了可为处理器提供速度数据缓存之外,还可供Tulsa处理器内部的两个核心交换L2缓存数据之用,而无需经过FSB和北桥,这将大大提升缓存命中率,改善延迟效能。 第,,,,,8,,,,,页:代号Tigerton,,,,,至强7300系列 代号Tigerton,,,,,至强7300系列 Tigerton分为四核和双核两个版本 随Caneland平台一起发布的有两个系列的处理器:Xeon,,,,,7300四核处理器和Xeon,,,,,7200双核处理器,代号分别为Tigerton-QC和Tigerton-DC。从上图可以看出,这两个系列的处理器均是将两个DIE封装在一起,每个DIE均有4MB,,,,,L2缓存。其中Tigerton-DC的设计非常有意思,它没有采用单个DIE双核的设计——英特尔称这种设计可以在现有条件下让双核处理器具有更大容量的缓存,适于某些高性能计算和财务服务等有较大缓存需求的应用。 2.93GHz 8MB 1066MT/s 130瓦 是 FC-mPGA6 1.86GHz 8MB 1066MT/s 50瓦 否 FC-mPGA6 2.40GHz 8MB 1066MT/s 80瓦 是 FC-mPGA6 2.40GHz 6MB 1066MT/s 80瓦 是 FC-mPGA6 2.13GHz 4MB 1066MT/s 80瓦 是 FC-mPGA6 1.6GHz 4MB 1066MT/s 80瓦 否 FC-mPGA6 2.93GHz 8MB 1066MT/s 80瓦 是 FC-mPGA6 2.40GHz 8MB 1066MT/s 80瓦 是 FC-mPGA6 Xeon,,,,,7300系列处理器包括6款产品,其中4款E系列主频在1.6GHz-2.4GHz之间,4-8MB,,,,,L2缓存,1066MT/s,TDP均为80瓦,适用于机架式/刀片式服务器;L系列只有一款L7345,主频为1.86GHz,8MB,,,,,L2缓存,TDP为50瓦,适用于高密度机架式/刀片式服务器;X系列的也只有一款X7350,主频高达2.93GHz,TDP也达到了130瓦,适用于高性能应用。 Xeon,,,,,7200/7300扩容了二级缓存去掉了三级缓存,因此我们估计Tigerton的复杂程度并不会明显的增加,所以功耗的降低主要来自频率的降低和65nm制程的进一步改进。Xeon,,,,,7200/7300处理器支持TM1、TM2功能,利用英特尔智能功率控制技术可单独控制每个核心的功率状态。 7041、7040、2x(1-2) Paxville 2.66-3.0GHz 0 667-800MT/s , DC 90nm 7030、7020 MB Tulsa 7110N/M-7150N 2.5-3.5GHz 2x1MB 4-16MB 667-800MT/s 95-150瓦 DC 65nm 2x(2-4)50-80-130 Tigerton-DC E7210、E7220 2.4-2.93GHz 0 1066MT/s DC 65nm MB 瓦 E/L/X三个系 Tigerton-QC 1.6-2.93GHz 2x4MB 0 1066MT/s 80瓦 QC 65nm 列,共6款 Tulsa相对于Paxville在微架构上并没有改进,最大的改变是开始采用65nm制程,为了进一步的提升性能,只有在主频和L3缓存上打主意。弃用Netburst微架构,采用高效能的Core微架构(内置WDEE,宽位动态执行引擎)并且升级到四核是Xeon,,,,,7200/7300系列处理器相对于之前的Xeon,,,,,7000/7100系列处理器最大的不同。此外,Xeon,,,,,7200/7300还扩容了二级缓存(从2x1MB升级到了2x4MB,支持智能缓存和智能内存访问),去掉了三级缓存(也不排除今后为了提升性能再增加),同时前端总线升级为1066MT/s,按照英特尔Xeon,,,,,DP路线图来看,今后Xeon,,,,,MP处理器的FSB升级到1333MT/s甚至1600MT/s也是可能的。 代号Tigerton,基于Core微架构的Xeon,,,,,7300处理器 所有的Xeon,,,,,7200/7300都支持EM64T、EIST、EDbit、VT等技术,提供丰富的功能来满足多种应用的需求。 第,,,,,9,,,,,页:代号Dunnington,,,,,至强7400系列 Dunnington采用其后来者Nehalem一样的45nm,,,,,CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量则为1.9,,,,,Billion——19亿,已经和Nehalem-EX的23亿很接近了,新增加的核心和大容量的L3都需要占据很多的晶体管。Dunnington的核心面积为503.2mm。 六核心45nm,,,,,Penryn,,,,,Dunnington——Xeon,,,,,X7460的结构图,和其他Penryn不同,是一整块“原生”的核心 来源:ISSCC2009,,,,,Over,,,,,1,,,,,Million,,,,,TPC-C,,,,,with,,,,,a,,,,,45nm,,,,,6-Core,,,,,Xeon ,,,,,CPU 对于一款处理器来说,除了外部平台的架构之外,处理器内部架构和处理器微架构都是对性能有很大影响的主要因素。如图所示的Dunnington属于最高规格的一款,型号是X7460(曙光I840-H就采用了这款处理器),架构上具有6个Penryn核心,每个核心带有64KB,,,,,L1缓存(32KB,,,,,L1-I,2KB,,,,,L1-D),每两个处理核心共享3MB的L2缓存(果然还是带有“粘”的性质),三对处理器内核就总共带了9MB容量的L2,每个核心通过一条128Bytes的缓存线联结L2。Intel宣称不同的一对核心之间的L2是具有其他互通界面的(被命名为Advanced,,,,,Transfer,,,,,Cache,,,,,Architecture),不过语焉不详。其他的四核45nm,,,,,Penryn也具有这个高级缓存传输架构。X7460的核心频率为2.66GHz,不算太高。Dunnington里面最高主频就是2.93GHz。 7400系列处理器的规格,注意7400系列处理器里面也有4核心的型号 7400系列处理器的缓存架构细节 重点来了,除了上面这些传统的架构之外,Dunnington特别的地方是多了一个Uncore结构,这个结构包括了容量达到了16MB的L3缓存,所有的处理核心经过L2联结到中央系统逻辑,如下图所示,标明为Uncore的中央电路联结着所有的核心以及16MB,,,,,L3缓存,并通过一个传统的FSB总线与处理器外部通信,由于所有处理内核是通过新的总线与Uncore联结,而与以往的“粘结产品”使用FSB互联不同,大部分的交通都发生在内部,从而可以大为节约处理器的FSB带宽。Xeon,,,,,X7460的FSB频率为1066MHz,提供8.5GB/s的带宽,现在的Xeon,,,,,MP都支持MIB(Multiple,,,,,Independent,,,,,Bus,多重独立总线,Xeon,,,,,DP的DIB的进阶版本),每一个处理器都通过独立的FSB与MCH联结,因此效率上还可以。 "Uncore"是六核心45nm,,,,,Penryn至强Dunnington的重要部分 第,,,,,10,,,,,页:代号为Nehalem-EX,,,,,至强7500系列 代号为Nehalem-EX的服务器处理器是x86架构中第一个具有8个核心的产品,Nehalem-EX拥有8个CPU核心,配置了24MB的L3。我们知道Intel的x86服务器产品线通常分为两个层次:2个Socket以及2个Socket以上,如Nehalem-EP就是用于2个及以下Socket,Nehalem-EX就是用于4个或4个以上Socket。台式机产品线的Nehalem处理器:Core,,,,,i7(Bloomfield)在2008年11月发布,Nehalem-EP则预计在2009年3月中发布,Nehlam-EX若无意外则会是在下半年的晚些时候。由于竞争对手AMD的6核心Operton,,,,,Istanbul就目前来看也就和Nehalem-EP打个不分上下,因此提前推出的“意外”应该很难发生。 Intel,,,,,45nm/32nm,,,,,处理器 此次Nehalem-EX是由位于California加利福尼亚州Santa,,,,,Clara研发中心推出的。一般认为该研发中心担任Itanium处理器的研发工作。顺便提一下,Pentium,,,,,Pro、Pentium,,,,,4处理器都是出自Hillsboro研发中心,HTT超线程技术也是,因此Nehalem和Pentium,,,,,Pro这么相像、Nehalem上搭载Pentium,,,,,4上的超线程改良版也就顺理成章、容易理解了——现在大家清楚为什么Pentium,,,,,4、Nehalem有超线程而Cornoe没有超线程了吧, 来源:ISSCC2009,,,,,A,,,,,45nm,,,,,8-Core,,,,,Enterprise,,,,,Xeon?,,,,,Processor 上图是Intel在ISSCC09,,,,,"A,,,,,45nm,,,,,8-Core,,,,,Enterprise,,,,,Xeon?,,,,,Processor"当中给出的Nehalem-EX核心分布图,基本构成是处理器核心分布在四个角落,所有核心共享的L3缓存则居于内核中部,在内核正中央则具有两个Hub集线器和一个Router路由器来负责所有核心的数据共享,管理内存、QPI以及L3缓存之间的数据流向。Nehalem-EX在核心正上面具有4个QPI——QuickPath,,,,,Interconnect总线,核心正下方则是两个内存界面,总共有4个DDR3内存通道。下图是另一个形式的核心分布图,带有一些猜测性质: 众所周知,Nehalem-EX的生产工艺和其他Nehalem都一样,都是45nm,,,,,CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量则为2.3,,,,,Billion——23亿,是4核心Bloomfield的三倍以上,和Tukwila,,,,,Itanium处理器一样,然而Tukwila不断跳票,因此Nehalem-EX有幸成为现在Intel晶体管数量最多的处理器。此外,虽然晶体管数量剧增,Nehalem-EX的面积却只提升了约2.4倍左右。除了核心数量是Bloomfield的两倍之外,额外加入的晶体管被用在了更多数量的L3上,QPI/IMC以及中央系统逻辑(Hub和Router)的变化不算太大。
/
本文档为【常用英特尔至强处理器比拟[精品]】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索