为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

酷睿

2010-10-08 12页 pdf 515KB 28阅读

用户头像

is_504956

暂无简介

举报
酷睿 白皮书 设立高能效表现新标准 解析英特尔® 酷睿™ 微体系结构 魏康乐 英特尔公司 移动事业部院士 兼移动计算微处理器架构总监 2 介绍 白皮书 解析英特尔® 酷睿™ 微体系结构 介绍 � 2 英特尔®酷睿™微体系结构设计目标 � 3 提供高能效表现 � 4 英特尔酷睿微体系结构创新 � 5 英特尔®宽区动态执行 � 6 英特尔®智能功率能力 � 8 英特尔®高级智能高速缓存 � 8 英特尔®智能内存访问 � 9 英特尔®高级数字媒体增强 � 10 英特尔酷睿微体系结构与软件 � 11...
酷睿
白皮书 设立高能效表现新 解析英特尔® 酷睿™ 微体系结构 魏康乐 英特尔公司 移动事业部院士 兼移动计算微处理器架构总监 2 介绍 白皮书 解析英特尔® 酷睿™ 微体系结构 介绍 � 2 英特尔®酷睿™微体系结构目标 � 3 提供高能效表现 � 4 英特尔酷睿微体系结构创新 � 5 英特尔®宽区动态执行 � 6 英特尔®智能功率能力 � 8 英特尔®高级智能高速缓存 � 8 英特尔®智能内存访问 � 9 英特尔®高级数字媒体增强 � 10 英特尔酷睿微体系结构与软件 � 11 总结 � 12 了解更多信息 � 12 作者简介 � 12 英特尔®酷睿™微体系结构是基于英特尔®架构的台式、移 动式和主流服务器多核处理器的新基础。这一领先的多 核优化和高能效型微架构设计可以提供更高的性能和每 瓦特性能,以进而增强整体的能效。该新微架构扩展了 率先在英特尔®奔腾®M处理器中的英特尔移动微架构上 提倡的高能效理念,并通过许多全新的领先微架构创新 及现有的英特尔®NetBurst®微体系结构特性显著地对此 进行了改进。此外,它还采用了许多旨在优化多核处理 器之功率、性能和可扩充性的重大新创技术。 英特尔酷睿微体系结构是英特尔持续创新的结果,它同 时提供了更出色的能效和计算能力,可全面满足目前计 算行业蓬勃发展的新工作负载和使用模式的需要。 凭借更高的性能和极低的功耗,新的英特尔酷睿微体系 结构将成为许多新解决和新外形的基础。在家庭中, 这体现在拥有更高性能、超静音、时尚与低功耗计算机 设计、新改进、以及更加先进、更加易于使用的娱乐系 统。对于IT部门,它将可以降低服务器数据中心的空间和 供电负担,同时提高客户机和服务器平台的响应能力、 运行效率和能效。对于移动用户,英特尔酷睿微体系结 构意味着更出色的计算机性能和最耐久的电池使用时间, 这将进而推动产生多种不同的纤小外形,以带来世界领 先的“移动”计算能力。总之,利用其更高的性能、更 出色的能效和更具响应性的多任务处理能力,它可以为 家庭、公司和移动途中等所有环境中的用户带来更精彩的 体验。 3 解析英特尔® 酷睿™ 微体系结构 白皮书 英特尔® 酷睿™ 微体系结构设计目标 英特尔继续推动可以提高用户全面体验的平台增强 技术。这些增强技术涉及的领域包括连接、可管理 性、安全、可靠性以及计算能力等。有一种方法可 以显著提高计算能力,那就是使用可以提供更高性 能和更高每瓦特性能的英特尔®多核处理器。向多 核处理进行移植还为许多其它进一步提高性能的微 架构创新打开了大门。英特尔酷睿微体系结构就是 这样一次旨在提高性能和能效的出色微架构更新。 在这一点上,英特尔酷睿微体系结构侧重于增强跨 每个平台领域(如台式、服务器和移动)现有和新兴 的应用与使用模式。 微架构历史 架构 指令集定义和兼容性 与高层架构保持 指令集兼容性的 硬件实现 微架构 处理器 按产品分类的微架构实现 实例: (英特尔®安腾®) (英特尔 XScale®) 移动英特尔®NetBurst® 英特尔®奔腾® 处理器 英特尔®奔腾®Pro 英特尔®奔腾®Ⅱ/Ⅲ 英特尔®奔腾®4处理器 英特尔®奔腾®D处理器 英特尔®至强®处理器 英特尔®奔腾®M处理器 1. 显式并行指令计算(EPIC)� � 2. IXA(英特尔®互联网交换架构) 图1 本图显示了处理器架构和微架构之间的区别。处理器架构指公开面向编程人员的指令集、寄存器及内存数据-常驻数 据结构。处理器架构保持了指令集兼容性,因此处理器可以运行为过去、现在和将来几代处理器编写的代码。微架构指的 是在芯片上实现的处理器架构。在一个处理器家族内,微架构通常会在保持架构兼容性的同时,不断发生改进,以提高性 能和能力。 4 白皮书 解析英特尔® 酷睿™ 微体系结构 提供高能效表现 在微处理器世界,性能通常指的是执行给定应用或任务所用的时间,或者指在给定时 间内运行多个应用或任务的能力。与常见的误解不同,它不单指等同于性能的时钟频 率(GHz)或者每个时钟周期(IPC)执行的指令数。真正的性能需综合考虑时钟频率(GHz) 和IPC1。因此,可以将性能作为一个频率和每时钟周期指令数的综合体来计算。 性能=频率×每个时钟周期的指令 该公式表明,性能可以通过单独或同时提高频率和IPC来进行增强。频率是制造工艺和 微架构共同作用的结果。在给定时钟频率下,IPC由处理器微架构和具体应用决定。尽 管同时提高频率和IPC不一定切实可行,但是提高一项,同时使另一项与前代保持不变, 也可显著提高性能。 除了上述两种方法之外,还可以通过减少被执行的指令数来提高性能。单指令多数据 (SIMD)是一项可用来实现此成效的技术。英特尔于1996年首次在支持MMX™技术的英 特尔®奔腾®处理器上采用了64位整数单指令多数据(SIMD)指令,随后在英特尔®奔腾®III 处理器上推出了128位单指令多数据(SIMD)单精确浮点,或SIMD流指令扩展(SSE),后 来又在随后几代处理器上相继亮相了SSE2和SSE3扩展。英特尔在其移动微架构中推出 的另一项创新技术称作微融合(microfusion)。英特尔的微融合可将多个常用微操作(处 理器内部指令)融合为单个微操作,以进而减少完成给定任务所需要处理的微操作数 量。 在英特尔继续有侧重地提供最适合客户需求的能力时,同样有必要注意在提供最佳性 能的同时提供出色的能效 — 即充分考虑处理器完成具体任务将需消耗的功率。此处 还可使用多个内核、多个线程和特殊硬件来提升性能。这些问不在本文讨论范 围之内。如欲了解详细信息,参阅英特尔白皮书:《平台2015:未来十年英特 尔®处理器和平台的演进》。 1. 功耗相当于维持IPC功效所需的动态电容(导体上的静电荷与维持电荷所需导体之间电位 差的比率)乘以向晶体管和I/O缓冲区供应的电压平方,再乘以交换晶体管和信号的频率。 这可以表示为: 考虑到这一功耗等式与前文的性能等式,设计人员就可以在IPC功效与动态电容,及优化 性能与功耗所需的电压与频率之间做出精确的权衡。本文将重点讨论英特尔的新微架构 如何利用这一基础提供领先的性能和每瓦特性能。 5 解析英特尔® 酷睿™ 微体系结构 白皮书 英特尔® 酷睿™ 微体系结构创新 英特尔是长期推动降低笔记本电脑功耗方面的领导者。英特尔奔腾M处理器和英特尔®迅 驰™移动计算技术中的移动微架构自始至终均提供了业界领先的笔记本电脑性能、每瓦 特性能和电池使用时间。英特尔NetBurst微体系结构还提供了许多提高台式机和服务器 性能的创新。 功耗=动态电容×电压×电压×频率 现在,英特尔的全新微架构不仅将具备 每种现有微架构行业领先的特性,而且 还将包含许多全新重要的性能与功耗创 新技术,以进一步优化多核处理器的性 能、能效和可扩展性。 本文将重点讨论这些主要的英特尔酷睿 微体系结构创新: 英特尔®宽区动态执行 英特尔®智能功率能力 英特尔®高级智能高速缓存 英特尔®智能内存访问 英特尔®高级数字媒体增强 6 白皮书 解析英特尔® 酷睿™ 微体系结构 英特尔®宽区动态执行 动态执行包含多项技术(数据流、预 测执行、乱序执行与超标量),这些技术 最先出现在英特尔®奔腾®Pro处理器、英特 尔®奔腾®II处理器和英特尔奔腾III处理器的 P6微架构中。在英特尔NetBurst微体系结 构中,英特尔推出了高级动态执行引擎 — 一个非常深、用以保持处理器执行单元不 断执行指令的乱序预测执行引擎。该微体 系结构还采用了增强的分支预测算法来减 少分支出错的次数。 现在对于英特尔酷睿微体系结构,英特尔 通过英特尔宽区动态执行大幅增强了这一 能力。它可以让每个时钟周期执行更多的 指令,以缩短执行时间并改进能效。每个 执行内核将变得更加宽阔,这样它们就可 以同时获取、分配、执行和返回达4条完 整的指令。(英特尔的移动和英特尔 NetBurst微体系结构每次可处理3条指令) 。进一步提高效率的特性包括可以进一步 提高执行灵活性的更精确的分支预测、更 深的指令缓冲区,以及可以缩短执行时间 的其它特性。 其中一项可以缩短执行时间的特性就是微 融合。在前几代处理器中,每条进入的指 令均会被单独地解码和执行。微融合可以 在解码期间将常用的指令对(如条件分支 (conditional jump)后的比较)融合为单个内 部指令(微操作)。这样2条程序指令就可 以作为1个微操作执行,以减少处理器必 须执行的整体工作量。这增加了给定时间 内可以运行的全部指令数量,或者减少了 运行一定指令数量的时间。通过在更短的 时间内完成更多的任务,微融合提高了整 体性能和能效。 英特尔酷睿微体系结构还包含增强的运算 逻辑单元(ALU),以进一步支持微融合。 它能够在单个周期内执行组合的指令对, 从而使性能得到提升。 英特尔酷睿微体系结构还改进了微操作融 合 — 这是一种最先应用于英特尔奔腾M 处理器的高能效技术。在现代主流处理器 中,×86程序指令(微操作)在送往处理器 管道接受处理之前,会被细分为多个组成 部分,即微操作。微操作融合将“融合” 源自相同宏操作中的微操作,以减少需要 执行的微操作数量。微操作数量的减少可 使时序安排工作更加高效,从而实现更低 的功率和更高的性能。研究显示,微操作 融合可使乱序逻辑处理的微操作数量减少 10%以上。在英特尔酷睿微体系结构中, 可以内部融合至处理器的微操作数量将进 一步增多。 7 解析英特尔® 酷睿™ 微体系结构 白皮书 图2 通过英特尔酷睿微体系结构的英特尔 宽区动态执行,多核处理器中的每个执行 内核都更加宽阔。这样每个内核均可以同 时获取、分配、执行和返回4条完整的指 令。带有4个内核的单枚多核处理器就可 以同时获取、分配、执行和返回16条指 令。 英特尔®宽区动态执行 每个内核 高效的14阶管道 更深的缓冲区 4宽区-解码执行 4宽区-微操作执行 微融合与宏融合 增强的ALU 内核1 内核2 指令获取与预解码 执行 调度程序 回写单元 (重新排序缓冲区) 重命名/分配 解码 指令队列 指令获取与预解码 执行 调度程序 回写单元 (重新排序缓冲区) 重命名/分配 解码 指令队列 性能 能源 优势 更宽的执行 全面提升 每个内核均支持 8 白皮书 解析英特尔® 酷睿™ 微体系结构 英特尔智能功率能力是一组旨在降低功耗和设计要求的 能力。该特性可以管理所有处理器执行内核运行时的功 耗。它含有一项高级功率门控能力,该能力可以在仅需 要的单独处理器逻辑子系统上运行极其高效的逻辑控制。 此外,许多总线和阵列被分开,一些操作模式中的所需 数据在不需要时可被变换为低功耗状态。 过去,实现功率门控非常困难,因为在关闭电源和备份 时会需要大量的功率,而且回升至全功率时,还需要保 持系统的响应性。通过英特尔智能功率能力,这些要求 均能够得到满足,从而使功耗在不影响响应性能的前提 下得到显著降低。结果,出色的功率优化使英特尔酷睿 微体系结构为台式机、笔记本电脑和服务器提供了更多 高能效表现。 英特尔® 智能功率能力 英特尔® 高级智能 高速缓存 英特尔高级智能高速缓存是多核优化的高速缓存,可 以通过增加双核处理器每个执行内核从性能更高、效 率更高的高速缓存子系统中获取数据的可能性来提高 性能。为了做到这一点,英特尔在两个内核之间共享 了二级高速缓存。 为了解该设计的优势,需要考虑到当前多数多核产品 均不能在执行内核之间共享二级高速缓存。这意味着 当两个执行内核需要相同的数据时,每个内核均得将 其存储在自身的二级高速缓存中。通过英特尔共享的 二级高速缓存,数据仅需存储在每个内核均可访问的 同一个地方。这使高速缓存资源得到了更充分的利用。 通过在每个内核之间共享二级高速缓存,英特尔高级 智能高速缓存还可以让每个内核动态地利用高达100% 的可用二级高速缓存。当一个内核只需要较少的高速 缓存时,其它内核便可以增加其占用二级高速缓存的 百分比,以减少高速缓存错误并提高性能。多核优化 的高速缓存还能够以更高的吞吐率获取高速缓存中的 数据。 图3 在两个内核无法共享二级高速缓存的多核处理器中,闲置内核 就意味着闲置二级高速缓存。尤其是当另外的内核由于二级高速缓 存负载过满而承受巨大性能压力的时候,这将是一种巨大的资源浪 费。英特尔共享二级高速缓存设计可以让正在运行的内核动态使用 整个二级高速缓存并获得最佳的性能。 英特尔®高级智能高速缓存 共享二级 高速缓存 降低的流量 增加的流量 动态双向可用 一级 高速缓存 一级 高速缓存 内核1 内核2 一级 高速缓存 一级 高速缓存 内核1 内核2 独立二级高速缓存 不可共享 优势 注:图片不代表实际的硅核或者相关尺寸 更高的高速缓存命中率 降低的总线流量 更低的数据延迟 性能 能源 9 解析英特尔® 酷睿™ 微体系结构 白皮书 英特尔智能内存访问可以提高系统的性能, 因为它能够优化内存子系统对可用数据带 宽的使用,并隐藏内存访问的延迟。该目 标是为了确保能够尽快地使用数据,并使 该数据尽可能地用于需要的地方,以将延 迟最小化,从而提高效率和速度。 英特尔智能内存访问包含一项重要的被称 作内存消歧的新能力,该能力提高了乱序 处理的效率,因为它可以为执行内核提供 内建的智能,以帮助其在执行完所有预先 存储的指令前,预测性地载入指令即将需 要执行的数据。为了解其工作原理,我们 需要了解绝大多数乱序微处理器的情况。 通常情况下,当乱序微处理器重新对指令 进行排序时,它不能在存储前对载入数据 进行重新编排,因为它不了解是否会破坏 某些数据的位置关联性。但是在许多情况 下,载入数据与之前的存储无关,完全可 以提前载入,进而提高效率。问题在于如 何确定哪些可以装载,哪些不可以装载。 英特尔内存消歧使用特殊的智能算法来评 估数据是否可以在存储之前进行装载。如 果它智能地推测出可以装载,那么就可以 将装载指令编排在存储指令之前,以实现 可能性最高的指令级并行计算。如果预测 英特尔® 智能内存访问 性装载最终产生效力,处理器就可以少用 一些时间进行等待,将更多的时间用来处 理,从而加快执行速度并实现处理器资源 的更高效利用。如果装载没有产生效果, 英特尔的内存消歧包含检测冲突的内建智 能、可以重新装载正确的数据并重新执行 指令。 除内存消歧外,英特尔智能内存访问还包 含增强的预取器。预取器负责“预取”内 存内容,并将其放入高速缓存中,以备读 取。增加从高速缓存而非内存的装载量将 缩短内存延迟并提高性能。 为了让数据位于每个执行内核所需要的地 方,英特尔酷睿微体系结构为每个一级高 速缓存和二级高速缓存均配置了两个预取 器。这些预取器同时检测多个数据流和大 跨度的存取类型。这样它们便可以在一级 高速缓存中“及时”准备待执行的数据。 二级高速缓存的预取器可以分析内核的访 问情况,以确保二级高速缓存拥有未来可 能需要的数据。 总之,改进的预取器和内存消歧通过最大 化可用系统总线带宽和隐藏内存子系统延 迟,提高了执行吞吐率。 10 白皮书 解析英特尔® 酷睿™ 微体系结构 英特尔高级数字媒体增强是一项可以显著 提高执行SIMD流指令扩展(SSE)指令性能 的特性。128位SIMD整数算法和128位 SIMD双精度浮点操作减少了执行特定程序 任务所需的全部指令数,将能够促使整体 性能的增高。它们能够加快诸多应用的速 度,如视频、话音与图像、图片处理、加 密、财务、工程设计和科学应用等。分别 使用SSE和MMX指令,SSE指令可以让编 程人员开发出混合集合数、单精度数、浮 点数和整数的算法,以改进英特尔架构。 在许多前代处理器上,128位SSE、SSE2 和SSE3指令在执行时均采用每2个时钟周 英特尔® 高级数字媒体增强 期执行一条完整指令的不变速率,例如, 一个周期执行下面的64位,下一周期执行 上面的64位。英特尔高级数字媒体增强特 性可以在一个时钟周期完成这些128位指 令的执行,从而有效地将这些指令的执行 速度提高一倍。通过增加每个周期处理的 指令数量,英特尔酷睿微体系结构的整体 效率得到了进一步增强。在运行包括图形、 视频和音频的诸多重要多媒体操作、以及 处理其它使用SSE、SSE2和SSE3指令的数 据集时,英特尔高级数字媒体增强的作用 还将更加明显。 英特尔®高级数字媒体增强SSE操作 (SSE/SSE2/SSE3) 图4 通过英特尔单周期SSE, 128位指令可以在一个时钟 周期内完成执行,从而有 效地将这些指令的执行速 度提高一倍。 源 英特尔®酷睿™ 微体系结构 时钟周期1 非英特尔酷睿 微体系结构 时钟周期2 时钟周期1 优势 提高性能 每个内核128位单周期 改进的能效 性能 能源 注:图片不代表实际的硅核或者相关尺寸 英特尔预计,多数现有应用在基于英特尔酷睿微体系结构的处理器上运行 时都能获得立竿见影的优势。如欲了解更多有关软件和英特尔酷睿微体系 结构的信息,请访问英特尔网站上的英特尔®软件网络: www.intel.com/software。 英特尔®酷睿™微体系结构与软件 11 解析英特尔® 酷睿™ 微体系结构 白皮书 版权所有©2006英特尔公司。所有权利受到保护。英特尔、Intel标识、 Intel. Leap ahead.、Intel. Leap ahead.标识、英特尔.超越未来.、英特尔.超越 未来.标识、英特尔 XScale、迅驰、Centrino标识、奔腾、Pentium标识、至 强、Xeon标识和英特尔酷睿、英特尔NetBurst是英特尔公司及其在美国和 其他国家(地区)的子公司之商标或者注册商标。 *文中涉及的其它名称及商标属于各自所有者资产。 311830-001CN 作者简介 魏康乐是英特尔公司移动事业部院士兼移动 计算微处理器架构总监。在这一职位上,他主 要负责即将上市的代号为“Merom”全新英 特尔酷睿双核处理器的架构,及其它下一代 CPU的架构开发。之前,魏康乐曾任IDC AV 经理,负责P55C的验证。魏康乐于1989年 加盟英特尔,时任 i860设计工程师。他于 1998年获得以色列Beer Sheva本古里安大学 (Ben Gurion University)电子工程学士学位。 他拥有四项美国专利。 了解更多信息 如欲了解更多信息,请访问下列网站: 英特尔®酷睿™双核处理器 www.intel.com/products/processor/coreduo 英特尔®平台 www.intel.com/platforms 英特尔多核 www.intel.com/multi-core 英特尔架构创新 www.intel.com/technology/architecture 高能效表现 www.intel.com/technology/eep 总结 英特尔酷睿微体系结构是全新领先的多核优化微架构,它提供了许多将 成为高能效表现新标准的全新创新特性。这一高能效、低功耗、高性能 和可扩充的发展蓝图将成为未来英特尔架构服务器、台式机和移动多核 处理器的基础。 该新微架构扩展了率先在英特尔奔腾M处理器中的英特尔移动微架构上提倡 的高能效理念,并通过许多全新的领先微架构创新及现有的英特尔NetBurst 微体系结构特性显著地对此进行了改进。基于英特尔酷睿微体系结构的产 品将于2006年下半年上市,届时势必将掀起台式机、服务器和移动平台 的创新浪潮。台式机将可以提供更出色的计算性能以及超静音、时尚外形 和低功耗设计等优势。服务器将可以提供更出色的计算密度,笔记本电脑 则将能够以全新的外形提供不断增多的多核计算能力。 www.intel.com
/
本文档为【酷睿】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索