为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

系统结构chpt1

2010-10-24 50页 ppt 496KB 16阅读

用户头像

is_530219

暂无简介

举报
系统结构chpt1null计算机系统结构计算机系统结构计算机系统结构计算机系统结构第一章 基本概念 第二章 指令系统 第三章 存储系统 第四章 输入输出系统 第五章 标量处理机第六章 向量处理机 第七章 互连网络 第八章 并行处理机 第九章 多处理机计算机系统结构课程介绍计算机系统结构课程介绍Computer Architecture “建筑学”、“建筑物的设计或式样”,通常是指一个系统的外貌。 计算机系统结构 计算机体系结构 研究内容 从外部来研究计算机系统 使用者所看到的物理计算机的抽象 编写出能够在机器上正确运行的...
系统结构chpt1
null计算机系统结构计算机系统结构计算机系统结构计算机系统结构第一章 基本概念 第二章 指令系统 第三章 存储系统 第四章 输入输出系统 第五章 标量处理机第六章 向量处理机 第七章 互连网络 第八章 并行处理机 第九章 多处理机计算机系统结构课程介绍计算机系统结构课程介绍Computer Architecture “建筑学”、“建筑物的设计或式样”,通常是指一个系统的外貌。 计算机系统结构 计算机体系结构 研究内容 从外部来研究计算机系统 使用者所看到的物理计算机的抽象 编写出能够在机器上正确运行的程序所必须了解到的计算机的属性。 软硬件功能分配及分界面的确定 null 学习目的 建立计算机系统的完整概念 学习计算机系统的分析和设计方法 掌握新型计算机系统的基本结构及其工作原理 null学科方向 一级学科:计算机科学与技术 二级学科:计算机系统结构 计算机软件 计算机应用技术 与其他课程的交叉 主要包括:计算机组成原理、计算机操作系统、汇编语言、数据结构、微机原理、高级语言等 新内容:超标量处理机、超流水线处理机、向 量处理机、并行处理机、多处理机等 交叉点内容:提高,建立完整概念null计算机系统结构正处于变革时期 软件、系统结构、组成技术,两头发展快、中间慢 非冯计算机正兴起 系统结构的发展时期已经到来 课程安排 课内:60学时;课外:课内外比例1:2; 除完成作业外,还要多看参考书 教材 计算机系统结构,清华大学出版社,第二版null主要参考书 1.Patterson D A, Hennessy J L, Computer Architecture: A Quantitative Approach, 2 Ed., San Francisco: Morgan Kaufmann Publishers, 1995. 2.李学干,苏东庄,计算机系统结构,西安电子科技大学出版社,1991年。 3.高等计算机系统结构 并行性 可扩展性 可编程性,清华大学出版社第一章 基本概念第一章 基本概念1.1 计算机系统结构的定义 1.2 计算机系统设计技术 1.3 系统结构的评价 1.4 计算机系统结构的发展null1.1 计算机系统结构的定义 1.1.1 两种定义 1. 定义一 Amdahl于1964年在推出IBM360系列计算机时提出:程序员所看到的计算机系统的属性,即概念性结构和功能特性 程序员:汇编语言、机器语言、编译程序、操作系统 看到的:编写出能够在机器上正确运行的程序所必须了解到的null概念结构null功能特性:指令系统及其执行模式 数据表示:硬件能够直接认别和处理的数据类型和格式; 寻址方式:最小寻址单位、寻址方式的种类和地址运算等; 寄存器组织:操作数寄存器、变址寄存器、控制寄存器及专用寄存器的定义、数量和使用规则等; 指令系统:机器指令的操作类型、格式,指令间的排序和控制机制等;null中断系统:中断类型、中断级别和中断响应方式等; 存储系统:最小编址单位、编址方式、主存容量、最大寻址空间等; 处理机工作状态:定义和切换方式,如管态和目态等; 输入输出系统:连接方式、数据交换方式、数据交换过程的控制等; 信息保护:包括信息保护方式和硬件对信息保护的支持等。null2. 透明性概念 本来存在的事物或属性,从某种角度看似乎不存在 例如:浮点数表示、乘法指令 对高级语言程序员、应用程序员透明 对汇编语言程序员、机器语言程序员 不透明 例如:数据总线宽度、微程序 对汇编语言程序员、机器语言程序员 透明 对硬件设计者、计算机维修人员不透明null3. 定义二:计算机系统结构主要研究软硬件功能分配和对软硬件界面的确定 计算机系统由软件、硬件和固器组成,它们在功能上是同等的。 同一种功能可以用硬件实现,也可以用软件或固件实现。 不同的组成只是性能和价格不同。null1.1.2 计算机组成 计算机组成是指计算机系统结构的逻辑实现,主要包括: 确定数据通路的宽度 确定各种操作对功能部件的共享程度 确定专用的功能部件 确定功能部件的并行度 设计缓冲和排队策略 设计控制机构 确定采用何种可靠性技术null 1.1.3 计算机系统的实现 计算机实现是指计算机组成的物理实现,包括: 处理机、主存储器等部件的物理结构 器件的集成度和速度 专用器件的设计 器件、模块、插件、底版的划分与连接 信号传输技术 电源、冷却及装配技术,相关制造工艺及技术等null计算机系统结构、计算机组成和计算机实现是三个不同的概念,但随着技术、器件和应用的发展,三者之间的界限越来越模糊。null1.1. 4 计算机系统的层次结构 1. 虚拟机概念 由软件实现的机器称为:虚拟机 程序员从不同角度所看到的计算机系统的属性是不同的,其中包括: 高级语言程序员、汇编语言程序员、系统管理员、硬件设计者 大部分人对计算机的认识只需要在某一个层次上nullnull2. 层次结构(接下页)nullnullnull 2. 层次结构 第1级由微程序实现 第2级至第6级由软件实现 由软件实现的机器称为:虚拟机 第0级由硬件实现 第2级是传统指令系统(机器语言)机器 第3级是操作系统机器 操作系统是运行在第2级上的解释程序 第4级是汇编语言机器 第5级是高级语言机器 第6级是应用语言机器 null 从学科领域来划分 第0和第1级属于计算机组成与系统结构 第3至第5级是系统软件 第6级是应用软件 它们之间仍有交叉 第0级要求一定的数字逻辑基础 第2级涉及汇编语言程序设计的内容 第3级与计算机系统结构密切相关。 在特殊的计算机系统中,有些级别可能不存在。 null1.1.5 计算机系统的分类 1.1.5.1 常见分类方法 1. 按大小划分 种类:巨型机、大型机、中型机、小型机、微型机等。 划分原则:以性能为表征,按价格来划分 存在问题:划分的标准是随时间而变化null2. 按用途划分 种类:科学计算、事务处理、实时控制、工作站、服务器、家用计算机等。 划分原则:科学计算:浮点计算速度;事务处理:字符处理、十进制运算;实时控制:中断响应速度、I/0能力;工作站:图形处理能力 发展方向:具备上述所有功能的通用处理机 3. 按数据类型划分 种类:定点机、浮点机、向量机、堆栈机等null4. 按处理机个数和种类划分 种类:单处理机、并行处理机、多处理机、分布处理机、关联处理机、超标量处理机、超流水线处理机、SMP(对称多处理机)、MPP(大规模并行处理机)、机群(Cluster)系统等 5. 按所使用的器件划分 种类: 第一代(Valve 晶体管) 第二代(Transitor半导体) 第三代(SSI和MSI小规模以及中规模集成电路)null 第四代(LSI和VLSI大规模以及超大规模集成电路) 第五代(智能计算机)等 1.1.5.2 按并行度的分类方法 1. 佛林(Flynn)分类法 1966年由 Michael.J.Flynn 提出 按照指令流和数据流的多倍性特征对计算机系统进行分类 指令流:机器执行的指令序列 数据流:由指令流调用的数据序列,包括输入数据和中间结果null多倍性(multiplicity):在系统性能瓶颈部件上同时处于同一执行阶段的指令或数据的最大可能个数 四种类型 单指令流单数据流SISD (Single Instruction Single Datastream); 单指令流多数据流SIMD (Single Instruction Multiple Datastream); 多指令流单数据流MISD (Multiple Instruction Single Datastream); 多指令流多数据流MIMS (Multiple Instruction Multiple Datastream)nullSISD 典型单处理机,包括: 单功能部件处理机:IBM1401,VAX-11 多功能部件处理机:IBM360/91,370/168,CDC6600 流水线处理机:标量流水线处理机nullSIMD: 并行处理机、阵列处理机、向量处理机、相联处理机、超标量处理机、超流水线处理机、 多个PU按一定方式互连,在同一个CU控制下,多各自的数据完成同一条指令规定的操作;从CU看,指令顺序(串行)执行,从PU看,数据并行执行。 全并行:IILIAC IV、PEPE、STAR100、ASC、CRAY 字并位串:STARAN、MPP、DAPnullnullMISD 几条指令对同一个数据进行不同处理,实际上不存在 MIMD 多处理机系统,包括: 紧密偶合:IBM3081、IBM3084、UNIVAC-1100/80 松散偶合:D-825、Cmmp、CRAY-2nullnullnullFlynn分类法得到广泛应用 SIMD、MIMD、SPMD… 主要缺点: (1) 分类太粗:例如, 在SIMD中包括有多种处理机 对流水线处理机的划分不明确 标量流水线为SISD,向量流水线为SIMD (2) 根本问题是把两个不同等级的功能并列对待;通常,数据流受指令流控制,从而造成MISD不存在null(3) 非冯计算机的分类?其他新型计算机的分类? 2. 库克分类法:1978年由D. J. Kuck提出 按控制流和执行流分类 四种类型 (1) 单指令流单执行流SISE (Single Instruction Single Executionstream);典型的单处理机 (2) 单指令流多执行流SIME (Single Instruction Multiple Executionstream);多功能部件处理机、相联处理机、向量处null 理机、流水线处理机、超流水线处理机、超标量处理机、SIMD并行处理机 (3) 多指令流单执行流MISE (Multiple Instruction Single Executionstream);多道程序系统 (4) 多指令流多执行流MIME (Multiple Instruction Multiple Executionstream);典型的多处理机 主要缺点 有些系统,如分布处理机等,没有总控制器.分类级别太低,没有处理机级和机器级 分类太粗,如SIME中包含了多种类型的处理机 null 3. 冯泽云分类法: 1972年美籍华人冯泽云提出 用最大并行度来对计算机系统进行分类 最大并行度:计算机系统在单位时间内能够处理的最大二进制位数。假设同时处理的字宽为n,位宽为m,则最大并行度定义为: Pm = m  nnull平均并行度:假设每个时钟周期ti内能同时处理的二进位数为Bi,则n个时钟周期内的平均并行度定义为: 表示方法:处理机名 (m, n)nullnull四种类型 (1) 字串位串WSBS (Word Serial and Bit Serial) 串行计算机;m=1,n=1; 例如:EDVAC(1,1) (2) 字并位串WPBS (Word Parallel and Bit Serial) 传统的单处理机; m=1, n>1; 例如:Pentium(32,1) (3) 字串位并WSBP (Word Serial and Bit Parallel) 并行计算机、MPP、相联计算机;m>1, n=1; 例如:MPP(1, 16384), STARAN(1, 256), DAP null(4) 字并位并WPBP (Word Parallel and Bit Parallel) 全并行计算机;m>1, n>1; 例如:IILIAC IV(64,64), ASC(64,32), PEPE, Cmmp 主要缺点: 仅考虑了数据的并行性,没有考虑指令、任务、作业的并行null4. 汉德勒分类法:由Wolfgan Hindler于1977年提出 又称为ESC (Erlange Classification Scheme)分类法 根据并行度和流水线分类,计算机的硬件结构分成三个层次,并分别考虑它们的可并行性和流水处理程度。 (1) 程序级k:程序控制部件(PCU)的个数; (2) 操作级d:算术逻辑部件(ALU)或处理部件(PU)的个数; (3) 逻辑级w:每个算术逻辑部件包含的逻辑线路 (ELC)的套数。null表示方法:t (系统型号)=(k, d, w) 例如: t (EDVAC) = (1, 1, 1) t (Pentium) = (1, 1, 32) t (STARAN) = (1, 8192, 1) t (ILLIAC Ⅳ) = (1, 64, 64) t (Cmmp) = (16, 1, 16) 为了表示流水线,采用: t(系统型号) = (kk’, dd’, ww’) 其中: k’ 表示宏流水线中程序控制部件的个数null d’ 表示指令流水线中算术逻辑部件 的个数 w’ 表示操作流水线中基本逻辑线路 的套数 例如:Cray1有1个CPU,12个相当于ALU或PE的处理部件,最多8级流水线,字长为64位,可以实现1~14位流水线。表示为: t(Cray1)=(1,12×8,64(1~14)) 又例如: t(PEPE)=(1×3,288,32) t(TI ASC)=(1,4,64×8)第一章 基本概念第一章 基本概念1.1 计算机系统结构的定义 1.2 计算机系统设计技术 1.3 系统结构的评价标准 1.4 计算机系统结构的发展1.2 计算机系统的设计技术 1.2 计算机系统的设计技术 1.2.1 计算机设计者的任务 1.2.2 软硬件取舍 1.2.3 软件兼容性 1.2.4 计算机系统设计方法 1.2.1 计算机设计者的任务1.2.1 计算机设计者的任务系统结构设计:包括指令集、存储系统、总线结构、处理器设计等,是软硬件的分界面 硬件实现技术:相当重要,不同指令集对系统性能的影响在缩小 应用或市场需求 性能优化:可靠性、容错性、价格与性能 实现的复杂性:硬件实现、软件复杂性、投放市场时间 性能价格比:必须考虑实现的成本,包括软件成本null1.2.2 软硬件取舍1.2.2 软硬件取舍1. 软硬件的关系 理论上:有两种极端实现方法: 全硬件机器:操作系统、高级语言、应用等 硬件只有1位加法和分支操作,其他都用软件 关键问题:性能与价格的关系 软件与硬件实现的特点 硬件实现:速度快、成本高;灵活性差、占用内存少 软件实现:速度低、复制费用低;灵活性好、占用内存多 1. 软硬件的关系 理论上:有两种极端实现方法: 全硬件机器:操作系统、高级语言、应用等 硬件只有1位加法和分支操作,其他都用软件 关键问题:性能与价格的关系 软件与硬件实现的特点 硬件实现:速度快、成本高;灵活性差、占用内存少 软件实现:速度低、复制费用低;灵活性好、占用内存多1.2.2 软硬件取舍硬件实现的比例越来越高硬件实现的比例越来越高null2. 从价格因素考虑的软硬件取舍 假设:硬件设计费为Dh、软件设计费为Ds、硬件拷贝费为Ch、软件拷贝费为Cs,R为软件重复出现次数(占用内存、占用介质),当台数为V时,每台的硬件费用和软件费用之比为: 由于:Dh >> Ds,Ch >> Cs,当R很大时,经常使用的基本功能适宜用硬件实现 由于:Ds >> Cs,当V很大时,生产台数很多时适宜用硬件实现null3. 从改进性能考虑的软硬件取舍 基本方法:加快经常性事件的执行速度 Amdahl定律:系统中某一部件由于采用更快的执行方式后,整个系统性能的提高与这种执行方式的使用频率或占总执行时间的比例有关。 在Amdahl定律中,加速比与两个因素有关:null在Amdahl定律中,加速比与两个因素有关:null改进后整个任务的执行时间为: 其中T0为改进前的整个任务的执行时间。 改进后整个系统的加速比为: 其中(1-Fe)表示不可改进部分。null例1.1: 假设将某一部件的处理速度加快到10倍,该部件的原处理时间仅为整个运行时间的40%,则采用加快措施后能使整个系统的性能提高多少? 解: 由题意可知:Fe=0.4, Se=10,根据Amdahl定律,加速比为:null例1.2:采用哪种实现技术来求浮点数平方根FPSQR的操作对系统的性能影响较大。假设FPSQR操作占整个测试程序执行时间的20%。一种实现方法是采用FPSQR硬件,使FPSQR操作的速度加快到10倍。另一种实现方法是使所有浮点数据指令的速度加快,使FP指令的速度加快到2倍,还假设FP指令占整个测试程序执行时间的50%。请比较这两种设计方案。 解:分别计算出这两种设计方案所能得到的加速比:null可见使所有FP指令的速度提高这一方案更好。 4、CPU性能 用加速比描述性能时有些参数不好测定,因此引入CPU性能公式。要点:用CPU执行时间衡量性能。null 概念: (1)时钟周期/时钟频率 (2)每条指令执行所花费的时钟周期数。 (3)CPU时间:CPU执行某任务所花费的时间。 (1)程序执行所花费的CPU时间: CPU时间=CPU时钟周期数/频率 或: CPU时间=CPU时钟周期数×时钟周期长两种表示方法:null (2)每条指令的平均时钟周期数CPI: CPI=CPU时钟周期数目/指令条数IC CPU时间=(IC×CPI)/频率 (3)二者关系 (4)CPU性能取决的三要素时钟频率:取决于硬件技术和组织。 CPI:取决于系统结构组织和指令集。 指令条数:取决于系统结构组织和编译技术。null (5)常用的计算公式null例1.3: 如果FP操作的比例为25%,FP操作的平均CPI=4.0,其他指令的平均CPI为1.33,FPSQR操作占总指令的比例为2%,FPSQR的CPI为20。假设有两种设计方案,分别把FPSQR操作的CPI和所有FP操作的CPI减为2。试利用CPU性能公式比较这两种设计方案哪一个更好。null例1.3:分析:此问题就是计算两种方案的CPI。此处提供两种思路。(1)直接代公式方案二(FP的CPI降为2):2.025%1.3375%null方案一(FPSQR的CPI降为2):2.02%?98%考虑改进前系统的CPI具有如下特点:还等于:null解得:代入公式得:由以上分析可知方案2性能好。null(2)由改进前后CPI的关系推导分别将两种方案的参数代入可得相同结果。1.2.3 软件兼容性设计方法 1.2.3 软件兼容性设计方法 原因:软件相对于硬件的成本越来越贵,已积累了大量成熟的系统软件和应用软件。 1. 兼容种类 (1)向后兼容:在某一时间生产的机器上运行的目标 软件能够直接运行于更晚生产的机器上。 (2)向前兼容: (3)向上兼容:在低档机器上运行的目标软件能够直 接运行于高档机器上。 (4)向下兼容: 向后兼容必须做到,向上兼容尽量做到 向前兼容和向下兼容,可以不考虑 null方法一:系列机方法 系列机定义: 具有相同的系统结构,但组成和实现技术不同的一系列计算机系统 实现方法: 在系统结构基本不变的基础上,根据不同的性能和不同的器件,研制出多种性能和价格不同的计算机系统。 一种系统结构可以有多种组成,一种组成也可以有多种物理实现 如IBM370系列机: 115,125,135,145,158,168等null相同的指令系统,采用顺序执行、重迭、流水和并行处理方式 相同的32位字长,数据通路宽度为8位、16位、32位、64位。 如PC系列机有: 不同主频:4.7MHz,500MHz,1GHz,2.4GHz, 3GHz, … 不同扩展:Pentium、Pentium Pro、Pentium MMX、Pentium SSE、Pentium SSE2 不同Cache:Pentium、Celeron、Xeon 不同字长:8位、16位、32位、64位null 采用系列机方法的主要优点: (1) 系列机之间软件兼容,可移植性好 (2) 插件、接口等相互兼容 (3) 便于实现机间通信 (4) 便于维修、培训 (5) 有利于提高产量、降低成本 采用系列机方法的主要缺点: 限制了计算机系统结构的发展 如PC系列机,其系统结构非常落后,使用也最普及null方法二:模拟与仿真 Simulation Emulation 定义:在一台现有的计算机上实现另一台计算机的指令系统。全部用软件实现的叫模拟,用软件、硬件、固件混合实现的叫仿真 模拟的实现方法 在A计算机上通过解释或编译实现B计算机的指令系统。A机器称为宿主机,B机器称为虚拟机。 仿真的实现方法 直接用A机器的一段微程序解释执行B机器的指令。A机器称为宿主机,B机称为目标机。null优缺点比较 模拟方法速度低,仿真方法速度高 仿真需要较多的硬件(包括控制存储器) 系统结构差别大的机器难于用仿真方法实现 除了指令系统之外,还有存储系统、I/O系统、中断系统、控制台的操作等 模拟方法用于计算机系统的设计过程 在一台已有的机器上用模拟方法实现正在设计中的机器的指令系统等。具体过程如下: 设计方案模拟性能评价修改设计投产 null方法三:统一高级语言 实现方法:采用同一种不依赖于任何具体机器的高级语言编写系统软件和应用软件。 困难:至今还没有这样一种高级语言,短期内很难实现。C、Ada、Java、…… 三种方法比较: 采用统一高级语言最好,是努力的目标 系列机是暂时性方法,也是目前最好的方法 仿真的速度低,芯片设计的负担重,目前用于同一系列机内的兼容,1/10~1/2的芯片面积用于仿真null方法四:目标代码的并行编译技术 一个新的研究课题 一种机器的目标代码重新编译到另一种机器的并行目标代码 两种方法: (1) 动态代码转换 例1:IBM公司研制 DAISY(Dynamically Architected Instruction Set from Yorktown) 处理机 例2:Transmeta公司研制Crusoe处理机 已经大量应用于笔记本计算机,其功耗很低。 (2) 静态重编译:正在研究过程中,难度很大null1.2.4 计算机系统设计过程 方法1:由上向下(Top-Down) 设计过程:由上向下 面向应用的数学模型 面向应用的高级语言 面向这种应用的操作系统 面向操作系统和高级语言的机器语言 面向机器语言的微指令系统和硬件实现 应用场合: 专用计算机的设计(早期计算机的设计)null特点: 对于所面向的应用领域,性能和性能价格比很高 随着通用计算机价格降低,目前已经很少采用 方法2:由下向上(Bottom-Up) 设计过程: 根据当时的器件水平,设计微程序机器级和传统机器级。 根据不同的应用领域设计多种操作系统、汇编语言、高级语言编译器等 最后设计面向应用的虚拟机器级。 null应用场合: 在计算机早期设计中(60~70年代)广为采用 特点: 容易使软件和硬件脱节,整个计算机系统的效率降低。 方法3:中间开始(Middle-Out) 设计过程: 首先定义软硬件的分界面,包括: 指令系统、存储系统、输入输出系统、中断系统、硬件对操作系统和编译系统的支持等 然后各个层次分别进行设计:软件设计人员设计操作系统、高级语言、汇编语言、应用出现等;硬件设计人员设计传统机器、微程序、硬联逻辑等 null应用场合:用于系列机的设计 特点:软硬件的分界面在上升;硬件价格下降,软件价格上升;软硬件人员结合共同设计;器件设计占领硬件设计nullnull1.3 计算机系统结构的评价标准 计算机系统结构的评价标准:性能和价格 1.3.1 性能评测的常用方法:运算速度 1. 时钟频率(主频):用于同类处理机之间 如:PentiumⅡ/450 比 PentiumⅡ/300快 50%,… 2. 指令执行速度 一种很经典的表示方法 MIPS (Million Instructions Per Second), KIPS, GIPS, TIPSnull其中,Fz为处理机的工作主频;CPI (Cycles Per Instruction)为每条指令所需的平均时钟周期数;IPC (Instruction Per Cycle)为每个时钟周期平均执行的指令条数 例1: 计算Pentium II 450处理机的运算速度。 解:由于PentiumII 450处理机的IPC=2 (或 CPI=0.5), Fz=450MHz,因此, MIPSPentium II 450=Fz×IPC=450×2=900(MIPS)null 主要缺点: (1)不同指令的速度差别很大 (2)指令使用频度差别很大 (3)有相当多的非功能性指令null3. 等效指令速度:吉普森(Gibson)法 其中, Wi:指令使用频度,i:指令种类 静态指令使用频度:在程序中直接统计 null动态指令使用频度:在程序执行过程中统计 在计算机发展的早期,用加法指令的运算速度来衡量计算机的速度。通常:加、减法50%,乘法15%,除法5%,程序控制15%,其他15% 例2: 我国最早研制的小型计算机DJS-130,定点16位,加法每秒50万次,但没有硬件乘法和除法指令,用软件实现乘法和除法,速度低100倍左右。求等效速度。 (加法:80% ,乘法:20%)null解: 定点等效速度为: 即每秒2万次,由于乘法和除法用软件实现,等效速度降低了25倍。 例3: 假设在程序中浮点开平方操作FPSQR的比例为2%,它的CPI为100;其他浮点操作FP的比例为23%,它的CPI= 4.0;null其余75%指令的CPI=1.33,计算该处理机的等效CPI。如果FPSQR操作的CPI也为4.0,重新计算等效CPI。 解: 由于改进了仅占2%的FPSQR操作的CPI,使等效速度提高了近一倍。等效CPI1 = 1002%+423%+ 1.3375% = 3.92 等效CPI2 = 425%+1.3375% = 2.00null指令执行速度的几种平均方法 上述2中的指令执行速度又称为算术平均速度 上述3中的等效指令执行速度又称为加权平均速度,或调和平均速度 几何平均速度:null其中,ETR(execution time ratio),n 指不同的程序 几何平均速度与机器无关,与程序的执行时间无关。null4. 核心程序法 把应用程序中用得最频繁的那部分核心程序作为评价计算机性能的标准程序。称为基准程序 (benchmark) 整数测试程序:Dhrystone 用C语言编写,100条语句。包括:各种赋值语句,各种数据类型和数据区,各种控制语句,过程调用和参数传送,整数运算和逻辑操作。 VAX-11/780的测试结果为每秒1757个Dhrystones,即:1VAX MIPS=1757 Dhrystones/Secondnull浮点测试程序:Linpack 用FORTRAN语言编写,主要是浮点加法和浮点乘法操作。 用 MFLOPS(Million Floating Point Operations Per Second)表示;GFLOPS、TFLOPS Whetstone基准测试程序 用FORTRAN语言编写的综合性测试程序,null主要包括:浮点运算、整数算术运算、功能调用、数组变址、条件转移、超越。 测试结果用Kwips表示。 SPEC基准测试程序 (System performance evaluation Cooperative) 由30个左右世界知名计算机大厂商所支持的非盈利的合作组织,包括:IBM、AT&T、BULL、Compaq、CDC、DG、DEC、Fujitsu、HP、Intel、MIPS、Motolola、SGI、SUN、Unisys等;nullSPEC能够全面反映机器的性能,具有很高的参考价值; 以AX-11/780的测试结果作为基数;SPEC1.0 1989年10月宣布,程序量超过15万行,包含10个测试程序, 4个定点程序,6个浮点程序;测试结果用SPECint’89和SPECfp’89表示。 1992年,又增加10个测试程序,共有6个定点程序和14个浮点程序,测试结果用SPECint’92和SPECfp’92表示。 1995年,推出SPECint’95和SPECfp’95null处理机 SPECint’95 SPECfp’95 PentiumII 400 18.5 13.3 PentiumII 450 18.7 13.7 PentiumIII 500 20.6 14.7 PientiumIII 550 22.3 15.6 Celeron 300A 12.0 9.66 Celeron 333 13.1 10.20 Celeron 366 14.1 10.70 Celeron 400 15.1 11.20 Celeron 433 16.1 11.60 Celeron 466 17.0 12.00nullTPC基准程序 Transaction Processing Council(事务处理委员会) 成立于1988年,已有40多个成员; 用于评测计算机的事务处理、数据库处理、企业管理与决策支持等方面的性能。 1989年10月、1990年8月和1992年7月发表了TPC-A、TPC-B和TPC-C。null5、峰值速度 峰值指令速度MIPS、GIPS、TIPS Pentium III 500有3条指令流水线,则其峰值指令速度为: 3×500MHz=1500 (MIPS) 即每秒15亿次 例3: 一个由8台机器组成的Cluster系统,每台机器是4个PentiumIII 500组成的SMP系统;计算这个Cluster系统的指令峰值速度。null解: 峰值指令速度: 500MHz  843 = 48(GIPS) 即每秒480亿次。 峰值指令速度MIPS、GIPS、TIPS 1.3. 2 其他方面的性能 1. 存储能力 寻址空间大小,216、224、232、264、… null存储容量,速度,编址单位,编址方式,寻址方式 存储系统:Lookahead  Cache  Main Memory  Online Storage  Off-line Storage 2. 字长 1~几百位 关键问题:程序与数据共用同一个主存储器 早期:由指令字长决定 当前:由数据字长决定,8的倍数,如:32位、64位等 可变字长:任意组合null3. 数据类型 目前常用:定点、浮点、逻辑 已有类型:向量、串、栈、树 发展方向:自定义 4. 指令系统 CISC:复杂指令集计算机 RISC:精简指令集计算机 VLIW:超长指令字null5. 输入输出能力 输入输出方式 中断系统 输入输出接口 6. 兼容性 共分12级:0~11,0级为完全不兼容,11级为自身 7. 保护和诊断能力 程序与数据的保护null诊断能力:检错、纠错、冗余、自诊断能力 可靠性:RAS技术,可靠性R、可用性A、可维护性 1.3. 3 其他方面的性能 1. 价格与性能的关系 根据摩尔定理: 性能每10年提高100倍,但价格基本不变 用同样的价格,五年之后能买到性能高十倍的机器null2. 硬件与软件的价格比例 硬件的比例下降,软件的比例上升 目前软件价格已经超过硬件价格第一章 基本概念第一章 基本概念1.1 计算机系统结构的定义 1.2计算机系统的设计方法 1.3计算机系统的评价标准 1.4 计算机系统结构的发展 1.5 计算机系统的分类null1.4 计算机系统结构的发展 1.4.1 冯·诺依曼(Van Nenmann)结构 基本思想于1936年~1946年期间形成 由冯·诺依曼等人于1946年提出 1. 特点:存储程序 运算器为中心 集中控制 存储器是字长固定的、顺序线性编址的一维结构。 存储器提供可按地址访问的一级地址空间,每个地址是唯一定义的。null由指令形式的低级机器语言驱动。 指令顺序执行,即一般按照指令在存储器中存放的顺序执行,程序分支由转移指令实现。 运算器为中心,输入输出设备与存储器之间的数据传送都途经运算器。运算器、存储器、输入输出设备的操作以及它们之间的联系都由控制器集中控制。 2. 改进:存储程序,存储器为中心,分散控制 从基于串行算法变为适应并行算法,出现了向量计算机,并行计算机、多处理机等。null高级语言与机器语言的语义距离缩小,出现了面向高级语言机器和直接执行高级语言机器。null硬件子系统与操作系统和数据库管理系统软件相适应,出现了面向操作系统机器和数据库计算机等。 从传统的指令驱动型改变为数据驱动型和需求驱动型,出现了数据流机器和归约机。 为适应特定应用环境而出现了各种专用计算机,如快速傅里叶变换机器、过程控制计算机等。 为获得高可靠性而研制容错计算机。null功能分散化、专业化,出现了各种功能分布计算机,包括外围处理机、通信处理机等。 出现了与大规模、超大规模集成电路相适应的计算机系统结构。 出现了处理非数值化信息的智能计算机,例如自然语言、声音、图形和图象处理等。 3. 非冯计算机的发展null1.4.2 器件发展对系统结构的影响 第1~4代计算机以器件来划分 在相当长一段时间内,是提高计算机速度的主要途径 1. 器件发展的特点:用4句话概括: 集成度迅速提高,速度已接近极限, 价格直线下降, 可靠性越来越高 集成度迅速提高 目前水平:每0.25平方英寸108个晶体管; 单芯片内可以做256Mb存储器,CPU+部分Cachenull每5年左右提高一个数量级; 到2018年,单芯片内可以做100个处理机 速度已接近极限 目前CPU主频已经到达1000MHz,门延迟0.1ns; 极限速度:30万公里/秒=3cm/0.1ns=3mm/0.01ns 器件速度发展的余地很小 根据摩尔定理,处理机速度每10年要提高100倍 将来处理机速度提高主要靠系统结构、组成和实现技术 null价格直线下降 例如:CPU芯片刚推出时1000美元,一年后降到200美元 可靠性越来越高 芯片可靠性到达108小时,即连续使用1万年以上null2. 器件种类 通用片:大批量生产,CPU、存储器、 寄存器、逻辑门、… 现场片:PLD、PAL、PROM、EPROM、FPGA。… 用户片:各种专用芯片 半用户片: 门阵列片等 3. 器件发展对组成技术的影响 器件速度与处理机工作主频 1955年第一台大型计算机IBM704机 处理机主频:12us,门延迟:0.5usnull 1976年巨型向量计算机CRAY,采用ECL电路 处理机主频:12.5ns,门延迟:0.5ns 目前: PentiumIII 600MHz, Alpha 1000MHz 处理机主频:1.2ns,门延迟 < 0.1ns 器件速度与指令执行时间 40多年来,器件速度提高小于104;指令执行加快108 系统结构和组成技术的作用 器件速度的提高最慢,已经没有太大潜力 处理机主频提高的速度已经减缓 指令执行速度的提高基本保持不变null 4. 器件发展对设计方法的影响 计算机组成技术下移 原来只有在巨型机、大型机中采用的技术,已经用到微型机中 先行(Lookahead)、超标量、超流水线、Cache、多体交叉 计算机设计方法下移 第1代计算机,几乎全部由硬件人员设计null 第2、3、4代,由应用、软件、硬件和器件人员共同设计 将来:除器件设计之外,主要是软件设计 逻辑设计方法改变 过去逻辑设计很重要,尽量节省每一个芯片,每一个门 目前的设计主要考虑:了解市场,尽量选择通用芯片、标准芯片;结构化设计,规整、易读、易诊断null1.4.3 应用对系统结构发展的影响 1. 应用需求 今后10年,需要专门为以下领域设计高效率的系统结构: 高结构化的数值计算:气象模型、流体流动、有限元分析。 非结构化的数值计算:蒙特卡洛模拟、稀疏矩阵。 实时多因素问题:语音识别、图象处理、计算机视觉。 大存储器容量和输入输出密集的问题:数据库系统、事务处理系统。 图形学和设计系统:计算机辅助设计。 人工智能:面向知识的系统、推理系统。null 2. 三个时期 通用计算机:主要是通用科学计算 专用计算机:科学计算、事务处理、实时 控制 高性能通用机:满足多种需求 null3. 两个发展趋势 维持价格不变,利用VLSI技术等,提高性能 普通PC微处理器芯片2000元,但性能提高很快 性能基本不变,价格迅速下降 一般先推出中间机型,然后分别向高端和低端两个方向发展;例如:PentiumII,80486等 4. 三种设计思想 最高性能价格比:商用机。主要发展方向null最高性能:国家安全需要,科技发展需要 银河3… 最低价格:家用学习机等 1.4.4 算法对系统结构的影响 在多个层次上,算法影响着系统结构 快速乘法、除法、开平方等的实现 Tomasulo算法提高指令级并行性 多线程系统null消除名字相关、数据相关、控制相关的算法 有些应用问题,如果算法上有突破,不需要高性能的系统结构,而在普通的系统上就能得到解决。 许多算法还有改进的余地,通过算法的研究能够大大提高系统的性能。 应用程序设计者只有了解系统结构,才能设计出高效率的程序。 系统结构设计者应该研究一类算法,设计一种系统结构,使所有这类问题在此结构上都能很好解决。第一章 基本概念第一章 基本概念1.1 计算机系统结构的定义 1.2 计算机系统的评价标准 1.3 计算机系统的设计方法 1.4 计算机系统结构的发展 1.5 计算机系统的分类null本 章 重 点 1. 计算机系统结构的定义及研究对象 2. 计算机系统的层次结构 3. 评价计算机系统的常用方法 4. 冯 · 诺依曼结构及其发展 5. 透明性、系列机、兼容性、模拟与仿真等基本概念null 6. 了解计算机系统的分类方法
/
本文档为【系统结构chpt1】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索