酷睿2的十年!一场Intel与AMD的存亡博弈

转载
2024-05-16 20:50
297
间隔Intel闻名的64bit处理赏罚器Core 2 Duo(酷睿2)宣布已经整整十年,从遍及型的E6400到旗舰级的Core2 Extreme X6800,这一系列由Intel 65nm工艺打造的处理赏罚器中有太多的经典产物。可以说,酷睿2是桌面平台处理赏罚器的转折点,引用Anandtech昔时的评价就是:这是

间隔Intel闻名的64bIT处理赏罚器Core 2 Duo(酷睿2)宣布已经整整十年,从遍及型的E6400到旗舰级的Core2 Extreme X6800,这一系列由Intel 65nm工艺打造的处理赏罚器中有太多的经典产物。可以说,酷睿2是桌面平台处理赏罚器的转折点,引用Anandtech昔时的评价就是:“这是半导体有史以来最振奋民气的产物”。

酷睿2的宣布大幅改变了处理赏罚器的国界,已往Netburst家属以Northwood和Prescott焦点为首的Pentium4和Pentium D处理赏罚器一味飙主频的蹊径已经走火入魔,半导体的成长偏向频频偏离服从,带来了庞大的发烧和功耗题目,在90nm碰着严峻瓶颈后(进入90nm工艺后,业界发明之前摩尔定律不停的工艺晋升,功耗降落的纪律失灵了,prescott处理赏罚器由于发烧过大无法按既定蹊径打破4Ghz,乃至激发了散热器大局限换代),敌手AMD的Athlon 64X2处理赏罚器同时在机能和服从加冕为王。

其时的intel被迫做出重大批改,微架构上丢弃了对主频飙升有利的超长流水线计划,引入大量来自Pentium PRO和Pentium M的技能,但并不是仅仅在Yonah的微架构上增进一些新成果可能译码器那么简朴(在十年前盛传酷睿2仅仅是Yonah的加强版)。是时辰往返首一下酷睿2带来的震撼了。

十年前宣布的Conroe有如下五款产物:

酷睿2的十年!一场Intel与AMD的存亡博弈

旗舰产物X6800主频高达2.93Ghz,支持更高的前端总线频率,芯单方面积143平方毫米,比前代Pentium D的162平方毫米更小,因为不集成GPU,十年前的处理赏罚器比本日的产物小得多。

酷睿2的十年!一场Intel与AMD的存亡博弈

昔时X6800的价值为999美元,跟本日8核的Core i7-5960X相等,而E6400则为224美元,和Core i5-6600同等,故意思的是,不知道是不是为了快点跟昨天说再会,intel把昨天照旧次旗舰产物的3.4Ghz的Pentium D 945砍到比E6300还低的163美元,这是intel桌面处理赏罚器汗青上唯一无二的变乱。

统统尽在预取(Prefetch)

CPU执行的指令来自译码器,数据取自高速缓存(Cache),在抱负情形中,数据和指令都可以从底层缓存中获取(一级缓存,L1 Cache),耽误极低,不存在瓶颈。实际情形可没那么乐观,耽误完端赖猜,焦点猜测所需数据而且在用到它们之前放入底层缓存的手段抉择了实际情形的耽误,这项技能就是预取。

酷睿2的十年!一场Intel与AMD的存亡博弈

酷睿2微架构增进了多重预取,这是已往在斲丧级处理赏罚器中从没呈现过的,而且改造了预取算法,每个焦点有两个数据和一个指令预取,加上二级缓存的两个预取,在双核酷睿2中总共有8个预取来维持处理赏罚器高效执行。

另一方面,预取照旧为缓存索引做查找标签,数据预取这么做是为了停止措施运行的时辰呈现高耽误,数据预取是通过存储端口(store port)举办缓存索引,由于原则上载入操纵(Load)的频度是存储操纵(Store)的两倍,intel在酷睿2中奇妙的把存储端口这一相对空闲给操作起来。

缓存,多多益善

分开了低耽误数据和指令存取,快速焦点将会一文不值,以是最贵的SRAM作为一级缓存被用在离执行单位最近的位置,这里寸土寸金,限定了一级缓存的容量,以是CPU中的高速缓存都被计划成嵌套的布局,容量大得多的二级缓存(L2 Cache)被放在外围,一级缓存不掷中(Cache Miss)就获得二级缓存乃至内存中查找数据,这些操纵会带来耽误,影响执行速率。因此,缓存容量,多多益善,酷睿2拥有比前代产物以及竞争敌手都要多的缓存。

酷睿2的十年!一场Intel与AMD的存亡博弈

酷睿2的缓存设谋略前代Pentium4的变革表此刻一级缓存大幅增进到32KB,,耽误低落到3个时钟周期,二级缓存则为双核共享的4MB,耽误低落到12~14时钟周期。敌手AMD的K8固然有更大容量的一级缓存,内置内存节制器的计划对比Pentium4有较大上风,但带宽偏小,二级缓存容量也有明明差距,实测表白,酷睿2一级缓存带宽为K8的2倍,二级缓存则到达2.5倍。

译码,四发射与融合

译码器的浸染是对指令举办解码,而且将这些长度为1~15字节不等的指令翻译成类RISC的定长指令便于执行,在酷睿2中,称之为微操纵(micro-op)。预取共同译码是今世X86处理赏罚器计划的焦点,酷睿2中有四组译码器,个中三组为简朴译码器,一组是伟大译码器,前者能将指令翻译成一条微操纵,功耗更低晶体管更少,尔后者则可以转换出四条(长指令的利器)。这就是俗称的四发射,酷睿2是X86桌面处理赏罚器中引领了四发射的潮水。

另外,酷睿2插手了宏操纵融合(Macro-op Fusion),这样两条通例X86指令(可能宏操纵)会被同时译码以增进并发,同时应承一条微指令包括两条计较机指令,这使得四个译码器单周期最多可以理会5条指令,相等于增进了译码带宽,这样也低落了乱序执行(OoO)所必要的缓冲巨细。在其时,经典的X86措施, 20%的宏操纵可以被这样融合,由此可以带来11%的机能晋升。

#p#分页问题#e#

另一项出格的技能是指令直接跟内存地点融合,在经典的RISC类型中,必要添加寄存器查找内存地点的指令,以是传统上要用到3条微操纵:

酷睿2的十年!一场Intel与AMD的存亡博弈

但从Banias焦点的Pentium M开始,因为有了新技能,表中的前两条微操纵可以被融合,这称为微操纵融合(micro-op fusion),在预译码阶段就辨识出可以融合的宏操纵可以或许晋升并发、低落对缓冲的压力,进步效能,共同SSE/SSE2结果更佳,这是酷睿2压倒AMD K8的首要缘故起因。

酷睿2的十年!一场Intel与AMD的存亡博弈

AMD也有微操纵跟宏操纵,不外界说跟Intel是差异的,由于AMD的译码器是三组伟大译码器,通过直连路径(Direct PATH)可以像简朴译码器那样快速处理赏罚,通过矢量路径(Vector Path)就是伟大译码器模式,差距在于,AMD没有宏操纵融合,在执行SSE指令的时辰必要更多的时钟周期,加上译码器数目3对4,译码并发3对5,在前端曾经风物无穷的AMD K8已经输了一截。

乱序执行OOOE

酷睿2的十年!一场Intel与AMD的存亡博弈

预取、高速缓存和译码上的全力要通过乱序执行来施展,乱序执行自己的加强靠的是增进执行单位和乱序记录缓存来实现。

比拟AMD K8,酷睿2的乱序执行的上风表此刻三点上,一是记录缓存96 ENTRY VS 72 ENTRY,酷睿2的前端有更高的并发,记录缓存也有4:3的上风。二是调治打点方面临比AMD拆分为24-ENTRY整型跟36-entry浮点,酷睿2为同一的32entry保存站,三是SSE执行单位数目到达三个,可以或许最大化操作到宏操纵融合的上风,其它,酷睿2的SSE执行单位是128bit位宽,AMD只有64bit,在执行128bit SSE指令时辰酷睿2有压倒性上风。

酷睿2的十年!一场Intel与AMD的存亡博弈

存取也猖獗

酷睿2强盛的前端跟乱序执行带来的是更大的数据吞吐需求,Intel发明假如应承下一次载入(Load)在存储(Store)之前操纵,就可以实现载入提速和低落耽误,其风险在于,存在必要载入尚待存储数据的也许(约莫1~2%的几率),这时辰就必要挥霍20个时钟周期守候从头载入,为此,在酷睿2中插手猜测器可以停止这一场景呈现。

酷睿2的十年!一场Intel与AMD的存亡博弈

猜测器(Predictor)应承在数据存储之前载入,同时斗嘴检测逻辑(Conflict logic)会扫描乱序缓冲区(Memory reorder Buffer MOB)查找题目,一旦发明当即执行重载入,在最坏的环境下机能会有所丧失。按照Intel的说法机能晋升幅度可以到达40%,现实执行情形中也能有10~20%的增速,在整型操纵中上风尤为明明。

超线程不再,也没有内置内存节制器

十年后的本日,超线程(HT)和内置内存节制器(IMC)是X86处理赏罚器的最根基属性,在其时,前任Pentium4引领过超线程的潮水,敌手AMD则率先将内置内存节制器引入了PC规模,但酷睿2一个都没有。

同步超线程技能(Simultaneous Hyper-Threading SMT)必要在高速缓存中开出更大的缓冲区来满意多出一倍的资源的要求,酷睿2引领期间的前端计划已经是对其时工艺的极限的挑衅,超线程其实是心有余而力不敷,内置内存节制器AMD靠的是SOI工艺的的天赋上风实现,一旦工艺应承,超线程天然会返来,内置内存节制器也不是题目,其后的nehalem不就是这么做的么?(原文以超线程上风表此刻处事器上和有FB-DIMM内存为由洗地来由并不充实)

廉颇老矣尚能饭否?

在2006年,纵然是最弱的E6300,都可以在许多测试中轻松放倒之前的旗舰产物Pentium XE 965,中坚产物E6600则乐成击败AMD最新的旗舰产物FX-62,而旗舰产物X6800更是比E6300强了近一半。

酷睿2的十年!一场Intel与AMD的存亡博弈

本日的214美元产物I5-6600 VS昔时同价位的E6400,十年来我们的CPU足足快了一倍,就连入门级产物G1620也垂手可得的克服了E6400,可是不要健忘这是2.13Ghz的E6400跟一群主频靠近4Ghz的产物作比拟,究竟上许多酷睿2用户其后进级到Sandy bridge后就再也没有换代过。

回首十年前酷睿2宣布后发明,在当今的skylake处理赏罚器中仍旧连续了酷睿2的框架:四发射、操纵融合、大容量共享高速缓存等,虽然,跟着工艺的前进,intel在nehalem插手了内存节制器、北桥成果和三级高速缓存,在Sandy Bridge中引入了微操纵融合缓存(micro-op cache)和eDRAM,酷睿2的故事如故没有竣事。

酷睿2的十年!一场Intel与AMD的存亡博弈

#p#分页问题#e#

而谁人在酷睿2期间被一举拿下的敌手AMD在十年间屁滚尿流,K10和bulldozer贫困不绝,险些完全退出了中高端规模的竞争,直到最近才借着新焦点Zen喊出“我返来了”,然而细心看Zen的PPT,如故没有看到相同昔时酷睿2那样石破惊天的变革,以是,AMD大概能重返中端,但论挑衅好像还很远。

瞻望将来 后10至15年的半导体蹊径图

在conroe十周年眷念的日子里正值国际半导体技能蹊径图陈诉(International Technology Roadmap for Semiconductors  ITRS)出炉,这份由环球各大洲的半导体家产的专家配合草拟的长达500页的双年陈诉,是宽大从颐魅者的重要参考。陈诉从装备调试、工艺集成、射频(RF)、微机电(MEMS)、光刻、封装测试、改进良品率等多方面深入切磋半导体家产的将来。

在已往,陈诉精确的猜测过此刻风行的finfet技能的风行,但也忽视过半导体的许多瓶颈,好比以下这份1993年的陈诉(也就是最早的陈诉):

酷睿2的十年!一场Intel与AMD的存亡博弈

现实的特性线宽的成长外貌逾越了1993年的猜测,2001年就开始的130纳米工艺在猜测中被放到了2004年,而这时辰正是intel撞上了90nm大墙。互连层则落伍不少,猜测中2004年将回收6层互连,现实上2002年AMD斲丧级的Thoroughbred B处理赏罚器就用到了9层铜互连。

功率题目生怕是整个业界的始料未及,2001年40瓦的功耗早已被主频大战抛在脑后,正如本文开头所述,半导体偏离了正轨,让高功耗期间提早到来,经验过谁人期间的玩家都知道,2001年的高端散热器放在2004年基础小菜一碟,由于按照恒久猜测,散热大局限引入热管可以比及2004年,这就是偏离的效果。

至于芯片巨细方面,假如用熟知的CPU、GPU来判定的话1250平方毫米也许是天方夜谭了,事实就算到了本日,14/16nm期间,150亿晶体管,610平方毫米的NVIDIA P100处理赏罚器险些到了认知极限 。但这事实是整个行业的陈诉,就拿图像传感器来说,全幅CIS的尺寸大抵是864平方毫米,业界量产的时刻也正好是2000~2001年,现在,索尼已经可以或许量产33X44幅面的传感器(面积靠近1500平方毫米),以是面积一说相等精确。

空话了这么一长串只是想表达,每一期的陈诉,都是相等有技能含量的存在,值得参考,那么,将来10年~15年会是怎么一个状况呢?

450毫米晶圆和2nm制程

450毫米晶圆(18寸)是十年前就在接头的观念,然而因为这十年间半导体天下被各类障碍搞得团团转,以至于更大的晶圆都被人忘记了,此次ITRS给出了新的时刻表, 2021年的DRAM工艺上会用到450毫米大晶圆,还要等五年。

酷睿2的十年!一场Intel与AMD的存亡博弈

到了2021年,DRAM的焦点面积将缩小到780平方纳米,当今的数字为3480,2021将是最后的finfet(鳍式场效应晶体管),在2030年会看到2nm工艺。

本日的当红小生Finfet尚有5年的成持久,进入7nm的时刻表是2019年,2021年在5nm上终结。让Athlon64大红大紫的SOI工艺(绝缘体上硅)则会在2017年末结,末代天子将是10nm FDSOI,代替Finfet的将是VGAA(vertical gate all-around),2021年登场,估量会在2030年进入2nm制程,这时辰的焦点电压仅为0.4V。制程的将来之路是崎岖的,5nm往后会奈何如故有很大变数。

酷睿2的十年!一场Intel与AMD的存亡博弈

NAND闪存,各人不要慌,不会有什么QLC了,前些年在刚引入TLC NAND(3bit)的时辰业界还在猜测QLC(4bit)的存在,颠末这些年的成长也许业界本身对QLC的可行性已经失去信念,事实TLC已经是毒瘤般的示意,于是ITRS的猜测中完全没有看到QLC的存在,万幸。

酷睿2的十年!一场Intel与AMD的存亡博弈

将来NAND如故得靠3D堆叠来实现扩容,当前单封装密度为三星850EVO上48层堆叠的256Gbit,到了2022年可以到达128层1Tbit,2030年到512层4Tbit,这时辰就会看到64TB的SSD了。

手持平台32核8K表现是将来?

ITRS敌手持平台的猜测是基于当前手机SOC发杀青长的,2016年6核CPU 12核GPU,26.9Gbps内存带宽,4.42瓦功耗的数据现实已经开始偏离服从,从2014年开始手机SOC对先辈工艺的盼愿就遇上了台式机CPU,以至于连年台积电不绝暗示10nm要比intel早,intel也绝不在乎。到2019年大概还能看到18核3.2Ghz,49GPU焦点的怪物,但2024年真能看到3.8Ghz 32核CPU 189核GPU轻松实现8K应用的怪物么?值得猜疑,事实本日的示意都已经是对当前工艺的深度压迫。

酷睿2的十年!一场Intel与AMD的存亡博弈

#p#分页问题#e#

传统意义上的摩尔定律早已灭亡,但在本年的ITRS陈诉中仍旧可以清晰的看到摩尔定律的影子,尤其是那张移动SOC的成长蹊径图,乐观水平堪比没有撞上90nm大墙时辰的intel,这就是所谓的长生吧。

酷睿2的十年!一场Intel与AMD的存亡博弈


评论区
登录 发表评论