如同Intel并不是以CPU起家,而是從存儲器跨足到IC設計,至今成為x86處理器的龍頭。ARM也是一樣,這一切都要從Hermann Hauser和Chris Curry所創立的Cambridge Processor Unit開始說起。
1978年,由物理學家Hermann Hauser和工程師Chris Curry一同在英國劍橋成立了一間公司,公司名稱直接取作Cambridge Processor Unit(CPU),主要從事提供當地電子儀器設備的業務。第一份合約即是為ACE Coin Equipment公司開發一款水果盤,也就是拉霸的游戲機。
隨著時間過去,漸漸地發現原本的硬件設計已不符需求,Acorn想要升級機器內的CPU。當時處理器的發展潮流是由8位元轉向16位元,一開始有考慮使用美國國家半導體以及Motorola新的16位元芯片,但是經過評估后,發現2個缺點。
執行上有點慢,中斷的回應時間太長,而且太貴。
一臺500英鎊的計算機,CPU售價高達100英鎊。
于是只好轉向Intel,要求提供一些80286設計資料以及樣品,但是卻遭到Intel拒絕。這件事情后來直接導致Acorn決定設計自己需要的CPU,由于采用RISC架構的關系,名稱就稱為Acorn RISC Machine(ARM)。
處理器的指令集可簡單分為2種,CISC(complex instruction set computer)以及RISC(reduced instruction set computer)。一開始的處理器都是CISC架構,隨著時間演進,有越來越多的指令集加入。由于當時編譯器的技術并不純熟,程序都會直接以機器碼或是匯編語言寫成,為了減少程序設計師的設計時間,逐漸開發出單一指令,復雜操作的程序碼,設計師只需寫下簡單的指令,再交由CPU去執行。但是后來有人發現,整個指令集中,只有約20%的指令常常會被使用到,約占整個程序的80%;剩余80%的指令,只占整個程序的20%。于是1979年美國加州大學柏克萊分校的David Patterson教授提出了RISC的想法,主張硬件應該專心加速常用的指令,較為復雜的指令則利用常用的指令去組合。
RISC的優點列舉如下:
指令長度固定,方便CPU譯碼,簡化譯碼器設計。
盡量在CPU的暫存器(最快的存儲器元件)里操作,避免額外的讀取與載入時間。
由于指令長度固定,更能受益于執行線路管線化(pipeline)后所帶來的效能提升。
處理器簡化,晶體管數量少,易于提升運作時脈。比起同時脈的CISC處理器,耗電量較低。
RISC的缺點列舉如下:
復雜指令需要由許多的小指令去完成,程序變得比較大,存儲器也占用比較多,這在硬盤昂貴,常常使用磁帶儲存的時代來說,是個大缺點。
程序變長,代表著讀取工作變得繁重,需要更多的時間將指令從存儲器載入至處理器內。
這里也提供一個小小的概念,CISC是在RISC出現之后才出現的相對名詞,并不是從一開始就有CISC、RISC這2種處理器架構。
3. 首顆RISC架構CPU
于1985年,Acorn設計出了第一代處理器芯片,稱為ARM1,由Sophie Wilson設計出類似于6502的指令集,因為當時Acorn為英國國家廣播公司BBC所制造的BBC Micro計算機采用MOS 6502處理器,使用類似的指令集有助于縮短開發時間以及技術轉移。Steve Furber則是負責設計硬件實作。ARM1以第二顆處理器的身分,安裝在BBC Micro內部。
ARM1在晶圓設計部分,規格為3微米制程、2層金屬層、總計2萬5千個晶體管、6MHz運作時脈、消耗功率120mW、芯片面積50mm2。當時Intel的80286使用1.5微米制程、13萬4千個晶體管、6~12Mhz運作時脈,同時這2款處理器都不包含快取。
同年10月,Intel發表80386處理器,與之相比,ARM1顯得功能簡單、能源消耗較少,在效能上不是80386的對手。這一差異導致ARM系列處理器往后的設計路線明顯與Intel不同,Intel持續邁向x86高效能設計,ARM專注于低成本、低功耗的研發
4. 漸入佳境、架構變更
真正商業化的處理器為ARM2,ARM1處理器架構為ARMv1,到了ARM2更新到ARMv2,這一代新增乘法器在核心之中。ARMv2的進階版ARMv2a則是多包了存儲器管理核心、繪圖及I/O處理器。接下來的ARM3,處理器架構ARMv2a,是第一次于CPU里內建了4KB快取。1990年,Acorn開始與蘋果計算機合作發展新一代的ARM芯片,特地還為此設立了一間公司,稱為Advanced RISC Machines公司。最初財務吃緊,辦公室僅為一個谷倉,成員也僅有12人。原本ARM所代表的Acorn RISC Machine,也在此時更換為Advanced RISC Machine。
1991年發展出的ARM6,處理器架構更新為ARMv3,主要擴展存儲器定址線。之前的ARM產品都只有26bit的存儲器定址線,最大可支援64MB的存儲器。從ARM6開始,完整支援32位元存儲器定址,最大支援到4GB。在此離題一下,ARM6處理器家族下的ARM610處理器,曾經用在蘋果計算機的Newton Message Pad上頭,Newton也被視為現今PDA與Smart Phone的始祖。
5. 開始大賣的ARM7
1993年推出的ARM7延續著ARMv3核心,但是由于制程的進步,快取加大至8KB,時脈也一舉拉高至40MHz。
ARM7TDMI(處理器架構ARMv4T),除了原本的32位元指令集外,還新增了Thumb,也就是精簡過的16位元指令集,讓編譯出來的程序可以縮小程序碼體積,官方表示與標準的ARM指令集相比,可以縮小35%的程序碼體積,又能享受32位元架構所帶來的效能提升。Thumb指令在執行時會通過處理器內一個叫做Thumb譯碼器的東西,及時解壓成32位元ARM指令,同時也可受惠于32bit的存儲器總線,加速指令與資料的載入。
但之后的ARM8家族和Digital Equipment Corporation向ARM買授權自行制作的處理器StrongARM,都不支援Thumb。
ARM7EJ的處理器架構為ARMv5TEJ,直接加入稱為Jazelle DBX的運算電路,能夠以硬件加速大部分的Java bytecode,提升Java程序的執行效率;同時也新增適合處理DSP的指令,如飽和運算(saturated arithmetic)可以加速多媒體應用
5.1. Java的執行方式
程序設計師以Java語言寫出程序后,經過編譯器編譯成Java bytecode檔,執行時便把這個Java bytecode丟入一個稱作JVM(Java Virtual Machine)的模擬器里執行,在各種平臺上都有不同的JVM,所以編譯過后的Java bytecode能夠跨平臺執行。
正常以二進制表示為11111111(255)+00000001(1)=100000000(256),但是一個8bit的加法器,當輸入255+1的指令后,計算出來的結果將會是0。因為處理器只有8bit,最高位會產生數值溢位,實際交由8bit加法器運算將變成11111111(255)+00000001(1)=00000000(0)。但是當處理器支援飽和運算后,255+1的結果將變成255,經計算后的數值資料只會頂天立地(該資料類型的最大值或最小值),不會產生overflow或是underflow。
6. 更換為哈佛架構
ARM9處理器家族內部處理器架構為ARMv5TE,導入了相當重要的架構更新,以往ARM和x86處理器都是采用馮?紐曼架構,意即中央處理器和儲存裝置是分開的,中央處理器到儲存裝置中讀取一段程序碼執行,而不同程序碼可以造成不同的執行結果。相較于古早時代的計算機,一旦要執行不同的程序碼時,必須更動硬件設計,重新接線。約翰?馮?紐曼在1945年的論文中提出這個處理單元和儲存單元分離的概念,對于后來計算機發展有相當重大的影響。
哈佛架構則是馮?紐曼架構的延伸,哈佛架構更進一步定義了程序和資料是由兩個獨立的空間儲存,同時也有兩個存儲器控制單元分別操作。讀取程序后譯碼便得到資料位址,再到資料存儲器中讀取資料。此種架構好處在于指令和資料的存儲器操作能夠同時進行,當處理器在運算資料時,便可以先行擷取下一道指令。
7. 智能型手機應用大爆發
被蘋果相中的ARMv6
在2007年的Macworld發生了一件大事,劃時代的iPhone誕生了,直覺的使用者操作立刻席卷全球,App Store的商業模式解決以往PDA程序太少的窘況。而第一代的iPhone和其后的iPhone 3G便是采用ARMv6處理器架構,也是第一次讓人感受到,原來ARM可以做到這么好的使用者體驗。
ARMv6架構在2001提出,對應ARM11處理器家族。新增SIMD處理功能,相當適合影片處理加速使用。同時也提出ARM11MPCore,首次將多核心的概念導入ARM處理器中。Thumb指令集也升級到第2代Thumb-2,將原先16bit的指令集部分擴展到32bit,變成同時擁有16bit和32bit指令長度的指令集。
不過這個ARMv6架構有點短命,還沒看到幾顆多核的ARM11處理器(NVIDIA的Tegra即為ARM11MPCore),就被ARM緊接而來的Cortex處理器給蓋過去。
在ARM11之后的處理器家族,改采Cortex命名,并針對高、中、低階分別劃分為A、R、M三大處理器。象是高階手機用的Coretex-A系列,或者是微控制器所使用的Coretex-M系列,需要較高性能、或是實時處理的系統則改用Coretex-R系列。
除了Cortex-M0、Cortex-M1為ARMv6-M,馮?紐曼架構之外,其他Cortex的處理器架構更新到ARMv7,一樣由高至低分成ARMv7-A、ARMv7-R、ARMv7-M三種,其中ARMv7-M不支援最原始的ARM指令集,僅支援16bit的Thumb指令集,卻加入NVIC(Nested Vectored Interrupt Controller),提供更快的中斷處理、還有負責CPU在深層睡眠時的中斷處理WIC(Wake-up Interrupt Controller)。
Cortex-A(ARMv7-A)和 Coretex-R(ARMv7-R)2種架構基本上是相同的,都支援更新的進階型SIMD處理,稱為NEON,ARM宣稱效能至少是上一代處理器架構ARMv6的2倍。NVIDIA的Tegra 2處理器較為特殊,雖是采用Cortex-A的CPU,但沒有包含NEON,反而使用自家的技術,內建專門的音訊處理器和視訊處理器。
Cortex-A和 Coretex-R最大的差異在于存儲器管理單元部分,Cortex-A使用MMU(memory management unit)、Cortex-R使用MPU(memory protection unit)。前者的存儲器管理單元提供虛擬存儲器的支援,后者只能運作在存儲器保護模式。
7.2. 存儲器管理:real、protected、virtual
最初的CPU存儲器管理只有real mode,在這個模式下,所有程序都可以直接存取存儲器、I/O、計算機附加的硬件。但是在這種模式下的存儲器空間少(1MB),程序無法多工(如果2個程序同時喂給打印機資料,印出來會是什么鬼啊!)。到了80286處理器后,導入了protected mode,將作業系統和程序的存儲器區塊分開,如果程序想要存取存儲器,必須經由作業系統中介。從而提升系統安全性和穩定性。virtual memory則是在protected mode下的產物,允許硬盤之類非實體存儲器的裝置能夠模擬成存儲器。邏輯上來說,可以在不增加硬件花費的情況下,直接加大實體存儲器容量。但硬盤的存取速度卻遠不如實體存儲器,目前SATA 6Gb/s界面頻寬為6Gb/s,DDR3-1600雙通道的界面頻寬卻有25.6GB/s,兩者相差約43倍。
ARM一開始與蘋果、VLSI所投資的資金下成立,初期營運狀況不佳,而英國當地也沒有什么晶圓廠,同時ARM也決心將自行發展的技術成為業界的標準。在這些條件的加總之下,ARM選擇了以IP授權的方式經營。
IP(intellectual property智慧財產權)授權,即是把自己所創造的東西,以某種方式授權給其他人利用。例如我們在行人穿越線兩旁所看到的小綠人走路燈號,當初的設計者便可以把此種想法授權給其它地區采用,借以收取授權費。而ARM也是透過此種方式營利,除了一開始的授權費之外,每賣出一顆芯片還需要付版權費。另一家較為知名采用IP授權營利的公司為MIPS,其產品常常可以在網絡設備中見到。
這種授權方式使得每家公司都可以依據自身需求,設計出客制化芯片。比如說產品并不需要繪圖的部分,便可以把繪圖IP核心拿掉,亦或者也可以在芯片里塞入其他家廠商做出的IP核心,讓功能更多元。相較于Intel近年強迫中獎的顯示核心,ARM的作法彈性許多。
如同 x86邁向x64一般,ARM也需要更大的總線來增加效能。在下一代的ARMv8架構中,也將加入64bit的支援,但是一切都還在討論中。但是現在也不急,暫時還有個Coretex-A15可以拿來填一下發展時程,至于會增加哪些指令集則尚未確定。
ARMv8處理器將有2個執行狀態,AArch32和AArch64。前者將完全兼容ARMv7的指令集及架構,將原封不動地移植到ARMv8身上。后者AArch64則是全新的指令集與處理器架構。
ARM目前也在積極建立并等待64bit的生態鏈完備,就如同x86轉換到x64一般,AMD的64位元處理器早在2003年問世,但是等到64位元作業系統、程序真正普及,卻也只是近幾年的事情而已。更別說一般人計算機C槽里那個Program Files x86資料夾,放在里面的程序應該比Program Files還要多。
最近開始身價上漲的硬件加解密功能,ARM也預計加入AES加解密的指令,利用進階SIMD的128bit暫存器來實作,SHA-1和SHA-256也在支援中。