CAE即計(jì)算機(jī)輔助工程設(shè)計(jì),自二十世紀(jì)六十年代以來(lái)CAE技術(shù)得到飛速發(fā)展,其原動(dòng)力是不斷增長(zhǎng)的工業(yè)需求,其中航天航空、能源動(dòng)力等領(lǐng)域是其發(fā)展的強(qiáng)大的推動(dòng)力。目前在航空、航天、能源動(dòng)力等工業(yè)領(lǐng)域,利用CAE進(jìn)行反復(fù)設(shè)計(jì)、分析、優(yōu)化已成為標(biāo)準(zhǔn)的必經(jīng)步驟和手段。如大型復(fù)雜飛行器結(jié)構(gòu)的流-固耦合計(jì)算,涉及計(jì)算空氣動(dòng)力學(xué)、計(jì)算燃燒學(xué)、計(jì)算傳熱學(xué)、計(jì)算結(jié)構(gòu)力學(xué)等眾多學(xué)科。
CAE背景知識(shí)
CAE主要分為建模,求解和后處理三個(gè)步驟,其中建模和后處理通常是在工作站中進(jìn)行的,而CAE的核心即求解過(guò)程,需要占用大量的CPU、內(nèi)存資源以及存儲(chǔ)空間,通常要在高性能計(jì)算機(jī)上完成。常用的CAE軟件主要有:Fluent,CFX,CFD-Fastran/ACE+,Ansys,Abaqus,MSC Nastran,LS-Dyna等。
CAE應(yīng)用程序基本可以分成兩大類(lèi),一類(lèi)是以Ansys,Abaqus以及Nastran等結(jié)構(gòu)分析軟件為代表的共享內(nèi)存應(yīng)用程序,這類(lèi)應(yīng)用程序的單個(gè)作業(yè)時(shí)對(duì)內(nèi)存和存儲(chǔ)I/O 的需求量非常大,并且通常在計(jì)算過(guò)程中,會(huì)產(chǎn)生大量臨時(shí)存放但對(duì)性能需求很高的本地交換文件(Scratch),對(duì)于這一塊的性能優(yōu)化,可以起到事半功倍的效果,否則,用戶(hù)所購(gòu)買(mǎi)的昂貴的cpu/內(nèi)存的效能也會(huì)大打折扣;另一類(lèi)則是以Fluent、CFX、CFD-Fastran、ACE+等CFD軟件和Ls-Dyna、Pam-Crash等顯示結(jié)構(gòu)分析軟件為代表的分布式內(nèi)存應(yīng)用程序,該類(lèi)應(yīng)用程序并行效果好,對(duì)內(nèi)存的需求沒(méi)有共享內(nèi)存類(lèi)型的應(yīng)用程序大,而且對(duì)本地交換硬盤(pán)性能要求不高。曙光公司CAE領(lǐng)域的專(zhuān)業(yè)工程師針對(duì)這兩大類(lèi)應(yīng)用程序詳細(xì)分析了其特點(diǎn),并且和國(guó)內(nèi)知名ISV進(jìn)行了大量的聯(lián)合測(cè)試,結(jié)合廣大曙光用戶(hù)反饋的寶貴使用經(jīng)驗(yàn),推出了CAE高性能計(jì)算平臺(tái)解決方案。
TC2600刀片+A950 SMP完美組合,滿足各類(lèi)應(yīng)用程序需求
曙光公司提出了基于刀片服務(wù)器的CAE高性能計(jì)算平臺(tái)設(shè)計(jì)方案,該方案總共包括6個(gè)部分:50節(jié)點(diǎn)的TC2600刀片機(jī)群、2臺(tái)A950r-F SMP小型機(jī)服務(wù)器、2臺(tái)A620r-F IO節(jié)點(diǎn)、SAN存儲(chǔ)網(wǎng)絡(luò)、IP SAN存儲(chǔ)網(wǎng)絡(luò)以及管理節(jié)點(diǎn)和圖形工作站區(qū)域等。
曙光CAE高性能計(jì)算平臺(tái)方案示意圖
曙光CAE高性能計(jì)算平臺(tái)方案將TC2600刀片和A950r-F SMP完美組合,可同時(shí)滿足各類(lèi)應(yīng)用程序需求。曙光刀片式服務(wù)器TC2600是為了突破計(jì)算機(jī)系統(tǒng)規(guī)模增加而效能降低的計(jì)算機(jī)發(fā)展瓶頸而設(shè)計(jì)推出的。它采用超高密的刀片式服務(wù)器架構(gòu),內(nèi)置******網(wǎng)絡(luò)交換系統(tǒng),減少網(wǎng)絡(luò)延遲;******的系統(tǒng)處理器擴(kuò)充能力,******可支持20顆AMD Opteron雙核處理器;******的散熱設(shè)計(jì),突破1U機(jī)架服務(wù)器空間設(shè)計(jì)極限,實(shí)現(xiàn)了7U 10片的超高密系統(tǒng)設(shè)計(jì);通過(guò)系統(tǒng)的整體設(shè)計(jì),減少不必要的功耗,有效降低整體系統(tǒng)功耗;同時(shí)引入了人性化的設(shè)計(jì)理念,處處體現(xiàn)以人為本的設(shè)計(jì)思想,是易管理、易維護(hù)、高可用的新一代服務(wù)器產(chǎn)品。TC2600是曙光人在服務(wù)器領(lǐng)域長(zhǎng)期致力計(jì)算機(jī)技術(shù)研究的又一成功技術(shù)結(jié)晶。
整合高速網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì):曙光TC2600刀片式服務(wù)器內(nèi)部集成20Gb/s高速I(mǎi)nfiniband交換網(wǎng)絡(luò),整合了全線速以太網(wǎng)交換機(jī)。同時(shí)可選的IOE擴(kuò)展系統(tǒng)可以使用戶(hù)將工業(yè)標(biāo)準(zhǔn)部件如HBA卡、Raid卡以及Infiniband網(wǎng)絡(luò)等集成到刀片服務(wù)器系統(tǒng)中,而不必像購(gòu)買(mǎi)其他品牌刀片服務(wù)器時(shí)遇到的需要花費(fèi)高額費(fèi)用去購(gòu)買(mǎi)硬件廠商的專(zhuān)用部件。
整合KVM Over-On-IP系統(tǒng):為減少鍵盤(pán)、鼠標(biāo)和顯示器纜線管理的困擾,曙光將KVM Switch技術(shù)整合進(jìn)TC2600服務(wù)器系統(tǒng),可使10個(gè)子系統(tǒng)共享一套設(shè)備,而系統(tǒng)與系統(tǒng)間可透過(guò)單一纜線連接,可使多套TC2600服務(wù)器僅以一條纜線共享一套KVM裝置,并可以通過(guò)遠(yuǎn)程管理服務(wù)器系統(tǒng)。
高可靠的產(chǎn)品設(shè)計(jì):曙光TC2600刀片式服務(wù)器采用全冗余結(jié)構(gòu)設(shè)計(jì),可以極大的保障電源系統(tǒng)、散熱系統(tǒng)、存儲(chǔ)系統(tǒng)等的高可用性,提高了整體系統(tǒng)的穩(wěn)定性。同時(shí)TC2600還提供對(duì)所有部件監(jiān)控的系統(tǒng)管理機(jī)制,如組件的狀態(tài)是否正常,操作電壓是否正常,系統(tǒng)散熱是否正常,溫度是否偏高等等。
******的管理軟件:曙光TC2600配備了強(qiáng)大的管理軟件系統(tǒng),并支持基于IPMI的遠(yuǎn)程管理,用戶(hù)可以通過(guò)RJ45網(wǎng)絡(luò)管理端口連接到曙光TC2600刀片服務(wù)器系統(tǒng)。如下圖所示,界面顯示了每個(gè)TC2600刀片機(jī)箱的主要部件狀態(tài)情況,通過(guò)點(diǎn)擊圖標(biāo)便可以查詢(xún)每個(gè)部件的詳細(xì)信息。
曙光TC2600刀片管理界面
曙光A950r-F SMP小型機(jī)是基于X86結(jié)構(gòu)的服務(wù)器,在繼承傳統(tǒng)小型機(jī)優(yōu)勢(shì)的同時(shí),有效地解決了傳統(tǒng)小型機(jī)無(wú)法克服的如價(jià)格昂貴,可購(gòu)買(mǎi)CPU數(shù)量有限,無(wú)法用于大規(guī)模優(yōu)化設(shè)計(jì)任務(wù),與X86結(jié)構(gòu)集群服務(wù)器操作系統(tǒng)、應(yīng)用軟件無(wú)法兼容等弊端。
曙光TC2600刀片服務(wù)器特別適合運(yùn)行Fluent、CFX、Ls-Dyna、Pam-Crash等分布式內(nèi)存應(yīng)用程序,曙光A950r-F SMP小型機(jī)則特別適合運(yùn)行Ansys,Abaqus、Nastran等共享內(nèi)存應(yīng)用程序,且兩者均采用X86-64平臺(tái),屬同構(gòu)系統(tǒng),可共享軟件資源和數(shù)據(jù)存儲(chǔ)空間,資源調(diào)度簡(jiǎn)單,節(jié)點(diǎn)配比可靈活調(diào)整,二者有機(jī)結(jié)合,幾乎可以適用各種應(yīng)用需求,能夠有效降低用戶(hù)總體擁有成本。
曙光CAE:成功突破系統(tǒng)IO瓶頸
曙光針對(duì)分布式機(jī)群環(huán)境和SMP計(jì)算環(huán)境設(shè)計(jì)了一整套SAN存儲(chǔ)網(wǎng)絡(luò)和IP SAN存儲(chǔ)網(wǎng)絡(luò)解決方案。
IO節(jié)點(diǎn)采用2臺(tái)A620r-F,配置2顆2000系列雙核AMD處理器和16GB DDR2 內(nèi)存,通過(guò)配置4Gb/s的光纖HBA卡連接到SAN存儲(chǔ)網(wǎng)絡(luò)提高IO性能。對(duì)于TC2600刀片機(jī)群系統(tǒng),每個(gè)計(jì)算節(jié)點(diǎn)通過(guò)NFS over SDP方式掛載(mount)兩個(gè)IO節(jié)點(diǎn)的存儲(chǔ)空間;對(duì)于兩個(gè)管理登陸節(jié)點(diǎn),同樣通過(guò)NFS over SDP方式掛載(mount)兩個(gè)IO節(jié)點(diǎn)的磁盤(pán)分區(qū),并將用戶(hù)分成兩類(lèi)后把主目錄放在共享分區(qū)中以減輕文件系統(tǒng)壓力,同樣的,應(yīng)用軟件也分成兩類(lèi)安裝到兩個(gè)共享分區(qū)中。
對(duì)于SMP計(jì)算節(jié)點(diǎn),由于對(duì)存儲(chǔ)性能要求較高,******不要采用NFS文件系統(tǒng),而是采用直接接入SAN網(wǎng)絡(luò)的方式。Nastran等結(jié)構(gòu)類(lèi)計(jì)算程序安裝在兩臺(tái)SMP節(jié)點(diǎn)上,計(jì)算中間數(shù)據(jù)和結(jié)果數(shù)據(jù)存放在本地掛載的SAN空間,實(shí)際作業(yè)調(diào)度時(shí)應(yīng)避免跨節(jié)點(diǎn)執(zhí)行應(yīng)用程序。此外,SMP節(jié)點(diǎn)還需要掛載IO節(jié)點(diǎn)NFS數(shù)據(jù)繼承用戶(hù)主目錄信息。
優(yōu)化的網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì),高速計(jì)算的有力保障
根據(jù)上面的分析,我們建議高性能計(jì)算平臺(tái)采用20Gb/s的Infiniband網(wǎng)絡(luò)來(lái)構(gòu)建,并將管理IO節(jié)點(diǎn)連入高速網(wǎng)絡(luò),通過(guò)采用NFS over Infiniband實(shí)現(xiàn)全部計(jì)算節(jié)點(diǎn)的數(shù)據(jù)共享。
曙光公司與中科院某研究所對(duì)******版Fluent的性能進(jìn)行了測(cè)試,算例網(wǎng)格單元為90萬(wàn)左右,采用湍流雙方程模型和PDF燃燒模型,測(cè)試硬件為8個(gè)雙路AMD雙核的節(jié)點(diǎn),網(wǎng)絡(luò)為千兆網(wǎng)和Infiniband網(wǎng)絡(luò)。測(cè)試結(jié)果表明千兆網(wǎng)環(huán)境下16CPU核心內(nèi)可以保持較好的性能加速,而32CPU核心時(shí)由于傳遞的消息量劇增至上萬(wàn)個(gè)每秒,千兆網(wǎng)絡(luò)已經(jīng)無(wú)法繼續(xù)提升性能,而此時(shí)Infiniband網(wǎng)絡(luò)則可以繼續(xù)保持線性加速。
曙光公司和Qlogic公司進(jìn)行了相關(guān)性能測(cè)試,測(cè)試結(jié)果表明基于Infiniband的NFS可以大幅提高IO能力,尤其是并發(fā)的IO能力,進(jìn)而可以提高計(jì)算效率。
DCAS——界面友好,功能強(qiáng)大的管理系統(tǒng)
DCAS是曙光專(zhuān)為百萬(wàn)億次高性能計(jì)算機(jī)系統(tǒng)開(kāi)發(fā)集群管理套件,用于對(duì)集群系統(tǒng)進(jìn)行統(tǒng)一管理,包含了新一代的作業(yè)調(diào)度系統(tǒng)——DCJM。它采用基于IE瀏覽器的圖形化方式來(lái)實(shí)現(xiàn)對(duì)集群的統(tǒng)一管理,包括系統(tǒng)安裝部署、網(wǎng)絡(luò)配置、作業(yè)管理、安全配置、用戶(hù)管理、進(jìn)程以及服務(wù)管理和交互式并行命令執(zhí)行系統(tǒng)等,配置簡(jiǎn)單、使用方便。除了同樣具有較高的可用性和可管理性,可以滿足絕大部分應(yīng)用場(chǎng)合的需要外,DCJM還具有中英文兩種語(yǔ)言可選,更符合國(guó)人的使用習(xí)慣,以及高性?xún)r(jià)比的特點(diǎn)。
曙光DCAS操作界面
以上為曙光CAE高性能計(jì)算平臺(tái)的一個(gè)參考解決方案。針對(duì)每一個(gè)用戶(hù),曙光公司將具體分析用戶(hù)的實(shí)際需求,包括計(jì)算規(guī)模、用戶(hù)數(shù)量、算例大小、模型特點(diǎn)以及上文提到的兩類(lèi)程序所占的比例等等信息,在該方案的基礎(chǔ)上進(jìn)行合理修改,并進(jìn)行相關(guān)細(xì)節(jié)的設(shè)計(jì),制定出***適合用戶(hù)的優(yōu)化方案。