CAE即計算機輔助工程設計,自二十世紀六十年代以來CAE技術得到飛速發展,其原動力是不斷增長的工業需求,其中航天航空、能源動力等領域是其發展的強大的推動力。目前在航空、航天、能源動力等工業領域,利用CAE進行反復設計、分析、優化已成為標準的必經步驟和手段。如大型復雜飛行器結構的流-固耦合計算,涉及計算空氣動力學、計算燃燒學、計算傳熱學、計算結構力學等眾多學科。
CAE背景知識
CAE主要分為建模,求解和后處理三個步驟,其中建模和后處理通常是在工作站中進行的,而CAE的核心即求解過程,需要占用大量的CPU、內存資源以及存儲空間,通常要在高性能計算機上完成。常用的CAE軟件主要有:Fluent,CFX,CFD-Fastran/ACE+,Ansys,Abaqus,MSC Nastran,LS-Dyna等。
CAE應用程序基本可以分成兩大類,一類是以Ansys,Abaqus以及Nastran等結構分析軟件為代表的共享內存應用程序,這類應用程序的單個作業時對內存和存儲I/O 的需求量非常大,并且通常在計算過程中,會產生大量臨時存放但對性能需求很高的本地交換文件(Scratch),對于這一塊的性能優化,可以起到事半功倍的效果,否則,用戶所購買的昂貴的cpu/內存的效能也會大打折扣;另一類則是以Fluent、CFX、CFD-Fastran、ACE+等CFD軟件和Ls-Dyna、Pam-Crash等顯示結構分析軟件為代表的分布式內存應用程序,該類應用程序并行效果好,對內存的需求沒有共享內存類型的應用程序大,而且對本地交換硬盤性能要求不高。曙光公司CAE領域的專業工程師針對這兩大類應用程序詳細分析了其特點,并且和國內知名ISV進行了大量的聯合測試,結合廣大曙光用戶反饋的寶貴使用經驗,推出了CAE高性能計算平臺解決方案。
TC2600刀片+A950 SMP完美組合,滿足各類應用程序需求
曙光公司提出了基于刀片服務器的CAE高性能計算平臺設計方案,該方案總共包括6個部分:50節點的TC2600刀片機群、2臺A950r-F SMP小型機服務器、2臺A620r-F IO節點、SAN存儲網絡、IP SAN存儲網絡以及管理節點和圖形工作站區域等。
曙光CAE高性能計算平臺方案示意圖
曙光CAE高性能計算平臺方案將TC2600刀片和A950r-F SMP完美組合,可同時滿足各類應用程序需求。曙光刀片式服務器TC2600是為了突破計算機系統規模增加而效能降低的計算機發展瓶頸而設計推出的。它采用超高密的刀片式服務器架構,內置******網絡交換系統,減少網絡延遲;******的系統處理器擴充能力,******可支持20顆AMD Opteron雙核處理器;******的散熱設計,突破1U機架服務器空間設計極限,實現了7U 10片的超高密系統設計;通過系統的整體設計,減少不必要的功耗,有效降低整體系統功耗;同時引入了人性化的設計理念,處處體現以人為本的設計思想,是易管理、易維護、高可用的新一代服務器產品。TC2600是曙光人在服務器領域長期致力計算機技術研究的又一成功技術結晶。
整合高速網絡系統設計:曙光TC2600刀片式服務器內部集成20Gb/s高速Infiniband交換網絡,整合了全線速以太網交換機。同時可選的IOE擴展系統可以使用戶將工業標準部件如HBA卡、Raid卡以及Infiniband網絡等集成到刀片服務器系統中,而不必像購買其他品牌刀片服務器時遇到的需要花費高額費用去購買硬件廠商的專用部件。
整合KVM Over-On-IP系統:為減少鍵盤、鼠標和顯示器纜線管理的困擾,曙光將KVM Switch技術整合進TC2600服務器系統,可使10個子系統共享一套設備,而系統與系統間可透過單一纜線連接,可使多套TC2600服務器僅以一條纜線共享一套KVM裝置,并可以通過遠程管理服務器系統。
高可靠的產品設計:曙光TC2600刀片式服務器采用全冗余結構設計,可以極大的保障電源系統、散熱系統、存儲系統等的高可用性,提高了整體系統的穩定性。同時TC2600還提供對所有部件監控的系統管理機制,如組件的狀態是否正常,操作電壓是否正常,系統散熱是否正常,溫度是否偏高等等。
******的管理軟件:曙光TC2600配備了強大的管理軟件系統,并支持基于IPMI的遠程管理,用戶可以通過RJ45網絡管理端口連接到曙光TC2600刀片服務器系統。如下圖所示,界面顯示了每個TC2600刀片機箱的主要部件狀態情況,通過點擊圖標便可以查詢每個部件的詳細信息。
曙光TC2600刀片管理界面
曙光A950r-F SMP小型機是基于X86結構的服務器,在繼承傳統小型機優勢的同時,有效地解決了傳統小型機無法克服的如價格昂貴,可購買CPU數量有限,無法用于大規模優化設計任務,與X86結構集群服務器操作系統、應用軟件無法兼容等弊端。
曙光TC2600刀片服務器特別適合運行Fluent、CFX、Ls-Dyna、Pam-Crash等分布式內存應用程序,曙光A950r-F SMP小型機則特別適合運行Ansys,Abaqus、Nastran等共享內存應用程序,且兩者均采用X86-64平臺,屬同構系統,可共享軟件資源和數據存儲空間,資源調度簡單,節點配比可靈活調整,二者有機結合,幾乎可以適用各種應用需求,能夠有效降低用戶總體擁有成本。
曙光CAE:成功突破系統IO瓶頸
曙光針對分布式機群環境和SMP計算環境設計了一整套SAN存儲網絡和IP SAN存儲網絡解決方案。
IO節點采用2臺A620r-F,配置2顆2000系列雙核AMD處理器和16GB DDR2 內存,通過配置4Gb/s的光纖HBA卡連接到SAN存儲網絡提高IO性能。對于TC2600刀片機群系統,每個計算節點通過NFS over SDP方式掛載(mount)兩個IO節點的存儲空間;對于兩個管理登陸節點,同樣通過NFS over SDP方式掛載(mount)兩個IO節點的磁盤分區,并將用戶分成兩類后把主目錄放在共享分區中以減輕文件系統壓力,同樣的,應用軟件也分成兩類安裝到兩個共享分區中。
對于SMP計算節點,由于對存儲性能要求較高,******不要采用NFS文件系統,而是采用直接接入SAN網絡的方式。Nastran等結構類計算程序安裝在兩臺SMP節點上,計算中間數據和結果數據存放在本地掛載的SAN空間,實際作業調度時應避免跨節點執行應用程序。此外,SMP節點還需要掛載IO節點NFS數據繼承用戶主目錄信息。
優化的網絡系統設計,高速計算的有力保障
根據上面的分析,我們建議高性能計算平臺采用20Gb/s的Infiniband網絡來構建,并將管理IO節點連入高速網絡,通過采用NFS over Infiniband實現全部計算節點的數據共享。
曙光公司與中科院某研究所對******版Fluent的性能進行了測試,算例網格單元為90萬左右,采用湍流雙方程模型和PDF燃燒模型,測試硬件為8個雙路AMD雙核的節點,網絡為千兆網和Infiniband網絡。測試結果表明千兆網環境下16CPU核心內可以保持較好的性能加速,而32CPU核心時由于傳遞的消息量劇增至上萬個每秒,千兆網絡已經無法繼續提升性能,而此時Infiniband網絡則可以繼續保持線性加速。
曙光公司和Qlogic公司進行了相關性能測試,測試結果表明基于Infiniband的NFS可以大幅提高IO能力,尤其是并發的IO能力,進而可以提高計算效率。
DCAS——界面友好,功能強大的管理系統
DCAS是曙光專為百萬億次高性能計算機系統開發集群管理套件,用于對集群系統進行統一管理,包含了新一代的作業調度系統——DCJM。它采用基于IE瀏覽器的圖形化方式來實現對集群的統一管理,包括系統安裝部署、網絡配置、作業管理、安全配置、用戶管理、進程以及服務管理和交互式并行命令執行系統等,配置簡單、使用方便。除了同樣具有較高的可用性和可管理性,可以滿足絕大部分應用場合的需要外,DCJM還具有中英文兩種語言可選,更符合國人的使用習慣,以及高性價比的特點。
曙光DCAS操作界面
以上為曙光CAE高性能計算平臺的一個參考解決方案。針對每一個用戶,曙光公司將具體分析用戶的實際需求,包括計算規模、用戶數量、算例大小、模型特點以及上文提到的兩類程序所占的比例等等信息,在該方案的基礎上進行合理修改,并進行相關細節的設計,制定出***適合用戶的優化方案。