HPC China 2011参加報告
http://olab.is.s.u-tokyo.ac.jp/~oyanagi/reports/HPC-China2011.html
 
小柳義夫(神戸大学)
2011年11月2日初出
2011年11月21日改訂
 
 2011年10月27日〜29日に中国山東省済南(Jinan)の国際会議場で開かれたHPC China 2011に参加する機会があったので報告します。以下、日本漢字にない中国の簡体字は、対応する(と思われる)日本漢字に適当に置き換えます。中国語は「チーサンチー(計算机)」ぐらいしか聞き取れないので、以下の中には多くの誤解があると思いますので、あしからず。
 
1.済南について
 
 済南は山東省の省都であり、済水という川の南にあったことから、前漢時代に済南郡が置かれた。その後、黄河の流れが変わって済水は黄河の一部となった。黄河文明の中心の一つであったと言われる。
 
 市内には「ぼく突泉」(「ぼく」は、「約」の糸偏を足偏に変えた字)をはじめ多くの泉があり、泉城と呼ばれる。会場および宿舎の山東大(Shandon Hotel)前にある広大な公園は泉城公園と呼ばれている。
 
 ぼく突泉は、ホテルから歩いて30-40分の所にあり、広大な公園となっている。入場料40元を取られたが、広大で多くの泉や池がありとても回りきれない。北宋時代の女流詩人李清照の記念館もある。行かなかったが大明湖を囲む公園(旧城内)はもっと大きい。
 
 この地の山東料理は北京料理の元となったと言われる。昼食のバイキングでも、温かい料理のパンが何十と並び、なかなか舌を楽しませてくれる。
 
 市内を走る車のナンバーは「魯」から始まり、ここが魯の国(春秋時代以来)であることを示している。孔子の故郷の曲阜は、ここから車で3時間ほど、道教の聖地である泰山(世界遺産)もすぐ近くである。
 
 関空から直行便があるが週2便しかなく、今回は、行きは大連経由、帰りは広州経由(大回りです)となった。
 
2.HPC China 2011
 
 この会議は2011全国高性能計算学術年会(National Annual Conference on High Performance Computing)と呼ばれ、中国の学会である。主催は中国計算机学会(CCF)、共催が中国軟件行業協会数学軟件部会、協賛が中国計算机学会高性能計算専業委員会、山東省科学院、山東信息通信技術研究員、山東省計算中心とある。ほとんどの講演は中国語であったが、スライドの漢字からある程度内容は推測できた。会議の報告は、
http://server.it168.com/topic/2011/10-23/hpc2011/index.html
にある。もちろん中国語。
 
 企業から賛助金を相当集めたようで、Diamond Sponsorsとして、Intel, AMD, NVIDIA, 浪潮(Inspur)、Platinum Sponsorsとして、Microsoft, IBM, Dell, Mellanox, 北京並行科技有限公司、SGI, Maxeler Technologies, HPC Advisory Councilが名を連ねている。Gold Sponsorsとしては国内の企業など。上位の協賛企業は、20分から30分の講演時間を与えられていた。
 
 午前はplenary、午後は分科会というスタイルで、分科会では、若手を中心に多くの発表があった。短い論文発表を聞いてもよく分からないので、午後の分科会はほとんど出ず、初日はセンターの見学(後述)、あとは市内観光をしていた。
 
 参加者は約700人、若手が多く、熱気がむんむんしていた。GNPも日本を抜いて世界第2位、HPCでも昨年はTop500のトップを取り、その勢いは侮りがたい。Intel, NVIDIA, AMD, Microsoftなどの国際的なハード・ソフトの会社や、中国国内の会社、研究所、大学などの展示も賑わっていた。
 
 事情はよく分からないが、参加者の投票に基づく若手研究者の論文賞審査があった。私も審査用紙を渡されたが失敬した。29日にいろんな賞が発表され賞状が渡された。その晩のAMD主催の晩餐会で、AMD社から賞金目録が送られた。最高賞には7万元(100万円弱)が与えられ、盛り上がっていた。
 
 私は、"HPC and Computational Sciences in Japan --- toward Exaflops" という30分の講演を行った。日本のスーパーコンピュータの歴史を総括して、「京」までの歩みをたどった。日本の世界的スーパーコンピュータが、アプリケーション分野のイニシアチブで作られたことを強調した。会場では質問の時間はなかったが、講演後に何人かの若手が食い入るように質問してきた。やはり、京の話に関心があるらしい。「京のチューニングの勘所は?」「私は、分野5のアドバイザをやっているだけで直接触っているわけではない。話によると、定石通り、メモリ・アクセスの局所性、キャッシュの活用、SIMDの活用、通信の隠蔽・最適化などが効くそうである。」「SIMDはインライン・アセンブラで書くのか?」「コンパイラがやってくれる。ただ、SIMDを活用するにはコードの書き方に注意が要る。」「SIMDはFPUと独立か?」(まさかこんな質問をするとは予期しなかった)「よく知らないが、一部回路を共有しているようである。」「私が京を使うチャンスはあるか?」「京は日本のために建設したが、資源の一部は国際共同研究にも使われると聞いている。」
 
 以下、多少なりとも理解できた一つの講演についてかいつまんで報告する。
 
3.『中国HPC的自主之路』
 
 27日午前に中国科学院の陳左寧(Zuoning Chen)教授(女性)の表記の講演はなかなかおもしろかった。中国のHPCの歴史を世界(とくにアメリカ)と比較していた。どんどん追いついていると言いたいらしい。
  中国のHPC 対応する米国のHPC 中国の遅れ
1983 銀河I 1977 Cray I   7年
1996 神威I 1993 CM-5 (1024)   3年
2000 銀河IV 1997 ASCI Red   3年
2009 天河I 2008 Roadrunner   1年
soon  10PF      
2018?  1ExaF      
 
 中国のHPCは3つの時期に分けられる。
 
1) 第1期(1990以前)
 「刑天舞干戚」の時代(「刑天(中国神話に登場する異形の巨人)という獣はたて(干)と斧(戚)を振り回し」。陶淵明の山海経か?)。
 1983年12月に国防科学技術大学で銀河Iというベクトル計算機が完成した。国外では、Cray Iや富士通のVP200など。銀河Iは100MF以上を達成し、ソフトはCray Iとコンパチであった(ということか?)。[Galaxy I については当時「軍用ではないか」と噂にはなったが、NUDT国防科学技術大学だったんですね。]
 
2) 第2期(1990から2005)
 「臥薪嘗胆」の時代。1996年に神威Iを完成。Alpha21164を利用し312GFであった。当時、日立はSR2201 /1024、IntelはXP/S140。
 1998年に曙光2000-Iが完成。PowerPCとMyrinetを用い、20GF, 8 GBであった。銀河IVもこのころ。
 外国との遅れは5年程度であった。
 
3) 第3期(2006年〜)
 「宏図展神州」(出典不明)の時代。国防科学技術大学の天河1Aが2.57PFでTop500の1位を取った。これはアクセラレータを用いており、RoadrunnerやTSUBAME2.0に相当する。
 
 また自主チップを用いた神威藍光が2011年9月から動いている(これについては後述)。遅れは2〜3年で、基本的には追いついた。
 
 中国の展望はどうか。国産チップは2015には20nmまで行く。システムソフトウェア(系統軟件)研究も進んでいる。例えば、「熱点自感知計算」(hot spotを自動的に感知して対応するのか?)など。
 
 応用研究と工程化水平(何か?)、応用算法と数学模型としていろいろな分野を列挙した。
 
 創新能力および戦略規画。要するに将来計画のことらしい。アメリカのいろんな計画、欧州のPRACE、Intelの計画などを上げた。国際百億億次計画。[どうも中国では億を超える数詞は使わないようで、Petaは千万億、Exaは百億億という。億の簡体字はにんべんに乙]3次元実装や、光接続が重要になる、など。
 
4.神威藍光 (Sunway BlueLight)
 
 今回のハイライトは、中国国産のCPUチップを使った初のペタフロップス機「神威藍光 (Sunway BlueLight)」であった。いろんな講演で言及されたばかりか、私自身も実物を見学した。
 
4.1 新聞記事
 会議初日27日(木)に正式にお披露目をしたらしく、中国国内のメディアはもちろん、ニューヨーク・タイムスも詳しく報道していた。
 日本語のニュースをいくつか引用する。
-----------------------------------------
http://jp.xinhuanet.com/2011-10/31/c_131221911.htm
新華網
 
済南に国家スパコン・センター 国内3カ所目
Jp.xinhuanet.com | 発表時間 2011-10-31 16:33:41 | 編集: 从? 王珊?
 
 【新華社済南10月31日】中国の国家スーパーコンピューター済南センターが27日、同地で正式発足した。これは中国で初の、すべて国産のCPUとシステムソフトからなる演算速度1000兆回のコンピューターシステムで、中国が米国、日本に続き独自開発のCPUを採用して演算速度1000兆回のコンピューターを構築した国となった。
 
 同センターは山東省科学院が建設し、運営、保守を行う。今年3月に建設が始まり、先ごろ完成、供用された。据え付けられたのは神威藍光コンピューターシステムで、国家並列コンピューター工学技術研究センターが開発した。演算速度1京回の枠組みを採用し、国家高性能集積回路(上海)設計センターが独自に開発したプロセッサー「申威1600」を8704個装備し、ピーク性能は浮動小数点演算速度毎秒1070兆6000億回、持続性能は同796兆回、LINPACK計算効率が74・4%に達し、消費電力当たり性能は1ワット当たり浮動小数点演算回数が毎秒7億4100万回を超えている。装置の組み合わせ密度と消費電力当たり性能、システムの総合レベルは現在の世界の先進レベルにある。済南センターはすべて国産のCPUとシステムソフトを採用し、国の大型基幹情報インフラのコア技術自主コントロールを実現した。
 
 「国家中長期科学技術発展計画要綱」は演算速度1000兆回高性能コンピューターの研究開発を優先テーマとしており、科学技術省もその研究開発の基幹技術を掌握し、「高性能コンピューターおよびネットサービス環境」を第11次5カ年計画期(2006―10年)のハイテク研究「863計画」の重要プロジェクトとした。現在、中国には天津、深セン(土+川)、済南の3カ所に演算速度1000兆回のスパコン・センターがある。
 
(新華網日本語)
-----------------------------------------
http://lang-8.com/318717/journals/1159323/%25E5%259B%25BD%25E5%25AE%25B6%25E3%2582%25B9%25E3%2583%25BC%25E3%2583%2591%25E3%2583%25BC%25E8%25A8%2588%25E7%25AE%2597%25E6%25B8%2588%25E5%258D%2597%25E3%2582%25BB%25E3%2583%25B3%25E3%2582%25BF%25E3%2583%25BC%25E3%2581%258C%25E8%25B5%25B7%25E5%258B%2595
Lang-8
 
国家スーパー計算済南センターが起動
 Oct 28th 2011 17:21
今日午前、国家スーパー計算済南センターが、高新区で正式に起動された。センター内配備した神威藍光”コンピューターシステムはすべて国産の中央処理装置とソフトシステムを取り入れ、処理速度が毎秒千万億回に達する高性能コンピューターである。我が国がアメリカ、日本の後に自主中央処理装置を採用する高性能パソコンを開発した国である。
 高性能パソコンの開発能力及び応用レベルは国の科学発展レベルと総合国力の主な標識を示すし、世界発達国家のお互いに競争している科学技術戦略の最高点とする。今まで、我が国が天津、深?、済南で3つのスーパーコンピューターセンターを成立した。済南センターで配備した“神威藍光システム”は国家パソコン技術研究センターによって開発した。
 
 今まで、国家スーパー計算済南センターは海洋応用、生物製薬、工業デザイン、金融危険予測など省内の経済の発展に関する重大な課題を開発した。神威藍光は我が省の科学の面での新機軸を打ち出す能力にプラスの役割とした。[中国語からの機械翻訳らしいですね]
---------------------------------------------
 
以下、筐体とチップ(SW 1600C)の写真は
http://www.gov.cn/jrzg/2011-10/27/content_1979876.htm
から。
New York Timesの記事のURLは長すぎるので明記はしないが、
http://www.nytimes.com
の検索窓でSunwayを検索してみるとよい。
 
4.2 チップ
 上記の記事にもあるように、この計算機は中国製の独自チップを使ってペタフロップスを出したところに特徴がある。
 
 このチップは中国名申威1600 (Shenwei)、英語名SW1600と呼ばれ、上海にある国家高性能集成電路設計中心で設計された。印刷物等には「採用自主指令集(RISC)」と書いてあるがAlpha-basedのようである。済南計算中心の展示のブースでD. Kahaner氏が「ライセンスは取っているのか?」と聞いたが、「上海に聞かないと分からない。」と言葉を濁した。米日に続く第3の自主CPUによるスパコンだと胸を張っていた。GodsonはMIPS-basedであるし、Sparc-basedのチップを作っている所もあるという。命令セットアーキテクチャの博物館みたいである。65ナノの半導体技術(京のSparc64 VIIIfxは45ナノ)ということであるが、ファンドリーも中国なのであろうか。TSMC(台湾)では?
 
 16コア、クロック0.975-1.1 GHz、SIMDがコア当たり8浮動小数演算issueで、チップ当たり124.8-140.8 GFです。Sparc64 VIIIfxと比べると、クロックを半分にしてコア数を倍にして、ほぼ同じピーク性能を実現しています。クロック可変なのでしょうか。Sparc64 VIIIfxと同様に水冷で、水の入り口は8℃、出口は13℃だそうです。これはかなり低い。[これは私の聞き違いで、入り口が13℃かも知れない。]ジャンクション温度(Sparc64 VIIIfxは30℃)はどのくらいでしょうか。消費電力は43.7 W(Sparc64 VIIIfxは58W)できわめて低い。キャッシュは2段(容量、共有関係は不明)。DDR3だそうですが、メモリコントローラがチップに入っているかどうか、メモリスループットがいくらかは分かりません。日本に戻ってから友人と議論したところでは、65nmで16コアはきついのではないか、何をケチったのだろう、という話になりました。考えられるのはキャッシュの容量ですが。
 
 帰国後の11月7日に、富士通は「京」の商用版PRIMEHPC FX10を正式発表しました。用いられているチップSparc64 IXfxは、40 nmの16コア、クロック1.848/1.650 GHz、110W です。ファンドリはTSMCだそうです。
 
 パンフレットには、「採用国内第一款16核通用処理機申威1600」とあります。中国独自チップというと、今年2月のISSCCで発表された128 GFのGodson-3Bプロセッサが有名で、これと混同した人も多いようだ。Godson-3BはMIPS-basedで、65nmテクノロジーで、クロック1.05 GHz、8コア、40Wというチップです。単純には3200 MF/W ですが、メモリや通信は入っていないでしょうか。会議に参加したP氏によると、メモリ・インタフェースの他に、HyperTransport(ただしHT 1.0)を持っているとのことです。次は2013年にGodson-3Cを出し、16コアで512GFを狙っている。28nmテクノロジー[いきなり?]で2 GHzと推測される。さらには、Chips 23においてGodson-Tという8×8構成のメニィコアを発表したとのこと。現在評価中の64コアのプロトタイプは、TSMC(台湾)の40nmプロセスだそうです。いずれもMIPS-basedの模様。
 
 私の集めている資料では、今年の3月7日の人民日報英語版(電子版)の記事で、今年中に中国製のチップを用いたスーパーコンピュータが出現すると書いてありました。Dawning 6000 は、Loongsonチップを使い、1 PFに到達する、とのこと。これはどうなったのでしょう。ところで、「龍芯(long xin)」と「Loonson」は同じもののようですが、「Godson」も同じ?
 
 ASCII digitalにある山谷剛史氏の「中国IT小話」(2009年4月21日)によると、『「中国科学院」という政府機関のバックアップの下、龍芯開発グループは2001年8月に「龍芯1号」、2003年10月に「龍芯2号」の開発成功を発表。その後も龍芯2号を改良した「龍芯2C」(2004年9月)、「龍芯2E」(2006年9月)、「龍芯2F」(2007年12月)を開発していった』そうです。
 
4.3 ノード
 ノードは、冷水の通る金属の薄い板を中心に出来ています。ボードには2個のCPUチップが載せてあります。CPUだけ裏側に実装し、水冷の板に密着しています。1つのノードには、冷却版の裏表に2枚ずつ合計4枚のボードがあります。その両側にインターフェースと思われる別のボードがあります。SMPでNUMAと言っていたので、多分この8チップがNUMAを構成しているんでしょう。メインメモリはチップ当たり16GBのようです。
 
4.4 全システム
 全体では8704CPUチップ、つまり1088ノード、ピーク性能(峰値性能)1.07 PFだそうです。8704=17×512で変な数字ですね。ピークでペタを越えたかったのか。この数字は、ほぼ最低クロック0.975 GHzに対応するようです。0.975GHz*128*8704=1.0863PF。
 
 メインメモリは全体で、16GB*8704=139GBと思われます。パンフレットには150TBとあります。ちょっと計算が合わない。実は、同じ部屋のすぐ脇に10ラックほどのInspur(浪潮)のMPPが置いてあり、もしかしたらこれも相互接続網でつながっているのかも知れません。
 
 相互接続網はInfinibandによる2段のfat treeと思われます。1.2 Gbpsという数字は1本当たりでしょうか。
 
 外部記憶(ファイル)は2PBです。
 
 全体の形はレーストラックのような形で、筐体を背中合わせに配置しています。qcdpaxを思い出しました。筐体は天井ぎりぎりなので、「中にはどうやって入るのか」と聞いたら、どこかにドアがあって、入れるようです。
 
 電力は1074KWということで、だいぶ低い。ただし、重いジョブを流すと電力が上がると言ってました。
 
 このコンピュータのためのコンパイラは自作したとのこと。OSはlinuxだと思われる。
 
 SC11に出展するInspur(浪潮)からのメール(11月11日)では、このマシンは「江南計算技術研究所(Jiangnan Institute of Computing Technology)とInspurが設計した。Inspurは、100 TFlopsのブレードクラスタと2 PBのMass Storage Systemを設計し提供した。」とあります。上記の10ラックほどのMPPはこのブレードクラスタかも知れません。
 
 現在は1PF(千万億次計算机系統)であるが、将来10PF(億億次)まで行けると豪語していました。
 
 「可用度99%以上」と、安定に動いていることを強調していました。
 
4.5 性能
 まずLINPACKが動いたようです。ただしフルシステムでなく、137200コア、つまり8575チップだそうです。ちょっと中途半端ですね。もしかしたら137200は概数で、1072ノード、137216コアかも知れません。Rmax=796TFだそうです。N=3375120=24*3*5*73*41 ですが、どういう数字でしょうかね。ピーク比は74.4%と言っていますが、ピーク1.07PFに対してでしょうか。クロック周波数はいくらかなのでしょうか。1.1 GHzまで上げたのではないでしょうか。
 
 それから、電力比は741 MF/Wと言っていますが、これは1074KWに対する数字ですが、LINPACKの時はもっと電力は上がっているのではないでしょうか?クロックを上げればなおさらです。
 
 行列のサイズNは知りませんが、1コアでのLINPACK効率は80.2%、1CPU チップでは75.2%だそうです。主たるボトルネックはメモリバンド幅でしょうか。
 
4.6 応用
 神威藍光の応用についての話もあった。
1) 海洋研究:山東省は海に囲まれている。物理模擬と理論研究を並行して行っている、と言っていました。
2) 海洋生物科学のシミュレーションと解析
3) ゲノム解析
4) 革新的創薬:生物信息(bioinformatics)を用いた、タンパク質の構造予測、効能予測、薬の設計など。今のところ100前後のアミノ酸のタンパクのようだ。
5) 金融計算:保健分析、信用評価、ポートフォリオ分析など
 
 最近の成果としては、並列化効率の話があった。ほぼ線形にスケールしている応用があったのでよく見たら、金融であった。多分、モンテカルロであろう。その他、CFD(可圧縮流体)、ロケット、自動車、潮流、全球中期天気予報など。とくに、精細化集合数値天気予報(アンサンブル法)の重要性を強調していた。
 
 科学計算に重点を置き、公益性を中心に考える。人材養成が重要である。など、いろいろ。
 
4.7 見学
 27日(木)の午後に、センターのご厚意で、神威藍光をD. Kahaner氏等と見学するチャンスがあった。この日の午前には政府要人を招いての披露式典があり、その直後であった。まだ後片付けをしていた。
 
 山東省計算中心は、街の東の外れにある。経十路を東に車で走っていくと、移転した山東省博物館があり、また行くとほおずきのような形をしたオリンピックセンターがある。これは、2008年北京オリンピックの時、サッカーの一部はここでやったとのことである(確認できなかった)。先日、なでしこジャパンが優勝した女子サッカーはここで行われた。
 
 山東省計算中心は、さらに東に行ったところである。いろんな研究所や企業の入った雑居ビルの1階にある。神威藍光は、ガラス張りの部屋に入っていて、外から見学した。神威藍光の他に隣の部屋にはInspur(浪潮)社製のx86ベースのMPPが何台か入っていた。写真は、入り口、全体説明図の前で、神威藍光の前で、David Kahaner, Debbie Chen氏らと。
 
2.8 下方展開
 申威1600のチップは、このスパコンだけでなく、商用機にも使われている。もちろん空冷である。展示会場に置かれていたのは、
1) PC
 デスクトップパソコン。最大単机容量8GB、2-4条商用DDR3-1333DIMM。OSはlinux。
2) サーバ
 チップ数は読み取れなかった。最大32 GB、8条商用DDR3-1333 ECC DIMM。
3) 防火墻
 何かと思ったらネットワークのファイアウォールであった。
 
どのくらい売れているのかは知らないが、こうして下方展開していることはすばらしい。われわれも学ぶべきかもしれない。
 
3.HPCの産業利用
 この会議に出席したもう一つの目的は、中国におけるスーパーコンピュータの産業利用の現状を調査することであった。残念ながら、会議の参加者は大学や研究所や科学院の関係者と、コンピュータ関係の企業人が主であり、産業界でHPCを利用しているような人は見当たらなかった。
 
 29日に、国家超級計算天津中心副主任の朱小謙研究員(Xianquian Zhu)の「天河一号系統大規模並行計算応用」という講演があった。
 
 国家超級計算天津中心は、天津市?海新区(「?」は、「浜」のつくりにうかんむりをかぶせたような字)と国防科学技術大学が共同で建設したもので、国家高技術研究発展計画要項は、PFlops級のスーパーを優先テーマとしており、「高効能計算机網格服務環境(スーパーコンピュータとネットワークサービス環境)」を第11次5カ年計画(2006〜2010)のハイテク研究「863計画」の重要プロジェクトとした。このセンターで2010年8月に完成した天河一号(Tianhe-1A)は、2010年11月のTop500において世界一の地位を占めた。この計算機はNVIDIAのGPGPUを使ったものである。2011年1月に正式に計算サービスを対外的に提供を始めた。
 
 このセンターの応用で一番大きい割合を占めているのは、石油探査であり、41.8%を占めている。これは地震を起こして地下の油層を探すもので、中海石油東方地球物理公司や中国海洋石油公司という会社がかなりの割合を占めている。利用率99.8%ということである。
 
 次に大きいのが生物医薬で、24%を占めている。生物の高分子の動きをMDで解析するために使われている。どの程度の民間利用があるかは不明。その他、資源、新エネルギー(8.2%)、CAD、流体力学、環境(海洋、全球など、7%)、気候、気象など。
 
 具体的には、中国石化石油物探技術研究院(公的機関か?)が石油探査、国家海洋局が全球海洋環境(最大20000 core)、大学連合による磁気核融合研究、国家計算流体力学実験室による航天飛行気動研(漢字不明)、生物分子動力学模擬などいろいろ並べていたがメモできていない。ただし、これらはCPUだけの利用で、GPUは使っていない模様である。GPU応用は別に取り上げられており、流体や原子模擬(MDらしい)などの利用が始まっているとのことである。
 
 多くの会社も使い始めているようで、天津一汽(トヨタ系の自動車メーカーらしい)、渣打銀行などの名前を挙げていた。
 
 現在のところ、中国のスーパーコンピュータ利用は、アカデミアが中心であるが、産業界を活性化するために産業利用に広めようと人材育成に努力しているようである。
 
以上簡単にご報告します。
 
---------------------------------------------