初版2008/12/1
改訂2009/6/19
SC08報告(未完)
小柳義夫
http://olab.is.s.u-tokyo.ac.jp/~oyanagi/reports/SC2008.html
(再配布は自由ですが、上記ページから最新版をご利用ください。)
この報告は、主として私のメモに基づいてまとめたもので、英語の聞き違い、メモ違いなど多数あると思います。ご容赦ください。ご指摘は歓迎します。改訂に反映させたいと思います。なお、講演紹介中の[]内は、私の感想またはコメントです。
この報告はまだ書きかけですが、早く大まかの情報が欲しい人のために公表します。今後インクリメンタルに修正増補する予定です。
1.はじめに
SC08: The International Conference for High Performance Computing, Networking, Storage and Analysis (通称 Supercomputing 2008) は、20年目の今年、テキサス州オースチンのAustin Convention Centerにおいて11月15日(土)から21日(金)まで"20 years -- Unleashing the Power of HPC"の標語の下に開かれた。会議名は時々変わるが、昨年、一昨年と同じで、"Analysis" を名乗っている。このシリーズで、オースチンは初めての開催である。オースチンはテキサス州の州都であるが、観光的にはめぼしいものはなく、比較的落ち着いた街である。ホテルは会場の近くにもあるが、参加者多数のため多くの人はかなり遠いところに泊まらざるを得ず、SCの用意したバスが、ひっきりなしにホテルと会場を往復していた。期間中の最低気温は4℃、最高気温は26℃程度であった。昼間は暑いぐらいだが、朝晩はかなり冷える。天候は快晴の日が多かった。会場のエスカレーターなどがシンドラー社製であったのは若干気になったが、別に問題は起こらなかった。
今年は20周年(第21回)ということで、歴史を回顧するいくつかの催しが行われた。
なお、昨年の報告は書きかけでまだ公開していないことをお許し願いたい。(一昨年は出席もしないのに、早々と報告を書きましたが。)
今年のSCの全体的な印象として、顕著な目玉はなかった感じである。多少目立ったテーマとしては、
a) アクセラレータ
b) エクサフロップス
であろう。前者は、昨年から話題になっている。Mooreの法則によってトランジスタ数が増えたが、演算器に必要なトランジスタ数は限られているので、チップ上に複数の演算器を置くことができる。一つは、dual core, quad core, octa coreのように同一のプロセッサを複数搭載することである。もう一つは、演算機能(+α)を持つ単純なコアを、プロセッサに複数付加するか、そういう専用チップを作るかが考えられる。これがアクセラレータとかmany coreとか言われているものである。NVIDIAのGPGPU、ClearSpeedをはじめ、IntelやAMDも強力なアクセラレータを開発している。Cell プロセッサは両者の中間とみることができる。アプリケーションからは、利用するプログラミング環境が問題であるし、アルゴリズム研究者としては、アクセラレータに適したアルゴリズムを考える必要がある。
「エクサフロップスExaflops」とは、1018 flopsで、1秒間に百京(ヒャクケイ)回の浮動小数の演算ができる能力のことである。今回のTop500に、Petaflops を越えるマシンが2 台も出現したので、人々はExa-machine を2019±2年と予想しはじめた。アーキテクチャ的な困難、どんなアプリがこの能力を必要とするのか、計算機のシステムイメージなど様々に議論されている。
かたや、中国・インドの進出が話題になっている。Top500では、日本の最高位が27位のT2K東大であったのに対し、中国は10位を占め、インドも13位を占めている。日本は、次世代を建設中とはいえ、どうなってしまうのであろうか。
その他の話題としては、10Gbpsのネットワークが急速に普及しつつあり、100Gpbsへの展望も語られ始めている。並列計算機の相互接続網としては、レイテンシがどこまで下げられるかが興味のあるところである。あと、銅線でどの距離までつなげるかも問題である。
最近グリッドが当然技術となって、あまり声高には語られないが、最近は「クラウド」への言及が多い。クラウドは、グリッドの資源提供者側を隠蔽する技術であるが、ある種のメーカの言は、昔のメインフレームを思わせるところがある。
2.会議の歴史
毎度のことであるが歴史を示す。この会議はアメリカの東西で交互に開かれて来た。年次、開催都市、展示・チュートリアル等を含めた総参加者数、technical program有料登録者数、総展示数、投稿論文数、採択数、採択率を示す。初期の回では、テクニカルプログラム登録者という概念がなかった模様である。今回のパネル"SC: The Conference" での推定値を記す。2010年以降の開催地は公式発表ではない。
回数年号
|
場所
|
総数
|
tech.
|
展示数
|
投稿数
|
採択
|
採択
率 |
1回(1988) |
Orlando |
1495 |
700-800 |
36 |
150 |
60 |
40% |
2回(1989) |
Reno |
1926 |
1400 |
47 |
? |
88 |
|
3回(1990) |
New York |
2303 |
|
59 |
? |
92 |
|
4回(1991) |
Albuquerque |
4442 |
|
80 |
215 |
83 |
39% |
5回(1992) |
Minneapolis |
4636 |
|
82 |
220 |
75 |
34% |
6回(1993) |
Portland |
5196 |
|
106 |
300 |
72 |
24% |
7回(1994) |
Washington |
5822 |
2209 |
122 |
? |
77 |
|
8回(1995) |
San Diego |
5772 |
2017 |
106 |
241 |
69 |
29% |
9回(1996) |
Pittsburgh |
4682 |
1642 |
121 |
143 |
54 |
38% |
10回(1997) |
San Jose |
5436 |
1837 |
126 |
334 |
57 |
17% |
11回(1998) |
Orlando |
5750 |
1984 |
130 |
270 |
54 |
20% |
12回(1999) |
Portland |
5100 |
2124 |
149 |
223 |
65 |
29% |
13回(2000) |
Dallas |
5051 |
2096 |
159 |
179 |
62 |
35% |
14回(2001) |
Denver |
5277 |
2017 |
155 |
240 |
60 |
25% |
15回(2002) |
Baltimore |
7128 |
2192 |
221 |
|
67 |
|
16回(2003) |
Phoenix |
7641 |
2390 |
219 |
207 |
60 |
29% |
17回(2004) |
Pittsburgh |
8879 |
|
266 |
192 |
59 |
31% |
18回(2005) |
Seattle |
10000+ |
|
276 |
260 |
62 |
24% |
19回(2006) |
Tampa |
9000+ |
|
258 |
239 |
54 |
23% |
20回(2007) |
Reno |
9300+ |
|
314 |
|
54 |
|
21回(2008) |
Austin |
11000+ |
4100+ |
337 |
277? |
59 |
21% |
22回(2009) |
Portland |
|
|
|
|
|
|
23回(2010) |
New Orleans |
|
|
|
|
|
|
24回(2011) |
Seattle |
|
|
|
|
|
|
25回(2002) |
|
|
|
|
|
|
|
私は、第1回、第4回、第12回、第19回は出席できなかった。今回は20周年ということで、全21回参加した24人に皆勤賞としてメダルが授与された。皆さん、会期中自慢げに首から提げていた。24人のなかには、Horst Simon, Jack Dongarra, Al Brenner, David Bailey, Olin Johnsonなどがいた。自己申告なので、申告しなかった人もいるようである。日本からは三浦謙一氏(富士通→NII)ただ一人であった。
ちなみに、来年22回はOregon州Portland (November 14-20)で"Computing for a Changing World" の標語の下に開催される予定。アメリカはやはり"Change"ですね。なおポートランドは第6回、第12回に続いてなんと3回目である。会議の規模が増大するとともに、開催できる場所が限定されてしまうようである。
この会議は元々アメリカの国立研究所の関係者を中心にボランティア的に発足したところに特徴がある。当初はアメリカの国内会議の印象が強かったが、10回のころから次第に国際的な会議に成長してきた。今年は、初めて、松岡聡氏(東工大)がSC08 Steering Committee(18人)のメンバとして加わった。これは、毎年開催されるSCの全体を統括する委員会である。聞くところでは選出されるメンバは8人あり、任期4年で毎年2名が交代するとのことである。
プログラム委員会関係では、松岡氏がGrid Areaの座長である他、Application Areaには中島研吾氏(東大)、Grid Areaには合田憲人氏(NII)、伊達進氏(大阪大学)と田中良夫氏(産総研)、Software Areaには佐藤三久氏(筑波大)が加わっている。
松岡氏の話によると、日本からの参加者は475人で、アメリカに次いで2位とのことである。
3.全体像
会議はあまりにも巨大で、全体像をつかむことは困難である。。
Technical programの主要部は18日(火)からであるが、会議そのものは15日(土)から始まっている。16日(日)と17日(月)にはチュートリアル(26件、全日は16件、半日は10件)が行われていた。会議に附属して、独立に組織されたいくつかのワークショップも開催された。16日(日)には5件、17日(月)には7件、21日(金)には1件があった。
17日(月)夜7時の展示会場における Gala Openingsから会議の中心部分が始まる。このとき展示会場が参加者に初めて公開されその場でおつまみ程度の軽食が提供される。例年、おつまみがすぐなくなってしまい、特に展示関係者にはなかなか口にできないが、昨年からは一般公開より少し前から食べ物を提供していて、展示関係者には好評であった。まあ、食べ物の量も例年より多かったようである。今年はこれに合わせて、SC 20th Anniversary History Museum(歴史展示)のGrand Openingがあったようである。
歴史展示は、一般の展示とは別に、東側の通路の北の端に置かれていた。遠かったので見落とした人も多いようである。各回ごとに透明なパネルが置かれ、主要なスピーカー、その時の主要な計算機などが書かれていた。NWTは言及されていたが、地球シミュレータの「ち」の字もなかった。その下の展示棚には、いろいろなグッズ(ボード、Tシャツ、マグカップなど)が展示されていた。Cray-1の筐体も展示されていた。老人にはおなじみだが、若い人には珍しかったかと思う。なお、デジタル・ミュージアムを建設中である。
展示は、企業展示も研究展示もますます盛り上がっている。とくに企業展示はこの会議の最大の収入源である。展示は17日(月)の夜から20日(木)の4時までの実質3日間であるが、その設営も撤収もなかなか大変である。
火曜日の朝からtechnical programが始まる。火水木の8:30--10:00はplenaryで、18日(火)は開会式と基調講演、19日(水)と20日(木)にはそれぞれ招待講演が2件あった。10時からはコーヒーブレークで、展示会場も10時からオープン(6階は9時半)。飲み物とともにベーグル、菓子パン、果物なども提供される。朝が早いので、これで朝食代わりにしている人も多い。
10:30から17:00まではいろいろなプログラムが多数並列に設定されている。今年も、審査付きの原著講演(30分)と並列に、Masterworksと称して、さまざまな応用分野の総合報告が招待講演(45分)として計16件設けられていた。18日(火)は"HPC in the Arts"(2件)、"HPC in Transportation"(2件)、"HPC in Finance"(2件)、19日(水)は、"HPC in Biomedical Informatics"(4件)、20日(木)は"HPC in Alternative Energy Technologies"(2件)、"Green HPC"(4件)であった。
最近はポスター発表も重要視されている。投稿は150件以上あったが、厳正な審査の結果、通常のポスターが54件、大学院生のポスターが3件、学部生のポスターは2件採択された。火曜日5時15分から7時までPosters Receptionがあり、近くで軽食や飲み物が提供されていた。学生のポスター5件は、水曜日の午前の特別なセッションでプレゼンテーションがあり、優秀賞が選考された。
金曜は展示もなく、早めに帰ってしまう人も多いので、毎年客寄せに苦労する。今年も、近年の例にならって、「受け」をねらった色々なパネル4件が企画されていた。このほかパネルは火曜、水曜、木曜にも各1件あった。
今年の目玉は、Music Initiveである。私は知らなかったが、オースチンが音楽の都であることから企画されたそうである。ViSCi-Tuneは、visualizationとともにsonificationを行おうという企画である。私自身は残念ながらMusic Initiative Boothは訪れなかった。
4.Social Events
恒例により、20日(木)の夜は、Star Hill Ranchでevening eventがあった。私は行かなかったが、寒くて大変だったようである。
このほかこれも恒例だが、いくつかの企業が、お客様を招待するパーティーが火曜日と水曜日にあった。また富士通は16日(日)夕方に、NECは19日(水)夕方に、日本からの参加者を対象にセミナーとパーティーを開いた。
5.展示
主催者発表によると、今年は企業展示220件、研究展示117件、全体で337件があった。これらが適当に混じって所狭しとブースを出している姿は壮観である。今年の展示会場は比較的正方形に近く、歩きやすかった。ただ、一部離れ小島的なエリア(番地>2800)があり、新規参加のブースを中心に構成されていた。いつかのAsian Villageや、階が違うことに比べれば、比較的にぎわっていた。
例年のごとくTechnical programとは独立にExhibitor Forumが火水木とあり、展示出展企業が30分ずつ講演した。このほか、各展示ブースでは企業展示でも研究展示でも、プレゼンテーションがひっきりなしに行われており、とてもつきあいきれない。私も頼まれて産総研のブースで"HPC Trands in Japan"というプレゼンを行ったが、辻説法みたいなもので、通り行く人を引き留めるのは大変である。
5-1 企業展示
今年は企業展示は220件であった。今年目立ったのはGPGPUなどのmanycore関係のハード・ソフトの出品が多かった。NVIDIAはもちろん、PGIはx86+GPUシステムへの自動コンパイラを出していた。あと、10Gbpsのネットワーク製品やインターコネクト製品も多く出ていた。
常連の企業は日本系の企業を含めてそれぞれ元気に出展していた。
1) IBM
SCxyの常連であり、大きなブースを会場のいい場所に出していた。様々のsolutionを提示していたが、目玉は、Top500を死守したRoadrunnerとBlueGene/Pであろう。
2) Cray
ハイエンドとしては、Roadrunnerと首位攻防戦を演じたJaguar (XT5)であろう。ミッドレンジとしては、先日発表された、Windowns HPC serverで動くCX-1が話題であった。
3) SGI
いろいろなものを出していたが、Intelの組込用のチップAtomを多数高密度実装したMoleculeを出していた。「原子」が集まって「分子」とはあまりにも分かりよい。
4) 富士通
昨年発表したSpark64に基づくFX1が目玉であろう。来年にはJAXAに納入される。富士通が担当している日本の次世代スーパーコンピュータ(スカラー部)は、この更に次世代機と予想される。
5) NEC
SX-9を展示していた。NECは日立とともに次世代スーパーコンピュータのベクトル部を担当するが、これはおそらくSX-9の次世代機であろう。
6) 日立製作所
SR16000などを展示していた。
7) Convey Computer Corporation
この社は、私がベースにしていた筑波大学のすぐそばにあったが、なんとHPに吸収されたConvexのxをyに変えたもので、同じくSteve Wallachらが創立した。XeonとFPGAを組み合わせたHC-1は、FPGAをベクトルもしくはSIMD的なコプロセッサとして低消費電力で高速演算を可能にするという。ユーザからはx86のISAの単なる拡張に見えるところが特徴とか。バンド幅は80GB/sでキャッシュコヒーレンシも保証される。UCSDが最初の注文を出したとのこと。
8) ClearSpeed:
今年5月頃John Gustafson氏がCTOを辞めたClearSpeedもちゃんとブースを出していた。500Wで1.152TFを出し、リスク分析市場乗り出すそうである。John Gustafson氏は、Massively Parallel社のCEOになったが、ブースは出さず会場を歩き回っていた。
9) Quadrics
AISTの真向かいであったが、展示はキャンセルされて休憩場所になっていた。なんでも親会社の金回りがきつくなり、直前に中止を決定したとのこと。せっかくレーテンシの低いネットワークを出していたのに、今後の動向が気になる。
10) ARGO Graphics
うちの若手から是非見てこい、と言われたブース。をソニー コンピューティングユニット『BCU-100』の日本国内向け取り扱いを開始したとのこと。ここには、FixStarsもCell/B.E.関係の製品を展示していた。Yellow Dog Linuxを開発していた会社を買収したとか。
11) NVIDIA
Tesla solutionはテラフロップスに近づくとか。
12) Portland Group Inc.
NVIDIAのCUDA用のコンパイラを開発中。ソースから、x86用のコードと、CUDA用のコードを生成し、これが連携して動くとのこと。
5-2 研究展示
全体で117件であったが、そのうち日本からの研究展示は以下の27件であった。最後の数字はブース番号。去年出典していなかったところはNewと記す。
-----------------
a) AIST 303
b) Center for Computational Sciences, University of Tsukuba 1551
c) Center for Grid Research and Development (NAREGI)
d) Doshisha University 2308
e) Ehime University 2906
f) GRAPE Projects 2015
g)*Information Initiative Center, Hokkaido University 2802 (New)
h) IST/CMC - Osaka University 2023
i) ITBL 2127
j) ITC, The University of Tokyo 2719 T2Kプロジェクトを展示。
k)*JAMSTEC 2628 (New)
l) Japan Advanced Institute of Science and Technology 3202 (New)
m) Japan Atomic Energy Agency 385
n) JAXA 2019
o) Kansai University 3323
p) Kyushu University 2813
q) Nara Institute of Science and Technology 2814 (New)
r) National Institute of Informatics , NAREGI 2425
s)*NICT (National Institute of Information and Communications Technology) 2908 (New)
t) Research Organization for Information Science and Technology (RIST) 2324
u) Research Organization of Information and Systems 2817
v) RIKEN, Advanced Center for Computing and Communication 1953
w) Saitama Institute of Technology 268
x) Saitama University 266
y) Tohoku University 189 IFSとIMR
z) Tokyo Tech 3208 (New)
aa) University of Tokyo, The 3003 平木研究室 *印は、Industry Exhibitorとして登録
--------------------------
6.Technical Papers
SCというとどうしても展示やイベントなど華やかなものに注目があつまるが、レベルの高い査読による原著論文(technical papers)は言うまでもなく重要な部分である。
論文投稿総数は277、そこから59編が選ばれた。採択率は21%である。日本が関連した発表としては、次の3件である。
○ Akira Nukada, Yasuhiko Ogata, Toshio Endo, ?Satoshi Matsuoka? (Tokyo Institute of Technology) , “Bandwidth Intensive 3-D FFT kernel for GPUs using CUDA “
○ Takeshi Yoshino? (Google), Yutaka Sugawara, Katsushi Inagami, Junji Tamatsukuri, Mary Inaba, Kei Hiraki?(University of Tokyo), “Performance Optimization of TCP/IP over 10 Gigabit Ethernet by Precise Instrumentation”
○ Ryutaro Susukita et al. (Institute of Systems, Information Technologies & Nanotechnologies, Fujitsu, Kyushu University, RIKEN), “Performance Prediction of Large-scale Parallel System and Application using Macro-level Simulation”
======16日(日曜日)======
16−1 Fujitsu Users Meeting 2008 in Austin
16日18時から、古式ゆかしいThe Driskill Hotelで表記会合が行われた
1. ご挨拶 富士通椛纒\取締役社長 村野和雄
2. 招待講演 Rick Stevens, ANL and U. of Chicago
"The Prospect and Challenge for Exascale Computing"
世の中には、ゆっくりではあっても着実に物事を変化させる力がある。例えば、Moore's Law, Globale Warming, Wireless, Digital Imaging など。逆に、予期しなかった急激な変化を与えるものもある。例えば、P2P, SNS, Subprime Mortgageなど。
Top500によると、並列性は18ヶ月ごとに2倍になっている。この傾向が続くと、2012年には、速度は25PF、並列性の下限は1M〜2M、2015年には300PF、10M〜100M、2019年には1200PF、400M〜1000Mであろう。
このことから、Exaflopsは2017±2年に実現し[ちょっと気が早いのでは?]、並列度は10〜100 Mになるであろう。ソケット当たり1000 cores。このためには3D chip packageやoptical interconnectが重要である。メモリの総量は10〜100PB、I/O channelは>10,000、二次記憶は10〜100 ExaByteであろう。
他方ネックとなりそうな点は、消費電力、チップとチップのインタフェース、パッケージ間の接続、fault tolerancyなどであろう。
プログラミングモデルとしては、CUDA, CS, PGAS (Partitioned Global Address Space, CoArray Fortranなど)、それにHPCSの言語(chapel, Fortress X)が考えられる。
応用としては、気象、内燃機関、流体、QCD、宇宙など。連続系は解像度を増加させることができ、離散系は複雑性を増やせる。確率的シミュレーションでは統計が増やせる。
最後に、DOE Office of Scienceのもと、Horst Simon, Thomas Zacharia, Rick Stevensが共同議長を務めたパネル"Modeling and Simulation at the Exascale for energy and the Environment"(2007) について触れた。
私の印象として、ハードについては困難があるにしても課題がはっきりしているが、応用については展望が不足しているようだ。
3. 招待講演 Yukiko Sekine, DOE
"Project Management and Resource Allocation for HPC and LCF Projects"
DOEのOffice of Scienceで、Advanced Scientific Computing Researchを担当している関根さんが、計算資源の配分の考え方について(大部分日本語で)講演した。
DOEは6つのセクションからなり、それぞれの予算の割合は、BER (12%), BES (33%), FES (10%), HEP (17%), NP (11%), ASCR (9%)である。ASCRには11のdivisionsがあり、数学、コンピュータ科学、などの研究やScientific Partnership(SciDACなど)を担当し、3つのスーパーコンピュータやネットワーク(ESnet)などのfacilitiesを持っている。
3つのセンターは、LBNLのNERSC、ANLのALCF、ORNLのOLCFである。このうち、NERSCはproductionのためであるが、他の二つはcapability のためである。
DOEは資産の導入に際して、Orders 413.3, Program and Project Management for the Acquisition of Capital Assets.というmanagement modelを2006年に決定した。これによると、"Project Phase"は、RFP (Request for Proposal)、契約、インストール、acceptance までで、Order 413.3に従って行われる。これから、System Shakeout, Early Science Runsを経て、Operation Phaseに移る。
計算資源の一定割合はINCITE (Innovative and Novel Computational Impact on Theory and Experiment) によって配分される。これは競争的なプログラムであり、LCFは企業や海外に対してもオープンにすべきであると危害から要請されている。LCFの80%、NERSCの10%はINCITEによって配分される。INCITEの提案は3人のpeer reviewer によって評価され配分される。100件ほどの提案がある。reviewerは一人最大3件まで評価する。評価は3日間DCのあたりに集まってon siteでなされるものと、集まらずにメールでなされるものとがある。提案の申請計算時間は2000M processor hoursあるが、採択されるのは600M processor hoursである。
私が担当しているNERSCでは、70%以上(160M Processor hours)がSC Program Officeによって配分され、10%がINCITEである。3100人のユーザがあり、400のプロジェクトが走っている。NERSCはユーザの教育も担当している。INCITEのユーザの60%がNERSCの卒業生である。
4. 富士通のPETAへの取組みのご紹介 富士通梶@木村康則
JAXAに納入予定のFX1は、135TFピークで、308bitsの仮数部を持つ演算器を備えた高機能スイッチや、仮想的に1プロセッサに見せるIMPACTを提供する。
富士通の次世代機Varunaは水冷で、45nmテクノロジーを用い、CPU当たり100GF[128かもしれない?]、ラック当たり10TFである。1ノードは128GFで、Tofuという6次元メッシュの相互接続網を持つ。双方向で5GB/sで最大24PFまで構成できる。
小規模な構成では、96 nodes+3 I/O channelで、ピーク49.2 TF、メモリ6.1 TB、ディスク43 TBで、690MF/Wのエネルギー効率を持つ。
2. 富士通ブースのご紹介 富士通梶@奥田基
3. ご挨拶 富士通梶@取締役副会長 伊東千秋
======17日(月曜日)======
17−1 Intel HPC Technology Roundtable
17日12時30分から、Radison Hotels & Suitesで表記会合が開かれ参加した。フランクな意見交換のためにNDAを結んでの会合であったが、個々の内容はある程度一般に知られた内容であった。
17−2 Gala Opening
7時からはGala Openingであったが、今年も会場前に展示関係者のために軽食と飲み物がサービスされた。これは大変好評であった。
17−3 ARGO Graphics Welcom Party
19時から会場近くの日本食レストランKENICHIにおいて、アルゴグラフィックスのパーティが開かれるとのお誘いがあり、Gala Openingのあと参加した。Yellow Dog Linuxの開発者なども会えて有益であった。
======15日火曜日======
18−1 開会式
前日のGala Openingに引き続いて、18日(火曜日)の8:30から開会式があった。聴覚障害の人のために手話通訳がなされていた。
a) 組織委員長Pat Tellerあいさつ
この中で、テキサス州知事からのメッセージが代読された。
委員、多数のボランティア、SCinetの担当者などへの感謝が述べられた。
展示数、参加者数、Education Programなどの紹介があった。
プログラムチェアの挨拶が、ビデオであった。
a) オースチン市長(Will Wynn)の挨拶
アメリカで14番目に大きい市であると豪語。本当かな?
c) SCxyの歴史のビデオ上映。このビデオは参加者にDVDディスクとして配布された。
d) 今年、3人の関係者の訃報があったことが報告された。Ed Oliver、George Michael (1988のGeneral Chair)ともう一人[誰?]。
b) 全21回のSC参加者24名にメダルが授与された。日本からは三浦謙一氏1名。
18−2 Keynote Address Michael Dell
まるでコマーシャルトークだという批判が聞かれた。内容を要約する。
HPCはすべてに関係している。ブラックホールを作るのではないかと言われたLHCと同様に、人間の能力を解き放つものである。人間の脳は20PF相当と推定されるので、日本の次世代の10PFのコンピュータはその半分である。
HPCにより大きな問題を解くことができ、我々の進化を加速する。今の経済危機はHPCで解決しないのか? スーパーコンピュータには3つの波があった。最初の波はベクトルコンピュータである。次はマイクロプロセッサに基づく超並列である。第三の波はGPUのような特殊プロセッサである。NVIDIAのTesla cardを指すことにより1TFのデスクトップが実現する。今年の展示でもCrayからSiCortexまでこのテーマがあふれている。今後の問題は標準化である。第四の波は、標準化、高密度、省エネルギー、より使いやすいシステムでなければならない。
第四の波を支える技術は、超高密度サーバーである。2010+にはプロセッサ密度は80 coresになるであろう。5年前には$1Mで2TFが買えたが、今なら25TFが買える。同時に外部記憶装置についてもより多くの可能性がでてくるであろう。気候変動や遺伝子解析だけでなく、アニメーションフィルムを作ることもでき、また製造会社がものを実際に製造する前に仮想的に製品を作ることができる。これによりサービスを革新することができる。
よりよい社会、よりよい経済、よりよい惑星(地球)のために技術革新を続けなければならない。再生 "Regeneration" を目指そう。
技術的な内容については、下記の記事を参照してください。
[Dell社のページから]
Michael Dell, chairman and CEO of Dell Inc., in a speech at the SC08 Conference in Austin, Texas, today highlighted the democratization of supercomputing thanks to the use of standards and off-the-shelf parts. That democratization, he noted, blurs the line between high-performance computing and corporate computing, which powers services such as Facebook and Microsoft's cloud computing service(both of which are built on Dell hardware, of course).
It also means high-performance computers will be found everywhere -- even on your desktop. In his speech Dell gave a boost to Nvidia and its use of GPUs in supercomputers by announcing that Dell would add 1 teraflop to its personal HPC workstations through a Nvidia Telsa[ママ] card. The idea of a supercomputer on your desktop is a big theme at the show this year, with vendors ranging from Cray to SiCortex highlighting their high-performance workstations, and vendors such as Microsoft pushing new HPC software.
Moving far beyond the desktop, Dell also announced the creation of a 96-teraflop supercomputing test bed called Project Hyperion in partnership with Lawrence Livermore Laboratories and several other vendors. A teraflop is a measure of how many floating point operations per second a computer can handle. The fastest computer today is running at more than 1 petaflop, a thousand times the power of a teraflop. The goal of the Hyperion testbed is to figure out file systems, cluster management software and networking technology in a peta-scale environment. That environment is getting closer as more power can now be crammed onto fewer machines than ever before.
As an example of the increasing power, Dell pointed to server density improvements thanks to the use of blade servers and the ability to place as many multicore processors on them as possible. He gave the example of a Dell cluster built in 2003 that used x86 processors on 1,250 servers to create a 9.8-teraflop computer. In 2008 it took 155 servers to build a 10.7-teraflop computer.
As compute power has become democratized and cheaper -- Dell also noted that five years ago $1 million could buy someone 2 teraflops of computing vs. 25 teraflops today -- the world is finding more uses for it. That means that in addition to the traditional scientific uses such as climate change research and gene sequencing, companies use HPC to create animated films and to virtually build products before they are ever manufactured. It also means HPC is a bright spot amid a tumbling economy.
18−3 AIST booth presentation
産総研から頼まれて、産総研のブースで15時30分から"HPC Trends in Japan" と題してプレゼンテーションを行った。展示会場でのプレゼンテーションは、会場を歩いている人の足を止められれば成功であるが、これがなかな難しい。幸い、AISTのブースの前はQuadricsのドタキャンによる休憩所になっていたので、そこの人々の耳を奪うように持ち前の大音響で講演した。
18−4 Top500 BoF
a) Top500の発表と表彰 (Horst Simon)
まずHorst Simon (NERSC, LBNL) が32回目のトップ10の発表を行い、3位までに表彰状を手渡した。10位までは以下の通り。
Rank |
Site
|
Computer |
Rmax |
1
|
DOE/NNSA/LANL
|
USA
|
Roadrunner - BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz , Voltaire Infiniband, IBM |
1105.0
|
2 |
ORNL |
USA |
Cray XT5 QC 2.3 GHz, Cray Inc. |
1059.0 |
3
|
NASA/Ames Research Center/NAS |
USA
|
Pleiades - SGI Altix ICE 8200EX, Xeon QC 3.0/2.66 GHz, SGI |
487.0
|
4
|
DOE/NNSA/LLNL
|
USA
|
BlueGene/L - eServer Blue Gene Solution, IBM |
478.2
|
5
|
Argonne National Laboratory |
USA
|
Blue Gene/P Solution, IBM
|
450.3
|
6
|
TACC, U. of Texas
|
USA
|
Ranger - SunBlade x6420, Opteron QC 2.3 Ghz, Infiniband, Sun Microsystems |
433.2
|
7
|
NERSC/LBNL
|
USA
|
Franklin - Cray XT4 QuadCore 2.3 GHz, Cray Inc |
266.3
|
8
|
Oak Ridge National Laboratory |
USA
|
Jaguar - Cray XT4 QuadCore 2.1 GHz
Cray Inc. |
205.0
|
9
|
NNSA/Sandia National Laboratories
|
USA
|
Red Storm - Sandia/ Cray Red Storm, XT3/4, 2.4/2.2 GHz dual/quad core,
Cray Inc. |
204.2
|
10
|
Shanghai Supercomputer Center |
中国
|
Dawning 5000A, QC Opteron 1.9 Ghz, Infiniband, Windows HPC 2008 |
180.6
|
順位2,3,7,9,10の5件は、新登場もしくは顕著な性能向上のあったものである。
中国が10位に進出したことはビッグ・ニュースであった。中国名は「曙光」である。
ORNLのJaguarは、2008年6月のRoadrunnerの性能を越えていたが、敵もさるもの、台数を増加して逃げ切った。順位8のマシンと結合して上位をねらう可能性もあったかと思うが、「Linpackより実アプリの性能を重視」ということで実現せず。
b) "High Lights of Top 500" (E. Strohmaier)
続いてStrohmaierが"Highlights"について述べた。いつもの通り、大陸別、国別、ベンダ別、チップ別などの分析ののち、消費電力の分析に時間を割いた。まず、電力効率MF/W を順位に従ってプロットした図を示した。400 MF/Wを越えているものがトップのRoadrunnerを含め4件ある。絶対消費電力ではJaguarが7MWで次が地球シミュレータの3.2MW。これは6年前の技術であるからやむをえないであろう。
プロセッサで電力効率を見ると3つのグループに分かれる。一つは、XCell 8i、次がPowerPC450 (BlueGene/P), Harpertown, Opeteron Quadcoreなど。第三のグループはPowerPC440 (BlueGene/L), Clovertown, Power6, Opteron Dualcoreなどである。
ちなみに、Top500のうち日本にあるコンピュータはたった18台である。
27東大情報基盤センター(T2K) Hitachi Hitachi Cluster Opteron 82984
29東工大学術国際情報センター(Tsubame) NEC/Sun Sun Fire x4600/x6250, 77480
32筑波大計算物理学研究センター(T2K) Appro l Appro Xtreme-X3 Server - 76460
51京大情報基盤センター(T2K) Fujitsu Fujitsu Cluster HX600, Opteron 50510
62自動車企業 IBM BladeCenter HS21 Cluster, 43787.2
74海洋研究開発機構 NEC Earth-Simulator 35860
135国立天文台 Cray Inc. Cray XT4 QuadCore 2.2 GHz 22930
208産総研生命情報工学研究センター IBM eServer Blue Gene Solution 18665
211高エネルギー加速器研究機構 IBM eServer Blue Gene Solution 18665
212高エネルギー加速器研究機構 IBM eServer Blue Gene Solution 18665
222宇宙航空研究開発機構 Fujitsu Fujitsu FX1, 18540
345東大情報基盤センター Hitachi SR11000-J2 15811
380九大情報基盤研究開発センター Fujitsu PRIMERGY RX200S3, 15090
384 通信会社 HP Cluster Platform 3000 BL460c, Xeon 14980.4
385 自動車企業 HP Cluster Platform 3000 BL460c, Xeon 14942.3
397 海洋研究開発機構 SGI Altix 4700 1.6 GHz 14593
459 金融機関 HP Cluster Platform 3000 BL460c, Xeon 13635.1
478 ソニー情報技術研究所. HP Cluster Platform 3000 BL460c, Xeon 13170
かつては100を超えていたことを考えると寂しい限りである。
正式にはアナウンスされていないが、12月の初め頃リストが訂正され、上記62番が削除されてそれ以下が1位ずつ上昇している。従って、地球シミュレータは73位となった。
c)Linpack Benchmark and Some Issues(Jack Dongarra)
次にJack Dongarraが表記のタイトルで問題提起を行った。
Linpack benchmarkはO(n2)のデータでO(n3)の演算を行う。サイズを変えながら性能を測定すると、サイズとともに上昇し飽和する。従って、できるたけ大きなサイズで測定する方が、よい値が得られる。
LANLのRoadrunnerはn=2.3×106で実行し2時間かかった。ORNLのJaguarはより大きい300TBのメモリがあるので、n=4.7×106で実行し18時間を要した。もし5PFのマシンがあり、n=33.5×106で実行すれば2.5日も掛かってしまう。これは問題だ。
Linpackのプラスの面はシステムのバランスを強調していることである。そのためにLinpackの一部だけを走らせて測定することが考えられる。しかし、どの部分を何時間走らせたらよいか。解の精度をどうチェックしたらよいか。JaguarでのLinpackの計算速度の18時間にわたる時間変化のグラフを示した。前提としてLU分解が進むと速度は下がる。あと、ブロックの切れ目で少し下がる。どのウィンドウを取ったらいいのか。それともモンテカルロのようにサンプリングをするのか。全体のランを反映するウィンドウはあるのか。
われわれはHPLに変更を加える予定である。これはHamburgのISC のあとで公開できるであろう。[もしLinpackの測定ルールが変更されればその影響は大きい。]
d) 次回
次回のTop500は、HamburgのISC2009で発表される。
18−5The HPC Challenge
18日(火)の昼に、HPC ChallengeのBoFがあった。私は行かなかったが、平木氏から以下のデータをいただいた。なお、
http://icl.cs.utk.edu/hpcc/
を参照。
-----------------平木氏--------------------
Class 1よりClass 2に中心が移っているという印象でした。
HPC Challenge Awardsの2008の結果です
Class 1 Winners
G HPL
3位 BGP Argonne 191Tflops
2位 BGL Livermore 259Tflops
1位 Cray XT5 Oak Ridge, 902 Tflos
G-Stream
3位 BGP 130TB/s
2位 BGL Livermore 160TB
1位 Cray XT5 Oak Ridge 330TB/s
G-Random
3位 Cray XT3 Sandia 34GUPS
2位 BGL Livermore 35GUPS
1位 BGP Argonne 103GUPS
G-FFT
3位 XT4 Oak Ridge 2773Gflops
2位 Cray XT4 2870 Gflops
1位 BGP Argonne 5080 Gflops
--------------------------------------------------------------
======19日水曜日======
朝の招待講演の座長はThomas Zacharia (ORNL)であり、参加登録者が10700を超えたこと、テクニカルプログラム登録者が4100人を越えたことが報告された。
19−1 Kenneth H. Buetow, National Cancer Institute(8:30)
"Developing an Interoperable IT Framework to Enable Personalized Medicine"
21世紀に医学でやりたいことはいくつかある。一つは、複雑な連続系としての分子医学(Molecular Medicine)である。これまでは各分野が島のように分かれていて、情報が孤立している。情報を流通させるシステムを作ったのは17世紀のロンドン王立協会で、論文を出版するという文化を確立した。NCIは情報を活用するためにCaBIG (Cancer Biomedical Information Grid) を作り、190の組織をつないだ。これにより、モジュールを結合して、国際標準の技術を使うことができる。これにより、(1) clinical research (2) ? (3) molecular biology (4) pathologyが可能になった。境界とインタフェースを糊でつなぎ、相互運用を可能にする。これはコミュニティ駆動の組織である。
標準はweb serviceに基づくグリッドサービスである。サービスレイヤーはweb service infrastructureである。セキュリティはGird Security Infrastructure (GAARDS)である。
56のガンセンターを結ぶcaGRIDはcaBIGと結合してる。世界的にもUK, 中国、インド、ラテンアメリカなどに広げる予定。これはグリッドのグリッドとなる。次の波は、ユーザに達することである。
今後は、個人のゲノム・プロファイルからガン予防戦略を立て、医療記録を結合する。これはBIG Health Ecosystemである。
HPC というよりグリッドの講演であった。
19−2 David Patterson, University of California Berkeley & Lawrence Berkeley National Laboratory(9:15)
"Parallel Computing Landscape: A View from Berkeley"
並列革命の準備はできたか。クロックは進歩しないので、各社ともマルチコアに進んでいる。これは失敗するかもしれない。会社のfailure rateは100%だ[何を言いたいのか?]。ソフトウェアが対応しなければならない。
まず、クライアント・サーバ・システムを再発明しなければならない。成功できるかもしれない。なぜなら、(1)今のところkiller microがなく(2) multicore synergyはSaaSと出会う(3)オープンソースが??
single-chip multiprocessingは技術革新である。FPGA prototypingは開発サイクルを短縮する。
バークレイの並列研究室では何を考えているのか。並列性に対するフレッシュなアプローチが必要である。組み込みシステムと同時に。
テーマ1:どのアプリを対象とするのか。MS Wordのために100 coresは必要ない。考えられるのは、音楽や映像の検索、冠動脈の病気の診断、ン性認識、健康管理、顔の認識(目の前の人の顔を認識して、これは誰で、前にはいつどこで会った、などの情報を耳元でささやいてくれる機械name whispererがほしい)、並列ブラウザなど。
テーマ2:デザインパターンの利用。古いコードをどうするか。
テーマ3:並列ソフトウェアの開発。効率と生産性の高い開発手法、正しさを保証する手法。21世紀のコード生成は自動チューニング、マシンチューニングである。ATLASやFFTWのような。
テーマ4:OSとアーキテクチャの関係をどうするか。ハードとしては"Small is beautiful" なので、ハードをソフトごとに分割して、例えばOSだけが走るコアを用意するとか。
テーマ5:消費電力と性能とのボトルネックの診断。
19−3 Jack Dongarra (AIST booth presentation, 10:40)
"Five Important Features to consider when computing at scale"
前日私が講演したAISTのブースでJackが講演した。さすが有名人だと集客力も違う。5つの重要問題とは
1) manycore and hybrid core (dynamical data driven executionとblock data layoutが重要)。
manycore chipとともに、GPUやCellのようなhybid coreが出てきている。また、multi-chip with shared memoryのボードも出てきてる。これをどう使いこなすか。
70年代のLinpackはベクトルを考えてL1 BLASを用いた。
80年代のLAPACKはL3 BLASを使った。これはキャッシュに対応したブロック化にもとづくもので、共有メモリを前提にしていた。
90年代のScaLAPACKは、PBLASを用い、分散メモリを前提にした。
2000年代のPLASMAは、manycore に対応している。DAG schedulerを用いている。小粒度の並列処理と参照の局所性を用い、非同期的な処理を行っている。Adaptive lookahed LUは古いアイデアであるが、復活している。Cell上のこれスキー分解も同様。
2) mixed precision[前のCellは倍精度が非常に遅かったので、Jackは大部分を単精度で計算し、これを倍精度演算で誤差補正する手法を開発。昔、メインフレームでも倍精度が遅かったので、いろいろ工夫したが、『歴史は繰り返す』。]
3) self-adaptation/auto-tuning
4) Fault tolerance
5) communication avoiding algorithm
19−4 Editorial Board Meeting, International Journal for High Performance Computer Applications (Sage)(12:30)
恒例の編集委員会(委員長Jack Dongarra)が、会場のすぐ近くのフレンチ・レストラン Chez Nous French Restaurantで開かれた。編集委員の中にはJackを含め皆勤メダルを下げた人が何人もいた。
19−5 Sidney Fernbach Memorial Award (13:30)
Sidney Fernbach Awardは1992年にIEEE Computer Society 理事会によって制定され、1993年のSCから授与されている。大規模な問題を解くためにhigh performance computerを開発し利用することについてのパイオニアであったSidney Fernbach (LLNL) を記念して、革新的なアプローチによるHPC応用分野への寄与に対して送られる。今年の受賞者はIJHPCAのEditorial Boardの一員でもある、William Gropp of University of Illinois Urbana-Champaign
に対し、MPIの創出における顕著な貢献」に対して送られた。
19−6 Seymour Cray Computer Science and Engineering Award
Seymour Cray Award は、1996年10月に自動車事故で亡くなったSeymour Cray を記念して、1997年に設けられ、SGI社(当時Cray Research Inc. を併合中)はそのため20万ドルを拠金した。この賞は、コンピュータ・システムについて革新的なアプローチによって寄与したものに与えられる。第1回は1998年。今年は、ConvexおよびConvey Computerの創立者であるSteven Wallach氏に、「革新的なベクトルおよび並列コンピュータ、特にConvexミニスーパーコンピュータの設計を通してのHPCへの貢献、顕著な産業界での功績、および公共的な奉仕に対して」授与された。
19−7 NEC Super Computing 2008 HPC Workshop (3:30)
表記のワークショップが、会場に隣接するHilton Hotel で開かれた。私はこれには参加できなかったが、その後の懇親会にだけ出席した。プログラムだけ記す。
1) Hiroaki Kobayashi, Tohoku University
"The New Era of the Vector Architecture"
2) Satoshi Matsuoka, Tokyo Insititute of Technology, NII, JST CREST
"The Rise of the Commodity Vectors"
3) Sabine roller, HLRS, Univeristy Stuttgart
"Hybrid Supercomputing: Mapping the Characteristics of Applicaitons and Hardware"
4) Fumihiko Hisamitsu, NEC
"NEC's Vision on Future HPC Systems -- Where innovation will lead?"
======20日木曜日======
木曜日の8:30からは二つの招待講演があった。招待講演の前に来年のPortlandでのSC09の紹介があった。SC09のテーマは、1. sustainability, 2. Biocomputing, 3. 3D Internet とのことである。
20−1 Jeffrey Wadsworth, Battelle Memorial Institute (8:30)
"High-Performance Computing and the Energy Challenge: Issues and Opportunities"
ORNLのThomas Zachariaが座長なので、豹(jaguar)柄のネクタイを締めてきた、と前置きしてバッテル研究所の紹介をした。
Battell (1883〜1923) が創立した、non-profit, charitable trustである。今日では8つの研究所、21000人の陣人、$15BのR&D資金を投じている。あまりご存じないかもしれないがバーコードは当研究所が作った。
3つの問題が重要だと考えている。すなわち。
?エネルギー、環境、気候
?健康とライフサイエンス
?セキュリティ
である。
世界のエネルギー消費の予想は、2030年には695BTU(?)になる。これに対して魔法の杖(silver bullet)があるわけではない。"No free luuch." 複数の方法を組み合わせなければならない。例えば、原子力、biofuel、電気自動車、LEED building、二酸化炭素貯留(carbon sequestration)、太陽エネルギーなど。それぞれに利害得失があり、科学技術が必要。
過去には、エネルギーと資源の不足が技術革新を引き起こした。人間の活動が気候にどういう影響を及ぼすかは計算がキーである。HPCでエネルギーの挑戦に対応できる。
例えば、biofuelはcomputational chemistryの問題である。食料と取り合いにならないように、セルロースを燃料化する必要があり、bioinformaticsが必要。電気自動車は、電気貯蔵が問題。核分裂は1974年に廃棄物の問題で中止したがHPCが解決するのでは。核融合はITERに$20B投資するが、その設計はHPCが必要。石炭の液化、炭素の貯留、内燃機関の燃費の向上などすべて計算科学技術が予言できる。Predictive Modelingが縦横である。
DOEの研究所はenergy challengeに対応している。
Exascaleでは、Nano/Info/Bio が3本の柱である。
20−2 Mary Wheeler, University of Texas at Austin(9:15)
"Computational Frameworks for Subsurface Energy and Environmental Modeling and Simulation"
地元代表なので、石油探索・採掘、二酸化炭素の地下貯留などにおけるHPCの役割について議論。彼女の議論は細部にわたりすぎた。
20−3 表彰式
20日(木)1:30からのセッションにおいて、FernbachとCray以外の授賞式が行われた。
1) Gordon Bell Prize:
この賞はhigh-performance computers の実用的利用に対して授与される。今年は、6つの論文がfinalistsとして発表された。かつては、革新的利用、ピーク速度、費用性能比の3つのカテゴリーで授与されてきたが、今年はピーク速度に賞が、もう一つの論文に革新的アルゴリズム賞が与えられた。案の定Jaguarであった。
?for Peak Performance :Gonzalo Alvarez et. al (ORNL, Cray), "New Algorithm to Enable 400+ TFlop/s Sustained Performance in Simulations of Disorder Effects in High-Tc."
もう一つは、以下の論文であった。
?in a special recognition for algorithmic innovation:Lin-Wang Wang et al.(LBNL), "Linear Scaling Divide-and-Conquer Electronic Structure Calculations for Thousand Atom Nanostructures."
なお、今年は日本からfinalistsに残った論文はなかった。
2) Best Technical Paper Award :
3) Best Student Paper:
4) HPC Analytics Challenge Award :
HPC Analytics はSC|05で初めて登場したイニシアチブであり、HPCで用いられるデータ解析や可視化の革新的な方法論を、複雑な実世界の問題を実際に解くことによって実証する。4グループが参加し、次のグループが受賞した。
"Interactive HPC-driven visual analysis for multiplegenome datasets" C. Oehman et al. (PNNL)
なお、日本原子力研究開発機構システム計算科学センターの鈴木らは、"Cerebral Methodology Based Comuting for Estimating Validity of Simulation Results"でfinalistに残った。
5) HPC Storage Challenge
前は、StorCloud Awardと呼ばれていた。今回は、3チームがfinalistsに残り、"GrayWulf: Scalable Clustered Architecture for Data Intensive Computing"でA. Szaley et al. (Johns Hopkins, Microsoft, U. of Illinois at Chicago, U. of Hawaii, Dell Inc.)
が受賞した。
6) Bandwidth Challenge
バンド幅チャレンジはSC2000に始まった。初期のような熱気はない。今回は6チームがfinalistsに残り、"Towards Global Scale Cloud Computing: Using Sector and Sphere on the Open Cloud Testbed"でR.L. Grossman et al. (U. of Illinois at Chicago)が受賞した。
7) Cluster Challenge
これは今年は2回目で、学生のチームが先生1人の指導の下に、会場でクラスタを組み立て、性能を測定するものである。今回は、7チームが参加し、ドレスデン工科大学とインディアナ大学の合同チーム"Team Cluster Meister" が優勝した。
20−4 展示の終了
この日の午後4時で展示は終了し、各ブースとも撤収に入った。300以上のブースが同時に作業をするので、フリーマンもてんてこ舞いで、手順が悪いとずいぶん時間が掛かることもある。
私はevening eventには行かず、筑波大学のグループと最後の晩餐を行った。
======21日金曜日======
21日(金)は最終日で、Workshopなどの他は午前で終了する。午前中には2つずつ並列で4つのパネルが設けられた。
8:30AM - 10:00AM "SC Past and Future"
8:30AM - 10:00AM "My Cloud, Your Cloud"
10:30AM - 12:00PM "The Hungry Music Monster"
10:30AM - 12:00PM "Exa and Yotta Scale Data"
18−1
18−2
"4th International Workshop on High Performance Computing for Nanoscience and Technology (HPCNano08)" を除いて、12時ですべてのプログラムは終了した。
----------------------------------------------------------------