2000/12/21 SC2000報告 小柳義夫 1.はじめに SC2000: High Performance Networking and Computing Conference国際会議 (通称 Supercomputing 2000) は、12周年目の今年、テキサス州 Dallasの Dallas Convention Center で11月6日から10日まで開催された(educational program やtutorialは4日から)。南国とはいえ、急激に秋が深まり、雨(雷雨) も多く、肌寒い毎日であった。そもそも到着した日曜日の夕方には猛烈な雷雨 でダラス空港が閉鎖になり、私や何人かの参加者の乗ったサンフランシスコか らの飛行機は200マイルほど北のオクラホマシティーに不時着した。給油して1 時間ほどで飛び立ったので、結局2時間遅れただけであったが、ダラス空港に 着陸して1時間半も飛行機に閉じこめられた人や、空港ビルに入ったが荷物が 出てこなかった人などいろいろあったようだ。どういうわけか今頃(11/24)に なって航空会社から日本語の詫び状が届いた。船便の封書(なんと10セント)で あった。 ダラスは全米第8位の大都市(人口100万、周辺も入れて300万)で、綿花、石 油、航空機、ミサイル、電子工業、金融・保険の町だそうだが、高層ビルの並 ぶダウンタウンは比較的小さく、歩けるほどのサイズである。観光名所も、ケ ネディーを撃ったとされるオズワルドのいた元教科書倉庫のビルの"The Sixth Floor Museum" だけである。また今回ちょうど火曜日がElection Dayなので、 Bushのお膝元で戦勝パレードぐらいあるかと期待していたが、ご存じの"Too close to call" でゴタゴタを見ることになった。 2.歴史 この会議はアメリカの東西で交互に開かれて来た。参加者等のデータを示す。 年次、開催都市、展示・チュートリアル等を含めた総参加者数、technical program有料登録者数、総展示数、投稿論文数、採択数、採択率を示す。 (thanks to Dr. Al Brenner) total tech. exh. sub. acc. rate 1回(1988) Orlando 1495 36 150 60 40% 2回(1989) Reno 1926 47 ? 88 3回(1990) New York 2303 59 ? 92 4回(1991) Albuquerque 4442 80 215 83 39% 5回(1992) Minneapolis 4636 82 220 75 34% 6回(1993) Portland 5196 106 300 72 24% 7回(1994) Washington 5822 2209 122 ? 77 8回(1995) San Diego 5772 2017 106 241 69 29% 9回(1996) Pittsburgh 4682 1642 121 143 54 38% 10回(1997) San Jose 5436 1837 126 334 57 17% 11回(1998) Orlando 5750 1984 130 270 54 20% 12回(1999) Portland 5100 2124 149 223 65 29% 13回(2000) Dallas 5051 2096 159 179 62 35% 私は、第1回、第4回と昨年の第12回は出席できなかった。 ちなみに、来年の予定は 14回 2001年 Denver, Colorado, November 10-16 である。詳しくはホームページhttp://www.sc2001.org/を参照してください。 3.全体像 今年の参加者は例年より若干少ないのではないかという感じであったが、主 催者発表によると上記のとおりだいたい例年並のようだ。ただ日本人はどんど ん増えている感じがする。主催者の発表によると、アメリカの50州全部からと プエルトリコから参加者があり、世界の32カ国から集まっているとのことであ る。 会議は、5日(日)、6日(月)にチュートリアル(24件、全日は9件、半日は15件) とEducational Program が始まった。Education Programは年々盛大になり、 今年は企業から2年にわたって2億円以上の資金提供を受け、75人のstudent volunteersの協力を得て、(high schoolの)教師一人当たり180時間ものトレー ニングを行ったとのことである。SC始まって以来の流れであるが、あらためて アメリカのK-12 (幼稚園から高校3年まで)のコンピュータ教育への熱意には驚 嘆すると同時に、日本はこれでよいのか心配になる。 これらを別にすれば、月曜日の夜7時の Gala Openings(盛大な開会式。「ギャ ラ」と発音したら、「ゲイラ」と言うんだと受付のおばちゃんに教えられた。 イタリア語だからガラでもいいと思うが)から会議の中心部分が始まる。この とき展示会場が公開されその場で飲み物(参加者は2杯まで無料)と軽食が提供 される。やあやあ、と旧交を温めるのもこのときである。 火曜日の朝から実質的なプログラムが始まる。朝は8:30からで、遠くのホテ ルに泊まっていると結構つらい。会議指定のホテルと会場の間は朝から晩まで ひっきりなしに貸し切りバスが往復している。8:30--10:00はplenaryで、基調 講演とState-of-the-Field Talks (4件)に当てられている。 State-of-the-Field Talkは2年前のOrlando以来3年目である。10時からはコー ヒーブレーク。展示会場も10時からオープン。10:30から17:00まではいろいろ なプログラムが多数並列に設定されている。今年は、審査付きの原著講演(30 分)と並列に、Masterworksと称して、さまざまな分野の総合報告が招待講演 (45分)として設けられていた。パネルは例年よりだいぶ少ない(7件)。そのほ か例年の通り、企業展示、研究展示、Exhibitor's Forum、 Birds-of-a-Featherなどいろいろある。今年は、Poster の代わりにResearch Gemsという企画が立てられ、展示会場の一角で29件の発表がなされた。 4.Social Events Ladies' Program などはないが、木曜日の夜はLone Star Parkという競馬場 に会場を設定してReceptionが催された。テント小屋での食事は寒くて、ビー ルの冷たさが身にしみた。バスを降りるとき全員に5ドルの馬券引換券が渡さ れ、適当に賭けろと言われたが、日本でも競馬なんかやったことがないので、 まごついた。わざわざSC2000 Classicなどというレースも準備してあった。み んなから券を集めて賭け、だいぶ賞金を獲得していた日本人もいたようである (特に名は秘す)。 このほか、いくつかの企業が、お客様を招待するパーティーもあった。今年 はみんな火曜日で、Sun Microsystemsが会議場で、Cray Inc.がAmtrakのUnion Stationの歴史的な建物(鉄道開通は1870年代)で、Compaq がFairmont Hotelで、 SGIがCity Placeというショッピングセンターに隣接する会場で、IBMはThe Science Placeという科学館でそれぞれ開いた。火曜日はちょうどアメリカ大 統領選挙の日で、さるパーティー会場では大きなスクリーンに2局のテレビを 放映していた。最初はゴア優勢と言われていたが、パーティーの後半では次第 にブッシュが巻き返し、夜中にブッシュ当確が打たれたが、その後はご存じの 大混乱。 5.企業展示 この会議の目玉の一つは大規模な企業展示である。今年も広大な会場に多く の企業の展示がにぎやかに設営された。今年は、クラスタを含むハードウェア ベンダを始めとして、ソフトウェア、大容量記憶装置、ネットワーク、 E-commerce、出版、学会など約90の企業等が出展した。Applied Metacomputing, Knowledgeport Alliance, Entropia, Parabonのようないわゆ るMegacomputingの企業の参入は今年の新傾向であろう。 正直言って、今年はあまり目新しいものはなかった。IBMはPower4やBlue Geneを宣伝していた。Compaqは、ASCI Q(30+ Tera OPS)を受注したばかりで意 気が上がっていた。これは、375台のGS320 (32 CPU)を結合したものである。 原子力研究所(関西)にもかなり大きなシステムを受注していて、"Strongest computer in Japan" だとか電光表示で自慢していた。strongかどうかは主観 の問題だが。Sun Microsystemsのブースのシアターでは、会社のセールストー クの他に、8日(水)の昼には理研の成見君がMDGrape-WINE systemによるNaClの シミュレーション(Gordon Bell賞の候補になった仕事)を発表し、実演してい た。なんでかと思ったら、ホストがSun Microsystems の Ultra serverだとい うことであった。 SGIはOrigin 3200/3400/3800などを出展していた。モジュール性を重視した NUMAflexというコンセプトを打ち出し、来年にはIA-64 ItaniumやPCI-Xなどに も繋げていくらしい。なんでも、Ohio Supercomputer CenterにはIA-64を使っ た機械のprototype systemが設置されたとのことである。 Teraに吸収されてCray Inc.となった旧Cray Divisionは、SV1の増強版SV1ex を発表した。8M gatesのASICがtape outしたとのことである。450MHzでプロセッ サ当たり1.8 GFlops、ノード当たり7.2 GFlopsと50%増強された。SV1は既に 100台以上販売しているそうだ。SV2の噂もいろいろ流れているがどうなたのか? 日本の3社もは、例年通り大きなブースで出展していた。NECはSX-5を、富士 通はVPP5000を、日立はSR8000を軸に出展した。ニュースによると、Hitachiは SR8000のデバッガとして、EtnusのTotalViewを選択したとのことで、日本の代 理店Softekの武田喜一郎社長のコメントが出ていた。 会議と平行して Exhibitor's Forum が開催され、展示を出した各社が30分 弱ずつ講演したが今年は聞く時間がなかった。 6.研究展示 Research Exhibits 大学・研究所などの展示は、年毎に盛んになっている。今年は、合計69の展 示があった。そのうちなんと13件は日本からの出展であった。電総研、原子力 研究所計算科学推進センター、JAMSTEC海洋科学研究センター、科学技術振興 事業団、航技研、大阪大学サイバーメディアセンター、RWCP、RIST、埼玉大学、 理研、Adventure(東大)、GRAPE(東大)、早稲田大学。このうち、Adventure、 GRAPE、早稲田大学の3つは学術振興会の未来開拓研究推進事業関連である。中 でも、JAMSTECは地球シミュレータの1/100模型とCPUボードとを展示していた。 7.開会式 7日 (火曜日) 8:30より大ホールで開会式があった。開会前の時間にスクリー ンにこれまでの多くのスーパーコンピュータの映像がComputer Museumの提供 で上映された。日本のマシンもあったし、昔の懐かしいマシンの映像もあった。 組織委員長の挨拶の後、来年の Denver, Coloradoでの SC2001の組織委員長 Charles Slocomb (LANL)が挨拶した。そのあと、今年ノーベル物理学賞を取っ たばかりの集積回路の祖Jack Kilby氏(Texas A&M)が公式開会宣言をおこなっ た。「コンピュータ博物館の映像は昔を思い出させる。しかし重要なことは、 この進歩が終わったわけではないということである。今も進歩は続いていて、 最良のものは未来にあるであろう。」 8.基調講演 今回の基調講演はConvexの共同創立者の一人 Steven J. Wallach (CenterPoint Vecture Partners / Chiaro Networks)の "Petaflops in the Year 2009"であった。かれは2009年までにPetaflops計算機を製作する方法は 何かと問い、高密度化したシリコンチップを光接続する、というスキームを提 示した。 最先端計算機にはASCI standardといったものができている。つまりノード 数は8192位、コストは$150M位。この頃のソフトウェアは、99%がlinux、1%が NTであろう。 問題は消費電力である。P = C V^2 F の関係がある。Cは電気容量、Vは電圧、 Fは周波数である。他方、遅延はloselessなら T = √(LC) であり、lossyなら T = CR である。AlからCuに変えることによって、delayを減らせる。 他方、WDM (wavelength division multiplexing) により、光通信は急速に 進歩している。光アンプも4THzから25THzまで進歩した。AON (all optical network) も可能になりつつある。光は次世代のスーパーコンピュータの技術 である。http://www.ll.mit.edu/aon/参照。 Broadband connection model with AON によりWDM architecture のような ものを考えられる。ボトルネックはルーティングノードである。しかしインター ネットの速さが早くなると、ほとんどスーパーコンピュータのスイッチングと 同じ性能が要求される。 SIA(アメリカ半導体工業会)は10年から12年先の予想を出しているが、1997 年の予想に比べて、1999年の予想は遙かに進んでいる。半導体技術の進歩は急 速に加速している。2008年には、内部は6GHz、外部は2.5GHzとなるが、これは I/O pinの転送速度が9年間に3倍になることを意味する。これは可能か?やは り何千ものピンを付けるのではなく、光接続を用いざるを得ない。光と電気の 転送速度の違いは、1996には5倍であったが、2001年には20倍も違う。 Petaflopsではソフトも重要である。linuxの行数は指数的に増加している。 連続系のプログラムは、x, y, z, tと反復軸の5レベルから成っているが、x, y,.x, tについては自動並列化で、反復については明示的並列化ということい なるであろう。 チップは、DRAMなら64 Gb、SRAMなら8 Gb、520Mtr.、70 nm、ダイサイズは 2.54 cmであろう。RISCを9Mtr.で作り、L1 cacheとL2 cache (命令 6MB、デー タ 90MB)とすると、CPU当たり24GFlopsとなる。0.6〜0.9Vで170Wであろう(CPU 当たりかチップ全体か不明)。チップ上の構成としては、6〜8 CPUのSMP on chipか、4 CPU + DRAM 4 GBのintegrated SMPの2種が考えられる。 接続は光が望ましい。AONを用いれば640 GB/sのスイッチができる。 結局COTS (commodity-off-the-shelf) Petaflopsは次のようなイメージとな る。全体は8192 dies (4 CPU/die, 120 GF/die)、ピークは1PF。メモリは2レ ベルで、on chipのlocalなメモリは速いが、off chip memoryもlatencyは長い がバンド幅は同じにできる。CPUのパワーは1MW、メモリは3MW食う。光接続は、 OC768 (40 GHz)を用い、die当たり128チャンネルで合計5.12 THz相当。スイッ チは全て光。bisection bandwidthは50TB/s。 2010年のCPUは、計算はシリコン、通信は光となるであろう。 9.The Earth Simulator 11月7日(火)のMasterworksは、Computing Platformsと題して、"Blue Gene" by Monty Denneau (IBM) と、"Status of the Earth Simulator Project in Japan" by Kenji Tani (Japan Atomic Energy Research Institute) とがあった。いずれも今後のHigh Endのコンピュータであり、多 くの聴衆を集めていた。谷氏は地球シミュレータのハード、ソフト、応用につ いて全体的な解説をし、CPUボードと建物全体の模型が展示会場に出展されて いることを述べた。「総予算は?」という質問が出て、谷氏が一瞬たじろぐ場 面もあった。 10.Tom Sterling (NASA JPL / CalTech) 11月8日(水)8:30は今回のState-of-the-field-Talkの第1回として、Tom Sterlingの "COTS Cluster-Systems for High Performance Computing" があっ た。今年の5月の早稲田でのJSPPにお招きしたが、そのときの話の前半に相当 する。 クラスタが急速に進展している。今回の展示会場には20セット以上のクラス タが動いている。PC clusterとは、独立なコンピュータの集まりで、COTSから 成り、独立に動作可能で、それぞれは単一プロセッサまたはSMPで、全体とし て一つのシステムをなしているものを言う。クラスタは種々の利点をもち、 HPCの中で重要性が増している。 大きなクラスタもある(と言って何枚かの写真を示した)。最近は、各ノード が密結合(SMP or DSM) の複数のコンピュータから成るものもあり、 constellation と呼ばれている。 最新のTOP500では、112のconstellationsと28のclustersが入っている。最 も速いのは31番のAlpha serverである。 歴史をたどると、1957のNORADのSAGEが最初であろう。最近では、NSFの資金 でPSC(Pittsburg Supercomputer Center)はCompaqに6TFlopsのクラスタを注文 した。クラスタは、"Do it yourself supercomputer" だということである。 BerkeleyのNOW1は95年、NOW2は97年。これは100台以上のUltrasparcを並べた もので、TOP500に載った最初のクラスタであった。NASAのBeowulfは、Wiglaf (1994)→Hrothgan(1995)→Hyglac(1996)→Naeglingと進化した。 CPUチップはどんどん進歩している。PentiumIIIは1.0GHzで動き、最初の Pentiumから見ると70の新しい命令を含んでいる。CompaqのAlphaも 21264/21364と発展している。PCI interfaceも32bits から64bits、33MHzから 66MHzとなり、バンド幅は4倍になっている。ノード間結合も、myrinet, fast/giga ether, Giganet cLANなどどんどん高速なものが出てきている。 ソフトはOpen Source Softwareが一般的になった。初期のgnu, free BSD, linux, PVMなどはそのはしりである。無償のソフトは必ずしもOSSではない。 メッセージパシングでは、昔はNXとか、PVMとか、P4 とかあったが、MPIに統 一された。このほか、Maui (job scheduling), Condor (distributed task scheduler), PBS (workload management system), Parallel Virtual File System などいろいろある。またmiddlewareを売るベンダもある。クラスタそ のものもturn-keyシステム(コンセントにつないで、スイッチを入れれば動く システム)として売られている。 今後クラスタのハードとソフトは大きな市場になる。21世紀のHPCはクラス タだ。価格性能比とスケーラビリティは良い。ソフトとしては、QoSとともに robust availabilityが大事である。状況は急速に変化している。SC2001を待 とう!! [クラスタはいいが、HTMTはどうしたの、との陰の声があった。] 11.Eugene H. Spafford (Purdue University) Tom Sterlingに続いて、セキュリティの専門家Spaffordによる"A Small Dose of Infosec"という講演があった。自分のホームページ http://www.cerias.purdue.edu/homes/spaf に今日のスライドがある(とい うことだが、/presents/SC2000.pdf のファイルは消えていた)。 これまで、セキュリティには研究資金が出なかった。しかし、最近になて、 Microsoftが2回もやられたり(2000/10)、イスラエルの情報機関がアタックさ れたり(2000/10)、韓国の情報省がやられたり(2000/8)、Yahooや Amazonなど がDoS (Denial-of-Service) Attackを受けたりして急に関心が高まってきた。 もちろん、99/3にはMelissaが4日間にわたって猛威を振るい、15万台のシステ ムが感染し、$300Mもの損害がでているし、2000/5のILOVEYOUウィルスは24時 間に50万台に蔓延し、$10Bの損害を与えた。 状況を見てみると、CSI/FBIのサーベイによると、回答者の70%は不法侵入を 受けた経験が有ると言うし、その損害は1社当たり年$1Mにも及ぶと言う。ウィ ルスの種類は現在6万種(うち1万はマクロウィルス)に及ぶと推定され、しかも 指数的に増大している。 OS別にみると、linux, Solaris, NTが多い。そのうち30%は単なるバッファ オーバーフローを使っている。なんと、全体の90%以上はコーディングや設計 の欠陥に基づいている。CERTのデータによると、1999年は1万件の事件があり、 今年はもっと増加している。 ではどうやっったら防衛できるか。ワクチンのようなウィルス防御ソフトは パターンに基づいている。従って、常時最新版に更新しないと意味ない。 Firewallも結局パターンに基づいているので、更新が必要である。VPN (Virtual Private Network)も__(不明)である。またsecurity scannersは 既知の欠陥や構成の誤りを探してくれるので、時々有効である。 登場人物には3種類ある。 −国家的攻撃、いわゆる情報戦争、秘密情報局など −共同攻撃、テロリスト、産業スパイ、組織犯罪など −個人的攻撃、industrial hackerやレクリエーション・ハッカー 現在では適当なweb pageからpoint & click attackが可能で、攻撃はますま す巧妙化している一方で、侵入者が必要な知識は減少している。open source はここまで普及している(笑)。 この傾向を2004年まで外挿するとどうなるか。このころには10万種類のウィ ルスが存在し、1時間に1種の速度で新顔が登場するであろう。しかも、その 99%は1種類のベンダーのソフト(Windows?)に取り付くものだろう。このころの 標準的なデスクトップシステムは、1 GHzを越え、ソフトは1億行にもなるので、 毎日セキュリティ・パッチが発表されるであろう。ネットワーク経由の攻撃は 1時間に10回、これによるビジネスや政府の損害は年間$100B (10兆円)を越え るであろう。 しかし待って欲しい。ウィルスの防御技術は進歩するかもしれないが、更新 しきれるだろうか。firewallはterabitものパイプに対処できるだろうか。と くに問題なのはwireless networkである。VPNだってモバイルになったらどう しようもない。security scannersもどんどん侵入的になり、毎時間更新が必 要になるであろう。 2004年の典型的ユーザは、ネットワーク歴1年以下で、computer scienceの 講義など聞いたこともなく、1 GHzのマシンでmajor OSを使い、アプリケーショ ンは3つ(web browser, email, game)ぐらいしか使わないであろう。もちろん、 バックアップなど取りはしない。そして常時接続をする。つまり、格好のター ゲットなのである。 問題はwireless networkingである。これは盗聴を増大させ、悪意あるコー ドの挿入を増やす。また、DoS攻撃もしやすい。また、theft of endpoints (なりすまし)もやりやすい。だからwireless networkによる損失や損害は大き な問題である。ともすれば、より安全性の低い環境で作業することになってし まう。 今後、より高速なマシンや通信が実現する。しかし、強力な暗号化、自動化 された防御システム、侵入データや関連する問題のより広い収集、データマイ ニング手法の利用などが必要である。より遠くから、より容易に到達できるか らである。 さらに、コンピュータ化と接続性が広まるであろう。これにより、これまで 考えられなかったような電気器具や通信、インフラなどがネットワークで接続 される。つまり、侵入は場所を問わない(ubiquitous)ものになる。冷蔵庫にウィ ルスが付く! 反面、COTS (Commodity-off-the-shelf) の質は低下している。なぜなら、 標準的で、均一な製品は安いのでどうしても使うことになる。消費者は、目新 しさを求めるが、セキュリティーを考えない。まるでブレーキのない車みたい なものである。ベンダーも消費者にそのような注意をしたり、訓練したりしな い。金がかかるからである。こうして、互換性が増すと問題である。つまり、 だれも質を求めないのである。ユーザのインストールしたソフトとか、自動更 新型ソフトなど大きな脅威である。専門家が不足している。法律など頼りにな らない。 ではどうしたらよいか。1)目新しさより安全性の保証を求めよ。2)"hammer" を使うのを止めよ(意味不明。規格標準品ということか?)。システムの多様性 を尊重せよ。3)はじめからセキュリティーを組み込め。4)ポリシーの違いを理 解せよ。 結論として、よりよりセキュリティーは可能である。ベンダーは質に優先順 位を置かなければならない。最後に、"There is more to life than increasing a speed" (人生にはスピードを上げるより他にやることがいっぱ いある) 12.Birds-of-a-Feather 8日(水)午後は、アメリカの国立研のさる方を日本の会社のブースにご案内 などして、Japan, Inc. のセールスマンをやっていた。地球シミュレータのボー ドや建物の模型を興味深そうに見ておられた。 この日の夕方、5:30〜7:00には、多くの "Birds-of-a-Feather" sessions (Cluster Computing, TOP500, HPC literacy, Grid Forum, TCP, PBS, SCICOMP, HPC Asia)が開かれた。火曜の夕方にもいくつかあった (Interconnect, Clusters for visualization, OpenMP, ASCI, Windows2000, ACTS, Parallel Tools consoutium, Undergraduate, GPFS)が、企業のパーティー などもあり出にくい。Birds-of-a-Feather とは、日本の学会でインフォーマ ル・セッションなどと呼ばれているような、同好の士の自由な集まりである。 辞書を見ていたら、「類は友を呼ぶ」に対応することわざとして、"Birds of a feather flock together" (同じ羽根の鳥は群をなす)と出ていた。 私はいくつかのBoFに出たかったが、役目上HPC Asiaの集まり(steering committee)に出席した。次回は2001年9月24〜29日にAustraliaのGoldcoastで 開かれるが、会議の全体の方向について議論した。 13.Margaret H. Wright (Bell Labs) 9日(木)朝の総合講演の1番目は、M. H. Writeの"Numbers, Lots of Numbers, And Insight, too: Scientific Computing 2000"であった。彼女は、 1995-1996のSIAM会長である。1962年のR. W. Hamming (Bell Labs)の有名な言 葉 "The purpose of computing is insight, not numbers" を何回となく引用 し、たしかにそのとおりだがinsightを得るには数値計算を無視できない、と いうことを言いたかったらしい。現代の計算のスピードと質は1962年には考え もできなかった。手書きのOHPなどというlow technologyを用いて堂々講演、 さすが数学者(?)。曰く、"The purpose of presentation is insight, not PowerPoint."などと居直って受けていた。要は、洞察のためには数値計算が必 要で、数値計算を高速化するにはアーキテクチャに合ったチューニングが必要 である。これを自動化する話。その他、(イスラエルの)ガリラヤ湖の湖底図を trust region 法で再現する話とかいろいろあったが、私としてはあまりに当 たり前で面白くなかった。 14.J. C. Browne (Univ. of Texus at Austin) 続いて、J. C. Browneの"Parallel/Distributed Programing: Research Success --- Application Failure?" と題して、並列プログラミングの問題点 について話した。並列処理は本来人間にとって自然であるにも関わらず、歴史 的に迷い道に入っている。フォン・ノイマン計算機が逐次的でその影響が強かっ た。並列処理とは、"multiple simultaneous active interacting threads of execution" のことであり、その目的は高い性能である。並列言語は山ほど提 案されてきたがほとんど使われていない。今のところ、逐次言語のad hocな拡 張で占められている。ソフトウェア開発のための新しい概念はいろいろ提案さ れたがほとんど使われていない。並列プログラミング言語の研究は1990年がピー クでそれ以後落ちている。 なぜか?それは、1)目的が高い性能であるから(つまり、性能が出なければ 捨てられる)、2)応用プログラムは大きくて複雑(いい加減なコンパイラでは扱 いきれない)、3)大きなシステムはlegacy codeが大部分。re-engineering(再 利用技術)が必要だ。4)多くの場合、データ構造は静的である(多くの言語は動 的なデータ構造をサポートしようとして失敗した、ということか?) 5)(threadsの間の) interacting patternは実はパターン化されていることが 多い。 新しい技術が成功するには、1)演算性能が改善されなければならない、2)ス ケーラブルである必要、3)ソフトの進化とre-engineeringに対応しなければな らない。 これまでの並列処理研究で出された問題点は、1)実効threadsの間の相互作 用について違った概念が提案されたこと、2)使いやすさ、正当性、可搬性にば かり焦点を当てたこと、3)ソフトウェアの進化やre-engineeringによる開発に 利用できなかったことなどがある。また、アーキテクチャを高い次元で抽象化 したために、コンパイラが重くなってしまった。 このように過去は失敗であった。並列処理研究は必要か?もし必要ならなぜ か?並列言語は単純で規則的な構造の場合だけ成功している。今の応用は不規 則で動的、たとえばadaptive algorithmなどのように。また、実行環境は動的 である(Gridはそのよい例である)。 新しい問題が起こっている。1)(architecture変化の)時間スケールは月単位 からμsとなった、2)相互作用パターンは動的かつ不規則になった、3)システ ム管理はずっと複雑になった(Gridでチェックポイントができるか?)、4)環境 が秒単位で変わるとき性能をどう最適化するか? ソフトウェア開発の最近の傾向は、procedual --> model based, programming --> composition, custom structure --> patterns/examples, libraries --> frameworks --> composed frameworks, integrated languages (C++のような) --> separation of concerns。Framwork は、データ構造の集 合に、コヒーレントな機能性を実現する。 この変化のHPCへの利点は、1) composition from "optimal" components, 2) Dyanmically structured abstractions from interactions, 3) automation of dynamics configuration management。MPIにpatterned communicationを導入すべきである。 結論、A new generation of parallel programming testbed is needed. 15.Award session さて、SC2000にはさまざまな賞がある。9日木曜日午後のPlenary session で発表され表彰された。 1) Best Technical Paper Award ($1000)は、"Is Data Distribution Necessary in OpenMP?" by Dimitrios S. Nikolopoulos et al. (Univ. of Patras, Greece, Univ. of Illinois at UC, Tech. Univ. of Catalonia, Spain)に与えられた。この論文は、Origin2000でOpenMPの性能を分析し、page replacement schemesとuser-level page migration engineにより、プログラ ムレベルでのdata distribution directiveのようなものは不要であると論じ た。 Best Technical Student Paper Award ($500)は、学生が主著者(登壇者とい うことであろう)である論文のうちから選ばれるもので、"A Comparison of Three Programming Models for Adaptive Applications on the Origin 2000" by Hongzhang Shan, et al. (Princeton Univ., NERSC, NASA Ames)が受賞し た。これは、MPI modelと、SHMEM modelと、cache-coherent shared address space (CC-SAS) modelとにより、2種のadaptive applicationsを実装し、プ ログラミングの労力と性能を比較したもので、CC-SASがプログラムが書きやす く性能もよいと結論している。ただし、portabilityに限界があり、多数のプ ロセッサにデータが分散している場合にspatial localityが少ないという問題 点も指摘した。 "Best Research Gem of the Conference" Award($250)はResearch Gem (一 種のポスター)から選ぶもので、"Automatic TCP Window Tuning Implemented in an FTP Application" by Jian Liu et al. (NCSA)が獲得した。 2) HPC Gamesは、わが国の今年のJSPPのPSC (Parallel Software Contest) の自由部門みたいなもので(だいぶ違うが)、街頭価格1万ドル以内のPC(ソ フトは1000ドル以内)を組み合わせたシステムで、いくつかのベンチマークを 行い、それぞれのベンチマークでの順位をつけ、その合計(ただし各参加者の 最高と最低は除く)で競うものである(詳しいルールはweb page参照)。Grand Prix ($1000)は、Air Force Research Laboratory, "The Red Team" -- James Hanna et al.に、Most Inovative Hardward Prize($500)は、University of Kentucky, "The Aggregate" -- Hank Dietz et al.に、Most Inovative Software Award($500)は、Grand Prixと同じチームに、Most Leading Edge Technology Award($500)は、Black Lab Linux-- Kai Staats et al.に与えら れ、Honorable Mensionとして、MITRE -- David Koester et al.が挙げられた。 3) このほか、Fun Awardsとしてオチャラケの賞が発表された(賞状授与はな し)。曰く、First Entry to Apply (要するに最初に投稿された論文。採択の 中でか?)、Latest Entry、最も芸術的なクラスタ(よく分からないが、Cray-1 のかたちに並べたKentuckyだかのクラスタが取ったらしい)、Ben Hur Award (何のこっちゃ?)、100%何とかAwardなどなど。 4) それから、SC2000 Network Challenge Awardが3グループに与えられた。 Fastest and Fattest Awardは、"Visaput -- Using High-Speed WANs and Network Data Caches to Enable Remote and Distributed Visualization" -- W. Bethel et al.に、Hottest Infrastructure Awardが、"A Data Management Infrastructure for Climate Modeling Research" -- A. Chervenak et al.に、 Most Captivating and Best Tuned Awardが、"QoS Enabled Audio Teleportation" C. Chafe et al.に与えられた。 5) さて、注目のGordon Bell Prizesが発表された。これは、HPCおよび並列 処理分野の先駆者の一人Gordon Bell氏(現在Microsoft)の拠出金$5000により 毎年出され、応用プログラムでの性能を競うものである。過去、日本のグルー プも何回か受賞している。今年は、論文が通常のtechnical paperとして採択 されることを条件としていた。Gordon Bell nomineeのセッションは8日水曜 の午後と9日木曜の午前と二つ設けられ6論文が発表されていたが、結局以下 のとおり受賞者が発表された。 Peak Performance賞は、何かの応用で最高性能を証明したものに与えられる が、今年はなんと日本の2グループがタイで受賞した。 > "1.34 Tflops Molecular Dynamics Simulation for NaCl with a Special-Purpose Computer: MDM" by Tetsu Narumi, Ryutaro Susukita, Takahiro Koishi, Kenji Yasuoka, Hideaki Furusawa, Atsushi Kawai, Toshikazu Ebisuzaki (RIKEN and Keio) > "A 1.349 Tflops Simulation of Black Holes in a Galactic Center on GRAPE-6" by Junichiro Makino, Toshiyuki Fukushige, Masaki Koga (Univ. of Tokyo) 両者とも杉本大一郎先生の流れを汲む2派なので、flops値(いずれも換算値) を談合したのではないかとみんなで追求したが、どうも偶然らしい。 Price/Performance賞は、何かの応用で価格性能比(megaflops per dollar) を実現したものに与えられる。受賞者は、 > "92¢/Mflops/s, Ultra-Large-Scale Neura-Network Training on a PIII Cluster" by Douglas Aberdeen et al. (Australian National Univ.) Linux-based cluster of 196 Pentium III processorsを使ってニューラルネッ トの学習。 > "High-Cost CFD on a Low-Cost Cluster" by Thomas Hauser et al. (Univ. of Kentucky) KLAT2 (Kentucky Linux Athlon Testbed 2、700 MHz Athlon 64 processorのクラスタ)をつかって、Direct Navier-Stokesを解いた。 Special 部門は、絶対性能も価格性能比もトップにはなれないが、非常 に革新的な技術をもちいた事例に与えられる。今回は、unusual accomplishmentだとして次のグループが受賞した。 > "High Performance Reactive Fluid Flow Simulation Using Adaptive Mesh Refinement on Thousands of Processors" by A. C. Calder et al. (Univ. of Chicago, LLNL, Intel, ANL)これは、ASCI Red 6420 processorsを もちいてadaptive mesh を高速に実行した。 もう一つ、"Scalable Molecular Dyanmics for Large Biomeolecular System" by Robert K. Brunner et al. がfinalistとしてnominateされていた が、これは受賞しなかった。 6) IEEEComputer Societyの名前で出されるSeymour Cray Computer Engineering Award($10000、スポンサーはSGI)とSidney Fernbach Awardは、 8日水曜日午前のMasterworksの時間に発表され、受賞者の講演があった。こ の席では表彰式があった。Fernbach賞は、Dr. Stephen W. Attawayという Sandiaの人の"Large-scale Parallel Transient Dynamics Simulation of an Explosive Blast Interacting with a Concrete Building"の仕事に贈られた。 これは、テロリストによるコンクリートの建物の爆破のような過渡現象を、超 並列計算機によりシミュレーションする技術で、億に近い要素数の計算である。 Seymour Cray賞は、David E. Cullerのお父さんのDr. Glen J. Culler(UC Berkeley)の会話型科学計算の発展への業績に贈られ、かれは車椅子で受け取っ た。彼は、1961年に会話型グラフィックシステムを開発し、その後、AP90B, AP-120BなどのVLIW型の(ミニコン付加型の)アレイプロセッサを開発した(とい うことはFloating Point Inc. 社に関係したのか?)。5万ドル以下で3 MFLOPS を実現し、"the poor man's Cray"と呼ばれた。これは、RISCプロセッサが同 じ価格性能比を実現する15年前のことであった。その後、デジタル音声認識の ためのVLSI アレイプロセッサを開発した。80年代には、Culler Scientific Systemは命令レベル並列、マルチプロセッサ、アレイ型アドレス機構などをも ちいたミニスーパーコンを製造した。Culler PSC (Personal SuperComputer) は、Cray 1-Sの1/4の性能をワークステーション並の価格とサイズで実現した。 Culler-7というマシンは、ネットワーク型マルチプロセッサUnixコンピュート サーバの先駆けであった。 1991年にStar Technologiesにおいて、最初の Sparc-based vector processor (STAR 910/VP)を開発したが、病いに倒れ引退 を余儀なくされた。David Cullerのお父様がこんな方とは存じませんでした。 7) このplenary sessionの締めとして、"On the Scale and Performance of Cooperative Web Proxy Caching" by Goeff Voekler (UC San Diego)という講 演があった。講演者紹介はSid Karrin。 かれは、webのaccessを高速化するにはどうしたらいいかを論じた。Proxyは いいが、ミスが多いとlatencyが増える。また、Proxyは利用者数とともに効率 がぞうかするが、限界がある。最近、cooperative web proxy cachingという 技術が進んでいるが、その有効性はいろいろな要素に依存する。組織の内部で shareすることは有効だが、異なる組織をまたがるdocument sharingは必ずし も有効でない。このことを、Univ. of WashingtonとMicrosoft社のweb browsingのtrace分析をもとに議論した。なにか当たり前のことのようだが。 15.パネル"Petaflops around the Corner" 授賞式に引き続き、標記のパネルがあった。ペタフロップスはどうなったの か興味津々で参加した。 まずModeratorのNeil Pundit (SNL)がパネリストを紹介して始まった。 Tom Sterling (CalTech/JPL)はHTMTの推進者である。かれはPetaflops projectの歴史を回顧し、Top500の外挿から2010までにPetaflopsが可能となる と力説した。Petaflopsへの要求として、bulk capabilitiesやefficiencyとと もにusabilityを強調した。応用分野は山ほどある(fusion, propulsion, moleculte, protein, drug, genom, aerodynamics, anatomy, ....)。SIAの CMOS Roadmapについても言及した。最先端の技術を融合し、動的でadaptivem な資源管理を行うことが重要。最先端の技術として、MTA, optical, RSFQ, Hologram memoryなどを上げ、HTMTは可能だと結論した。(でも、HTMPプロジェ クトは最近fundingをうち切られている) Pete Bechman (Turbolabs, 元LANL)はまるで緑の党のように、Petaflopsな ど作るなと力説した。極端な技術を使ってPetaflopsを作ることは乏しい資源 の利用法として最悪であり、恐ろしい計画だ。そもそも、小さなプロジェクト ならリスクも小さいし、費用も小さい。しかし、巨大なプロジェクトは、もし 技術の完全性を要求するならば、必ず失敗する。スペースステーション、SSC、 NIFなど例はいろいろある。Petaflops computerなど作るのをやめて、そのか わり小さなよい技術を実現しよう。間違ったものを作ってはならない。 Petaflopsのハードは間違っているし、ソフトも間違っている。CPUの利用率も 低い。予算の60%はソフトに注ぐべきなのだ。「正しい龍を殺せ」。結論、 1)Petaflopsを作るな。 2)複雑で大きなプロジェクトはだめだ。 3)小さく有 用な技術に投資せよ(linuxのこと?) 4)ハードウェアに焦点を絞るな 5)Flops are stupid. 6)simulation environmentを作れ。7) Do you want to change the world? Bill Camp (SNL)は"Petaflops and beyond"と題してPetaflopsの技術的問題 を論じた。Moore's lawによれば2009/2010にはPetaflopsができることになる だろう。たぶん、50Gflops×20000 processorsといったところだろう。T3Eに 似たアーキテクチャとなろう。すなわち、メモリバンド幅は1 B/s for 1 flop/sで、3次元メッシュ、大域アドレス空間、cache coherency。RAS はもっ とcritical になる。LINPACKはもはや実行不可能となろう。なぜなら、計算量 はメモリの3/2乗に比例するからである。なぜPetaflopsが必要か。Bio, medical, climate, materialo, economy, gene sequencing, structural, proteomics, cell signaling, cellular metabolism, organ function, ageing, neuro, ...。全球を30m×300m×300mで覆うと5T cellsになる。High End Computing に終わりがあるなどと言う人は、過去に捕らわれている。 Marc Snir (IBM)は "Petaflops around the IBM corner"と題して、IBMの Blue Geneの話をした。2004年になんらexoticな技術を使わずに、Petaflopsは できる。10年後なら知らないが。現在のASCI supercomputerを外挿してはいけ ない。だいたいMD Grapeのような専用計算機ならすぐPetaを実現できる。また、 汎用計算機でも、メモリやI/Oが少なくて良いなら、英雄的な技術などなしに、 単純に安くできる。10段ものmemory hierarchyなど不要で、メモリにプロセッ サを埋め込めばよい。CPU 利用率など議論するのはナンセンス。どうせゲート の数%に過ぎない。ソフトウェアは技術的な問題ではない。2つのプロジェクト が考えられる。Blue lightは、一種のdense clusterで、1 chip 3 GF、カード に4 CPU載せ、backplaneに64 cardsを差す。ラックは4 back planes。1 Pflopsは300ラックでできる。3 MWでフットボール場2つ分でよい。Blue gene は、1 Pflopsで333 GBのマシンだ。Is it meaningful? Yes, many important applications. Rick Stevens (ANL)は応用について発題した。インターネット全体は、ルー ターが100万から1億、devicesが10億から1000億。これをシミュレーションす るにはPetaflopsが要る。Biological CAD, biodesign, Million Person Virtual Theme Park (entertainment), Virtual Biosphere 2, Computational Astrobiology, Digital Archeologyなど。結論、現在の科学計算のモメンタム を保持するにはPetaflopsが必要。Petaflopsは、新しいemerging applicationsを可能にするであろう。 Paul Messina (DOE HQ)は、研究開発プロジェクトとしての意味を語った。 Petaflopsはかつて夢であったが、いまやASCI final systemは100 Tera OPs with 30 TBを考えている。COTSを使えばよい。ASCI Red はCOTS CPUのad hoc clusterで性能を実現し、信頼性も大丈夫だった。見通しとして、専用計算機 ならGrape 6やBlue Geneのようにすでに可能である。汎用機としては、COTSで 行ける。2009年のASCIだと思えばよい。Grid-basedという可能性もある、これ ば分散異機種結合だ。Petaflopsはアーキテクチャ研究を再覚醒する。いま始 めよう。応用の人も巻き込んで。そして、新しい「何か」を、少なくとも検討 の対象にしよう(COTS以外も検討しようということか?)。 これらの発題のあと、いろいろ質問が出た。「いったいPetaflopsは何台必 要か?」答え「来世紀の終わりにはterascale machinesはmillions」。「ゲー ムのためにPetaflopsは要るのか?」Stevens「ゲームは不要」などなど。 16.Gridパネル 最終日(10日金曜日)は昼までであり、企業・研究展示も前日に終わっている ので出席率が悪い。例年、原著講演はなくパネルや招待講演で構成している。 今回も2本並列に4つのパネルが開かれた。 前半では、"Computational Grid: A Solution Looking for a Problem" と いうパネルを見た。Gridのパネルなのだが、司会者のJenniffer Schopf (Northwestern Univ.)とIan Foster以外はGridの専門家ではなく、1世代前の 人であり、話はだいぶ食い違っていた。 Ian Foster (ANL)はGridの解説をしたあと、よくある誤解として、「Gridは 新しいInternetだ」「Gridはfree cycles(ただ乗り自転車)だ」を上げた。 Marc Snir (IBM)は、Gridを「自然に」分散したものを扱う技術と定義し、 遠隔地の計算資源の協力、データの共有、加速器・望遠鏡などのunique resourcesの利用などを上げた。問題点として、理由もなく分散してもしょう がない。例えば、地域的に離れたスーパーコンピュータに分散する理由はない。 ネット上の余った資源を活用するseti@homeなどは面白い技術だが、質が保証 されないし、みんなが同時にやったらうまくいかない。全ネットワーク上の資 源の総和はBlue Gene300台程度だから意外に小さい。 Geoffrey Fox (Florida State Univ.)は、Gridはコンピュータ以外では昔か らある技術だ(交通、電力など)。Gridの応用として、e-commerce Grid, education Grid, Distributed Simulation Gridなどが考えられる。service管 理が問題である。security, fault tolerance, object lookup and registration, object persistemce, data base support, event and transaction services など。 Cherri Pancake (Oregon State Univ.)がなぜこのパネルに呼ばれたのかは 知らないが、彼女は(次のパネルの)Megacomputingの話ばかりしていた。パソ コンのユーザはそれほど理性的かつ協力的であろうか。Grid上の資源は ephemeral(短命)なので使いものになるか。Grid economyにおけるユーザは、 資源消費者と資源提供者に分かれるが、その両者には対立がある。 17.パネルMegacomputers 最後のパネルは"Megacomputers"に出た。司会者はLarry Smarr (UC San Diego)。Smarrはネット上のcommodity processorsの並列処理により大規模計 算を行う可能性が出てきたこと、事実seti@homeやentropia.com のような例が あることを述べた。 Ian Fosterがまた出てきて、Grid computing とmegacomputingの関係を述べ た。Grid computingは統一的な制御も、全知全能者も、相互信頼もない分散計 算である。megacomputerはGridの一例であり、簡単な関係のもとで極めて多数 の資源を集め、しかも信頼関係が極めて希薄な点に特徴がある。SETI (Search of ExtraTerrestical Inteligence)やEntropiaはその一例である。将来的には、 より集権化された共有の形態になるであろう。技術的な課題としては、1)プロ トコルやサービスをどうするか、2)新しい応用の概念、3)より多数のより動的 なconfigurationのもとでのアルゴリズムなどがある。 Andrew Chien (Entropia Inc.)はEntropiaの歴史を語った。これは、 Mersenne素数を見つけるために1997年に始まった。1998には35番目がみつかり、 1999年には36番目が見つかった。80以上の国の、10万台以上のマシンが参加し た。この経験から、NSFのPACI programに200 M hr CPU timeを提供することに なった。 ParabonのJim Gannonは、Parabonが1999年6月に創立されたがすでに50人を 越える従業員を抱えていることを自慢した。セキュリティはSSLで保証し、 Javaによりスケーラビリティをまし、悪意もしくは誤りからの防御を高めた。 スピードも速くなった。応用分野としては、comparative genomics, financial modelling, compute against cancer (癌の遺伝子の解読)などいろ いろある。 Andrew Grimshow (Univ. of Virginia)は、"Mega Computing, Grid Computing, Peer-to-Peer"と題して、このようなモデルの成立する条件につい て述べた。ソフトウェアのアーキテクチャが単一化したこと、ネットワーク環 境が完備したことは重要であるが、技術的な必要条件として、1)complexity, 2)fault tolerance, 3)site autonomy, 4) security などがある。そのために は、object basedでなければならない。LegionはアーキテクチャやOSを隠す技 術である。一種のGrid OSと見ることもできる。応用としては、(このあとメモ なし) Tom Sterling (ANL)がまた出てきて、megacomputingと HTMTは似ているとい いたいらしい。megacomputingの技術的課題は、1)並列度、2)粒度、3)data I/O capacity requirements、4)latency tolerance, 5)fault tolerance and automatic checking and roll-back, 6)security (client cofidentiality), 7)Business model。最先端計算の課題は、1) ALU speed and memory capacity constraint (solution: VLSI), 2)Latency constraint, distance, overhead, contention (solution: vector / cache / multithread / NW / bandwidth / locality management), 3) Trust constraint (collaborative computing)。 我々は間違っていたのか? 1)latencyは関係ない、2)bandwidthは十分安い、 3)megacomputerはBeowulfより安い、3)プログラミングは易しい。わたしの megacomputerについての考えは、1)同じソフトはGridには使えない、2)正しい 問題に適用しなくては (very large and wonderfully parallel, flexible, security insensitive)。May be the genesis of P-1 (P-1て何でしたっけ。 SF?) 5つの質問 1) Will it be an enabler? provide unprecedented computer capacity. 2) Will it be an inhibiter? only suitable problems will be puch--d dimise of innovative computer architecture 3) Will efficiency continue to degrade? 4) Will the integrated computer capacity continue to explode? What happens when everyone has a computer? Will most of our processing go off shore? 5) What will P-1 do when it wakes up? このあと議論があったがあまり盛り上がらなかった。 ある人としゃべったことであるが、embarassing parallelではうまくいくか もしれないが、もう少し中間的な問題は可能か。また、パソコンが低電力化し て、Crusoeのように非動作時には電気がほとんど流れないようになると、この 構想は潰れるのではないか。電気代を払ってくれるならともかく。それから、 もし情報機器が携帯機器に移っていくとするとだめになるかもしれないのでは ないか。 18.原著講演 もちろん、学術的な中心部分はオリジナルな論文の発表である。今回は 179 編の投稿があり、審査の上63件が発表された。今回は、村岡洋一氏(早稲田大 学)と三浦謙一氏(富士通)がプログラム委員会に参加された。両氏とも、 Illiac IVのころイリノイ大学で活躍された方々なのは偶然か。日本からは Gordon Bell finalistsの2件の他、"PM2: A High Performance Communication Middleware for Heterogeneous Network Environments" by Toshiyuki Takahashi, Shinji Sumimoto, Atsushi Hori, HIroshi Harada, Yutaka Ishikawa (RWCP) がCluster Infrastructureのセッションに採択された。来年 は松岡聡氏(東工大)がプログラム委員会に加わる。 論文の内容はプロシーディングズで読むことができる。CD-ROM または、 http://www.sc2000.org/proceedings/start.htm Hokke-Clubの報告に期待する。 来年、Denver でお会いしましょう。 -----------------------------------------------------