Cluster Computing. Eksamensopgave

Størrelse: px
Starte visningen fra side:

Download "Cluster Computing. Eksamensopgave"

Transkript

1 Cluster Computing Eksamensopgave Rune Højsgaard CPR: juni 2006 Indhold 1 Indledning 2 2 Knude Valg af knude Netværk Torus Switchet Switchet + Torus Valg af netværk Konklusion 5 5 Litteratur 6 A Pentium 4 ydelse 7 B Priser for netværk 8 B.1 Priser for SCI-netværk B.2 Priser for Myrinet netværk B.3 Priser for Gigabit EtherNet netværk, switchet B.4 Priser for Gigabit EtherNet netværk, switchet + torus C Prisen for en knude 10 D Prisen for switche og kabler 11

2 EKSAMENSOPGAVE 2 KNUDE 1 Indledning Dette er besvarelsen af eksamensopgaven på kurset Cluster Computing 2006 ved Datalogisk Institut, Københavns Universitet. Opgaven er at designe en klyngecomputer til løsning af fire givne typer opgaver. Klyngen må maksimalt koste 1 mio. DKK. [4] Designet af klyngen kan deles op i to uafhængige dele: design af netværk og design af knuder. 2 Knude De forskellige arbejdsopgaver stiller forskellige krav til hel- og kommatalsberegninger foruden hukommelsesbussen. Valget af knuder er derfor et spørgsmål om vælge det design der giver bedst forhold mellem den nødvendige ydelse og pris. Kravet til hvert enkelt knude er 4GB hukommelse og 100GB pladelager, hvilket sammen med kabinet og strømforsyning udgøre en fast omkostning, uafhængig af valg af processor og bundkort. Da prisforskellen på 4GB DDR2 PC og PC hukommelse kun er ganske lille vælges den sidste, hvorfor bundkortet skal have en frontside-bus og hukommelsesbus på 800 Mhz. For valg af bundkort er det, ud kravet om en 800 Mhz bus, vigtigt at det passer til den valgte processor og tilbyder en hurtig bus til det valgte netkort, hvilket i disse tider er PCI-Express. For at undgå at hukommelsesbussen bliver en flaskehals skal hver knude kun have én processor. I forlængelse af denne problemstilling, og for at undgå dårlig udnyttelse af en delt cachen, skal hver processor have så få kerner som muligt. [5] Jeg vælger derfor at processoren skal være en Intel Pentium 4 Prescott 650 (3,4 GHz), da denne har den bedste ydelse/pris (se bilag A). Til faste pladelager vælges den billigst mulige løsning hos den valgte leverandør. 2.1 Valg af knude Efter at have undersøgt priser og udbud af hardware hos forskellige leverandører, har jeg valgt at købe følgende knuder hos shg.dk: Processor: Pentium 4 Prescott 650 (3,4 GHz) Bundkort: Asus P5WD2 (800 Mhz bus, onboard gigabit netkort, PCI-Express) Hukommelse: 4 x Corsair Twin 1024 MB PC Pladelager: MAxtor DM10 160GB, 7200 RPM, 8 MB Cache, SATA 300 Kabinet: shg Case EC11 inkl. 300W strømforsyning Dette koster sammenlagt DKK 6556,80 pr. knude eksl. moms (Kopi af indkøb i bilag C). Side 2 af 11

3 EKSAMENSOPGAVE 3 NETVÆRK 3 Netværk Designet af netværket er mere nuanceret, hvorfor jeg vil gå mere i dybden med denne opgave. De fire opgavetyper som klyngen skal bruges til, stiller forskellige krav til netværkets topologi: 1. MonteCarlo simuleringer - 35% Disse opgaver er pinligt parallelle og stiller derfor ikke nogen betydelige krav til netværket. Arbejdsopgaver skal blot uddelegeres og resultater indsamles. 2. Liningssystemer med enten Gaussian elimination eller SOR - 25% Disse opgaver har en betydelig netværkskommunikation. Naboknuder, i en eller to dimensioner afhængigt af dekompositionen, udveksler data i hver iteration. For SOR kan latensen dog i vidt omfang skjules, hvilket jeg også antager er tilfældet for Gaussisk elimination. For SOR er der behov for en regelmæssig synkronisering i form af globale reduktioner. Forsinkelsen ved disse kan ikke skjules. Begge typer opgaver kan dekomponeres så de passer til en 1- eller 2 dimensionel netværkstopologi. Det vigtigeste er at topologien tillader naboer at kommunikere kommunikere direkte, da det fjerner latens fra switchning eller routning i netværket. 3. Fluiddynamic med Lattice Boltzmann - 25 % Denne type opgaver stiller samme krav som punkt 2, bortset fra at der ikke er et betydeligt behov for global kommunikation. Til gengæld er det her ikke muligt at skjule latensen ved udveksling af data mellem naboer. Problemerne kan dekomponeres i en til tre dimensioner. Igen er en topologi, hvor naboer kan kommunikere direkte, en fordel. 4. Optimeringsopgaver - 15% Jeg antager at der er tale om branch-and-bound metoder. For at opnå en ligelig fordeling af arbejdsbyrden, må disse være dynamisk orkestrerede. En topologi hvor alle arbejdere har hurtig adgang til arbejdslederen er derfor at foretrække. Denne forsinkelse kan dog skjules, ved en svag skævvridning i arbejdsfordelingen. Nye globale grænser skal regelmæssigt rundkastes mellem arbejdere. Latensen ved disse broadcasts kan dog skjules og det er derfor ikke en væsentlig parameter i valget af topologi. Ovenstående kan sammenfattes i to krav til netværket: 1. hurtig kommunikation mellem naboer 2. hurtig globalreduktion I tillæg hertil, skal følgende tages i betragtning ved valg af netværkstopologi og -teknologi: 3. skalerbarhed af klyngen Side 3 af 11

4 EKSAMENSOPGAVE 3 NETVÆRK 4. pris af netværk ift. prisen på knuder I de følgende afsnit vil jeg analysere de to åbenlyse topologier, nemlig torus og et switchet netværk. 3.1 Torus For punkt 2 og 3 vil en topologi, der tillader direkte kommunikation mellem naboer, være at foretrække, da latens ved switching/routning undgås. En torus af mindst samme dimension som dekompositionen giver direkte kommunikation mellem naboer. En en-dimensionel torus kan dog opfylde kravet om direkte kommunikation mellem naboer. Dog vil globale reduktioner i en ring formentlig være meget lansom, da den længste afstand mellem to knuder er n/2, hvor n er antallet af knuder. En torus af højere dimension vil reducere dette problem, på bekostning af flere netværksgrænseflader pr. maskine. En torus kan implementeres effektivt med SCI [6]. Ulempen ved SCI er, at det er dyrt. En SCI-adapter til én ring koster USD 975,- [1]. Med et sådant kort vil hver knude koste ca. DKK inkl. kabling. Dermed ville jeg kunne købe 77 knuder. Ved en to-dimensionel torus, ville jeg have råd til 73 knuder. Se bilag B Switchet Et switchet netværk er et meget skalerbart alternativ til en torus, med et utal af mulige topologier, med forskellige egenskaber. En meget hurtig men dyr mulighed er Myrinet. Prisen for et Myrinet-netkort starter ved USD 495,- hvorved prisen for en knude kommer op på ca. DKK ,- [3]. Oven i kommer udgifter til switch og kabler, hvorved jeg kan få råd til 78 knuder (se bilag B.2). Myrinetswitchen har samme lave kommunikationstid mellem alle par af noder, da det er et Clos-netværk. Løsningen er skalerbar til 128 knuder. Et billigt alternativ er et Gigabit EtherNet netværk. Denne løsning har dog en væsentligt langsommere latens, da Gigabit EtherNet i sig selv er langsommere, men også fordi det kun er muligt af få store-and-forward EtherNet-switche. Til gengæld kan jeg få et netværk med samme topologi som SDU s Horseshoe (se figur 1), med 1GB forbindelser mellem underklyngerne og 10GB mellem switchene for DKK ,20. Derved ville jeg kunne få råd til 138 knuder (se bilag B.3). Denne topologi er meget skalerbar. Med de valgte switche kan netværket skalres til 144 knuder, men kan med (billige) udvidelser skalere til mere end 300 knuder [7]. 3.3 Switchet + Torus En mulighed er at kombinere SDU s Horseshoe men en 1-dimensionel torus. For at realisere dette skal hver knude have yderligere to netværksgrænseflader. Dette vil til gengæld gøre nabokommunikation hurtigere, ved at fjerne store-n-forward forsinkelsen fra switchen. Afhængig af de valgte netkort vil en sådan løsning koste mellem DKK 200,- og DKK 600,- Side 4 af 11

5 EKSAMENSOPGAVE 4 KONKLUSION Figur 1: Topologi for klyngen med Gigabit EtherNet. yderligere pr. knude, afhængig af hvor meget aflastning der er inbygget i netkortet. Derved vil jeg kunne få råd til 129 knuder (se bilag B.4). Denne løsning stiller dog krav til specialiseret netvækrssoftware, hvorfor den forkastes. 3.4 Valg af netværk Jeg vælger det switchede Gigbit EtherNet-netværk, da betydningen af netværkskommunikationen i de fire typer opgaver ikke kan retfærdiggøre at nedsætte regnekraften med ca. 45%. 4 Konklusion Jeg har designet en klynge der består af 138 knuder der er forbundet med et Gigabit EtherNet med 24 porte pr. switch og en intern forbindelse på 10 Gigabit mellem hver switchene (Figur 1). Klyngen koster DKK ,60 excl. moms, bastions-vært, køling, reoler, og el-installationer og overholder således budgettet på DKK 1 mio. Løsningen med Gigabit EtherNet er valgt over SCI og Myrinet, da det billigere netværk giver råd til dobbelt så mange knuder, hvilket giver den bedste ydelse for arbejdsopgavernes profil. Det valgte netværk og topolgi, giver mulighed for at udvide klyngen til mere end 300 værter. De enkelte knuder er billige, men hurtige, PC er der har hurtig hukommelsesbus, en hurtig 3,4 GHz P4 processor og en høj ydelse kontra pris. Side 5 af 11

6 EKSAMENSOPGAVE 5 LITTERATUR 5 Litteratur [1] Dolphin Interconnect Solutions Inc. SCI Products Price List, dolphinics.com/pdf/pricing/price%20list% pdf. [2] Intel. Processors Intel Pentium 4 Processor CTP Calculations, intel.com/support/processors/pentium4/sb/cs htm. [3] Myricom. Myrinet Product List & Prices, product_list.html. [4] Brian Vinter. Eksamen i Cluster Computing 2006, ~vinter/cc/exam.pdf. [5] Brian Vinter. Forelæsningsslides 1: Cluster Architectures, dk/~vinter/cc/lecture1clusterarchitecture.pdf. [6] Brian Vinter. Forelæsningsslides 9: Interconnect Technologies for Clusters, http: // [7] Brian Vinter og Hans Henrik Happe. An Evaluation of Inter-Switch Connections, Side 6 af 11

7 EKSAMENSOPGAVE A PENTIUM 4 YDELSE A Pentium 4 ydelse Ydelse kontra pris for Pentium 4 er vist nedenstående tabel. Ydelsen er angivet i MTPOs [2]. Priser er fra shg.dk og er på en samlet vært med den aktuelle processor (som vist i bilag C). Pentium 4 MTOPs Pris DKK MTOPs/Pris , , , ,91 Side 7 af 11

8 EKSAMENSOPGAVE B PRISER FOR NETVÆRK B Priser for netværk Dette bilag indeholder mine beregninger på priserne for de fire typer netværk. Nedenstående tabel opsumerer antallet af knuder samt den samlede pris for de undersøgte muligheder. Ethernet kabelpriser er angivet for samlede kabler, hvilket er urealistisk, men beregent som et gennemsnitsbehov. For at føre kablerne så de passer præcis til løsningen, skal kabel købes i tromler og samles på stedet. B.1 Priser for SCI-netværk Netværk Antal knuder SCI 1D torus 77 SCI 2D torus 73 Myrinet 78 Gigabit EtherNet 138 Gigabit EtherNet + torus 129 Priserne for hver knude inklusive netværk i en en- eller todimensionel torus baseret på SCI er givet ved [1]: 1D: komponent antal USD DKK knude ,80 PCI Express SCI Adapter Card 1 975, ,19 0,6-Meter SCI Cable 1 100,00 593,25 I alt ,24 Antallet af knuder bliver da: /12.934, 24 = 77. 2D: komponent antal USD DKK knude ,80 PCI Express SCI Adapter Card 2D 1 995, ,84 0,6-Meter SCI Cable 2 200, ,50 I alt ,14 Antallet af knuder bliver da: /13.646, 14 = 73. B.2 Priser for Myrinet netværk En Myrinet-baseret klynge kan sammensættes af følgende komponenter [3]: Side 8 af 11

9 EKSAMENSOPGAVE B PRISER FOR NETVÆRK komponent antal USD DKK knude ,40 Myrinet D Card , ,83 Myrinet-2000 fiber cable 3m , ,13 Myrinet-2000 enclosure for up to 128 ports , ,00 Myrinet-2000 Line-card switch with 8 Fiber ports , ,00 I alt ,35 B.3 Priser for Gigabit EtherNet netværk, switchet En klynge baseret på Gigabit EtherNet kan sammensættes som følger 1 (se bilag D)): komponent antal DKK knude ,40 D-Link DGS-3324SRi 10Gbit switch ,20 D-Ling DGS-3324SR 1Gbit switch ,00 Fiberpatchkabel 5 884,00 Kategori 5 EtherNet kabel 3m ,00 I alt ,60 NB: Gigabit EtherNet grænseflade er indbygget i knudernes bundkort. B.4 Priser for Gigabit EtherNet netværk, switchet + torus En klynge baseret på Gigabit EtherNet kan sammensættes som følger 2 (se bilag D)): komponent antal DKK knude ,20 Surecom EP-230G-TX ,60 D-Link DGS-3324SRi 10Gbit switch ,20 D-Ling DGS-3324SR 1Gbit switch ,00 Fiberpatchkabel 5 884,00 Kategori 5 EtherNet kabel 3m ,00 Kategori 5 EtherNet kabel 1m ,00 I alt ,00 NB: 1 Gigabit EtherNet grænseflade er indbygget i knudernes bundkort. 1 netværket er baseret på [7] 2 netværket er baseret på [7] Side 9 af 11

10 EKSAMENSOPGAVE C PRISEN FOR EN KNUDE C Prisen for en knude Den samlede pris for en knude købt gennem shg.dk er DKK 6.556,80 eksl. moms. Side 10 af 11

11 EKSAMENSOPGAVE D PRISEN FOR SWITCHE OG KABLER D Prisen for switche og kabler Den samlede pris for netværkskompononeter og kabler købt gennem ethershop.dk er DKK ,6 eksl. moms. Side 11 af 11