Bernd Mohr ist Wissenschaftler am Jülicher Supercomputing Center und beschäftigt sich mit der Effizienzsteigerung von Programmen, die auf den dortigen Supercomputern laufen. Der größte heißt JUQUEEN und hat 1,8 Millionen Rechenkerne.
Abgesehen davon, dass ich mal wieder versuche, zu verstehen, was ein Computer überhaupt macht, erzählt Bernd Mohr von Datenverarbeitung, Bohrern, Staubsaugern, Programmierung, Hardware, Software, von Grundbefehlen des Computers, von analogen Computern und Rechenschiebern, von Digitalisierung, riesigen Datenmengen, Klimaberechnungen, Astronomie, der Wettervorhersage, Prozessoren, dem Hauptspeicher, Festplatten, Hertz, Chips, Leiterbahnen, Rechenoperationen in Hardware, dem Binärsystem und Bits. Ich lerne, dass Programmieren sowas ähnliches ist wie Kunsthandwerk und wir reden über Informatik und Programmiersprachen.
Bemerkenswerterweise ist so ein Supercomputer vergleichsweise günstig. Er kostet vier Cent pro Kern pro Stunde, läuft rund um die Uhr und es fehlen Rechner, denn dreimal so viele Anträge auf Rechenzeit gehen ein, wie Rechenzeit zur Verfügung steht. Und zwar nicht nur in Jülich, sondern auch an den anderen Höchstleistungsrechenzentren in Stuttgart und München.
Ich lerne, dass das FZJ und die RWTH Aachen ihre Speicher gegenseitig zum Backup benutzen und dass es Merkmale gibt, die auf eine baldige Havarie hindeuten, so dass Komponenten rechtzeitig ausgetauscht werden können, ohne den laufenden Betrieb zu gefährden. Alle drei bis fünf Jahre werden die kompletten Rechner ausgetauscht, sie sind wassergekühlt und verbrauchen sechs Megawatt Strom, davon alleine ein Drittel für die Kühlung.
Bernd Mohr wird die Supercomputing-Konferenz SC17 leiten und ich lasse mir davon genauso erzählen, wie von anderen Großrechnern in den USA, Japan, China und bei Google. Außerdem von Petascale-Computing, einer Gleitkommazahl, Peta- und Exaflops, dem LINPACK-Programm, das die Top 500 Liste der schnellsten Rechner ausspuckt, von Biologie, Medizin, dem Human Brain Project (der Rechner dafür soll in Jülich gebaut werden) und dass es dort eine Fachgruppe für Ethik gibt, weil es ja sein kann, dass die Maschine irgendwann das denken anfängt.
Download: mp3 (66 MB) m4a (52 MB) opus (33 MB)Veröffentlicht am 05.06.2015
Dauer: 2 Stunden
23 Minuten
Lizenz: CC-BY 4.0
Downloads: 35.659
Mehr zum Thema:
47 Das Forschungszentrum Jülich
60 Supercomputer am FZ Jülich
93 Beschleuniger-Simulation
117 Kurz zum Gehirn
118 Kognitionsforschung
169 RES169 Quantencomputer
Diese Folge zitieren: Holger Klein/Helmholtz-Gemeinschaft: Resonator-Podcast: "61 High Performance Computing". 05.06.2015, https://resonator-podcast.de/2015/res061-high-performance-computing/ (CC-BY 4.0)
Seid ihr jetzt fertig damit, die Audiodateien hin- und herzuschieben, d.h. kann ich den Resonator jetzt wieder in meinen Podcatcher aufnehmen, ohne daß er sämtliche Folgen herunterladen will?
Keine Ahnung, was Du meinst. Sorry.
Mein Podcatcher merkt sich „nur“ die URLs, von denen er sich die Dateien heruntergeladen hat.
Wenn die alten Folgen also verschoben werden, sieht er, daß er diese Datei noch nicht kennt – und lädt sie erneut herunter…
Ein Podcatcher sollte sich die „guid“ im Podcast-Feed merken. Wir haben keine Dateien hin- und hergeschoben und ändern unsere guid’s nicht. Vielleicht wendest Du Dich mal mit einer Fehlermeldung an den Hersteller deines Podcatchers.
Bis du, als jahrelanger Mac Benutzer, eigentlich nie mit Applescript in Berührung gekommen? Ich weiß nicht ob es das in den aktuellen 10.X Versionen noch gibt Das hätte dein Einstig in die das Programmieren sein können. Da es 1. sehr einfach ist. 2. man damit seine Standardarbeiten am Rechner teilweise Automatisieren kann, es hat für dich einen praktischen Nutzen. Es ist also nicht dieses ich schiebe Daten von A nach B Programmieren, mit dem viele Leute schon Probleme haben.
Alle die wissen wollen wie Computer funktionieren schlage ich oft folgendes Buch vor:
Code :the hidden language of computer hardware and software / Charles Petzold erschienen 1999 bei Microsoft Press, ISBN 0-7356-0505-X
Apple Script ist eins von den Dingern, bei denen ich inmer wieder dachte: „Das kannste dir ja auch mal draufschaffen“ – und dann war der Leidensdruck doch nie groß genug 🙂
Eine moderne Entsprechung zu Applescript ist vielleicht Lua. Das ist eine sehr einfache, kleine und aufgeräumte Programmiersprache die oft in Programmen als Scriptsprache eingesetzt wird . Z. B. Hat Lightroom eine Lua Interface. Wenn du mal in den 80er/90er ein bisschen was mit Pascal gemacht hast, wirst du dich schnell zurechtfinden. Die Sprache führt so ein bisschen ein Schattendasein, hat aber einen guten ruf. Deine Nerdfreunde werden dich also nicht auslachen und/oder versuchen, dich für die „einzig wahre“ Programmiersprache zu missionieren.
Als es um die kommende Grenze der weiteren Beschleunigung ging hätte mich noch die Einschätzung Herrn Mohrs bezüglich der Quantencomputer interessiert.
Es ist auf jeden Fall klar, dass man mit der derzeitigen Art, Rechner zu bauen und zu betreiben, nicht mehr weiterkommt. Man braucht radikale neue Konzepte, und Quantencomputing scheint derzeit das vielversprechenste zu sein. Die Frage ist jedoch, kann man (a) mit Quantentechnik wirklich einen Rechner bauen, der generell ist (also beliebige Probleme genauso gut lösen kann, und nicht nur eine eingeschränkte spezielle Problemklasse) und (b) schafft man das rechtzeitig.
Ergänzend zu Bernd Mohrs Antwort noch der Hinweis, dass Quantencomputer von der Taktrate her nicht schneller sind als herkömmliche Computer. Die derzeit verfügbaren Laborsysteme sind sogar sehr viel langsamer. Es ist auch bekannt, dass es eine Art Geschwindigkeitsbegrenzung gibt, mit endlichem Energieverbrauch also eine fundamentale, harte Grenze existiert (Margolus-Levitin-Theorem).
Der Vorteil der Quantencomputer liegt aber in etwas, das Herr Mohr in der Sendung angesprochen hat: Ihre Algorithmen sind bei bestimmten Problemen deutlich effizienter, man kann also in weniger Schritten zum Ziel gelangen. Wenn ich also statt N Schritten nur noch Wurzel(N) Schritte brauche, um einen Eintrag in einer Datenbank mit N Einträgen zu finden (Grover-Algorithmus), bin ich bei großen N auch dann noch schneller fertig, wenn ich nur mit einem Bruchteil der Rechengeschwindigkeit arbeiten kann.
Warum sind denn in der Top500 Liste, lediglich 458.000 Kerne angegeben, bei dem Supercomputer in Jülich?
http://www.top500.org/lists/2014/11/
Hat das etwas mit physisch vorhandenen Kernen und Virtuellen zutun?
Der eingesetzte Blue Gene/Q Prozessor von IBM kann Simultaneous Multithreading, d.h. er kann pro CPU-Core vier Threads gleichzeitig abarbeiten. Nicht wie wie Intel Hyperthreading, so dass die CPU immer ganz schnell zwischen den Threads wechselt, sondern wirklich Parallel. So habe ich das jedenfalls versanden.
http://www-03.ibm.com/systems/technicalcomputing/solutions/bluegene/#feat
Ja genau. Die Maschine hat 458,752 Rechenkerne (cores), also physikalisch komplett-separate Recheneinheiten. Jeder Kern hat (wie auch im anderen Kommentar erwähnt) spezielle Hardwareeinheiten, die es erlauben gleichzeitig vier Rechenprozesse abzuarbeiten. Diese teilen sich jedoch die verschiedenen Verarbeitungseinheiten des Rechenkerns. Das heißt, wenn alle der vier Rechenprozesse zur gleichen Zeit genau das gleiche machen (wollen), dann blockieren sie sich gegenseitig und man ist genauso schnell als wenn man sie nacheinander (also nicht-parallel) abarbeitet. Glücklicherweise ist das oft nicht der Fall, also z.B. während der eine Rechenprozess gerade ein paar Berechnungen macht (was die arithmetische Einheit nutzt), lädt ein andere gerade Daten (was das Speicherinterface nutzt) und auf diese Weise werden die verschiedenen Hardwareeinheiten des Rechenkerns besser ausgenutzt. Diese Vorgehensweise heißt bei IBM „Simultaneous multithreading“ (SMT) und bei Intel „Hyper-threading“ (HT).
Damit kommt man im Idealfall auf 458,752 x 4 = 1,835,008 Rechnenprozesse auf der JuQUEEN.
Es gibt übrigens ein relativ gut gemachtes Filmchen wie Computer funktionieren „Man & Computer“ von 1965.
Also ich finde ja diesen Vortrag von Richard Fenyman zu diesen Thema sehr gut und verständlich:
https://www.youtube.com/watch?v=EKWGGDXe5MA
Und wenn es darum geht simple mathematische Operationen als Schaltkreise darzustellen empfehle ich diese Videos:
https://www.youtube.com/watch?v=VPw9vPN-3ac
https://www.youtube.com/watch?v=lNuPy-r1GuQ
Wie man andere Operationen macht leitet man mit Hilfe von Mathe ab. Ich glaub im Prinzip braucht man nur Addition und Negation um alle möglichen mathematischen Operationen zu bekommen.
Es ist zwar nur ein Detail, aber nach 90 Minuten verwechselt Herr Mohr Polygone mit Polynomen.
Hallo Herr Mohr,
Ich hatte ab 1997 an der RWTH studiert und war 2 Jahre am Rechenzentrum Hiwi. Das war die Zeit als die RWTH von Vektorrechnern auf Risc (Sun) umstieg. Wir hatten damals mit dem FZJ einige gemeinsame Performance-Tuning Workshops. Ich bilde mir ein, dass Herr Mohr damals einige der Workshops geleitet hatte. Kann das sein?
Noch ein paar konkrete Fragen:
1. Was sind denn so typischerweise die Effizienzen. Mein Stand war z.B. bei Klimasimulationen ~ 5-10 Prozent. Wie schaut es bei den Lattice-QCD-Geschichten aus? Der BlueGene scheint sich da ja besonders für zu eignen.
2. Wird Unicore eigentlich immer noch intensiv eingesetzt?
3. Verwendet eigentlich noch irgendwer Fortran? Ich hatte den Eindruck, dass es mit dem Sterben der Vektorrechner rapide an Bedeutung verlor.
Ja, ich veranstalte seit Jahren Performance-Tuning Workshops und so war es bestimmt ich, der das damals war.
Zu Ihren Fragen:
1) Die typische Effizienz (im Sinne: wieviel der Peakleistung einer CPU nutzen reale Anwendungen) liegt immer noch in dem 5-10% Bereich. Unsere QCD-Team erreicht mit einigen Tricks auf unserer BlueGene ca. 40%
2) Ja, Unicore ist sehr lebendig und wird z.B. künftig im Human Brain Project (HBP) verwendet
3) Nein, Fortran ist sehr lebendig im HPC Bereich. Die Hälfte der Anwendungen auf unseren Maschinen nutzen noch Fortran, die andere Hälfte C/C++
Danke 🙂
Ich persönlich mag es nicht digitales („Dinge im Computer“) als „nicht real“ zu bezeichnen. „Nicht physisch“ fände ich eine viel bessere Bezeichnung. Klar, es ist nicht physisch, trotzdem ist es real.
Guter Hinweis! Sie haben natürlich recht. Danke
interessant, wie der Typ vor den Begriffen Transistor und Gatter rotierte – außerdem kostet derzeit selbst richtig guter Flash-Speicher nur ca. 50 ct pro GB – wenn der Handyhersteller deutlich mehr verlangt könnte man das mit Betrug vergleichen. Was die Prozessoren brauchen ist jeweils Arbeitsspeicher – also RAM.
Quelle: https://geizhals.de/?cat=sm_sdhc&xf=5963_UHS-I+U3#xf_top
holgi sollte sich mal mit einem Rechnerarchitekten unterhalten.
Der „Typ“ muss (darf?) seit vielen Jahren auf der Arbeit Englisch reden, weil mein Team international ist, wir Nutzer aus ganz Europa auf unserem Rechner betreuen und unsere ganze Forschungsarbeit im EU Kontext stattfindet. Mittlerweile fällt es mir sehr schwer, mich über technische Sachen in Deutsch zu unterhalten. Während des Interviews ist mir nur der engl. Begriff „Gate“ in den Sinne gekommen, und mir ist einfach nicht der korrekte deutsche Begriff eingefallen und man will ja nicht die ganze Zeit Denglisch reden. Die Stelle hat mich persönlich nachher auch sehr gewurmt 😉
Bzgl. Speicherpreise: Man kann halt nicht jeden x-beliebigen (günstigen) Speicherchip in seine Maschine einbauen, man muss halt nehmen was der Hersteller einbaut bzw. dafür verlangt. Ich glaube diese Masche kennen IPhone Besizter nur zu gut 😉
Chapeau! – der „Typ“ liest sogar mit.
Um mal unseren ehemaligen Außenminister aus dem Rheinland zu zitieren „Es ist Deutschland hier“ https://www.youtube.com/watch?v=AvyNkAR9shM
Vielleicht sollte man mal Holgi was über CMOS https://de.wikipedia.org/wiki/Complementary_metal-oxide-semiconductor (und damit Spannung statt Strom als Informationsträger) und dann NAND-Gatter https://de.wikipedia.org/wiki/NAND-Gatter erklären, wenn er wissen will wie sowas entsteht dann ein bisschen auf Halbleitertechnik https://de.wikipedia.org/wiki/Halbleitertechnik eingehen – dann weiter zu Bus-Systemen, von-Neumann-Architektur https://de.wikipedia.org/wiki/Von-Neumann-Architektur usw.
Die Verlustleistung entsteht durch das Umladen der (parasitären) Kapazitäten bei jeder Zustandsänderung.
Wenn ich hier 6 MW Durchlauferhitzer höre – welchen Anteil von Garzweiler hat euer Rechenzentrum da auf dem Gewissen?
Zu dem Flash-Speicher: Ich hab extra höherwertigen ausgewählt – es gibt schon welche für 20 ct / GB – OK auch Profi-(Kamera)-Speicher für 3 € / GB – aber so toll wird der bei Apple nichtmal sein – die machen nur nen riesen Reibach mit.
Das war ja wieder mal eine tolle Folge! Hr. Mohr hat so spannend und mit viel Emotion von seiner Arbeit erzählt, da konnte man seine Begeisterung für das Thema richtig spüren. Das zeigt doch wieder mal, dass Wissenschaft gar nicht trocken sein muss.
Faszinierend fand ich das Thema der künstlichen Gehirne. Da braucht man noch viel größere Computer mit noch viel mehr Strom und Kühlung um das zu simulieren was in unseren vergleichsweise kleinen Köpfen passiert.
Ein Kompliment auch an Holgi, der immer genau die Fragen stellt, die es auch einem absoluten Laien ermöglichen, Zugang zum Thema zu finden.
Weiter so!
Das war eines der spannendsten Gespräche, die ich im Resonator bisher gehört habe (ohne den anderen Gesprächspartnern zu nahe treten zu wollen). Vielen Dank für die Einsicht, Herr Mohr und natürlich Holgi.