Fortsätt till innehåll

MIT-professor utvidgar gränserna för datorberäkning med det största klustret som någonsin byggts i ett offentligt moln

Andrew V. Sutherland, talteoretiker och huvudforskare på MIT, slår sitt eget beräkningsrekord och använder hela 580 000 kärnor med hjälp av Google Compute Engines hantering av databasen för L-funktioner och modulära former (LMFDB).

Om du kliver in på en föreläsning i matematikfilosofi får du sannolikt höra om ”objekt”. Objekt är mer eller mindre allt som matematik kan tillämpas på, som siffror eller funktioner eller resultatet av matematiska beräkningar, som kurvor. Databasen för L-funktioner och modulära former (LMFDB) är ett detaljerat uppslagsverk över objekt och sambanden mellan dem. LMFDB är ett samarbete mellan internationella forskare och styrs av ett internationellt team baserat på universitet i Europa och Nordamerika, däribland MIT.

Din inställning till forskning förändras när du kan ställa en fråga och få svar på några timmar i stället för månader.

Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Dela data mellan forskare

LMFDB för vetenskapen framåt genom att göra det lättare för forskare att dela data om objekt med grupper som arbetar inom fysik, datavetenskap och matematik världen över. Vissa av beräkningarna för att skapa objekten är så komplicerade att endast några människor i världen vet hur de utförs. Andra beräkningar är så stora att det är bäst att bara köra dem en gång eftersom de tar lång tid och är dyra att utföra.

Teamet som kör LMFDB behövde en molntjänst som kunde hantera deras växande lagringsbehov. För att ge ett perspektiv på insatsen har det tagit nära 1 000 år av beräkningstid att skapa objekten i LMFDB. Bakom det stora lagringsproblemet fanns skalningsproblemet. LMFDB är tillgänglig för vem som helst på lmfdb.org, vilket innebar att projektet behövde anpassas för att klara de oräkneliga sökningar som genomförs varje dag. Slutligen, eftersom LMFDB är ett samarbetsprojekt, behövde teamet ett system som människor i olika länder enkelt kunde administrera.

Fokusera på forskning, inte på infrastruktur

LMFDB-teamet tittade på flera molnlösningar och valde Google Cloud tack vare hög prestanda, möjlighet till automatisk skalning, användarvänlighet och pålitlighet.

Andrew V. Sutherland, matematikprofessor, talteoretiker och huvudforskare vid MIT var en av de främsta forskarna involverade i LMFDB.

”Vi är matematiker som vill fokusera på vår forskning, och inte behöva oroa oss för hårdvarufel eller skalningsproblem på webbplatsen”, säger Sutherland.

Sutherland och resten av LMFDB-teamet valde att använda Google Compute Engine (GCE) och Google Persistent Disk som värd för webbservrar och speglade MongoDB-databaser för att lagra en halv terabyte webbdata och tre terabyte data som användes mer sällan. Tack vare denna konfiguration kunde LMFDB skala efter behov och leverera beräkningsresultat och matematiska objekt snabbt när forskarna behövde dem. LMFDB använder också olika verktyg från Google Cloud-plattformen som hjälper forskare i olika delar av världen att samarbeta om databashanteringen. Dessa verktyg omfattar Google Stackdriver, Google Cloud Console och Google Cloud Load Balancing.

Sutherland behövde utföra en särskilt komplicerad tabellering och lagra den i LMFDB. Den var så stor att den krävde mer datorkraft än vad som någonsin använts i ett offentligt moln. Han valde att göra den i Google Cloud-plattformen och körde 580 000 kärnor med icke-prioriterade virtuella maskiner – det största kända högpresterande datorklustret som någonsin körts i det offentliga molnet.

Beräkningen gav 70 000 olika kurvor, var och en med en egen LMFDB-post. Bara att hitta en av kurvorna är en otroligt komplicerad uppgift som kräver ett stort antal beräkningscykler. ”Det är som att söka efter en nål i en höstack med femton dimensioner”, säger Sutherland.

Innan Sutherland vände sig till Google Cloud-plattformen för beräkningen hade han kört arbeten på sin egen dator med 64 kärnor, vilket tog alldeles för lång tid. Hans enda alternativ var att få beräkningstid på MIT:s kluster, vilket kunde vara svårt att få och begränsade vilken programvarukonfiguration han kunde använda. Med Google Cloud-plattformen kan han använda så många kärnor han behöver, installera de exakta operativsystem, bibliotek och program han behöver och uppdatera miljön när han vill.

Tack vare skalbarheten som Google Cloud-plattformen erbjuder LMFDB kan alla, från studenter till erfarna forskare, enkelt söka och navigera i innehållet via ett webbgränssnitt. Sutherland undervisar till exempel om elliptiska kurvor, och studenterna använder LMFDB för sina hemarbeten.

Spara pengar vid massiva beräkningar

Eftersom många forskare och utbildningsinstitutioner har begränsad budget kan de utföra massiva beräkningar till en rimlig kostnad på Google Cloud-plattformen. Tack vare de icke-prioriterade virtuella maskinerna i Google Cloud-plattformen som Sutherland använder kan han minska kostnaden dramatiskt och samtidigt utföra extremt komplicerade beräkningar. Dessa instanser med full funktionalitet kostar upp till 80 procent mindre än deras vanliga motsvarigheter eftersom Google Cloud-plattformen kan avbryta dem. Ett avbrott i beräkningen orsakar inte en stor prestandaförlust – i genomsnitt avbryts endast två till tre procent av hans instanser per beräkningstimme. Ett skript startar dem automatiskt på nytt tills hela arbetet är klart, så väldigt lite tid går förlorad. Genom att tillåta dessa små avbrott kan han köra enorma beräkningar till låg kostnad, praktiskt taget utan fördröjning.

Vi kartlägger 2000-talets matematik

Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Registrera dig här och få uppdateringar, insikter, resurser med mera.