Summering av flytt av STR Datacenter till Azure.
Ett av STR Media och IT:s strategiska mål under 2022 var att avveckla nuvarande datacenter för att flytta detta till Microsofts molnlösning (Azure), drivkrafterna bakom var bla:
- Nuvarande hårdvara är end-of-life.
Alternativet hade varit att investera i ny hårdvara till en väldigt hög kostnad vilket inte var ett alternativ då allt utvecklingsarbete med Optima och framtidens lösningar sker i Azure.
- Kostnads- och prestandaoptimera.
Azure ger oss nya möjligheter att dimensionera rätt prestanda och tillgänglighet.
- Följa best-practice och kunna fokusera på kärnverksamhet.
- Ökad tillgänglighet.
Det är samtliga STR:s system som är inkluderade i denna flytt både externa och interna, de största externa systemen är aSTRa WEB, Elevcentralen och halSTRa WEB.
Förberedelse:
Flyttprojektet startade under våren 2022 tillsammans med en av våra IT-leverantörer AddPro.
Mycket av det initiala arbetet handlar om att identifiera och dokumentera alla system och kopplingar mellan dessa.
För att identifiera så många potentiella scenario och problem som möjligt har systemen blivit flyttade och testkörda en längre tid i en isolerad miljö i Azure innan den skarpa flytten genomfördes.
Genomförande:
Helgen den 1-2 / 10 genomfördes själva flytten, och anledningen till att just denna helgen valdes var för att det är ett stort team av resurser som behövde säkras upp och ha möjlighet att arbeta under helgen men även ha hög beredskap och tillgänglighet perioden i direkt anslutning till migreringen.
Förutom STR:s egen personal rör det sig om fyra tekniska resurser från AddPro samt fyra externa partners för kringliggande system.
Rent tekniskt så gick serverflytten helt enligt plan, tyvärr uppkom följdfel framför allt på aSTRa WEB som vi inte kunnat förutse, trots ett mycket gediget förarbete med lång testperiod på flera månader.
När vi är igenom den nu aktiva felsökningsfasen kommer vi samla teamet för att analysera om det funnits ytterligare tester som kunnat genomförts under förberedelsefasen.
Mer om de enskilda problemen längre ner.
Kort om tidsestimering och felsökning:
Vi hade väldigt gärna kunnat ge exakt estimeringar kring pågående felsökning, detta är väldigt svårt då felen inte gått att förutspå, hade det gått att förutspå hade vi säkerställt att det aldrig blivit fel.
De otaliga fel vi identifierat under de förberedande testerna säkerställde vi redan då att det aldrig drabbade er kunder.
I en isolerad miljö där testerna genomförts innan flytten går det inte att göra helt 100 % rättvisande tester av olika anledningar, bland annat utmaningen att simulera den stora belastning som äkta kunder skapar.
Med ovan i tanke så innebär det att vi arbetar med nya problem som vi inte förutspått vilket innebär att det är en aktiv felsökning där vi inte vet vad lösningen är förrän vi hittat rotorsak och därmed omöjligt att säga när det är klart.
Det enda jag inte kan trycka nog på är att vi har rätt folk på rätt plats som arbetar på sin fulla kapacitet, det finns därmed ingen annan som har bättre förutsättningar.
Kommunikationsplan:
Kommunikationsarbetet med detta startade under Juli månad, med uppföljning i augusti, september, veckan innan flytt och dagarna innan flytt, allt med ambitionen att intensifiera informationsflödet ju närmare flytten vi kom.
Kanaler som används är:
- Nyhetsbrev
- Kommunikationsrummet i Möts & Lär
- str.se
- Systemmeddelande
- Körkort nu med Elevcentralen
- Facebook (Officiella kanaler)
- Instagram (Officiella kanaler)
Efter själva flytten har kommunikationen hanterats via våra normala supportkanaler genom:
- Systemmeddelande
- (Hjälpcenter) support.str.se
- Uppdaterat telefonsvar med hänvisning till Hjälpcenter
- Uppdaterat ärendesvar med hänvisning till Hjälpcenter
Problem:
Alla buggar som vi fått in i samband med serverflytten ska nu vara lösta, om du fortfarande upplever problem angående de tjänster som vi markerade som lösta eller andra tjänster så vänligen rapportera dessa till Helpdesk så att vi kan undersöka om det är något som drabbar alla eller ett lokalt problem.
Nedan hittar ni en djupare förklaring på de problem vi upplevt, när de uppdagades, orsak för dessa och status på dom.
Nedan är också det vi identifierat som generella fel som drabbat flera kunder, vi har också sett enskilda fel hos specifika kunder som Helpdesk hanterar löpande, dessa är inte nödvändigtvis kopplade till flytten.
- E-handeln fungerar inte, det går inte att göra köp i e-handel.
Uppdagades: Måndag 3/10 08:15
Orsak: Många upplevde att produktlistningen inte fungerade vilket är likställt med att e-handeln är obrukbar, detta var ett rent prestandaproblem, efter att mer prestanda blivit tilldelat valda noder försvann detta problem.
Löstes: Tisdag 4/10 13:00 - E-handeln: Artiklar syntes inte varukorg
Uppdagades: Måndag 3/10 08:15
Orsak: Detta var kopplat till det faktum att lastbalansering fungerar annorlunda i Azure, efter att detta identifierats justerades denna konfiguration.
Löstes: Tisdag 12:00 - SMS-utskick, meddelandetjänsten är uppe igen och det som låg och väntade skickas nu ut.
Uppdagades: Måndag 3/10 08:15
Orsak: Meddelandetjänsten fungerade inte, något som var snabbt åtgärdat då lösningen var att starta om tjänsten.
Löstes: Måndag 3/10 08:30 - Problem att logga in i kassan
Uppdagades: Måndag 3/10 08:15
Orsak: Detta var kopplat till det faktum att lastbalansering fungerar annorlunda i Azure, efter att detta identifierats justerades denna konfiguration.
Löstes: Tisdag 12:00 - Lägga till ny utbildning på elev, fungerar nu men systemet är väldigt långsamt när man gör det.
Uppdagades: Måndag 3/10 08:15
Orsak: Många upplevde problem att lägga till ny utbildning på elev, detta var ett prestandaproblem, efter att mer prestanda blivit tilldelat valda noder försvann detta problem.
Löstes: Tisdag 13:00 - Koppling mellan artiklar som säljs på e-handeln och str-artikeln var borta.
Uppdagades: Tisdag 4/10 08:15
Orsak: Problem med inläsning av artiklar från Pyramid (STR Service affärssystem) till aSTRa, fungerade igen efter att kopplingen blivit återställd.
Löstes: Onsdag 14:00 - e-handelsköp kan ha fått status Avbrutet trots att betalning gjorts.
Uppdagades: Onsdag 5/10 16:45
Orsak: Det finns en process som ska hantera avbrutna köp som inte körts korrekt, fungerar efter att tjänsten justerats.
Handlar om att ändra status från pågående till misslyckade.
Omfattningen är att tre köp som blivit drabbade, kunder informerade.
Löstes: Onsdag 5/10 18:00 - Rapporterna fungerar inte, tänk på att x/z-rapporten, närvarorapporten och utbildningskorten också är drabbade.
Uppdagades: Måndag 3/10 08:45
Orsak: Vid flytt av rapportservern identifierades ett kompatibilitetsproblem mellan rapportlösningen, Azure och kringliggande system.
Vi har identifierat roten till kompatibilitetsproblem och håller just nu (6/10 10:00) på att åtgärda dom, nästa steg är att importera och verifiera rapport för rapport i prioriteringsordning.
Löstes: Måndagen 10/10 18:15 - Publicera schema fungerar inte
Uppdagades: Måndag 3/10 11:00
Orsak: Att publicera fungerar i teorin, dock är köhanteringen för schemauppdatering väldigt långsam vilket gör att förändringarna inte genomförs inom rimlig tid vilket i praktiken innebär att det inte fungerar.
Felsökning pågår och just nu (6/10 11:00) har gjort optimeringar som innebär en drastisk förbättring (tidigare ca 30 min per publicering, nu ca 1 sek per publicering)
Löstes: 6/10 11:00 - Vid bokningar som av någon anledning inte kan genomföras, på grund av krockar med andra bokningar, kreditbegränsning på elev, etc. så visas felkoder utan att förklara vad som egentligen är problemet. Detta tolkas av användaren som att det är fel på systemet men egentligen är det tekniska standardmeddelande för fel.
Uppdagades: Onsdag 5/10 11:00
Orsak: När man gjorde fel i aSTRa ska man få en förklaring till vad som man gjorde fel, nu fick man bara ett kryptiskt felmeddelande, detta var kopplat till en översättningstabell mellan koden och förklaringen på koden.
Löstes: Onsdag 5/10 14:00 - Ruta om obetald faktura kommer upp trots att fakturan är betald.
Uppdagades: Torsdag 6/10 08:00
Orsak: Orsaken till detta var att jobbet som hanterar fakturaimporten mellan Pyramid och LIME inte fungerar korrekt, orsaken är problem med kommunikation mellan Pyramid och LIME.
Prognos: Bör vara löst 6/10 efter lunch (estimerat 11:14 6/10)
Löstes: Fredag 7/10 08:30
Återkom: Torsdag 13/10 kl 07:12
Prognos: En temporär lösning är inlagd medans tekniker jobbar på en mer permanent lösning.
Löstes: Löst - Ordrar med produkter som ska skickas från STR har fått status misslyckad och ingen bok har skickats till eleven
Uppdagades: 10/10 15:30
Orsak: Kopplingen mellan aSTRa WEB och vårt orderhanteringssystem fungerade inte.
Löstes: 10/10 21:30 - Felmeddelande om Tekniskt fel i kassan vid genomförande av köp, detta felet kan även uppstå på andra ställen i aSTRa WEB, då man sparar, uppdaterar eller tar bort och visar sig då som en Timeout.
Uppdagades: 11/10 12:00
Orsak: Konfiguration i rapporterna orsakade låsningar i resten av databasen som gjorde att andra delar av systemet inte kunde använda sig av samma data.
Prognos: en potentiell lösning är utlagd under torsdagen(13/10) men felsökning gällande orsaken pågår fortfarande.
Löstes: Löst
Länk till den övergripande Statusrapport artikeln
Kommentarer
1 kommentar
Tack för en omfattande förklaring av förloppet! Det är lättare att förstå situationen med denna info.
Hoppas att ni alla får vila lite efter denna intensiva period för er.
logga in för att lämna en kommentar.