Microsoft Lumos er nu åben kilde, der muliggør overvågning af webapp-målinger og hurtig detektion af uregelmæssigheder ved at eliminere falske positive

Microsoft har åbnet adgang til 'Lumos', et kraftfuldt Python-bibliotek til automatisk at detektere og diagnosticere metriske regressioner i "web-skala" applikationer. Biblioteket har angiveligt været meget aktiv inden for Microsoft Teams og Skype. I det væsentlige er en meget kraftfuld og intelligent 'anomali detektor' nu åben og tilgængelig for webudviklere til at få øje på og adressere regressioner i nøglepræstationsmålinger, mens det næsten eliminerer flertallet af falske positive.

Microsoft Lumos er nu open source. Det blev aktivt brugt i udvalgte Microsoft-produkter og vil nu være tilgængeligt for det generelle web- og appudviklingssamfund. Biblioteket tillod angiveligt ingeniører at opdage hundredvis af ændringer i målinger og afvise tusindvis af falske alarmer, der blev opdaget af anomalidetektorer.

Lumos reducerer falsk-positiv alarmfrekvens med over 90 procent, hævder Microsoft:

Lumos er en ny metode, der inkluderer eksisterende, domænespecifikke anomalidetektorer. Imidlertid forsikrer Microsoft, at Python-biblioteket kan reducere den falske positive alarmfrekvens med over 90 procent. Med andre ord kan udviklere nu med sikkerhed gå efter vedvarende problemer i stedet for intermitterende, som ikke havde en langsigtet skadelig virkning.

Onlinetjenesternes sundhed overvåges normalt ved at spore KPI-målinger (Key Performance Indicator) over tid. Ingeniører, der gennemfører 'Regressionsanalyse', kræver meget tid og ressourcer til at udrydde problemer, der kan være tegn på store problemer. Disse problemer kan resultere i stigende driftsomkostninger og endda tab af brugere, hvis de ikke løses.

Det er overflødigt at tilføje, at spore årsagen til enhver KPI-regression er tidskrævende. Desuden bruger hold ofte meget tid på at analysere problemerne for kun at finde ud af, at de kun var anomalier. Dette er hvor Microsoft Lumos er praktisk. Python-biblioteket eliminerer processen med at fastslå, om en ændring skyldes et skift i populationen eller en produktopdatering ved at give en prioriteret liste over de vigtigste variabler til forklaring af ændringer i metrisk værdi.

Microsoft Lumos tjener også det bredere formål at forstå forskellen i en metrisk mellem to datasæt. Interessant nok inkluderer platformen 'bias', og ved at sammenligne et kontrol- og behandlingsdatasæt, mens de forbliver agnostiske med tidsseriekomponenten, kan Lumos undersøge uregelmæssigheder.

Hvordan fungerer Microsoft Lumos?

Microsoft Lumos arbejder med principperne for A / B-test for at sammenligne par datasæt. Python-biblioteket begynder med at kontrollere, om regressionen i metricen mellem datasæt er statistisk signifikant. Derefter følger det op med en befolkningsforstyrrelseskontrol og biasnormalisering for at tage højde for eventuelle befolkningsændringer mellem de to datasæt. Lumos beslutter, at problemet ikke er værd at forfølge, hvis der ikke er nogen statistisk signifikant regression i metricen. Men hvis deltaet i metricen er statistisk signifikant, markerer Lumos funktionerne og rangerer dem efter deres bidrag til deltaet i målmetricen.

Lumos Python-biblioteket fungerer som det primære værktøj til scenarieovervågning af hundredvis af målinger. Udviklere og teams, der udfører præstationsanalyse, kunne overvåge og arbejde på pålideligheden af opkald, møder og offentlige switchede telefonnet (PSTN) -tjenester hos Microsoft. Biblioteket er operationelt på Azure Databricks, virksomhedens Apache-gnistbaserede big data-analysetjeneste. Det er konfigureret til at køre med flere job, der er arrangeret efter prioritet, kompleksitet og metriktype. Jobbet udføres asynkront. Det betyder, at hvis systemet registrerer en anomali, udløses en Lumos-arbejdsgang, og biblioteket analyserer og kontrollerer derefter intelligent, om anomalien er værd at forfølge og adressere.

Microsoft har bemærket, at Lumos ikke er garanteret at fange alle regressioner i tjenester. Derudover vil tjenesten kræve et stort antal datasæt for at give pålidelig indsigt. Virksomheden planlægger at medtage kontinuerlig metrics-analyse, udføre bedre rangordning af funktioner og også inddrage funktionsgrupper. Disse trin skal tackle den primære udfordring ved multikollinearitet i funktionsrangeringen.