२१ जुलै, २०२५मराठी

साइट रिलायबिलिटी इंजिनिअरिंग (SRE) मध्ये एरर बजेट्स कसे लागू करायचे आणि वापरायचे हे शिका, जेणेकरून नवनिर्मिती आणि विश्वसनीयता यात संतुलन साधून उत्कृष्ट सिस्टम परफॉर्मन्स सुनिश्चित करता येईल.

साइट रिलायबिलिटी इंजिनिअरिंग: विश्वसनीय प्रणालींसाठी एरर बजेटवर प्रभुत्व मिळवणे

आजच्या वेगवान डिजिटल जगात, अत्यंत विश्वसनीय प्रणाली राखणे सर्वात महत्त्वाचे आहे. साइट रिलायबिलिटी इंजिनिअरिंग (SRE) हे ध्येय साध्य करण्यासाठी एक संरचित दृष्टिकोन प्रदान करते. SRE मधील एक प्रमुख संकल्पना म्हणजे एरर बजेट, जे नवनिर्मिती आणि विश्वसनीयता यांच्यात संतुलन साधणारे एक शक्तिशाली साधन आहे. हा सर्वसमावेशक मार्गदर्शक एरर बजेटची संकल्पना, त्याचे महत्त्व, ते कसे परिभाषित आणि अंमलात आणायचे, आणि त्यांची प्रभावीता वाढवण्यासाठी सर्वोत्तम पद्धती शोधून काढेल.

एरर बजेट म्हणजे काय?

एरर बजेट म्हणजे सेवेला एका विशिष्ट कालावधीत (उदा. महिना, तिमाही किंवा वर्ष) जमा करण्याची परवानगी असलेली अविश्वसनीयता किंवा डाउनटाइमची मर्यादा. विश्वसनीयता लक्ष्य (सर्व्हिस लेव्हल ऑब्जेक्टिव्ह किंवा SLO) भंग होण्यापूर्वी ही स्वीकारार्ह अपयशाची पातळी आहे. याला असे बजेट समजा जे तुम्ही नवीन फीचर्स तैनात करणे, कोड रिफॅक्टर करणे किंवा नवीन तंत्रज्ञानासह प्रयोग करणे यांसारख्या धोकादायक गोष्टींवर "खर्च" करू शकता. एकदा एरर बजेट संपले की, टीमला विश्वसनीयता-केंद्रित कामाला प्राधान्य द्यावे लागते.

मूलतः, एरर बजेट नवनिर्मिती विरुद्ध विश्वसनीयतेला केव्हा प्राधान्य द्यायचे हे ठरवण्यासाठी डेटा-आधारित दृष्टिकोन प्रदान करते. एरर बजेटशिवाय, नवीन फीचर डिप्लॉयमेंट विरुद्ध बग फिक्सिंग संबंधीचे निर्णय व्यक्तिनिष्ठ आणि वैयक्तिक मतांवर किंवा अल्पकालीन दबावांवर आधारित होऊ शकतात.

उदाहरणार्थ, दरमहा ९९.९% अपटाइमच्या SLO सह सेवेचा विचार करा. याचा अर्थ असा आहे की सेवा दरमहा जास्तीत जास्त ४३.२ मिनिटांसाठी बंद असू शकते. ही ४३.२ मिनिटे म्हणजेच एरर बजेट होय.

एरर बजेट्स महत्त्वाचे का आहेत?

एरर बजेट्स अनेक महत्त्वपूर्ण फायदे देतात:

डेटा-आधारित निर्णय प्रक्रिया: एरर बजेट्स धोका पत्करण्याशी संबंधित निर्णयांना मार्गदर्शन करण्यासाठी एक परिमाणात्मक मेट्रिक प्रदान करतात. केवळ अंदाजावर अवलंबून राहण्याऐवजी, टीम्स नवनिर्मिती विरुद्ध विश्वसनीयता सुधारणांना केव्हा प्राधान्य द्यायचे हे ठरवण्यासाठी डेटाचा वापर करू शकतात.
नवनिर्मिती आणि विश्वसनीयतेत संतुलन: ते टीम्सना स्वीकारार्ह पातळीवर विश्वसनीयता राखून मोजूनमापून धोका पत्करण्यास आणि वेगाने नवनिर्मिती करण्यास परवानगी देतात. हे नवीन फीचर्स रिलीज करणे आणि सेवा स्थिर ठेवणे यांच्यातील सुवर्णमध्य शोधण्याबद्दल आहे.
सुधारित संवाद: एरर बजेट्स इंजिनिअरिंग, उत्पादन आणि व्यावसायिक भागधारकांमध्ये अधिक स्पष्ट संवाद सुलभ करतात. प्रत्येकाला यात सामील असलेले फायदे-तोटे समजतात आणि ते एकत्रितपणे माहितीपूर्ण निर्णय घेऊ शकतात.
वाढीव मालकी आणि जबाबदारी: जेव्हा टीम्स त्यांचे एरर बजेट व्यवस्थापित करण्यासाठी जबाबदार असतात, तेव्हा ते त्यांच्या सेवांच्या विश्वसनीयतेसाठी अधिक जबाबदार बनतात.
जलद शिक्षण आणि पुनरावृत्ती: एरर बजेटच्या वापराचा मागोवा घेऊन, टीम्स अपयशातून शिकू शकतात आणि त्यांच्या प्रक्रियांमध्ये सुधारणा करू शकतात, ज्यामुळे पुनरावृत्तीची चक्रे अधिक वेगवान होतात.

सर्व्हिस लेव्हल ऑब्जेक्टिव्ह (SLOs), सर्व्हिस लेव्हल अॅग्रीमेंट्स (SLAs), आणि सर्व्हिस लेव्हल इंडिकेटर्स (SLIs) समजून घेणे

एरर बजेटचा प्रभावीपणे वापर करण्यासाठी, SLOs, SLAs आणि SLIs या संबंधित संकल्पना समजून घेणे महत्त्वाचे आहे:

सर्व्हिस लेव्हल इंडिकेटर्स (SLIs): हे सेवेच्या कामगिरीचे परिमाणात्मक मापदंड आहेत. उदाहरणांमध्ये अपटाइम, लेटन्सी, एरर रेट आणि थ्रुपुट यांचा समावेश आहे. ते सेवेच्या कामगिरीचे *मापन* करतात. उदाहरणार्थ, SLI: यशस्वीरित्या परत येणाऱ्या HTTP विनंत्यांची टक्केवारी (उदा., 200 OK).
सर्व्हिस लेव्हल ऑब्जेक्टिव्ह (SLOs): हे SLIs साठी विशिष्ट लक्ष्य आहेत. ते कामगिरीची इच्छित पातळी परिभाषित करतात. SLO हे SLI साठी एक *लक्ष्य* आहे. उदाहरणार्थ, SLO: ९९.९% HTTP विनंत्या एका कॅलेंडर महिन्यात यशस्वीरित्या परत येतील.
सर्व्हिस लेव्हल अॅग्रीमेंट्स (SLAs): हे सेवा प्रदाता आणि त्यांच्या ग्राहकांमधील करार आहेत, ज्यात SLOs पूर्ण करण्यात अयशस्वी झाल्यास होणारे परिणाम नमूद केलेले असतात. यामध्ये अनेकदा आर्थिक दंडाचा समावेश असतो. SLA हे एका विशिष्ट SLO ची हमी देणारा *करार* आहे.

एरर बजेट थेट SLO मधून मिळवले जाते. हे १००% विश्वसनीयता आणि SLO लक्ष्यामधील फरक दर्शवते. उदाहरणार्थ, जर तुमचा SLO ९९.९% अपटाइम असेल, तर तुमचे एरर बजेट ०.१% डाउनटाइम आहे.

एरर बजेट्स परिभाषित करणे: एक चरण-दर-चरण मार्गदर्शक

प्रभावी एरर बजेट्स परिभाषित करण्यासाठी एक संरचित दृष्टिकोन आवश्यक आहे:

१. आपले SLOs परिभाषित करा

व्यवसायाच्या गरजा आणि ग्राहकांच्या अपेक्षांवर आधारित आपले SLOs स्पष्टपणे परिभाषित करून प्रारंभ करा. खालील घटकांचा विचार करा:

वापरकर्त्यावरील परिणाम: सेवेचे कोणते पैलू वापरकर्त्यांसाठी सर्वात महत्त्वाचे आहेत?
व्यवसायाची उद्दिष्ट्ये: सेवा कोणत्या मुख्य व्यावसायिक उद्दिष्टांना समर्थन देते?
तांत्रिक व्यवहार्यता: सध्याची पायाभूत सुविधा आणि संसाधने पाहता विश्वसनीयतेची कोणती पातळी वास्तववादीपणे साध्य करता येते?

सामान्य SLOs मध्ये अपटाइम, लेटन्सी, एरर रेट आणि थ्रुपुट यांचा समावेश होतो. वास्तववादी आणि मोजता येण्याजोगी लक्ष्ये निवडण्याचे लक्षात ठेवा. थोडे कमी SLO ने सुरुवात करणे आणि सेवा जसजशी परिपक्व होईल तसतसे ते हळूहळू वाढवणे चांगले आहे.

उदाहरण: एक जागतिक ई-कॉमर्स प्लॅटफॉर्म खालील SLOs परिभाषित करू शकतो:

अपटाइम: पीक अवर्समध्ये (उदा., ब्लॅक फ्रायडे) शॉपिंग कार्ट सेवेसाठी ९९.९९% अपटाइम.
लेटन्सी: उत्पादन शोध क्वेरींसाठी ९५ व्या पर्सेंटाइल लेटन्सी २००ms पेक्षा कमी.
एरर रेट: ऑर्डर प्लेसमेंटसाठी ०.१% पेक्षा कमी एरर रेट.

२. आपले एरर बजेट मोजा

एकदा आपण आपले SLOs परिभाषित केले की, संबंधित एरर बजेटची गणना करा. हे सामान्यतः एका विशिष्ट कालावधीत परवानगी असलेल्या डाउनटाइम किंवा त्रुटींच्या टक्केवारी म्हणून व्यक्त केले जाते.

फॉर्म्युला: एरर बजेट = १००% - SLO

उदाहरण: जर तुमचा अपटाइमसाठी SLO ९९.९% असेल, तर तुमचे एरर बजेट ०.१% आहे. हे दरमहा अंदाजे ४३ मिनिटांच्या डाउनटाइममध्ये रूपांतरित होते.

३. योग्य टाइम विंडो निवडा

आपल्या एरर बजेटसाठी एक टाइम विंडो निवडा जी आपल्या रिलीज सायकल आणि व्यवसायाच्या गरजांशी जुळते. सामान्य टाइम विंडोमध्ये हे समाविष्ट आहे:

मासिक: वारंवार अभिप्राय प्रदान करते आणि जलद समायोजनांना परवानगी देते.
तिमाही: दीर्घकालीन दृष्टिकोन देते आणि अल्पकालीन चढ-उतारांचा प्रभाव कमी करते.
वार्षिक: कमी वारंवार रिलीज होणाऱ्या आणि अधिक अंदाजे वर्तणूक असलेल्या सेवांसाठी योग्य.

टाइम विंडोची निवड आपल्या सेवेच्या विशिष्ट संदर्भावर अवलंबून असते. वारंवार रिलीज होणाऱ्या वेगाने विकसित होणाऱ्या सेवांसाठी, मासिक विंडो अधिक योग्य असू शकते. अधिक स्थिर सेवांसाठी, तिमाही किंवा वार्षिक विंडो पुरेशी असू शकते.

४. एरर बजेटच्या वापराच्या आधारे कृती परिभाषित करा

एरर बजेट वापरले जात असताना कोणती कारवाई करावी यासाठी स्पष्ट मार्गदर्शक तत्त्वे स्थापित करा. यात खालील गोष्टींचा समावेश असावा:

अलर्टिंग थ्रेशोल्ड्स: एरर बजेटचा वापर विशिष्ट पातळीवर (उदा. ५०%, ७५%, १००%) पोहोचल्यावर अलर्ट सेट करा.
एस्केलेशन प्रक्रिया: वेगवेगळ्या अलर्ट स्तरांसाठी स्पष्ट एस्केलेशन मार्ग परिभाषित करा.
इन्सिडेंट रिस्पॉन्स प्लॅन: आउटेज हाताळण्यासाठी आणि पुढील एरर बजेटचा वापर टाळण्यासाठी एक सु-परिभाषित इन्सिडेंट रिस्पॉन्स प्लॅन ठेवा.
रिलीज फ्रीझ पॉलिसी: एरर बजेट जवळजवळ संपल्यावर नवीन रिलीज थांबवण्यासाठी एक धोरण लागू करा.

उदाहरण:

५०% एरर बजेटचा वापर: वाढलेल्या एरर रेटच्या कारणाचा तपास करा. अलीकडील बदलांचे पुनरावलोकन करा.
७५% एरर बजेटचा वापर: ऑन-कॉल इंजिनिअरकडे एस्केलेट करा. नवीन फीचर्सपेक्षा बग फिक्सला प्राधान्य द्या.
१००% एरर बजेटचा वापर: सर्व नवीन रिलीज थांबवा. केवळ सेवा विश्वसनीयता पुनर्संचयित करण्यावर लक्ष केंद्रित करा. सखोल पोस्ट-इन्सिडेंट पुनरावलोकन करा.

एरर बजेट्सची अंमलबजावणी: व्यावहारिक पायऱ्या

एरर बजेट्सची अंमलबजावणी करण्यासाठी टूलिंग, प्रक्रिया आणि सांस्कृतिक बदलाचे संयोजन आवश्यक आहे:

१. इन्स्ट्रुमेंटेशन आणि मॉनिटरिंग

आपल्या SLIs चा अचूकपणे मागोवा घेण्यासाठी सर्वसमावेशक इन्स्ट्रुमेंटेशन आणि मॉनिटरिंग लागू करा. सेवेच्या कामगिरीमध्ये रिअल-टाइम दृश्यमानता प्रदान करणारी साधने वापरा. प्रोमिथियस, ग्राफाना, डेटाडॉग, न्यू रिलिक किंवा स्प्लंक सारख्या साधनांचा वापर करण्याचा विचार करा.

आपली मॉनिटरिंग प्रणाली खालील प्रमुख मेट्रिक्सचा मागोवा घेऊ शकते याची खात्री करा:

अपटाइम: आपल्या सेवेच्या उपलब्धतेचा मागोवा घ्या.
लेटन्सी: आपल्या सेवेच्या प्रतिसाद वेळेचे मोजमाप करा.
एरर रेट: त्रुटींच्या वारंवारतेचे निरीक्षण करा.
थ्रुपुट: आपली सेवा हाताळत असलेल्या विनंत्यांच्या संख्येचा मागोवा घ्या.

२. अलर्टिंग

एरर बजेटच्या वापराच्या आधारावर अलर्टिंग सेट करा. एरर बजेट संपण्याच्या जवळ आल्यावर अलर्ट ट्रिगर करण्यासाठी कॉन्फिगर करा. पेजड्यूटी, ऑप्सजिनी किंवा स्लॅक सारख्या आपल्या मॉनिटरिंग सिस्टमसह एकत्रित होणाऱ्या अलर्टिंग प्लॅटफॉर्मचा वापर करा.

आपले अलर्ट कृती करण्यायोग्य आहेत आणि ऑन-कॉल इंजिनिअरला समस्येचे त्वरीत निदान आणि निराकरण करण्यासाठी पुरेसा संदर्भ प्रदान करतात याची खात्री करा. चुकीचे सकारात्मक कमी करण्यासाठी आपले अलर्टिंग थ्रेशोल्ड ट्यून करून अलर्टच्या थकव्यापासून (alert fatigue) वाचा.

३. ऑटोमेशन

शक्य तितकी प्रक्रिया स्वयंचलित करा. एरर बजेटच्या वापराची गणना, अलर्टची निर्मिती आणि इन्सिडेंट रिस्पॉन्स प्लॅनची अंमलबजावणी स्वयंचलित करा. पायाभूत सुविधांची तरतूद आणि कॉन्फिगरेशन व्यवस्थापन स्वयंचलित करण्यासाठी Ansible, Chef, Puppet किंवा Terraform सारख्या साधनांचा वापर करा.

४. संवाद आणि सहयोग

इंजिनिअरिंग, उत्पादन आणि व्यावसायिक भागधारकांमध्ये खुला संवाद आणि सहयोगाला प्रोत्साहन द्या. सर्व भागधारकांना नियमितपणे एरर बजेटची स्थिती कळवा. स्लॅक, ईमेल किंवा समर्पित डॅशबोर्ड सारख्या संवाद माध्यमांचा वापर करा.

५. घटनेनंतरचे पुनरावलोकन (Post-Incident Reviews)

एरर बजेटचा महत्त्वपूर्ण भाग वापरणाऱ्या प्रत्येक घटनेनंतर सखोल पोस्ट-इन्सिडेंट पुनरावलोकने (ज्याला ब्लेमलेस पोस्टमॉर्टम असेही म्हणतात) करा. घटनेचे मूळ कारण ओळखा, शिकलेले धडे दस्तऐवजीकरण करा आणि भविष्यात अशाच घटना घडण्यापासून रोखण्यासाठी सुधारात्मक उपाययोजना करा.

व्यक्तींना दोष देण्याऐवजी प्रणालीगत समस्या ओळखण्यावर लक्ष केंद्रित करा. अपयशातून शिकणे आणि प्रणालीची एकूण विश्वसनीयता सुधारणे हे ध्येय आहे.

एरर बजेटची प्रभावीता वाढवण्यासाठी सर्वोत्तम पद्धती

आपल्या एरर बजेटमधून जास्तीत जास्त फायदा मिळवण्यासाठी, या सर्वोत्तम पद्धतींचा विचार करा:

लहान सुरुवात करा: काही प्रमुख सेवांपासून सुरुवात करा आणि अनुभव मिळताच हळूहळू इतर सेवांपर्यंत विस्तार करा.
पुनरावृत्ती आणि सुधारणा करा: आपल्या एरर बजेटचे सतत निरीक्षण करा आणि आवश्यकतेनुसार आपले SLOs आणि अलर्टिंग थ्रेशोल्ड समायोजित करा.
आपल्या टीमला शिक्षित करा: टीममधील प्रत्येकाला एरर बजेटची संकल्पना आणि सेवा विश्वसनीयता राखण्यात त्यांची भूमिका समजली आहे याची खात्री करा.
सर्वकाही स्वयंचलित करा: मॅन्युअल प्रयत्न कमी करण्यासाठी आणि कार्यक्षमता सुधारण्यासाठी शक्य तितकी एरर बजेट प्रक्रिया स्वयंचलित करा.
पारदर्शकपणे संवाद साधा: सर्व भागधारकांना एरर बजेटच्या स्थितीबद्दल आणि ते वापरणाऱ्या कोणत्याही घटनांबद्दल माहिती देत रहा.
ब्लेमलेस पोस्टमॉर्टम्सचा स्वीकार करा: अपयशातून शिकण्यासाठी आणि आपल्या सिस्टमची विश्वसनीयता सुधारण्यासाठी पोस्ट-इन्सिडेंट पुनरावलोकनांचा वापर करा.
एरर बजेट्सला फक्त मेट्रिक्स मानू नका: ते निर्णय घेण्याचे साधन आहेत. ते आपली विश्वसनीयता *खर्च* करण्याचा एक मार्ग आहेत, आणि तो "खर्च" थेट व्यवसायाच्या परिणामांशी आणि टीमच्या क्रियाकलापांशी जोडलेला असावा.

वेगवेगळ्या परिस्थितीत एरर बजेटच्या अंमलबजावणीची उदाहरणे

चला पाहूया की वेगवेगळ्या परिस्थितीत एरर बजेट कसे लागू केले जाऊ शकतात याची काही उदाहरणे:

उदाहरण १: एक मोबाइल ॲप्लिकेशन

एक मोबाइल ॲप्लिकेशन अनेक बॅकएंड सेवांवर अवलंबून आहे. टीमने कोर API सेवेसाठी ९९.९% अपटाइमचा SLO परिभाषित केला आहे. याचा अर्थ दरमहा ४३ मिनिटांचे एरर बजेट आहे.

जेव्हा अलीकडील रिलीजमुळे एक बग येतो ज्यामुळे मधूनमधून आउटेज होतात, तेव्हा एरर बजेट त्वरीत वापरले जाते. टीम ताबडतोब नवीन रिलीज थांबवते आणि बग दुरुस्त करण्यावर लक्ष केंद्रित करते. बग दुरुस्त झाल्यानंतर, ते मूळ कारण ओळखण्यासाठी आणि त्यांची चाचणी प्रक्रिया सुधारण्यासाठी पोस्ट-इन्सिडेंट पुनरावलोकन करतात.

उदाहरण २: एक वित्तीय संस्था

एक वित्तीय संस्था तिच्या व्यवहार प्रक्रिया प्रणालीची विश्वसनीयता व्यवस्थापित करण्यासाठी एरर बजेट वापरते. ते व्यावसायिक वेळेत व्यवहार प्रक्रिया सेवेसाठी ९९.९९% अपटाइमचा SLO परिभाषित करतात. याचा अर्थ खूप लहान एरर बजेट आहे.

एरर बजेट ओलांडण्याचा धोका कमी करण्यासाठी, टीम एक कठोर बदल व्यवस्थापन प्रक्रिया लागू करते. सर्व बदल उत्पादन वातावरणात तैनात करण्यापूर्वी त्यांची कसून चाचणी आणि पुनरावलोकन केले जाते. ते कोणत्याही समस्या त्वरीत शोधण्यासाठी आणि प्रतिसाद देण्यासाठी मॉनिटरिंग आणि अलर्टिंगमध्ये मोठी गुंतवणूक करतात.

उदाहरण ३: एक जागतिक ई-कॉमर्स कंपनी

एका जागतिक ई-कॉमर्स कंपनीकडे अनेक भौगोलिक प्रदेशांमध्ये मायक्रो सर्व्हिसेस वितरीत केलेल्या आहेत. प्रत्येक प्रदेशाचे स्वतःचे SLOs आणि एरर बजेट आहेत, ज्यात स्थानिक नियम आणि ग्राहकांच्या अपेक्षा विचारात घेतल्या जातात.

एका मोठ्या विक्री कार्यक्रमादरम्यान, कंपनीला एका प्रदेशात रहदारीत वाढ अनुभवता येते. त्या प्रदेशासाठी एरर बजेट त्वरीत वापरले जाते. टीम सिस्टमवरील भार कमी करण्यासाठी आणि पुढील आउटेज टाळण्यासाठी ट्रॅफिक शेपिंग उपाययोजना लागू करते. ते क्षमता वाढवण्यासाठी स्थानिक पायाभूत सुविधा प्रदात्यासोबतही काम करतात.

एरर बजेटचे भविष्य

SRE आणि DevOps च्या जगात एरर बजेट अधिकाधिक महत्त्वाचे होत आहेत. जसे सिस्टम अधिक जटिल होत आहेत आणि विश्वसनीयतेची मागणी वाढत आहे, तसे एरर बजेट नवनिर्मिती आणि स्थिरतेमध्ये संतुलन साधण्यासाठी एक मौल्यवान फ्रेमवर्क प्रदान करतात. एरर बजेटच्या भविष्यात खालील गोष्टींचा समावेश होण्याची शक्यता आहे:

अधिक अत्याधुनिक साधने: एरर बजेटची गणना, अलर्टची निर्मिती आणि इन्सिडेंट रिस्पॉन्स प्लॅनची अंमलबजावणी स्वयंचलित करण्यासाठी अधिक प्रगत साधने विकसित केली जातील.
AI आणि मशीन लर्निंगसह एकत्रीकरण: एरर बजेटच्या वापराचा अंदाज घेण्यासाठी आणि सक्रियपणे आउटेज टाळण्यासाठी AI आणि मशीन लर्निंगचा वापर केला जाईल.
नवीन उद्योगांमध्ये अवलंब: एरर बजेट तंत्रज्ञानाच्या पलीकडे आरोग्यसेवा, वित्त आणि उत्पादन यांसारख्या नवीन उद्योगांमध्ये स्वीकारले जाईल.
व्यवसायाच्या परिणामांवर अधिक लक्ष केंद्रित करणे: एरर बजेट्स व्यवसायाच्या परिणामांशी अधिक जवळून जुळवून घेतले जातील, ज्यामुळे विश्वसनीयता प्रयत्न थेट व्यावसायिक मूल्याशी जोडलेले असतील याची खात्री होईल.

निष्कर्ष

आधुनिक सॉफ्टवेअर सिस्टममध्ये नवनिर्मिती आणि विश्वसनीयता यांच्यात संतुलन साधण्यासाठी एरर बजेट्स हे एक शक्तिशाली साधन आहे. स्पष्ट SLOs परिभाषित करून, एरर बजेटची गणना करून, आणि प्रभावी मॉनिटरिंग व अलर्टिंग लागू करून, टीम्स नवनिर्मिती विरुद्ध विश्वसनीयता सुधारणांना केव्हा प्राधान्य द्यायचे याबद्दल डेटा-आधारित निर्णय घेऊ शकतात. आपल्या वापरकर्त्यांच्या आणि आपल्या व्यवसायाच्या गरजा पूर्ण करणाऱ्या अधिक विश्वसनीय आणि लवचिक सिस्टम तयार करण्यासाठी SRE आणि एरर बजेटच्या तत्त्वांचा स्वीकार करा. ते टीम्सना धोका, नवनिर्मिती आणि एकूण वापरकर्ता अनुभव यांच्यातील संबंध समजून घेण्यास आणि *परिमाणित* करण्यास मदत करतात.