เรียนรู้วิธีการนำ Error Budgets ไปใช้ใน Site Reliability Engineering (SRE) เพื่อสร้างสมดุลระหว่างนวัตกรรมและความน่าเชื่อถือ เพื่อประสิทธิภาพของระบบที่ดีที่สุด
Site Reliability Engineering: การจัดการ Error Budgets เพื่อระบบที่เชื่อถือได้
ในโลกดิจิทัลที่เปลี่ยนแปลงอย่างรวดเร็วในปัจจุบัน การรักษาระบบให้มีความน่าเชื่อถือสูงเป็นสิ่งสำคัญยิ่ง Site Reliability Engineering (SRE) นำเสนอแนวทางที่มีโครงสร้างเพื่อให้บรรลุเป้าหมายนี้ หนึ่งในแนวคิดหลักภายใน SRE คือ error budget ซึ่งเป็นเครื่องมืออันทรงพลังที่สร้างสมดุลระหว่างนวัตกรรมและความน่าเชื่อถือ คู่มือฉบับสมบูรณ์นี้จะสำรวจแนวคิดของ error budgets ความสำคัญ วิธีการกำหนดและนำไปใช้ และแนวปฏิบัติที่ดีที่สุดเพื่อเพิ่มประสิทธิภาพสูงสุด
Error Budget คืออะไร?
Error budget คือปริมาณความไม่น่าเชื่อถือหรือดาวน์ไทม์ที่บริการสามารถสะสมได้ในช่วงเวลาที่กำหนด (เช่น รายเดือน รายไตรมาส หรือรายปี) มันคือระดับความล้มเหลวที่ยอมรับได้ก่อนที่จะละเมิดเป้าหมายความน่าเชื่อถือ (Service Level Objective หรือ SLO) ลองนึกภาพว่ามันเป็นงบประมาณที่คุณสามารถ "ใช้จ่าย" ไปกับสิ่งต่างๆ ที่มีความเสี่ยง เช่น การปล่อยฟีเจอร์ใหม่ การปรับปรุงโค้ด หรือการทดลองใช้เทคโนโลยีใหม่ๆ เมื่อใช้ error budget หมดแล้ว ทีมจะต้องจัดลำดับความสำคัญของงานที่เน้นด้านความน่าเชื่อถือ
โดยพื้นฐานแล้ว error budget เป็นแนวทางที่ขับเคลื่อนด้วยข้อมูลในการตัดสินใจว่าจะจัดลำดับความสำคัญระหว่างนวัตกรรมกับความน่าเชื่อถือเมื่อใด หากไม่มี error budget การตัดสินใจเกี่ยวกับการปล่อยฟีเจอร์ใหม่กับการแก้ไขข้อบกพร่องอาจกลายเป็นเรื่องส่วนตัวและขึ้นอยู่กับความคิดเห็นส่วนบุคคลหรือแรงกดดันในระยะสั้น
ตัวอย่างเช่น ลองพิจารณาบริการที่มี SLO ด้าน uptime 99.9% ต่อเดือน ซึ่งหมายความว่าบริการสามารถล่มได้สูงสุด 43.2 นาทีต่อเดือน เวลา 43.2 นาทีนี้ถือเป็น error budget
ทำไม Error Budgets ถึงมีความสำคัญ?
Error budgets มีประโยชน์ที่สำคัญหลายประการ:
- การตัดสินใจที่ขับเคลื่อนด้วยข้อมูล: Error budgets เป็นตัวชี้วัดเชิงปริมาณเพื่อเป็นแนวทางในการตัดสินใจที่เกี่ยวข้องกับการรับความเสี่ยง แทนที่จะอาศัยความรู้สึก ทีมสามารถใช้ข้อมูลเพื่อตัดสินใจว่าจะจัดลำดับความสำคัญระหว่างนวัตกรรมกับการปรับปรุงความน่าเชื่อถือเมื่อใด
- ความสมดุลระหว่างนวัตกรรมและความน่าเชื่อถือ: ช่วยให้ทีมสามารถรับความเสี่ยงที่คำนวณไว้แล้วและสร้างนวัตกรรมได้อย่างรวดเร็วในขณะที่ยังคงรักษาระดับความน่าเชื่อถือที่ยอมรับได้ เป็นเรื่องของการหาจุดที่เหมาะสมระหว่างการปล่อยฟีเจอร์ใหม่และการรักษาระบบให้เสถียร
- การสื่อสารที่ดีขึ้น: Error budgets ช่วยให้การสื่อสารระหว่างทีมวิศวกรรม ทีมผลิตภัณฑ์ และผู้มีส่วนได้ส่วนเสียทางธุรกิจชัดเจนยิ่งขึ้น ทุกคนเข้าใจถึงข้อดีข้อเสียที่เกี่ยวข้องและสามารถตัดสินใจร่วมกันได้อย่างมีข้อมูล
- เพิ่มความเป็นเจ้าของและความรับผิดชอบ: เมื่อทีมต้องรับผิดชอบในการจัดการ error budgets ของตนเอง พวกเขาก็จะมีความรับผิดชอบต่อความน่าเชื่อถือของบริการของตนมากขึ้น
- การเรียนรู้และทำซ้ำที่รวดเร็วยิ่งขึ้น: โดยการติดตามการใช้ error budget ทีมสามารถเรียนรู้จากความล้มเหลวและปรับปรุงกระบวนการของตนเอง ซึ่งนำไปสู่รอบการทำซ้ำที่รวดเร็วยิ่งขึ้น
ทำความเข้าใจ Service Level Objectives (SLOs), Service Level Agreements (SLAs), และ Service Level Indicators (SLIs)
เพื่อให้สามารถใช้ error budgets ได้อย่างมีประสิทธิภาพ สิ่งสำคัญคือต้องเข้าใจแนวคิดที่เกี่ยวข้องของ SLOs, SLAs และ SLIs:
- Service Level Indicators (SLIs): นี่คือตัวชี้วัดเชิงปริมาณของประสิทธิภาพบริการ ตัวอย่างเช่น uptime, latency, error rate และ throughput สิ่งเหล่านี้ *วัด*ประสิทธิภาพของบริการ ตัวอย่างเช่น SLI: เปอร์เซ็นต์ของคำขอ HTTP ที่ส่งคืนสำเร็จ (เช่น 200 OK)
- Service Level Objectives (SLOs): นี่คือเป้าหมายเฉพาะสำหรับ SLIs ซึ่งกำหนดระดับประสิทธิภาพที่ต้องการ SLO คือ *เป้าหมาย* สำหรับ SLI ตัวอย่างเช่น SLO: 99.9% ของคำขอ HTTP จะส่งคืนสำเร็จในช่วงหนึ่งเดือนตามปฏิทิน
- Service Level Agreements (SLAs): นี่คือสัญญาระหว่างผู้ให้บริการและลูกค้าที่ระบุถึงผลที่ตามมาหากไม่สามารถบรรลุ SLOs ได้ ซึ่งมักจะเกี่ยวข้องกับบทลงโทษทางการเงิน SLA คือ *สัญญา* ที่รับประกัน SLO ที่แน่นอน
Error budget นั้นได้มาจาก SLO โดยตรง มันคือผลต่างระหว่างความน่าเชื่อถือ 100% กับเป้าหมาย SLO ตัวอย่างเช่น หาก SLO ของคุณคือ uptime 99.9% error budget ของคุณคือดาวน์ไทม์ 0.1%
การกำหนด Error Budgets: คู่มือทีละขั้นตอน
การกำหนด error budgets ที่มีประสิทธิภาพนั้นต้องมีแนวทางที่เป็นระบบ:
1. กำหนด SLOs ของคุณ
เริ่มต้นด้วยการกำหนด SLOs ของคุณให้ชัดเจนโดยอิงตามความต้องการทางธุรกิจและความคาดหวังของลูกค้า พิจารณาปัจจัยต่างๆ เช่น:
- ผลกระทบต่อผู้ใช้: แง่มุมใดของบริการที่สำคัญที่สุดต่อผู้ใช้?
- เป้าหมายทางธุรกิจ: วัตถุประสงค์ทางธุรกิจที่สำคัญที่บริการสนับสนุนคืออะไร?
- ความเป็นไปได้ทางเทคนิค: ระดับความน่าเชื่อถือใดที่สามารถทำได้จริงเมื่อพิจารณาจากโครงสร้างพื้นฐานและทรัพยากรในปัจจุบัน?
SLOs ทั่วไป ได้แก่ uptime, latency, error rate และ throughput อย่าลืมเลือกเป้าหมายที่สมจริงและวัดผลได้ ควรเริ่มต้นด้วย SLO ที่ต่ำกว่าเล็กน้อยแล้วค่อยๆ เพิ่มขึ้นเมื่อบริการเติบโตขึ้น
ตัวอย่าง: แพลตฟอร์มอีคอมเมิร์ซระดับโลกอาจกำหนด SLOs ต่อไปนี้:
- Uptime: 99.99% uptime สำหรับบริการตะกร้าสินค้าในช่วงเวลาที่มีผู้ใช้งานสูงสุด (เช่น Black Friday)
- Latency: 95th percentile latency น้อยกว่า 200ms สำหรับการค้นหาสินค้า
- Error Rate: อัตราข้อผิดพลาดน้อยกว่า 0.1% สำหรับการสั่งซื้อ
2. คำนวณ Error Budget ของคุณ
เมื่อคุณกำหนด SLOs แล้ว ให้คำนวณ error budget ที่สอดคล้องกัน โดยปกติจะแสดงเป็นเปอร์เซ็นต์ของดาวน์ไทม์หรือข้อผิดพลาดที่อนุญาตในช่วงเวลาที่กำหนด
สูตร: Error Budget = 100% - SLO
ตัวอย่าง: หาก SLO ด้าน uptime ของคุณคือ 99.9% error budget ของคุณคือ 0.1% ซึ่งแปลเป็นเวลาดาวน์ไทม์ประมาณ 43 นาทีต่อเดือน
3. เลือกกรอบเวลาที่เหมาะสม
เลือกกรอบเวลาสำหรับ error budget ของคุณให้สอดคล้องกับรอบการปล่อยซอฟต์แวร์และความต้องการทางธุรกิจของคุณ กรอบเวลาที่พบบ่อย ได้แก่:
- รายเดือน: ให้ข้อเสนอแนะที่บ่อยครั้งและช่วยให้ปรับเปลี่ยนได้อย่างรวดเร็ว
- รายไตรมาส: ให้มุมมองระยะยาวและลดผลกระทบจากความผันผวนในระยะสั้น
- รายปี: เหมาะสำหรับบริการที่มีการปล่อยซอฟต์แวร์ไม่บ่อยและมีพฤติกรรมที่คาดการณ์ได้มากกว่า
การเลือกกรอบเวลาขึ้นอยู่กับบริบทเฉพาะของบริการของคุณ สำหรับบริการที่มีการพัฒนาอย่างรวดเร็วและมีการปล่อยซอฟต์แวร์บ่อยครั้ง กรอบเวลารายเดือนอาจเหมาะสมกว่า สำหรับบริการที่มีความเสถียรมากกว่า กรอบเวลารายไตรมาสหรือรายปีอาจเพียงพอ
4. กำหนดการดำเนินการตามการใช้ Error Budget
สร้างแนวทางที่ชัดเจนว่าจะต้องดำเนินการอย่างไรเมื่อมีการใช้ error budget ซึ่งควรประกอบด้วย:
- เกณฑ์การแจ้งเตือน: ตั้งค่าการแจ้งเตือนที่จะทำงานเมื่อการใช้ error budget ถึงระดับที่กำหนด (เช่น 50%, 75%, 100%)
- ขั้นตอนการส่งต่อเรื่อง: กำหนดเส้นทางการส่งต่อเรื่องที่ชัดเจนสำหรับระดับการแจ้งเตือนต่างๆ
- แผนการตอบสนองต่อเหตุการณ์: มีแผนการตอบสนองต่อเหตุการณ์ที่กำหนดไว้อย่างดีเพื่อจัดการกับการหยุดทำงานและป้องกันการใช้ error budget เพิ่มเติม
- นโยบายการระงับการปล่อยซอฟต์แวร์ใหม่: ใช้นโยบายเพื่อระงับการปล่อยซอฟต์แวร์ใหม่เมื่อ error budget ใกล้จะหมด
ตัวอย่าง:
- การใช้ Error Budget 50%: ตรวจสอบสาเหตุของอัตราข้อผิดพลาดที่เพิ่มขึ้น ทบทวนการเปลี่ยนแปลงล่าสุด
- การใช้ Error Budget 75%: ส่งต่อเรื่องไปยังวิศวกรที่รับผิดชอบ (on-call) จัดลำดับความสำคัญในการแก้ไขข้อบกพร่องมากกว่าฟีเจอร์ใหม่
- การใช้ Error Budget 100%: ระงับการปล่อยซอฟต์แวร์ใหม่ทั้งหมด มุ่งเน้นไปที่การฟื้นฟูความน่าเชื่อถือของบริการเพียงอย่างเดียว จัดทำบทสรุปเหตุการณ์ (post-incident review) อย่างละเอียด
การนำ Error Budgets ไปใช้: ขั้นตอนปฏิบัติ
การนำ error budgets ไปใช้ต้องอาศัยการผสมผสานระหว่างเครื่องมือ กระบวนการ และการเปลี่ยนแปลงวัฒนธรรมองค์กร:
1. การติดตั้งเครื่องมือวัดผลและการมอนิเตอร์
ติดตั้งเครื่องมือวัดผลและการมอนิเตอร์ที่ครอบคลุมเพื่อติดตาม SLIs ของคุณอย่างแม่นยำ ใช้เครื่องมือที่ให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของบริการแบบเรียลไทม์ ลองพิจารณาใช้เครื่องมือเช่น Prometheus, Grafana, Datadog, New Relic หรือ Splunk
ตรวจสอบให้แน่ใจว่าระบบมอนิเตอร์ของคุณสามารถติดตามตัวชี้วัดสำคัญได้ เช่น:
- Uptime: ติดตามความพร้อมใช้งานของบริการของคุณ
- Latency: วัดเวลาตอบสนองของบริการของคุณ
- Error Rate: ติดตามความถี่ของข้อผิดพลาด
- Throughput: ติดตามปริมาณคำขอที่บริการของคุณจัดการ
2. การแจ้งเตือน
ตั้งค่าการแจ้งเตือนตามการใช้ error budget กำหนดค่าการแจ้งเตือนให้ทำงานเมื่อ error budget ใกล้จะหมด ใช้แพลตฟอร์มการแจ้งเตือนที่ทำงานร่วมกับระบบมอนิเตอร์ของคุณ เช่น PagerDuty, Opsgenie หรือ Slack
ตรวจสอบให้แน่ใจว่าการแจ้งเตือนของคุณสามารถนำไปปฏิบัติได้และให้บริบทที่เพียงพอสำหรับวิศวกรที่รับผิดชอบ (on-call) เพื่อวินิจฉัยและแก้ไขปัญหาได้อย่างรวดเร็ว หลีกเลี่ยงความเหนื่อยล้าจากการแจ้งเตือน (alert fatigue) โดยการปรับเกณฑ์การแจ้งเตือนเพื่อลดผลบวกลวง (false positives)
3. ระบบอัตโนมัติ
ทำให้กระบวนการเป็นอัตโนมัติให้ได้มากที่สุด ทำให้การคำนวณการใช้ error budget การสร้างการแจ้งเตือน และการดำเนินการตามแผนตอบสนองต่อเหตุการณ์เป็นแบบอัตโนมัติ ใช้เครื่องมือเช่น Ansible, Chef, Puppet หรือ Terraform เพื่อทำให้การจัดเตรียมโครงสร้างพื้นฐานและการจัดการการกำหนดค่าเป็นแบบอัตโนมัติ
4. การสื่อสารและการทำงานร่วมกัน
ส่งเสริมการสื่อสารที่เปิดกว้างและการทำงานร่วมกันระหว่างทีมวิศวกรรม ผลิตภัณฑ์ และผู้มีส่วนได้ส่วนเสียทางธุรกิจ สื่อสารสถานะของ error budget ให้กับผู้มีส่วนได้ส่วนเสียทั้งหมดอย่างสม่ำเสมอ ใช้ช่องทางการสื่อสารเช่น Slack, อีเมล หรือแดชบอร์ดเฉพาะ
5. การทบทวนหลังเกิดเหตุการณ์ (Post-Incident Reviews)
จัดทำการทบทวนหลังเกิดเหตุการณ์อย่างละเอียด (หรือที่เรียกว่า blameless postmortems) หลังจากทุกเหตุการณ์ที่ใช้ error budget ไปเป็นจำนวนมาก ระบุสาเหตุที่แท้จริงของเหตุการณ์ บันทึกบทเรียนที่ได้รับ และดำเนินการแก้ไขเพื่อป้องกันไม่ให้เหตุการณ์ที่คล้ายกันเกิดขึ้นในอนาคต
มุ่งเน้นไปที่การระบุปัญหาเชิงระบบแทนที่จะกล่าวโทษบุคคล เป้าหมายคือการเรียนรู้จากความล้มเหลวและปรับปรุงความน่าเชื่อถือโดยรวมของระบบ
แนวปฏิบัติที่ดีที่สุดเพื่อเพิ่มประสิทธิภาพของ Error Budget
เพื่อให้ได้ประโยชน์สูงสุดจาก error budgets ของคุณ ให้พิจารณาแนวปฏิบัติที่ดีที่สุดเหล่านี้:
- เริ่มต้นจากจุดเล็กๆ: เริ่มต้นด้วยบริการที่สำคัญเพียงไม่กี่อย่าง แล้วค่อยๆ ขยายไปยังบริการอื่นๆ เมื่อคุณมีประสบการณ์มากขึ้น
- ทำซ้ำและปรับปรุง: ติดตาม error budgets ของคุณอย่างต่อเนื่อง และปรับ SLOs และเกณฑ์การแจ้งเตือนตามความจำเป็น
- ให้ความรู้แก่ทีมของคุณ: ตรวจสอบให้แน่ใจว่าทุกคนในทีมเข้าใจแนวคิดของ error budgets และบทบาทของตนในการรักษาระดับความน่าเชื่อถือของบริการ
- ทำให้ทุกอย่างเป็นอัตโนมัติ: ทำให้กระบวนการของ error budget เป็นอัตโนมัติให้ได้มากที่สุดเพื่อลดการทำงานด้วยตนเองและเพิ่มประสิทธิภาพ
- สื่อสารอย่างโปร่งใส: แจ้งให้ผู้มีส่วนได้ส่วนเสียทุกคนทราบเกี่ยวกับสถานะของ error budget และเหตุการณ์ใดๆ ที่ใช้มันไป
- ยอมรับการทบทวนหลังเกิดเหตุการณ์แบบไม่กล่าวโทษ: ใช้การทบทวนหลังเกิดเหตุการณ์เพื่อเรียนรู้จากความล้มเหลวและปรับปรุงความน่าเชื่อถือของระบบของคุณ
- อย่ามองว่า Error Budgets เป็นเพียงตัวชี้วัด: มันคือเครื่องมือในการตัดสินใจ เป็นวิธีการ *ใช้จ่าย* ความน่าเชื่อถือของคุณ และ "การใช้จ่าย" นั้นควรเชื่อมโยงโดยตรงกับผลลัพธ์ทางธุรกิจและกิจกรรมของทีม
ตัวอย่างการนำ Error Budget ไปใช้ในสถานการณ์ต่างๆ
มาดูตัวอย่างเล็กๆ น้อยๆ ว่า error budgets สามารถนำไปใช้ในสถานการณ์ต่างๆ ได้อย่างไร:
ตัวอย่างที่ 1: แอปพลิเคชันมือถือ
แอปพลิเคชันมือถือต้องพึ่งพาบริการ backend หลายตัว ทีมได้กำหนด SLO ที่ 99.9% uptime สำหรับบริการ API หลัก ซึ่งแปลเป็น error budget ที่ 43 นาทีต่อเดือน
เมื่อการปล่อยซอฟต์แวร์ครั้งล่าสุดมีข้อบกพร่องที่ทำให้เกิดการหยุดทำงานเป็นครั้งคราว error budget ก็ถูกใช้ไปอย่างรวดเร็ว ทีมจึงระงับการปล่อยซอฟต์แวร์ใหม่ทันทีและมุ่งเน้นไปที่การแก้ไขข้อบกพร่อง หลังจากแก้ไขข้อบกพร่องแล้ว พวกเขาก็ทำการทบทวนหลังเกิดเหตุการณ์เพื่อระบุสาเหตุที่แท้จริงและปรับปรุงกระบวนการทดสอบของพวกเขา
ตัวอย่างที่ 2: สถาบันการเงิน
สถาบันการเงินใช้ error budgets เพื่อจัดการความน่าเชื่อถือของระบบประมวลผลธุรกรรม พวกเขากำหนด SLO ที่ 99.99% uptime สำหรับบริการประมวลผลธุรกรรมในช่วงเวลาทำการ ซึ่งแปลเป็น error budget ที่น้อยมาก
เพื่อลดความเสี่ยงที่จะใช้ error budget เกินกำหนด ทีมได้นำกระบวนการจัดการการเปลี่ยนแปลงที่เข้มงวดมาใช้ การเปลี่ยนแปลงทั้งหมดจะได้รับการทดสอบและตรวจสอบอย่างละเอียดก่อนที่จะนำไปใช้งานจริง พวกเขายังลงทุนอย่างมากในการมอนิเตอร์และการแจ้งเตือนเพื่อตรวจจับและตอบสนองต่อปัญหาใดๆ ได้อย่างรวดเร็ว
ตัวอย่างที่ 3: บริษัทอีคอมเมิร์ซระดับโลก
บริษัทอีคอมเมิร์ซระดับโลกมี microservices กระจายอยู่ตามภูมิภาคต่างๆ ทั่วโลก แต่ละภูมิภาคมีชุด SLOs และ error budgets ของตัวเอง โดยคำนึงถึงกฎระเบียบในท้องถิ่นและความคาดหวังของลูกค้า
ในช่วงกิจกรรมลดราคาครั้งใหญ่ บริษัทประสบปัญหาปริมาณการใช้งานที่เพิ่มสูงขึ้นในภูมิภาคหนึ่ง error budget สำหรับภูมิภาคนั้นถูกใช้ไปอย่างรวดเร็ว ทีมได้ใช้มาตรการควบคุมปริมาณการใช้งาน (traffic shaping) เพื่อลดภาระของระบบและป้องกันการหยุดทำงานเพิ่มเติม พวกเขายังทำงานร่วมกับผู้ให้บริการโครงสร้างพื้นฐานในพื้นที่เพื่อเพิ่มขีดความสามารถ
อนาคตของ Error Budgets
Error budgets กำลังมีความสำคัญมากขึ้นในโลกของ SRE และ DevOps ในขณะที่ระบบมีความซับซ้อนมากขึ้นและความต้องการด้านความน่าเชื่อถือเพิ่มสูงขึ้น error budgets เป็นกรอบการทำงานที่มีคุณค่าในการสร้างสมดุลระหว่างนวัตกรรมและความเสถียร อนาคตของ error budgets น่าจะเกี่ยวข้องกับ:
- เครื่องมือที่ซับซ้อนยิ่งขึ้น: เครื่องมือที่ล้ำหน้ากว่าจะถูกพัฒนาขึ้นเพื่อทำให้การคำนวณ error budgets การสร้างการแจ้งเตือน และการดำเนินการตามแผนตอบสนองต่อเหตุการณ์เป็นแบบอัตโนมัติ
- การบูรณาการกับ AI และ Machine Learning: AI และ machine learning จะถูกนำมาใช้เพื่อคาดการณ์การใช้ error budget และป้องกันการหยุดทำงานเชิงรุก
- การนำไปใช้ในอุตสาหกรรมใหม่ๆ: Error budgets จะถูกนำไปใช้ในอุตสาหกรรมใหม่ๆ นอกเหนือจากเทคโนโลยี เช่น การดูแลสุขภาพ การเงิน และการผลิต
- การมุ่งเน้นผลลัพธ์ทางธุรกิจมากขึ้น: Error budgets จะสอดคล้องกับผลลัพธ์ทางธุรกิจมากขึ้น เพื่อให้แน่ใจว่าความพยายามด้านความน่าเชื่อถือเชื่อมโยงโดยตรงกับคุณค่าทางธุรกิจ
บทสรุป
Error budgets เป็นเครื่องมืออันทรงพลังในการสร้างสมดุลระหว่างนวัตกรรมและความน่าเชื่อถือในระบบซอฟต์แวร์สมัยใหม่ โดยการกำหนด SLOs ที่ชัดเจน การคำนวณ error budgets และการนำระบบมอนิเตอร์และการแจ้งเตือนที่มีประสิทธิภาพมาใช้ ทีมสามารถตัดสินใจโดยใช้ข้อมูลเป็นหลักว่าจะจัดลำดับความสำคัญระหว่างนวัตกรรมกับการปรับปรุงความน่าเชื่อถือเมื่อใด ยอมรับหลักการของ SRE และ error budgets เพื่อสร้างระบบที่น่าเชื่อถือและยืดหยุ่นมากขึ้น ซึ่งตอบสนองความต้องการของผู้ใช้และธุรกิจของคุณ สิ่งเหล่านี้ช่วยให้ทีมเข้าใจและ*วัดผลเชิงปริมาณ*ของความสัมพันธ์ระหว่างความเสี่ยง นวัตกรรม และประสบการณ์โดยรวมของผู้ใช้