21 กรกฎาคม 2568ไทย

สำรวจอัลกอริทึมการเก็บขยะพื้นฐานที่ขับเคลื่อนระบบรันไทม์สมัยใหม่ ซึ่งมีความสำคัญต่อการจัดการหน่วยความจำและประสิทธิภาพของแอปพลิเคชันทั่วโลก

ระบบรันไทม์: เจาะลึกอัลกอริทึมการเก็บขยะ

ในโลกที่ซับซ้อนของการประมวลผล ระบบรันไทม์คือกลไกที่มองไม่เห็นซึ่งทำให้ซอฟต์แวร์ของเรามีชีวิตขึ้นมา ระบบเหล่านี้จัดการทรัพยากร เรียกใช้งานโค้ด และรับประกันการทำงานของแอปพลิเคชันอย่างราบรื่น หัวใจสำคัญของระบบรันไทม์สมัยใหม่จำนวนมากคือส่วนประกอบที่สำคัญ: การเก็บขยะ (Garbage Collection - GC) GC คือกระบวนการของการเรียกคืนหน่วยความจำโดยอัตโนมัติที่แอปพลิเคชันไม่ได้ใช้งานอีกต่อไป ป้องกันหน่วยความจำรั่วไหล และรับประกันการใช้ทรัพยากรอย่างมีประสิทธิภาพ

สำหรับนักพัฒนาทั่วโลก การทำความเข้าใจ GC ไม่ใช่แค่การเขียนโค้ดที่สะอาดขึ้นเท่านั้น แต่เป็นการสร้างแอปพลิเคชันที่แข็งแกร่ง มีประสิทธิภาพ และปรับขนาดได้ การสำรวจที่ครอบคลุมนี้จะเจาะลึกแนวคิดหลักและอัลกอริทึมต่างๆ ที่ขับเคลื่อนการเก็บขยะ โดยให้ข้อมูลเชิงลึกที่มีคุณค่าแก่ผู้เชี่ยวชาญจากภูมิหลังทางเทคนิคที่หลากหลาย

ความจำเป็นในการจัดการหน่วยความจำ

ก่อนที่จะเจาะลึกอัลกอริทึมเฉพาะ สิ่งสำคัญคือต้องเข้าใจว่าเหตุใดการจัดการหน่วยความจำจึงมีความสำคัญมาก ในกระบวนทัศน์การเขียนโปรแกรมแบบดั้งเดิม นักพัฒนาจะจัดสรรและยกเลิกการจัดสรรหน่วยความจำด้วยตนเอง แม้ว่าวิธีนี้จะให้การควบคุมที่ละเอียด แต่ก็เป็นแหล่งที่มาของข้อผิดพลาดที่น่าอับอาย:

หน่วยความจำรั่วไหล: เมื่อหน่วยความจำที่จัดสรรไว้ไม่จำเป็นอีกต่อไป แต่ไม่ได้ถูกยกเลิกการจัดสรรอย่างชัดเจน หน่วยความจำนั้นจะยังคงถูกครอบครอง ทำให้หน่วยความจำที่มีอยู่ลดลงอย่างค่อยเป็นค่อยไป เมื่อเวลาผ่านไป สิ่งนี้อาจทำให้แอปพลิเคชันทำงานช้าลงหรือหยุดทำงานโดยสิ้นเชิง
ตัวชี้ที่ห้อย: หากหน่วยความจำถูกยกเลิกการจัดสรร แต่ตัวชี้ยังคงอ้างอิงถึงหน่วยความจำนั้น การพยายามเข้าถึงหน่วยความจำนั้นจะส่งผลให้เกิดลักษณะการทำงานที่ไม่แน่นอน ซึ่งมักนำไปสู่ช่องโหว่ด้านความปลอดภัยหรือการหยุดทำงาน
ข้อผิดพลาด Double Free: การยกเลิกการจัดสรรหน่วยความจำที่ถูกยกเลิกการจัดสรรไปแล้วก็นำไปสู่การเสียหายและความไม่เสถียรเช่นกัน

การจัดการหน่วยความจำอัตโนมัติ ผ่านการเก็บขยะ มีเป้าหมายเพื่อบรรเทาภาระเหล่านี้ ระบบรันไทม์รับผิดชอบในการระบุและเรียกคืนหน่วยความจำที่ไม่ได้ใช้งาน ช่วยให้นักพัฒนาสามารถมุ่งเน้นไปที่ตรรกะของแอปพลิเคชันมากกว่าการจัดการหน่วยความจำระดับต่ำ สิ่งนี้มีความสำคัญอย่างยิ่งในบริบทระดับโลกที่ความสามารถของฮาร์ดแวร์ที่หลากหลายและสภาพแวดล้อมการปรับใช้จำเป็นต้องมีซอฟต์แวร์ที่ยืดหยุ่นและมีประสิทธิภาพ

แนวคิดหลักในการเก็บขยะ

แนวคิดพื้นฐานหลายประการรองรับอัลกอริทึมการเก็บขยะทั้งหมด:

1. Reachability (การเข้าถึงได้)

หลักการสำคัญของอัลกอริทึม GC ส่วนใหญ่คือ reachability (การเข้าถึงได้) อ็อบเจ็กต์จะถือว่า reachable (เข้าถึงได้) หากมีเส้นทางจากชุดของรูท "live (มีชีวิต)" ที่รู้จักไปยังอ็อบเจ็กต์นั้น โดยทั่วไปรูทรวมถึง:

ตัวแปร Global
ตัวแปร Local บนสแต็กการดำเนินการ
รีจิสเตอร์ CPU
ตัวแปร Static

อ็อบเจ็กต์ใดๆ ที่ไม่สามารถเข้าถึงได้จากรูทเหล่านี้จะถือว่าเป็น garbage (ขยะ) และสามารถเรียกคืนได้

2. The Garbage Collection Cycle (วงจรการเก็บขยะ)

วงจร GC ทั่วไปประกอบด้วยหลายเฟส:

Marking (การทำเครื่องหมาย): GC เริ่มต้นจากรูทและสำรวจกราฟอ็อบเจ็กต์ ทำเครื่องหมายอ็อบเจ็กต์ที่เข้าถึงได้ทั้งหมด
Sweeping (or Compacting) (การกวาดล้าง (หรือการบีบอัด)): หลังจากการทำเครื่องหมาย GC จะวนซ้ำผ่านหน่วยความจำ อ็อบเจ็กต์ที่ไม่ได้ทำเครื่องหมาย (ขยะ) จะถูกเรียกคืน ในบางอัลกอริทึม อ็อบเจ็กต์ที่เข้าถึงได้จะถูกย้ายไปยังตำแหน่งหน่วยความจำที่อยู่ติดกัน (การบีบอัด) เพื่อลดการกระจายตัว

3. Pauses (การหยุดชั่วคราว)

ความท้าทายที่สำคัญในการ GC คือศักยภาพในการ stop-the-world (STW) pauses (การหยุดชั่วคราวแบบหยุดโลกทั้งใบ) ในระหว่างการหยุดชั่วคราวเหล่านี้ การดำเนินการของแอปพลิเคชันจะหยุดลงเพื่อให้ GC สามารถดำเนินการได้โดยไม่มีการรบกวน การหยุดชั่วคราว STW ที่ยาวนานอาจส่งผลกระทบอย่างมากต่อการตอบสนองของแอปพลิเคชัน ซึ่งเป็นข้อกังวลที่สำคัญสำหรับแอปพลิเคชันที่ผู้ใช้ใช้งานในตลาดโลกใดๆ

Major Garbage Collection Algorithms (อัลกอริทึมการเก็บขยะหลัก)

ในช่วงหลายปีที่ผ่านมา มีการพัฒนาอัลกอริทึม GC ต่างๆ โดยแต่ละอัลกอริทึมมีจุดแข็งและจุดอ่อนของตัวเอง เราจะสำรวจอัลกอริทึมที่แพร่หลายที่สุดบางส่วน:

1. Mark-and-Sweep

อัลกอริทึม Mark-and-Sweep เป็นหนึ่งในเทคนิค GC ที่เก่าแก่และเป็นพื้นฐานที่สุด ทำงานในสองเฟสที่แตกต่างกัน:

Mark Phase (เฟสการทำเครื่องหมาย): GC เริ่มต้นจากชุดรูทและสำรวจกราฟอ็อบเจ็กต์ทั้งหมด ทุกอ็อบเจ็กต์ที่พบจะถูกทำเครื่องหมาย
Sweep Phase (เฟสการกวาดล้าง): จากนั้น GC จะสแกนฮีปทั้งหมด อ็อบเจ็กต์ใดๆ ที่ไม่ได้ทำเครื่องหมายจะถือว่าเป็นขยะและถูกเรียกคืน หน่วยความจำที่เรียกคืนจะถูกเพิ่มเข้าไปในรายการว่างสำหรับการจัดสรรในอนาคต

ข้อดี:

เรียบง่ายตามแนวคิดและเป็นที่เข้าใจกันอย่างแพร่หลาย
จัดการโครงสร้างข้อมูลแบบวนรอบได้อย่างมีประสิทธิภาพ

ข้อเสีย:

ประสิทธิภาพ: อาจช้าเพราะต้องสำรวจฮีปทั้งหมดและสแกนหน่วยความจำทั้งหมด
การกระจายตัว: หน่วยความจำจะกระจายตัวเมื่ออ็อบเจ็กต์ถูกจัดสรรและยกเลิกการจัดสรรในตำแหน่งที่แตกต่างกัน ซึ่งอาจนำไปสู่ความล้มเหลวในการจัดสรร แม้ว่าจะมีหน่วยความจำว่างทั้งหมดเพียงพอ
STW Pauses: โดยทั่วไปเกี่ยวข้องกับการหยุดชั่วคราวแบบหยุดโลกทั้งใบเป็นเวลานาน โดยเฉพาะอย่างยิ่งในฮีปขนาดใหญ่

ตัวอย่าง: GC เวอร์ชันแรกๆ ของ Java ใช้แนวทางการทำเครื่องหมายและกวาดล้างพื้นฐาน

2. Mark-and-Compact

เพื่อแก้ไขปัญหาการกระจายตัวของ Mark-and-Sweep อัลกอริทึม Mark-and-Compact จะเพิ่มเฟสที่สาม:

Mark Phase (เฟสการทำเครื่องหมาย): เหมือนกับ Mark-and-Sweep ทำเครื่องหมายอ็อบเจ็กต์ที่เข้าถึงได้ทั้งหมด
Compact Phase (เฟสการบีบอัด): หลังจากการทำเครื่องหมาย GC จะย้ายอ็อบเจ็กต์ที่ทำเครื่องหมายไว้ทั้งหมด (เข้าถึงได้) ไปยังบล็อกหน่วยความจำที่อยู่ติดกัน ซึ่งจะช่วยขจัดการกระจายตัว
Sweep Phase (เฟสการกวาดล้าง): จากนั้น GC จะกวาดล้างหน่วยความจำ เนื่องจากอ็อบเจ็กต์ถูกบีบอัด หน่วยความจำว่างจึงเป็นบล็อกที่อยู่ติดกันเพียงบล็อกเดียวที่ส่วนท้ายของฮีป ทำให้การจัดสรรในอนาคตเป็นไปอย่างรวดเร็ว

ข้อดี:

ขจัดการกระจายตัวของหน่วยความจำ
การจัดสรรครั้งต่อๆ ไปเร็วขึ้น
ยังคงจัดการโครงสร้างข้อมูลแบบวนรอบได้

ข้อเสีย:

ประสิทธิภาพ: เฟสการบีบอัดอาจมีค่าใช้จ่ายในการคำนวณสูง เนื่องจากเกี่ยวข้องกับการย้ายอ็อบเจ็กต์จำนวนมากในหน่วยความจำ
STW Pauses: ยังคงต้องเสียค่าใช้จ่ายในการหยุดชั่วคราว STW ที่สำคัญ เนื่องจากการต้องย้ายอ็อบเจ็กต์

ตัวอย่าง: แนวทางนี้เป็นพื้นฐานสำหรับตัวเก็บรวบรวมขั้นสูงอีกมากมาย

3. Copying Garbage Collection

Copying GC แบ่งฮีปออกเป็นสองส่วน: From-space (พื้นที่ต้นทาง) และ To-space (พื้นที่ปลายทาง) โดยทั่วไป อ็อบเจ็กต์ใหม่จะถูกจัดสรรในพื้นที่ต้นทาง

Copying Phase (เฟสการคัดลอก): เมื่อ GC ถูกทริกเกอร์ GC จะสำรวจพื้นที่ต้นทาง โดยเริ่มต้นจากรูท อ็อบเจ็กต์ที่เข้าถึงได้จะถูกคัดลอกจากพื้นที่ต้นทางไปยังพื้นที่ปลายทาง
Swap Spaces (สลับพื้นที่): เมื่ออ็อบเจ็กต์ที่เข้าถึงได้ทั้งหมดถูกคัดลอก พื้นที่ต้นทางจะมีเฉพาะขยะ และพื้นที่ปลายทางจะมีอ็อบเจ็กต์ live ทั้งหมด จากนั้นบทบาทของพื้นที่จะถูกสลับ พื้นที่ต้นทางเดิมจะกลายเป็นพื้นที่ปลายทางใหม่ พร้อมสำหรับรอบถัดไป

ข้อดี:

No Fragmentation (ไม่มีการกระจายตัว): อ็อบเจ็กต์จะถูกคัดลอกแบบอยู่ติดกันเสมอ ดังนั้นจึงไม่มีการกระจายตัวภายในพื้นที่ปลายทาง
Fast Allocation (การจัดสรรที่รวดเร็ว): การจัดสรรเป็นไปอย่างรวดเร็ว เนื่องจากเกี่ยวข้องกับการชนตัวชี้ในพื้นที่การจัดสรรปัจจุบันเท่านั้น

ข้อเสีย:

Space Overhead (ค่าใช้จ่ายด้านพื้นที่): ต้องใช้หน่วยความจำเป็นสองเท่าของฮีปเดียว เนื่องจากมีสองพื้นที่ที่ใช้งานอยู่
ประสิทธิภาพ: อาจมีค่าใช้จ่ายสูงหากมีอ็อบเจ็กต์ live จำนวนมาก เนื่องจากอ็อบเจ็กต์ live ทั้งหมดต้องถูกคัดลอก
STW Pauses: ยังคงต้องมีการหยุดชั่วคราว STW

ตัวอย่าง: มักใช้สำหรับการรวบรวมรุ่น 'young (เด็ก)' ในตัวเก็บรวบรวมขยะแบบแบ่งรุ่น

4. Generational Garbage Collection

แนวทางนี้อิงตาม generational hypothesis (สมมติฐานการแบ่งรุ่น) ซึ่งระบุว่าอ็อบเจ็กต์ส่วนใหญ่มีอายุการใช้งานสั้นมาก Generational GC แบ่งฮีปออกเป็นหลายรุ่น:

Young Generation (รุ่นเด็ก): ที่ซึ่งอ็อบเจ็กต์ใหม่ถูกจัดสรร คอลเลกชัน GC ที่นี่เกิดขึ้นบ่อยและรวดเร็ว (GC ย่อย)
Old Generation (รุ่นเก่า): อ็อบเจ็กต์ที่รอดชีวิตจาก GC ย่อยหลายครั้งจะถูกเลื่อนระดับไปเป็นรุ่นเก่า คอลเลกชัน GC ที่นี่เกิดขึ้นไม่บ่อยนักและละเอียดถี่ถ้วนมากขึ้น (GC หลัก)

วิธีการทำงาน:

อ็อบเจ็กต์ใหม่ถูกจัดสรรใน Young Generation
GC ย่อย (มักจะใช้ตัวเก็บรวบรวมการคัดลอก) จะดำเนินการบ่อยครั้งใน Young Generation อ็อบเจ็กต์ที่รอดชีวิตจะถูกเลื่อนระดับไปเป็น Old Generation
GC หลักจะดำเนินการไม่บ่อยนักใน Old Generation โดยมักจะใช้ Mark-and-Sweep หรือ Mark-and-Compact

ข้อดี:

Improved Performance (ประสิทธิภาพที่ได้รับการปรับปรุง): ช่วยลดความถี่ในการรวบรวมฮีปทั้งหมดได้อย่างมาก ขยะส่วนใหญ่จะพบใน Young Generation ซึ่งถูกรวบรวมอย่างรวดเร็ว
Reduced Pause Times (ลดเวลาหยุดชั่วคราว): GC ย่อยสั้นกว่า GC ฮีปเต็มมาก

ข้อเสีย:

Complexity (ความซับซ้อน): ซับซ้อนกว่าในการใช้งาน
Promotion Overhead (ค่าใช้จ่ายในการเลื่อนระดับ): อ็อบเจ็กต์ที่รอดชีวิตจาก GC ย่อยต้องเสียค่าใช้จ่ายในการเลื่อนระดับ
Remembered Sets (ชุดที่จดจำ): เพื่อจัดการการอ้างอิงอ็อบเจ็กต์จาก Old Generation ไปยัง Young Generation จำเป็นต้องมี "ชุดที่จดจำ" ซึ่งสามารถเพิ่มค่าใช้จ่ายได้

ตัวอย่าง: Java Virtual Machine (JVM) ใช้ generational GC อย่างกว้างขวาง (เช่น กับตัวเก็บรวบรวมเช่น Throughput Collector, CMS, G1, ZGC)

5. Reference Counting

แทนที่จะติดตามการเข้าถึงได้ Reference Counting จะเชื่อมโยงจำนวนกับการอ้างอิงแต่ละอ็อบเจ็กต์ ซึ่งบ่งชี้ว่ามีการอ้างอิงกี่รายการที่ชี้ไปที่อ็อบเจ็กต์นั้น อ็อบเจ็กต์จะถือว่าเป็นขยะเมื่อจำนวนการอ้างอิงลดลงเหลือศูนย์

Increment (เพิ่ม): เมื่อมีการอ้างอิงใหม่ไปยังอ็อบเจ็กต์ จำนวนการอ้างอิงจะเพิ่มขึ้น
Decrement (ลด): เมื่อการอ้างอิงไปยังอ็อบเจ็กต์ถูกลบ จำนวนจะลดลง หากจำนวนเป็นศูนย์ อ็อบเจ็กต์จะถูกยกเลิกการจัดสรรทันที

ข้อดี:

No Pauses (ไม่มีการหยุดชั่วคราว): การยกเลิกการจัดสรรจะเกิดขึ้นทีละน้อยเมื่อการอ้างอิงถูกลบออก หลีกเลี่ยงการหยุดชั่วคราว STW ที่ยาวนาน
Simplicity (ความเรียบง่าย): ตรงไปตรงมาตามแนวคิด

ข้อเสีย:

Cyclic References (การอ้างอิงแบบวนรอบ): ข้อเสียเปรียบที่สำคัญคือความไม่สามารถรวบรวมโครงสร้างข้อมูลแบบวนรอบได้ หากอ็อบเจ็กต์ A ชี้ไปที่ B และ B ชี้กลับไปที่ A แม้ว่าจะไม่มีการอ้างอิงภายนอก จำนวนการอ้างอิงจะไม่ถึงศูนย์ นำไปสู่หน่วยความจำรั่วไหล
Overhead (ค่าใช้จ่าย): การเพิ่มและลดจำนวนจะเพิ่มค่าใช้จ่ายในการดำเนินการอ้างอิงทุกครั้ง
Unpredictable Behavior (ลักษณะการทำงานที่ไม่สามารถคาดเดาได้): ลำดับของการลดการอ้างอิงอาจไม่สามารถคาดเดาได้ ซึ่งส่งผลกระทบต่อเวลาที่หน่วยความจำถูกเรียกคืน

ตัวอย่าง: ใช้ใน Swift (ARC - Automatic Reference Counting), Python และ Objective-C

6. Incremental Garbage Collection

เพื่อลดเวลาหยุดชั่วคราว STW เพิ่มเติม อัลกอริทึม GC ที่เพิ่มขึ้นจะทำงาน GC ในส่วนเล็กๆ โดยสลับการดำเนินการ GC กับการดำเนินการของแอปพลิเคชัน สิ่งนี้ช่วยให้เวลาหยุดชั่วคราวสั้นลง

Phased Operations (การดำเนินการแบบแบ่งเฟส): เฟสการทำเครื่องหมายและการกวาดล้าง/บีบอัดจะถูกแบ่งออกเป็นขั้นตอนเล็กๆ
Interleaving (การสลับ): เธรดของแอปพลิเคชันสามารถดำเนินการระหว่างรอบการทำงานของ GC ได้

ข้อดี:

Shorter Pauses (การหยุดชั่วคราวที่สั้นกว่า): ช่วยลดระยะเวลาของการหยุดชั่วคราว STW ได้อย่างมาก
Improved Responsiveness (การตอบสนองที่ได้รับการปรับปรุง): ดีกว่าสำหรับแอปพลิเคชันแบบโต้ตอบ

ข้อเสีย:

Complexity (ความซับซ้อน): ซับซ้อนกว่าในการใช้งานมากกว่าอัลกอริทึมแบบดั้งเดิม
Performance Overhead (ค่าใช้จ่ายด้านประสิทธิภาพ): อาจทำให้เกิดค่าใช้จ่ายบางอย่างเนื่องจากจำเป็นต้องมีการประสานงานระหว่าง GC และเธรดของแอปพลิเคชัน

ตัวอย่าง: ตัวเก็บรวบรวม Concurrent Mark Sweep (CMS) ใน JVM เวอร์ชันเก่าเป็นความพยายามในช่วงต้นๆ ในการรวบรวมที่เพิ่มขึ้น

7. Concurrent Garbage Collection

อัลกอริทึม Concurrent GC ทำงานส่วนใหญ่ พร้อมกัน กับเธรดของแอปพลิเคชัน ซึ่งหมายความว่าแอปพลิเคชันยังคงทำงานต่อไปในขณะที่ GC กำลังระบุและเรียกคืนหน่วยความจำ

Coordinated Work (งานที่ประสานกัน): เธรด GC และเธรดของแอปพลิเคชันทำงานแบบขนาน
Coordination Mechanisms (กลไกการประสานงาน): ต้องใช้กลไกที่ซับซ้อนเพื่อให้มั่นใจถึงความสอดคล้อง เช่น อัลกอริทึมการทำเครื่องหมายแบบไตรสีและ write barriers (ซึ่งติดตามการเปลี่ยนแปลงการอ้างอิงอ็อบเจ็กต์ที่ทำโดยแอปพลิเคชัน)

ข้อดี:

Minimal STW Pauses (การหยุดชั่วคราว STW น้อยที่สุด): มีเป้าหมายเพื่อการทำงานที่สั้นมากหรือแม้แต่ "pause-free (ไม่มีการหยุดชั่วคราว)"
High Throughput and Responsiveness (ปริมาณงานและการตอบสนองสูง): ยอดเยี่ยมสำหรับแอปพลิเคชันที่มีข้อกำหนดด้านเวลาแฝงที่เข้มงวด

ข้อเสีย:

Complexity (ความซับซ้อน): ซับซ้อนมากในการออกแบบและใช้งานอย่างถูกต้อง
Throughput Reduction (การลดปริมาณงาน): บางครั้งอาจลดปริมาณงานของแอปพลิเคชันโดยรวมเนื่องจากค่าใช้จ่ายของการดำเนินการพร้อมกันและการประสานงาน
Memory Overhead (ค่าใช้จ่ายด้านหน่วยความจำ): อาจต้องใช้หน่วยความจำเพิ่มเติมสำหรับการติดตามการเปลี่ยนแปลง

ตัวอย่าง: ตัวเก็บรวบรวมสมัยใหม่ เช่น G1, ZGC และ Shenandoah ใน Java และ GC ใน Go และ .NET Core มีความพร้อมกันสูง

8. G1 (Garbage-First) Collector

ตัวเก็บรวบรวม G1 ซึ่งเปิดตัวใน Java 7 และกลายเป็นค่าเริ่มต้นใน Java 9 เป็นตัวเก็บรวบรวมแบบ server-style, region-based, generational และ concurrent ที่ออกแบบมาเพื่อสร้างสมดุลระหว่างปริมาณงานและเวลาแฝง

Region-Based (ตามภูมิภาค): แบ่งฮีปออกเป็นภูมิภาคเล็กๆ จำนวนมาก ภูมิภาคสามารถเป็น Eden, Survivor หรือ Old
Generational (แบ่งรุ่น): รักษาลักษณะการแบ่งรุ่น
Concurrent & Parallel (พร้อมกัน & ขนาน): ทำงานส่วนใหญ่พร้อมกันกับเธรดของแอปพลิเคชันและใช้หลายเธรดสำหรับการอพยพ (คัดลอกอ็อบเจ็กต์ live)
Goal-Oriented (มุ่งเน้นเป้าหมาย): อนุญาตให้ผู้ใช้ระบุเป้าหมายเวลาหยุดชั่วคราวที่ต้องการ G1 พยายามบรรลุเป้าหมายนี้โดยการรวบรวมภูมิภาคที่มีขยะมากที่สุดก่อน (ดังนั้น "Garbage-First")

ข้อดี:

Balanced Performance (ประสิทธิภาพที่สมดุล): ดีสำหรับแอปพลิเคชันที่หลากหลาย
Predictable Pause Times (เวลาหยุดชั่วคราวที่คาดการณ์ได้): ปรับปรุงความสามารถในการคาดการณ์เวลาหยุดชั่วคราวอย่างมีนัยสำคัญเมื่อเทียบกับตัวเก็บรวบรวมรุ่นเก่า
Handles Large Heaps Well (จัดการฮีปขนาดใหญ่ได้ดี): ปรับขนาดได้อย่างมีประสิทธิภาพด้วยขนาดฮีปขนาดใหญ่

ข้อเสีย:

Complexity (ความซับซ้อน): ซับซ้อนโดยธรรมชาติ
Potential for Longer Pauses (ศักยภาพในการหยุดชั่วคราวที่ยาวนานกว่า): หากเวลาหยุดชั่วคราวเป้าหมายมีความรุนแรงและฮีปมีการกระจายตัวสูงด้วยอ็อบเจ็กต์ live รอบ GC เดียวอาจเกินเป้าหมายได้

ตัวอย่าง: GC เริ่มต้นสำหรับแอปพลิเคชัน Java สมัยใหม่จำนวนมาก

9. ZGC and Shenandoah

สิ่งเหล่านี้เป็นตัวเก็บรวบรวมขยะขั้นสูงที่ใหม่กว่าซึ่งออกแบบมาสำหรับเวลาหยุดชั่วคราวที่ต่ำมาก โดยมักจะกำหนดเป้าหมายเวลาหยุดชั่วคราวที่ต่ำกว่ามิลลิวินาที แม้ในฮีปขนาดใหญ่มาก (เทราไบต์)

Load-Time Compaction (การบีบอัดเวลาโหลด): พวกเขาทำการบีบอัดพร้อมกันกับแอปพลิเคชัน
Highly Concurrent (พร้อมกันสูง): งาน GC เกือบทั้งหมดเกิดขึ้นพร้อมกัน
Region-Based (ตามภูมิภาค): ใช้แนวทางตามภูมิภาคที่คล้ายกับ G1

ข้อดี:

Ultra-Low Latency (เวลาแฝงต่ำเป็นพิเศษ): มุ่งเน้นไปที่เวลาหยุดชั่วคราวที่สั้นและสม่ำเสมอมาก
Scalability (ความสามารถในการปรับขนาด): ยอดเยี่ยมสำหรับแอปพลิเคชันที่มีฮีปขนาดใหญ่

ข้อเสีย:

Throughput Impact (ผลกระทบต่อปริมาณงาน): อาจมีค่าใช้จ่าย CPU ที่สูงกว่าเล็กน้อยกว่าตัวเก็บรวบรวมที่มุ่งเน้นปริมาณงาน
Maturity (ความสมบูรณ์): ค่อนข้างใหม่กว่า แม้ว่าจะเติบโตอย่างรวดเร็ว

ตัวอย่าง: ZGC และ Shenandoah มีอยู่ใน OpenJDK เวอร์ชันล่าสุดและเหมาะสำหรับแอปพลิเคชันที่ไวต่อเวลาแฝง เช่น แพลตฟอร์มการซื้อขายทางการเงินหรือบริการเว็บขนาดใหญ่ที่ให้บริการผู้ชมทั่วโลก

Garbage Collection in Different Runtime Environments (การเก็บขยะในสภาพแวดล้อมรันไทม์ที่แตกต่างกัน)

แม้ว่าหลักการจะเป็นสากล การใช้งานและความแตกต่างของ GC จะแตกต่างกันไปในแต่ละสภาพแวดล้อมรันไทม์ที่แตกต่างกัน:

Java Virtual Machine (JVM): ในอดีต JVM เป็นผู้นำด้านนวัตกรรม GC มีสถาปัตยกรรม GC ที่เสียบได้ ช่วยให้นักพัฒนาสามารถเลือกตัวเก็บรวบรวมต่างๆ (Serial, Parallel, CMS, G1, ZGC, Shenandoah) ตามความต้องการของแอปพลิเคชันได้ ความยืดหยุ่นนี้มีความสำคัญอย่างยิ่งต่อการเพิ่มประสิทธิภาพในสถานการณ์การปรับใช้ทั่วโลกที่หลากหลาย
.NET Common Language Runtime (CLR): .NET CLR ยังมี GC ที่ซับซ้อนอีกด้วย มีทั้ง generational และ compacting garbage collection CLR GC สามารถทำงานในโหมด workstation (ปรับให้เหมาะสมสำหรับแอปพลิเคชันไคลเอ็นต์) หรือโหมด server (ปรับให้เหมาะสมสำหรับแอปพลิเคชันเซิร์ฟเวอร์แบบ multi-processor) นอกจากนี้ยังรองรับ concurrent และ background garbage collection เพื่อลดการหยุดชั่วคราว
Go Runtime: ภาษาโปรแกรม Go ใช้ตัวเก็บรวบรวมขยะ concurrent, tri-color mark-and-sweep ได้รับการออกแบบมาสำหรับเวลาแฝงต่ำและความพร้อมกันสูง สอดคล้องกับปรัชญาของ Go ในการสร้างระบบ concurrent ที่มีประสิทธิภาพ Go GC มีเป้าหมายเพื่อให้การหยุดชั่วคราวสั้นมาก โดยทั่วไปอยู่ในระดับไมโครวินาที
JavaScript Engines (V8, SpiderMonkey): กลไก JavaScript สมัยใหม่ในเบราว์เซอร์และ Node.js ใช้ generational garbage collectors พวกเขาใช้เทคนิคต่างๆ เช่น mark-and-sweep และมักจะรวมการรวบรวมที่เพิ่มขึ้นเพื่อให้การโต้ตอบ UI ตอบสนอง

Choosing the Right GC Algorithm (การเลือกอัลกอริทึม GC ที่เหมาะสม)

การเลือกอัลกอริทึม GC ที่เหมาะสมเป็นการตัดสินใจที่สำคัญซึ่งส่งผลกระทบต่อประสิทธิภาพของแอปพลิเคชัน ความสามารถในการปรับขนาด และประสบการณ์ของผู้ใช้ ไม่มีโซลูชันเดียวที่เหมาะกับทุกสถานการณ์ พิจารณาปัจจัยเหล่านี้:

Application Requirements (ข้อกำหนดของแอปพลิเคชัน): แอปพลิเคชันของคุณมีความไวต่อเวลาแฝง (เช่น การซื้อขายแบบเรียลไทม์ บริการเว็บแบบโต้ตอบ) หรือมุ่งเน้นปริมาณงาน (เช่น การประมวลผลแบบแบตช์ การคำนวณทางวิทยาศาสตร์)
Heap Size (ขนาดฮีป): สำหรับฮีปขนาดใหญ่มาก (หลายสิบหรือหลายร้อยกิกะไบต์) ตัวเก็บรวบรวมที่ออกแบบมาสำหรับความสามารถในการปรับขนาดและเวลาแฝงต่ำ (เช่น G1, ZGC, Shenandoah) มักเป็นที่ต้องการ
Concurrency Needs (ความต้องการความพร้อมกัน): แอปพลิเคชันของคุณต้องการความพร้อมกันในระดับสูงหรือไม่ GC พร้อมกันอาจเป็นประโยชน์
Development Effort (ความพยายามในการพัฒนา): อัลกอริทึมที่ง่ายกว่าอาจง่ายต่อการให้เหตุผล แต่โดยทั่วไปมาพร้อมกับการแลกเปลี่ยนด้านประสิทธิภาพ ตัวเก็บรวบรวมขั้นสูงให้ประสิทธิภาพที่ดีกว่า แต่มีความซับซ้อนมากกว่า
Target Environment (สภาพแวดล้อมเป้าหมาย): ความสามารถและข้อจำกัดของสภาพแวดล้อมการปรับใช้ (เช่น คลาวด์ ระบบฝังตัว) อาจมีอิทธิพลต่อการเลือกของคุณ

Practical Tips for GC Optimization (เคล็ดลับการปฏิบัติจริงสำหรับการเพิ่มประสิทธิภาพ GC)

นอกเหนือจากการเลือกอัลกอริทึมที่เหมาะสม คุณสามารถเพิ่มประสิทธิภาพ GC ได้:

Tune GC Parameters (ปรับพารามิเตอร์ GC): รันไทม์ส่วนใหญ่อนุญาตให้ปรับพารามิเตอร์ GC (เช่น ขนาดฮีป ขนาดรุ่น ตัวเลือกตัวเก็บรวบรวมเฉพาะ) สิ่งนี้มักจะต้องมีการทำโปรไฟล์และการทดลอง
Object Pooling (การรวมอ็อบเจ็กต์): การนำอ็อบเจ็กต์กลับมาใช้ใหม่ผ่านการรวมสามารถลดจำนวนการจัดสรรและการยกเลิกการจัดสรร ซึ่งจะช่วยลดแรงกดดันของ GC
Avoid Unnecessary Object Creation (หลีกเลี่ยงการสร้างอ็อบเจ็กต์ที่ไม่จำเป็น): ระลึกถึงการสร้างอ็อบเจ็กต์ที่มีอายุสั้นจำนวนมาก เนื่องจากอาจเพิ่มงานให้กับ GC
Use Weak/Soft References Wisely (ใช้การอ้างอิงแบบ Weak/Soft อย่างชาญฉลาด): การอ้างอิงเหล่านี้อนุญาตให้อ็อบเจ็กต์ถูกรวบรวมหากหน่วยความจำเหลือน้อย ซึ่งอาจมีประโยชน์สำหรับแคช
Profile Your Application (ทำโปรไฟล์แอปพลิเคชันของคุณ): ใช้เครื่องมือทำโปรไฟล์เพื่อทำความเข้าใจลักษณะการทำงานของ GC ระบุการหยุดชั่วคราวที่ยาวนาน และระบุพื้นที่ที่ค่าใช้จ่าย GC สูง เครื่องมือต่างๆ เช่น VisualVM, JConsole (สำหรับ Java), PerfView (สำหรับ .NET) และ `pprof` (สำหรับ Go) มีค่ามาก

The Future of Garbage Collection (อนาคตของการเก็บขยะ)

การแสวงหาเวลาแฝงที่ต่ำกว่าและประสิทธิภาพที่สูงขึ้นยังคงดำเนินต่อไป การวิจัยและพัฒนา GC ในอนาคตมีแนวโน้มที่จะมุ่งเน้นไปที่:

Further Reduction of Pauses (การลดการหยุดชั่วคราวเพิ่มเติม): มุ่งเป้าไปที่การรวบรวมแบบ "pause-less (ไม่มีการหยุดชั่วคราว)" หรือ "near-pause-less (ใกล้ไม่มีการหยุดชั่วคราว)" อย่างแท้จริง
Hardware Assistance (ความช่วยเหลือด้านฮาร์ดแวร์): การสำรวจว่าฮาร์ดแวร์สามารถช่วยในการดำเนินการ GC ได้อย่างไร
AI/ML-driven GC (GC ที่ขับเคลื่อนด้วย AI/ML): อาจใช้ machine learning เพื่อปรับกลยุทธ์ GC แบบไดนามิกให้เข้ากับลักษณะการทำงานของแอปพลิเคชันและการโหลดระบบ
Interoperability (การทำงานร่วมกัน): การบูรณาการและการทำงานร่วมกันที่ดีขึ้นระหว่างการใช้งาน GC และภาษาต่างๆ

Conclusion (บทสรุป)

การเก็บขยะเป็นเสาหลักของระบบรันไทม์สมัยใหม่ ซึ่งจัดการหน่วยความจำอย่างเงียบๆ เพื่อให้มั่นใจว่าแอปพลิเคชันทำงานได้อย่างราบรื่นและมีประสิทธิภาพ จาก Mark-and-Sweep พื้นฐานไปจนถึง ZGC ที่มีเวลาแฝงต่ำเป็นพิเศษ อัลกอริทึมแต่ละรายการแสดงถึงขั้นตอนวิวัฒนาการในการเพิ่มประสิทธิภาพการจัดการหน่วยความจำ สำหรับนักพัฒนาทั่วโลก ความเข้าใจอย่างถ่องแท้เกี่ยวกับเทคนิคเหล่านี้ช่วยให้พวกเขาสร้างซอฟต์แวร์ที่มีประสิทธิภาพ ปรับขนาดได้ และเชื่อถือได้มากขึ้น ซึ่งสามารถเติบโตได้ในสภาพแวดล้อมทั่วโลกที่หลากหลาย ด้วยการทำความเข้าใจข้อดีข้อเสียและการนำแนวทางปฏิบัติที่ดีที่สุดมาใช้ เราสามารถควบคุมพลังของ GC เพื่อสร้างแอปพลิเคชันที่ยอดเยี่ยมรุ่นต่อไปได้