ในฐานะหนึ่งในแอปพลิเคชั่นหลักในการมองเห็นด้วยคอมพิวเตอร์ การตรวจจับวัตถุมีความสำคัญมากขึ้นในสถานการณ์ที่ต้องใช้ความแม่นยำสูง แต่มีทรัพยากรในการประมวลผลที่จำกัด เช่น หุ่นยนต์และรถยนต์ไร้คนขับ น่าเสียดายที่เครื่องตรวจจับความเที่ยงตรงสูงสมัยใหม่จำนวนมากไม่ตรงตามข้อจำกัดเหล่านี้ ที่สำคัญกว่านั้น แอปพลิเคชั่นตรวจจับวัตถุในโลกแห่งความเป็นจริงทำงานบนแพลตฟอร์มที่แตกต่างกัน ซึ่งมักต้องการทรัพยากรที่แตกต่างกัน
ดังนั้นคำถามที่เป็นธรรมชาติคือวิธีการออกแบบเครื่องตรวจจับวัตถุที่แม่นยำและมีประสิทธิภาพซึ่งสามารถปรับให้เข้ากับข้อจำกัดด้านทรัพยากรที่หลากหลายได้อย่างไร
EfficientDet: การตรวจจับวัตถุที่ปรับขนาดได้และมีประสิทธิภาพ ซึ่งนำไปใช้ใน CVPR 2020 ขอแนะนำตระกูลเครื่องตรวจจับวัตถุรุ่นใหม่ที่ปรับขนาดได้และมีประสิทธิภาพ จากงานก่อนหน้าเกี่ยวกับการปรับขนาดโครงข่ายประสาทเทียม (EfficientNet) และการรวมเครือข่ายการทำงานแบบสองทิศทาง (BiFPN) ใหม่และกฎการปรับขนาดใหม่ EfficientDet บรรลุความแม่นยำที่ทันสมัยในขณะที่มีขนาดเล็กกว่า 9 เท่าและใช้การคำนวณน้อยกว่าเครื่องตรวจจับสมัยใหม่ที่รู้จักอย่างมาก รูปต่อไปนี้แสดงสถาปัตยกรรมเครือข่ายทั่วไปของโมเดล
เพิ่มประสิทธิภาพโมเดลสถาปัตยกรรม
แนวคิดเบื้องหลัง EfficientDet เกิดขึ้นจากความพยายามในการค้นหาโซลูชันเพื่อปรับปรุงประสิทธิภาพการคำนวณโดยการตรวจสอบโมเดลการตรวจจับที่ล้ำสมัยก่อนหน้านี้อย่างเป็นระบบ โดยทั่วไป ตัวตรวจจับวัตถุมีองค์ประกอบหลักสามประการ: แกนหลักที่แยกคุณลักษณะจากภาพที่กำหนด เครือข่ายของอ็อบเจ็กต์ที่รับหน้าที่หลายระดับจากแบ็คโบนเป็นอินพุตและเอาต์พุตรายการของฟังก์ชันที่รวมกันซึ่งแสดงถึงลักษณะเฉพาะของภาพ และเครือข่ายคลาส / กล่องสุดท้ายที่ใช้ฟังก์ชันรวมกันเพื่อทำนายคลาสและตำแหน่งของแต่ละวัตถุ
หลังจากตรวจสอบตัวเลือกการออกแบบสำหรับส่วนประกอบเหล่านี้แล้ว เราได้ระบุการเพิ่มประสิทธิภาพที่สำคัญหลายประการเพื่อปรับปรุงประสิทธิภาพและประสิทธิภาพ เครื่องตรวจจับรุ่นก่อนๆ ส่วนใหญ่ใช้ ResNets, ResNeXt หรือ AmoebaNet เป็นแกนหลัก ซึ่งมีประสิทธิภาพน้อยกว่าหรือมีประสิทธิภาพต่ำกว่า EfficientNets ด้วยการใช้งานครั้งแรกของแกนหลัก EfficientNet ทำให้สามารถบรรลุประสิทธิภาพได้มากขึ้น ตัวอย่างเช่น เริ่มต้นด้วยพื้นฐาน RetinaNet ที่ใช้แกนหลัก ResNet-50 การศึกษาการระเหยของเราแสดงให้เห็นว่าเพียงแค่แทนที่ ResNet-50 ด้วย EfficientNet-B3 ก็สามารถปรับปรุงความแม่นยำได้ 3% ในขณะที่ลดการคำนวณลง 20% การเพิ่มประสิทธิภาพอีกประการหนึ่งคือการปรับปรุงประสิทธิภาพของเครือข่ายที่ใช้งานได้ แม้ว่าตัวตรวจจับรุ่นก่อนๆ ส่วนใหญ่จะใช้ Downlink Pyramid Network (FPN) แต่เราก็พบว่า FPN ดาวน์สตรีมนั้นจำกัดอยู่ที่การไหลของข้อมูลทางเดียว FPN ทางเลือก เช่น PANet เพิ่มอัปสตรีมเพิ่มเติมโดยเสียค่าใช้จ่ายในการคำนวณเพิ่มเติม
ความพยายามล่าสุดในการใช้ Neural Architecture Search (NAS) ได้ค้นพบสถาปัตยกรรม NAS-FPN ที่ซับซ้อนมากขึ้น อย่างไรก็ตาม แม้ว่าโครงสร้างเครือข่ายนี้จะมีประสิทธิภาพ แต่ก็ไม่สม่ำเสมอและปรับให้เหมาะสมสำหรับงานเฉพาะอย่างสูง ทำให้ยากต่อการปรับให้เข้ากับงานอื่นๆ เพื่อแก้ปัญหาเหล่านี้ เราขอเสนอเครือข่ายใหม่ของฟังก์ชัน BiFPN แบบสองทิศทาง ซึ่งใช้แนวคิดในการรวมฟังก์ชันหลายเลเยอร์จาก FPN / PANet / NAS-FPN ซึ่งช่วยให้ส่งข้อมูลได้ทั้งจากบนลงล่างและ จากล่างขึ้นบน โดยใช้การเชื่อมต่อที่สม่ำเสมอและมีประสิทธิภาพ
เพื่อปรับปรุงประสิทธิภาพต่อไป เราขอเสนอเทคนิคการสังเคราะห์ที่ทำให้เป็นมาตรฐานอย่างรวดเร็วแบบใหม่ วิธีการแบบเดิมมักจะปฏิบัติต่ออินพุตทั้งหมดของ FPN ในลักษณะเดียวกัน แม้แต่ในความละเอียดที่ต่างกันอย่างไรก็ตาม เราสังเกตว่าคุณสมบัติอินพุตที่มีความละเอียดต่างกันมักมีส่วนสนับสนุนฟังก์ชันเอาต์พุตไม่เท่ากัน ดังนั้นเราจึงเพิ่มน้ำหนักเพิ่มเติมให้กับแต่ละฟังก์ชันอินพุต และให้เครือข่ายเรียนรู้ถึงความสำคัญของแต่ละฟังก์ชัน นอกจากนี้เรายังจะแทนที่การบิดแบบปกติทั้งหมดด้วยการหมุนวนที่แยกออกได้ยากและราคาไม่แพง ด้วยการเพิ่มประสิทธิภาพนี้ BiFPN ของเราจะปรับปรุงความแม่นยำขึ้น 4% ในขณะที่ลดต้นทุนการคำนวณลง 50%
การเพิ่มประสิทธิภาพครั้งที่สามเกี่ยวข้องกับการบรรลุการประนีประนอมที่ดีที่สุดระหว่างความถูกต้องและประสิทธิภาพภายใต้ข้อจำกัดด้านทรัพยากรต่างๆ งานก่อนหน้านี้ของเราแสดงให้เห็นว่าการร่วมปรับขนาดความลึก ความกว้าง และความละเอียดของเครือข่ายสามารถปรับปรุงประสิทธิภาพการจดจำภาพได้อย่างมาก ด้วยแรงบันดาลใจจากแนวคิดนี้ เราขอเสนอวิธีการปรับขนาดแบบผสมใหม่สำหรับเครื่องตรวจจับวัตถุที่เพิ่มความละเอียด / ความลึก / ความกว้างโดยรวม แต่ละองค์ประกอบเครือข่าย เช่น กระดูกสันหลัง วัตถุ และเครือข่ายการทำนายบล็อก / คลาส จะมีปัจจัยการสเกลที่ซับซ้อนหนึ่งปัจจัยที่ควบคุมมิติการปรับขนาดทั้งหมดโดยใช้กฎฮิวริสติก แนวทางนี้ทำให้ง่ายต่อการกำหนดวิธีการปรับขนาดโมเดลโดยการคำนวณตัวประกอบมาตราส่วนสำหรับข้อจำกัดทรัพยากรเป้าหมายที่กำหนด
ด้วยการรวมแกนหลักใหม่และ BiFPN เราจึงออกแบบพื้นฐาน EfficientDet-D0 ขนาดเล็กก่อน จากนั้นจึงใช้การปรับขนาดแบบผสมเพื่อให้ได้ EfficientDet-D1 กับ D7 โมเดลอนุกรมแต่ละรุ่นมีค่าใช้จ่ายในการคำนวณที่สูงขึ้น ครอบคลุมข้อจำกัดด้านทรัพยากรที่หลากหลายตั้งแต่ 3 พันล้าน FLOP ถึง 300 พันล้าน FLOPS และให้ความแม่นยำที่สูงขึ้น
โมเดลประสิทธิภาพ
การประเมิน EfficientDet บนชุดข้อมูล COCO ซึ่งเป็นชุดข้อมูลอ้างอิงที่ใช้กันอย่างแพร่หลายสำหรับการตรวจจับวัตถุ EfficientDet-D7 ให้ความแม่นยำเฉลี่ยเฉลี่ย (mAP) ที่ 52.2 ซึ่งสูงกว่ารุ่นปัจจุบันรุ่นก่อน 1.5 จุด โดยใช้พารามิเตอร์น้อยลง 4 เท่า และคำนวณน้อยลง 9.4 เท่า
นอกจากนี้เรายังเปรียบเทียบขนาดพารามิเตอร์และเวลาแฝงของ CPU / GPU ระหว่าง EfficientDet และรุ่นก่อนหน้า ด้วยข้อจำกัดด้านความแม่นยำที่คล้ายคลึงกัน รุ่น EfficientDet จะทำงานเร็วขึ้น 2-4 เท่าบน GPU และเร็วกว่าในโปรเซสเซอร์ 5-11 เท่าเมื่อเทียบกับเครื่องตรวจจับอื่นๆ แม้ว่าแบบจำลอง EfficientDet นั้นมีไว้สำหรับการตรวจจับวัตถุเป็นหลัก เรายังทดสอบประสิทธิภาพของแบบจำลองดังกล่าวในงานอื่นๆ เช่น การแบ่งส่วนความหมาย ในการดำเนินการแบ่งกลุ่ม เราปรับเปลี่ยน EfficientDet-D4 เล็กน้อยโดยแทนที่การสูญเสียและการสูญเสียของส่วนหัวและส่วนหัวของการตรวจจับในขณะที่ยังคงรักษา Backbone และ BiFPN ที่ปรับขนาดไว้เหมือนเดิม เราเปรียบเทียบโมเดลนี้กับโมเดลการแบ่งส่วนสมัยใหม่ก่อนหน้าสำหรับ Pascal VOC 2012 ซึ่งเป็นชุดข้อมูลการทดสอบการแบ่งกลุ่มที่ใช้กันอย่างแพร่หลาย
ด้วยประสิทธิภาพอันยอดเยี่ยม EfficientDet คาดว่าจะทำหน้าที่เป็นรากฐานใหม่สำหรับการวิจัยการตรวจจับวัตถุในอนาคต และทำให้โมเดลการตรวจจับวัตถุที่มีความแม่นยำสูงมีประโยชน์ในการใช้งานจริงหลายอย่าง ดังนั้นจึงเปิดจุดสั่งหยุดทั้งหมดของโค้ดและโมเดลที่ได้รับการฝึกอบรมล่วงหน้าบน Github.com