Компьютерди көрүүдөгү негизги колдонмолордун бири катары, объектилерди аныктоо жогорку тактыкты талап кылган, бирок робототехника жана айдоочусуз унаалар сыяктуу чектелген эсептөө ресурстарына ээ болгон сценарийлерде барган сайын маанилүү болуп баратат. Тилекке каршы, көптөгөн заманбап жогорку тактыктагы детекторлор ушул чектөөлөргө жооп бербейт. Андан да маанилүүсү, объектини аныктоочу реалдуу тиркемелер ар кандай платформаларда иштейт, бул көп учурда ар кандай ресурстарды талап кылат.
Демек, табигый суроо - бул ресурстардын чектөөлөрүнүн кеңири чөйрөсүнө ыңгайлашып кете турган объективдүү детекторлорду кантип иштеп чыгуу керек?
EfficientDet: Масштабдуу жана натыйжалуу объект табуу, CVPR 2020де кабыл алынган, масштабдуу жана натыйжалуу объект детекторлорунун жаңы үй-бүлөсүн тааныштырат. Нейрон түйүндөрүн масштабдоо (EfficientNet) жана жаңы эки багыттуу функционалдык тармакты (BiFPN) жана масштабдаштыруунун жаңы эрежелерин киргизүү боюнча мурунку иштерге таянып, EfficientDet заманбап тактыкка жетишип, 9 эсе кичирээк болуп, белгилүү заманбап детекторлорго салыштырмалуу азыраак эсептөөнү колдонот. Төмөнкү сүрөттө моделдердин жалпы тармактык архитектурасы көрсөтүлгөн.
Моделдик архитектураны оптималдаштыруу
EfficientDetтин идеясы мурунку заманбап аныктоо моделдерин системалуу түрдө карап чыгуу менен эсептөө натыйжалуулугун жогорулатуу үчүн чечимдерди табуу аракетинен келип чыккан. Жалпысынан, объект детекторлору үч негизги компоненттен турат: берилген сүрөттөлүштүн өзгөчөлүктөрүн бөлүп чыгаруучу магистраль; магистралдан функциялардын бир нече деңгээлин алган жана сүрөттүн мүнөздүү мүнөздөмөлөрүн чагылдырган айкалышкан функциялардын тизмесин чыгарган объектилердин тармагы; жана акыркы класс / кутуча тармагы, ар бир объекттин классын жана жайгашкан ордун болжолдоо үчүн курама функцияларды колдонот.
Ушул компоненттердин дизайн варианттарын карап чыккандан кийин, иштин натыйжалуулугун жана натыйжалуулугун жогорулатуу үчүн бир нече негизги оптимизацияны аныктадык. Мурунку детекторлор көбүнчө ResNets, ResNeXt же AmoebaNetти магистраль катары колдонушкан, алар EfficientNetsке караганда кубаттуулугу төмөн же эффективдүүлүгү төмөн. EfficientNet магистралынын алгачкы ишке ашырылышы менен бир топ натыйжалуулукка жетишүүгө болот. Мисалы, ResNet-50 магистралын колдонгон RetinaNet баштапкы деңгээлинен баштап, биздин абляция боюнча изилдөөбүз ResNet-50ни EfficientNet-B3 менен жөн эле алмаштыруунун натыйжалуулугун 3% га жакшыртып, эсептөөнү 20% га төмөндөтө тургандыгын көрсөттү. Дагы бир оптимизация - бул функционалдык тармактардын натыйжалуулугун жогорулатуу. Мурунку детекторлордун көпчүлүгү жөн гана Downlink пирамида тармагын (FPN) колдонушса, төмөнкү FPN табиятынан бир тараптуу маалымат агымы менен чектелип калгандыгын байкадык. PANet сыяктуу башка FPNдер кошумча эсептөөнүн эсебинен кошумча агымга кошот.
Neural Architecture Search (NAS) колдонуунун акыркы аракеттери татаал NAS-FPN архитектурасын ачты. Бирок, бул тармактык структура эффективдүү болгону менен, ал бир калыпта эмес жана белгилүү бир тапшырма үчүн өтө оптимизацияланган, башка маселелерге көнүү кыйынга турат. Бул көйгөйлөрдү чечүү үчүн биз көп катмарлуу функцияларды FPN / PANet / NAS-FPNден айкалыштыруу идеясын ишке ашырган BiFPN эки багыттуу функцияларынын жаңы тармагын сунуштайбыз, бул маалыматты жогору жактан да, төмөнгө да жеткирүүгө мүмкүндүк берет. төмөндөн жогору карай. үзгүлтүксүз жана натыйжалуу байланыштарды колдонуп.
Натыйжалуулукту андан ары өркүндөтүү үчүн биз жаңы тез нормалдаштырылган синтездөө ыкмасын сунуштайбыз. Салттуу ыкмалар, адатта, ар кандай резолюцияларда дагы, FPNге киргизилген маалыматтардын бардыгына бирдей мамиле кылышат. Бирок, ар кандай чечилиштер менен киргизүү функциялары көбүнчө чыгуучу функцияларга бирдей эмес салым кошуп жаткандыгын байкайбыз. Ошентип, биз ар бир киргизүү функциясына кошумча салмак кошуп, тармакка ар биринин маанилүүлүгүн билип алабыз. Ошондой эле, биз бардык туруктуу конволюцияларды арзаныраак, терең ажыратылуучу конволюцияларга алмаштырабыз. Бул оптималдаштыруу менен, биздин BiFPN дагы 4% га тактыкты жогорулатат, ал эми эсептөө чыгымдарын 50% га төмөндөтөт.
Үчүнчү оптималдаштыруу ресурстардын ар кандай чектөөлөрү астында тактык менен натыйжалуулуктун ортосунда эң жакшы компромисске жетишүүнү камтыйт. Биздин мурунку ишибиз тармактын тереңдигин, туурасын жана чечилишин биргелешип масштабдоо менен сүрөттү таануу ишин жакшырта аларыбызды көрсөттүк. Бул идеядан шыктанып, объективдик детекторлор үчүн резолюцияны / тереңдикти / туураны биргелешип жогорулатуучу жаңы курамдуу масштабдоо ыкмасын сунуштайбыз. Ар бир тармак компоненти, башкача айтканда магистраль, объект жана блок / класс божомолдоочу тармак, эвристикалык эрежелерди колдонуп, бардык масштабдуу өлчөмдөрдү башкарган бир татаал масштабдоо факторуна ээ болот. Бул ыкма ресурстарды чектөө үчүн масштабдык факторду эсептөө менен моделди масштабдуу кылууну аныктоону жеңилдетет.
Жаңы магистралды жана BiFPNди бириктирип, алгач кичинекей EfficientDet-D0 баштапкы схемасын иштеп чыгып, андан кийин EfficientDet-D1 ден D7 ге жеткирүү үчүн кошулма масштабдарды колдонобуз. Ар бир сериялык моделдин эсептөө чыгымдары жогору болуп, ресурстардын чектөөлөрүнүн 3 миллиард FLOP тартып 300 миллиард FLOPS чейин камтылган жана жогорку тактыкты камсыз кылат.
Performance model
Объектти аныктоо үчүн кеңири колдонулган маалымдамалар топтому, COCO топтомундагы EfficientDetти баалоо. EfficientDet-D7 орточо орточо тактыкты (MAP) 52,2 түзөт, бул мурунку заманбап моделге караганда 1,5 пунктка жогору, 4 эсе аз параметрлерди жана 9,4 эсе аз эсептөөлөрдү колдонот
Ошондой эле, параметрдин көлөмүн жана CPU / GPU кечигүүсүн EfficientDet менен мурунку моделдердин ортосунда салыштырдык. Ушундай эле тактык чектөөлөрү менен, EfficientDet моделдери башка детекторлорго караганда GPUда 2-4 эсе, ал эми процессордо 5-11 эсе тез иштейт. EfficientDet моделдери биринчи кезекте объектти табууга арналган болсо, анын натыйжалуулугун семантикалык сегментация сыяктуу башка маселелерде дагы текшеребиз. Сегменттештирүү тапшырмаларын аткаруу үчүн, бирдей масштабдагы омуртканы жана BiFPNди сактоо менен, табуу башын жана баштын түшүшүн жана жоготулушун алмаштырып, EfficientDet-D4 моделин бир аз өзгөртөбүз. Бул моделди Pascal VOC 2012 үчүн кеңири колдонулган сегменттөөнү тестирлөө топтому үчүн мурунку заманбап сегментация моделдерине салыштырабыз.
Алардын эффективдүү иштешин эске алганда, EfficientDet келечектеги объект табууну изилдөө үчүн жаңы негиз болуп кызмат кылат жана көптөгөн чыныгы тиркемелерде пайдалуу объекттерди табуу моделдерин потенциалдуу кылат. Ошентип, Github.com сайтындагы коддун жана алдын-ала текшерилген моделдин бардык чекиттерин ачты.