Raws li ib qho ntawm cov ntawv thov tseem ceeb hauv khoos phis tawm lub zeem muag, kev txheeb xyuas cov khoom tau dhau los ua ib qho tseem ceeb hauv cov xwm txheej uas yuav tsum tau muaj qhov siab xav tau tab sis muaj kev suav nyiaj tsawg, xws li siv neeg hlau thiab tsis tsav tsheb. Hmoov tsis zoo, ntau lub niaj hnub high-precision cov ntsuas tsis tau raws li cov kev txwv no. Tseem ceeb dua, kev siv qhov tseeb tshawb nrhiav cov cuab yeej khiav ntawm cov platforms sib txawv, uas feem ntau xav tau cov khoom siv sib txawv.
Yog li cov lus nug ntuj yog yuav ua li cas los tsim cov khoom raug thiab raug ntsuas cov khoom ntsuas uas tuaj yeem hloov kho kom haum rau ntau yam kev txwv cov khoom siv?
EfficientDet: Scalable thiab Efficient Object Detection, tau txais ntawm CVPR 2020, qhia txog tsev neeg tshiab ntawm cov khoom siv ntsuas tau thiab ntsuas tau qhov ntsuas tau. Ua haujlwm ntawm cov haujlwm yav dhau los ntawm scaling neural networks (EfficientNet) thiab sib koom ua ke tshiab-ob txoj kev ua haujlwm ntawm lub network (BiFPN) thiab cov kev cai tshiab ntxiv, EfficientDet ua tiav cov kev ntsuas niaj hnub thaum 9 zaug me dua thiab siv tsis tshua suav cov kev paub dua li paub niaj hnub kuaj. Daim duab hauv qab no qhia tau hais tias lub network dav dav architecture ntawm cov qauv.
Txhim Kho Kom Zoo Nkauj Qauv
Lub tswv yim tom qab EfficientDet pib los ntawm qhov kev mob siab nrhiav cov kev daws teeb meem los txhim kho kev ua kom tau zoo los ntawm kev soj ntsuam cov qauv kuaj pom hauv lub xeev yav dhau los. Feem ntau, cov khoom kuaj kuaj pom muaj peb qho kev tiv thaiv tseem ceeb: lub nraub qaum uas muab cov yam ntxwv ntawm cov duab muab; lub network ntawm cov khoom uas siv ntau qib ntawm cov haujlwm los ntawm caj qaum raws li cov tswv yim thiab tsim tawm cov npe ntawm cov haujlwm sib txuas ua ke uas sawv cev cov yam ntxwv ntawm tus yam ntxwv; thiab qhov kawg chav kawm / thawv network uas siv cov kev sib txuas ua ke los twv qhov chav kawm thiab qhov chaw ntawm txhua yam khoom.
Tom qab tshuaj xyuas cov kev xaiv tsim qauv rau cov feem no, peb tau txheeb xyuas ntau qhov kev ua tau zoo txhawm rau txhim kho kev ua haujlwm thiab ua kom tau zoo. Cov khoom siv tshawb nrhiav yav dhau los feem ntau siv ResNets, ResNeXt lossis AmoebaNet ua cov thaub qab, uas yog cov tsis muaj zog lossis muaj qis dua li EfficientNets. Nrog rau kev pib siv ntawm EfficientNet nraub qaum, ntau lub peev xwm yuav ua tiav. Piv txwv li, pib nrog RetinaNet txoj hauv paus uas siv ResNet-50 lub nraub qaum, peb txoj kev tshawb nrhiav ablation qhia tias tsuas yog hloov ResNet-50 nrog EfficientNet-B3 tuaj yeem txhim kho qhov tseeb los ntawm 3% thaum txo kev suav los ntawm 20%. Lwm qhov kev hloov kho yog txhawm rau txhim kho kev ua tau zoo ntawm cov tes hauj lwm sib luag. Thaum uas feem ntau ntawm cov ntsuas ua ntej dhau los tsuas yog siv lub Downlink Pyramid Network (FPN), peb pom tias FPN ntws hauv qab muaj qhov cuam tshuam rau ib-txoj kev khiav ntawm cov ntaub ntawv. Cov FPNs uas zoo ib yam li PANet ntxiv cov qhov dej ntws ntxiv ntawm tus nqi ntawm kev suav ntxiv.
Cov kev siv niaj hnub no siv Neural Architecture Search (NAS) tau tshawb pom ntau-ntau hauv NAS-FPN architecture. Txawm li cas los xij, thaum lub network qauv no ua haujlwm tau zoo, nws kuj yog qhov tsis xwm yeem thiab muaj qhov tshwj xeeb rau lub luag haujlwm tshwj xeeb, ua rau nws nyuaj hloov mus rau lwm cov haujlwm. Yuav kom daws tau cov teeb meem no, peb hais kom muaj lub network tshiab ntawm bi-directional functions BiFPN, uas siv lub tswv yim ntawm kev sib xyaw ntau txheej txheej los ntawm FPN / PANet / NAS-FPN, uas tso cai rau cov ntaub ntawv xa ob qho tib si los ntawm sab saum toj mus rau hauv qab thiab txij hauv qab mus txog saum. siv cov kev sib txuas tas li thiab zoo.
Txhawm rau txhim kho kev ua haujlwm tau zoo ntxiv, peb thov kom ua ib qho txheej txheem ceev ceev tshiab ntawm kev tsim hluavtaws. Cov tswv yim ib txwm siv feem ntau kho txhua yam kev nkag rau FPN tib txoj kev, txawm tias nyob ntawm qhov kev daws teeb meem sib txawv. Txawm li cas los xij, peb pom hais tias cov tswv yim nrog cov kev daws teeb meem sib txawv feem ntau ua rau tsis zoo rau cov haujlwm tso zis. Yog li, peb ntxiv qhov hnyav ntxiv rau txhua qhov kev tawm tswv yim thiab cia lub network kawm qhov tseem ceeb ntawm txhua tus. Peb yuav tseem yuav hloov tag nrho cov convolutions tsis tu ncua nrog luv nqi, sib cais sib cais convolutions. Nrog txoj kev hloov kho no, peb BiFPN txuas ntxiv txhim kho qhov tseeb ntawm 4% thaum txo cov nqi suav nrog 50%.
Qhov kev hloov kho thib peb suav nrog kev ua tiav qhov kev sib koom siab zoo tshaj plaws ntawm qhov tseeb thiab kev ua haujlwm tau zoo nyob rau hauv ntau cov peev txheej. Peb cov haujlwm yav dhau los tau qhia tias kev sib koom tes ntawm qhov tob, qhov dav thiab kev daws teeb meem ntawm lub network tuaj yeem txhim kho cov duab pom tau zoo. Kev tshoov siab los ntawm lub tswv yim no, peb hais tawm cov txheej txheem sib ntxiv tshiab rau cov khoom siv ntsuas cov khoom ua ke uas nce qhov kev daws teeb meem / qhov tob / dav. Txhua lub network tivthaiv, piv txwv li lub nraub qaum, khoom siv thiab thaiv / chav kawm twv ua ntej, yuav muaj ib txoj kev ntsuas loj uas tswj txhua qhov kev ntsuas qhov ntev uas siv cov cai lij choj. Txoj hauv kev no ua rau nws yooj yim los txiav txim siab yuav ua li cas los ntsuas tus qauv los ntawm kev suav qhov ntsuas qhov ntsuas rau ib qho muab cov peev txheej txwv tsis pub dhau.
Los ntawm kev sib txuas lub caj qaum tshiab thiab BiFPN, peb xub tsim ib lub hauv paus EfficientDet-D0 me me thiab tom qab ntawd siv cov kev sib tw sib luag kom tau EfficientDet-D1 rau D7. Txhua ntu qauv muaj cov nqi sib piv ntau dua, npog ntau cov khoom muaj peev xwm los ntawm 3 txhiab FLOPs mus rau 300 txhiab FLOPS, thiab muab qhov tseeb dua.
Kev ua qauv
Kev Ntsuas EfficientDet ntawm COCO dataset, siv cov ntaub ntawv siv dav siv rau qhov nrhiav kom tau yam khoom. EfficientDet-D7 ua tiav qhov nruab nrab qhov tseeb nruab nrab (MAP) ntawm 52.2, uas yog 1.5 cov qhab nia siab dua cov qauv niaj hnub dhau los, siv 4 zaug tsawg dua qhov tsis tau thiab 9.4 npaug tsawg suav kev suav
Peb kuj muab piv rau qhov loj me thiab CPU / GPU latency ntawm EfficientDet thiab yav dhau los cov qauv. Nrog kev ntsuas zoo sib xws, EfficientDet qauv khiav 2-4 zaug nrawm dua ntawm GPU thiab 5–11 zaug nrawm dua ntawm cov khoom siv ntau dua li lwm tus kuaj. Thaum cov qauv EfficientDet yog qhov tseem ceeb rau kev kuaj kom pom yam khoom, peb kuj sim lawv qhov kev ua tau zoo hauv lwm cov haujlwm xws li kev faib tawm ntu. Los ua ntu haujlwm, peb me ntsis hloov kho EfficientDet-D4 los ntawm kev hloov tus saib xyuas lub taub hau thiab lub taub hau ploj thiab ploj thaum tswj tib lub pob txha caj qaum thiab BiFPN. Peb muab cov qauv no los piv rau yav dhau los niaj hnub qauv qauv rau Pascal VOC 2012, dav siv cov segmentation kuaj dataset.
Muab lawv cov kev ua tau zoo dhau los, EfficientDet xav kom ua lub hauv paus tshiab rau kev tshawb nrhiav khoom tom ntej thiab muaj peev xwm ua tau cov qauv raug kuaj pom tseeb cov qauv muaj txiaj ntsig hauv ntau cov kev siv hauv ntiaj teb. Yog li qhib tag nrho cov khoom tawg ntawm cov cai thiab pretrained qauv ntawm Github.com.