Zbulimi i objekteve në imazhe me anë të inteligjencës artificiale: një udhëzues i plotë dhe shembuj nga bota reale

  • Zbulimi i objekteve kombinon rrjetet nervore dhe kutitë kufizuese për të gjetur dhe klasifikuar objekte të shumta në imazhe dhe video.
  • Ekzistojnë dy familje kryesore algoritmash, dy-fazësh (R-CNN) dhe një-kalimësh (YOLO, SSD, RetinaNet), të cilat balancojnë saktësinë dhe shpejtësinë.
  • Teknologjia nxit aplikime kyçe në siguri, automjete autonome, shëndetësi, industri, shitje me pakicë dhe analizë gjeohapësinore.
  • Përfitimet e tij në efikasitet dhe automatizim bashkëjetojnë me sfidat e privatësisë, paragjykimit të të dhënave, konsumit të burimeve dhe kompleksitetit në shënime.

Zbulimi i objekteve në imazhe me inteligjencë artificiale

La zbulimi i objekteve në imazhe me inteligjencë artificiale Është bërë një nga teknologjitë kryesore në vizionin kompjuterik. Edhe pse mund të jetë e vështirë për njerëzit të kuptojnë të gjitha detajet e një skene komplekse, algoritmet aktuale janë të afta të lokalizojnë dhe klasifikojnë qindra elementë në milisekonda, nga njerëzit dhe makinat deri në defekte mikroskopike në një pjesë industriale.

Kjo aftësi jo vetëm që përfshin njohjen e "çfarë" shfaqet në një foto ose video, por edhe njohjen e "ku" ndodhet secili element, madhësinë e tij, si lëviz dhe marrëdhënien e tij me pjesën tjetër. Falë kësaj, IA mund të drejtojë aplikacione aq të ndryshme sa... automjete autonome, mbikëqyrje inteligjente me video, diagnozë mjekësore, shitje me pakicë pa arkë dhe analizë gjeohapsinore me satelitë dhe dronë.

Çfarë është saktësisht zbulimi i objekteve?

Kur flasim për zbulimin e objekteve, i referohemi një dege të Vizioni kompjuterik dhe të mësuarit e thellë Kjo i lejon një sistemi të identifikojë se cilat objekte shfaqen në një imazh ose sekuencë videoje dhe të përcaktojë pozicionin e tyre duke përdorur kuti kufizuese. Qëllimi është që makinat të imitojnë, deri në një farë mase, proceset komplekse të shikimit njerëzor.

Ndryshe nga qasjet e tjera më të thjeshta, një detektor nuk thotë vetëm "ka një qen në këtë fotografi", por kthen një rezultat për secilin objekt. një kategori dhe koordinata të sakta (Koordinatat X dhe Y, gjerësia dhe lartësia e kutisë). Kjo bën të mundur numërimin e makinave në një parking, gjurmimin e një këmbësori nëpër kamera të shumta ose gjetjen e të gjitha vidave me defekt në një linjë prodhimi.

Për të arritur këtë sjellje, modelet trajnohen në vëllime të mëdha imazhesh të shënuara, në të cilat çdo instancë përkatëse shënohet manualisht me një kutia përreth dhe një etiketë klaseKilometra me foto të etiketuara, fjalë për fjalë, shërbejnë për të ndihmuar rrjetin nervor të mësojë të lidhë modelet vizuale (teksturat, konturet, ngjyrat, format) me objekte konkrete.

Në thelb, procesi mbështetet në nxjerrjen e tipareve gjithnjë e më abstrakte nga imazhet nga inteligjenca artificiale derisa të dallojë një mace nga një qen, një helmetë sigurie nga një kapelë ose një tumor nga indet e shëndetshme, dhe duke e bërë këtë në... pozicionet, madhësitë dhe kushtet e ndriçimit janë shumë të ndryshme.

Zbulimi i objekteve me inteligjencë artificiale

Zbulimi kundrejt klasifikimit dhe segmentimit

Është e rëndësishme të sqarohet ndryshimi midis zbulimit të objekteve dhe detyrave të tjera të lidhura ngushtë me vizionin kompjuterik, siç janë Klasifikimi dhe segmentimi i imazheve (semantik ose sipas instancave)sepse nuk zgjidhin të njëjtin problem.

Në klasifikimin e imazheve, modeli merr një foto të plotë dhe kthen një etiketë të vetme globale. Kjo do të thotë, mund të tregojë që një imazh është "plazh", "mace" ose "makinë", por Nuk tregon se ku ndodhet objekti. brenda skenës. Nuk ka koordinata ose raste të shumëfishta: është një vendim i vetëm për imazh.

Zbulimi i objekteve shkon një hap më tej: sistemi shqyrton imazhin, sugjeron rajone të mundshme me përmbajtje interesante dhe përpiqet të përcaktojë kategorinë e secilës. Rezultati përfundimtar janë disa kuti me etiketat dhe nivelet e tyre të besimit. Kjo lejon... identifikoni dhe gjeni shumë objekte në të njëjtën kohë, siç janë këmbësorët, semaforët, tabelat dhe automjetet në të njëjtin kuadër.

Segmentimi semantik, nga ana tjetër, i cakton një etiketë çdo pikseli, në mënyrë që e gjithë sipërfaqja e "rrugës", "qiellit" ose "bimësisë" të ngjyroset në mënyrë të qëndrueshme. Kjo qasje është shumë e dobishme kur rajonet kanë më shumë rëndësi sesa objektet individuale, por Nuk bën dallim midis rasteve të ndryshme të së njëjtës klasë (dy makina të bashkangjitura bëhen një "bllok makinash" i vetëm).

Segmentimi i instancave kombinon më të mirën e të dy botëve: ai dallon çdo instancë dhe, për më tepër, përcakton formën e saj të saktë përtej një kutie të thjeshtë. Teknika të tilla si Maska R-CNN Ato janë projektuar pikërisht për këtë qëllim, duke zgjeruar zbulimin klasik me maska ​​të detajuara.

Si funksionon një detektor modern i objekteve

Pas detektorëve të sotëm, pothuajse gjithmonë, qëndron rrjetet neurale konvolucionale (CNN)Skema e përgjithshme konsiston në marrjen e një imazhi, kalimin e tij nëpër një CNN që nxjerr harta të karakteristikave dhe, prej tyre, parashikimin si të klasave të objekteve ashtu edhe të pozicionit të kutive të tyre.

Një qasje e parë historike ishte ideja e përdorimit të një rrjeti klasifikimi të para-trajnuar (p.sh., ResNet ose VGG) dhe aplikimi i një dritare rrëshqitëse në të gjithë imazhin, duke testuar shumë kultura me madhësi dhe pozicione të ndryshme. Çdo kulturë u rendit individualisht për të parë nëse përmbante një objekt interesi. Edhe pse konceptualisht e thjeshtë, në praktikë është jashtëzakonisht joefikase: miliona kultura, kohë të mëdha llogaritjeje dhe shumë mbivendosje të tepërta.

Për ta përmirësuar këtë, dolën të ashtuquajturat rrjete të bazuara në rajone, R-CNN (CNN me bazë në rajon)Në vend të skanimit të verbër, një algoritëm fillestar i përzgjedhjes së rajonit (kërkim selektiv, Kutitë e Kufijve dhe metoda të ngjashme) gjeti qindra ose mijëra zona premtuese në imazh. Vetëm këto u prenë, u ridimensionuan dhe u dërguan në CNN për të nxjerrë veçoritë dhe më pas u klasifikuan me një model shtesë, duke e rafinuar përfundimisht kutinë me një regresor.

Kjo qasje dha rezultate mjaft të mira, por prapëseprapë ishte i kushtueshëm në aspektin llogaritës dhe i ngadaltëÇdo rajon u përpunua pothuajse në mënyrë të pavarur, dhe një imazh i vetëm mund të merrte dhjetëra sekonda për t'u analizuar. Megjithatë, R-CNN hapi rrugën dhe krijoi koncepte kyçe të tilla si përdorimi i Kryqëzimi mbi Union (IoU) për të matur mbivendosjen midis kutive ose Shtypje jo-maksimale (NMS) për të mbajtur vetëm kutinë më të mirë kur disa përshkruajnë të njëjtin objekt.

YOLO kundrejt SSD-së

Metodat me dy faza kundrejt metodave me një kalim të vetëm

Duke parë peizazhin aktual, mund t'i ndajmë algoritmet e zbulimit në dy familje kryesore: metoda me dy faza (lloji R-CNN) dhe metoda me një fazë (një veprim i vetëm). Çdo qasje përfaqëson një kompromis të ndryshëm midis saktësisë, shpejtësisë dhe konsumit të burimeve.

Në metodat me dy faza, të tilla si Faster R-CNN ose Mask R-CNN, rrjeti së pari gjeneron një grup propozimesh për rajone ku mund të vendosen objektet dhe, në një fazë të dytë, përpunon dhe klasifikon çdo propozimKjo strukturë zakonisht ofron kuti me saktësi të lartë dhe të pozicionuara mirë, duke i bërë ato ideale për kontekste ku një gabim ka një kosto të lartë, siç janë diagnoza mjekësore, inspektimi kritik ose aplikimet shkencore.

Në qasjet me një fazë, detektori e përpunon imazhin nga fillimi në fund në një hap të vetëm. Arkitektura të tilla si YOLO, SSD ose RetinaNet Ata e transformojnë problemin në një regresion të drejtpërdrejtë: për secilën qelizë në një rrjetë dhe për shumë spiranca, rrjeti parashikon njëkohësisht nëse një objekt ekziston, çfarë klase është dhe si t'i përshtatet kutisë. Kjo eliminon fazën e propozimit të qartë dhe lejon arritjen e shpejtësi shumë të larta të nxjerrjes së përfundimeve, i përshtatshëm për video në kohë reale.

YOLO (Ju shikoni vetëm një herë)

Shembulli më i njohur. Ai e ndan imazhin në një rrjetë (për shembull, 13×13), shoqëron disa spiranca me secilën qelizë dhe, duke përdorur një rrjet nervor konvolucional të tipit Darknet, gjeneron njëkohësisht qindra parashikime të kutive dhe klasave. Falë dizajnit të tij pa përsëritje të jashtme, modele si YOLOv3, YOLOv5 ose versionet Ultralytics arrijnë dhjetëra korniza për sekondë në pajisje konvencionale, diçka kyçe në drejtimin autonom, robotikën ose kamerat inteligjente.

SSD (Detektor me një të shtënë)

Propozon një arkitekturë të tipit piramidë që shfrytëzon hartat e karakteristikave me rezolucione të ndryshme për të zbulojnë objekte të mëdha dhe të vogla në një kalim të vetëm, ndërsa RetinaNet prezanton të famshmin Humbje Fokale për t'u marrë me çekuilibrin e fortë midis shembujve në sfond dhe shembujve pozitivë, duke përmirësuar kështu zbulimin e objekteve të rralla pa u dominuar nga ato negative.

Modelet dhe mjetet më të rëndësishme të ekosistemit

Përtej arkitekturave teorike, ekzistojnë platforma, biblioteka dhe shërbime cloud Këto e thjeshtojnë shumë punën me zbulimin e objekteve, qoftë për projekte kërkimore apo për integrimin e tyre në produkte komerciale pa pasur nevojë të shpikni rrotën nga e para. Këto janë më të mirat:

  • Detekron2I zhvilluar nga Meta AI, është ndërtuar mbi PyTorch dhe ofron zbatime referuese të modeleve të tilla si Faster R-CNN, Mask R-CNN, RetinaNet, DensePose dhe detektorë të bazuar në transformatorë si DETR. Është një mjet shumë i vlefshëm në kërkim sepse Ju lejon të krijoni prototipa dhe të vlerësoni ide të reja. me lehtësi relative dhe bashkëjeton me projekte të menaxhimit të fotove, të tilla si PhotoPrism.
  • OpenCVOpenCV, dega komerciale e së cilës, OpenCV.ai, zhvillon zgjidhje të personalizuara për vizionin automatik: zbulimin e objekteve, segmentimin, vlerësimin e pozës, rindërtimin 3D, kalibrimin e kamerës dhe modele të optimizuara për pajisjet me energji të ulët. Ata shfrytëzojnë komunitetin e madh që tashmë përdor bibliotekën OpenCV në projekte industriale, biomjekësore, automobilistike dhe sportive.
  • API4AI. Kjo zgjidhje ekspozon një pikë fundore në cloud për të dërguar imazhe dhe për të marrë kuti, etiketa dhe rezultate besimi. Ky lloj zgjidhjeje është i dobishëm kur dëshironi të integroni IA-në pa menaxhuar infrastrukturën ose modelet e trajnimit nga e para.
  • FlyPix AI Ai shkëlqen në fushën gjeohapësinore, duke u përqendruar në imazhet satelitore dhe të dronëve. Platforma e tij pa kod u lejon përdoruesve të ngarkojnë ortofoto ose mozaikë, të trajnojnë modele të personalizuara për të zbuluar ndërtesa, të mbjella, automjete ose ndryshime të terrenit, dhe të gjenerojnë harta të nxehtësisë ose shtresa vektoriale.

Gjithashtu gjetëm zgjidhje të tilla si SentiSight.ai, me një model fleksibël pagese-për-përdorim dhe mjete web për etiketim, trajnim dhe vendosje detektorë të personalizuarose VISUA, më i fokusuar në mbrojtjen e markës, zbulimin e logos dhe luftimin e mashtrimit vizual në kontekstet e sigurisë kibernetike dhe piraterisë së përmbajtjes.

AI i Cloud Vision

Shërbimet cloud dhe platformat e ndërmarrjeve

Shumica e ofruesve kryesorë të cloud-it përfshijnë shërbime të vizionit kompjuterik që përfshijnë zbulimin e objekteve. Google, për shembull, ofron AI i Cloud Vision, me funksione të tilla si etiketimi i imazheve, vendndodhja e objekteve, njohja e tekstit (OCR), zbulimi i fytyrës dhe logos, moderimi i përmbajtjes ose analiza e dokumenteve të skanuara.

Modeli i faturimit zakonisht bazohet në përdorim: çdo imazh dhe çdo lloj operacioni (zbulimi i etiketës, zbulimi i tekstit, vendndodhja e objektit, etj.) llogaritet si një njësi e faturueshme. Mijëra kërkesat e para në muaj janë zakonisht falas, dhe pas kësaj, një tarifë ngarkohet për mijë njësi. Kjo e thjeshton Testoni teknologjinë me pak rrezik dhe pastaj shkallëzojeni nëse rasti i përdorimit e kërkon këtë.

Kompanitë si Clarifai Ata shkojnë një hap më tej me platforma gjithëpërfshirëse të IA-së, ku vizioni kompjuterik bashkëjeton me përpunimin e gjuhës natyrore dhe modelet gjeneruese. Clarifai ju lejon të krijoni, vendosni dhe menaxhoni modele në shkallë të gjerë, duke automatizuar detyra të tilla si etiketimi i të dhënave, moderimi i imazheve dhe videove, dhe inspektimi vizual në fabrika, me mundësi vendosjeje në cloud, në ambiente të brendshme, hibride ose në skaje.

Një tjetër veçori interesante është përdorimi i zbulimit të objekteve brenda mjediseve të produktivitetit si Microsoft Power Apps dhe Power Automate. Ndërtues i AINga një ndërfaqe e udhëhequr, mund të zgjidhni një domen (objekte gjenerike, produkte në rafte, logo), të përcaktoni klasat që duhen zbuluar, të ngarkoni imazhe, t'i etiketoni ato duke vizatuar kuti dhe ta lini platformën të trajnojë dhe publikojë një model gati për t'u përdorur në rrjedhat e punës dhe aplikacionet e brendshme pa shkruar kod.

Avantazhet dhe kufizimet e zbulimit të objekteve

Ndër pikat e forta të kësaj teknologjie është aftësia e saj për të trajtuar skena komplekse me shumë elementë. Detektorët punojnë veçanërisht mirë me objekte të mesme me konture të qartaKëta elementë zënë nga rreth 5% deri në dy të tretat e imazhit. Për më tepër, ato lejojnë funksionim me shpejtësi të lartë, me shpejtësi kuadrosh që tejkalojnë 15 kuadro për sekondë në harduer të përshtatshëm, duke i bërë ato shumë të dobishme për aplikacionet live.

Një tjetër avantazh është shkathtësia e tij: një model i vetëm mund të zbulojë njëkohësisht disa kategori, nga makinat dhe njerëzit deri te lloje specifike defektesh ose produktesh. Kjo e bën atë një mjet shumë të fuqishëm për detyra të tilla si... mbikëqyrje e automatizuar, numërim inventari, logjistikë, inspektim infrastrukture ose analizë videosh sportive.

Megjithatë, zbulimi i objekteve nuk është një zgjidhje për të gjitha problemet dhe ka kufizime. Objektet jashtëzakonisht të gjata ose të holla, siç janë kabllot ose lapsat, mund të përfaqësohen dobët nga një kuti drejtkëndëshe. E njëjta gjë vlen edhe për format shumë të çrregullta, të cilat janë më pak të përshtatshme për një drejtkëndësh të thjeshtë.

Kur fokusi është në koncepte abstrakte pa një prani të qartë fizike, qasjet e klasifikimit të imazheve ose analiza multimodale janë shpesh një përshtatje më e mirë. Dhe nëse kufijtë midis rajoneve nuk janë të përcaktuar mirë, si në fotografitë ajrore të peizazhit ose imazhet mjekësore volumetrike, segmentimi semantik ose i instancës mund të jetë më i përshtatshëm sesa një kuti kufitare e thjeshtë.

Në një nivel praktik, trajnimi dhe vënia në punë e detektorëve të përparuar kërkon burime të konsiderueshme llogaritëse, veçanërisht GPU ose TPU të nivelit të mesëm ose të lartë (shih superkompjuterë desktop për zhvillimin e inteligjencës artificiale). Përveç kësaj, krijimi i grupeve të të dhënave cilësore me shënime të sakta të kutive dhe klasave Është e kushtueshme dhe e mundimshmeShumë kompani zgjedhin të bashkëpunojnë me ofrues të specializuar të etiketimit të të dhënave për të shmangur mbingarkesën e ekipeve të tyre të shkencës së të dhënave me detyra manuale.

Njohja e imazhit, mundësitë dhe rreziqet

Zbulimi i objekteve bie nën ombrellën e njohjes së imazheve me anë të inteligjencës artificiale, një fushë më e gjerë që përfshin gjithashtu klasifikimin e përgjithshëm, njohjen e fytyrës, leximin e tekstit, kërkimin vizual dhe përshkrimin automatik të skenës. Ky grup teknikash hap derën për përmirësime të mëdha në efikasitet dhe saktësi në një mori sektorësh.

  • shëndetësorSistemet e shikimit lejojnë analizën e rrezeve X, skanimeve CT, rezonancave magnetike ose mikroskopisë me një nivel detajesh dhe konsistence që është e vështirë për një njeri të lodhur ta arrijë pas orëve të tëra pune.
  • Siguria. Ato ndihmojnë në monitorimin e hapësirave kritike dhe në zbulimin e sjelljeve anormale ose personave të kërkuar.
  • MovilidadAto mundësojnë drejtimin e asistuar dhe navigimin e avancuar.

Megjithatë, këto përparime vijnë me rreziqe. Mbledhja masive e të dhënave vizuale ngre probleme të privatësisë dhe mbrojtjes së të dhënaveveçanërisht nëse përfshihen fytyra ose identifikues të tjerë personalë.

Për më tepër, kudo që përqendrohen vëllime të mëdha imazhesh dhe modelesh të fuqishme, lind rreziku i sulmeve: nga vjedhja e të dhënave deri te manipulimi i kamerave ose gjenerimi i imazheve të rreme të optimizuara për të mashtruar detektorët. Kjo është arsyeja pse është thelbësore të plotësohet çdo zgjidhje e shikimit automatik me praktikat më të mira në sigurinë kibernetike, auditimin dhe qeverisjen e inteligjencës artificiale.

Duke pasur parasysh këtë skenar, zbulimi i objekteve në imazhe duke përdorur inteligjencën artificiale po vendoset si një... pjesa kryesore e transformimit dixhitalKur është i projektuar mirë dhe i trajnuar me të dhëna të larmishme dhe me cilësi të lartë, ai u lejon organizatave të të gjitha madhësive të automatizojnë detyrat e analizës vizuale, të zbulojnë modele që i shpëtojnë syrit të njeriut dhe të ofrojnë shërbime më të sigurta, më efikase dhe të personalizuara. Kjo me kusht që të ekzistojë një angazhim për të menaxhuar rreziqet etike, ligjore dhe teknike që lidhen me to në mënyrë rigoroze dhe të përgjegjshme.

IA më e mirë që mund të përdorni për çdo aplikacion
Artikulli i lidhur:
IA më e mirë për çdo detyrë: bisedë, kërkim, imazhe dhe video