banner
Centro notizie
Promettiamo di fornire prodotti di prima qualità, spedizioni puntuali e assistenza coscienziosa.

Un'applicazione dell'algoritmo di corrispondenza stereo basato sull'apprendimento del trasferimento su robot in più scene

Jul 07, 2023

Rapporti scientifici volume 13, numero articolo: 12739 (2023) Citare questo articolo

3 Altmetrico

Dettagli sulle metriche

La tecnologia di visione robotica basata sulla visione binoculare ha un enorme potenziale di sviluppo in vari campi, tra cui la ricostruzione di scene 3D, il rilevamento di bersagli e la guida autonoma. Tuttavia, gli attuali metodi di visione binoculare utilizzati nell’ingegneria robotica presentano limitazioni quali costi elevati, algoritmi complessi e scarsa affidabilità della mappa di disparità generata in diverse scene. Per superare queste sfide, in questo documento è stato proposto un algoritmo di corrispondenza stereo interdominio per la visione binoculare basato sull'apprendimento di trasferimento, denominato Cross-Domain Adaptation and Transfer Learning Network (Ct-Net), che ha mostrato risultati preziosi in più scene di robot. Innanzitutto, questo documento introduce un estrattore di caratteristiche generali per estrarre informazioni dettagliate sulle caratteristiche generali per attività di corrispondenza stereo adattiva del dominio. Quindi, viene utilizzato un adattatore di funzionalità per adattare le caratteristiche generali alla rete di adattamento stereo. Inoltre, un modulo di ottimizzazione dei costi adattivi del dominio è progettato per ottimizzare il costo di corrispondenza. È stato inoltre incorporato un modulo di previsione del punteggio di disparità per regolare in modo adattivo l'intervallo di ricerca della disparità e ottimizzare la distribuzione dei costi. Il quadro generale è stato addestrato utilizzando una strategia a fasi e sono stati condotti esperimenti di ablazione per verificare l'efficacia della strategia di formazione. Rispetto al prototipo PSMNet, sul benchmark KITTI 2015, il 3PE-fg di Ct-Net in tutte le regioni e nelle regioni non occluse è diminuito rispettivamente del 19,3 e del 21,1%, mentre, sul set di dati di Middlebury, l'algoritmo proposto migliora il tasso di errore del campione almeno il 28,4%, che è il campione Staircase. I risultati quantitativi e qualitativi ottenuti da Middlebury, Apollo e altri set di dati dimostrano che Ct-Net migliora significativamente le prestazioni tra domini della corrispondenza stereo. Esperimenti di corrispondenza stereo in scene del mondo reale hanno dimostrato che può affrontare efficacemente compiti visivi in ​​più scene.

Negli ultimi anni, i robot sono diventati assistenti essenziali in vari campi, tra cui la ricostruzione di scene 3D, il rilevamento di bersagli, la guida autonoma, tra gli altri. L’applicazione pervasiva della tecnologia robotica in vari settori ha contribuito al suo ruolo fondamentale nella vita moderna. La visione artificiale, una tecnologia che emula il sistema visivo umano e converte le informazioni sulle immagini raccolte in informazioni sulla disparità dei target, svolge un ruolo cruciale nell'assistere i robot nello svolgimento dei loro compiti. Attualmente, la maggior parte dei robot si affida a costose apparecchiature radar laser per ottenere informazioni sulla disparità ad alta precisione. Tuttavia, il principio della visione binoculare, che riproduce fedelmente il modo umano di osservare gli oggetti, è ampiamente utilizzato in numerosi compiti visivi. L'algoritmo di corrispondenza stereo binoculare, una componente fondamentale della teoria della visione binoculare, influisce direttamente sulla precisione del rilevamento del bersaglio da parte di un robot. Utilizzando la teoria della visione binoculare, il robot può convertire le informazioni bidimensionali in informazioni tridimensionali della scena target, ottenendo così informazioni precise sulla scena target.

Gli algoritmi di corrispondenza stereo sono fondamentali per comprendere le scene e la ricostruzione 3D e sono stati ampiamente utilizzati in vari campi, tra cui la navigazione robotica1, la guida autonoma2, la realtà virtuale3 e molti altri. Questi algoritmi mirano a calcolare le disparità, che rappresentano lo spostamento orizzontale dei pixel corrispondenti in due coppie stereo raddrizzate. I metodi tradizionali spesso si basano sulla conoscenza preliminare dell'immagine per costruire una funzione di corrispondenza stereo che consenta la generazione di una mappa di disparità densa4.

Attualmente, le reti neurali convoluzionali (CNN) sono ampiamente utilizzate in vari compiti di visione grazie alle loro potenti capacità di rappresentazione delle caratteristiche, tra cui il rilevamento di oggetti5, la classificazione di immagini6 e altro ancora. Negli ultimi anni, gli algoritmi di corrispondenza stereo supervisionati basati sulla CNN hanno migliorato significativamente le prestazioni della corrispondenza stereo e sono diventati l’attuale direzione di ricerca tradizionale. I passaggi principali dell'algoritmo di corrispondenza stereo supervisionato basato sulla CNN includono l'estrazione delle funzionalità, la costruzione dei costi e l'ottimizzazione dei costi.

\) represents the inner product operation, and the correlation of features is calculated for the feature group g and all disparity levels d./p>