La position actuelle:Accueil du site>[arxiv2022] grouptransnet: Group transformer Network for RGB - D Salient Object Detection

[arxiv2022] grouptransnet: Group transformer Network for RGB - D Salient Object Detection

2022-07-23 08:26:19Bébé agneau

paper:https://arxiv.org/abs/2203.10785 

Table des matières

Un. Le mobile

2. Méthodes

Trois Cadre du réseau

 3.1 Module de purification modale(MPM)

3.2 Module d'unification des échelles (SUM)

3.3 Beaucoup. Transformer Décodeur (MTE) 

3.4 Unités d'intégration groupées (CIU) 

3.5 Fonction de perte

 Performance

 Résumé


Un. Le mobile

The locality of convolutional neural network requires that the model has a sufficiently deep global receptive field, which always leads to the loss of local details.

  La localisation des réseaux neuronaux convolutifs exige que le modèle ait un champ global de perception suffisamment profond , Cela entraîne souvent la perte de détails locaux .

2. Méthodes

To address the challenge, we propose a novel Group Transformer Network (GroupTransNet) for RGBD salient object detection. 

Pour relever ce défi, L'auteur propose un nouveau réseau ,Group Transformer Network (GroupTransNet).

This method is good at learning the long-range dependencies of cross layer features to promote more perfect feature expression. 

Cette méthode est bonne pour apprendre Dépendance à distance des caractéristiques des couches transversales , Pour faciliter une caractérisation plus optimale .

At the beginning, the features of the slightly higher classes of the middle three levels and the latter three levels are soft grouped to absorb the advantages of the high-level features.

Au début., Les caractéristiques de niveau supérieur des troisième et troisième niveaux sont regroupées en douceur , Pour absorber les avantages des caractéristiques avancées .

The input features are repeatedly purified and enhanced by the attention mechanism to purify the cross modal features of color modal and depth modal. 

AdoptionMécanisme d'attention Caractéristiques intermodales des modes de couleur purifiée et des modes de profondeur , Les caractéristiques d'entrée sont purifiées et améliorées à plusieurs reprises .

The features of the intermediate process are first fused by the features of different layers, and then processed by several transformers in multiple groups, which not only makes the size of the features of each scale unified and interrelated, but also achieves the effect of sharing the weight of the features within the group. 

Les caractéristiques du processus intermédiaire sont d'abord fusionnées par les caractéristiques des différentes couches , Encore quelques - uns des groupes transformerTraitement, Non seulement les dimensions de chaque niveau d'une caractéristique sont unifiées et associées , Et la mise en œuvre sans regroupement , Validité des pondérations de partage des caractéristiques

The output features in different groups complete the clustering staggered by two owing to the level difference, and combine with the low-level features.

Les caractéristiques de sortie des différents groupes sont complétées en deux étapes en raison des différents niveaux Regroupement décalé , Et combiné avec des caractéristiques de bas niveau .

Trois Cadre du réseau

         Au total, quatre composantes :Module de purification modale(MPM),Module d'unification des échelles (SUM),Beaucoup.transformerEncodeur (MTE), Unités d'intégration groupées (CIU).Tout au long du processus,CesRGB Caractéristiques de différentes tailles extraites en profondeur f1,f2,f3,f4,f5, Ils sont regroupés en 2Groupe,G1={f2,f3,f4},G2={f3,f4,f4}

        Tout d'abord,, Toutes les caractéristiques d'entrée passent par MPM Purification modulaire pour obtenir des caractéristiques multimodales

        Deuxièmement,, Envoyer les deux fonctions de regroupement à SUM Le module rend chaque dimension caractéristique uniforme et pertinente

        Et voilà., Caractéristiques intermédiaires apprendre l'information publique moyenne de ces groupes ,AdoptionMTE Module pour une représentation plus discriminante des caractéristiques

        Enfin,InCIUModule, Relier les caractéristiques de haut niveau aux caractéristiques de bas niveau pour produire des caractéristiques de sortie

        Le diagramme de signification final est obtenu par agrégation de ces Les graphiques caractéristiques sont calculés pour  

 3.1 Module de purification modale(MPM)

        InRGB-D Dans le test de signification , Il existe deux formes d'expression de l'information d'image .RGB Mode et mode profondeur ,RGB Le mode fournit des informations sur l'apparence de l'image , L'image de profondeur fournit des informations sur la distance de l'image . Ils fournissent des informations utiles pour la détection de différents modèles .Et pourtant, Les caractéristiques des différents modes sont en partie incompatibles , Ceci est dû aux différences inhérentes aux différents modes . Si nous utilisons simplement ces deux modes , Comme l'épissage direct , Cela provoquera une série de bruits sur les caractéristiques ,MPM Le module a été conçu pour résoudre ce problème .        

        MPM Le diagramme de 2Comme indiqué,MPM .D'abord la purification des caractéristiques par cascade d'éléments répétitifs , Ensuite, l'amélioration des caractéristiques par le mécanisme d'attention ,Parmi eux, Les mécanismes d'attention se réfèrent à l'attention canalisée et spatiale ,InCBAMIl y a des instructions.

        Pour5CouchesRGBCaractéristiquesEt caractéristiques de profondeur,i=1,2,3,4,5. La purification des caractéristiques et l'amélioration des caractéristiques peuvent être purifiées RGB Caractéristiques des modes transversaux des modes et des modes de profondeur , Obtenir les caractéristiques combinées  .

         Processus de purification Peut être défini comme:

          Processus d'amélioration Pour:

3.2 Module d'unification des échelles (SUM)

       Dans le réseau, En raison de plusieurs sous - échantillons , Les caractéristiques de chaque échelle ont des résolutions différentes . En plus de ça,,  Chaque caractéristique d'échelle contient également des informations sémantiques et détaillées très différentes . D'un côté, Les caractéristiques de différentes tailles ne peuvent pas être traitées de façon adaptative par un module .Deuxièmement,, L'interaction des caractéristiques à toutes les échelles est également très importante du début à la fin .Module d'unification des échelles (SUM) Pour résoudre ces problèmes .

    

        Avant ça,Après fusion5 Les caractéristiques hiérarchiques passent d'abord par la couche de transition T Unifier tous les canaux en 64Accès,T Contient un 3×3 La couche de convolution et un ReLU Activer la fonction.     

         Envoyer les caractéristiques du troisième étage à SUMH , Le troisième étage central est livré à SUMM, Ils ont tous deux échantillonné des couches supérieures et inférieures à l'échelle de la couche moyenne. , Puis une série d'opérations d'épissage symétriques .La procédure est la suivante:

!!!Note: Ici, je trouve cette formule un peu problématique ,Dans la formule8,En ce momentfm La caractéristique est déjà une formule 7 Après l'épissage …… Il semble y avoir un problème avec ce qui suit ( Peut - être que l'auteur a écrit un peu vite ^_^)

3.3 Beaucoup. Transformer Décodeur (MTE) 

          Après l'unification des canaux et l'unification de l'échelle à l'intérieur des deux groupes ,64x16x16,64x32x32, Les caractéristiques des deux groupes générés sont envoyées à ce module .transformer Ce morceau n'est pas très clair , Pas d'étude pour le moment …………Ce qui signifie probablementtransformer Ce truc est bon , Les caractéristiques de l'apprentissage sont également plus discriminantes .

3.4 Unités d'intégration groupées (CIU) 

Va passertransformer Les caractéristiques des deux groupes de 3Catégorie,C'est - à - dire: C1 = {h’f5,m’f4}, C2 = {h’f4,m‘f3} Et C3 = {h‘f3,m’f2}

   Dans la première catégorie C1Moyenne,h‘f5 Contient des informations équivalentes sur les caractéristiques des couches 4 et 5 ,Etm’f4 Contient des informations équivalentes sur les caractéristiques des couches 2 et 4 et plus .Donc,, Il est riche d'informations du niveau 2 au niveau 5 , Cette propriété s'applique aux caractéristiques non destructives biaisées .De même,, Dans la catégorie 2 C2Moyenne,h'f4 Contient des informations équivalentes sur les caractéristiques des couches 5 et 4 ,Etm'f3 Contient des informations équivalentes sur les caractéristiques des deuxième et troisième niveaux . En même temps, Dans la catégorie 3 C3Moyenne,h'f3 Contient des informations équivalentes sur les caractéristiques des couches 3 et 5 et plus 4 ,m'f2 Contient des informations équivalentes sur les caractéristiques des couches 2 et 3 . Donc,, Ils satisfont également aux mêmes propriétés que la première catégorie .

( Pourquoi ce passage dit - il ça ??  ?Pas très compréhensif,Ça pourrait êtreSUMEtTransformerLe rôle deba)

         Ces trois classes se concentrent sur l'information caractéristique en plus de la première couche ,L'accent est différent, Ils doivent donc être séparés des caractéristiques qui contiennent la première couche d'information. ft1Ensemble. Le processus d'intégration de toutes les caractéristiques à combiner peut être défini comme suit: :

CIU L'effet est de relier en série les caractéristiques des différentes couches , Identifier les caractéristiques de la couche , C'est une cascade , Intégrer les caractéristiques du regroupement dans un ordre de haut en bas , D'abord, les caractéristiques de haut niveau sont échantillonnées , Il est ensuite attelé à une caractéristique de niveau inférieur .

3.5 Fonction de perte

3 Surveillance de la sortie latérale , Entropie croisée binaire pondérée (wBCE) Combinaison croisée des pertes et des pondérations (wIoU) Pertes.【weighted Binary Cross Entropy (wBCE) loss and weighted Intersection over Union (wIoU) loss. 】

 Performance

 

 Résumé

         Le processus général est : Caractéristiques d'extraction du réseau de base , Fusion intermodale , Harmonisation des canaux ,Unité d'échelle,Je l'envoie.transformer Dans cette bonne chose , Enfin, les caractéristiques inutilisées de la couche 1 sont introduites dans les caractéristiques de la couche moyenne et de la couche supérieure pour décoder. .

Mentions de copyright
Auteur de cet article [Bébé agneau],Réimpression s’il vous plaît apporter le lien vers l’original, merci
https://fra.chowdera.com/2022/204/202207222254578260.html

Recommandé au hasard