La position actuelle:Accueil du site>2019 Bar _ Aaai ICCN

2019 Bar _ Aaai ICCN

2022-07-23 06:09:28Cityd

Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis

Adresse de la thèse:https://arxiv.org/abs/1911.05544

Modèle proposé par le texte-Réseaux de corrélation typiques interactifs(ICCN),Le modèle utilise le produit extérieur de la paire de caractéristiques et l'analyse de corrélation canonique de la profondeur(DCCA)Pour générer des caractéristiques d'intégration multimodales utiles.

Les caractéristiques textuelles sont généralement meilleures que les caractéristiques non textuelles dans les tâches d'analyse émotionnelle ou de reconnaissance émotionnelle.,Il y a plusieurs raisons:

  1. Le texte lui - même contient plus d'informations émotionnelles.

  2. L'information visuelle ou auditive peut parfois confondre les tâches d'analyse émotionnelle.Par exemple,“La colère”Et“Excitation”Il peut y avoir une représentation sonore similaire(Volume élevé et tonalité élevée),Bien qu'ils appartiennent à des émotions opposées.La même chose.,“Triste”Et“Dégoût”Peut avoir des caractéristiques visuelles différentes,Bien qu'ils soient tous négatifs.

  3. Les algorithmes d'analyse de texte ont une histoire plus riche,Et bien étudié.

Sur la base de cette observation,La relation cachée entre l'apprentissage de l'information linguistique et non linguistique est un point clé de l'analyse multimodale des langues..Pour ce faire, on peut étudier différentes façons de combiner les caractéristiques multimodales..

Joindre les caractéristiques audio et vidéo au même message texte en même temps , Permet une meilleure compréhension de l'information non textuelle ,À l'envers., L'information non textuelle peut aussi donner plus de sens à l'information textuelle . Il est donc raisonnable d'étudier la corrélation profonde entre les caractéristiques audio textuelles et les caractéristiques vidéo textuelles . Où l'audio textuel et la vidéo textuelle sont respectivement le produit externe du texte et de l'audio et le produit externe du texte et de la vidéo .

Pour une meilleure association entre la vidéo textuelle et l'audio textuel , Utiliser une analyse de corrélation typique (CCA).Et pourtantCCA Ne peut apprendre que les changements linéaires , Et l'analyse de corrélation canonique de la profondeur (DCCA) Utiliser un réseau neuronal profond pour permettre CCA Traiter les relations non linéaires .Sur cette base,Utilisé dans cet articleDCCA Associer l'audio textuel à la vidéo textuelle .

Dans le modèle présenté ici,,DCCAPar deuxCNNEtCCAComposition des couches,Parmi euxCCA La couche se compose de deux projections et d'une CCA Composition de la fonction de perte . Les caractéristiques audio et vidéo textuelles passent par CNN Entrée après traitement CCACouche,CNN Et le poids projeté passe CCA Optimisation de la fonction de perte .Par la formation,Deux.CNN Pour extraire des caractéristiques utiles de la matrice du produit extérieur .

Enfin,Deux.CNN La projection de la sortie est liée à l'insertion de mots dans la phrase texte originale , Comme intégration multimodale finale , Peut être utilisé pour des tâches en aval telles que l'analyse émotionnelle .

Voici commentCCAEtDCCA, Ensuite, nous présenterons ce qui est proposé dans cet article. ICCNModèle

1、Analyse de corrélation typiqueCCA& Analyse de corrélation canonique en profondeur DCCA

CCA .Est une méthode Statistique multivariée qui utilise la corrélation entre les paires de variables combinées pour refléter la corrélation globale entre deux ensembles d'indicateurs .CCA Utilisé pour trouver un sous - espace linéaire avec une corrélation maximale entre deux entrées .

Compte tenu de deux ensembles de vecteurs X ∈ R n 1 × m X\in R^{n_1\times m} XRn1×mEt Y ∈ R n 2 × m Y\in R^{n_2\times m} YRn2×m,Parmi eux m m m Représente le nombre de vecteurs ,CAA Apprendre deux transformations linéaires A ∈ R n 1 × r A\in R^{n_1\times r} ARn1×rEt B ∈ R n 2 × r B\in R^{n_2 \times r} BRn2×r,De faire A T X A^TX ATXEt B T Y B^TY BTY La plus grande pertinence .Oui. X X XEt Y Y Y La covariance de S 11 S_{11} S11Et S 22 S_{22} S22, X X XEt Y Y Y La covariance croisée de S 12 S_{12} S12.CCAL'objectif de:
A ∗ , B ∗ = arg ⁡ max ⁡ A , B    c o r r ( A T X , B T Y ) = arg ⁡ max ⁡ A , B    A T S 12 B A T S 11 A B T S 22 B A^*,B^*=\mathop{\arg\max}\limits_{A,B}\;corr(A^TX,B^TY)\\=\mathop{\arg\max}\limits_{A,B}\;\frac{A^TS_{12}B}{\sqrt{A^TS_{11}A}\sqrt{B^TS_{22}B}} A,B=A,Bargmaxcorr(ATX,BTY)=A,BargmaxATS11ABTS22BATS12B
La solution de l'équation ci - dessus est fixe , Peut être résolu de plusieurs façons . Une façon est de laisser U , S , V T U,S,V^T U,S,VT Devenir une matrice Z = S 11 − 1 2 S 12 S 22 − 1 2 Z=S_{11}^{-\frac{1}{2}}S_{12}S_{22}^{-\frac{1}{2}} Z=S1121S12S2221Décomposition de la valeur singulière de(SVD).Alors, A ∗ , B ∗ A^*,B^* A,B La corrélation typique maximale avec le total est :
A ∗ = S 11 − 1 2 U B ∗ = S 22 − 1 2 V c o r r ( A ∗ T X , B ∗ T Y ) = t r a c e ( Z T Z ) 1 2 A^*=S_{11}^{-\frac{1}{2}}U\\B^*=S_{22}^{-\frac{1}{2}}V\\ corr(A^{*T}X,B^{*T}Y)=trace(Z^TZ)^{\frac{1}{2}} A=S1121UB=S2221Vcorr(ATX,BTY)=trace(ZTZ)21
CCA Une des limites est qu'il ne tient compte que des transformations linéaires .DCCA Apprentissage de la transformation non linéaire à l'aide d'une paire de réseaux neuronaux .Jean f , g f,g f,g Représente deux réseaux neuronaux indépendants ,DCCA L'objectif est d'optimiser f , g f,g f,gParamètres pour θ f , θ g \theta_f,\theta_g θf,θg,Faire f f fEt g g g Corrélation typique entre les résultats ,Exprimé en F X = f ( X ; θ 1 ) F_X=f(X;\theta_1) FX=f(X;θ1)Et F Y = g ( Y ; θ 2 ) F_Y=g(Y;\theta_2) FY=g(Y;θ2), Vous pouvez trouver deux transformations linéaires C ∗ , D ∗ C^*,D^* C,D Maximiser .DCCALe but de:
θ f ∗ , θ g ∗ = arg ⁡ max ⁡ θ f , θ g    C C A ( F X , F Y ) = arg ⁡ max ⁡ θ f , θ g    c o r r ( C ∗ T F X , D ∗ T F Y ) \theta_f^*,\theta_g^*=\mathop{\arg\max}\limits_{\theta_f,\theta_g}\;CCA(F_X,F_Y)\\=\mathop{\arg\max}\limits_{\theta_f,\theta_g}\;corr(C^{*T}F_X,D^{*T}F_Y) θf,θg=θf,θgargmaxCCA(FX,FY)=θf,θgargmaxcorr(CTFX,DTFY)
Pour la mise à jour f , g f,g f,gParamètres pour, Les pertes typiques associées à la mesure doivent être calculées et rétropropagées .Mise en place R 11 , R 22 R_{11},R_{22} R11,R22Pour F X , F Y F_X,F_Y FX,FYCovariance of, F X , F Y F_X,F_Y FX,FY La covariance croisée de R 12 R_{12} R12.Mise en place E = R 11 − 1 2 R 12 R 22 − 1 2 E=R_{11}^{-\frac{1}{2}}R_{12}R_{22}^{-\frac{1}{2}} E=R1121R12R2221.Mise à jour F X , F Y F_X,F_Y FX,FY Les pertes associées typiques peuvent être définies comme suit: :
C C A    L o s s = − t r a c e ( E T E ) 1 2 CCA\;Loss=-trace(E^TE)^{\frac{1}{2}} CCALoss=trace(ETE)21
Réseau f ( X ; θ f ) , g ( Y ; θ g ) f(X;\theta_f),g(Y;\theta_g) f(X;θf),g(Y;θg) Les paramètres de CCA Perte à mettre à jour ( C'est - à - dire maximiser la corrélation générale typique ).

2、Réseaux de corrélation typiques interactifsInteraction Canonical Correlation Network(ICCN)

image-20220408162443368

L'image ci - dessus estICCNStructure globale du modèle, Le processus de rectification du modèle est décrit ci - dessous. .

Mise en place H t ∈ R d t H_t\in R^{d_t} HtRdt Intégration de caractéristiques textuelles au niveau du corpus (UtiliserBERTEtInferSentObtenir), H v ∈ R d v × l v , H a ∈ R d a × l a H_v\in R^{d_v \times l_v},H_a \in R^{d_a \times l_a} HvRdv×lv,HaRda×la Pour les séquences d'entrée audio et vidéo (UtiliserCOVAREPEtFacet).

Un réseau neuronal convolutif unidimensionnel est utilisé pour extraire la structure locale des séquences audio et vidéo , La sortie du réseau neuronal de convolution unidimensionnelle est exprimée comme suit: H a 1 ∈ R d a 1 × l a , H v 1 ∈ R d v 1 × l v H_{a1}\in R^{d_{a1}\times l_a},H_{v1}\in R^{d_{v1}\times l_v} Ha1Rda1×la,Hv1Rdv1×lv.

Ensuite, la sortie du réseau neuronal convolutif unidimensionnel est transmise LSTM Pour le traitement des séquences audio et vidéo ,ChaqueLSTM L'état caché final de est utilisé comme caractéristique audio et vidéo au niveau du corpus ,Exprimé en H a 2 ∈ R d a 2 , H v 2 ∈ R d v 2 H_{a2}\in R^{d_{a2}},H_{v2}\in R^{d_{v2}} Ha2Rda2,Hv2Rdv2.

Après avoir obtenu les caractéristiques de chaque niveau modal de corpus , Une matrice de caractéristiques audio textuelles et une matrice de caractéristiques vidéo textuelles sont disponibles pour H t , H v 2 , H a 2 H_t,H_{v2},H_{a2} Ht,Hv2,Ha2 Le produit extérieur de :
H t a = H t ⊗ H a 2 , H t a ∈ R d t × d a 2 H t v = H t ⊗ H v 2 , H t v ∈ R d t × d v 2 H_{ta}=H_t \otimes H_{a2},H_{ta}\in R^{d_t \times d_{a2}}\\H_{tv}=H_t\otimes H_{v2},H_{tv}\in R^{d_t \times d_{v2}} Hta=HtHa2,HtaRdt×da2Htv=HtHv2,HtvRdt×dv2
De la matrice du produit extérieur H t a , H t v H_{ta},H_{tv} Hta,Htv Extraire des caractéristiques utiles , Utilisation du réseau neuronal convolutif comme extracteur de caractéristiques , Matrice de convolution externe comme entrée dans le réseau neuronal de convolution bidimensionnelle pour extraire les caractéristiques , La matrice de produit externe est remodelée en vecteur unidimensionnel par le réseau neuronal de convolution .Et passerCCA Perte de calcul de la couche , Sa fonction de perte est une perte dépendante typique telle que définie ci - dessus :
C C A    L o s s = − t r a c e ( E T E ) 1 2 CCA\;Loss=-trace(E^TE)^{\frac{1}{2}} CCALoss=trace(ETE)21
1D-CNN、LSTMEt2D-CNN Poids réutilisé CCA Perte de Rétropropagation mise à jour .Deux.2D-CNNsApprendre de H t v H_{tv} HtvEt H t a H_{ta} HtaCaractéristiques extraites, Afin de maximiser leur corrélation typique . Voici l'ensemble du réseau interactif typique (ICCN)Le pseudo - Code de.

image-20220408164938788

ICCN La méthode est un extracteur de fonctionnalités . Pour tester ses performances , Un classificateur supplémentaire en aval est également nécessaire . Texte obtenu 、 Caractéristiques monomodales de la vidéo et de l'audio ,Ça marche.ICCN Pour apprendre les caractéristiques audio textuelles K t a K_{ta} Kta Et des fonctionnalités vidéo textuelles K t v K_{tv} Ktv. Intégration multimodale finale en audio textuel 、 Concaténation du texte original et des caractéristiques vidéo basées sur le texte ,Exprimé en [ K t a ; H t ; k t v ] [K_{ta};H_t;k_{tv}] [Kta;Ht;ktv]. [ K t a ; H t ; K t v ] [K_{ta};H_t;K_{tv}] [Kta;Ht;Ktv] Peut être utilisé comme entrée dans un classificateur en aval , Comme la régression logique ou le perceptron multicouche , Pour compléter la tâche de l'analyse multimodale des émotions .

L'expérience

InCMU-MOSIEtCMU-MOSEILes résultats de(Analyse émotionnelle):

image-20220408165414080

InIEMOCAPLes résultats de(Reconnaissance émotionnelle):

Mentions de copyright
Auteur de cet article [Cityd],Réimpression s’il vous plaît apporter le lien vers l’original, merci
https://fra.chowdera.com/2022/204/202207221757347404.html

Recommandé au hasard