La position actuelle:Accueil du site>L'apprentissage par petits échantillons n'est - il qu'une question d'auto - Salut universitaire?

L'apprentissage par petits échantillons n'est - il qu'une question d'auto - Salut universitaire?

2022-05-15 04:06:54Datawhale

 DatawhaleApprendre 

Auteur:ALme,University of Electronic Science and Technology,Édition:Plate - forme du marché polaire

https://www.zhihu.com/question/439865186/answer/2472023214

Guide de lecture du marché polaire

 

J'ai vu beaucoup de gens ces deux dernières années,Tout est critique.few-shot learning,J'ai l'impression que c'est le milieu universitaire quihigh,J'ai beaucoup réfléchi.,J'ai senti le besoin de donner un vrai nom à ce domaine~(Attention!,Cet article se concentre uniquement surfew-shot image classification)

J'ai vu beaucoup de gens ces deux dernières années,Y compris mon stagementorÀ l'intérieur,Tout est critique.few-shot learning,J'ai l'impression que c'est le milieu universitaire quihigh,J'ai beaucoup réfléchi.,J'ai senti le besoin de donner un vrai nom à ce domaine~(Attention!,Cette réponse se concentre uniquement surfew-shot image classification)

Tout d'abord,,À discuterfew-shot learningValeur de,Il faut d'abordfew-shot learning(FSL)L'orientation du problème est claire.Et pour comprendrefew-shot learningPositionnement de,Il faut d'abordFSLEttransfer learningLa relation entre.transfer learningTout le monde sait,Un exemple typique est dansImagenetFormer unbackbone, Et sur un nouvel ensemble de données (Par exemple,cifar、cub) Réglage fin de l'ensemble d'entraînement pour (fine-tune)backbone, .Le modèle est ensuite testé sur l'ensemble d'essai de ce nouvel ensemble de données . Alors pourquoi ne pas commencer par les nouvelles données train Et un modèle? ?

Nous le savons tous.,Imagenet Beaucoup d'images , Et le champ couvert par l'image est assez complet , Peut être considéré comme une représentation approximative de la distribution des données dans le monde réel , J'espère donc ImageNet Le modèle formé ci - dessus est capable d'extraire des caractéristiques d'image communes , Et cette caractéristique commune pourrait très bien migrer vers un domaine d'image en aval que nous n'avons pas vu auparavant . Il est donc largement admis que ,InImageNet( Ou un ensemble de données plus grand )Allez, entraînez - vous.backbone, Et puis peaufiner est la meilleure façon de . C'est pourquoi, ces deux dernières années, tout le monde a tellement aimé le modèle de pré - formation aux mégadonnées , Semi - supervision supervisée auto - supervision tout ce qu'il y a , C'est comme bert Construire un modèle universel pour résoudre toutes les tâches .

transfer learning Il y a une différence entre domain adaptation Un point très important , C'est - à - dire que l'ensemble de données au moment de l'entraînement et l'image de l'ensemble de données au moment de l'ajustement ne sont pas seulement domainC'est différent.,category C'est souvent différent .Parce quecategoryC'est différent., Il en résulte que la couche de classification du réseau d'origine ne peut pas être utilisée lors du réglage fin , Il faut en apprendre un autre. ;Et parce quedomainC'est différent,backbone Les caractéristiques extraites ne sont pas non plus suffisantes discriminativeC'est,D'où la nécessitéfinetune backbone.On verra plus loin, A partir de ces deux points few-shot learningLa question centrale.

Voilà le point.,transfer learningDesetting, Supposons que nous ayons accès à suffisamment d'ensembles de données cibles labeled dataDe,Mais dans la pratique,, Souvent, l'ensemble de données cible labeled data C'est insuffisant . Pour citer un cas réel que j'ai rencontré pendant mon stage , J'ai rencontré un projet , C'est la détection anormale de la pièce , C'est - à - dire une image d'une pièce industrielle , Pour déterminer s'il est qualifié .Tout le monde sait, Les pièces sont souvent faites normalement , La probabilité d'erreur est très faible , Il y a donc très peu d'images de pièces anormales disponibles ,L'idée étaitimagenetCe que j'ai apprisbackbone Directement sur ces très petites images finetune, Ça s'est mal passé. ; Un autre exemple est le diagnostic médical ,La même chose., L'incidence de certaines maladies est extrêmement faible , Les images disponibles sont rares , Si vous avez l'occasion d'essayer ce qui est accessible en ligne ChestX [1]Ensemble de données,Inlabeled data Nombre de cas donnés ,DeImageNet finetune C'est aussi très mauvais .Donc,,Ce genre desetting À un moment où le modèle de pré - formation est très important , C'est très précieux. .Alors, ça.settingEtfew-shot learningQuelle importance?

En fait...,C'est ici.transfer learningDomaine ciblelabeled dataInsuffisantsetting, C'est ce qu'on disait. few-shot image classification,Ou peut - être aussi appeléfew-shot transfer [2].few-shot image classification Utilisé au début benchmark,Par exemple,miniImageNet [5],Satisfaitfew-shot transfer learningDanscategory gap,Etdomain gapBien que,Mais ce n'est pas évident. Pour remédier à cette lacune , Par la suite cross-domain few-shot learningDebenchmark [3] EtMeta-Dataset [4], Ces deux dernières années benchmarkDéveloppement rapide, La plupart des brosses traditionnelles benchmark La thèse de la Conférence commence également à cross-domain L'effet de .

Ces progrès ont permis few-shot learning Avec l'application réelle du scénario gap Rétrécissement rapide . La plupart des critiques FSL L'accent pourrait être mis sur miniImageNetAllez.,En fait...,Même siminiImageNet,Si vous regardez attentivement, Vous pouvez également trouver qu'il y a une grande différence entre la plupart des catégories d'ensembles d'entraînement et d'ensembles d'essai gapDe, Comme les micro - organismes présents dans l'ensemble d'essai 、Vase, Il est difficile de trouver des classes similaires dans l'ensemble d'entraînement . Retracer les raisons de la critique , Ou tout le monde 20 Il n'y a pas de few-shot learningEttransfer learning Pour clarifier la relation , Ça va être amusant. miniImageNetCe genre debenchmark C'est dans le cercle de l'auto - amorçage . Ce n'est qu'en regardant cette relation , Pour sortir few-shot learning Champ d'application initial , Penser à la nature du problème dans une dimension supérieure .Heureusement, Bien que les articles sur l'eau occupent une place importante dans ce domaine , Mais il y a encore des gens qui vont dans la bonne direction ,Ça suffit.

C'est clair maintenant ,few-shot image classification En fait, c'est l'équivalent de limiter le champ cible labeled dataNombretransfer learning,Alors la question se pose,transfer learningEn gros.finetuneUn chemin, Je ne peux pas jouer avec les fleurs , Pourquoi une fois que vous limitez la quantité de données du domaine cible à un très petit , Il y a toutes sortes de façons de fleurir ? Ces méthodes comprennent, sans s'y limiter meta-learning、conventional training、metric-based method、generation-based method、linear classification、dense-feature based method.

En fait..., La réponse à cette question remonte à 19 Google publié en CVPRUn article de:Do Better ImageNet Models Transfer Better? L'article explore ImageNet Sur le modèle d'entraînement transfer learningEffets.Figure dans le document9Donne.transfer learning Avec le domaine cible labeled data Variation de l'effet à mesure que la quantité augmente ,Les photos sont les suivantes::

0b5ccf0e6a35c8ba6e6142f8be87a9dd.png
L'axe horizontal est le domaine cible pour chaque classe labled imageNombre, L'axe longitudinal est précis

La ligne rouge est finetuneEffet méthodologique, La Ligne verte est gelée backbone, Une linéarité n'est formée qu'avec les données du domaine cible au - dessus des caractéristiques logistic Effet du classificateur , Noir pour former un modèle à partir de zéro sur l'ensemble de données cible .Tout d'abord,, La ligne noire ne fonctionne pas. ,DescriptiontransferLa nécessité.Deuxièmement,,Plus intéressant encore,finetune Et linéairement classifié performance Différence de quantité de données dans un domaine cible donné .Dans le domaine ciblelabeled data Avec une grande quantité de données ,finetune Généralement dominant ,Mais dansfew-shotSous scène,finetune La méthode n'est souvent pas aussi bonne que le gel backbone Classification linéaire de ,J'ai remarqué, Bien que le document ait réduit le nombre de chaque catégorie , Mais le nombre de catégories n'a pas diminué , Et ces ensembles de données ont un grand nombre de catégories , Puis j'ai fait mes propres expériences , Il a été constaté que la différence entre les deux méthodes était plus grande lorsque le nombre de catégories diminuait ,Ça veut direfinetuneEffets etlabeled data Corrélation positive des totaux des données .

Ce phénomène, C'est bien compris de réfléchir ,C'estfinetune backbone Trop de paramètres ajustés ,Infew-shot Le modèle ci - dessous est facilement surajusté .Ça explique pourquoi.MAMLCette catégorie est basée surfinetuneLa méthodefew-shot learning Les performances inférieures sont nettement inférieures à metric-based method Attendre que les autres gèlent backboneMéthode.

Comme je ne peux pas.finetune, C'est logique. , Ce que vous avez appris dans le domaine source network backbone La qualité est essentielle .En d'autres termes,,Debackbone Qui a conduit feature space Ça doit être suffisant general,Assez.generalizable. C'est exactement ce que nous voulons. 19-21Toute l'annéefew-shot community Une des priorités [2, 6-8], Et cet objectif correspond exactement à ces deux années basées sur linear protocol evaluation L'étude comparative est cohérente ,D'accord.,few-shot learning La question de l'essence est arrivée vision problem En eau profonde : Comment apprendre à généraliser visual representation, De sorte qu'il est extrêmement étrange et peu labeled data Toujours en bon état ?Ou plutôt, Acquis visual representation Quel est le problème avec les images étranges? ?Ce sont des questionsfinetune Une tradition qui a traversé le monde transfer learningNon.,C'est aussifew-shot learningL'une des questions centrales. De la méta - apprentissage précoce ,Plus tard.metric-based pretraining(cosine classifier) Et ajouter une variété d'études auto - supervisées 、 Apprendre par distillation loss, Le but est d'apprendre une meilleure représentation des caractéristiques .

Si vous avez vuBig Transfer(BiT)[9]Cet article, Peut - être une question : Est - ce que tant que les données sont assez volumineuses , La représentation des caractéristiques est suffisante , Le problème de la classification des petits échantillons est résolu ? La réponse devrait être ,partially solved. Premièrement, l'effet de classification des petits échantillons et la taille de l'ensemble de données du domaine source sont positivement corrélés sur la plupart des ensembles de données cibles , Donc augmenter la quantité de données d'entraînement est un très bon moyen ;Mais,Résultats expérimentaux, Cette augmentation s'est produite dans certains domain gap Sur les ensembles de données les plus disparates , En particulier dans les situations d'application réelles rencontrées ,Il y a une limite, S'il n'y a pas de recherche fondamentale pretrained visual representation Problèmes avec les petits échantillons , Ou ne pas utiliser de division finetune Ensemble de données cible à l'extérieur adaptationMéthodes, Ce goulot d'étranglement ne semble pas pouvoir être résolu .Donc,,few-shot image classfication Cette question a une valeur unique ,Avecimage representation learning La question centrale de .

Formation tirée du domaine source general image representationAprès,Lors des essais,Domaine ciblefew-shot Toutes les images de la Mission ,Peu importe.support(Formation) La photo ou query(Tests)Photos, La plupart des méthodes le convertissent d'abord en representationPasser à l'étape suivante. Cela mène à une autre question ,C'est - à - dire dans unrepresentationEn bas.,Comment maximiser l'utilisationsupport set Quelques images representation Construire un classificateur , Donner à ce classificateur une bonne capacité de généralisation ?Mettez l'imagerepresention Il y a beaucoup de façons d'atteindre l'extrême , Et ça mène directement à few-shot learning Les fleurs fleurissent . Comme la méta - apprentissage , Depuis le début de la formation targetCette question, Mais ces méthodes de méta - apprentissage ignorent un problème important : La distribution des données de la source de formation est différente de celle des données cibles au moment de l'essai , Cela conduit directement à l'hypothèse que les tâches de méta - apprentissage ne sont pas réparties , C'est l'une des principales raisons pour lesquelles les méta - études ne fonctionnent pas bien . Voici un autre exemple ,Parce que:

  1. Domaine ciblelabeled dataMoins.

  2. La catégorie de domaine cible n'a pas été vue au moment de l'entraînement

Donc,backbone Le réseau ne sait pas quelles informations se concentrent sur les images complexes . Comme une image. , Un homme avec un chien , Étiquette humaine , Mais parce que le réseau ne peut étiqueter que les chiens pendant l'entraînement (Par exemple,imagenet), C'est pourquoi l'extraction des caractéristiques se concentre sur les chiens ,Pas les gens..Pour résoudre ce genre de problèmes,dense-feature based La méthode est née ,Son idée centrale estbackboneJe suis sortifeatureMaisglobal pooling,RéservespatialInformation, Comparer différentes images spatial feature map, Trouver la correspondance , Donc s'il y a deux images , C'est commun aux gens, pas aux chiens , C'est à travers ce genre de correspondance humaine que le chien confounding factorEnlevez - le.. Ce type de document méthodologique est comme :CAN[16]、CTX[2]、DeepEMD [10]、LDAMF[17]、MCL[18].

Je vois., J'en ai appris un. good representation, Et les tests à partir de labeled data La construction d'un bon classificateur peut être unifiée dans les tâches générales .Mais dansfew-shot learningMoyenne, Au fur et à mesure que les lacunes de la méthode de méta - apprentissage sont exploitées , Ces deux points se séparent , Devenir deux questions distinctes . La première concerne vision representationLa nature de, Si vous pouvez copier pour augmenter l'effet cv Améliorations récentes featureQualitétrick,Comme l'apprentissage comparatif、 Distillation, etc ,Sont devenus les plus grandscv Les points de pinceau supérieurs sont essentiels , Ces méthodes sont acceptables avec de l'eau , Mais pour vraiment résoudre le problème , Il faut encore explorer visual representationDans le domaine ciblelabeled data- Oui.few-shot Le problème central est que , De telles recherches ont récemment eu lieu [11-13],Mais rarement; Ce dernier concerne la façon de donner pretrained feature,Faites vite.task adaptation,Le point central est 1. Prends - le.pretrained featureL'essence de,Pour se débarrasser de ses détritus. 2. Desupport set featureEt objectifsquery feature Maximiser les informations disponibles ,Par exemple,support set Similitude intraclasse ,Ou cherchersupport featureEtquery featureCorrespondance entre, Ou chercher et utiliser à partir de l'entraînement et support set Image similaire de , Ce deuxième point peut être appelé collectivement task adaptation.

Enfin, Amway.meta-dataset,C'estbenchmark Très proche de la scène réelle ,Parmi euxmulti-domain FSLDesetting Résoudre fondamentalement l'ensemble de formation unique domain Problèmes de mauvaise généralisation , Éliminer les obstacles à la généralisation des méthodes de méta - apprentissage , Peut permettre task adaptation Approche plus naturelle 、Ça marche., Est une vraie solution possible few-shot learning Approche méthodologique .Tiens, tiens.meta-datasetL'existence d'unbias, C'est - à - dire au moment de l'essai shotEtway Généralement élevé ,Cela conduit àpartial fine-tune[14,15] Méthodes pour recréer le Jianghu , Mais après l'expérience, il a été constaté que ces méthodes 1-shotEt5-shotMauvais rendement, Est un point remarquable .

La dernière.,Crache.transductive few-shot learning, Je ne comprends vraiment pas setting Qu'est - ce que ça vaut? ,Si quelqu'un sait,Dis - moi, s'il te plaît.:)

References:

[1] ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. CVPR 2017.

[2] Crosstransformers: Spatially-aware Few-shot Transfer. NeurIPS 2020.

[3] A Broader Study of Cross-Domain Few-Shot Learning. ECCV 2020.

[4] Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples. ICLR 2020.

[5] Matching Networks for One Shot Learning. NeurIPS 2016.

[6] Rapid learning or feature reuse? towards understanding the effectiveness of MAML. ICLR 2020.

[7] A baseline for few-shot image classification. ICLR 2020.

[8] Rethinking few-shot image classification: A good embedding is all you need? ECCV 2020.

[9] Big Transfer (BiT): General Visual Representation Learning. ECCV 2020.

[10] DeepEMD: Few-Shot Image Classification with Differentiable Earth Mover’s Distance and Structured Classifiers. CVPR 2020.

[11] Interventional Few-Shot Learning. NeurIPS 2020.

[12] Powering Finetuning in Few-Shot Learning: Domain-Agnostic Bias Reduction with Selected Sampling. AAAI 2022.

[13] Z-Score Normalization, Hubness, and Few-Shot Learning. ICCV 2021.

[14] Learning a Universal Template for Few-shot Dataset Generalization. ICML 2021.

[15] Cross-domain Few-shot Learning with Task-specific Adapters. CVPR 2022.

[16] Cross Attention Network for Few-shot Classification. NeurIPS 2019.

[17] Learning Dynamic Alignment via Meta-filter for Few-shot Learning. CVPR 2021.

[18] Learning to Affiliate: Mutual Centralized Learning for Few-shot Classification. CVPR 2022.

71f70ab0afa834c668fc4d24cbe9c73e.png

Apprentissage à sec,PointOui.Trois compagnies

Mentions de copyright
Auteur de cet article [Datawhale],Réimpression s’il vous plaît apporter le lien vers l’original, merci
https://fra.chowdera.com/2022/135/202205142141485768.html

Recommandé au hasard