Qu’est-Ce Que Le Surajustement Dans L’Apprentissage Automatique Et Comment L’Éviter?

Construire un modèle d’apprentissage automatique ne consiste pas seulement à alimenter les données, il y a beaucoup de lacunes qui affectent la précision de tout modèle. Le surajustement dans l’apprentissage automatique est l’une de ces lacunes dans l’apprentissage automatique qui entrave la précision ainsi que les performances du modèle. Les sujets suivants sont abordés dans cet article:

  • Qu’est-ce que le surajustement dans l’apprentissage automatique?
  • Exemples De Surajustement
  • Signal vs Bruit
  • Qu’est-ce que le Sousajustement?
  • Comment détecter le surajustement?
  • Comment Éviter Le Surajustement Dans L’Apprentissage Automatique
  • Quelle est La Bonté De L’Ajustement?
  • Le compromis entre Biais Et Variance

Qu’est-ce que Le Surajustement Dans L’Apprentissage Automatique?

On dit qu’un modèle statistique est suréquipé lorsque nous lui fournissons beaucoup plus de données que nécessaire. Pour le rendre compréhensible, imaginez que vous essayiez de vous adapter à des vêtements surdimensionnés.

surajustement dans l'apprentissage automatique - edureka

Lorsqu’un modèle adapte plus de données qu’il n’en a réellement besoin, il commence à capter les données bruyantes et les valeurs inexactes dans les données. En conséquence, l’efficacité et la précision du modèle diminuent. Jetons un coup d’œil à quelques exemples de surajustement afin de comprendre comment cela se produit réellement.

Exemples de surajustement

Exemple 1

Si nous prenons un exemple de régression linéaire simple, l’entraînement des données consiste à déterminer le coût minimum entre la ligne de meilleur ajustement et les points de données. Il passe par un certain nombre d’itérations pour trouver le meilleur ajustement optimal, en minimisant le coût. C’est là que le surajustement entre en jeu.

régression linéaire - surajustement en apprentissage automatique - edureka

La ligne vue dans l’image ci-dessus peut donner un résultat très efficace pour un nouveau point de données. En cas de surajustement, lorsque nous exécutons l’algorithme d’entraînement sur l’ensemble de données, nous permettons au coût de réduire à chaque nombre d’itérations.

L’exécution de cet algorithme pendant trop longtemps entraînera un coût réduit, mais il s’adaptera également aux données bruyantes de l’ensemble de données. Le résultat ressemblerait à quelque chose dans le graphique ci-dessous.

surajustement dans l'apprentissage automatique -edureka

Cela peut sembler efficace mais ne l’est pas vraiment. L’objectif principal d’un algorithme tel que la régression linéaire est de trouver une tendance dominante et d’adapter les points de données en conséquence. Mais dans ce cas, la ligne correspond à tous les points de données, ce qui n’est pas pertinent pour l’efficacité du modèle à prédire les résultats optimaux pour les nouveaux points de données d’entrée.

Considérons maintenant un exemple plus descriptif à l’aide d’un énoncé de problème.

Exemple 2

Énoncé du problème: Considérons que nous voulons prédire si un joueur de football décrochera une place dans un club de football de niveau 1 en fonction de ses performances actuelles dans la ligue de niveau 2.

Imaginez maintenant, nous nous entraînons et adaptons le modèle avec 10 000 de ces joueurs avec des résultats. Lorsque nous essayons de prédire le résultat sur l’ensemble de données d’origine, disons que nous avons une précision de 99%. Mais la précision sur un ensemble de données différent se situe autour de 50%. Cela signifie que le modèle ne se généralise pas bien à partir de nos données d’entraînement et de données invisibles.

Voici à quoi ressemble le surajustement. C’est un problème très courant dans l’apprentissage automatique et même dans la science des données. Maintenant, comprenons le signal et le bruit.

Signal vs Bruit

Dans la modélisation prédictive, le signal fait référence au modèle sous-jacent véritable qui aide le modèle à apprendre les données. D’autre part, le bruit est des données non pertinentes et aléatoires dans l’ensemble de données. Pour comprendre le concept de bruit et de signal, prenons un exemple concret.

Supposons que nous voulions modéliser l’âge par rapport à l’alphabétisation chez les adultes. Si nous échantillonnons une très grande partie de la population, nous trouverons une relation claire. C’est le signal, alors que le bruit interfère avec le signal. Si nous faisons la même chose sur une population locale, la relation deviendra boueuse. Il serait affecté par des valeurs aberrantes et le hasard, par exemple, un adulte est allé à l’école tôt ou un adulte n’a pas les moyens de s’instruire, etc.

Parler de bruit et de signal en termes d’apprentissage automatique, un bon algorithme d’apprentissage automatique séparera automatiquement les signaux du bruit. Si l’algorithme est trop complexe ou inefficace, il peut également apprendre le bruit. Par conséquent, surajuster le modèle. Comprenons également le sous-ajustement dans l’apprentissage automatique.

Qu’est-ce que le sous-ajustement?

Afin d’éviter un surajustement, nous pourrions arrêter l’entraînement plus tôt. Mais cela pourrait également conduire le modèle à ne pas être en mesure d’apprendre suffisamment des données de formation, qu’il pourrait avoir du mal à saisir la tendance dominante. C’est ce qu’on appelle le sous-ajustement. Le résultat est le même que le surajustement, l’inefficacité dans la prédiction des résultats.

sous-ajustement - surajustement dans l'apprentissage automatique - edureka

Maintenant que nous avons compris ce qu’est vraiment le sous-ajustement et le surajustement dans l’apprentissage automatique, essayons de comprendre comment nous pouvons détecter le surajustement dans l’Apprentissage automatique.

Comment Détecter Le Surajustement ?

Le principal défi du surajustement est d’estimer la précision des performances de notre modèle avec de nouvelles données. Nous ne serions pas en mesure d’estimer la précision tant que nous ne l’avons pas réellement testée.

Pour résoudre ce problème, nous pouvons diviser l’ensemble de données initiales en ensembles de données d’entraînement et de test distincts. Avec cette technique, nous pouvons réellement estimer la performance de notre modèle avec les nouvelles données.

Laissez-nous comprendre cela avec un exemple, imaginez que nous obtenions une précision de plus de 90% sur l’ensemble d’entraînement et une précision de plus de 50% sur l’ensemble d’essai. Ensuite, automatiquement, ce serait un drapeau rouge pour le modèle.

Une autre façon de détecter le surajustement est de commencer par un modèle simpliste qui servira de référence.

Avec cette approche, si vous essayez des algorithmes plus complexes, vous serez en mesure de comprendre si la complexité supplémentaire vaut même la peine pour le modèle ou non. Il est également connu sous le nom de test de rasoir d’Occam, il choisit essentiellement le modèle simpliste en cas de performances comparables dans le cas de deux modèles. Bien que la détection du surajustement soit une bonne pratique, il existe également plusieurs techniques pour prévenir le surajustement. Jetons un coup d’œil à la façon dont nous pouvons empêcher le surajustement dans l’apprentissage automatique.

Comment Éviter Le Surajustement Dans L’Apprentissage Automatique?

Il existe plusieurs techniques pour éviter le surajustement dans l’apprentissage automatique énumérées ci-dessous.

  1. Validation croisée

  2. Formation Avec Plus De Données

  3. Suppression Des Caractéristiques

  4. Arrêt Précoce

  5. Régularisation

  6. Ensemblage

1. La validation croisée

L’une des fonctionnalités les plus puissantes pour éviter / prévenir le surajustement est la validation croisée. L’idée derrière cela est d’utiliser les données de formation initiale pour générer des mini-fractionnements de test de train, puis d’utiliser ces fractionnements pour ajuster votre modèle.

Dans une validation k-fold standard, les données sont partitionnées en k-sous-ensembles également appelés plis. Après cela, l’algorithme est entraîné de manière itérative sur les plis k-1 tout en utilisant les plis restants comme jeu de test, également connu sous le nom de pli de retenue.

validation croisée - surajustement dans l'apprentissage automatique - edurekaLa validation croisée nous aide à régler les hyperparamètres avec uniquement l’ensemble d’entraînement d’origine. Il conserve essentiellement l’ensemble de test séparément en tant que véritable ensemble de données invisibles pour la sélection du modèle final. Par conséquent, en évitant complètement le surajustement.

2. Formation Avec plus de données

Cette technique peut ne pas fonctionner à chaque fois, comme nous l’avons également discuté dans l’exemple ci-dessus, où la formation avec une quantité importante de population aide le modèle. Cela aide essentiellement le modèle à mieux identifier le signal.

Mais dans certains cas, l’augmentation des données peut également signifier l’apport de plus de bruit au modèle. Lorsque nous entraînons le modèle avec plus de données, nous devons nous assurer que les données sont propres et exemptes de hasard et d’incohérences.

3. Suppression des fonctionnalités

Bien que certains algorithmes aient une sélection automatique des fonctionnalités. Pour un nombre important de ceux qui n’ont pas de sélection de fonctionnalités intégrée, nous pouvons supprimer manuellement quelques fonctionnalités non pertinentes des fonctionnalités d’entrée pour améliorer la généralisation.

Une façon de le faire est de tirer une conclusion sur la façon dont une caractéristique s’intègre dans le modèle. C’est assez similaire au débogage du code ligne par ligne.

Dans le cas où une fonctionnalité est incapable d’expliquer la pertinence dans le modèle, nous pouvons simplement identifier ces fonctionnalités. Nous pouvons même utiliser quelques heuristiques de sélection de fonctionnalités pour un bon point de départ.

4. Arrêt anticipé

Lorsque le modèle s’entraîne, vous pouvez réellement mesurer les performances du modèle en fonction de chaque itération. Nous pouvons le faire jusqu’à un moment où les itérations améliorent les performances du modèle. Après cela, le modèle surfiche les données d’apprentissage à mesure que la généralisation s’affaiblit après chaque itération.

arrêt précoce - surajustement dans l'apprentissage automatique - edureka

Donc, fondamentalement, un arrêt précoce signifie arrêter le processus d’entraînement avant que le modèle ne passe le point où le modèle commence à surajuster les données d’entraînement. Cette technique est principalement utilisée en apprentissage profond.

5. Régularisation

Cela signifie essentiellement, forcer artificiellement votre modèle à être plus simple en utilisant un plus large éventail de techniques. Cela dépend totalement du type d’apprenant que nous utilisons. Par exemple, nous pouvons élaguer un arbre de décision, utiliser un abandon sur un réseau de neurones ou ajouter un paramètre de pénalité à la fonction de coût dans la régression.

Assez souvent, la régularisation est également un hyperparamètre. Cela signifie qu’il peut également être réglé par validation croisée.

6. Ensembling

Cette technique combine essentiellement des prédictions de différents modèles d’apprentissage automatique. Deux des méthodes d’ensemblage les plus courantes sont énumérées ci-dessous :

  • Tentatives d’ensachage pour réduire le risque de sur-ajustement des modèles

  • Tentatives d’amplification pour améliorer la flexibilité prédictive de modèles plus simples

Même s’il s’agit de deux méthodes d’ensemble, l’approche part totalement de directions opposées. L’ensachage utilise des modèles de base complexes et tente de lisser leurs prédictions, tandis que l’ensachage utilise des modèles de base simples et tente d’augmenter sa complexité globale.

Quelle est la Qualité De L’Ajustement?

Dans la modélisation statistique, la qualité de l’ajustement fait référence à la mesure dans laquelle les résultats ou les valeurs prédites correspondent aux valeurs observées ou vraies. Un modèle qui a appris le bruit au lieu du signal est suréquipé car il s’adaptera à l’ensemble de données d’entraînement, mais aura une efficacité moindre avec le nouvel ensemble de données.

Le Compromis Entre Le Biais et La Variance

La variance et le biais sont des formes d’erreur de prédiction dans l’Apprentissage automatique. Le compromis entre une variance élevée et un biais élevé est un concept très important en statistique et en apprentissage automatique. C’est un concept qui affecte tous les algorithmes d’apprentissage automatique supervisés.

Le compromis biais-variance a un impact très significatif sur la détermination de la complexité, du sous-ajustement et du surajustement de tout modèle d’apprentissage automatique.

Biais

Ce n’est rien d’autre que la différence entre les valeurs prédites et les valeurs réelles ou vraies du modèle. Il n’est pas toujours facile pour le modèle d’apprendre à partir de signaux plutôt complexes.

Imaginons l’ajustement d’une régression linéaire à un modèle avec des données non linéaires. Quelle que soit l’efficacité avec laquelle le modèle apprend les observations, il ne modélisera pas efficacement les courbes. Il est connu sous le nom de sous-ajustement.

Variance

Elle fait référence à la sensibilité du modèle à des ensembles spécifiques dans les données d’apprentissage. Un algorithme de variance élevée produira un modèle bizarre qui est radicalement différent de l’ensemble d’entraînement.

Imaginez un algorithme qui s’adapte au modèle sans contrainte et super-flexible, il apprendra également du bruit dans l’ensemble d’entraînement provoquant un surajustement.

Compromis biais-variance

Un algorithme d’apprentissage automatique ne peut pas être perçu comme une méthode unique d’entraînement du modèle, il s’agit plutôt d’un processus répétitif.

Les algorithmes à faible variance – biais élevé sont moins complexes, avec une structure simple et rigide.

  • Ils formeront les modèles qui sont cohérents, mais inexacts en moyenne.

  • Ceux-ci incluent des algorithmes linéaires ou paramétriques, tels que la régression, les Bayes naïves, etc.

Les algorithmes à forte variance et à faible biais ont tendance à être plus complexes, avec une structure flexible.

  • Ils formeront les modèles qui sont incohérents mais précis en moyenne.

  • Ceux-ci incluent des algorithmes non linéaires ou non paramétriques tels que des arbres de décision, le plus proche voisin, etc.

Cela nous amène à la fin de cet article où nous avons appris le surajustement en apprentissage automatique et sur diverses techniques pour l’éviter. J’espère que vous êtes clair avec tout ce qui a été partagé avec vous dans ce tutoriel.

Si vous avez trouvé cet article sur le « surajustement dans l’apprentissage Automatique” pertinent, consultez la formation de certification Edureka Machine Learning, une entreprise d’apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier.

Nous sommes là pour vous aider à chaque étape de votre parcours et proposer un programme conçu pour les étudiants et les professionnels qui souhaitent devenir ingénieur en apprentissage automatique. Le cours est conçu pour vous donner une longueur d’avance dans la programmation Python et vous former aux concepts Python de base et avancés ainsi qu’à divers algorithmes d’apprentissage automatique tels que SVM, Arbre de décision, etc.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.