L’apprentissage automatique est à la base des connaissances actuelles sur les clients, les produits, les coûts et les revenus, qui apprennent à partir des données fournies à ses algorithmes.
Certains des exemples les plus courants d’apprentissage automatique sont les algorithmes de Netflix qui donnent des suggestions de films en fonction des films que vous avez regardés dans le passé ou les algorithmes d’Amazon qui recommandent des produits en fonction des autres clients achetés auparavant.
La sélection d’un modèle d’algorithme typique peut être décidée en gros sur les questions suivantes:
Combien de données avez-vous et est-ce continu?
S’agit-il d’un problème de classification ou de régression?
Variables prédéfinies (étiquetées), non étiquetées ou mixtes?
Classe de données asymétrique?
Quel est l’objectif ?
Prédire ou classer ?
Interprétation des résultats facile ou difficile ?
Algorithmes les plus utilisés pour divers problèmes d’entreprise :
Arbres de décision : Les résultats des arbres de décision sont très faciles à comprendre, même pour les personnes n’ayant pas de formation analytique. Il n’est pas nécessaire d’avoir des connaissances statistiques pour les lire et les interpréter. C’est le moyen le plus rapide d’identifier les variables les plus significatives et la relation entre deux ou plusieurs variables. Les arbres de décision sont d’excellents outils pour vous aider à choisir entre plusieurs lignes d’action. Les arbres de décision les plus populaires sont CART, CHAID et C4.5, etc.
- Décisions d’investissement
- Retournement de la clientèle
- Par défaut de paiement des banques
- Décisions de construction ou d’achat
- Décisions de fusion d’entreprises
- Qualifications des prospects
Régression logistique : La régression logistique est un moyen statistique puissant de modéliser un résultat binomial avec une ou plusieurs variables explicatives. Elle mesure la relation entre la variable dépendante catégorielle et une ou plusieurs variables indépendantes en estimant les probabilités à l’aide d’une fonction logistique, qui est la distribution logistique cumulative.
- Prédire le taux de désabonnement des clients
- Crédit Scoring & Détection des fraudes
- Mesurer l’efficacité des campagnes marketing
Support Vector Machines : Support Vector Machine (SVM) est une technique d’apprentissage automatique supervisée qui est largement utilisée dans les problèmes de reconnaissance des formes et de classification – lorsque vos données ont exactement deux classes. En général, SVM peut être utilisé dans des applications du monde réel telles que :
- détecter les personnes atteintes de maladies courantes comme le diabète.
- reconnaissance de caractères manuscrits
- catégorisation de textes – articles d’actualité par sujets
- prédiction du cours de la bourse
Naive Bayes : C’est une technique de classification basée sur le théorème de Bayes et très facile à construire et particulièrement utile pour les très grands ensembles de données. En plus de la simplicité, Naive Bayes est connu pour surpasser même les méthodes de classification très sophistiquées. Bayes naïf est également un bon choix lorsque les ressources en CPU et en mémoire sont un facteur limitant. En général, Naive Bayes peut être utilisé dans des applications du monde réel telles que :
- L’analyse des sentiments et la classification de textes
- Systèmes de recommandation comme Netflix – voir Netflix sur Switch – Amazon
- Pour marquer un email comme spam ou non
- Secondaire comme Facebook la reconnaissance des visages
Apriori : Cet algorithme génère des règles d’association à partir d’un ensemble de données donné. Une règle d’association implique que si un élément A se produit, alors l’élément B se produit également avec une certaine probabilité. En général, Apriori peut être utilisé dans des applications du monde réel telles que :
- L’analyse du panier de la ménagère comme amazon – produits achetés ensemble
- Fonctionnalité complète automatique comme Google pour fournir des mots qui vont ensemble
- Identifier les médicaments et leurs effets sur les patients
Random Forest : est un ensemble d’arbres de décision. Il peut résoudre à la fois les problèmes de régression et de classification avec de grands ensembles de données. Il permet également d’identifier les variables les plus significatives parmi des milliers de variables d’entrée. En général, Random Forest peut être utilisé dans des applications du monde réel telles que :
- Prédire les patients à haut risque
- Prédire les défaillances de pièces dans la fabrication
- Prédire les mauvais payeurs de prêts
La forme la plus puissante d’apprentissage automatique utilisée aujourd’hui, est appelée « Deep Learning ». À l’ère de la transformation numérique, la plupart des entreprises exploiteront les algorithmes d’apprentissage automatique pour leurs fonctions opérationnelles et en contact avec la clientèle.