Publication

Weak teachers: assisted specification of discrete choice models using ensemble learning algorithms

Concepts associés (26)

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Automated machine learning

Automated machine learning (AutoML) is the process of automating the tasks of applying machine learning to real-world problems. AutoML potentially includes every stage from beginning with a raw dataset to building a machine learning model ready for deployment. AutoML was proposed as an artificial intelligence-based solution to the growing challenge of applying machine learning. The high degree of automation in AutoML aims to allow non-experts to make use of machine learning models and techniques without requiring them to become experts in machine learning.

Apprentissage ensembliste

In statistics and machine learning, ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone. Unlike a statistical ensemble in statistical mechanics, which is usually infinite, a machine learning ensemble consists of only a concrete finite set of alternative models, but typically allows for much more flexible structure to exist among those alternatives.

Régression linéaire

En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.

Boosting

Le boosting est un domaine de l'apprentissage automatique (branche de l'intelligence artificielle). C'est un principe qui regroupe de nombreux algorithmes qui s'appuient sur des ensembles de classifieurs binaires : le boosting optimise leurs performances. Le principe est issu de la combinaison de classifieurs (appelés également hypothèses). Par itérations successives, la connaissance d'un classifieur faible - weak classifier - est ajoutée au classifieur final - strong classifier.

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Surapprentissage

vignette|300x300px|La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir. En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données.

Arbre de décision (apprentissage)

L’apprentissage par arbre de décision désigne une méthode basée sur l'utilisation d'un arbre de décision comme modèle prédictif. On l'utilise notamment en fouille de données et en apprentissage automatique. Dans ces structures d'arbre, les feuilles représentent les valeurs de la variable-cible et les embranchements correspondent à des combinaisons de variables d'entrée qui mènent à ces valeurs. En analyse de décision, un arbre de décision peut être utilisé pour représenter de manière explicite les décisions réalisées et les processus qui les amènent.

Algorithme d'apprentissage incrémental

En informatique, un algorithme d'apprentissage incrémental ou incrémentiel est un algorithme d'apprentissage qui a la particularité d'être online, c'est-à-dire qui apprend à partir de données reçues au fur et à mesure du temps. À chaque incrément il reçoit des données d'entrées et un résultat, l'algorithme calcule alors une amélioration du calcul fait pour prédire le résultat à partir des données d'entrées.

Utilité (économie)

En économie, l'utilité est une qualité d'un objet par laquelle est possible une mesure relative au bien-être ou de la satisfaction présente par la consommation, ou le profit trouvable d'un bien ou d'un nombre de services. Elle est liée mais distincte au besoin d'un consommateur. Ce concept est utilisé dans les fonctions d'utilité, fonctions d'utilité sociale, optimum au sens de Wilfredo Pareto, boîtes d'Edgeworth. C'est un concept central de l'économie du bien-être. À l'origine, la notion d'utilité est essentiellement liée à la prise de risque.

Classement automatique

vignette|La fonction 1-x^2-2exp(-100x^2) (rouge) et les valeurs déplacées par un bruit de 0,1*N(0,1). Le classement automatique ou classification supervisée est la catégorisation algorithmique d'objets. Elle consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se fondant sur des données statistiques. Elle fait couramment appel à l'apprentissage automatique et est largement utilisée en reconnaissance de formes. En français, le classement fait référence à l'action de classer donc de « ranger dans une classe ».

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Algèbre linéaire

vignette|R3 est un espace vectoriel de dimension 3. Droites et plans qui passent par l'origine sont des sous-espaces vectoriels. L’algèbre linéaire est la branche des mathématiques qui s'intéresse aux espaces vectoriels et aux transformations linéaires, formalisation générale des théories des systèmes d'équations linéaires. L'algèbre linéaire est initiée dans son principe par le mathématicien perse Al-Khwârizmî qui s'est inspiré des textes de mathématiques indiens et qui a complété les travaux de l'école grecque, laquelle continuera de se développer des siècles durant.

Bootstrap aggregating

Le bootstrap aggregating, également appelé bagging (de bootstrap aggregating), est un meta-algorithme d'apprentissage ensembliste conçu pour améliorer la stabilité et la précision des algorithmes d'apprentissage automatique. Il réduit la variance et permet d'éviter le surapprentissage. Bien qu'il soit généralement appliqué aux méthodes d'arbres de décision, il peut être utilisé avec n'importe quel type de méthode. Le bootstrap aggregating est un cas particulier de l'approche d'apprentissage ensembliste.

Classification en classes multiples

In machine learning and statistical classification, multiclass classification or multinomial classification is the problem of classifying instances into one of three or more classes (classifying instances into one of two classes is called binary classification). While many classification algorithms (notably multinomial logistic regression) naturally permit the use of more than two classes, some are by nature binary algorithms; these can, however, be turned into multinomial classifiers by a variety of strategies.

Isoelastic utility

In economics, the isoelastic function for utility, also known as the isoelastic utility function, or power utility function, is used to express utility in terms of consumption or some other economic variable that a decision-maker is concerned with. The isoelastic utility function is a special case of hyperbolic absolute risk aversion and at the same time is the only class of utility functions with constant relative risk aversion, which is why it is also called the CRRA utility function.

Avantage compétitif

Un avantage compétitif ou concurrentiel est tout ce qui permet à une entreprise de surpasser ses concurrents. Il est en cela différent du facteur clé de succès qui est commun à toutes les entreprises présentes sur le marché. Il a été théorisé par Michael Porter en 1985 à travers la rédaction de son ouvrage L'avantage concurrentiel. L'auteur considère que les deux facteurs qui déterminent ce dernier sont : la maîtrise des coûts et l'innovation au sens de Joseph Schumpeter.

Modèle (économie)

Un modèle est, en économie, une représentation simplifiée de la réalité économique ou d'une partie de celle-ci. Un modèle économique se base sur des hypothèses économiques et a recours au langage mathématique. L'économie se fonde sur les modèles pour estimer l'évolution d'un système économique, comme la croissance, le commerce international, etc. La science économique vise à expliquer les mécanismes à l’œuvre dans un système économique, ou dans une partie de ce système.

Numerical linear algebra

Numerical linear algebra, sometimes called applied linear algebra, is the study of how matrix operations can be used to create computer algorithms which efficiently and accurately provide approximate answers to questions in continuous mathematics. It is a subfield of numerical analysis, and a type of linear algebra. Computers use floating-point arithmetic and cannot exactly represent irrational data, so when a computer algorithm is applied to a matrix of data, it can sometimes increase the difference between a number stored in the computer and the true number that it is an approximation of.

Processus

Le mot processus vient du latin pro (au sens de « vers l'avant ») et de cessus, cedere (« aller, marcher ») ce qui signifie donc aller vers l'avant, avancer. Ce mot est également à l'origine du mot procédure qui désigne plutôt la méthode d'organisation, la stratégie du changement. En anatomie, un processus est une partie proéminente d'un organe ou un relief osseux aussi appelé apophyse. En écologie et biologie, les processus environnementaux, ou processus écosystémiques, sont des mécanismes ou des événements reliant les organismes à leur environnement.