Weak supervisionWeak supervision, also called semi-supervised learning, is a paradigm in machine learning, the relevance and notability of which increased with the advent of large language models due to large amount of data required to train them. It is characterized by using a combination of a small amount of human-labeled data (exclusively used in more expensive and time-consuming supervised learning paradigm), followed by a large amount of unlabeled data (used exclusively in unsupervised learning paradigm).
Apprentissage non superviséDans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées (par exemple étiquetées comme « balle » ou « poisson »). Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
PrécipitationsLes précipitations désignent toutes les formes de l'eau à l'état liquide ou solide provenant de l'atmosphère. Ces hydrométéores (cristaux de glace ou gouttelettes d'eau), ayant été soumis à des processus de condensation et d'agrégation à l'intérieur des nuages, sont devenus trop lourds pour demeurer en suspension dans l'atmosphère et tombent au sol ou s'évaporent en virga avant de l'atteindre. Les précipitations se caractérisent par trois principaux paramètres : leur volume, leur intensité et leur fréquence qui varient selon les lieux et les périodes (jours, mois ou années).
Apprentissage superviséL'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Regroupement hiérarchiqueDans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.
Radar météorologiqueUn radar météorologique est un type de radar utilisé en météorologie pour repérer les précipitations, calculer leur déplacement et déterminer leur type (pluie, neige, grêle, etc.). La structure tridimensionnelle des données obtenues permet également d'inférer les mouvements des précipitations dans les nuages et ainsi de repérer ceux qui pourraient causer des dommages. Enfin, en se servant des précipitations comme traceurs, on peut en déduire la direction radiale et la vitesse des vents dans la basse atmosphère.
Determining the number of clusters in a data setDetermining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.
Détection d'anomaliesDans l'exploration de données, la détection d'anomalies (en anglais, anomaly detection ou outlier detection) est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des suspicions en différant de manière significative de la majorité des autres données. Généralement, les anomalies indiquent un problème tel qu'une fraude bancaire, un défaut structurel, un problème médical ou une erreur dans un texte. Les anomalies sont également appelées des valeurs aberrantes, du bruit, des écarts ou des exceptions.
Désambiguïsation lexicaleLa désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Inférence statistiquevignette|Illustration des 4 principales étapes de l'inférence statistique L'inférence statistique est l'ensemble des techniques permettant d'induire les caractéristiques d'un groupe général (la population) à partir de celles d'un groupe particulier (l'échantillon), en fournissant une mesure de la certitude de la prédiction : la probabilité d'erreur. Strictement, l'inférence s'applique à l'ensemble des membres (pris comme un tout) de la population représentée par l'échantillon, et non pas à tel ou tel membre particulier de cette population.
Classement automatiquevignette|La fonction 1-x^2-2exp(-100x^2) (rouge) et les valeurs déplacées par un bruit de 0,1*N(0,1). Le classement automatique ou classification supervisée est la catégorisation algorithmique d'objets. Elle consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se fondant sur des données statistiques. Elle fait couramment appel à l'apprentissage automatique et est largement utilisée en reconnaissance de formes. En français, le classement fait référence à l'action de classer donc de « ranger dans une classe ».
Atlas international des nuagesvignette|Photo de cirrus similaire à celle qui ornait la première édition de l'Atlas. L’Atlas international des nuages (ou plus simplement Atlas des nuages) est un ouvrage consacré aux nuages, publié pour la première fois en 1896. Ses objectifs initiaux sont d'aider à la formation des météorologistes et de promouvoir un vocabulaire plus cohérent pour la description des nuages. La première édition comprend des planches de photographies en couleurs, ce qui était alors une technologie nouvelle.
RadarLe radar (acronyme issu de l'anglais dio etection nd anging) est un système qui utilise les ondes électromagnétiques pour détecter la présence et déterminer la position ainsi que la vitesse d'objets tels que les avions, les bateaux, ou la pluie. Les ondes envoyées par l'émetteur sont réfléchies par la cible, et les signaux de retour (appelés écho radar ou écho-radar) sont captés et analysés par le récepteur, souvent situé au même endroit que l'émetteur.
Statistical mechanicsIn physics, statistical mechanics is a mathematical framework that applies statistical methods and probability theory to large assemblies of microscopic entities. It does not assume or postulate any natural laws, but explains the macroscopic behavior of nature from the behavior of such ensembles. Sometimes called statistical physics or statistical thermodynamics, its applications include many problems in the fields of physics, biology, chemistry, and neuroscience.
Test statistiqueEn statistiques, un test, ou test d'hypothèse, est une procédure de décision entre deux hypothèses. Il s'agit d'une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique, appelée hypothèse nulle, en fonction d'un échantillon de données. Il s'agit de statistique inférentielle : à partir de calculs réalisés sur des données observées, on émet des conclusions sur la population, en leur rattachant des risques d'être erronées. Hypothèse nulle L'hypothèse nulle notée H est celle que l'on considère vraie a priori.
Radar à synthèse d'ouverturethumb|upright=1.5|Image prise par un radar à synthèse d'ouverture, monté sur satellite, de l'île de Tenerife aux îles Canaries, montrant les détails géographiques et la végétation en fausses couleurs. Un radar à synthèse d'ouverture (RSO) est un qui permet d'obtenir des images en deux dimensions ou des reconstitutions tridimensionnelles d'objets visés, tels des paysages. Pour cela, il effectue un traitement des données reçues afin d'améliorer la résolution en azimut. Le traitement effectué permet d'affiner l'ouverture de l'antenne.
Logique floueLa logique floue (fuzzy logic, en anglais) est une logique polyvalente où les valeurs de vérité des variables — au lieu d'être vrai ou faux — sont des réels entre 0 et 1. En ce sens, elle étend la logique booléenne classique avec des . Elle consiste à tenir compte de divers facteurs numériques pour qu'on souhaite acceptable.
Amas stellaireUn amas stellaire est une concentration locale d'étoiles d'origine commune et liées entre elles par la gravitation, dans un espace dont les dimensions peuvent atteindre 200 pc. Ces objets sont classés en plusieurs familles selon leur aspect ; ce sont, par compacité croissante : les associations stellaires, les amas ouverts et les amas globulaires. Les amas stellaires se maintiennent par l'attraction gravitationnelle mutuelle de leurs membres.