Concept

Double-precision floating-point format

Concepts associés (21)

Arrondir un nombre consiste à le remplacer par un autre nombre considéré comme plus simple ou plus pertinent. Ce procédé s'appelle arrondissage ou arrondissement et le nombre obtenu est un arrondi. Le résultat est moins précis, mais plus facile à employer. Il y a plusieurs façons d'arrondir. En général, on arrondit un nombre en en donnant une valeur approchée obtenue à partir de son développement décimal en réduisant le nombre de chiffres significatifs. L'arrondi peut se faire au plus proche, par excès ou par défaut.

Single-precision floating-point format

Single-precision floating-point format (sometimes called FP32 or float32) is a computer number format, usually occupying 32 bits in computer memory; it represents a wide dynamic range of numeric values by using a floating radix point. A floating-point variable can represent a wider range of numbers than a fixed-point variable of the same bit width at the cost of precision. A signed 32-bit integer variable has a maximum value of 231 − 1 = 2,147,483,647, whereas an IEEE 754 32-bit base-2 floating-point variable has a maximum value of (2 − 2−23) × 2127 ≈ 3.

Dépassement d'entier

vignette|Le vol 501 d'Ariane 5 en 1996 s'est soldé par sa destruction en raison d'un dépassement d'entier. Un dépassement d'entier (integer overflow) est, en informatique, une condition qui se produit lorsqu'une opération mathématique produit une valeur numérique supérieure à celle représentable dans l'espace de stockage disponible. Par exemple, l'ajout d'une unité au plus grand nombre pouvant être représenté entraîne un dépassement d'entier. Le dépassement d'entier porte le numéro CWE-190 dans la nomenclature Common Weakness Enumeration.

Virgule fixe

En informatique, une représentation d'un nombre en virgule fixe est un type de donnée correspondant à un nombre qui possède (en base deux ou en base dix) un nombre fixe de chiffres après la virgule. Les nombres en virgule fixe sont utiles pour représenter des quantités fractionnaires dans un format utilisant le complément à deux quand le processeur de l'ordinateur n'a aucune unité de calcul en virgule flottante ou quand une virgule fixe permet d'augmenter la vitesse d'exécution ou d'améliorer l'exactitude des calculs.

Chiffre significatif

Le nombre de chiffres significatifs indique la précision d'une mesure physique. Il s'agit des chiffres connus avec certitude ou compris dans un intervalle d'incertitude. La précision (ou l'incertitude) avec laquelle on connaît la valeur d'une grandeur dépend du mesurage (ensemble d'opérations ayant pour but de déterminer la valeur d'une grandeur). Exemple : a cinq chiffres significatifs. Le premier chiffre incertain est le 5.

Zéro signé

Le zéro signé est un zéro accompagné d'un signe. En arithmétique ordinaire, le nombre 0 n'a pas de signe, de sorte que −0, +0 et 0 sont identiques. Cependant, en informatique, certaines représentations des nombres admettent l'existence de deux zéros, souvent notés −0 (zéro négatif) et +0 (zéro positif), considérés comme égaux par les opérations de comparaison numérique mais avec des comportements différents possibles dans des opérations particulières.

IEEE 754

En informatique, l’IEEE 754 est une norme sur l'arithmétique à virgule flottante mise au point par le Institute of Electrical and Electronics Engineers. Elle est la norme la plus employée actuellement pour le calcul des nombres à virgule flottante avec les CPU et les FPU. La norme définit les formats de représentation des nombres à virgule flottante (signe, mantisse, exposant, nombres dénormalisés) et valeurs spéciales (infinis et NaN), en même temps qu’un ensemble d’opérations sur les nombres flottants.

Unit in the last place

In computer science and numerical analysis, unit in the last place or unit of least precision (ulp) is the spacing between two consecutive floating-point numbers, i.e., the value the least significant digit (rightmost digit) represents if it is 1. It is used as a measure of accuracy in numeric calculations. One definition is: In radix with precision , if , then . Another definition, suggested by John Harrison, is slightly different: is the distance between the two closest straddling floating-point numbers and (i.

Erreur d'arrondi

Une erreur d'arrondi est la différence entre la valeur approchée calculée d'un nombre et sa valeur mathématique exacte. Des erreurs d'arrondi naissent généralement lorsque des nombres exacts sont représentés dans un système incapable de les exprimer exactement. Les erreurs d'arrondi se propagent au cours des calculs avec des valeurs approchées ce qui peut augmenter l'erreur du résultat final. Dans le système décimal des erreurs d'arrondi sont engendrées, lorsqu'avec une troncature, un grand nombre (peut-être une infinité) de décimales ne sont pas prises en considération.

Virgule flottante

vignette|Comme la notation scientifique, le nombre à virgule flottante a une mantisse et un exposant. La virgule flottante est une méthode d'écriture de nombres fréquemment utilisée dans les ordinateurs, équivalente à la notation scientifique en numération binaire. Elle consiste à représenter un nombre par : un signe (égal à −1 ou 1) ; une mantisse (aussi appelée significande) ; et un exposant (entier relatif, généralement borné).

Types de donnée du langage C

Les types de donnée du langage C définissent les caractéristiques de stockage et les opérations disponibles pour chaque valeur et chaque variable d'un code source en langage C. Les types fondamentaux du langage C sont conçus pour pouvoir correspondre aux types supportés par l'architecture de processeur cible. Le langage C possède une vingtaine de types fondamentaux pour représenter des nombres naturels, entiers et réels. Le langage offre une syntaxe pour construire des types d'adresse mémoire (pointeurs) vectoriels (tableaux) et composés (structures).

X87

thumb|Micro-processeur i487SX x87 est un jeu d'instructions orienté calcul en virgule flottante faisant partie de l'architecture de microprocesseurs x86. Les processeurs proposant ce jeu d'instructions sont l'Intel 8087, 80287, 80387, 80487, AMD K6, Pentium, Athlon, Pentium 4 et Athlon 64. À partir du 80486, la plupart des processeurs x86 implémentent ce jeu d'instruction directement dans le processeur principal. Jeu d'instruction_x86#x87 : Instructions d'unité de calcul en virgule flottante MMX SSE, SSE2 C

Minifloat

In computing, minifloats are floating-point values represented with very few bits. Predictably, they are not well suited for general-purpose numerical calculations. They are used for special purposes, most often in computer graphics, where iterations are small and precision has aesthetic effects. Machine learning also uses similar formats like bfloat16. Additionally, they are frequently encountered as a pedagogical tool in computer-science courses to demonstrate the properties and structures of floating-point arithmetic and IEEE 754 numbers.

Architecture ARM

Les architectures ARM sont des architectures externes de type RISC 32 bits (ARMv1 à ARMv7) et 64 bits (ARMv8) développées par ARM Ltd depuis 1983 et introduites à partir de 1990 par Acorn Computers. L'architecture ARM est le fruit du travail de Sophie Wilson. Dotés d'une architecture relativement plus simple que d'autres familles de processeurs et faibles consommateurs d'électricité, les processeurs ARM sont aujourd'hui dominants dans le domaine de l'informatique embarquée, en particulier la téléphonie mobile et les tablettes.

Extended precision

Extended precision refers to floating-point number formats that provide greater precision than the basic floating-point formats. Extended precision formats support a basic format by minimizing roundoff and overflow errors in intermediate values of expressions on the base format. In contrast to extended precision, arbitrary-precision arithmetic refers to implementations of much larger numeric types (with a storage count that usually is not a power of two) using special software (or, rarely, hardware).

Signed number representations

In computing, signed number representations are required to encode negative numbers in binary number systems. In mathematics, negative numbers in any base are represented by prefixing them with a minus sign ("−"). However, in RAM or CPU registers, numbers are represented only as sequences of bits, without extra symbols. The four best-known methods of extending the binary numeral system to represent signed numbers are: sign–magnitude, ones' complement, two's complement, and offset binary.

Half-precision floating-point format

In computing, half precision (sometimes called FP16 or float16) is a binary floating-point computer number format that occupies 16 bits (two bytes in modern computers) in computer memory. It is intended for storage of floating-point values in applications where higher precision is not essential, in particular and neural networks. Almost all modern uses follow the IEEE 754-2008 standard, where the 16-bit base-2 format is referred to as binary16, and the exponent uses 5 bits.

Kahan summation algorithm

In numerical analysis, the Kahan summation algorithm, also known as compensated summation, significantly reduces the numerical error in the total obtained by adding a sequence of finite-precision floating-point numbers, compared to the obvious approach. This is done by keeping a separate running compensation (a variable to accumulate small errors), in effect extending the precision of the sum by the precision of the compensation variable.

Quadruple-precision floating-point format

In computing, quadruple precision (or quad precision) is a binary floating point–based computer number format that occupies 16 bytes (128 bits) with precision at least twice the 53-bit double precision. This 128-bit quadruple precision is designed not only for applications requiring results in higher than double precision, but also, as a primary function, to allow the computation of double precision results more reliably and accurately by minimising overflow and round-off errors in intermediate calculations and scratch variables.

Exponentiation

En mathématiques, l’exponentiation est une opération binaire non commutative qui étend la notion de puissance d'un nombre en algèbre. Elle se note en plaçant l'un des opérandes en exposant (d'où son nom) de l'autre, appelé base. Pour des exposants rationnels, l'exponentiation est définie algébriquement de façon à satisfaire la relation : Pour des exposants réels, complexes ou matriciels, la définition passe en général par l'utilisation de la fonction exponentielle, à condition que la base admette un logarithme : L'exponentiation ensembliste est définie à l'aide des ensembles de fonctions : Elle permet de définir l'exponentiation pour les cardinaux associés.