Concept

Big data

Concepts associés (32)

Data sharing is the practice of making data used for scholarly research available to other investigators. Many funding agencies, institutions, and publication venues have policies regarding data sharing because transparency and openness are considered by many to be part of the scientific method. A number of funding agencies and science journals require authors of peer-reviewed papers to share any supplemental information (raw data, statistical methods or source code) necessary to understand, develop or reproduce published research.

Qualité des données

La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran). De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent. Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.

Informatique décisionnelle

L’informatique décisionnelle (en anglais business intelligence (BI) ou decision support system (DSS)) est l'informatique à l'usage des décideurs et des dirigeants d'entreprises. Elle désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de l’activité traitée.

Teradata

Teradata Corporation est une entreprise technologique spécialisée dans les logiciels d'analyse de bases de données et de Big Data, ainsi que le conseil stratégique en informatique. La société a été fondée en 1979 à Brentwood, en Californie, sur la base d'une collaboration entre des chercheurs de Caltech et de Citibank Advanced Technology Group, et son siège social se trouve à San Diego, en Californie. Teradata développe des logiciels d'entreprise pour les bases de données et l'analyse de données et les propose sous forme d'abonnement.

Amazon Web Services

Amazon Web Services (AWS) est une division du groupe américain de commerce électronique Amazon, spécialisée dans les services de cloud computing à la demande pour les entreprises et particuliers. En 2020, AWS a généré 45 milliards de dollars des 386 milliards de dollars du chiffre d'affaires (net sales) monde d'Amazon, soit 11.5%. Lancé officiellement en 2006 par Andy Jassy, Amazon Web Services fournit des services en ligne à d'autres sites internet ou applications clientes.

Informations non structurées

Les informations non structurées ou données non structurées sont des données représentées ou stockées sans format prédéfini. Ces informations sont toujours destinées à des humains. Elles sont typiquement constituées de documents textes ou multimédias, mais peuvent également contenir des dates, des nombres et des faits. Cette absence de format entraîne des irrégularités et des ambiguïtés qui peuvent rendre difficile la compréhension des données, contrairement au cas des données stockées dans des tableurs ou des bases de données par exemple, qui sont des informations structurées.

Science des données

La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.

Analyse prédictive

L'analyse (ou logique) prédictive englobe une variété de techniques issues des statistiques, d'extraction de connaissances à partir de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des événements futurs. Dans le monde des affaires, des modèles prédictifs exploitent des schémas découverts à l'intérieur des ensembles de données historiques et transactionnelles pour identifier les risques et les opportunités.

Consolidation informatique

La consolidation est en informatique le regroupement cohérent de données. Elle concerne généralement des données organisées logiquement ou liées entre elles. Plus spécifiquement pour les tableurs, il s’agit du regroupement de plusieurs tableaux issus de feuilles différentes (les feuilles sont des composantes des tableurs) voire de classeurs différents. La consolidation de données consiste à rassembler plusieurs données semblables afin d’obtenir un rapport plus facile à consulter que l’information brute présente sur le serveur, avec le moins de perte d’information possible.

Analytics

Analytics is the systematic computational analysis of data or statistics. It is used for the discovery, interpretation, and communication of meaningful patterns in data. It also entails applying data patterns toward effective decision-making. It can be valuable in areas rich with recorded information; analytics relies on the simultaneous application of statistics, computer programming, and operations research to quantify performance. Organizations may apply analytics to business data to describe, predict, and improve business performance.

Visualisation de données

vignette|upright=2|Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, par Charles Minard, 1869. La visualisation des données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques qualitatives et surtout quantitatives afin de montrer les liens entre des ensembles de ces données. Cette fait partie de la science des données.

Microsoft Azure

Microsoft Azure (Windows Azure jusqu’en 2014) est la plate-forme applicative en nuage de Microsoft. Son nom évoque le « cloud computing », ou informatique en nuage (l'externalisation des ressources informatiques d'une entreprise vers des datacenters distants). Il s'agit d'une offre d'hébergement (applications et données) et de services (workflow, stockage et synchronisation des données, bus de messages, contacts...). Un ensemble d'API permet d'utiliser et d'accéder à cette plate-forme et aux services associés.

IBM

, connue sous le sigle IBM, est une entreprise multinationale américaine présente dans les domaines du matériel informatique, du logiciel et des services informatiques. La société est née le de la fusion de la Computing Scale Company et de la Tabulating Machine Company sous le nom de Computing Tabulating Recording Company (CTR). Celle-ci a changé de nom pour devenir International Business Machines Corporation le . On lui prête le surnom de Big Blue en référence au bleu sombre, couleur longtemps associée à l’entreprise.

Hadoop

Hadoop est un framework libre et open source écrit en Java destiné à faciliter la création d'applications distribuées (au niveau du stockage des données et de leur traitement) et échelonnables (scalables) permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Ainsi chaque nœud est constitué de machines standard regroupées en grappe. Tous les modules de Hadoop sont conçus selon l'idée que les pannes matérielles sont fréquentes et qu'en conséquence elles doivent être gérées automatiquement par le framework.

Donnée

Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.

PRISM (programme de surveillance)

vignette|Logo de PRISM. PRISM (également appelé US-984XN), est un programme américain de surveillance électronique par la collecte de renseignements à partir d'Internet et d'autres fournisseurs de services électroniques. Ce programme classé, relevant de la National Security Agency (NSA), prévoit le ciblage de personnes vivant hors des États-Unis. PRISM est supervisé par la United States Foreign Intelligence Surveillance Court (FISC) conformément au FISA Amendments Act of 2008 (FISA).

Analyse des données

L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.

Dossier patient informatisé

Un dossier patient informatisé est un dossier informatique rassemblant les données médicales de patients. Le terme désigne également un logiciel dans lequel les agents hospitaliers vont accéder aux informations contenus dans le dossier des patients (exemple : Sillage). En France, le Dossier médical partagé (DMP) est un projet de dossier patient informatisé qui a commencé à être opérationnel en 2011. Il est intégré à partir de 2021 au nouveau service Mon espace santé. Catégorie:Droit et médecine Catégorie:P

Gestion de la relation client

La gestion de la relation client (GRC), ou gestion des relations avec la clientèle, est l'ensemble des outils et techniques destinés à tenir compte des souhaits et des attentes des clients et des prospects, afin de les satisfaire et de les fidéliser en leur offrant ou proposant des services. Les applications informatiques de la GRC sont des progiciels qui permettent de traiter directement avec le client, que ce soit sur le plan de la vente, du marketing ou du service, et que l'on regroupe souvent sous le terme de « front-office » par opposition aux outils de « back-office » que sont les progiciels de gestion intégrés (PGI).

Apache Spark

Spark (ou Apache Spark) est un framework open source de calcul distribué. Il s'agit d'un ensemble d'outils et de composants logiciels structurés selon une architecture définie. Développé à l'université de Californie à Berkeley par AMPLab, Spark est aujourd'hui un projet de la fondation Apache. Ce produit est un cadre applicatif de traitements des mégadonnées (big data) pour effectuer des analyses complexes à grande échelle. En 2009, Spark fut conçu par lors de son doctorat au sein de l'université de Californie à Berkeley.