Publication

Further results on latent discourse models and word embeddings

Concepts associés (32)

En intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de . Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim. Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram.

Plongement lexical

Le plongement lexical (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots utilisée notamment en traitement automatique des langues. Le terme devrait plutôt être rendu par vectorisation de mots pour correspondre plus proprement à cette méthode. Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. Cette nouvelle représentation a ceci de particulier que les mots apparaissant dans des contextes similaires possèdent des vecteurs correspondants qui sont relativement proches.

Vecteur euclidien

En mathématiques, et plus précisément en géométrie euclidienne, un vecteur euclidien est un objet géométrique possédant une direction, un sens et une norme. On l'utilise par exemple en physique et en ingénierie pour modéliser une force. On parle aussi parfois de vecteur géométrique dans le plan euclidien (deux dimensions) et de vecteur spatial dans l'espace à trois dimensions. Vecteur#HistoireVecteur En physique et en ingénierie, on travaille souvent dans l'espace euclidien.

Produit scalaire

En mathématiques, et plus précisément en algèbre et en géométrie vectorielle, le produit scalaire est une opération algébrique s'ajoutant aux lois s'appliquant aux vecteurs. C'est une forme bilinéaire, symétrique, définie positive. À deux vecteurs, elle associe un scalaire, c'est-à-dire un nombre tel que ceux qui définissent cet espace vectoriel — réel pour un espace vectoriel réel. Si et sont deux vecteurs d'un espace vectoriel E sur le corps R des nombres réels, alors le produit scalaire de u par v est un scalaire (c'est-à-dire un élément de R), noté ∙ , , , ou .

Désambiguïsation lexicale

La désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.

Produit mixte

En géométrie, produit mixte est le nom que prend le déterminant dans un cadre euclidien orienté. Sa valeur absolue s'interprète comme le volume d'un parallélotope. Pour le produit mixte dans un espace euclidien orienté de dimension trois, voir l'article géométrie vectorielle. Soit E un espace euclidien orienté de dimension n. Soit B une base orthonormale directe de E. Le produit mixte de n vecteurs de E est défini par Il ne dépend pas de la base orthonormale directe B choisie.

Multiplication par un scalaire

vignette|320x320px|Exemple de multiplication d'un vecteur par un scalaire En mathématiques, la multiplication par un scalaire est l'une des lois externes de base définissant un espace vectoriel en algèbre linéaire (ou plus généralement, un module en algèbre générale). Si K est un corps commutatif, la définition d'un espace vectoriel E sur K prescrit l'existence d'une loi de composition externe, une application de K × E dans E. L'image d'un couple (λ, v), pouvant être notée λv ou λ∙v, est la multiplication du vecteur v par le scalaire λ.

Espace préhilbertien

En mathématiques, un espace préhilbertien est défini comme un espace vectoriel réel ou complexe muni d'un produit scalaire. Cette notion généralise celles d'espace euclidien ou hermitien dans le cas d'une dimension quelconque, tout en conservant certaines bonnes propriétés géométriques des espaces de dimension finie grâce aux propriétés du produit scalaire, mais en perdant un atout de taille : un espace préhilbertien de dimension infinie n'est pas nécessairement complet. On peut cependant le compléter, pour obtenir un espace de Hilbert.

Traitement automatique du langage naturel

Le traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.

Definite matrix

In mathematics, a symmetric matrix with real entries is positive-definite if the real number is positive for every nonzero real column vector where is the transpose of . More generally, a Hermitian matrix (that is, a complex matrix equal to its conjugate transpose) is positive-definite if the real number is positive for every nonzero complex column vector where denotes the conjugate transpose of Positive semi-definite matrices are defined similarly, except that the scalars and are required to be positive or zero (that is, nonnegative).

Scalaire (physique)

En physique, un scalaire est une grandeur dont la valeur ne dépend que du point auquel on l'évalue et est indépendante du système de coordonnées. Une grandeur scalaire s'oppose à une grandeur vectorielle : la grandeur scalaire a uniquement une valeur mais pas de direction ou de sens. Les mathématiques utilisent la notion de scalaire dans le même sens en algèbre linéaire, indépendamment de toute grandeur physique. Les quantités scalaires sont invariables par rapport aux rotations de coordonnées (et aux transformations de Lorentz en théorie de la relativité).

Transformeur

vignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).

Produit (mathématiques)

On nomme produit de nombres entiers, réels, complexes ou autres le résultat de leur multiplication. Les éléments multipliés s’appellent les facteurs du produit. L’expression d’un produit est aussi appelée « produit », par exemple l’écriture 3a du triple du nombre a est un produit de deux facteurs, où le symbole de la multiplication est sous-entendu. L'ordre dans lequel les nombres réels ou les nombres complexes sont multipliés, de même que la façon de regrouper ces termes, n'ont pas d'importance ; ainsi, nulle permutation de termes ne modifie le résultat du produit.

Word-sense induction

In computational linguistics, word-sense induction (WSI) or discrimination is an open problem of natural language processing, which concerns the automatic identification of the senses of a word (i.e. meanings). Given that the output of word-sense induction is a set of senses for the target word (sense inventory), this task is strictly related to that of word-sense disambiguation (WSD), which relies on a predefined sense inventory and aims to solve the ambiguity of words in context.

Scalaire (mathématiques)

En algèbre linéaire, les nombres réels qui multiplient les vecteurs dans un espace vectoriel sont appelés des scalaires. Cette multiplication par un scalaire, qui permet de multiplier un vecteur par un nombre pour produire un vecteur, correspond à la loi externe de l'espace vectoriel. Plus généralement, dans un K-espace vectoriel, les scalaires sont les éléments de K, où K peut être l'ensemble des nombres complexes ou n'importe quel autre corps.

Sentence embedding

In natural language processing, a sentence embedding refers to a numeric representation of a sentence in the form of a vector of real numbers which encodes meaningful semantic information. State of the art embeddings are based on the learned hidden layer representation of dedicated sentence transformer models. BERT pioneered an approach involving the use of a dedicated [CLS] token preprended to the beginning of each sentence inputted into the model; the final hidden state vector of this token encodes information about the sentence and can be fine-tuned for use in sentence classification tasks.

Vecteur

droite|cadre|Deux vecteurs et et leur vecteur somme. En mathématiques, un vecteur est un objet généralisant plusieurs notions provenant de la géométrie (couples de points, translations, etc.), de l'algèbre (« solution » d'un système d'équations à plusieurs inconnues), ou de la physique (forces, vitesses, accélérations). Rigoureusement axiomatisée, la notion de vecteur est le fondement de la branche des mathématiques appelée algèbre linéaire.

Espace vectoriel

vignette|Dans un espace vectoriel, on peut additionner deux vecteurs. Par exemple, la somme du vecteur v (en bleu) et w (en rouge) est v + w. On peut aussi multiplier un vecteur, comme le vecteur w que l'on peut multiplier par 2, on obtient alors 2w et la somme devient v + 2w. En mathématiques, plus précisément en algèbre linéaire, un espace vectoriel est un ensemble d'objets, appelés vecteurs, que l'on peut additionner entre eux, et que l'on peut multiplier par un scalaire (pour les étirer ou les rétrécir, les tourner, etc.

Similarité sémantique

La similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.

Positive operator (Hilbert space)

In mathematics (specifically linear algebra, operator theory, and functional analysis) as well as physics, a linear operator acting on an inner product space is called positive-semidefinite (or non-negative) if, for every , and , where is the domain of . Positive-semidefinite operators are denoted as . The operator is said to be positive-definite, and written , if for all . In physics (specifically quantum mechanics), such operators represent quantum states, via the density matrix formalism.