Introduit des intégrations de mots, expliquant comment ils capturent les significations des mots en fonction du contexte et de leurs applications dans les tâches de traitement du langage naturel.
Couvre l'impact des transformateurs dans la vision par ordinateur, en discutant de leur architecture, de leurs applications et de leurs progrès dans diverses tâches.
Présente des modèles de langage classiques, leurs applications et des concepts fondamentaux tels que la modélisation et les mesures d'évaluation basées sur le nombre.
Couvre l'architecture du transformateur, en se concentrant sur les modèles codeurs-décodeurs et les mécanismes d'attention subquadratiques pour un traitement efficace des séquences d'entrée.
Explique comment les robots manipulent des objets en utilisant des instructions en langage naturel et intègre des modèles de langage de vision pour améliorer les performances.