EmoDB

EmoDB (abréviation de Berlin Database of Emotional Speech) est une base de données audio créée en 2005 par des chercheurs de l'université technique de Berlin. Les données d'EmoDB sont destinées à l'étude et à l'entraînement des systèmes de reconnaissance des émotions dans la parole. Elle est largement utilisée dans le domaine de l'informatique affective et de la reconnaissance vocale. C'est l'équivalent « audio » de la base de données AffectNet qui est, elle, la base de données d'images présentant des émotions sur des visages, complémentaire de la première pour entraîner des intelligences artificielles à reconnaître des émotions à partir de l'image, de la vidéo et de la parole.

Historique

[modifier | modifier le code ]

La base a été développée entre 1997 et 1999 dans le cadre d'un projet de recherche^[1] dirigé par Walter F. Sendlmeier, linguiste et chercheur allemand spécialisé dans dans l’étude de la voix, de la parole et de leurs effets perceptifs et émotionnels, au sein des sciences de la communication et ayant longtemps dirigé le Fachgebiet Kommunikationswissenschaft (Département de sciences de la communication de la Technische Universität Berlin). Il a créé cette base avec Felix Burkhardt, Astrid Paeschke, Miriam Rolfes et Benjamin Weiss^[1].

Leur projet^[1] visait à permettre d'analyser les caractéristiques sonores et phonétiques de la parole émotionnelle, ici simulée par des comédiens professionnels^[2].

Contenu

[modifier | modifier le code ]

EmoDB contient^[3] :

535 enregistrements audio en allemand, produits par 10 comédiens (5 hommes, 5 femmes) ;
7 émotions simulées : colère, peur, joie, tristesse, dégoût, ennui, et neutralité ;
des phrases standardisées issues de la communication quotidienne ;
des fichiers d'annotation phonétique et syllabique.

Les fichiers audio sont au format WAV (16 kHz, 16 bits, mono), accompagnés de métadonnées précises sur les émotions et les locuteurs.

Applications

[modifier | modifier le code ]

EmoDB a été utilisée dans :

la reconnaissance automatique des émotions dans la parole ;
l'analyse phonétique des émotions simulées ; elle a par exemple permis d'isoler des expressions phonétiques spécifiques aux émotions sur la base d'analyses phonétiques des phénomènes d'épenthèse, d'élision de segments de mots ou de phrases, de changement dans la durée des voyelles et des consonnes, d'extension temporelle de certaines phrases, la structure de l'accent, l'isochronie, la sonorisation, l'assimilation progressive de l'absence de voix et la position des formants. Les phénomènes de réduction et d'élaboration identifiés seront classés en phonétique de l'allemand en référence au mécanisme de génération et aux corrélats acoustiques qui en résultent^[4] ;
l'entraînement de modèles de deep learning pour la classification vocale ;
la synthèse vocale émotionnelle.

Conditions d'utilisation

[modifier | modifier le code ]

La base est disponible gratuitement pour un usage académique et non commercial. Elle est publiée sous licence CC0-1.0 et peut être téléchargée via la bibliothèque Python audb^[5].

Devenir

[modifier | modifier le code ]

Le portail EmoDB est aujourd'hui peu actif et il n'est plus mis à jour par l'Université, mais son contenu est toujours accessible. Ce travail reste une référence historique dans le domaine de la reconnaissance automatique des émotions d'après la voix (c'est l'une des premières bases de données émotionnelles vocales simulées en chambre anéchoïque par des comédiens professionnels) ; il a servi de référence pour les études sur les émotions vocales en allemand, et elle a influencé la conception de bases plus récentes comme IEMOCAP ou MSP-IMPROV (qui intègrent des émotions plus naturelles ou spontanées).

En 2025 et depuis la création d'EmoDB, d'autres bases de données vocale émotionnelle de ce type ont été construites, dont la plus grandes connue serait BASE TTS, développée par Amazon, contenant 100 000 heures de données vocales du domaine public en anglais, allemand, néerlandais, espagnol. Initialement conçue pour la synthèse vocale émotionnelle, ses données peuvent aussi être utilisées pour la reconnaissance émotionnelle. Elle dépasse les bases classiques comme LibriTTS, VCTK ou IEMOCAP, tant en volume qu'en diversité d'enregistrements.

Notes et références

[modifier | modifier le code ]

↑ ^{a b et c} Projet de recherche SE462/3-1 financé par la DFG (Deutsche Forschungsgemeinschaft) ou Fondation allemande pour la recherche.
↑ (en) Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter F. Sendlmeier et Benjamin Weiss, « A database of German emotional speech », Proceedings of INTERSPEECH, Lisbonne, ISCA, vol. 5,‎ 2005, p. 1517–1520.
↑ (en) « EmoDB Dataset » [archive du 24 mars 2025], sur kaggle.com (consulté le 26 juillet 2025).
↑ « Projet de recherche sur la parole émotionnelle », sur TU Berlin (consulté le 26 juillet 2025).
↑ « GitHub – audeering/emodb », sur GitHub (consulté le 26 juillet 2025).

Voir aussi

[modifier | modifier le code ]

Articles connexes

[modifier | modifier le code ]

Liens externes

[modifier | modifier le code ]

« Page officielle de téléchargement », sur TU Berlin (consulté le 26 juillet 2025)
« Emo-DB », sur emodb.bilderbar.info (consulté le 26 juillet 2025).

v · m Intelligence artificielle (IA)
Concepts	IA agentique Effet IA Grand modèle de langage Hallucination IA générative Test de Turing
Techniques	Analyse prédictive Apprentissage automatique Apprentissage non supervisé Apprentissage profond Apprentissage supervisé Génération à enrichissement contextuel Machine d'apprentissage logique Modèle de fondation Modèle des croyances transférables IA symbolique Réseau bayésien Réseau de neurones artificiels Réseau de neurones récurrents Réseau neuronal convolutif Transformeur Transformeur génératif préentraîné Système expert Apprentissage par renforcement à partir de rétroaction humaine
Applications	Art créé par IA Apple Intelligence ChatGPT Conséquences économiques de l'intelligence artificielle DeepL Diagnostic Écriture assistée par IA IA dans la santé IA dans le jeu vidéo Modèle texte-image Modèle texte-vidéo Perception artificielle Planification Robotique Synthèse vocale Traduction automatique Traitement automatique des langues Véhicule autonome Vision par ordinateur
Enjeux et philosophie	Alignement des intelligences artificielles Chambre chinoise Conscience artificielle Contrôle des capacités de l'IA Détection de contenu généré par IA Éthique de l'IA IA digne de confiance Philosophie de l'IA Sûreté des IA
Histoire et événements	Logic Theorist (1955) Perceptron (1957) General Problem Solver (1959) Prolog (1972) Matchs Deep Blue contre Kasparov (1996-1997) Match AlphaGo - Lee Sedol (2016) Sommet pour l'action sur l'IA (2025)
Concepts prospectifs	Anticipation IA-complet IA générale Risque existentiel posé par l'IA Superintelligence
Règlementation	Réglementation de l'IA Règlement sur l'IA
Organisations	Agence francophone pour l'IA Anthropic Google DeepMind Hugging Face OpenAI Partenariat sur l'IA
Ouvrages	Déclaration de Montréal pour un développement responsable de l'IA I.A. La Plus Grande Mutation de l'Histoire Intelligence artificielle : une approche moderne Lettre ouverte sur l'IA Power and Progress Superintelligence : Paths, Dangers, Strategies

v · m Intelligence artificielle générative
Modèles	Texte-image Texte-vidéo
Texte et image	Character.ai Claude ChatGPT 2 3 4 4o 4.5 5 ChatGPT Search Copilot DeepSeek Doubao Gemini Grok Le Chat LLaMA Qwen
Images	Adobe Firefly DALL-E Flux Midjourney Stable Diffusion
Vidéos	Adobe Firefly Sora Veo HeyGen
Musiques	Suno AI Udio
Prompt	Prompt art Ingénierie de prompt
Entreprises	Aleph Alpha Alibaba Cloud Anthropic DeepSeek Google DeepMind H Company Hugging Face Meta AI Mistral AI OpenAI Perplexity AI xAI
Critiques	Hallucination Droits d'auteur Perroquet stochastique Slop

v · m

Apprentissage automatique et exploration de données

Paradigmes

Problèmes

Supervisé

Classement	Arbre de décision k-NN U-matrix CRF Régression logistique
Régression	Modèle linéaire généralisé Régression linéaire Régression de Poisson Modèle probit Analyse discriminante linéaire Machine à vecteurs de support
Prédiction structurée	Modèle graphique Classification naïve bayésienne Réseau bayésien Modèle de Markov caché
Réseau de neurones artificiels	Récurrents Rétropropagation à travers le temps Calcul par réservoir à action directe Rétropropagation du gradient Apprentissage profond Perceptron Perceptron multicouche Réseau neuronal convolutif Attention Réseau de neurones à impulsions

Non supervisé et
auto-supervisé

Découverte de structures	Clustering Regroupement hiérarchique K-moyennes Algorithme espérance-maximisation DBSCAN OPTICS Règle d'association
Réduction de dimensions	ACP ACP à noyaux Analyse en composantes indépendantes Analyse canonique des corrélations Analyse canonique à noyaux t-SNE Réseau de neurones artificiels Auto-encodeur
IA générative et modèle génératif	Réseau de neurones artificiels Réseaux antagonistes génératifs Classique de Wasserstein) Auto-encodeur variationnel Réseau de Hopfield Machine de Boltzmann restreinte Cartes de Kohonen Transformeur

Métaheuristique
d'optimisation

Théorie

Logiciels

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=EmoDB&oldid=227656772 ».