Aller au contenu
Wikipédia l'encyclopédie libre

EmoDB

Un article de Wikipédia, l'encyclopédie libre.

EmoDB (abréviation de Berlin Database of Emotional Speech) est une base de données audio créée en 2005 par des chercheurs de l'université technique de Berlin. Les données d'EmoDB sont destinées à l'étude et à l'entraînement des systèmes de reconnaissance des émotions dans la parole. Elle est largement utilisée dans le domaine de l'informatique affective et de la reconnaissance vocale. C'est l'équivalent « audio » de la base de données AffectNet qui est, elle, la base de données d'images présentant des émotions sur des visages, complémentaire de la première pour entraîner des intelligences artificielles à reconnaître des émotions à partir de l'image, de la vidéo et de la parole.

Historique

[modifier | modifier le code ]

La base a été développée entre 1997 et 1999 dans le cadre d'un projet de recherche[1] dirigé par Walter F. Sendlmeier, linguiste et chercheur allemand spécialisé dans dans l’étude de la voix, de la parole et de leurs effets perceptifs et émotionnels, au sein des sciences de la communication et ayant longtemps dirigé le Fachgebiet Kommunikationswissenschaft (Département de sciences de la communication de la Technische Universität Berlin). Il a créé cette base avec Felix Burkhardt, Astrid Paeschke, Miriam Rolfes et Benjamin Weiss[1] .

Leur projet[1] visait à permettre d'analyser les caractéristiques sonores et phonétiques de la parole émotionnelle, ici simulée par des comédiens professionnels[2] .

EmoDB contient[3]  :

  • 535 enregistrements audio en allemand, produits par 10 comédiens (5 hommes, 5 femmes) ;
  • 7 émotions simulées : colère, peur, joie, tristesse, dégoût, ennui, et neutralité ;
  • des phrases standardisées issues de la communication quotidienne ;
  • des fichiers d'annotation phonétique et syllabique.

Les fichiers audio sont au format WAV (16 kHz, 16 bits, mono), accompagnés de métadonnées précises sur les émotions et les locuteurs.

Applications

[modifier | modifier le code ]

EmoDB a été utilisée dans :

  • la reconnaissance automatique des émotions dans la parole ;
  • l'analyse phonétique des émotions simulées ; elle a par exemple permis d'isoler des expressions phonétiques spécifiques aux émotions sur la base d'analyses phonétiques des phénomènes d'épenthèse, d'élision de segments de mots ou de phrases, de changement dans la durée des voyelles et des consonnes, d'extension temporelle de certaines phrases, la structure de l'accent, l'isochronie, la sonorisation, l'assimilation progressive de l'absence de voix et la position des formants. Les phénomènes de réduction et d'élaboration identifiés seront classés en phonétique de l'allemand en référence au mécanisme de génération et aux corrélats acoustiques qui en résultent[4]  ;
  • l'entraînement de modèles de deep learning pour la classification vocale ;
  • la synthèse vocale émotionnelle.

Conditions d'utilisation

[modifier | modifier le code ]

La base est disponible gratuitement pour un usage académique et non commercial. Elle est publiée sous licence CC0-1.0 et peut être téléchargée via la bibliothèque Python audb[5] .

Le portail EmoDB est aujourd'hui peu actif et il n'est plus mis à jour par l'Université, mais son contenu est toujours accessible. Ce travail reste une référence historique dans le domaine de la reconnaissance automatique des émotions d'après la voix (c'est l'une des premières bases de données émotionnelles vocales simulées en chambre anéchoïque par des comédiens professionnels) ; il a servi de référence pour les études sur les émotions vocales en allemand, et elle a influencé la conception de bases plus récentes comme IEMOCAP ou MSP-IMPROV (qui intègrent des émotions plus naturelles ou spontanées).

En 2025 et depuis la création d'EmoDB, d'autres bases de données vocale émotionnelle de ce type ont été construites, dont la plus grandes connue serait BASE TTS, développée par Amazon, contenant 100 000 heures de données vocales du domaine public en anglais, allemand, néerlandais, espagnol. Initialement conçue pour la synthèse vocale émotionnelle, ses données peuvent aussi être utilisées pour la reconnaissance émotionnelle. Elle dépasse les bases classiques comme LibriTTS, VCTK ou IEMOCAP, tant en volume qu'en diversité d'enregistrements.

Notes et références

[modifier | modifier le code ]
  1. a b et c Projet de recherche SE462/3-1 financé par la DFG (Deutsche Forschungsgemeinschaft) ou Fondation allemande pour la recherche.
  2. (en) Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter F. Sendlmeier et Benjamin Weiss, « A database of German emotional speech », Proceedings of INTERSPEECH, Lisbonne, ISCA, vol. 5,‎ , p. 1517–1520.
  3. (en) « EmoDB Dataset » [archive du ], sur kaggle.com (consulté le ).
  4. « Projet de recherche sur la parole émotionnelle », sur TU Berlin (consulté le ).
  5. « GitHub – audeering/emodb », sur GitHub (consulté le ).

Voir aussi

[modifier | modifier le code ]

Articles connexes

[modifier | modifier le code ]

Liens externes

[modifier | modifier le code ]
v · m
Concepts
Techniques
Applications
Enjeux et philosophie
Histoire et événements
Concepts prospectifs
Règlementation
Organisations
Ouvrages
v · m
Modèles
Texte et image
Images
Vidéos
Musiques
Prompt
Entreprises
Critiques
v · m
Paradigmes
Problèmes
Supervisé
Classement
Régression
Prédiction structurée
Réseau de neurones
artificiels
Non supervisé et
auto-supervisé
Découverte de structures
Réduction de dimensions
IA générative
et modèle génératif
Métaheuristique
d'optimisation
Théorie
Logiciels

AltStyle によって変換されたページ (->オリジナル) /