Perception de la hauteur des sons complexes harmoniques
Transcription
Perception de la hauteur des sons complexes harmoniques
N° d'ordre: 160 2000 Année 2000 THESE Présentée devant l'UNIVERSITE CLAUDE BERNARD - LYON 1 Pour l'obtention Du Diplôme DE DOCTORAT Discipline Acoustique (arrêté du 30 mars 1992) Présentée et soutenue publiquement le 27 Septembre 2000. Par M. Nicolas GRIMAULT PERCEPTION DE LA HAUTEUR DES SONS COMPLEXES HARMONIQUES: ETUDE DES MECANISMES SOUS-JACENTS ET RELATION AVEC L'ANALYSE DE SCENES AUDITIVES. Directeur de Thèse: Docteur Christophe MICHEYL JURY: Docteur Georges CANEVET (DR. CNRS), rapporteur Docteur Robert P. CARLYON (MRC Senior Scientist) Professeur Lionel COLLET Docteur Laurent DEMANY (DR. CNRS), rapporteur Docteur Christophe MICHEYL (CR. CNRS) Docteur Richard RAGOT (CR CNRS) Professeur Michel SUNYACH REMERCIEMENTS Au Docteur Christophe Micheyl qui a encadré l'ensemble de mon travail.Il m'a apporté la passion nécessaire au chercheur par son dynamisme scientifique et il m'a enseigné la psychoacoustique avec beauoup de patience et de tact. Au Professeur Lionel Collet qui m'a accordé sa confiance sans retenue dès que je l'ai sollicité. Il m'a non seulement accueilli dans son laboratoire mais aussi soutenu tout au long de mon doctorat. Au Docteur Laurent Demany qui a bien voulu rapporter mon travail et qui, par ses critiques, m'a permis d'approfondir ma réflexion et d'amméliorer la qualité d'ensemble de ma thèse. Au Docteur Georges Canévet qui lui aussi a rapporté mon travail mais qui surtout, par la qualité de son enseignement, est responsable de mon orientation vers la psychoaoustique. Au Docteur Robert Carlyon qui, plus qu'un membre du jury, à été un collaborateur précieux tout au long de mon doctorat et dont j'ai profité de la très grande expérience. Aux Professeur Michel Sunyach et Docteur Richard Ragot qui ont accepté de participer à mon jury et qui ont donc contribué à la realisation de ce document. A l’ensemble des membres d’Entendre et en particulier à Messieurs Lombard, Bouroukhoff, Leblanc, Arthaud et Garnier qui, en me finançant, ont permis la réalisation de mon doctorat. De nombreux membres d’Entendre ont été de réels collaborateurs et ont donc participé non seulement financièrement mais aussi scientifiquement à ce travail. Aux Docteurs Sid Bacon et Jungmee Lee qui m’ont initié à la phychoacoustique pendant mon DEA et qui m’ont permis de débuter en tant que chercheur dans ce domaine. Aux Professeurs Magnan, Chais et Cazals qui m’ont fait découvrir à Marseille les aspects cliniques que peut parfois revètir la psychoacoustique. A l’ensemble des membres du laboratoire et du pavillon U et en particulier à Annick, Collette, Michel, Vincent, John, Evelyne, Sylvianne, Berger Vachon et Annie qui, de mille et une façons m’ont permis, au quotidien, de réaliser mon doctorat dans les meilleurs conditions. A tous les étudiants du laboratoire, Vincent, les deux Stéphanies, Arnaud, Marie, Caroline, Nathalie, Sonia, les Stéphanes et tous les autres, qui ont partagé avec moi le laboratoire, les repas et les pauses au cours de ces trois années de travail en commun. A Nadège, Mathieu et Bénédicte avec qui, au cours de ces trois ans, mes relations sont devenues tout particulièrement amicales. A ma famille, mes parents, et en particulier à mon père, qui m’ont permis de réaliser d’aussi longues études et qui sont incontestablement à l’origine de ma vocation de chercheur. A ma femme, Christine, qui m’a toujours soutenu et qui accepte avec plaisir les contraintes de mobilité inhérente à un cursus universitaire de chercheur transformant cette contrainte en aventure. Grimault Page TABLES DES MATIERES 1 AVANT PROPOS: Au sujet de la psychoacoustique. 4 INTRODUCTION 6 MISE AU POINT BIBLIOGRAPHIQUE 12 1-Le système auditif comme analyseur spectral. 13 1-1-La tonotopie cochléaire. 13 1-2-Le phénomène de vérouillage de phase. 15 1-3-Le concept de bande critique. 15 2-Le codage de la hauteur des sons complexes harmoniques. 18 2-1-Le codage spectral. 22 2-1-1-Le modèle de Goldstein. 23 2-1-2-Le modèle de Terhart (Terhart, 1972, 1978). 26 2-1-3-Conclusions. 27 2-2-Le codage "non-spectral". 27 2-3-Le codage de la hauteur par autocorrélation. 29 2-3-1-La notion d'autocorrélation. 29 2-3-2-Une autocorrélation physiologique ? 30 2-3-3-Les modèles "autocorrélatifs". 32 2-3-3-1 Le modèle de Meddis & Hewitt (1991a,b). 2-3-3-2- confrontation de ce modèle aux 32 données 38 psychoacoustiques. 2-3-3-2-1- La hauteur des sons complexes composés d'harmoniques en phase sinus ou alternées. 2-3-3-2-2- La discrimination de la hauteur des sons complexes harmoniques. 39 46 1 Grimault 2-3-3-2-3- Hauteur d'un son complexe ayant un harmonique décalée en fréquence. 51 2-3-3-2-4- Critique du modèle autocorrélatif de Meddis 52 & Hewitt (1991). 3-L’analyse de scène en audition. 57 3-1-L’analyse par schémas. 59 3-2-L’analyse primitive des scènes auditives. 60 3-2-1-L’analyse de sources simultanées. 3-2-1-1-La corrélation temporelle 61 (principe du destin 62 3-2-1-2- Progression de la transformation, continuité et 65 commun). lenteur. 3-2-2-L’analyse de sources séquentielles: "le streaming". 69 3-2-2-1-Cadre général. 70 3-2-2-2-L'influence particulière de la hauteur virtuelle. 74 3-2-2-3-Les modèles de groupement séquentiel. 76 3-2-2-4-De l'organisation séquentielle à la discrimination de 77 hauteur. 4-Résumé, objectifs de ce travail et introduction de mes travaux personnels. 78 5-Une méthode d'exploration basée sur les apprentissages sélectifs. 80 5-1-Introduction. 80 5-2-La plasticité neuronale du système auditif interne induite par apprentissage. 83 TRAVAUX EXPERIMENTAUX 87 Chapitre 1: Etude des mécanismes d'encodages de la hauteur des sons complexes harmonique résolus ou non-résolus par le système auditif périphérique. 88 Article 1: Evidence for two pitch encoding mechanisms using a selective auditory training paradigm. N. Grimault, C. Micheyl, R. P. Carlyon et L. Collet. 89 2 Grimault Article 2: Perceptual learning in pure-tone frequency discrimination and amplitudemodulation rate discrimination, and generalization to fundamental frequency discrimination. N. Grimault, C. Micheyl, R. P. Carlyon, S. P. Bacon et L. Collet. 109 Chapitre 2:Implication et importance d'un codage performant de la hauteur sur l'analyse de scènes en audition. 141 Article 3: Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency. N. Grimault, C. Micheyl, R. P. Carlyon, P. Arthaud et L. Collet. 142 Article 4: Perceptual auditory stream segregation of sequences of complex sounds in subjects with normal and impaired hearing. N. Grimault, C. Micheyl, R. P. Carlyon, P. Arthaud et L. Collet. 153 Article 5: Further evidence for the resetting of the pitch analysis system by abrupt temporal transitions between sucessive tones. N. Grimault, C. Micheyl, R. P. Carlyon et L. Collet. 173 RESUME GENERAL ET CONCLUSIONS. 191 1-Les mécanismes présumés d'encodages de la hauteur. 192 2-L'analyse de scène auditive est-elle conditionnée par les mécanismes de perception de la hauteur. 196 3-Conclusions. 199 BIBLIOGRAPHIE GENERALE 200 ANNEXES 220 A1: Modèle de calcul des patterns d'excitations périphériques. 221 A1-1-Présentation du modèle. 221 A1-2-Application du modèle. 224 A1-3-Discussion du modèle. 225 A1-4-Résultats et apport du modèle à la discussion de l'étude 5. 226 RESUME EN ANGLAIS 230 INDEX 231 3 Grimaut 4 AVANT PROPOS Au sujet de la psychoacoustique. La psychoacoustique est un domaine souvent mal connu et même très souvent totalement inconnu du grand public. Il me semble donc important de donner ici un bref aperçu de cette discipline et en particulier de ses objectifs et de ses outils de travail. Toute cette discipline part de l'idée qu'il doit exister des règles universelles gouvernant les sensations éveillées par les stimulations auditives. Il s'agit alors de découvrir ces règles dans le double but de pouvoir prévoir la sensation qu'évoquera un stimulus donné et de mieux comprendre les mécanismes permettant l'élaboration de cette sensation. Le psychoacousticien tente donc toujours de relier les grandeurs physiques du stimulus (Intensité de la pression acoustique, fréquence, fréquence fondamentale...) aux sensations évoquées (Sonie, tonie, hauteur...). Stimulation Pa (t) ,F,F0,... Système auditif Sensation Sonie,Tonie, Hauteur, Timbre... Fig 1: La boite noire de la psychoacoustique. Une stimulation d'entrée avec différents paramètres (pression acoustique en fonction du temps (Pa(t)), fréquence (F), fréquence fondamentale (F0)...) donne lieu à une sensation sonore ayant différentes caractéristiques de sonie, de tonie, de hauteur et de timbre. La psychoacoustique a la charge d'expliciter la boite noire ci-dessus. Grimaut 5 La connaissance de ces règles est extrêmement utile pour rendre performante toute communication utilisant les voies auditives et mettant en oeuvre un appareil électrique, mécanique ou électronique. Ces appareils peuvent être aussi variés qu'un récepteur de téléphone, une prothèse auditive, un implant cochléaire ou un instrument de musique. De plus il est parfois possible de déduire de ces règles les mécanismes neuronaux qui sont sous-jacents aux processus perceptifs. Cette discipline a donc à la fois une portée pratique et théorique et peut apporter des informations sensibles au domaine des Neurosciences en permettant de déterminer des fonctionnements neurologiques. Les méthodes d'exploration le plus classiquement utilisées sont celles de la psychologie expérimentale. Schématiquement, pour relier l'évolution d'un paramètre physique à l'évolution de la sensation qu'il procure, nous pouvons faire écouter à un sujet plusieurs conditions de stimulation obtenues en variant la grandeur physique du paramètre puis lui demander, soit de juger le son en le plaçant sur une échelle sensitive, soit de le comparer à un son de référence. Nous obtenons alors des éléments permettant de déterminer l'influence du paramètre sur la sensation auditive évoquée. Cette thèse de psychoacoustique a un double objectif. La première est de préciser les mécanismes qui font naître la sensation caractéristique de hauteur lors de la présentation d'un son complexe harmonique (ie. Un son composé de plusieurs sons purs dont les fréquences sont toutes multiple d'une même fréquence dite fréquence fondamentale). La seconde est d'obtenir plus d'informations sur la contribution de la hauteur dans les mécanismes d'organisation perceptive auditive. Grimaut INTRODUCTION 6 Grimaut 7 Les ondes acoustiques complexes dont le spectre est constitué d'harmoniques (spectre de raies) évoquent en général une sensation auditive de hauteur dite fondamentale ou virtuelle. Ce phénomène, qui est connu depuis plus d’un siècle et a fait l’objet de nombreuses études expérimentales durant les dernières décennies, suscite encore aujourd’hui certaines interrogations. Ainsi, les mécanismes par lesquels le système auditif central « calcule » cette hauteur virtuelle sur la base des informations diponibles en sortie du système auditif périphérique constituent toujours l’objet de débats animés dans le champ de la psychoacoustique et de la physiologie auditive. Une question particulièrement brûlante depuis quelques années concerne l’unicité ou au contraire la multiplicité de tels mécanismes. En effet, si un ensemble de travaux de modélisation mathématiques et physiologiques suggèrent qu'un unique mécanisme permet de déterminer la hauteur virtuelle de tous les sons complexes périodiques, que ceux-ci contiennent des harmoniques de rang élevé ou faible et que leur fréquence fondamentale soit faible ou élevée, certains résultats psychoacoustiques suggèrent, en revanche, la nécessaire existence de mécanismes dissociés pour s’accommoder des contraintes fonctionnelles de la périphérie auditive et, plus précisément, de la résolution fréquentielle cochléaire. Ainsi, de façon schématique, il faudrait distinguer deux cas de figures selon que les harmoniques sont suffisamment espacés pour exciter des filtres auditifs périphériques distincts ou non. Dans le premier cas, les harmoniques sont alors dits « résolus » par le système auditif ; dans le second, ils sont dits « non résolus ». A chacun de ces cas de figure correspondrait un mécanisme sous-jacent différent pour l’encodage de la sensation de hauteur virtuelle. Cette question de l’unicité ou, au contraire, de la multiplicité, des mécanismes d’encodage de la hauteur virtuelle en fonction de la résolution fréquentielle du système auditif périphérique a constitué la toile de fond de ma recherche doctorale et constitue par conséquent le thème majeur de cette thèse. Dans un premier groupe de travaux expérimentaux, j’ai tenté Grimaut 8 d’apporter un éclairage nouveau à cette question en utilisant une approche relativement originale, fondée sur l’étude du transfert d’apprentissage perceptif de la discrimination de hauteur fondamentale entre des conditions de stimulation différant par degré de résolution fréquentielle des harmoniques de sons complexes. J’ai émis l’hypothèse que si les mécanismes sous-jacents à l’encodage de la hauteur virtuelle des harmoniques résolus et non résolus avaient effectivement un substratum neurophysiologique différent, les bénéfices d’un entraînement sélectif prolongé de l’un de ces mécanismes au moyen de stimulus composés exclusivement d’harmoniques résolus devrait se transférer peu ou prou à des conditions de test impliquant des harmoniques non résolus (et vice versa) car les unités nerveuses mises en jeu lors de l’entraînement et du test seraient différentes. Ayant testé cette hypothèse au moyen d’une première étude longitudinale dont les résultats (que j’invite le lecteur à découvrir en détail dans l’article dévolu à leur présentation) vont globalement dans le sens de l’hypothèse duale, j’ai souhaité aller plus loin dans cette question en essayant de déterminer la nature des mécanismes d’encodage de la hauteur virtuelle des harmoniques résolus et non résolus. Certaines données de la littérature, décrites dans la partie théorique de la thèse, suggèrent que la première étape du mécanisme utilisé pour déterminer la hauteur virtuelle d’un groupe d’harmoniques résolus, consistant à déterminer la hauteur de chacune des composantes individuelles du son, est similaire à celui mis en œuvre pour encoder la hauteur d’une unique composante fréquentielle. Par conséquent, on peut faire l’hypothèse que la discrimination de fréquence fondamentale d’hamoniques résolus bénéficie d’un entraînement à la discrimination fréquentielle de sons purs. D’un autre côté, certains travaux suggèrent que l’encodage de la hauteur virtuelle d’un groupe d’harmoniques non résolus impliquerait la détermination relativement précise de la cadence des fluctuations d’enveloppe en sortie des filtres auditifs périphériques (dans lesquelles l’interaction de plusieurs harmoniques suscite une activité fluctuant à une cadence qui correspond à la fréquence fondamentale). Par conséquent, on peut Grimaut 9 faire l’hypothèse que la discrimination de fréquence fondamentale d’harmoniques non résolus bénéficie d’un entraînement à la discrimination de cadences de modulation d’amplitude. J’invite le lecteur, là encore, à découvrir dans la seconde partie de la thèse les résultats de cette seconde étude portant sur l’existence et la nature des mécanismes sous-jacents à la discrimination de hauteur d’harmoniques résolus et non résolus. L’autre grande question qui a inspiré ma recherche doctorale concerne l’influence de la résolution fréquentielle sur l’organisation perceptive des séquences de sons complexes sur la base de leur hauteur virtuelle. Cette question, connexe de la précédente, a été inspirée par les résultats d’une étude antérieure réalisée par Micheyl et Carlyon (1998), qui suggèrent que les auditeurs ont plus de mal à (voire, se trouvent dans l’impossibilité de) tirer profit de différences de fréquence fondamentale entre des sons complexes successifs afin de les séparer en différents « flux » perceptifs. En d’autres termes, une insuffisante résolution fréquentielle périphérique pourrait mettre en défaut les mécanismes de l’organisation perceptive qui opèrent dans le domaine séquentiel. Cette hypothèse m’a paru constituer un prolongement intéressant de mes autres travaux car si une meilleure connaissance de l’influence de la résolution fréquentielle sur les mécanismes de la perception de la hauteur des sons complexes est passionnante d’un point de vue théorique, ses implications pratiques demeurent relativement abstraites ou indirectes. En revanche, s’il s’avère que cette influence de la résolution fréquentielle conditionne en partie la capacité à organiser perceptivement les séquences de sons complexes (que sont, schématiquement, la musique et la parole), cela pourrait avoir des retombées importantes sur la compréhension des difficultés qu’éprouvent les individus atteints de surdité partielle d’origine cochléaire vis-à-vis des scènes auditives complexes. En effet, divers travaux de la littérature indiquent que la résolution fréquentielle périphérique est presque systématiquement réduite par les atteintes cochléaires. Par conséquent, j’ai réalisé deux études dans ce champ : Une première étude chez des sujets Grimaut 10 normo-entendants visait à tester dans quelle mesure la résolution fréquentielle des harmoniques influence la capacité à former des flux auditifs sur la base de séquences ABA de sons complexes différant par la fréquence fondamentale. Une seconde étude, impliquant des sujets normo- et malentendants, visait à compléter la précédente en testant si les performances de séparation en flux des séquences de sons complexes harmoniques sur la base de différences de fréquence fondamentale sont effectivement moindres chez les seconds que chez les premiers. Le lecteur découvrira dans la seconde partie de la thèse les deux articles consacrés à ces études et à la présentation de leurs résultats. Il y découvrira également une troisième et dernière étude que j’ai réalisée dans le but de caractériser l’influence de la résolution fréquentielle sur l’organisation perceptive des séquences de sons complexes. Les résultats de cette dernière étude trouvent parfaitement leur place à la fin de cette thèse en ce que, d’une part, ils complètent les résultats précédemment obtenus, mais, d’autre part, suggèrent un certain nombre de perspectives pour de futures études dans le cadre de cette vaste problématique de l’influence de la résolution fréquentielle sur la perception des séquences sonores. Pour clore cette introduction, et avant d’entrer dans le vif du sujet, je préciserai que j’ai tenté de réunir dans la première partie de cette thèse les principaux éléments bibliographiques qui seront je l’espère utiles aux lecteurs n’étant pas spécialistes des domaines de la psychoacoustique concernés par les études expérimentales présentées en seconde partie ; à savoir, essentiellement : la perception de la hauteur virtuelle, les règles de l’organisation auditive, et l’apprentissage perceptif auditif. Loin de prétendre couvrir ces vastes questions de façon exhaustive, cette première partie vise plutôt à faire ressortir des multiples publications antérieures qui ont été consacrées à ces questions, les résultats qui ont inspiré mes hypothèses de travail, en précisant par là même le contexte général dans lequel ma recherche doctorale est venue s’inscrire. Grimaut 11 Grimaut 12 MISE AU POINT BIBLIOGRAPHIQUE Grimaut 13 1-Le système auditif comme analyseur spectral. L'ensemble des signaux utilisés pendant la durée de mon doctorat sont des sons complexes harmoniques. Il est connu de longue date que notre système auditif, à la réception d'un tel son, composé de plusieurs sons purs, est capable, sous certaines contraintes, d'analyser ce son. Ainsi, si on envoie simultanément deux sons purs dont les fréquences sont espacées, nous pouvons isoler chacune des composantes et percevoir ainsi l'un et l'autre des sons purs (Plomp, 1964; Green, 1964). Notre système auditif fonctionne donc comme un analyseur spectral. 1-1-La tonotopie cochléaire Pour réaliser cette analyse spectrale des signaux que nous percevons, l'utilisation des propriétés tonotopiques de la cochlée semble plausible. Rappelons tout d'abord que lorsqu'un son pur excite la membrane basilaire, la fréquence de ce son est en bijection avec la situation géographique du maximum de l'enveloppe de la vibration de la membrane basilaire (figure 2). La correspondance entre la situation du maximum et la fréquence du son incident a été mesurée par Dolmazon en 1978 (cité dans Canévet, 1995). Grimaut 14 Figure 2: Cette figure, extraite de l'ouvrage de Moore (1989), reprend les travaux de von Békésy (1947). Elle représente schématiquement le déplacement instantané de la membrane basilaire à deux instants successifs. Les auteurs ont tracé en pointillé l'enveloppe du déplacement de la membrane. Le maximum de cette enveloppe dépend de la fréquence du son incident. Les fibres nerveuses connectées au niveau de ce maximum sont ainsi représentatives de la fréquence du son pur. Cette tonotopie cochléaire est ensuite conservée tout au long des voies auditives. D'autre part, les fibres nerveuses connectées en ce point sont tout particulièrement réceptives aux sons de cette fréquence. Chaque neurone répond ainsi de façon privilégiée aux sons d'une fréquence particulière. On peut ainsi tracer des courbes en cloche caractérisant la réponse de chaque neurone en fonction de la fréquence. Ces courbes sont classiquement appelées les courbes d'accord des neurones. Ce mécanisme de codage de la fréquence serait particulièrement exploité lorsque les sons présentés sont courts ou/et de haute fréquence. Grimaut 15 1-2-Le phénomène de verouillage de phase. Par contre, en présence de sons purs de fréquence relativement basse (<4 kHz), les neurones déchargent préférentiellement lors des pics de pression de l'onde excitatrice. L'existence d'une période réfractaire des neurones -durée d'une milliseconde environ succédant à une décharge et pendant laquelle toute décharge est impossible- rend la synchronisation incomplète mais on peut toutefois déduire la fréquence d'un son en observant la cadence de décharge des fibres. En effet, celles-ci déchargent à des instants qui correspondent tous à un nombre entier de période. Ce type de codage de la fréquence pourrait bien être dominant en présence de sons relativement longs et surtout à des fréquences inférieures à 4-5 kHz (Rose et al., 1968; Moore, 1973). Au-dessus de 5 kHz, les neurones ne parviennent plus à suivre la cadence du son excitateur. Toutefois, cet indice semble difficile à exploiter lors de la présentation d'un signal complexe. 1-3-Le concept de bande critique Le concept initial de bande critique (Fletcher, 1940) vient de l'observation expérimentale suivante: dans une expérience de détection d'un son pur plongé dans un bruit large bande (par exemple un bruit blanc), seule une petite bande spectrale centrée sur le son pur gène ou masque sa perception. La largeur de cette bande "masquante" défini la bande critique à la fréquence du son. Cette bande donne ainsi toute la gamme des fréquences des sons risquant d'interférer avec le son pur s'ils sont présentés simultanément à celui-ci. Grimaut 16 Le fonctionnement de la cochlée pourrait être ainsi modélisé par une juxtaposition de bandes critiques (36 de ces bandes couvrent la gamme fréquentielle allant de 26 Hz à 10781 Hz). Ces bandes critiques peuvent être considérées comme les bandes passantes à -3 dB de filtres passe-bandes. La cochlée peut alors être modélisée par un banc de filtres auditifs. Le passage au travers de ce banc de filtres permettrait ainsi l'analyse fréquentielle de n'importe quel signal complexe excitant la cochlée. L'exploration de ces filtres auditifs et le calcul de leurs différentes caractéristiques spectrales et temporelles (la détermination de leur largeur en fonction de leur fréquence centrale, la détermination de leur réponse impulsionelle dans le domaine temporel...) a donné lieu à de très nombreuses études qui ont donné naissance à de nombreux modèles du fonctionnement du système auditif périphérique (Glasberg & Moore 1990; Irino & Patterson, 1997). Grimaut 17 Fig 3: Simulation des sorties temporelles de 10 filtres auditifs centrés à des fréquences allant de 250 Hz à 6 kHz. Ces filtres ont été stimulés par les 20 premiers harmoniques de 500 Hz (ie. 20 sons purs de fréquences n*500 ng[1,20]). Le spectre de ce stimulus est présenté verticalement, à droite. Cette simulation a été réalisée avec des filtres auditifs de type "gammachirp" définis par Irino & Patterson (1997). J'ai moi-même développé au cours de cette thèse un modèle permettant le calcul des diagrammes d'excitation en sortie de périphérie auditive (i.e. la forme d'onde temporelle en sortie de chaque filtre auditif) qui utilise les réponses impulsionelles des filtres auditifs telles qu'elles sont décrites par Irino & Patterson. Contrairement au modèle de diagrammes d'excitation de Glasberg & Moore ou le passage du domaine temporel au domaine spectral, qui se fait au moyen d'une transformée de Fourier rapide, n'a pas de fondement physiologique, celui ci convolue directement les signaux avec le filtre cochléaire défini dans le domaine Grimaut 18 temporel. La fenêtre temporelle d'intégration est donc plus proche de la réalité physiologique et dépend de la fréquence centrale du filtre utilisé. On voit ainsi sur la figure 3 qu'un modèle du système auditif périphérique comprenant un ensemble de filtres auditifs permet une analyse du signal d'entrée. Les réponses dans le domaine temporel (les diagrammes d'excitation) sont représentées à la sortie de 10 filtres auditifs. Le filtre centré sur 250 Hz n'est, par exemple, pas excité car cette fréquence n'est pas présente dans le signal alors que celui centré sur le premier harmonique du stimulus (500 Hz) est excité. On voit aussi que le pouvoir d'analyse d'un banc de filtres est limité par la largeur des filtres. Ceci est tout particulièrement vrai en haute fréquence car la largeur des filtres augmente avec leur fréquence centrale. Ainsi, la largeur du filtre centré sur 4750 Hz fait qu'il est excité par plusieurs harmoniques de 500 Hz (Figure 3). J'ai évoqué en introduction deux différentes cas de figure de sons complexes (les sons "résolue" et "non-résolue") dont nous verrons par la suite la définition rigoureuse. On peut cependant préciser dès à présent que la "résolvabilité" d'un son complexe dépend du nombre d'harmoniques par filtre auditif. 2-Le codage de la hauteur des sons complexes harmoniques. Avant toute chose, il convient maintenant de définir précisément ce que l'on entend par "son complexe harmonique" -qui sera souvent abrégé en "son complexe" dans cet ouvrage. De façon générale, on appelle son complexe tout son qui n'est pas un son pur et dont le spectre n'est donc pas limité à une unique raie. Un son complexe harmonique est quant à lui composé d'un ensemble de sons purs dont les fréquences sont toutes multiples d'une même fréquence que l'on appelle la fréquence fondamentale. Ainsi, il existe toujours une fréquence Grimaut 19 fondamentale F0 telle que le spectre S d'un son complexe harmonique puisse se décomposer mathématiquement de la façon suivante: S = ∑ k ⋅ F0 Ψ ⊂ [1;+∞[ k∈Ψ Ï est l'ensemble constitué des rangs des harmoniques présents dans le spectre. Ce son peut ainsi être représenté par son spectre, comme sur la figure 4. n=1 n=2 n=3 n=4 n=5 n=6 n=7 n=8 n=9 F0 2.F0 3.F0 4.F0 5.F0 6.F0 7.F0 8.F0 9.F0 Rang Fréquence Fig 4: Spectre schématique d'un son complexe harmonique de fréquence fondamentale F0 , avec Ï=[1,9]. La hauteur d'un son comme celui-ci sera approximativement égale à sa fréquence fondamentale F0 lorsque tous les harmoniques du son complexe sont en phase. On comprend bien, qu'un tel son ne contient pas nécessairement l'harmonique de fréquence F0 (dès que 1hÏ). Pour cette raison, on appelle souvent la hauteur évoquée par un son complexe harmonique la "hauteur virtuelle". Grimaut 20 La perception ou non d'une hauteur en absence de l'harmonique de rang 1 a donné lieu a un débat historique mettant en scène des hommes de science aussi illustres que Ohm (1843) et Helmholtz (1863, 1877). Ce premier, en se basant sur le théorème de Fourier, a fait l'hypothèse de la nécessaire présence de la fréquence fondamentale pour donner lieu à une hauteur. Cette hypothèse dont la preuve expérimentale manquait a été démontrée comme étant expérimentalement inexacte par Seebeck (1841, 1843). La reconnaissance scientifique de ce dernier n'était cependant pas suffisante à l'époque pour résister lorsque Helmoltz vint soutenir les travaux de Ohm. Il faudra attendre les travaux de Schouten en 1940 pour réhabiliter Seebeck et confirmer ses résultats. Il convient au passage de définir un vocabulaire associé à ces notions de sons complexes et de bande critique. Le spectre d'un son complexe est donc constitué d'un ensemble d'harmoniques equi-répartis en fréquence. Lors de l'excitation de la cochlée par un tel son, deux cas de figures sont possibles. Ces deux configurations sont représentées sur la figure 5. Grimaut 21 Son complexe résolu par le système auditif périphérique. Base Apex Son complexe non-résolu par le système auditif périphérique. Base Apex Fig 5: Représentation des deux configurations possibles (résolu et non-résolu) lors du passage d'un son complexe harmonique au travers du banc de filtres auditifs. En haut, tous les harmoniques sont isolés dans un filtre distinct. Le son est alors résolu. En bas, plusieurs harmoniques interfèrent dans les filtres. Le son est non-résolu. Sur cette figure où la cochlée est schématisée, des filtres auditifs ont été répartis ainsi qu'un son complexe. On voit bien que la largeur des filtres varie suivant leur position sur la cochlée. Ils sont larges à la base (codage des hautes fréquences) et étroits à l'apex (codage des basses fréquences). Suivant la fréquence fondamentale du son complexe et le rang de ses harmoniques, de nombreux harmoniques peuvent interférer dans des filtres ou au contraire y être isolés. Nous pouvons à présent définir la notion de "résolvabilité" évoquées en introduction: dans le premier cas, on dira que le son complexe est non-résolu par le système auditif périphérique et dans le second cas, qu'il est résolu. Ce vocabulaire est extrêmement Grimaut 22 important et sera réutilisé continuellement dans la suite de ce texte puisque cette thèse a pour objectif principal l'étude des différences perceptives conditionnées par la résolvabilité des signaux. Nous allons dans ce chapitre faire une revue non exhaustive des différents modèles qui ont été proposés dans la littérature pour expliquer par quels mécanismes le système auditif "calcule" cette hauteur virtuelle. Ces modèles se séparent en deux grandes classes: les modèles spectraux et les modèles temporels. La réalité physiologique de ces différents modèles suscite toujours des polémiques scientifiques entre les différentes équipes travaillant sur ce sujet. Les conclusions auxquelles aboutissent les études réalisées pendant ma thèse (voir à ce sujet les articles du chapitre 1) sont les suivantes: au moins deux modèles peuvent être potentiellement utilisés par le système auditif pour coder les sons complexes harmoniques. L'un serait sans doute de type spectral et l'autre temporel. Mais n'anticipons pas trop et présentons dans un premier temps les différents modèles proposés à ce jour dans la littérature. 2-1-Le codage spectral Ces mécanismes potentiels de codage de la hauteur, qui sont aussi appelés des mécanismes de codage "par la place", du fait de l'utilisation de la tonotopie cochléaire, ont été historiquement les premiers à être élaborés. Ils se regroupent en deux grandes classes de modèles: 2-1-1-Le modèle de Goldstein. Grimaut 23 Ce modèle a été développé initialement par Goldstein en 1973. Il a cependant été repris et revu par de nombreuses études jusque vers la fin des années 80 (Beerends & Houtsma, 1986; Faulkner, 1985; Gerson & Goldstein, 1978; Scheffer, 1983; Srulovicz & Goldstein, 1983). Il peut se décomposer en deux phases principales. Dans un premier temps, d'après les informations recueillies en sortie de périphérie auditive, les fréquences des différents harmoniques composant le signal sont isolées et mesurées. Le modèle prend en considération l'erreur potentiellement commise à ce niveau et le fait que la distribution de la fréquence mesurée suit, pour chaque harmonique, une loi gaussienne centrée sur cet harmonique. Une incertitude "gaussienne" (l'écart type de la distribution) existe donc dans la mesure de la fréquence de chaque harmonique. Une fois cette décomposition terminée, un mécanisme central permettrait de trouver la hauteur virtuelle du son complexe en comparant de façon systématique (en minimisant une variable mathématique) le spectre mesuré à un ensemble de spectres. Une brève description du modèle mathématique de Goldstein (Goldstein, 1973) est développée ci-dessous afin de préciser ce paragraphe. Grimaut 24 Fig 6: Dans le modèle de Goldstein, la fréquence de chaque harmonique est estimée avec une précision traduite par l'écart type âF d'une distribution gaussienne centrée sur la fréquence de l'harmonique. Comme l'illustration de la figure 6 le souligne, la fréquence de chaque harmonique est estimée avec une précision traduite par l'écart type âF d'une distribution gaussienne centrée sur la fréquence de l'harmonique. Remarquons au passage qu'il est indispensable à ce calcul que chaque harmonique puisse être isolé des autres composantes du son complexe. Il faut donc que le son complexe ait ses harmoniques résolus par le système auditif. Cette hypothèse avait pourtant été fortement remise en cause par Plomp, en 1964. Après détermination des N harmoniques (xk, ki[1,N]) contenus dans le signal, la minimisation de la variable ö² permet de trouver la fréquence fondamentale F0 ainsi que le rang ñ du premier harmonique présent. Grimaut 25 N ε 2 = ∑ [xk − (ñ + k − 1)F0 ] σ k2 2 k =1 De plus, la valeur de F0 peut directement être déterminée par une seconde formule extraite du travail de Goldstein. N F0 = ∑ k =1 (ñ + k − 1)xk σ k2 ñ + k −1 ∑ σ k k =1 N 2 Il faut remarquer toutefois une limitation de ce modèle qui sous-entend que tous les harmoniques présents sont consécutifs. De plus, il est remarquable que la phase n'a aucun rôle à jouer dans un calcul de ce type. Cette dernière assertion a été mise en défaut par de très nombreuses études (Bilsen, 1973; Buunen et al., 1974; Lundeen & Small, 1984; McKeown & Darwin, 1991) et tout particulièrement par les études de Shackleton & Carlyon (1994) et Carlyon & Shackleton (1994) qui montrent que sous certaines contraintes, la modification de la phase des seuls harmoniques impairs (en ajoutant une constante de à/2) peut doubler la hauteur perçue. Il est toutefois remarquable que la phase ne semble pouvoir influencer la hauteur perçue que lorsque les harmoniques constituant le stimulus ne sont pas résolus par le système auditif périphérique (Moore & Glasberg, 1989; Bilsen, 1973). Nous avons déjà vu que cette contrainte était exigée plus haut pour le calcul de la fréquence de chaque composante. Ce modèle ne semble donc utilisable dans le seul codage de la hauteur des harmoniques résolus par le système auditif périphérique. Cette limitation n'exclue pas ce modèle de l'ensemble des modèles potentiellement utilisables par le système auditif. Cependant il faudrait alors au Grimaut 26 moins deux modèles distincts. Celui-ci pour les harmoniques résolus et un second pour les harmoniques non-résolus. 2-1-2-Le modèle de Terhardt (Terhardt, 1972a,b; 1978) Il existe d'autres candidats pour le codage de la hauteur issue d'harmoniques spectralement isolés ou, en d'autres mots, résolus par la périphérie auditive. Le grand concurrent du modèle de Goldstein a été développé par Terhardt. Ce dernier suppose qu'un apprentissage pendant l'enfance nous permet d'associer mémotechniquement chaque hauteur tonale, c'est-à-dire chaque son pur de fréquence F, à un ensemble de hauteurs virtuelles potentielles (F/k avec kg[1,+'¦). Alors, lors de la présentation d'un ensemble d'harmoniques, chacun évoque un ensemble de fréquences fondamentales possibles. Celle qui est retenue est celle partagée par tous. Cette hypothèse d'un apprentissage vient de l'idée réaliste que les sons complexes harmoniques -qui sont extrêmement communs dans notre environnement naturel et participent largement aux signaux utiles pour la communication orale (les voyelles sont des sons complexes harmoniques)- puissent, avec de l'entraînement, être perçus comme une entité sonore à part entière, plutôt que comme un agrégat de sons purs de fréquences différentes. La présence effective de cet entraînement a été étayée par plusieurs études. Par exemple, des travaux ont montré que l'enfant acquerrait cette capacité à partir du 6ème ou du 7ème mois (Bundy et al., 1982; Montgomery & Clarkson, 1997). D'autre part, Hall & Peters (1984) et Peters & Hall (1984) ont montré que la hauteur évoquée par un son complexe inharmonique pouvait être influencée par une association prolongée de ce son avec un son complexe harmonique. 2-1-3-Conclusions Grimaut 27 Ce chapitre a présenté les deux plus grands modèles spectraux de la perception de la hauteur. Au cours de cette présentation, des critiques basées sur des résultats expérimentaux ont été apportées. Ces modèles ne parviennent pas à expliquer l'ensemble des données expérimentales et ont donc été pris pour cible par certains auteurs (Hartmann & Doty, 1996; Martens, 1983). Cependant, certains travaux récents apportent à nouveau du crédit à ces modèles spectraux (Brunstrom & Roberts, 1998; Lin & Hartmann, 1998). Ces auteurs supposent que la hauteur est calculée en comparant le spectre du son complexe à un ensemble de gabarits (une collection de spectres) qui ont été préalablement associés à une hauteur. D'autres auteurs donnent même les bases physiologiques potentielles de l'extraction de la hauteur (Fishmann et al., 1998). D'après ces derniers, la hauteur virtuelle pourrait être calculée en utilisant les propriétés tonotopiques du cortex auditif primaire. Les partisans de ces modèles reconnaissent pourtant que certains phénomènes (en particulier l'effet de la phase) peuvent difficilement être expliqués. Il me semble donc plus adroit d'envisager la possible coexistence de plusieurs mécanismes d'extraction de la hauteur qui seraient activés suivant les conditions de stimulation (la résolvabilité du signal complexe) et qui provoqueraient une unique sensation: la hauteur virtuelle. 2-2-Le codage "non-spectral" L'idée d'un codage non spectral a été introduite par Shouten en 1940. Sa théorie est la suivante: en sortie de l'étage périphérique de filtrage, plusieurs harmoniques interfèrent souvent dans certains filtres (lorsque les harmoniques sont non-résolus). Or, la périodicité globale de plusieurs harmoniques qui interfèrent est précisément égale à l'inverse de la fréquence fondamentale. On extrait donc la fréquence fondamentale, d'après Shouten, grâce au Grimaut 28 diagramme d'excitation résultant de l'interférence d'au moins deux harmoniques. C'est parce que ce type de codage ne tire pas profit de la tonotopie cochléaire qu'il a été appelé "nonspectral". Cependant, cette théorie a rapidement été désapprouvée. En effet, des auteurs ont montré deux résultats essentiels qui affaiblissent l'hypothèse de Schouten: premièrement, il a été vérifié dès 1973 qu'un ensemble d'harmoniques tous résolus peut donner naissance à une sensation de hauteur virtuelle (Bilsen, 1973). Deuxièmement, il a même été montré que les harmoniques résolus sont les plus "forts" ou les plus importants pour un codage performant de la hauteur (Moore et al., 1985; Ritsma, 1967). Cette théorie fut donc mise de coté. Cependant, elle a été reprise par la suite pour deux raisons principales: 1-Tout d'abord, Plomp (Plomp, 1964) a mis en évidence qu'un son complexe constitué de deux harmoniques suffisamment proches pour tomber dans la même bande critique pouvait quand même avoir une hauteur. Il conclue donc que le calcul de la hauteur, doit plus être basé sur la périodicité que sur la fréquence (Plomp, 1967). 2-Ensuite, en 1976, Burns et Viemeister (1976) ont mis en évidence qu'un bruit blanc modulé en amplitude pouvait donner naissance à une sensation de hauteur. Le spectre à long terme d'un tel signal étant plat, tout modèle spectral était voué à l'échec. Ainsi, plus récemment, un ensemble de modèles très performants reprenant l'idée initiale de Schouten a été développés. Ces modèles font l'objet du paragraphe ci-dessous. 2-3-Le codage de la hauteur par autocorrélation. Grimaut 29 Les modèles de cette classe (Meddis & Hewitt, 1991a,b; Bilsen & Ritsma, 1970; Brown & Puckette, 1989; Slaney & Lyon, 1990; de Cheveigné, 1993, 1998) sont tous issus de celui inventé par Schouten. En effet, il s'agit d'une analyse globale des diagrammes temporels d'excitation en sortie de périphérie auditive. Cependant, les sorties de toutes les bandes critiques sont exploitées pour déduire la hauteur, même si seule un unique harmonique y est présent. 2-3-1-La notion d'autocorrélation Ce paragraphe commencera par un bref rappel de la notion mathématique d'autocorrélation. Soit un signal s, échantillonné et contenant un nombre N d'échantillons; l'intercorrélation å de ce signal s avec lui même correspond à l'autocorrélation notée åss et est égale à: Φ ss (k ) = 1 N −k N −k ∑ s ( n) s (n + k ) n =0 Cette autocorrélation est maximum en 0 et, pour des signaux périodiques, elle présente des maxima à la même fréquence que celle du signal. La figure ci-dessous explicite le calcul du coefficient d'autocorrélation en un échantillon k particulier. Grimaut 30 Fig 7: Procédé de calcul d'une autocorrélation. Le signal s en haut de la figure est multiplié au même signal s décalé dans le temps de k échantillons pour obtenir le signal du bas. La valeur moyenne de ce signal entre k et N (représentée sur la figure par la ligne horizontale en pointillés) donne le coefficient d'autocorrélation au point k (åss(k)). On norme souvent ce coefficient par åss(0). 2-3-2-Une autocorrélation physiologique ? Voyons maintenant les différentes tentatives faites dans la littérature pour trouver une base physiologique au traitement corrélatif d'un signal auditif. Deux principaux auteurs ont développé des modèles utilisant un calcul de corrélation dans deux objectifs différents. Un excellent résumé de ces travaux et de leurs implications pourra être trouvé dans de Cheveigné (1999). Grimaut 31 Jeffress (1948) a développé un modèle de localisation spatiale des sources auditives basé sur un calcul d'intercorrélation entre les stimuli recueillis dans l'oreille droite et dans l'oreille gauche du sujet. Les bases et les sites physiologiques de cette intercorrélation ont été anatomiquement déterminés, en particulier chez le chat (ie. Schwartz, 1992; Smith et al., 1993) et le hibou (ie. Konishi et al., 1988; Irvine, 1992). Sans rentrer dans le détail, deux voies, l'une ipsilatérale et l'autre controlatérale provenant des cellules sphériques des noyaux cochléaires rejoindraient l'olive supérieure médiane. Les auteurs ci-dessus ont montré que la voie contralatérale est disposée de façon à introduire un gradient de retard alors que le retard de la voie ipsilatérale est fixe. Licklider (1956) fut le précurseur de l'idée largement reprise par la suite dans la littérature selon laquelle la sensation de hauteur serait issue d'un calcul autocorrélatif permettant la détermination de la période temporelle d'un signal auditif périodique (de type "son complexe harmonique" par exemple). Il n'y a pas eu pour le moment de confirmation anatomique de la réalité physiologique de ce modèle sauf peut-être l'étude de Casseday & Covey (1995) qui montre que la structure du noyau ventral du lemniscus latéral de la chauve-souris est appropriée au développement d'une "autocorrélation neuronale". Cependant, si cette hypothèse est encore peu portée par la neurophysiologie, peu d'alternatives semblent plus plausibles. De plus, ce modèle est suffisamment puissant dans l'explication de nombreuses données psychoacoustiques ou neuropsychologiques (ie. Meddis & Hewitt, 1991a,b; Cariani et Delgutte, 1996) pour être un candidat plébiscité par grand nombre de chercheurs. 2-3-3-Les modèles "autocorrélatifs". Grimaut 32 De nombreux auteurs ont participé à l'élaboration d'un modèle de codage de la hauteur utilisant la notion d'autocorrélation (Schouten, 1940; Meddis & Hewitt, 1991a,b; Bilsen & Ritsma, 1970; Brown & Puckette, 1989; Slaney & Lyon, 1990; Meddis & O'Mard, 1997). Le plus avancé, à mon avis et le plus cité dans ce domaine est sans conteste celui de Meddis & Hewitt de 1991 amélioré et validé par d'autres études (Meddis & O'Mard, 1997). J'ai donc choisi ici d'expliquer en détail les différentes étapes du fonctionnement de ce modèle puis, au travers de la littérature, de le confronter aux données psychoacoustiques existantes. 2-3-3-1 Le modèle de Meddis & Hewitt (1991a,b). Le modèle de Meddis & Hewitt peut être décomposé en cinq phases principales illustrées sur la figure 8: Grimaut 33 Fig 8: Figure extraite de Meddis & Hewitt (1991a) présentant les différentes étapes du modèle de codage de la hauteur qu'ils ont élaboré. • Simulation de la fonction de transfert de l'oreille externe et moyenne (Fig 8: Stages 1,2). Un simple filtre passe-bande a été utilisé. Ses coefficients sont: yi=0.8878.xi-0.8878.xi-2-0.2243.yi-1+0.7757.yi-2. • Passage au travers d'un banc de filtre simulant le filtrage périphérique de la cochlée (Fig 8: Stage 3). Grimaut 34 128 filtres auditifs de type "Gammatone" (Patterson et al., 1988) ont été régulièrement disposés entre 80 Hz et 8 kHz. On récupère donc à la sortie de cette phase 128 diagramme d'excitation relativement proches de ceux donnés par la formule de Moore & Glasberg (1987) et Glasberg & Moore (1990). Ces diagrammes sont calculés en convoluant le signal d'entrée par la réponse impulsionnelle gt(t) donnée par la fonction gammatone ci-dessous. g t (t ) = a.t n +1.e −2.πb.ERB ( f c ).t . cos(2πf c t + φ ) la fonction ERB donne la largeur d'une bande critique à une fréquence centrale fc donnée (Moore, 1986; Glasberg & Moore, 1990; Greenwood, 1961). Cette fonction vaut: ERB( f c ) = 24.7 + 0.108. f c a,b,n, fc et å sont les paramètres de la fonction (Patterson, 1976; Patterson et al., 1995). • Simulation des mécanismes neuro-transducteurs (Fig 8: Stages 4,5). Cette phase du modèle transforme la fonction modélisant le mouvement de la membrane basilaire en une fonction probabiliste décrivant le taux de décharge dans le nerf auditif post synaptique. Ce passage est précisément décrit dans Meddis (1986, 1988). • Autocorrélation dans chaque filtre pour détecter la périodicité de chaque diagramme d'excitation (ACF) (Fig 8: Stage 6). Grimaut 35 La fonction d'autocorrélation proposée par Licklider (1951, 1956, 1959, 1962) est ensuite appliquée aux 128 bandes pour déterminer la périodicité de chacune d'entre elles. On peut alors tracer un "autocorrélogramme" tel que celui de la figure 9. Un autocorrélogramme est une représentation d'un ensemble de fonction autocorrélatives. Le paramètre du modèle différenciant ces fonctions est indifféremment le numéro de la bande utilisée ou la fréquence centrale de cette bande. Grimaut 36 Fig 9: Cette figure extraite de l'article de Meddis & O'Mard (1997) donne quatre exemples d'autocorrélogramme. Ces simulations ont toutes été réalisées avec des sons complexes harmoniques de fréquences fondamentales 100 Hz. Les quatre cadres représentent cependant quatre conditions de stimulations différentes. -Les cadres a et b comparent les résultats obtenus en utilisant deux filtres passe bandes différents appelés LOW et HIGH (correspondant respectivement aux fréquences de coupure 125-625 Hz et 1375-1875 Hz). Tous les harmoniques sont ici en phase sinus (Si ϕn est la phase de l'harmonique de rang n, on a ∀ ng[1;+'¦, ϕn=0). -Les cadres c et d rendent eux aussi compte des résultats obtenus dans les deux régions LOW et HIGH mais avec des composantes ayant des relations de phases alternées (Si ϕ n est la phase de l'harmonique de rang n, on a les relations ∀ ng[1;+'¦, ϕ2n=0 et ϕ2n+1=π/2). L'ordonnée de ces graphiques donne la fréquence centrale du filtre auditif utilisé dans le modèle. 60 fonctions d'autocorrélation de 60 diagrammes d'excitations calculés en 60 fréquences centrales différentes sont représentées dans chaque cadre. La fonction d'autocorrélation résumée (SACF) correspondant à la somme de toutes ces fonctions autocorrélatives est représentée en dessous de chaque cadre. • Comparaison de ces périodicités pour extraire la périodicité commune correspondant à la hauteur (SACF) (Fig 8: Stages 7,8). Grimaut 37 Lorsque toutes les fonctions d'autocorrélation sont calculées, Meddis & O'Mard (1997) proposent de les ajouter afin d'obtenir la fonction SACF. Etant donné que chaque fonction d'autocorrélation donne la ou les périodicités en sortie d'un filtre, la somme de ces fonctions va donner la ou les périodicités communes ou en tous cas les plus communes à l'ensemble des filtres auditifs. Toujours d'après ces auteurs, la périodicité la plus commune correspondrait à la période de la hauteur perçue. Si cette périodicité n'est pas unique, il y a alors ambiguïté et deux hauteurs peuvent être perçues par le sujet. La figure 9 montre quatre exemples de calcul. Une périodicité commune de 10 ms (100 Hz) est facilement calculée grâce au SACF dans les exemples a, b et c. Dans l'exemple d, par contre, il y a ambiguïté. En effet deux périodes ressortent du modèle: 5 ms (200 Hz) et 10 ms (100 Hz). La hauteur perçue peut donc prendre, d'après le modèle, l'une ou l'autre de ces deux valeurs. Il est intéressant de remarquer que Meddis & O'Mard (1997) expliquent, grâce à ce même modèle la discriminabilité entre deux hauteurs. Il suffit, selon eux, de mesurer la distance euclidienne au carré (D²) entre les SACFs calculés pour ces deux sons. La discriminabilité entre deux sons complexes est alors proportionnelle à D². 2-3-3-2- confrontation de ce modèle aux données psychoacoustiques. Confrontons maintenant ce modèle aux nombreuses données psychoacoustiques de la littérature. Cette confrontation posant la question de la validité de ce modèle est encore un sujet de vive polémique entre les différentes équipes travaillant sur ce sujet (voir pour cela la note de Carlyon (1998) en réponse à Meddis & O'Mard (1997). Cette thèse a en partie pour objectif de clarifier ce débat. Grimaut 38 Les paragraphes suivants concernent tous un phénomène psychoacoustique particulier observé expérimentalement et le confrontent au modèle ci-dessus. 2-3-3-2-1- La hauteur des sons complexes composés d'harmoniques en phase sinus ou alternées. Il a déjà été signalé précédemment que sous certaines conditions, les relations de phases entre les harmoniques d'un son complexe pouvaient altérer la hauteur de celui-ci. Ainsi, Bilsen (1973) a montré que la phase n'influençait pas la hauteur d'un son complexe A constitué de tous ses harmoniques et que cette hauteur était identique à celle d'un son B constitué de deux uniques harmoniques de rang inférieur à 8. Par contre, si le rang des deux harmoniques constituant le son B est supérieur à 8, alors, la phase agit sur la hauteur de ce dernier. Les travaux les plus aboutis sur l'influence de la phase sont à mon avis ceux de Shackleton & Carlyon (1994). A titre d'exemple, ces travaux sont détaillés ci-dessous. Grimaut 39 Fig 10: Meddis & O'Mard (1997). Comparaison de deux sons complexes composés des 10 premiers harmoniques de 100 Hz et représentés temporellement. Tous les harmoniques de celui du haut sont en phase sinus (Si ϕ n est la phase de l'harmonique de rang n, on a ∀ ng[1;+'¦, ϕn=0) et les harmoniques de celui du bas sont en phases alternées (on a les relations ∀ ng[1;+'¦, ϕ2n=0 et ϕ2n+1=π/2). Il est remarquable, et cela est très bien visible sur la figure 10, que le passage en condition de phase alternée divise par deux la période temporelle d'un son complexe harmonique. De plus Shackleton & Carlyon (1994) ont montré que cette propriété restait vraie après le passage au travers d'un filtre cochléaire à condition que la fréquence centrale du filtre soit suffisamment élevée par rapport à la fréquence fondamentale du son incident pour que plusieurs harmoniques interfèrent dans le filtre (cadre b & d sur la figure 11). Si au contraire la largeur Grimaut 40 du filtre est telle qu'un harmonique s'y trouve isolé, cette propriété n'est plus vérifiée (cadre a & c sur la figure 11). Fig 11: Shackleton & Carlyon (1994). Sortie de deux filtres cochléaires centrés sur 250 Hz (a & c) et 4600 Hz (b & d) en réponse à un son complexe de fréquence fondamentale 1250 Hz ayant ses harmoniques en phase sinus (a &b) ou en phases alternées (c &d). Cette observation a conduit Shackleton & Carlyon à s'interroger sur la hauteur qui serait évoquée par les sons décrits ci -dessus. Les résultats qu'ils ont obtenus sont présentés sur les figures 12 et 13. Grimaut 41 Fig 12: Shackleton & Carlyon (1994). Rapport entre les deux fréquences fondamentales de deux sons complexes A et B donnés par le sujet comme ayant la même hauteur. Ces sons A et B sont filtrés dans trois régions fréquentielles différentes notées LOW, MID et HIGH et correspondant respectivement à des fréquences de coupures de 125-625 Hz, 1375-1875 Hz ou 3900-5400 Hz. Cette région ainsi que leur fréquence fondamentale est indiquée dans chaque cadre. Grimault 43 Fig 13: Shackleton & Carlyon (1994). Le sujet a ici pour consigne d'indiquer si un son complexe de fréquence fondamentale F0 (indiqué en abscisse) et ayant des relations de phases alternées ressemble davantage à un son complexe en phase sinus de fréquence fondamentale F0 ou bien au même son de fréquence fondamentale 2F0. L'ordonnée de ces graphes indiquent la différence entre le pourcentage de ces deux réponses possibles. Les trois cadres correspondent à des conditions de filtrage différentes (LOW, MID et HIGH). Grimault 44 Il est donc révélé par cette remarquable expérience que suivant la fréquence fondamentale et suivant la région de filtrage, la hauteur d'un son complexe de fréquence fondamentale F0 en phase alternée peut être soit F0 ou 2F0. Les auteurs ont estimé que cette hauteur dépendait du nombre moyen d'harmonique par bande critique. Si le son complexe est tel que moins de 2 harmoniques sont présents, en moyenne, par filtre auditif, sa hauteur sera F0. Par contre s'il y a, en moyenne, plus de 3.25 harmoniques par filtre, sa hauteur sera 2F0. Ils ont alors instauré une nomenclature largement reprise par la suite (Carlyon, 1998; Micheyl & Carlyon, 1998; Plack & Carlyon, 1995; Carlyon, 1996a,b). Les sons en phase alternée dont la hauteur est F0 (moins de 2 harmoniques/filtre) seront dits "résolus" et ceux dont la hauteur est 2F0 (plus de 3.25 harmoniques/filtre) seront "nonrésolus". On voit que cette définition qui utilise le nombre d'harmoniques par filtre laisse la place (entre 2 et 3.25) à des sons ni entièrement résolus ni entièrement non-résolus. La hauteur de ces sons sera ambiguë, parfois F0 et parfois 2F0. Ceci explique les scores proches de 0 dans le cadre 2 de la figure 13. Voyons maintenant les prédictions que le modèle de Meddis & O'Mard (1997) nous permet de réaliser. Grimault 45 Fig 14: Meddis & O'Mard (1997). Cette figure donne des exemples SACF réalisés avec différents sons complexes filtrés dans trois régions fréquentielles distinctes (LOW, MID et HIGH) correspondant aux trois colonnes de la figure. Chaque ligne représente une condition de stimulation: Ligne 1: F0=150 Hz, Phases sinus. Ligne 2: F0=150 Hz, Phases alternées. Ligne 3: F0=300 Hz, Phase sinus. Numérotons, par souci de clarté, les cadres de la figure 14 de gauche à droite et de haut en bas. Le cadre numéro 1 correspond alors à un son complexe ayant un F0 de 150 Hz, filtré en région LOW et ayant ses harmoniques en phase. Le cadre 2 correspond au même son filtré en région MID. Les cadres 1,4,7 et 8 correspondent alors à des conditions résolues et les cadres 3 et 6 à des conditions non-résolues. On voit très clairement sur ce graphique que le modèle prédit une hauteur de 150 Hz pour les 5 premiers cadres et une hauteur de 300 Hz pour les Grimault 46 cadres 7, 8 et 9. Il est remarquable que le cadre 6, correspondant à un son complexe nonrésolu de F0=150 Hz ayant des harmoniques en phases alternées laisse prédire une hauteur de 300 Hz ou tout au moins une forte ambiguïté de hauteur entre F0 et 2F0. Le modèle répond donc bien ici aux exigences des données de psychoacoustique. Ce point n'est contesté par aucun auteur et même les équipes de recherche les plus critiques du modèle de Meddis reconnaissent le bon comportement de son modèle dans cette situation expérimentale (Carlyon, 1998). 2-3-3-2-2- La discrimination de la hauteur des sons complexes harmoniques. Le second point que j'aborde maintenant est, au contraire, fortement débattu et fait toujours l'objet de débats. Il est cependant particulièrement important puisque trois des cinq études de ce document consistent précisément à mesurer des seuils de discrimination de F0. Avant toute chose, il est indispensable de se persuader que la discrimination de deux sons complexes dépend de la différence qu'il existe entre leurs deux hauteurs virtuelles. Cette discrimination est indépendante de la discrimination des différents harmoniques entre eux. Moore & Glasberg (1990) ont montré ce résultat et nous le tiendrons dorénavant pour acquis. Il s'agit dans ce paragraphe d'expliquer les données de Schackleton & Carlyon (1994) qui mettent en évidence des meilleurs seuils de discrimination de hauteur pour des sons complexes résolus que pour des sons complexes non-résolus. Pour percevoir une différence de hauteur entre deux sons complexes qui se succèdent, il faut donc une différence de fréquence fondamentale (FDL) plus faible pour les sons résolus (de l'ordre de 1% du F0) que pour les Grimault 47 non-résolus (de l'ordre de 3% du F0). Ces données sont résumées dans la figure ci-dessous extraite de Carlyon (1998). Figure 15: Carlyon (1998). Seuils de discrimination de hauteur entre des sons complexes de fréquence nominale 88 ou 250 Hz filtrés dans les régions LOW, MID et HIGH. Par souci de comparaison, les seuils sont exprimés en pourcentage de la fréquence fondamentale nominale. Les conditions 88-LOW, 250-LOW et 250-MID sont résolues et les conditions 88MID, 88-HIGH et 250-HIGH ne sont pas résolues. Meddis et O'Mard, en 1997, ont enrichi le modèle initial de Meddis & Hewitt (1991) d'une fonction "différence" permettant une mesure de la discriminabilité de deux sons complexes harmoniques. Il s'agit en fait d'une simple observation de la différence entre les SACFs calculés pour chacun des deux sons. Plus cette différence est ample, plus les sons seront Grimault 48 facilement discriminés (reconnus comme différents) par le sujet. La figure 16 donne un exemple concret de ce procédé. Figure 16: Meddis & O'Mard (1997). SACFs (colonne de gauche) et fonctions "différences" (colonne de droite) pour des signaux complexes ayants des F0 de 100 et 102 Hz et filtrés dans les régions LOW (ligne du haut) et HIGH (ligne du bas). Sur cette figure, la condition du bas correspond à des sons non-résolus et celle du haut à des sons résolus par le système auditif périphérique. D'après les auteurs de cet article, on reconnaît cela, en particulier, à la forme des SACFs. Ils sont bien nets (en haut) en condition résolue et beaucoup moins (en bas) en condition non-résolue. De même, les fonctions différences qui en Grimault 49 sont déduites sont beaucoup plus amples en résolu (en haut à droite) qu'en non-résolu (en bas à droite). Les auteurs déduisent que la mauvaise disciminabilité de deux sons non-résolus est directement imputable à des fonctions "différences" confuses et peu amples. L'élévation des seuils de discrimination en condition non-résolu est donc dû, pour ces auteurs, à la forme des SACFs représentant les deux sons. Cette hypothèse a pourtant été durement critiquée par le travail de Carlyon (1998) qui suggère que la forme du SACF d'un signal soit directement liée à la région où ce signal est filtré et non pas à sa résolvabilité. La discriminabilité d'un signal, par contre, est liée à sa résolvabilité per se et pas à l'enveloppe de son spectre (Shackleton & Carlyon, 1994; Carlyon & Shackleton, 1994). Figure 17:Carlyon (1998). SACFs de sons complexes filtrés dans trois régions spectrales LOW (125-625 Hz), MID (1375-1875 Hz) et HIGH (3900-5400 Hz) et dont les F0 sont fixés à 88 Hz et 250 Hz. Grimault 50 La figure ci-dessus propose ainsi un contre exemple à l'idée de Meddis & O'Mard. En effet, les SACFs 1,2 et 4 correspondent à des conditions résolues. Au contraire, les SACFs 3,5 et 6 représentent des sons non-résolus. On comprend alors bien que la différence de leur forme peut expliquer une moindre discriminabilité pour les sons 5 et 6 (non-résolus) que pour les sons 1 et 2 (résolus). Cependant, cette différence ne peut pas expliquer une discriminabilité différente entre les sons 3 (non-résolus) et 4 (résolus) étant donné que les SACFs ont la même allure générale. La mauvaise discriminabilité du son 3 par rapport au son 4 a pourtant été expérimentalement prouvée (cf fig 15). 2-3-3-2-3- Hauteur d'un son complexe ayant un harmonique décalée en fréquence. Grimault 51 Figure 18: Meddis & O'Mard (1997). Hauteurs perçues par les sujets de l'expérience de Darwin et al. (1994) ou prédites par le modèle (avec différentes constantes de temps) lors du décalage de le 4ème harmonique d'un son complexe de fréquence fondamentale 150 Hz. Le dernier phénomène psychoacoustique qui peut être prédit par le modèle consiste en un décalage de la hauteur perçue par un sujet (Roberts & Brunnstrom, 1998; Darwin et al., 1994) au fur et à mesure du décalage de la fréquence d'un de ses harmoniques. Le rang de cet harmonique doit être préférentiellement faible. La hauteur est alors "tirée" dans le sens du décalage jusqu'à un maximum à partir de laquelle elle retourne à sa valeur initiale. Ce résultat ainsi que l'aptitude du modèle à prédire ce phénomène n'a pas, à ma connaissance, été remis en cause. Enfin, pour finir sur ce point, notons que ce résultat qui nous entraîne déjà Grimault 52 vers l'analyse de scènes auditives sera à nouveau développé dans la deuxième partie de cette mise au point bibliographique sous ce nouveau point de vue. Le modèle de Meddis peut encore expliquer toute une gamme de résultats dans le détail desquels nous ne rentrerons pas puisqu'ils s'éloignent de notre champ d'investigation. Par exemple et entre autres, ce modèle peut expliquer la sensation de hauteur évoquée par la répétition sans blanc d'une bande temporelle de bruit blanc(Meddis & Hewitt, 1991a; Bilsen & Ritsma, 1970; Wiegrebe et al., 1998; Yost, 1996) ou celle évoquée par un bruit modulé en amplitude (Meddis & Hewitt; 1991a). 2-3-3-2-4- Critique du modèle autocorrélatif de Meddis & Hewitt (1991). Il ne s'agit pas ici de remettre en cause la puissance de ce modèle. Cependant, il me semble intéressant d'exposer les principales critiques qui lui ont été faites dans la littérature. Tout d'abord, il faut bien se rendre compte que ce modèle est exclusif de tout autre. Il est destiné, par ses auteurs, à expliquer tous les phénomènes qui se rapportent à la perception de la hauteur. Il peut être amélioré, pour prendre en compte de nouvelles données expérimentales mais on ne doit pas avoir besoin de substituer à lui un autre modèle (comme, par exemple, un des modèles spectraux exposés précédemment) pour répondre à un problème particulier. L'intitulé de l'article de 1997 de Meddis et O'Mard peut ainsi être traduit en Français par "Un modèle unitaire de la perception de la hauteur". Il a donc une vocation universelle. Les principaux opposants de ce modèle sont précisément opposés à cette unicité. Seuls quelques auteurs mettent en doute qu'un procédé autocorrélatif puisse être utilisé (Kaernbach & Grimault 53 Demany, 1998), par le système auditif, pour extraire la hauteur d'un son. Les autres pensent que ce type de modèle pourrait bien être utilisé sous certaines contraintes, mais que d'autres stratégies doivent pouvoir parfois être mises en oeuvre. Ils pensent donc que nous disposons de plusieurs stratégies de codage de la hauteur qui donnent pourtant naissance à une sensation unifiée. Carlyon & Shackleton (1994) ont obtenu des données suggérant l'existence de plusieurs stratégies. Cette question cruciale est au coeur des études 1 et 2 de ce document. Ces deux études apportent des éléments qui sont favorables à l'hypothèse duale de Carlyon & Shackleton (1994). Les critiques et remarques sur ce modèle que je vais à présent passer en revue peuvent être répertoriées en trois catégories. Tout d'abord j'exposerai les arguments en faveur d'une multiplicité des modèles utilisables par le système auditif pour extraire la hauteur d'un son complexe harmonique. Deuxièmement, je ferais une très brève revue des pistes neurophysiologiques dont nous disposons pour infirmer ou au contraire confirmer cette théorie. Enfin, je ferais part des critiques intrinsèques auxquelles ce modèle à été confronté. 1-Argument en faveur de l'existence de plusieurs stratégies de codage de la hauteur. Grimault 54 Figure 19: Carlyon & Shackleton (1994). Aptitude des sujets, exprimée en d', à comparer la hauteur de deux sons complexes harmoniques. Dans le cadre de gauche, ces sons ont un écart de 3.5% entre leur F0; à droite, cet écart est égal à 7.1%. Plus le d' est important, mieux les sujets sont parvenus à détecter la différence de hauteur. Les groupes de lettres R-R indiquent que les deux sons à comparer sont résolus, U-U indique qu'ils sont non-résolus. Des résultats dans des conditions de résolvabilité mixtes (R-U) sont présentés sur ce graphique. L'abscisse indique la région spectrale de chaque son constituant la paire à comparer. La figure ci-dessus extraite de leur article met en évidence que des sujets ont des difficultés particulières à comparer la hauteur de deux sons complexes lorsque l'un d'eux est résolu et l'autre non-résolu. La comparaison de la hauteur de deux sons tout deux résolus ou tout deux non-résolus pose comparativement moins de difficultés. Les auteurs expliquent ces données en suggérant l'existence de deux stratégies duales de codage de la hauteur. L'une serait spécialisée dans le codage de la hauteur des sons complexes résolus et l'autre dans le codage de la hauteur des sons complexes non-résolus. Grimault 55 2-Données de la physiologie. Au niveau physiologique, ce débat n'est pas plus avancé. Evans (1978) explique que l'information transitant par le nerf auditif peut être utilisée à la fois pour un codage de la hauteur par la place ou bien par la périodicité. Des travaux plus récents (Langner, 1997; Langner et al., 1997) explorant la physiologie du cortex auditif (A1) montrent une représentation orthogonale de la hauteur et de la fréquence (i.e. de la périodotopie et de la tonotopie) dans A1. Ceci laisse la place à tout type d'hypothèse sur le procédé d'extraction. Enfin, seules quelques études comme celle de Langner & Schreiner (1988) ou encore celle de Schulze & Langner (1997a,b) seraient plutôt favorables à un modèle temporel. Pour rendre la confusion à ce niveau encore plus complète, Steinschneider et al. (1998) apportent quant à eux des arguments physiologiques en faveur de la présence de deux mécanismes d'encodage de la hauteur dans A1 en fonction de la résolvabilité du son incident. Les travaux les plus informatifs dans ce domaine sont sans doute ceux de Cariani et Delgutte (Cariani & Delgutte, 1996a,b). Ces auteurs ont procédé à l'enregistrement dans le nerf auditif du chat des trains d'impulsion évoqués par différents stimuli qui ont la particularité de faire naître chez l'homme une sensation de hauteur. A partir de ces enregistrements, ils ont calculé la distribution des intervalles entre deux pics consécutifs (intervalles du premier ordre) et celle des intervalles consécutifs et non-consécutifs (intervalles du tout ordre). Cette deuxième distribution correspond schématiquement à un calcul d'autocorrélation du train d'impulsion. Ils ont conclu que la hauteur et ses propriétés pouvaient largement être prédites sur la base de la distribution des intervalles interpics de tout ordre. La distribution des intervalles du premier ordre est intensité-dépendante et convient donc moins bien pour une prédiction satisfaisante de la hauteur. Ces résultats apportent donc des éléments physiologiques forts en faveur d'un modèle autocorrélatif et vont à l'encontre des suggestions de certains théoriciens d'un modèle Grimault 56 spectral du codage de la hauteur. En effet, ces derniers, comme Srulovicz & Goldstein (1983) supposent l'existence, à un niveau central, d'un spectre interne permettant l'extraction de la hauteur. D'après eux, ce spectre trouverait son origine dans le filtrage des trains d'impulsions de chaque fibre auditive. Dans le cadre de cette théorie, la distribution des intervalles du premier ordre devraient donc être prépondérante pour l'extraction de la hauteur. Cependant, ces résultats viennent très récemment d'être remis en cause par un élégant protocole de psychoacoustique. Cette étude et ses implications sont détaillées dans le paragraphe suivant. 3-Mise en cause de la réalité physiologique d'une autocorrélation "mathématique"; premier pas vers l'élaboration d'une fonction corrélative hybride plus représentative du fonctionnement du système auditif. Très récemment, Kaembach & Demany (1998) ont mis en évidence qu'un classique calcul autocorrélatif échouait à rendre compte de la hauteur évoquée par des stimuli constitués de trains de clicks. Dans le cadre de cette expérience et d'après le modèle de Meddis & Hewitt (1991), lors de l'excitation du système auditif par un train de click, on "récupère" ce même train de click dans le nerf auditif. D'autre part, un tel train de clicks évoque une faible sensation de hauteur. On peut ainsi tester directement si la saillance de la hauteur calculée en effectuant une autocorrélation de ce stimulus coïncide avec la saillance de la hauteur rapportée par le sujet. Il s'avère qu'une simple autocorrélation (détermination de l'intervalle interclicks d'ordre quelconque le plus commun) prédit mal les résultats obtenus. Il faudrait modifier ce calcul d'autocorrélation afin que les périodicités du signal détectées correspondent uniquement à des Grimault 57 pics d'amplitudes adjacents (détermination de l'intervalle interclicks d'ordre un le plus commun). Jusqu'ici, la question de l'existence d'un unique modèle d'extraction de la hauteur (corrélatif ?) dans toutes les situations ou plutôt de l'existence d'au moins deux modèles (l'un spectral et l'autre autocorrélatif ?) n'a pas eu de réponse entièrement satisfaisante, ni de la part des psychoacousticiens, ni de celle des neurophysiologiques. C'est pourquoi nous avons entrepris les deux études (études 1 et 2) qui ont pour objectif d'apporter des éléments de réponse à cette question en utilisant les outils de la psychoacoustique. 3-L’analyse de scène en audition. La seconde grande partie de ce travail, constituée des études 3, 4 et 5, a pour objectif de montrer l'importance d'un codage performant de la hauteur pour des tâches auditives particulières qui sont aussi bien quotidiennes qu'indispensables. Je me suis penché en particulier sur le vaste domaine de l'analyse de scènes en audition. Qu'est ce que l'analyse de scènes ? A tout instant, une multitude de sons, de bruits... nous parviennent à l'oreille. Certains sont informatifs alors que d'autres ne le sont pas et gênent notre perception. Dans le cas le plus fréquent, il s'agit, pour nous d'extraire d'un mélange sonore un signal particulier correspondant par exemple à la voix de notre interlocuteur. Les autres signaux nous font alors l'effet d'un bruit ambiant. On appelle "scène auditive" un Grimault 58 mélange de plusieurs sons. Notre système auditif analyse à tout instant cette scène pour en extraire les différentes composantes. Les mécanismes impliqués sont complexes et multiples, mais nous essayerons dans cette partie de donner une vue d'ensemble de quelques uns de ces mécanismes ainsi que de montrer dans quelle mesure la hauteur d'un son peut être un facteur important pour l'isoler d'un fond sonore. Cette analyse ne nous demande presque aucun effort. Elle n'engendre de la fatigue que dans des situations exceptionnelles (comme dans une situation de "cocktail party") et pour des personnes ayant le plus souvent une audition pathologique. Elle est pourtant d'une complication extrême. Il faut se rendre compte comme le dit Bregman (Bregman, 1990) que cette tâche est d'une difficulté comparable à celle de déterminer combien de bateaux, de quels types et navigant dans quelles directions, sont présents sur un lac en n'observant que les ondulations produites au niveau de la berge. Les bateaux simulent ici les sources sonores qui peuvent être de plusieurs sortes (une voix, un bruit de voiture, de la musique...) et qui peuvent se déplacer (comme la voiture) et les ondulations de la berge simulent les vibrations du tympan. Soulignons que ce vaste champ d'étude est intrinsèquement lié à l'étude de la perception de la hauteur puisque cette sensation, comme nous l'avons vu en première partie, nous est évoquée par un ensemble de sons purs groupés dans un même flux auditif. Ainsi, Hartmann (1988) n'hésite pas à dire que l'intégration ou la ségrégation de sons entre eux est un des multiples aspects de la perception de la hauteur. Nous donnerons dans les paragraphes qui suivent un bref aperçu des mécanismes nous permettant d'analyser les mixtures sonores afin de rendre plus intellligibles les études 3, 4 et 5. 3-1-L’analyse par schémas Grimault 59 Ces mécanismes peuvent être regroupés au sein de deux grandes classes. La première de ces classes concerne des mécanismes de haut niveau (corticaux et sous-corticaux). Il est remarquable que nous puissions mémoriser, principalement au cours de notre enfance, des groupes de sons auxquels nous associons une signification particulière. Lorsque l'un de ces sons ou de ces groupes de sons nous parvient, nous le reconnaissons "globalement" comme entité sonore distincte, même s'il est partiellement masqué par d'autres sources. Ainsi, chacun d'entre nous connaît et reconnaît facilement son prénom et nous parvenons à l'isoler et à le percevoir au milieu d'un brouhaha important. Ce mécanisme d'analyse porte le nom d'analyse par schémas (Bregman, 1990). Les auteurs entendent par schéma les caractéristiques spectrales ou temporelles d'un son qui permettent sa reconnaissance par le sujet. Ce mécanisme est automatique et ne requiert pas nécessairement l'attention du sujet. Cependant, la reconnaissance de certains schémas, moins connus ou en tout cas moins fréquents peut être largement facilitée par la mise en oeuvre de processus attentionels conditionnés par le contexte sémantique ou tout simplement par la situation à laquelle est confronté le sujet. Ces processus de hauts niveaux n'ont pas fait l'objet de recherche complémentaire au cours de mon doctorat. Sans toutefois les omettre complètement, je ne rentrerais donc pas dans le détail de ces mécanismes. 3-2-L’analyse primitive des scènes auditives.- Une question importante, toutefois, est de savoir comment le jeune enfant a été initialement capable de se constituer sa "collection" de schémas. Il faut alors nécessairement postuler que d'autres mécanismes, sans doute plus primaires et antérieurs, permettent eux aussi d'analyser les scènes auditives. Ces mécanismes de bas niveau pourraient alors permettre à l'enfant Grimault 60 l'élaboration des schémas dont il a besoin. Il y a peu de doutes que ces mécanismes soient utilisés quotidiennement et préalablement à toute analyse et à toute reconnaissance. On appelle ces traitements: l'analyse primitive des scènes auditives (Bregman, 1990). GROUPE ENTENDRE + GROUPE + ENTENDRE = Fig 20. En haut, sonagrammes respectifs des mots "groupe" (à gauche) et "Entendre" (à droite); En bas, sonagramme du mélange "groupe"+"Entendre". Pour faire le parallèle avec la vision, on voit bien sur la figure 20 que sans connaître préalablement et individuellement chaque entité visuelle correspondant chacune à un mot ("groupe" et "Entendre"), il semble difficile de les séparer lorsqu'elles sont présentées simultanément. Nous parlons ici d'isolement, de séparation ou même de ségrégation de différentes sources auditives. Toutefois, une bonne analyse de scène ne fait pas que séparer des événements simultanés, elle regroupe aussi les événements auditifs qui se correspondent. Par exemple, chacun des bruits de pas de quelqu'un s'éloignant de vous ne sera pas pris isolément mais Grimault 61 groupé aux autres dans une même source. Vous pourrez alors savoir, en observant la décroissance de l'intensité de cette source que la personne s'éloigne. De même, chacun des mots de votre interlocuteur appartient à la même source sonore. Si tel n'était pas le cas, lorsque plusieurs locuteurs parlent simultanément, vous auriez des difficultés à reconstituer les phrases de chacun d'entre eux à partir des mots prononcés par tous. Deux type d'analyses sont donc nécessaires. L'analyse des sources simultanées fera l'objet de la première partie de cet exposé alors que nous aborderons l'analyse de sources séquentielles dans un deuxième temps. La première de ces analyses permet donc de séparer les événements auditifs que nous appellerons dorénavant des flux auditifs. La seconde regroupe dans le même flux auditif des événements non-simultanés qui ont cependant la même origine. 3-2-1-L’analyse de sources simultanées Le principe de base de l'analyse primitive des scènes auditives est trivial et consiste à associer entre eux les sons qui partagent entre eux des caractéristiques physiques communes. Ce principe donne lieu à des règles de similitude plus ou moins influantes dans la prise de décision de grouper ou de séparer deux sons. Ci-dessous, une liste non exhaustive de ces principes permet d'éclaircir mon propos. Ce paragraphe, en rappelant les règles du groupement auditif, permettra de lire la cinquième étude sous le jour nouveau de l'analyse de scènes. 3-2-1-1-La corrélation temporelle (principe du destin commun) Cette règle vient d'une double constatation. Tout d'abord, il existe une faible probabilité que deux sons sans rapport l’un avec l’autre démarrent et s’arrêtent simultanément. Une stratégie Grimault 62 "ancien plus nouveau" peut donc être efficace pour détecter l'arrivée dans le paysage sonore masque 20 dB signal amplitude amplitude d'une seconde source et la séparer ainsi de la source initiale. 30 ms masque 60 dB signal temps temps Fig 21: Rasch (1978). Cette figure met en évidence le groupement des sons simultanés. Un démasquage important (de l’ordre de 40 dB) résulte d’une désynchronisation de 30 ms du masque et du signal. On explique ce phénomène par la distinction du signal et du masque en deux flux distincts. Rasch, en 1978, a mis en place une des expériences mettant le mieux en évidence l'influence de ce phénomène. Cette expérience consiste à mesurer et à comparer la quantité de masquage produite par un masque sur un signal lorsque ces deux stimuli sont synchronisés et lorsqu'ils sont décalés de 30 ms. Un préalable est toutefois nécessaire pour bien comprendre son raisonnement. Rasch fait l'hypothèse fondamentale qu'une importante partie du démasquage induit par la désynchronisation est dûe à l'attribution, par le système auditif, de deux flux auditifs distincts, l'un pour le masque et l'autre pour le signal. Le démasquage de 40 dB qu'il observe peut donc, d'après lui être largement attribué à cette ségrégation. Grimault 63 La seconde constatation est la faible probabilité que les fluctuations temporelles de deux sources sonores distinctes soient corrélées. Ainsi, des sons modulés en amplitude de façon coordonnée (comodulée) auront tendance à être regroupés au sein de la même source ou du même flux auditif. C'est ce phénomène que les psychoacousticiens désignent sous le nom de Fréquence "démasquage par comodulation" (CMR) et qui est illustré sur la figure ci dessous. Temps Fig 22: Le pouvoir masquant d'une bande spectrale de bruit modulé en amplitude et centré sur le signal (un son pur) est diminué en ajoutant deux autres bandes spectrales comodulées à la première et spectralement décalées. Le fait qu'ajouter de l'énergie à un masque déjà présent puisse engendrer un démasquage a considérablement étonné le milieu de la psychoacoustique et de nombreux auteurs se sont alors penchés sur ce phénomène (eg. Hall et al., 1984; Hick & Bacon, 1995, Bacon et al., 1997). Grimault 64 Finalement, ceci est un argument supplémentaire à la théorie de l'analyse de scènes. L'organisation en sources auditives permet en effet de grouper perceptivement les trois bandes de bruit et ainsi d'extraire le son pur comme une source distincte, ce qui entraîne un démasquage. Il n'est pas impossible que ce type de mécanisme (Bregman et al., 1985), consistant en un suivi des modulations d'amplitude, puisse être utilisé pour séparer deux voix concurrentes. De même, une modulation de fréquence cohérente peut permettre de grouper entre eux des objets sonores (Mc Adams, 1989) même si cet indice de groupement semble de faible niveau de hierarchie. Remarquons ici que la cohérence temporelle des harmoniques constituant un son complexe pourrait bien être un fort facteur d'intégration. 3-2-1-2- Progression de la transformation, continuité et lenteur. Une simple règle de continuité postule que les transformations que subit une source doivent être lentes et surtout continues. Ainsi toutes les grandeurs physiques caractérisant le flux auditif: fréquence, intensité, hauteur... peuvent varier; mais si la variation est trop brutale, l'analyse par le système auditif conclura qu'un nouveau flux s'est superposé au premier. Cette règle peut donc s'appliquer à chacune des dimensions du signal sonore. Observons tout d'abord l'aspect fréquentiel de la question. Lorsque le spectre d’un son devient subitement plus complexe (cf figure 23), en gardant ses composants initiaux, on continue à entendre le son initial plus un nouveau. On peut entendre, Grimault 65 par exemple, un son pur perdurer au travers d’un bruit blanc temporaire dans une situation Intensité (arb) expérimentale telle que celle représentée sur la figure 23. Intensité (arb) temps (arb) fréquence (arb) temps (arb) Fig 23: Double représentation d'un signal constitué d'un son pur succédé d'un bruit blanc auquel succède à nouveau un son pur identique au premier. La forme temporelle du signal est représentée en haut. En bas, une représentation en trois dimensions (temps, fréquence et intensité) est proposée. Toutes les unités sont arbitraires. Comme pour la fréquence, ceci est vrai pour l'intensité du son. Warren, en 1982, a mis ce phénomène en évidence. Il l'a dénommé la continuité homophonique. Grimault 66 II T I I + T T Fig 24: Le protocole expérimental de Warren (1982) est représenté sur cette figure. En présentant au sujet le son représenté en haut de la figure (i.e. un son dont l'intensité augmente brutalement sur une courte durée), il lui semble percevoir les deux sons du bas (i.e. d'une part un son continu et d'autre part une brève bouffée sonore). Lorsque soudain l'intensité d'un son augmente très brusquement, le sujet a la sensation d'être en présence d'un son continu ayant une intensité constante auquel est venu s'ajouter un second son. Enfin, la sensation de provenance des sons doit elle aussi être continue pour éviter la scission d'une source en deux flux. Bregman (1991) montre cette dernière assertion au moyen du protocole de la figure 25. Grimault 67 I D G I T I T D G I T I T D G I T T Fig 25: Illustration du protocole imaginé par Bregman (1991). Dans le cas 1, le sujet perçoit un seul son devant lui. Dans le cas 2, perception d’un seul son se déplaçant vers la droite et dans le cas 3, perception d’un son devant et d’un deuxième à droite. La direction d'ou provient les sons semble cependant être un faible indice de groupement ou au contraire de séparation des sources. En effet, le plus souvent, les sons qui nous parviennent ont subi de multiples réflexions et les relations de phase initiales ne sont pas ou peu conservées. Dans cet état d'esprit, remarquons par anticipation que des transitions temporelles brutales semblent favoriser, dans l'étude 5, la discrimination de sons complexes noyés dans un bruit de fond. Avant de passer à l'étude du fonctionnement de l'analyse séquentielle, rappelons qu'à ces règles de continuité viennent s'ajouter toutes celles de similitude de fréquence, de timbre et surtout de hauteur... Grimault 68 Par exemple, il est remarquable d'observer la variation de la hauteur d'un son complexe harmonique lorsque la fréquence de l'une de ses composantes augmente. Cette hauteur augmente progressivement jusqu'à atteindre un maximum (cf fig. 18) puis revient à sa valeur initiale (Darwin et al., 1994). On peut supposer qu'il existe un décalage limite qui empêche l'intégration de cette composante dans le même flux que les autres qui sont toutes dans un rapport harmonique et qui donnent naissance à une sensation de hauteur cohérente. Remarquons aussi les études de Bregman & Ahad (1994) et Bregman et al. (1994) qui concluent que les mécanismes d'intégration de la hauteur peuvent être déclanchés et réinitialisés par des temps de monté-descente des signaux très brusques. On voit alors une fois de plus le lien étroit qu'il existe entre les mécanismes de groupement (intégration des harmoniques dans un même flux) et les mécanismes d'intégration de la hauteur. Ces deux études sont d'ailleurs à l'origine de la cinquième étude de ce document. 3-2-2-L’analyse de sources séquentielles: "le streaming". Les expériences 3 et 4 de ma thèse ont pour objet l'étude des mécanismes permettant une bonne analyse des scènes auditives constituées de signaux qui ne coïncident pas dans le temps. Ce champ d'investigation est appelé l'analyse de sources séquentielles ce qui peut être traduit en anglais par le terme "streaming". Ce terme indique que des sons non simultanés peuvent être perceptivement groupés dans un même flux ("stream" en anglais) auditif. 3-2-2-1-Cadre général. Grimault 69 Les mêmes règles de similitude et de continuité des paramètres physiques des signaux sont cruciales pour déterminer si des sons qui ne sont pas simultanés appartiennent au même flux. Ainsi, par exemple, le timbre particulier d'une flûte nous permet d'associer, sans confusion, une série de notes à cet instrument même si d'autres instruments interfèrent. De nombreuses expériences illustrent de quelle façon différents paramètres sont utilisés pour regrouper dans un même flux les différents éléments d'une séquence sonore. La plupart des illustrations qui figureront dans ce chapitre utiliseront une représentation temps-fréquence. Un exemple de représentation de séquence est donné ci-dessous. Fréquence A B C F3 F2 F1 t1 t2 t3 t4 t5 t6 Temps Fig 26: Cette figure représente une séquence de trois sons A, B et C notée A-B-C. Le son A est un son pur de fréquence F1, il commence en t1 et fini en t2. Le son B est un son complexe constitué de trois sons purs de fréquences F1, F2 et F3. Il commence en t3 et fini en t4. Le son C est un son pur dont la fréquence varie linéairement de t5 à t6 entre F1 et F3. Grimault 70 La continuité et la progressivité de la transformation sont de rigueur pour qu'une séquence ne soit pas scindée en plusieurs flux auditifs. Par exemple, l’intensité du bruit des pas d’une personne s’éloignant de nous diminue lentement et continûment. Fréquence Fréquence L’expérience de Bregman & Dannenbring, en 1973 illustre cette règle de continuité. Temps Temps Fig 27: Les deux flux qui étaient perçus dans le cadre de gauche se regroupent en un seul flux lors de l’introduction d’une fréquence transitoire (à droite sur la figure). Cette expérience montre tout d'abord qu'un auditeur, à qui on soumet une séquence A-B-A-BA... constituée par la répétition de deux sons purs A et B de fréquences suffisamment éloignées l'une de l'autre, sépare cette séquence en deux flux, d'un coté A-A-A... et de l'autre B-B-B... Par contre, en introduisant des "rampes" fréquentielles Cmonte et Cdescend entre chaque paire A-B comme figuré à gauche de la figure 27 (la séquence devient: ACmonteBCdescendACmonteBCdescend...), le sujet ne perçoit plus qu'un unique flux dont la fréquence varie entre celle de A et celle de B. Cette première expérience a amené tout d'abord van Noorden (1975) puis de nombreux autres auteurs (Bregman & Campbell, 1971; Bregman, 1978b) à étudier de plus près quels Grimault 71 paramètres gouvernaient la cohésion ou au contraire la scission en un flux de As et un flux de Bs d'une séquence sonore A-B-A-... présentée à un sujet en boucle. Ces auteurs ont ainsi mesuré des seuils de scission ou de cohérence d'une séquence dans des expériences qui ont été regroupées sous le terme générique de "streaming". L'expérience originelle de "streaming" de van Noorden (1975) montre qu'une séquence constituée de deux sons purs A et B de fréquences Fa et Fb (cf Figure 28) est d'autant plus facilement séparée en deux flux (A-A-A... et B-B-B-...) par le sujet que: 1-Fa est différent de Fb (DF= sFb-Fas est grand). 2-Dt est petit. Fréquence Le Streaming son A son B son A Silence A B A Silence ... Fb DF Dt Fa Temps Figure 28: Cette figure représente la configuration classique de "streaming" (Van Noorden, 1975). Des séquences de sons purs ABA-ABA-... sont présentées. Si la fréquence de A est très proche de celle de B, les sons sont regroupés en une seule source. Si au contraire, Fa est éloigné de Fb, alors A et B sont séparés. De même, si l’écart temporel Dt est très petit et que Fa diffère de Fb, alors, il y a un brusque changement de fréquence et A et B sont séparés d’après le principe de continuité. Si, par contre Dt est grand, alors le changement de Grimault 72 fréquence est moins brutal et le groupement de A et de B supporte un plus grand écart fréquentiel. Ceci s'explique par les lois de continuité. Si Fa et Fb sont proches, les sons A et B sont assez similaires (en fréquence) et vont donc pouvoir être intégrés dans le même flux. Toutefois, si Dt est très petit, le changement (de Fa à Fb) va être très brutal et va empêcher l'intégration. De même que de part leur proximité fréquentielle, des sons A et B peuvent être intégrés dans un flux unique du fait de leur proximité de timbre ou de hauteur virtuelle (Bregman et al., 1990). Ces deux derniers paramètres de proximité semblent même être de puissants vecteurs d'intégration ou au contraire de ségrégation. Il est enfin intéressant de souligner qu'il existe nécessairement une hiérarchie naturelle de ces vecteurs et que si l'un d'entre eux peut favoriser l'intégration, un autre peut, lui, favoriser la ségrégation. Il semble probable que l'organisation en flux qui sera privilégiée par le système auditif sera celle satisfaisant le plus grand nombre de règles ou de contraintes. Nous savons par exemple que la direction de provenance est un facteur faible de regroupement ou de ségrégation. Ceci étant probablement dû aux nombreuses réflexions et atténuations que subissent souvent les sons avant de nous parvenir. Par contre, il semble que le timbre et la hauteur des sons sont deux facteurs (deux similitudes) de haut niveau hiérarchique. Les lois de vibration des corps entraînent très souvent des relations harmoniques étroites entre les sons composants chaque source sonore. Les sons produits par les instrument de musique et surtout la voix en sont des exemples. Nous sommes sûrs, d'autre part, que la hauteur est un élément important nous permettant de séparer des voyelles concurrentes. En effet, dès 1957, Broadbent & Ludeforged ont montré Grimault 73 que deux voyelles sont d'autant plus faciles à séparer qu'elles ont des fréquences fondamentales éloignées l’une de l’autre. 3-2-2-2-L'influence particulière de la hauteur virtuelle. Il a été montré que la hauteur virtuelle pouvait être un important facteur de groupement ou de ségrégation (Bregman, 1990; Bregman & Levitan, 1983; Bregman & Pinker, 1978; Hartmann, 1988; Vliegen & Oxenham, 1999). Hartmann, dans un article rappelant les principaux résultats de la littérature (Hartmann, 1988) fait même l'amalgame complet entre perception de la hauteur d'une part et ségrégation et intégration d'autre part. Il estime en effet que les mécanismes d'intégration et de ségrégation font partie à part entière des mécanismes sousjacents à la hauteur. Il va même plus loin en disant que ces mécanismes sont les mécanismes de la perception de la hauteur. Deux études simples décrites ci-dessous mettent, en tout cas, en évidence notre aptitude à 1séparer ou à 2- grouper des sons sur la base de leur hauteur respective. 1-Ségrégation sur la base de la hauteur: Une étude de Bregman & Levitan (1983) malheureusement non publiée mais citée dans Bregman (1990) montre qu'il est possible de séparer des sources sur la base de différences de hauteur et compare la force de ces indices de hauteur à la force des indices spectraux pour une ségrégation performante. Grimault 74 Timbre 0 0.28 0.56 0.83 1.10 Hauteur (F0) 0 0.28 0.56 0.83 1.10 Fig 29: Bregman & Levitan (1983).Dominance des indices spectraux (timbre) par rapport à la hauteur virtuelle dans une tâche de ségrégation. Les cercles signalent une dominance de la hauteur et les croix une dominance du timbre. Les écarts de timbre ainsi que ceux de fréquence fondamentale (F0) sont donnés en octaves. Les signaux utilisés dans cette étude sont des sons complexes harmoniques de fréquence fondamentale nominale F0=128 Hz qui sont filtrés par des filtres passe-bandes triangulaires de fréquence centrale nominale Fc=1 kHz. On peut faire varier la hauteur de ces signaux en augmentant F0 et faire varier indépendamment le timbre en variant Fc. C'est une expérience de "streaming" et le sujet à donc pour consigne de séparer en flux distincts les sons A et B qui lui sont présentés sous forme de séquence A-B-A-... L'influence de la différence entre la fréquence centrale de filtrage de A et celle de B (sFc(A)-Fc(B)s) ainsi que l'influence de la différence de F0 (sF0(A)-F0(B)s) est orthogonalement étudiée. Les résultats de cette étude sont représentés sur la figure ci-dessus. Grimault 75 2-Groupement sur la base de la hauteur: On a largement discuté dans la première partie de ce travail la sensation évoquée par un groupe de sons purs qui partagent entre eux des propriétés harmoniques. Ils sont tous perceptivement groupés entre eux et donnent naissance à une hauteur. Il est remarquable cependant que des sons purs peuvent, sous certaines conditions, être perceptivement groupés même s'ils ne sont pas présentés simultanément. Bregman & Pinker (1978) ont ainsi montré que la réitération d'une séquence A-B-... ou A est un son pur et ou B est un son complexe constitué de deux composantes B1 et B2, permettait de grouper A et B1 dans un même flux auditif si la fréquence de ces deux composantes était suffisamment proche. Ces études montrent toutes la puissance du groupement par similarité ou proximité de hauteur. On peut regretter cependant que toutes utilisent uniquement des signaux bien résolus par le système auditif périphérique. A la vue du chapitre précédent ainsi qu'à la vue des résultats des études 1 et 2, tenter de reproduire ces études avec des sons complexes dont les conditions de résolvabilité varient semble intéressant. Les études 3 et 4 apportent des éléments à ce sujet. 3-2-2-3-Les modèles de groupement séquentiel. Les principaux travaux de modélisation des règles du groupement auditif chez l'humain ont été réalisés par Beauvois & Meddis (1996) ainsi que par McCabe & Denham (1997). L'approche utilisée dans ces deux modèles diffère légèrement mais le principe général est identique. Il s'agit d'identifier le canal auditif dominant (celui qui contient le plus d'énergie) puis d'augmenter le contraste entre ce canal et les autres (Beauvois & Meddis, 1996) au moyen d'une boucle rétroactive. Ces modèles reproduisent de nombreux résultats de la psychoacoustique. Ainsi, ils expliquent l'influence relative de l'écart fréquentiel et du rythme de présentation d'une séquence composée de deux sons purs A et B réitérés sur Grimault 76 l'organisation en flux auditifs. Ces modèles expliquent par ailleurs d'autres résultats tels que la construction progressive des flux auditifs (Antis & Saida, 1985; Bregman, 1978a) et la différence entre les seuils de fission -la limite en-dessous de laquelle, il nous est impossible de séparer deux sons- et les seuils de cohérence -la limite au-dessus de laquelle il nous est impossible de grouper les sons dans un même flux auditif- (van Noorden, 1975). 3-2-2-4-De l'organisation séquentielle à la discrimination de hauteur. Pour terminer cet exposé, les quelques études dont je vais tracer les grandes lignes dans ce paragraphe mettent en évidence le lien très fort qui semble exister entre la perception de la hauteur et l'organisation perceptive des scènes auditives. Ces études ont été source d'inpiration pour la dernière des expériences présentées ici. Nous avons vu dans les paragraphes précédents qu'une différence de hauteur suffisante entre des sons complexes présentés sous la forme d'une séquence permettait de les séparer perceptivement en les groupant dans des flux auditifs distincts. Dans une expérience de discrimination de hauteur (la détermination de l'écart limite de fréquence fondamentale nécessaire à la perception d'une différence de hauteur), des paires de sons complexes sont présentées successivement à un sujet qui doit, à chaque présentation, déterminer, par exemple, le son le plus haut. Des études ont mis en évidence que les scores de discrimination de F0 pouvaient être détériorés en présence de franges temporelles -ie. des sons complexes présents juste avant et juste après chacun des sons cibles à discriminer- (Carlyon, 1996a, b; Micheyl & Carlyon, 1998; Gockel et al., 1999). Ces résultats informent indirectement sur les mécanismes d'encodage de la hauteur et particulièrement sur l'existence potentielle d'une fenêtre temporelle d'intégration des informations relatives à la hauteur. Ces travaux suggèrent notament l'existence d'un phénomène de "sur-intégration" lorsque la fenêtre temporelle d'intégration utilisée pour Grimault 77 déterminer la hauteur contient simultanément des portions de la frange et du son cible. Toutefois, ces auteurs discutent, par ailleurs, ces résultats en terme d'organisation de scènes auditives et certains montrent même l'importance particulière qu'elle peut revêtir. Gockel et al. (1999) montrent que l'altération des seuils de discrimination est réduite lorsque les franges et les sons à discriminer sont bien séparés perceptivement. L'organisation en source auditive pourrait ainsi constituer le premier étage d'un modèle réaliste de la perception de la hauteur. Réciproquement, nous avons vu que la hauteur était un puissant outil d'organisation perceptive. Le lien étroit qui semble donc exister entre ces deux mécanismes explique et donne sa cohérence à ce travail de doctorat. 4-Résumé, objectifs de ce travail et introduction de mes travaux personnels. Nous avons vu dans une première partie les principaux modèles qui ont été proposés dans la littérature pour expliquer le fonctionnement du système auditif dans la tâche bien particulière de coder la hauteur virtuelle des sons complexes harmoniques. Nous avons vu d'une part qu'historiquement, deux grands types de modèles avaient été proposés, l'un utilisant spécifiquement les propriétés tonotopiques de la cochlée et l'autre travaillant sur les diagrammes d'excitation (dans le domaine temporel) en sortie de filtrage cochléaire. Chacun de ces modèles a l'avantage d'expliquer certaines données de la psychoacoustique mais échoue à les expliquer intégralement. Si les modèles du second type (et surtout les modèles "autocorrélatifs") parviennent à expliquer l'essentiel des résultats expérimentaux, certains résultats ne semblent pouvoir être expliqués qu'en admettant la coexistence de plusieurs modèles s'adaptant à la plus ou moins bonne résolvabilité des signaux. En d'autres mots, pour extraire la hauteur, des mécanismes différents seraient mis en oeuvre suivant que le signal est Grimault 78 résolu ou non-résolu par le système auditif périphérique. Ces deux mécanismes donneraient toutefois naissance à une même sensation de hauteur. Nous avons vu, dans une seconde partie, les principales règles de l'analyse de scènes auditives et l'importance particulière d'un codage performant de la hauteur pour une bonne analyse des paysages sonores qui comprennent des sons complexes harmoniques. Les travaux que vous trouverez en seconde partie de ce document apportent de nouveaux éléments à ce sujet. Cinq études vous sont présentées groupées dans deux chapitres. Le premier chapitre concerne les mécanismes d'encodage de la hauteur. Il est constitué lui-même de deux études. La première donne des éléments en faveur de l'existence d'au moins deux mécanismes sousjascents au codage de la hauteur. La seconde tente de les caractériser et apporte quelques pistes à ce sujet. Le second chapitre, en regard des résultats du premier, fournit les premiers éléments concernant les implications de la performance du codage de la hauteur sur l'analyse de scènes en audition. La première étude que les performances de "streaming" varient en fonction de la résolvabilité des signaux utilisés. La seconde étude met en évidence les difficultés spécifiques des personnes souffrant de pertes auditives dans cette tâche. Ce résultat est expliqué par la moindre résolution fréquentielle périphérique provoquée par les dommages cochléaires. Enfin, la dernière étude met en rapport la résolvabilité des signaux et l'aptitude des sujets à les séparer en fonction des temps de monté-descentes. Toutes ces études utilisent les outils et les méthodes classiques de la psychoacoustique. Il s'agit principalement de mesures de seuils de discrimination (mesure de la plus petite différence perceptible par le sujet) entre des signaux de fréquences fondamentales différentes ainsi que des seuils de ségrégation sur la base de la fréquence fondamentale (mesure de la Grimault 79 différence de F0 faisant la frontière entre la perception d'un flux ou de deux flux) pour les expériences de "streaming". Toutes les méthodes utilisées dans les protocoles sont détaillées dans les articles et j'ai choisi de ne pas les répéter ici afin de rendre la lecture de ce document moins fastidieuse. Cependant, il m'a semblé inévitable de rentrer dans le détail de l'une des approches utilisées dans ma recherche doctorale pour étudier les mécanismes sous-jacents à la perception de la hauteur fondamentale. Cette approche, qui se fonde sur le transfert d'apprentissage perceptif, sera sans doute moins familière à certains lecteurs. 5-Une méthode d'exploration basée sur les apprentissages sélectifs. 5-1-Introduction. Chacune des deux premières études qui vont vous être présentées utilise le transfert sélectif de l'apprentissage comme outil pour mettre en évidence deux choses: 1-D'une part qu'une même tâche auditive (l'encodage de la hauteur) peut être réalisée par différents mécanismes. 2-D'autre part, qu'il peut exister des points communs entre des mécanismes utilisés pour réaliser des tâches auditives différentes. Cette démarche, largement utilisée en vision (Karni & Sagi, 1990; Karni & Sagi, 1991; Karni & Sagi, 1994; Polat & Sagi, 1994; Shiu & Pashler, 1992), est exclusivement fondée sur l'idée que l'on peut entraîner un mécanisme perceptif de façon sélective. On fait ainsi l'hypothèse qu'en entraînant spécifiquement le mécanisme impliqué dans une tâche A, si le sujet progresse Grimault 80 dans la tâche A', c'est que ces deux tâches utilisent au moins partiellement des mécanismes similaires. Si par contre le sujet n'a pas progressé dans la tâche B, c'est que A et B ne partagent pas les mêmes mécanismes neuronaux sous-jacents. Dans le domaine de l'audition, seules quelques études utilisant ce procédé expérimental ont été publiées. Dans le but de mettre en évidence un codage tonotopique de la fréquence des sons purs au-dessus de 5 kHz et un codage par vérouillage de phase en dessous de cette fréquence (cf. 1-1 et 1-2), Demany (1985) a entraîné quatre groupes de sujets à discriminer des sons purs à 200, 360, 2500 et 6000 Hz respectivement. Les résultats (Fig. 30) montrent que les trois groupes de sujets entraînés à moins de 5 kHz (200, 360 ou 2500 Hz) progressent tous dans une tâche de discrimination de sons purs de fréquence nominale 200 Hz. Par contre, les performances des sujets entraînés à 6000 Hz (>5 kHz) sont moindres. En d'autres termes, le transfert d'apprentissage entre des sons purs de fréquences supérieures à 5 kHz et inférieures à 5 kHz est réduit. Il conclut que la fréquence d'un son pur est codée par deux mécanismes différents suivant que la fréquence est inférieure (vérouillage de phase) ou supérieure (tonotopie) à 5 kHz. Il aurait alors sélectivement entrainé le premier de ces mécanismes. Grimault 81 Fig 30: Demany, 1985. Performances en discrimination de fréquence à 200 Hz pour chaque groupe de sujets. Les lignes rejoignent les seuils de chaque sujet avant entraînement aux seuils après entraînement. Globalement, les trois premiers groupes (entrainés en discrimination de fréquence à 200, 360 et 2500 Hz) progressent alors que de nombreux sujets entraînés à 6 kHz ne progressent pas. Une seconde étude menée par Schulze & Scheich (1999) conclut que le mécanisme d'encodage de la modulation d'amplitude à basse fréquence est différent de celui à haute fréquence. Cette conclusion se base sur l'observation des courbes d'apprentissage de ces deux tâches: des courbes d'apprentissage différentes suggèrent des mécanismes neuronaux différents. Grimault 82 Cette méthodologie à l'avantage de fournir par ailleurs de nombreuses informations sur nos aptitudes à nous améliorer dans diverses tâches auditives. Ces aptitudes doivent très certainement varier spécifiquement suivant la tâche et surtout suivant le mécanisme entrainé sélectivement. Ceci peut donc apporter des informations de toute première importance sur les mécanismes neuronaux sous-jacents. Ainsi, on peut essayer de savoir à quel niveau du système auditif un phénomène se produit. Plus simplement, on peut essayer de déterminer si ce phénomène est plutôt périphérique ou plutôt central. C'est ce qu'ont fait Maubaret et al. (1999), en montrant que des sujets entraînés à discriminer des sons purs dans l'oreille droite progressaient aussi dans l'oreille gauche. Ils concluent alors que le mécanisme sous-jacent à la discrimination des sons purs se situe au-dessus des noyaux cochléaires. 5-2-La plasticité neuronale du système auditif interne induite par apprentissage. Pour pouvoir analyser de façon convenable les résultats d'une étude dont la méthodologie est entièrement basée sur la comparaison des seuils avant et après un apprentissage perceptif, il convient de bien connaître les rares données dont nous disposons au sujet de la plasticité du système auditif induite par apprentissage. En effet, ce type d'études, qui apportent souvent de passionnantes informations, ont été très peu nombreuses du fait, sans doute, de la difficulté et de la lenteur de leur mise en oeuvre. Elles ont pourtant deux avantages: 1-Elles permettent d'étudier les mécanismes neurophysiologiques. 2-Elles peuvent parfois offrir des solutions à des pathologies en permettant l'élaboration de techniques de rééducation auditive (Tallal, 1996). Grimault 83 Robinson & Summerfield (1996), dans leur article passant en revue tous les phénomènes de plasticité, introduisent différentes définitions concernant l'apprentissage qu'il me semble ainsi important de préciser. Il existe d'après eux trois types d'apprentissages: 1-L'apprentissage procédural fait référence aux progrès initiaux et rapides des sujets du fait de l'habituation à la tâche proposée, au stimuli... ou tout simplement du fait de son inexpérience initiale des tests de psychoacoustique. 2-L'apprentissage du stimulus. C'est sans doute cet apprentissage qui, lorsqu'il est mis en oeuvre, provoque une réorganisation corticale qui permet une meilleure représentation du stimulus. Il serait beaucoup plus lent que l'apprentissage procédural à se mettre en place. 3-L'apprentissage du test. Cette forme d'apprentissage, que l'on peut à mon avis fusionner avec l'apprentissage procédural, concerne l'habitude plus ou moins grande du sujet à un type de test. Ces définitions ainsi que l'idée de distinguer plusieurs types d'apprentissage vient en grande partie du travail de Recanzone et al. (1993) qui montre, chez le singe, que les seuils de discrimination fréquentielle commencent par une brusque phase d'amélioration (apprentissage procédural) suivie par une composante plus longue et plus lente (apprentissage du stimulus). De ces travaux, est née l'idée d'une modélisation très simple des courbes d'apprentissage par la somme de deux exponentielles. L'une ayant une petite constante de temps (modélisant l'apprentissage procédural) et l'autre une grande constante de temps (modélisant l'apprentissage du stimulus). Cette modélisation est représentée sur la figure 31. Grimault 84 Fig 31: Exemple hypothétique d'une courbe d'apprentissage (en trait plein) somme de deux autres courbes d'apprentissage. La première (en pointillés) représente le gain dû à la composante procédurale de l'apprentissage. Elle présente un gain rapide puis atteint rapidement un plateau. La seconde (en longs pointillés) présente la composante apprentissage du stimulus. Au contraire de la première, cette courbe descend lentement et continûment. Enfin, il ne me semble pas évident que l'amélioration des seuils psychoacoustiques au cours d'un entraînement rende compte de la mise en place d'une plasticité cérébrale, reflètant une réorganisation du cortex auditif. Il faudrait, pour être sûr de cela, être persuadé de la mise en place d'un apprentissage du stimulus. Ce résultat, en ce qui concerne la discrimination fréquentielle, a pourtant été montré récemment par Menning et al. (2000). En effet, ces auteurs montrent une évolution d'une variable électrophysiologique pré-attentive au cours d'un Grimault 85 entraînement à discriminer des sons purs. Un tel phénomène est difficile à expliquer en terme d'apprentissage uniquement procédural. Pour conclure sur ce sujet, il faut savoir que d'autres modes de mise en place de la plasticité sont bien sur envisageables hors entraînement. Tout d'abord la plasticité dévelopementale qui représente un vaste sujet d'étude dans lequel je ne m'aventurerai pas ici. Enfin, une plasticité du système auditif peut être provoquée par une surdité brusque (Bilecen et al., 2000) ou au contraire par une réinsertion dans le monde sonore par le biais d'un appareillage auditif ou d'un implant cochléaire. Cette dernière forme de plasticité à été passée en revue par Palmer et al. (1998) et Philibert et al. (2000). Grimault 87 TRAVAUX EXPERIMENTAUX Grimault 88 Chapitre 1: Etude des mécanismes d'encodage de la hauteur des sons complexes harmoniques résolus ou non-résolus par le système auditif périphérique. Grimault 89 Article 1: Evidence for two pitch encoding mechanisms using a selective auditory training paradigm Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon et Lionel Collet. RESUME: Les mécanismes neuronaux sous-jacents à la perception de la hauteur sont cruciaux pour l'audition et font l'objet de recherches depuis le début de XXème siècle. L'une des questions au coeur du débat actuel consiste à établir si deux mécanismes différents peuvent encoder une même sensation perceptive de hauteur suivant que les harmoniques du son complexe incident sont résolus par le système auditif (i.e. Les harmoniques sont bien séparés au passage du banc de filtre cochléaire) ou au contraire non-résolus (plusieurs harmoniques interfèrent dans des mêmes filtres auditifs). Cette étude a pour objectif d'apporter des éléments de réponse sinon d'élucider cette question en utilisant un astucieux paradigme de transfert d'apprentissage inventé par les neurophysiologistes pour révéler les mécanismes neuronaux de la perception visuelle de l'homme. Pour ce faire, nous avons testé si un apprentissage à la discrimination de hauteur de sons complexes constitués d'harmoniques résolus (resp. non-résolus) se transférait à la discrimination d'harmoniques non-résolus (resp. résolus). Les résultats mettent en évidence de meilleurs résultats dans des conditions résolues (resp. non-résolues) et non-entrainées pour les sujets qui se sont entraînés en conditions résolues (resp. non-résolues). Ces résultats apportent des éléments en faveur de la coexistence de différents mécanismes neuronaux sous-jacents à la perception de la hauteur. L'un d'entre eux serait spécifique au codage des harmoniques résolus et l'autre au codage des harmoniques non-résolus. Grimault 90 Evidence for two pitch encoding mechanisms using a selective auditory training paradigm Nicolas Grimaulta),b), Christophe Micheyl a), Robert P. Carlyon c) and Lionel Collet a) a)UPRESA CNRS 5020 Laboratoire « Neurosciences et Systèmes Sensoriels » Pavillon U. Hôpital E. Herriot. 69437 Lyon Cedex 03 France. 33 (0)4.72.11.05.03 [email protected] b) Entendre GIPA2 Pontchartrain. France c)MRC Cognition and Brain Sciences Unit. Cambridge. England. Grimault 91 Abstract The neural mechanisms underlying the perception of pitch, a sensory attribute of paramount importance in hearing, have been a matter of debate for over a century. A question currently at the heart of the debate is whether the pitch of all harmonic complex tones can be determined by the auditory system using a single mechanism, or whether different neural mechanisms are involved, depending on the stimulation conditions. This question was investigated here by testing for transfer of learning in pitch discrimination between different stimulus conditions. The results indicate the existence of two distinct underlying mechanisms for complex pitch perception. Grimault 92 Introduction Harmonic complex sounds, such as musical tones and vowels, generally elicit a strong pitch sensation which corresponds approximately to their fundamental frequency (F0). This pitch plays a role of paramount importance in hearing: it conveys melody in music, prosody in speech, and it plays an essential part in the perceptual analysis of complex auditory scenes (Hartman, 1988). The neural mechanisms underlying pitch perception have been debated for over a century (Von Helmholtz, 1863; Schouten, Ritsma & Cardozo, 1962). A question that currently occupies the centre of this debate is whether a single neural mechanism can account for the perception of the pitch of all harmonic tones (Cariani & Delgutte, 1996a, 1996b; Meddis & Hewitt, 1991a, 1991b; Meddis & O’Mard, 1997), or whether different mechanisms are involved depending on the stimulation conditions (Carlyon & Shackleton, 1994; Ragot & Crottaz, 1998; Shackleton & Carlyon, 1994; Steinschneider, Reser, Fishman, Schroeder & Arezzo, 1998). This question is inspired from the fact that the cochlea acts like a bank of parallel bandpass filters and has a finite frequency resolving power, which decreases with increasing frequency. Thus, when the harmonics are widely spaced -as is the case at high F0s-, and/or the frequencies of the harmonics are low, the frequency components of the sound are « resolved » by the peripheral auditory system i.e. they fall in different peripheral auditory filters and are conveyed by independent peripheral auditory channels (Fig. 1). In this situation, although no single peripheral auditory channel contains unambiguous information about the F0 of the sound, the central auditory system must combine the outputs of different auditory channels to derive the pitch. In contrast, when the F0 is low, the frequency of the harmonics is high, or both, the components of the sound are « unresolved » by the auditory periphery i.e., several of them fall within the passband of a single auditory filter and are mingled by the corresponding auditory channel. In this situation, the auditory system can retrieve the pitch by taking advantage of the fact that the auditory filter outputs fluctuate at a rate equal to the F0 (Fig. 1). Grimault 93 Figure 1. Simulated peripheral auditory filter outputs of different center frequencies to a harmonic complex tone. The stimulus consisted of a 500-Hz fundamental frequency and its harmonics up to the 20th. The stimulus spectrum is represented vertically on the right, with spectral components shown as horizontal bars. Auditory filter responses were computed in the time domain using a « gammachirp » impulse response (Irino & Patterson, 1997). The time span on this graph equals two periods of the fundmanetal frequency - i.e. 4 ms -. It can be seen that while the lower harmonics - i.e. 500 and 1000 Hz - excite distinct auditory filters, at higher frequencies, several harmonics interact within the auditory-filter passbands. Thus, at high frequencies, the auditory filter outputs repeat over time at a rate corresponding to the stimulus fundamental frequency. On the other hand, it has been proposed that both resolved and unresolved harmonics could be embraced by a single pitch mechanism (Cariani & Delgutte, 1996a, 1996b; Meddis & Hewitt, 1991a, 1991b; Meddis & O’Mard, 1997). Schematically, the proposed mechanism amounts to the computation by the central nervous system of a summed autocorrelogram, which is obtained by pooling the autocorrelation functions of neural activity within the different peripheral auditory channels. The resulting autocorrelogram exhibits peaks, the largest of which corresponds in most cases to the perceived pitch of the sound. This mechanism can account for the pitch of many stimuli, both when the harmonics are resolved and when they are unresolved. Grimault 94 In the present study, the existence of a single or of two different mechanisms for pitch perception was adressed using a transfer-of-learning approach. The reasoning behind this approach is that if the neural mechanism underlying pitch perception for resolved harmonics is distinct from that used for unresolved harmonics, listeners trained in pitch-discrimination with exclusively resolved harmonics should exhibit little or no performance improvement with unresolved harmonics, and vice versa. Transfer of perceptual learning has widely been used as a tool for investigating the locus of neural processes underlying different tasks in the visual modality (Ahissar & Hochstein, 1993; Karni & Sagi, 1990, 1991, 1993; Polat & Sagi, 1994; Shiu & Pashler, 1992). In the auditory modality, this approach has been used much more sparsely (Demany, 1985; Wright, Buonomano, Mahncke & Merzenich, 1997). From a more general point of view, very little data are available to date on perceptual auditory learning. While most of the numerous psychoacoustical studies published so far have involved trained subjects, very few articles provide explicit data on the perceptual learning that accompanies this training. Regarding frequency discrimination learning, the most recent data in humans are those of Demany (Demany, 1985), which indicate large improvements in frequency discrimination thresholds within about 2½ hours of training, and significant transfer of learning across frequencies spanning a very wide range of frequencies below 6 kHz. In owl monkeys, other data on the time course and transferability of learning in frequency discrimination have been provided by a study of Recanzone, Schreiner & Merzenich (1997). Both of these studies involved pure tones. Although complex tones are much more common in our auditory environment, no data are available in the literature on the time course and transferability of pitch discrimination learning for complex tones yet. Consequently, besides testing further for the existence of two pitch-encoding mechanisms, a secondary objective of the present study was to provide data on perceptual learning with complex tones. Material & Methods Subjects Twelve listeners took part in this experiment. The subjects ranged in age between 19 and 28 years (mean=23.83, SD=3.16). They all had binaural normal hearing, i.e., absolute pure tone thresholds at or below 15 dB HL at octave frequencies from 250 to 8000 Hz (American National Standard Insitute, 1969). None had prior experience in psychoacoustic tasks. They all were paid an hourly wage for their participation. All completed the experiment. Grimault 95 Stimuli The stimuli consisted of harmonic complex tones having a duration of 200 ms, including 50-ms cosine ramps. They were generated digitally in the time domain by adding the successive harmonics of a given F0 in sine (0°) phase. The harmonics were then bandpassfiltered digitally using a filter with a flat top and 48 dB/octave slopes. As many harmonics as necessary to fill in the passband at 48 dB of the filter were included; harmonics to which an attenuation larger than 48 dB would have had to be applied were omitted. Three different filtering regions were used: a LOW region with lower and upper corner frequencies of 125 and 625 Hz, a MID region (1375-1875 Hz), and a HIGH region (3900-5400 Hz). Previous studies (8-10, 22-26) have shown that in the MID frequency region, successive harmonics of the 250-Hz nominal F0 occupy different peripheral auditory filters and are thus well resolved by the auditory system, whereas harmonics of the 88-Hz F0 are largely unresolved. The other stimuli, with F0s of 88 and 250 Hz, and filtered in LOW region were resolved by the peripheral auditory system, whereas the other two, filtered in HIGH region were unresolved (because auditory filters are broader at high than at low frequencies). We used then 6 different complex (2 F0 X 3 regions) reaching the two different resolvability conditions. The levels of the stimuli in the standard and signal intervals were set to 40 dB above the absolute threshold of a harmonics complex filtered in the same frequency region and having the same F0 as the standard. This level is referred to as 40 dB SL in the remaining of the article. A pink-noise background with a 3 dB/octave slope was presented continuously throughout all measurements. The aim of this noise background was to prevent the perception by the listeners of combination tones generated by the ear, which might have introduced a bias in some of the test conditions. The noise was digitally generated and pre-recorded on CD. Its level was adjusted individually in each subject 20 dB above its absolute detection threshold. Experimental Design All subjects first took part in a preliminary test session during which they could familiarise themselves with the test procedure and stimuli. On this preliminary session, three threshold estimates were collected in each of the six stimulus conditions, in random order. Subjects were then divided in three groups composed each of four listeners. In two of these Grimault 96 groups, listeners were trained on pitch discrimination of a complex having a fundamental frequency (F0) of either 88 or 250 Hz. Subjects from the third (control) group received no specific training in F0 discrimination. In all groups, stimuli were presented in the right ear for two listeners and in the left ear for the two others. In the two trained groups, the complex was filtered in the same frequency region (1375-1875 Hz), so that any subsequent difference in performance cannot be attributed to a difference in the trained frequency region. Training lasted two hours a day, three days per week, for four consecutive weeks, with trial-by-trial visual feedback.. During these 2-hour training sessions, subjects had to complete thirty DLF0 measurements in a single condition. For each of the four subjects comprising each experimental group, five threshold estimates were obtained in each of the six experimental conditions on the week before training, the week after training, as well as five weeks after the end of training. Each threshold estimate was obtained using a three-interval, two alternative, forced-choice procedure without visual feedback; a two-down one-up adaptive rule tracked the 70.7% correct point on the psychometric function (Levitt, 1971). Difference in F0s (∆F0s) between the standard and signal stimuli were increased or decreased by a factor of 2 until the fourth turnpoint and by √2 thereafter. The procedure stopped after 16 turnpoints on the psychophysical staircase. The threshold was estimated as the geometric mean of the ∆F0s over to the last twelve turnpoints, expressed as a percentage of the nominal F0. Material The harmonic complex tone signals were generated digitally in the time domain on a PC150 computer and output using a 16-bit digital-to-analog converter (TDT DA1) at a sampling rate of 44.1 kHz. The pink-noise masker was generated digitally, recorded on an audio compact disc (CD) and played out continuously throughout the measurements using the CD-Rom drive (Goldstar CRD8322B) of another Pentium computer. The signals and noise were individually low-pass filtered at 15 kHz (TDT FT6-2, attenuation more than 60 dB at 1.15 times the corner frequency)and attenuated (TDT PA4). Finally, they were summed (TDT SM3) and led to the right or left earpice of a Sennheiser HD465 headphone mounted in a 25125 cushion via a headphone preamplifier (TDT HBC). Stimuli were monitored on all sessions using an HP3561A signal analyzer. Subjects were comfortably seated in a soundtreated booth Grimault 97 Grimault 98 Results Figure 2. Relative changes in pitch discrimination thresholds in the three experimental groups beetween pré- and first post-test. Fig. 2a: Mean relative changes in pitch discrimination thresholds in the untrained only, resolved and unresolved conditions (i.e. 250LOW and 88-LOW for resolved, and 88-HIGH and 250-HIGH for unresolved). Stars indicate statistical significance. Fig. 2b: Relative changes in thresholds in each of the six resolvability conditions. The nominal F0 (88 or 250 Hz) and frequency region (LOW, MID, or HIGH) used in each condition are indicated below the bottom abscissa. Conditions are sorted by order of decreasing harmonic resolvability, from left to right. According to the criterion defined in earlier studies (Carlyon, 1996a, 1996b; Carlyon & Shackleton, 1994; Grimault, Micheyl, Grimault 99 Carlyon, Arthaud & Collet, 2000; Micheyl & Carlyon, 1998; Plack & Carlyon, 1995; Ragot & Crottaz, 1998; Shackleton & Carlyon, 1994), the third rightmost conditions correspond to unresolved harmonics, and the third leftmost to resolved harmonics (the separation is materialised by a vertical dashed line). The condition that is used in the text as an example is indicated by arrow. Open (resp. filled) squares represent data from the group trained with resolved (resp. unresolved) harmonics. Filled circles represent data from the control group. Each data point was computed as the ratio of group (geometric) mean thresholds before and after training. Error bars represent the geometrical standard errors around the mean ratios. Fig. 2a shows the mean improvement for untrained conditions, between the pre- and first post- training sessions. Performance is averaged across the two resolved and across the two unresolved complexes. A contrast analysis on the log-transformed thresholds revealed that subjects trained in the resolved condition showed larger improvements in the other resolved conditions than subjects trained with unresolved harmonics (F(2,6)=8.45, p<0.05), and vice versa (F(2,6)=27.59, p<0.001). The improvement for each individual condition (including the two «trained» conditions) is shown separately in Fig. 2b, together with those for a control, untrained group of subjects. In addition to the main findings shown in Fig. 2a, the fact that most points lie above a value of unity shows that there is some general transfer of learning to all combinations of F0 and frequency region. It can also be seen that the effect of resolvability is larger than that of F0, in that listeners trained with a resolved 250-Hz complex show a smaller improvement on an unresolved 250 Hz complex than do those trained with an unresolved 88 Hz complex (comparison indicated by arrow on Fig. 2b). Grimault 100 Figure 3. Relative pitch discrimination thresholds in the preliminary, pre-, per-, and posttraining sessions in the two experimental groups. Each data point represents the geometric mean of relative pitch discrimination thresholds (i.e. difference in F0 at threshold between the signal and standard stimuli divided by nominal F0) obtained on a given session across subjects in each group. The solid (resp. dotted) lines represent the learning curves in the group trained with resolved (resp. unresolved) harmonics. The curves were modelled as a sum of two decaying exponentials (Recanzone et al. 1993; Robinson & Summerfield, 1996) and fitted to the data using a least-squares error algorithm. The two time constants and R2 derived from fitting are indicated nearby each curve. Grimault 101 Further evidence for a qualitative difference between the mechanisms underlying pitch perception for resolved and unresolved harmonics comes from the comparison of the time course of learning in the two cases (Fig. 3). Theoretical learning curves consisting of the sum of two exponentials with different time constants were fitted to the data. While in the group trained with resolved harmonics a protracted improvement in performance was obtained, the other group showed an abrupt initial improvement followed by a plateau. A repeated-measures analysis of variance on the log-transformed thresholds obtained during the training sessions revealed a significant overall improvement in performance over the twelve training sessions (F(11,66)=1.91, p<0.001) and a trend for this improvement to differ between the two training groups (F(11,66)=4.25, p=0.054). Furthermore, when subjects were re-tested 5 weeks after training (Fig. 4), it was found that, while in the group trained with unresolved harmonics, the mean threshold of the 6 conditions tended to increase between the first and the second posttraining tests (F(1,6)=5.25, p=0.062), in the group trained with resolved harmonics, no such tendency for learning loss was observed. Figure 4. Relative changes in thresholds in each of the six resolvability conditions beetween the first and the second post-test. As in Fig. 2b, the nominal F0 and frequency used in each condition are indicated in abscissa. Open (resp. filled) squares represent data from the group trained with resolved (resp. unresolved) harmonics. Filled circles represent data from the control group. Each data point was computed as the ratio of group (geometric) mean thresholds. Error bars represent the geometrical standard errors around the mean ratios. Discussion Grimault 102 With respect to the main objective of the present study, namely testing for the existence of two F0-encoding mechanisms, the main result consists in the fact that transfer of learning in F0 discrimination was larger between complexes sounds of the same resolvability status (i.e. both resolved or both unresolved) than between sounds of a different resolvability status. This finding provides a string argument for the hypothesis that different mechanisms subtend the encoding of F0 depending on whether the harmonics are resolved or unresolved by the peripheral auditory system. The fact that some transfer of learning was observed across all conditions may be explained in terms of procedural learning (Robinson & Summerfield, 1996). The subjects had no prior experience in psychoaocustical tests, and it is possible that they had not completely familiarised with the test procedure by the end of the preliminary session. Because such procedural learning is unlikely to depend on the specific characteristics of the stimuli used, it probably explains the overall increase in performance observed in all stimulus conditions between the pre- and post-training sessions. Furthermore, procedural learning must have occured similarly in the two trained groups, irrespective on the stimulus condition used for the training. Thus, procedural learning cannot explain differences in performance improvements between resolved and unresolved conditions, or between subjects trained in a resolved condition and those trained in an unresolved condition. To explain these differences, some form of stimulus-specific learning must be involved. The notion that two different forms of learning have taken place is suggested by the fact that the learning curves show a fast increase in performance occuring within the first training week, followed by a slower improvement - at least in the group trained with resolved harmonics -. These two components of the learning curve, also indicated in previous reports on frequency discrimination learning (19,21), are commonly though to correspond, respectively, to procedural and stimulus learning. The observation, in this study, that the first time constants of the learning cruves of the two groups are very similar (1.51 vs. 1.43), agrees with the notion that they correspond to procedural learning, which should in effect not be different in the two groups. The fact that the time constants corresponding to the later components of the learning curves differed widely - with almost no further performance improvement occurring in the group trained with unresolved harmonics - is consistent with the notion that stimulus learning differed as a function of the stimulus-condition used for training. Grimault 103 One potential problem with a straightforward interpretation according to which the effects of procedural and stimulus learning are independent and additive, relates to the observation that thresholds tended to raise in all conditions between the first and the second post-training sessions in the group trained with unresolved harmonics, but not in the other group. This observation can not be explained by a loss of procedural learning since, under the above-mentioned interpretation, the loss should have been the same in both groups. It can neither be explained by a loss of stimulus learning since thresholds raised precisely in the group which, under the above-mentioned intrepretation, showed no stimulus learning - the time constant of the second member of the theoretical learning function being very large -. This straightforward interpretation of the results in terms of dissociated F0-encoding mechanisms for resolved and unresolved mechanisms may have to be qualified based on the trend - clearly apparent in the graphs - that while listeners trained with resolved harmonics showed larger improvements with resolved than with unresolved harmonics, those trained with unresolved harmonics improved almost equally in all conditions. One possible explanation for this behavior is that training with unresolved harmonics has biased the subjects’ auditory system toward using a mechanism that is normally used preferentially for unresolved harmonics, but that may also apply to resolved ones. This would in particular be the case if the F0-encoding mechanism for resolved harmonics relied on spectral cues present in the peripheral pattern of excitation produced by the stimuli, whereas the F0-encoding mechanism for unresolved harmonics relied on the temporal information at the output of the peripheral auditory system. Indeed, above a given degree of unresolvability of the stimuli, spectral cues become absolutely undetectable, and the former mechanism can no longer work. In contrast, because temporal information as to the F0 is present in auditory-nerve dicharges for both resolved and unresolved harmonics (Meddis & O’Mard, 1997; Cariani & Delgutte, 1996a, 1996b), a temporally-based mechanism for F0-extraction could theoretically work in both conditions. In conclusion, besides providing data on learning in pitch discrimination with complex tones, the present study provides evidence based on a transfer-of-learning paradigm used formerly in vision, that two different mechanisms underlying the perception of pitch depending on whether the harmonics are resolved or unresolved at the auditory periphery. The strongest argument in favor of this dual pitch mechanism hypothesis is that the transfer of learning in pitch discrimination from one harmonic complex sound to another is strongest when they are both resolved or both unresolved than when they differ in resolvability. This Grimault 104 effect cannot be accounted for by existing models of pitch perception in which a unitary mechanism processes the pitch of all complex tones. A consistent interpretation of these results is that in spite of the apparent unity of the sensory attribute of complex sounds known as the virtual pitch, due to constraints imposed on the central nervous system by the peripheral auditory organ, two separate neural mechanisms underly the pitch of resolved and of unresolved stimuli. Grimault 105 References Ahissar, M. & Hochstein, S. (1993). Attentional control of early perceptual learning. Proceeding of the National Academy of Science. USA, 90, 5718-5722. American National Standard Institute. (1969). Specification for audiometers. (ANSI S3.61969), New-York: ANSI. Cariani, P.A. & Delgutte, B. (1996a). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. Journal of Neurophysiology. 76, 1698-1716. Cariani, P.A. & Delgutte, B. (1996b). Neural correlates of the pitch of complex tones. II. Pitch shift, pitch ambiguity, phase invariance, pitch circularity, rate pitch, and the dominance region for pitch. Journal of Neurophysiology. 76, 1717-1734. Carlyon, R.P. (1996a). Encoding the fundamental frequency of a complex tone in the presence of a spectrally overlapping masker Journal of the Acoustical Society of America. 99, 517-524. Carlyon, R.P. (1996b). Masker asynchrony impairs the fundamental-frequency discrimination of unresolved harmonics. Journal of the Acoustical Society of America. 99, 525-533. Carlyon, R.P. & Shackleton, T.M. (1994). Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms? Journal of the Acoustical Society of America. 95, 3541-3554. Demany, L. (1985). Perceptual learning in frequency discrimination. Journal of the Acoustical Society of America. 78, 1118-1120. Grimault, N., Micheyl, C., Carlyon, R.P., Artaud, P. & Collet, L. (2000). Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency: results from normal-hearing and hearing-impaired subjects. Submitted. Hartmann, W.M. (1988). Pitch perception and the segregation and integration of auditory entities. In G.M. Edelman, W.E. Gall & W.M. Cowan (eds), Auditory function, (pp. 623-645) New York: Wiley. Von Helmholtz, H.L.F. (1863). Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Braunschweig, Germany: F. Vieweg & Sohn. Irino, T. & Patterson, R.D. (1997). A time domain, level-dependent auditory filter: The gammachirp. Journal of the Acoustical Society of America. 101, 412-419. Grimault 106 Karni, A. & Sagi, D. (1990). Texture discrimination learning is specific for spatial location and background orientation. Investigation in Ophthalmology and Visual Science. (Suppl.), 31, 562. Karni, A. & Sagi, D. (1991). Where practice makes perfect in texture discrimination: Evidence for primary visual cortex plasticity. Proceeding of the National Academy of Science. U.S.A. 88, 4966-4970. Karni, A. & Sagi, D. (1993). The time course of learning a visual skill. Nature. 365, 250-252. Levitt, H. (1971). Transformed up-down methods in psychoacoustics. Journal of the Acoustical Society of America. 49, 467-477. Meddis, R. & Hewitt, M. (1991). Virtual pitch and phase sensitivity of a computer model of the auditory periphery: I. pitch identification. Journal of the Acoustical Society of America. 89, 2866-2882. Meddis, R. & Hewitt, M. (1991). Virtual pitch and phase sensitivity of a computer model of the auditory periphery: II. Phase sensitivity. Journal of the Acoustical Society of America. 89, 2883-2894. Meddis, R. & O’Mard, L. J. (1997). A unitary model of pitch perception. Journal of the Acoustical Society of America. 102, 1811-1820. Micheyl, C. & Carlyon, R.P. (1998). Effect of temporal fringes on fundamental-frequency discrimination. Journal of the Acoustical Society of America. 104, 3006-3018. Plack, C.J. & Carlyon, R.P. (1995). Differences in frequency modulation detection and fundamental frequency discrimination between complex tones consisting of resolved and unresolved harmonics. Journal of the Acoustical Society of America. 98, 13551364. Polat, U. & Sagi, D. (1994). Spatial interactions in human vision: from near to far via experience dependent cascades of connections. National Academy of Science. USA. 91, 1206-1209. Ragot, R. & Crottaz, S. (1998); A dual mechanism for sound pitch perception: new evidence from brain electrophysiology. Neuroreport 9, 3123-3127. Recanzone, G.H., Schreiner, C.E. & Merzenich, M.M. (1993). Plasticity in the frequency representation of primary auditory cortex following discrimination training in adult owl monkey. Journal of Neuroscience. 13, 87-103. Robinson, K. & Summerfield, A.Q. (1996). Adult auditory learning and training. Ear and Hearing. 17, 51S-65S. Grimault 107 Schouten, J.F., Ritsma, R.J. & Cardozo, B.L. (1962). Pitch of the residue. Journal of the Acoustical Society of America. 34, 1418-1424. Shackleton, T.M. & Carlyon, R.P. (1994). The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination. Journal of the Acoustical Society of America. 95, 3529-3540. Shiu, L.P. & Pashler, H. (1992). Improvement in line orientation discrimination is retinally local but dependent on cognitive set. Perception and Psychophysics. 52, 582-588. Steinschneider, M., Reser, D.H., Fishman, Y.I., Schroeder, C.E. & Arezzo, J.C. (1998). Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pith perception. Journal of the Acoustical Society of America. 104, 2935-2955. Wright, B.A., Buonomano, D.V., Mahncke, H.W. & Merzenich, M.M. (1997). Learning and generalization of auditory temporal-interval discrimination in humans. Journal of Neuroscience. 17, 3956-3963. Grimault 108 Author notes This study received the approval of the ethics comitee (CCPPRB Léon Bérard N°DGS 980626). It was supported by a research grant from Entendre GIPA2 and by the Centre National de la Recherche Scientifique (CNRS). We thank Dr. Laurent Demany and Pr. John D. Durrant for helpful suggestions on an earlier version of the manuscript. JeanChristophe Béra is gratefully acknowledged for his help with headphone calibration. Grimault 109 Article 2: Perceptual learning in pure-tone frequency discrimination and amplitudemodulation rate discrimination, and generalization to fundamental frequency discrimination. Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon, Sid P. Bacon et Lionel Collet RESUME: Dans l'étude précédente, nous avons apporté des éléments suggérant l'existence d'au moins deux mécanismes neuronaux distincts pour encoder la hauteur des sons complexes harmoniques suivant que les composantes de ces sons étaient résolues ou non-résolues par le système auditif périphérique. Cette seconde étude a pour objectif de caractériser partiellement ces deux mécanismes neuronaux. Nous avons utilisé dans cette étude le même paradigme expérimental de transfert d'apprentissage que dans l'étude précédente. Principalement, nous avons mis en évidence que des sujets entraînés à discriminer des sons purs amélioraient plus leurs performances de discrimination lorsque les sons complexes à discriminer sont résolus que lorsqu'ils sont non-résolus. Ce résultat suggère la validité d'un modèle spectral ou spectro-temporel lorsque les harmoniques sont résolus par le système auditif périphérique. Par ailleurs, la plus grande aptitude des sujets à discriminer entre eux des bruits dont la fréquence de modulation est différente ne semble pas favoriser sélectivement l'encodage des harmoniques non-résolus. Grimault 110 Perceptual learning in pure-tone frequency discrimination and amplitude-modulation rate discrimination, and generalization to fundamental frequency discrimination Nicolas Grimaulta),b), Christophe Micheyl a), Robert P. Carlyon c), Sid P. Bacon d) and Lionel Collet a) a)UPRESA CNRS 5020 Laboratoire "Neurosciences and Systèmes Sensoriels", Hôpital E. Herriot - Pavillon U, 69437 Lyon Cedex 03, France b) ENTENDRE Audioprothesists Group GIPA2, Pontchartrain. France. c) MRC- Cognition and Brain Sciences Unit. 15, Chaucer Rd. Cambridge, CB2-2EF, England. d) Psychoacoustics Laboratory, Department of Speech and Hearing Science, Arizona State University, Tempe, Arizona 85287-1908. Grimault 111 INTRODUCTION Many sounds in our auditory environment consist of harmonic complex sounds, which contain spectral components whose frequencies are all integer multiple of a low, fundamental frequency (F0). These sounds generally elicit a strong pitch sensation which is determined by their F0: the higher the F0, the higher the pitch. This pitch is known as the fundamental pitch, or virtual pitch, because it may be perceived even in the absence of the physical component corresponding to the F0. Virtual pitch plays a role of paramount importance in hearing. Variation in pitch over time convey melody in music and prosody in speech. Furthermore, the encoding of the F0 of complex sounds has been shown to be tied to the perceptual analysis of complex sounds and, specifically, the separation of concurrent sounds (Hartmann, 1988; Bregman, 1990; Bregman et al., 1990). The mechanisms underlying virtual pitch perception have been a matter of debate for over a century. A central question that is currently disputed is whether the auditory system "computes" the virtual pitch of all harmonic complex sounds using a single mechanism, or whether different underlying mechanisms are needed in order to accommodate the limited frequency resolving power of the auditory periphery. The peripheral auditory system is traditionally modeled as a bank of parallel, bandpass filters whose outputs are conveyed to the central nervous system by independent channels. The auditory-filter bandwidths increase with center frequency. When the F0 of the complex is high and/or the harmonic are low in frequency, the frequency separation between consecutive harmonics is large in regard to auditory filter bandwidths so that each peripheral channel conveys a single harmonic; the harmonics are then said to be "resolved" by the peripheral auditory system. In this case, although no single peripheral auditory channel conveys unambiguous information about the F0 of the whole sound, the central auditory system may combine information across channels to determine the virtual pitch (Thurlow, 1963; Whitfield, 1967, 1970; Walliser, 1968, 1969ac; Terhardt, 1972a,b; Goldstein, 1973). In contrast, when the F0 is relatively low and/or the frequencies of the harmonics are high, several components fall within the passband of the same peripheral auditory filter and interfere within the same peripheral channels. In this case, the central auditory system may however compute virtual pitch by taking advantage of the fact that as soon as several harmonics fall within the bandwidth of the same auditory filter, that auditory filter output fluctuates in amplitude at a rate equal to the F0 (Schouten, 1940, 1970). Based on such considerations, it has been proposed that the central auditory system in fact uses two different mechanisms in order to encode the pitch of resolved and of unresolved Grimault 112 harmonics. On the other hand, some authors maintain that the virtual pitch can be encoded by means of a single mechanism, independently of whether the harmonics making up the sounds are resolved or not by the auditory periphery (Meddis and O'Mard, 1997), In a recent study, this question of the existence of one versus two mechanisms for pitch perception was addressed using a transfer-of-learning approach (Grimault et al., submitted article). The reasoning behind this approach was that, if the mechanism underlying the perception of pitch for resolved harmonics is distinct from that underlying pitch perception for unresolved harmonics, training in pitch discrimination with exclusively unresolved harmonics should lead to little or no improvement in pitch discrimination with resolved harmonics, and vice versa. The results of this study provided two main arguments for the "dual pitch mechanisms" hypothesis. Firstly, they demonstrated that specific training in F0 discrimination using resolved harmonics later resulted in significantly larger improvements with other complexes also made of resolved harmonics than with complexes made of unresolved harmonics, and vice versa. Secondly, the learning curve representing the changes in thresholds as a function of time during training was found to have a different time constant for resolved than for unresolved harmonics. Overall, these results argue for the hypothesis that pitch perception involves different mechanisms for resolved and for unresolved harmonics. The current study aimed to further investigate this question of the underlying mechanisms of virtual pitch perception by trying to gather information on the nature of the mechanism responsible for the encoding of the pitch of resolved harmonics and that involved in the processing of unresolved harmonics. Otherwise stated, while the previous study by Grimault et al. (1999) addressed the question “are the mechanisms underlying the F0encoding of resolved and unresolved harmonics different?”, the present study addresses the question “what are these mechanisms?”. Several candidate mechanisms have been put forward in the literature to account for the perception of the pitch of complex tones consisting of either resolved or unresolved harmonics. It is interesting to remark that with the possible exception of the model proposed by Meddis and colleagues (Meddis and Hewitt, 1991; Meddis and O'Mard, 1997; see: Carlyon, 1998 for a criticism), models of pitch perception which can account fairly successfully for the perception of the pitch of resolved harmonics generally fail for unresolved harmonics, and vice versa. Basically, models operating on resolved harmonics include two stages: a first stage consisting in the estimation of the frequencies of the individual components of the complex, and a second stage consisting of a pattern recognizer, which estimates the pitch of the complex from the estimated frequencies of Grimault 113 the individual components (Thurlow, 1963; Whitfield, 1967, 1970; Walliser, 1968, 1969a-c; Terhardt, 1972a,b; Goldstein, 1973). On the other hand, models operating on unresolved harmonics all involve the measurement of time intervals between successive periods in the output waveform from auditory filters within the bandwidth of which several harmonics interact. More precisely, Schouten (1940, 1970) proposed that the pitch of unresolved harmonics - which he called the "residue pitch" - is determined by the most prominent time interval between those peaks in the fine structure of the waveform which are close to adjacent envelope maxima. In support of this view, he reported results showing that the pitch evoked by a series of three harmonics having the same frequency spacing - and thus the same rate of envelope fluctuations - could be altered by shifting all the components up or down in frequency. Later on, however, Burns and Viemeister (1976, 1981) showed that stimuli which contained no fine structure cues - i.e. noise - could produce a virtual pitch sensation when sinusoidally amplitude modulated at a rate comprised within the pitch range, thereby indicating that the rate of envelope fluctuations is a potential cue for pitch perception. In the present study, we sought to test the hypotheses, inspired from the abovementioned data, that: 1/the pitch perception of resolved harmonics involves the encoding of the frequencies of the individual components, and that 2/the pitch perception of unresolved harmonics is based on the estimation of the rate of fluctuations in the stimulus envelope - or equivalently, of the time intervals between successive envelope maxima -. Both hypotheses were tested using a transfer-of-learning approach. We reasoned, firstly, that if the encoding of the F0 of resolved harmonics depends in part on the encoding of the frequencies of the individual harmonics, then training listeners in pure-tone frequency discrimination (FD) should lead to an improvement, not only of pure-tone frequency discrimination performances, but also of the F0-discrimination (F0D) performances for complexes consisting of resolved harmonics. Furthermore, in order to test whether the improvement in F0D - if any - caused by training in FD was mediated by an increase in the accuracy of the encoding of the individual frequencies of the harmonics, or of the overall pitch itself - in other words, whether the improvement was taking place at the first or second stage of the two-stage pattern-recognition models of pitch perception described above -, we trained some listeners in FD with pure-tones whose frequency fell within the range of the harmonics and other listeners with pure-tones whose frequency fell in the range of the pitch of the complex tones which were used to test their F0D performances. The observation of learning-transfer between FD and F0D in the former listeners would suggest that some improvement had taken place at the level of the first Grimault 114 pitch-encoding stage. The observation of learning-transfer between FD and F0D in the latter listeners would suggest that some improvement had taken place at the level of the second pitch-encoding stage. Secondly, we reasoned that if the perception of the pitch of unresolved harmonics was subtended by the estimation of the rate of envelope fluctuations in the auditory filter outputs, training subjects in the discrimination of the rate of envelope fluctuations should improve their ability to discriminate the F0s of successive harmonic complexes made of unresolved harmonics. An important prerequisite for this hypothesis to be testable is, of course, that amplitude-modulation rate discrimination (AMRD) performance improves significantly with practice. Although there is very little data in the literature on perceptual learning in this type of temporal task, recent results from Schulze et al. (1999) and Fitzgerald and Wright (2000), suggest that this is the case. MATERIAL AND METHODS Subjects Fifteen listeners took part in this experiment. They ranged in age between 20 and 27 years (mean=22.13, SD=1.68). They all had binaural normal hearing, i.e., absolute pure tone thresholds at or below 15 dB HL at octave frequencies from 250 to 8000 Hz (American National Standard Institute, 1969). None had prior experience in psychoacoustic tasks. All were paid an hourly wage for their participation. All completed the experiment. Stimuli The stimuli consisted of pure tones, amplitude-modulated noise bands, and harmonic complex tones. All stimuli had an overall duration of 200 ms and were shaped with 20-ms cosine ramps, except for the harmonic complexes which had 50-ms ramps for consistency with a previous study (Grimault et al., submitted article). The pure tones had nominal frequencies of 88, 250, and 1605 Hz. The former two frequencies were chosen to correspond to the nominal F0s of the harmonics complexes. The latter was chosen to correspond to the geometric center frequency of the mid-frequency region in which the harmonic complexes and modulated noise bands were filtered (see below). The nominal SPLs of the pure tones were 85 dB at 88 Hz, 80 dB at 250 Hz, and 75 dB at 1605 Hz, which corresponded to approximately 80 phones. The complex tones and modulated noise bands had an overall level of 55 dB SPL. All stimuli were presented in a continuous pink (3 Grimault 115 dB/octave slope) noise background with an overall level of 57 dB SPL. This noise background was aimed to prevent the perception by the listeners of combination tones generated by the ear, which might have obscured the interpretation of the results. All stimuli were generated digitally using a 44.1-kHz sampling frequency and a 16-bit coding range. They were then saved on the computer hard disk, or, for the pink noise, on a compact disk. The noise bands were obtained by digitally filtering white noise using a filter with a flat-top and 48 dB/octave slopes. The maximum attenuation of the numeric filter was set to 48 dB. Three different filtering regions were used: a LOW region with lower and upper corner frequencies of 125 and 625 Hz, a MID region (1375-1875 Hz), and a HIGH region (39005400 Hz). These noise bands were then fully (100%) amplitude-modulated using a nominal modulation rate of either 88 or 250 Hz. The harmonic complexes were generated by adding the successive harmonics of a given F0 in sine (0°) phase. The harmonics were then bandpass-filtered digitally using a filter with a flat top and 48 dB/octave slopes. As many harmonics as necessary to fill in the passband at 48 dB of the filter were included; harmonics to which an attenuation larger than 48 dB would have had to be applied were omitted. The same LOW, MID and HIGH filtering regions than previously were used. Previous studies have shown that in the MID frequency region, successive harmonics of the 250-Hz nominal F0 occupy different peripheral auditory filters and are thus well resolved by the auditory system, whereas harmonics of the 88-Hz F0 are largely unresolved. The other stimuli, with F0s of 88 and 250 Hz, and filtered in LOW region were resolved by the peripheral auditory system, whereas the other two, filtered in HIGH region were unresolved (because auditory filters are broader at high than at low frequencies). Experimental Design All subjects first took part in a preliminary test session during which they could familiarize themselves with the test procedure and stimuli. On this preliminary session, two threshold estimates were collected in each of the 15 stimulus conditions, in random order. Subjects were then divided in five groups composed each of three listeners. In three of these groups, listeners were trained in FD with pure tones of either 88, 250, or 1605 Hz. In the two other groups, the listeners were trained on AMRD in the MID frequency region with frequency modulation rates of either 88 or 250 Hz. Training lasted two hours a day, three days Grimault 116 per week, for four weeks, with trial-by-trial visual feedback.. During these 2-hour training sessions, subjects had to complete forty five threshold measurements in a single condition. For each of the three subjects comprising each experimental group, six threshold estimates were obtained in each of the fifteen experimental conditions on the week before training, the week in the middle of the training period, as well as the week after the last training session. Each threshold estimate was obtained using a three-interval, two alternative, forced-choice procedure without visual feedback; a two-down one-up adaptive rule tracked the 70.7% correct point on the psychometric function (Levitt, 1971). Differences in frequency (∆F), fundamental frequency (∆F0) or modulation rate (∆Fm) between the standard and signal stimuli were increased or decreased by a factor of 2 until the fourth turnpoint and by √2 thereafter. The procedure stopped after 16 turnpoints on the psychophysical staircase. The threshold was estimated as the geometric mean of the last twelve turnpoints, expressed as a percentage of the nominal frequency, F0 or modulation rate. Apparatus The stimuli were output using a 16-bit digital-to-analog converter (TDT DA1) at a sampling rate of 44.1 kHz. The pink-noise masker was played out using the CD-Rom drive of a host computer. The signals and noise background were independently low-pass filtered at 15 kHz (TDT FT6-2, attenuation more than 60 dB at 1.15 times the corner frequency)and attenuated (TDT PA4). Finally, they were summed (TDT SM3) and led to the right or left earpiece of a Sennheiser HD465 headphone mounted in a 25125 cushion via a headphone preamplifier (TDT HBC). Stimulus characteristics were controlled using an HP3561A signal analyzer. Subjects were comfortably seated in a sound-treated booth. RESULTS Grimault 117 Figure 1. Pre-training discrimination thresholds. The upper left panel shows the relative frequency discrimination limens (expressed as DLF/F in percent) as a function of the nominal test frequency (F). The upper right panel shows the relative amplitude-modulation rate discrimination limens (expressed as DLFm/Fm in percent) in the three different frequency region and nominal modulation rate conditions. The lower right panel shows the relative fundamental-frequency discrimination limens (expressed as DLF0/F0 in percent) in the three different frequency region and nominal fundamental frequency conditions sorted in order of decreasing resolvability, as estimated using a resolvability index detailed in a previous paper (Grimault et al., 2000). The error bars represent the standard deviation around the geometric Grimault 118 means across subjects. Figure 1 represents the relative DLFs, DLFms, and DLF0s measured on the pretraining session. The DLFs, which are shown in the upper left panel, were found to decrease significantly with increasing test frequency [F(2,22)=253.38, p<0.001], being around 3.15% on average at 88 Hz, 0.75% at 250 Hz, and 0.32% at 1605 Hz. The DLFms, which are represented in the upper right panel, were found to vary little across frequency regions and modulation rates. On some occasions - i.e. on some runs and in some conditions -, some subjects failed to perform the AMRD task correctly, even with the very large initial difference in AM rate (80%) used in the adaptive procedure. The DLF0s are shown in the lower left panel. The different test conditions are shown on the abscissa, by decreasing order of resolvability of the harmonics. According to Shackleton and Carlyon's (1994) definition of resolvability, the three leftmost data points correspond to resolved conditions while the three rightmost correspond to unresolved conditions. DLF0s were found to vary significantly across both frequency regions [F(2,8)=136.18, p<0.001] and F0s [F(1,4)=366.47, p<0.001]. Furthermore, an interaction was observed between these two factors [F(2,8)=20.36, p<0.001]. During this pre-training session, DLFs were found to decrease significantly across runs, following a linear trend [F(1,11)=10.23, p<0.01]; no such significant effect was noted for DLFms and DLF0s. Grimault 119 Figure 2. Mean pure-tone frequency discrimination and amplitude-modulation discrimination thresholds measured in the different training groups as a function of block number.The unconnected data points respresent data from (pre-training, intermediate, and post-training) test sessions and correspond to geometric means over 6 threshold estimates. The connected points represent to data from training sessions and correspond to the geometric means of 30 consecutive threshold estimates. The empty symbols correspond to frequency discrimination limens. The filled symbols correspond to amplitude-modulation rate discrimination limens. The error bars represent the standard deviations around the geometric means across subjects. Figure 2 represents the evolution of perceptual thresholds across the different test sessions. These thresholds are expressed as percentages of the nominal test frequency (puretone frequency for DLFs or modulation frequency for DLFms). The unconnected data points correspond to thresholds measured during the pre-training, intermediate, and post-training test sessions. These results were analyzed using a repeated-measures analysis of variance (RMANOVA) with the log-transformed relative thresholds as dependent variable and the Grimault 120 training condition and block number as factors. Both factors had a significant main effect [F(4,10)=71.04, p<0.001 for training condition and F(17,170)=4.149, p<0.001] for block number and they interacted significantly [F(68,170)=1.79, p=0.001]. Subsequent ANOVAs performed on the data corresponding to a given training task (FD or AMRD) revealed significant effects of nominal frequency [F(1,4)=43.45, p<0.005] and block number [F(17,68)=7.02, p<0.001], and an interaction [F(17,68)=5.36, p<0.001] for AMRD; for FD, significant differences were observed across conditions [F(2,6)=18.48, p<0.005], but not across blocks [F(17,102)=1.34, p=0.18], and no interaction between the two factors was obtained either [F(34,102)=1.18, p=0.25]. In order to get further insight into these results, oneway ANOVAs with the block number as factor were performed on the data from the five different training conditions independently. The only condition in which a significant main effect of block number was obtained was AMRD at 88 Hz [F(17,34)=7.93, p<0.001]. The block number factor failed to produce a statistically significant effect in the FD 1605 Hz condition [F(17,34)=1.72, p=0.087]. In all other conditions, the block number factor did not produce even a trend. When looking at the individual data of the different subjects however, thresholds showed a significant linear decrease with increasing block number in three subjects out of three in the AMRD 88 Hz condition, and two subjects out of three in all other conditions. In the FD 88 Hz condition, one subject showed a significant linear increase in thresholds with increasing block number. Grimault 121 Figure 3. Variations in discrimination thresholds during the first learning period. These variations were computed by dividing the thresholds measured on the pre-training test session by the thresholds measured on the intermediate test session in the same test condition. Therefore, thresholds improvement are indicated by values larger than 1. The empty symbols represent the data from all subjects trained in frequency discrimination averaged together. The filled symbols represent the data from all subjects trained in amplitude modulation rate discrimination averaged together. The panels are arranged in the same way as in Figure 1, with frequency-discrimination data shown in the upper left panel, amplitude modulation rate discrimination data shown in the upper right panel, and fundamental-frequency Grimault 122 discrimination data shown in the lower left panel. The smaller, lower right panel represents the average variation in threshold for the resolved and unresolved harmonics conditions from the fundamental-frequency discrimination tests. The error bars represent the standard error around the geometric means across subjects. Figure 3 represents the variations in thresholds between the pre-training and the intermediate test sessions. Data points located above 1 on the ordinate correspond to a decrease in threshold (i.e. an increase in performance) and vice versa. The empty symbols represent data from subjects trained in the AMRD task altogether (i.e. with data from subjects trained at 88 and 250 Hz pooled together). The filled symbols correspond to data from subjects trained in FD (at 88, 250, and 1605 Hz altogether). The upper left panel shows the results of FD tests. DLFs were found to decrease significantly between the two test sessions [F(2,13)=15.2, p<0.01] in both subject trained in FD and subjects trained in AMRD. No significant difference in FD improvement was observed between the two groups [F(1,13)=1.55, p=0.23]. The improvement in FD was approximately the same at the three test frequencies [F(1,13)=1.47, p=0.25]. The upper right panel shows the results of AMRD tests. DLFms were found to be significantly lower on the intermediate than on the pre-training session for both subjects trained in FD [F(1,4)=10.83, p<0.05] and subjects trained in AMRD [F(1,3)=13.88, p<0.05]. Subjects trained in AMRD improved more than those trained in FD [F(1,7)=11.37, p<0.05]. The lower left panel shows the results from F0-discrimination tests. DLFms were found to decrease significantly between the two test sessions [F(1,14)=49.43, p<0.001] in both subject trained in FD and subjects trained in AMRD. A significant interaction was observed between the frequency region and the training group factors [F(2,26)=3.55, p<0.05]. A trend was observed for DLF0s to improve more in resolved than in unresolved conditions for subjects trained in FD [F(1,8)=4.63, p=0.064]. This is better illustrated by the smaller panel in the lower right corner of the figure. For subjects trained in AMRD, neither the frequency region [F(2,10)=3.05, p=0.09] nor the F0 [F(1,5)=0.01, p=0.91] were found to exert a statistically significant influence on the improvement in DLF0s. Grimault 123 Figure 4. Variations in discrimination thresholds during the second learning period. These variations were computed by dividing the thresholds measured on the intermediate test session by the thresholds measured on the post-training test session in the same test condition. Other characteristics of the figure are identical to those used in Figure 3. Figure 4 shows the variations in perceptual thresholds between the intermediate and the first post-training test sessions. As indicated by the fact that most data points lay close to or below the dotted horizontal line, little improvement occurred between these two test sessions and performance even decreased in some cases. For DLFs and AMRDs, no statistically-significant variation in threshold was noted, and no significant variation was Grimault 124 observed, neither between the groups, neither across test frequencies. The variations in DLF0s were not found to be significantly different for subjects trained in FD and subjects trained in AMRD [F(1,13)=0.46, p=0.51]. They were found to differ significantly across frequency regions for subjects trained in AMRD [F(2,10)=4.82, p<0.05], being largest in the MID region and smallest in the HIGH region. Figure 5. Overall variations in discrimination thresholds. These variations were computed by dividing the thresholds measured on the pre-training test session by the thresholds measured on the post-training test session in the same test condition. Other characteristics of the figure are identical to those used in Figures 3 and 4. Grimault 125 The overall improvements in perceptual thresholds measured between the pre- and the post-training test sessions are shown in Figure 5. For subjects trained in FD, the improvements in DLFs at the three test frequencies were not found to differ significantly from each other, but nearly did [F(2,16)=3.34, p=0.06]. For subjects trained in AMRD, no such trend was observed. Regarding DLFms, although no clearly significant effect for subjects trained in AMRD to improve more than those trained in FD was observed [F(1,7)=3.88, p=0.09], the data points corresponding to the former almost always laid above those corresponding to the latter. Regarding DLF0s, the improvements were overall found to differ significantly across frequency regions [F(2,26)=4.16, p<0.05]. A trend for an interaction between the frequency region, the F0, and the subject group (one group trained in AMRD and one trained in FD) was noted [F(2,26)=2.83, p=0.08]. A contrast analysis performed on the data of the two groups pooled together further revealed that the improvement in DLF0s was overall larger in resolved than in unresolved conditions [F(1,14)=9.55, p<0.01]. Considering the data from the subjects trained in FD independently, the improvement in FD was found to vary across frequency regions [F(2,16)=4.50, p<0.05], and this variation was itself found to vary across F0s [F(2,16)=4.12, p<0.05]. Contrast analysis further revealed a significant difference between the improvements in DLF0s measured in resolved and in unresolved conditions [F(1,8)=8.59, p<0.05]. This result is illustrated in the small lower right panel. Grimault 126 Figure 6. Variations in pure-tone frequency discrimination thresholds between the pretraining and intermediate test sessions in the different training groups. The training condition is indicated within each panel, at the top (FD: frequency discrimination; AMRD: amplitude modulation rates discrimination). Data for the three subjects groups trained in frequency discrimination are shown on the upper row. Data for the two subjects groups trained in amplitude-modulation rate discrimination are shown on the lower row. The nominal test frequencies are indicated in abscissa. Grimault 127 Figure 7. Variations in amplitude modulation rate discrimination thresholds between the pretraining and intermediate test sessions in the different training groups. The training condition is indicated within each panel, at the top (FD: frequency discrimination; AMRD: amplitude modulation rates discrimination). Data for the three subjects groups trained in frequency discrimination are shown on the upper row. Data for the two subjects groups trained in amplitude-modulation rate discrimination are shown on the lower row. The frequency region and nominal modulation rate conditions are indicated in abscissa. The error bars represent the standard errors around the geometric means across subjects. Grimault 128 Figure 8. Variations in fundamental frequency discrimination thresholds between the pretraining and intermediate test sessions in the different training groups. The training condition is indicated within each panel, at the top (FD: frequency discrimination; AMRD: amplitude modulation rates discrimination). Data for the three subjects groups trained in frequency discrimination are shown on the upper row. Data for the two subjects groups trained in amplitude-modulation rate discrimination are shown on the lower row. The frequency region and nominal fundamental frequencies are indicated in abscissa. The smaller insert panels represent the average threshold variations in the resolved and unresolved harmonics conditions. The error bars represent the standard errors around the geometric means across subjects. Figure 6 shows the variations in FD thresholds between the pre-training and intermediate test sessions for the different training groups. No significant difference was observed between the results of the different training groups [F(4,10)=1.00, p=0.45]. Grimault 129 Furthermore, the variations at the different test frequencies were not found to differ significantly in any of the training groups. The variations in DLFms between the two same test sessions are shown for the different training groups in Figure 7. Basically, no consistent difference in improvement was observed across training groups and test conditions. Figure 8 represents the variations in DLF0s obtained between the pre-training and intermediate test sessions in the different training groups. It is interesting to note that in subjects trained in AMRD at a nominal modulation rate of 88 Hz, the largest improvement in DLF0s were obtained in the 88-Hz F0 condition in the HIGH region, while in subjects trained in AMRD at a nominal modulation rate of 250 Hz, the largest improvement in DLF0s was obtained in the 250-Hz F0 condition in the same frequency region. These effects, however, proved not to be statistically significant using post-hoc t tests. Regarding the results of subjects trained in FD, a significant interaction between the frequency region and F0 factors was observed for subjects trained in FD at 1605 Hz [F(2,4)=9.93, p<0.05] and almost obtained for subjects trained at 250 Hz [F(2,4)=6.87, p=0.051]; no such trend was observed in subjects trained in FD at 88 Hz. Finally, as indicated by the insert panels, while larger improvements in DLF0s were generally obtained in unresolved than in resolved conditions in subjects trained in AMRD, the converse trend was observed in subjects trained in FD (at 250 and 1605 Hz, but not at 88 Hz). Grimault 130 Figure 9. Variations in pure-tone frequency discrimination thresholds between the intermediate and post-training test sessions in the different training groups. See the legend of Figure 6 for details. Grimault 131 Figure 10. Variations in amplitude modulation rate discrimination thresholds between the intermediate and post-training test sessions in the different training groups. See the legend of Figure 7 for details Grimault 132 Figure 11. Variations in fundamental frequency discrimination thresholds between the intermediate and post-training test sessions in the different training groups. See the legend of Figure 8 for details. Figures 9, 10, and 11 represent the variations in DLFs, AMRDs, and DLF0s which occurred between the intermediate and post-training sessions in the different training groups. These variations remained slight. The only noteworthy point is that for DLF0s, marked decreases in performance were observed in those conditions in which a marked improvement had been observed between the pre-training and intermediate test sessions : namely, at 88 Hz in the HIGH region for subjects trained in AMRD at 88 Hz, and at 250 Hz in the HIGH region for subjects trained in AMRD at 250 Hz. DISCUSSION Comparison of thresholds in the different tasks with literature data Before considering how the performances in the different tasks were altered by training, it is worthy to determine whether the pre-training thresholds measured in this study Grimault 133 are in the range of thresholds measured in earlier studies. Moore (1973) reported DLFs of about 0.25% at 250 Hz, and about 0.125% at 1000-2000 Hz.in trained subjects. The DLFs measured before training in the present study were substantially larger (namely, around 0.8% at 250 Hz and 0.3% at 1605 Hz). After training, in the subjects trained in the corresponding conditions, the DLFs were around 0.25% at 250 Hz and around 0.15% at 1605 Hz, close to the values reported by Moore (1973). The comparisons of the AMRTs obtained in this study with results from the literature are made difficult by the fact that data on AMRD with stimuli having the same characteristics as those used here are lacking in the literature. Using broadband noise carriers, Formby (1985) obtained DLFms of about 5% for a modulation rate of 80 Hz, and around 10% at 200 Hz. The DLFms measured before training in the present study at 88 and 250 Hz were generally larger than this, laying between about 10 and 20%. This difference may be due to training and/or to the narrower bandwidth of the stimuli used here. After training, in the subjects trained in AMRD with a modulation rate of 88 Hz, the mean threshold for this modulation rate was around 5%, and in subjects trained with a modulation rate of 250 Hz, the mean threshold at 250 Hz was around 10%. With carriers consisting of 1100-Hz wide bandpass noises around geometric center frequencies of about 900, 2200, and 3400 Hz, Hanna (1992) obtained DLFms of about 3-5 Hz (i.e. around 5%) for modulation rates of 66 and 100 Hz; for a modulation rate of 224 Hz, the DLFm was around 30-100 Hz (i.e. around 13-40%). Using pure tone carriers with frequencies comprised between 500 and 4000 Hz, Lee (1994) found DLFms between about 1 and 2 Hz (i.e. around 1.252.5%) for a nominal sinusoidal-AM rate of 80 Hz, and between about 1.5-8 Hz (i.e. between about 0.5-2.5%) for nominal rates of 160 and 320 Hz. This finding of substantially lower thresholds for tonal carriers than for noise carriers may be explained by the presence of marked spectral cues for the former. Using stimuli similar to those used here, Shackleton and Carlyon (1994) reported DLF0s of about 1% for resolved harmonics and around 3% for unresolved harmonics, irrespective of the frequency region (LOW, MID, and HIGH) and of the nominal F0 (88.4 or 250 Hz) used. Before training, we obtained DLF0s between about 0.4 and 0.9% for resolved harmonics, and between about 2 and 7% for unresolved harmonics. After training in FD or AMRD, DLF0s dropped to about 0.41% for resolved harmonics, and 3.39% for unresolved harmonics. Learning in FD Grimault 134 Considering all carrier frequencies and the whole training period, the performances in FD failed to improve significantly. The lack of improvement following the first training session was in particular apparent for the 88-Hz nominal carrier frequency condition, for which an almost flat learning curve was observed. However, this apparent lack of learning in FD must be tempered by the fact that in all training conditions, performances improved significantly in two subjects out of three. The apparent overall lack of learning at 88 Hz is in fact due to one subject showing a significant decrease in performance over time, which compensated for the increase in the two other subjects. Similarly, in the 250 and 1605 Hz conditions, the average learning effect is attenuated by one listener having a flat curve. Based on these observations, we may conclude in agreement with earlier publications (Demany, 1985), that, at least in certain subjects, performance in FD improves significantly with practice over the course of several days and even weeks, depending on the intensiveness of the training. The learning effects however seem to be largely variable across subjects, with some listeners failing to improve significantly even when given the opportunity of prolonged, repeated practice in the task. The factors of this intersubject variability in perceptual auditory learning, and the reasons for the failure of certain subjects to benefit from practice in a given task and with given stimuli, remain unclear. Learning in AMRD Performance in AMRD generally improved over time. This is, to our knowledge, the first published demonstration that performance in AMRD significantly improves with practice. The improvement proved to be significant overall in the 88-Hz nominal rate condition, but not in the 250 Hz condition. However, in this latter condition, two subjects out of three showed a significant improvement; the lack of significant learning effect in this condition may thus be imputed to one listener who failed to improve in the task. At 88 Hz, all three listeners improved significantly in the task. Whether the more marked improvement observed at 88 than at 250 Hz reflects inter-subject variability or a genuine difference in learning potential across modulation rates is a difficult question to settle based on the limited number of subjects involved in the present study. This question should be addressed in future studies using larger subject samples. The finding that performance in AMRD can improve significantly over time with practice is generally consistent with results from other studies in both animals (Schulze et al., 1998) and humans (Fitzgerald and Wright, 2000). In the latter study, AMRD learning was Grimault 135 found to be specific to modulation rate. Such a specificity is not reflected in the present results. Possible explanations for such a difference include intersubject variability, differences in the duration and intensiveness of the training (1 hour per day for only six days in the Fitzgerald and Wright study versus six-hours per week for several weeks here), and differences in the physical stimulus parameters (nominal modulation rates, characteristics of the carrier, …). The comparison is however drastically limited by the absence of detailed information on the methods and individual results in Fitzgerald and Wright (2000). Transfer of learning between FD and F0D Since none of the subjects were trained in F0D, any change in DLF0 between the different test sessions is likely to result from training in either FD or AMRD. Although one cannot completely exclude the possibility that part of the changes in DLF0s across the different test sessions resulted from the practice provided by the training session themselves, this possibility is made unlikely by the fact that, in an earlier study, we found no significant change in DLF0s across test sessions separated by exactly the same number of weeks as here, in control subjects who did not participate in training sessions. In contrast, the results obtained in this study revealed a significant overall improvement in DLF0s, which suggests that the subjects benefited from training in other tasks than F0D. Specifically, for the subjects trained in FD, the improvement in DLF0 proved to differ significantly across frequency regions and F0s. On the whole, it was significantly larger in the three conditions which involved resolved harmonics than in the three conditions which involved unresolved harmonics. A first possible interpretation of this observation is that F0D improves generally less for unresolved than for resolved harmonics. This interpretation is however made unlikely by the fact that, as will be discussed later on, no such difference was observed for subjects trained in AMRD. A second possible interpretation is that FD training benefited more to F0D for resolved than for unresolved harmonics. This interpretation is consistent with the general hypothesis that pitch perception is subtended by different mechanisms for resolved and unresolved harmonics (Schackleton and Carlyon, 1994; Carlyon and, Schackleton, 1994; Plack and Carlyon, 1995; Carlyon, 1998; Grimault et al., submitted article), and with the particular hypothesis made in Introduction, that the mechanisms used for the F0 discrimination of resolved harmonics share a common basis with those involved in the frequency discrimination of pure tones. This can be further interpreted in different ways. A first possibility is that the encoding of pure-tone frequency and of the F0 of unresolved Grimault 136 harmonics both rely on spectral cues, which are absent, or much less salient, when the harmonics are unresolved. This possibility appears however unlikely in the light of previous results (Moore, 1973), which all indicate that spectral models are unable to account for puretone DLFs at low to medium frequencies (below about 4-5 kHz). A second possibility is that, as suggested by several authors (e.g. Terhardt, 1974; Goldstein, 1973), the encoding of the F0 of resolved harmonics involves as a first stage the encoding of the frequency of each harmonic, based on fine temporal structure information; training in FD with isolated components would then improve this part of the F0 computation process, thereby contributing to improve F0D performances. In order to try and gain further insight into the transfer of learning between FD and F0D, it is worth considering the differences in DLF0 improvement between subjects trained in FD with a nominal frequency corresponding to the F0 and those trained with a frequency which fell within the frequency region of the harmonics. The finding of a significant interaction between the F0 and region factors in the two groups of subjects that were trained in FD at 250 and 1605 Hz confirms the visual observation of larger improvements in DLF0s for resolved than for unresolved harmonics in these two groups. It is interesting to note that the groups in which this superiority of learning effects for resolved harmonics was obtained are those trained in FD using a carrier frequency falling within the frequency range of the harmonics that made up the complexes - namely, the LOW region for 250 Hz, and the MID region for 250 Hz -.In contrast, at 88 Hz, the amount of transfer appeared to be almost identical, independently of the frequency region, nominal F0, and resolvability status of the harmonics. Based on current knowledge, we cannot offer a clear interpretation for this whole pattern of results. Transfer of learning between AMRD and F0D The data obtained regarding the effect of training in AMRD on performance in F0D failed to evidence any statistically-significant pattern of learning transfer. It is nevertheless noteworthy that while the data points representing the amount of improvement in DLF0 between the pre-training and intermediate test sessions were generally higher for R than for U harmonics for subjects trained in FD, the converse pattern was observed for subjects trained in AMRD. This result, however, could be related to the observed trend for improvements in DLF0s to be larger in the HIGH region. Although the harmonics were always unresolved in this region, if really learning transfer depended on resolvability, then larger improvements Grimault 137 should have also been observed in the MID 88 Hz condition. In view of this, our initial hypothesis according to which training in AMRD benefits more to F0D when the harmonics are unresolved than when they are resolved is not supported and, consequently, no further argument can be provided to the general hypothesis that the F0 encoding of unresolved harmonics shares more common underlying mechanisms with AMRD than the F0 encoding of resolved harmonics. Another possible interpretation, which is consistent with the results of a previous study on learning transfer in F0D (Grimault et al., submitted article), is that specific training in AMRD, like training in F0D with unresolved harmonics, biased the subjects' toward using a mechanism that is normally used preferentially for unresolved harmonics, but that may also apply to resolved harmonics. SUMMARY AND CONCLUSION The main findings of this study can be summarized as follows: - In agreement with earlier reports, subjects were found to improve significantly in FD. Similar amounts of threshold improvement were obtained at all test frequencies, irrespective of the training frequency. This agrees with the results of a previous study in which learning in FD was found not to be frequency-specific. - Subjects can improve significantly with practice in AMRD over the course of several days and weeks. The learning transfers widely across nominal AM rates and frequency regions. - Subjects trained in FD at 250 and 1605 Hz showed significantly larger improvements in F0D when the complex tones were composed of R than when they were composed of U harmonics. This result is consistent with the hypothesis that F0 encoding is subtended by different mechanisms depending on the resolvability of the harmonics. However, no clear explanation can be provided for the lack of differential benefit in DLF0 depending on resolvability for subjects trained in FD at 88 Hz. - Training in AMRD did not result in larger improvements in DLF0s for unresolved than for resolved harmonics. This is contrary to the hypothesis that F0 encoding for unresolved harmonics is specifically subtended by a process comparable to the discrimination of AMRD. REFERENCES ANSI (1969). ANSI S3.6-1969, Specifications for audiometers. (American National Standards Institute, New York). Bregman A.S., Liao C., Levitan R. (1990) Auditory grouping based on fundamental frequency Grimault 138 and formant peak frequency. Can. J. Psychol. 44: 400-13. Bregman AS. (1990) Auditory Scene Analysis: The perceptual Organization of Sound, MIT, Cambridge, MA. Burns E.M., Viemeister N.F. (1976) Nonspectral pitch. J. Acoust. Soc. Am. 60, 863-869. Burns E.M., Viemeister N.F. (1981) Played-again SAM: Further observations on the pitch of amplitude-modulated noise. J. Acoust. Soc. Am. 70, 1655-1660. Carlyon, R.P., (1998). The effect of the resolvability on the encoding of fundamental frequency by the auditory system. Carlyon, R.P., and Shackleton, T.M. (1994). Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms? J. Acoust. Soc. Am. 95, 3541-3554. Demany, L., (1985). Perceptual learning in frequency discrimination. J. Acoust. Soc. Am. 78, 1118-1120. Fitzgerald M.B., Wright B.A. (2000) Specificity of learning for the discrimination of sinusoidal amplitude-modulation rate. J. Acoust. Soc. Am. 107, 2916. Fletcher H. (1940) Auditory Patterns. Rev. Mod. Phys. 12: 47-65. Goldstein, J.L. (1973) An optimum processor theory for the central formation of the pitch of complex tones. J. Acoust. Soc. Am., 54, 1496-1516. Grimault N., Micheyl C., Carlyon R.P., Artaud P., Collet L. (2000) Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency. Accepted in J. Acoust. Soc. Am. Grimault N., Micheyl C., Carlyon R.P., Collet L. Evidence for two pitch encoding mechanisms using a selective auditory training paradigm. Submitted article. Hanna T. E. (1992) Discrimination and identification of modulation rate using a noise carrier. J. Acoust. Soc. Am., 91, 2122-2128. Hartmann W.M. (1988) Pitch perception and the segregation and integration of auditory entities. In Auditory function. (eds Edelman, G.M., Gall, W.E. and Cowan, W.M.) 623-645 (Wiley, New York). Levitt, H. (1971). Transformed up-down methods in psychoacoustics. J. Acoust. Soc. Am. 49, 467-477. Meddis R., O’Mard L. J. (1997) A unitary model of pitch perception. J. Acoust. Soc. Am. 102, 1811-1820. Grimault 139 Meddis, R. and Hewitt, M. (1991). Virtual pitch and phase sensitivity of a computer model of the auditory periphery: I. pitch identification. J. Acoust. Soc. Am. 89, 2866-2882. Meddis, R. and Hewitt, M. (1991). Virtual pitch and phase sensitivity of a computer model of the auditory periphery: II. Phase sensitivity. J. Acoust. Soc. Am. 89, 2883-2894. Moore, B.C.J. (1973) Plack C.J., Carlyon R.P. (1995) Differences in frequency modulation detection and fundamental frequency discrimination between complex tones consisting of resolved and unresolved harmonics. J. Acoust. Soc. Am. 98, 1355-1364. Schouten, J.F. (1940) The residue and the mechanism of hearing. Proc. K. Ned. Akad. Wet., 43, 991-999. Schouten, J.F. (1970) The residue revisited. In Frequency Analysis and periodicity perception in hearing (ed. R. Plomp and G.F. Smoorenburg), Sijthoff, Leiden. Schulze H., Shceich H., Langner G. (1998) Periodicity coding in the auditory cortex: what can we learn from learning experiments? Shackleton, T.M., and Carlyon, R.P. (1994). The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination. J. Acoust. Soc. Am. 95, 3529-3540. Terhardt, E. (1972a) Zur Tonhöhenwahrnehmung von Klängen. I. Psychoakustische Grundlagen. Acoustica, 26, 173-186. Terhardt, E. (1972b) Zur Tonhöhenwahrnehmung von Klängen. II. Ein Funktionsschema. Acoustica, 26, 187-199. Terhardt, E. (1974) Pitch, consonance and harmony. J. Acoust. Soc. Am., 55, 1061-1069. Thurlow,W.R. (1963) Perception of low auditory pitch: a multicue mediation theory. Psychol. Rev., 70, 515-519. Walliser, K. (1968) Zusammenwirken von Hüllkurvenperiod und Tonheit bei der Bildung des periodentonhöhe, Doctoral dissertation. Technische Hochschule, München. Walliser, K. (1969a) Zusammenhänge zwischen dem Schallreiz und der Periodentonhöle. Acoustica, 21, 319-328. Walliser, K. (1969b) Zur Unterschiedsschwelle der Periodentonhöhe. Acoustica, 21, 329-336. Walliser, K. (1969c) Uber ein Funktionsschema für die bildung der eriodentonhöhe aus dem Schallreiz. Kybernetik, 6, 65-72. Whitfield, I.C. (1967) The auditory pathway, Arnold, London. Grimault 140 Whitfield, I.C. (1970) Central nervous processing in relation to spatiotemporal discrimination of auditory patterns. In Frequency Analysis and periodicity perception in hearing (ed. R. Plomp and G.F. Smoorenburg), Sijthoff, Leiden. Grimault 141 Chapitre 2:Implication et importance d'un codage performant de la hauteur sur l'analyse de scènes en audition. Grimault 142 Article 3: Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency. Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon, Patrick Arthaud et Lionel Collet RESUME: Nous avons déterminé dans les études 1 et 2 que la résolvabilité des sons complexes harmoniques conditionnait l'utilisation de mécanismes neuronaux différents pour le codage de la hauteur. Les deux études qui vous sont présentés ici étudient l'influence de la résolvabilité sur l'organisation perceptive de séquences sonores constituées de sons complexes harmoniques variant par leur fréquence fondamentale. En utilisant une méthode à stimuli constant, nous avons déterminé les seuils de scission de séquences de type A-B-A... en fonction de la différence entre les fréquences fondamentales de A et de B. Dans la première de ces expériences, ces mesures ont été réalisées avec des sons complexes de fréquences fondamentales nominales 88 Hz et 250 Hz, filtrés dans trois régions fréquencielles -LOW (125-625 Hz), MID (1375-1875 Hz) et HIGH (3900-5400 Hz). Ces paramètres permettent d'obtenir différentes conditions de résolvabilité indépendamment de la fréquence fondamentale ou de la région de filtrage. Les sujets sont parvenus à séparer A de B en région HIGH ou toutes les harmoniques sont non-résolus. Cependant, les seuils mesurés dans cette condition sont dégradés en regard de ceux mesurés dans les régions LOW et MID. La seconde expérience indique que l'aptitude des sujets à séparer A de B en région HIGH n'est pas dûe à l'utilisation d'éventuels produits de distorsion. Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency Nicolas Grimault UMR CNRS 5020 Laboratoire ‘‘Neurosciences and Systèmes Sensoriels,’’ Hôpital E. Herriot-Pavillon U, 69437 Lyon Cedex 03, France and ENTENDRE Audioprothesists Group GIPA2, Pontchartrain, France Christophe Micheyl UMR CNRS 5020 Laboratoire ‘‘Neurosciences and Systèmes Sensoriels,’’ Hôpital E. Herriot-Pavillon U, 69437 Lyon Cedex 03, France Robert P. Carlyon MRC-Cognition and Brain Sciences Unit 15, Chaucer Road, Cambridge CB22EF, England Patrick Arthaud ENTENDRE Audioprothesists Group GIPA2, Pontchartrain, France Lionel Collet UMR CNRS 5020 Laboratoire ‘‘Neurosciences and Systèmes Sensoriels,’’ Hôpital E. Herriot-Pavillon U, 69437 Lyon Cedex 03, France 共Received 9 April 1999; revised 20 October 1999; accepted 31 March 2000兲 Two experiments investigated the influence of resolvability on the perceptual organization of sequential harmonic complexes differing in fundamental frequency (F0). Using a constant-stimuli method, streaming scores for ABA-... sequences of harmonic complexes were measured as a function of the F0 difference between the A and B tones. In the first experiment, streaming scores were measured for harmonic complexes having two different nominal F0s 共88 and 250 Hz兲 and filtered in three frequency regions 共a LOW, a MID, and a HIGH region with corner frequencies of 125–625 Hz, 1375–1875 Hz, and 3900–5400 Hz, respectively兲. Some streaming was observed in the HIGH region 共in which the harmonics were always unresolved兲 but streaming scores remained generally lower than in the LOW and MID regions. The second experiment verified that the streaming observed in the HIGH region was not due to the use of distortion products. Overall, the results indicated that although streaming can occur in the absence of spectral cues, the degree of resolvability of the harmonics has a significant influence. © 2000 Acoustical Society of America. 关S0001-4966共00兲02807-1兴 PACS numbers: 43.66.Ba, 43.66.Fe, 43.66.Hg, 43.66.Mk 关SPB兴 INTRODUCTION An important phenomenon in the perceptual organization of sound sequences consists of stream segregation. This refers to the fact that, under certain conditions, sound sequences can give rise to the perception of two or more auditory streams 共Miller and Heise, 1950; Bregman and Campbell, 1971; van Noorden, 1975; Anstis and Saida, 1985兲. It can be experienced each time one listens to music and follows a given instrument among the orchestral background. In laboratory conditions, it is traditionally investigated using simplified stimuli consisting of a repeating sequence of ‘‘A’’ and ‘‘B’’ tones 共e.g., van Noorden, 1975兲; when the stimulus repetition rate is rapid enough, or the frequency separation between the ‘‘A’’ and ‘‘B’’ tones large enough, the sequence breaks down into two perceptual streams. The minimum frequency separation between ‘‘A’’ and ‘‘B’’ tones for which two streams can be heard when the listener is trying to attend to one or the other subset of elements has been dubbed the ‘‘fission’’ boundary 共van Noorden, 1975兲. To date, the mechanisms underlying this phenomenon 263 J. Acoust. Soc. Am. 108 (1), July 2000 remain largely unknown. While certain authors have suggested that streaming is a central phenomenon 共Bregman, 1990兲, others have proposed that it is determined to a large extent by the functioning of peripheral mechanisms 共Beauvois and Meddis, 1996兲. One question, in particular, concerns the role of peripheral auditory filtering in streaming. Hartmann and Johnson 共1991兲 have proposed that beyond differences in the physical characteristics of the sounds, streaming is determined by parallel bandpass filtering, i.e., ‘‘channeling’’ of incoming sounds by the auditory periphery. Basically, sounds falling in different auditory channels are easily segregated, while sounds occupying successively the same auditory filters are less likely to be allocated to different auditory streams. This view is supported by the results of early experiments. Computer models based on this ‘‘channeling’’ principle can account successfully for a variety of experimental data on streaming 共Beauvois and Meddis, 1996; McCabe and Denham, 1997兲. On the other hand, however, some experimental results demonstrate that signal features not related to channeling can affect stream segregation. 0001-4966/2000/108(1)/263/9/$17.00 © 2000 Acoustical Society of America 263 For example, it has been shown that differences in temporal envelope between sounds having the same frequency content can promote streaming 共Iverson, 1995兲 and that the segregation boundary can be shifted by temporal envelope factors 共Singh and Bregman, 1997兲. Therefore, at present, the extent to which streaming depends on peripheral filtering remains unclear. The question of the influence of peripheral frequency resolution on streaming has been addressed recently by Rose and Moore 共1997兲. Using repeating ABA sequences, these authors measured the fission boundary in normal-hearing and hearing-impaired subjects. Based on the notion that streaming depends on peripheral frequency selectivity 共Hartmann and Johnson, 1991; Beauvois and Meddis, 1996兲 and that cochlear hearing impairment is associated with reduced frequency selectivity, one prediction was that the fission boundary would be larger in hearing-impaired than in normalhearing subjects. The results in normal-hearing listeners indicated that the fission thresholds at different center frequencies were independent of the frequency difference between the A and B tones when expressed in terms of ERBs, a common measure of auditory-filter bandwidth; this argues for the hypothesis that streaming depends on frequency selectivity. However, the results in hearing-impaired subjects revealed a much less clear pattern, which did not allow this hypothesis to be confirmed. One problem with the use of pure tones to study the role of peripheral frequency resolution on streaming comes from the fact that, for such tones, changes in frequency are strongly correlated with changes in pitch; consequently, these two factors cannot be disentangled. Complex tones, on the contrary, can vary by their fundamental frequency (F0, which largely determines virtual pitch兲 and/or their spectral locus, corresponding to the region in which the harmonics are filtered. Early experiments by van Noorden 共1975兲 indicated that F0 played no significant role in streaming, in contrast to the spectral locus of the harmonics. In particular, it was shown that alternating complex tones that had the same F0 but that were composed of different sets of harmonics gave rise to two perceptual streams, one having a tinnier or brighter quality than the other. However, as pointed out by Bregman 共1990兲, this experiment did not give F0 a ‘‘fair chance’’ as a potential factor of stream segregation given the known large influence of spectral differences. Later experiments concerned with the respective influence of F0 and spectral locus on streaming questioned this conclusion and suggested that these two factors both had a significant influence on streaming 共Singh, 1987; Bregman et al., 1990; Singh and Bregman, 1997兲. For example, Bregman and Levitan 共cited in Bregman, 1990兲 and Bregman et al. 共1990兲 found an effect of F0 on streaming in a study which measured streaming as a function of differences in F0 and peak position for harmonic complexes with a formantlike spectral envelope. However, as in the studies by Singh and by Bregman, they used resolved complexes, and so differences in F0 would have covaried with differences in the excitation patterns of the complexes. This question of the influence of resolvability on the streaming of complex tones has recently become the object 264 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 of increased interest. Very recently, Vliegen and Oxenham 共1999兲 reported effects of F0 on streaming using complex tones consisting entirely of unresolved harmonics. They concluded that streaming can be mediated by F0 differences in the absence of excitation-pattern cues, and, indeed, reported that streaming was not reduced relative to a condition with resolved harmonics. This absence of an effect of resolvability is somewhat surprising because, as they pointed out, the virtual pitch percept produced by unresolved harmonics is considerably weaker than that obtained with resolved harmonics 共Houtsma and Smurzynski, 1990; Shackleton and Carlyon, 1994兲. In a more recent study, Vliegen et al. 共1999兲 showed that streaming induced by gross spectral differences, which were produced by filtering the harmonics in different frequency regions, was more potent than streaming induced by F0 differences in the absence of spectral cues. They suggested that the difference between these results and those obtained by Vliegen and Oxenham 共1999兲 might be due to the fact that in that earlier study, stream segregation was advantageous 共i.e., leading to better performance兲, whereas in the Vliegen et al. 共1999兲 study it was detrimental. Unfortunately, the latter study did not include a condition in which the harmonics of the A and B complex tones were resolved and filtered in the same frequency region; therefore, the proposed explanation for the differences between the outcomes of the two studies may have been confounded by differences in the cues available to the listeners to perform the tasks 共i.e., local spectral cues in the former study versus global spectrum or timbre cues in the latter兲. Indirect evidence for the fact that harmonic resolvability influences streaming even when stream segregation is advantageous for the listeners has been provided in a study by Micheyl and Carlyon 共1998兲, and recently confirmed by Gockel et al. 共1999兲. These authors have shown that the F0 discrimination of target complex tones can be substantially impaired by preceding and following complex tones having a slightly different F0, and that this temporal interference effect is significantly larger when all complexes are made of unresolved harmonics than when they contain resolved harmonics. They paralleled this finding to the informal observation that in the unresolved condition, the listeners could not stream apart the target from the interfering complexes, whereas they could in the resolved conditions. The present study investigated further the effect of resolvability on auditory stream segregation using a task and instructions which encouraged the use of a neutral criterion by the listeners—namely, whether the sequences sounded more like one or two streams. Stream segregation of complex tones was measured as a function both of F0 and of the frequency region into which the tones were filtered. The interaction between these two factors determined the extent to which the components in each complex were resolved by the peripheral auditory system in a way which has been measured in some detail 共Shackleton and Carlyon, 1994兲, thereby allowing us to examine the effects of resolvability per se, independently of either frequency region or F0. Grimault et al.: Resolvability and streaming 264 I. GENERAL METHODS II. EXPERIMENT 1 A. Procedure A. Rationale Stream segregation was measured using a constantstimuli procedure. Following a paradigm devised by van Noorden 共1975兲, subjects were presented with repeating ABA tone sequences, where ‘‘A’’ and ‘‘B’’ represent tones of either the same or a different frequency. Subjects were instructed to indicate whether, at the end of the 4-s sequence, they heard either a single auditory stream with a galloping rhythm or two independent streams. Subjects indicated their response by pressing ‘‘1’’ or ‘‘2’’ on a computer keyboard. The program did not accept responses until completion of the whole sequence, and waited for the response before presenting the next sequence. Bregman 共1978兲 has shown that streaming is a cumulative process, i.e., that it takes time for the listener to decide that there are two independent streams. He estimated the time constant of the process to be around 4 s. Over longer durations, spontaneous reversals in the percept have been shown to occur 共Anstis and Saida, 1985兲. Accordingly, the stimulus duration was chosen in this study so that streaming was nearing its maximum at the end of the stimulus sequence, just as subjects had to indicate their response. Overall, five or six different frequency separations between the A and B tones were presented, including a nodifference condition 共control condition for false-alarm rate兲. These different stimulus conditions were presented ten times each, in random order. Tests began with a demonstration wherein the subjects could hear examples of sequences leading unambiguously to a single-stream or to a two-stream percept. The aim of experiment 1 was to test systematically for the influence of resolvability on streaming elicited by F0 differences. To that end, differences in F0 were varied independently of differences in spectral regions. Three different frequency regions, defined by Shackleton and Carlyon 共1994兲 and used in several subsequent studies 共Carlyon and Shackleton, 1994; Carlyon, 1996a, b; Micheyl and Carlyon, 1998兲, were used here. A prediction inspired by the results of Micheyl and Carlyon 共1998兲 was that streaming should decrease with decreasing resolvability. B. Material Two testing systems were used. With the first, TuckerDavis-Technologies-based system, signals were generated digitally in the time domain and output through a 16-bit digital-to-analog converter 共TDT DA1兲 at a sampling rate of 44.1 kHz. A pink-noise background was generated digitally, recorded on CD, and played out continuously throughout the experiment 共Sony CDP-XE300兲. The signals and background noise were low-pass filtered 共TDT FT6-2 attenuation more than 60 dB at 1.15 times the corner frequency兲 at 15 kHz. They were then led to two separate programmable attenuators 共TDT PA4兲. The outputs of the attenuators were summed 共TDT SM3兲 and led to a Sennheiser HD465 headphone via a headphone buffer 共TDT HBC兲. The subject was comfortably seated in a sound booth. The second system consisted of an Interacoustics AC30 audiometer. The same sound files as used with the other testing system were used. The masker was produced using the same prerecorded CD, played from the computer CDROM drive. Signals were output via a 16-bit digital-toanalog converter. The masker and signals were then attenuated and added using the AC30 audiometer before being sent to one earpiece of Sennheiser HD465 headphones. Signal characteristics at the output of the two test systems were monitored using an HP3561A signal analyzer. 265 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 B. Subjects Seven subjects took part in the experiment. They ranged in age between 22 and 29 years (mean⫽25.7, s.d.⫽2.7). They all had normal hearing, i.e., absolute pure-tone thresholds at or below 15 dB HL at octave frequencies from 250 to 8000 Hz 共ANSI, 1969兲. Four subjects were tested with the F0 of signal A set to 88 Hz; for the other three subjects, this F0 was set to 250 Hz. C. Stimuli The stimuli consisted of 4-s sequences of harmonic complex tones. Each sequence was formed by the repetition of three 100-ms complex tones 共A-B-A兲 occurring immediately after each other. The three-tone sequences were separated by a 100-ms silent interval. The tones were gated with 20-ms raised-cosine ramps. The F0 of signal A was fixed at 88 or 250 Hz, whereas that of signal B varied between 88 and 352 Hz in half-octave steps. The signals were bandpass filtered digitally. The digital filter had a flat top and 48 dB/ oct slopes. Depending on the condition, the filter lower and upper corner frequencies were set to 125 and 625 Hz, 1375 and 1875 Hz, or 3900 and 5400 Hz. These values correspond to the LOW, MID, and HIGH frequency regions of a previous study by Shackleton and Carlyon 共1994兲. They showed that complexes with an F0 of 88 Hz were resolved in the LOW region and unresolved in the MID and HIGH regions, whereas those with F0s of 250 Hz were resolved in the LOW and MID regions and unresolved in the HIGH region. 共Resolvability was defined as the number of harmonics falling within the 10-dB-down bandwidth of an auditory filter in the center of each region; this was lower than two for the resolved complexes and higher than 3.25 for the unresolved complexes. In addition, manipulating the phase of the unresolved but not of the resolved complexes could influence pitch兲. The signal level was set to 40 dB above the threshold in quiet measured using a sequence composed of signals filtered in the MID region, with F0s of 88 and 250 Hz for A and B, respectively. For convenience, this level will be referred to as 40 dB SL in the following.1 All signals were presented in a pink-noise background. The level of this noise was set 10 dB above its absolute detection threshold, which was measured beforehand in each subject. Grimault et al.: Resolvability and streaming 265 TABLE I. CRI and experimental percent of segregation for F0 separations of ⫺0.5 or ⫹0.5 octave in the three different frequency regions tested in experiment 1. FIG. 1. Streaming scores as a function of F0 separation in the LOW, MID, and HIGH regions. Left-hand panel: data obtained with F0 A⫽88 Hz. Righthand panel: data obtained with F0 A⫽250 Hz. The horizontal scale shows the distance in octaves between the F0s of A and B; negative values correspond to cases where the F0 of A was below that of B. The vertical scale represents streaming scores expressed in percent of ‘‘two stream’’ responses; the larger the score, the better the streaming performance. The parameter was the filtering region. Filled circles and continuous line correspond to data in the LOW region. Squares and dashed lines correspond to data in the MID region. Circles and dotted lines correspond to data in the HIGH region. The error bars show the standard error of the mean across subjects. D. Results The results of experiment 1 obtained when the F0 of the A tones was 88 and 250 Hz are shown in the left- and righthand panels of Fig. 1, respectively. These results indicate at first sight that although differences in F0 are an important factor for streaming, there are other sources of variation. In particular, overall higher percents of segregation 共corresponding to larger percentages of ‘‘two streams’’ responses兲 were observed in the LOW region than in the MID region, and in the MID region than in the HIGH region. Also, the way in which streaming scores varied as a function of the F0 separation between tones A and B appeared to be different across regions. In order to assess the significance of these observations, two-way repeated-measures ANOVAs were performed separately on the data obtained at each nominal F0. The results revealed that at F0 A ⫽88 Hz there was, in addition to a significant effect of the F0 separation 关 F(4,12)⫽94.55, p⬍0.001], a significant effect of the frequency region in which the stimuli were filtered 关 F(2,6) ⫽9.26, p⬍0.05]. There was no significant interaction between these two factors 关 F(8,24)⫽1.46, p⫽0.22]. At F0 A ⫽250 Hz, a significant effect of the frequency region 关 F(2,4)⫽6.98, p⬍0.05] and F0 separation 关 F(4,8) ⫽14.24, p⫽0.001] was observed. In contrast to the results for F0 A⫽88 Hz condition, a significant interaction between the frequency region and F0 separation 关 F(8,16)⫽4.21, p ⫽0.007] was obtained. In order to investigate the existence of quantitative relationships between the degree of resolvability of the stimuli and the streaming scores in the different conditions, we computed a ‘‘combined resolvability index’’ 共CRI兲. This index, the mathematical details of which are given in the Appendix, depends on the interaction between auditory filter bandwidth 共which covaries with the frequency region兲 and the F0s of the A and B sounds. It varies between 0 共fully unresolved兲 and 1 共fully resolved兲. Table I indicates the CRI and percent 266 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 F0 A F0 B 250 88 250 88 250 88 176 125 176 125 176 125 Frequency region LOW LOW MID MID HIGH HIGH CRI Percent 0.8953 0.6426 0.3527 0.0155 0.0007 0 86.67 40 40 15 10 2.5 of ‘‘two stream’’ judgments for different combinations of F0s between the A and B tones, for cases where the F0 difference is constant and equal to half an octave. Note that both the CRI and segregation rates are greatest at high F0s and in low-frequency regions. A strong correlation was found between these two variables (r⫽0.95, p⬍0.005, N ⫽6), which does not appear to be due to either F0 or frequency region alone. For example, the CRI and segregation scores are both higher in the third than in the fourth row of Table I even though the stimuli are all filtered into the MID region; conversely, both scores are higher in the first than in the fifth row, even though the F0s of the stimuli are the same. This general pattern of results is consistent with the idea that resolvability, rather than F0 or frequency region per se, has an effect on streaming by F0 differences. Table II shows the CRI and percents of segregation for F0 separations of half an octave below and above 250 Hz in the different frequency regions. Here again, a strong correlation was obtained (r⫽0.93, p⬍0.01, N⫽6). E. Discussion The results of this experiment are in agreement with those of previous studies indicating that differences in F0 can be used to stream harmonic complexes 共Singh, 1987; Bregman et al., 1990; Singh and Bregman, 1997兲. In particular, the present finding that streaming can occur even when spectral cues are not available to the listeners 共as in the HIGH frequency region兲 supports Vliegen and Oxenham’s 共1999兲 conclusion. However, our results differ from theirs in showing that streaming is enhanced when the components of each complex are resolvable by the peripheral auditory system. Some other indirect evidence for an effect of resolvability on streaming is provided by the results of two recent TABLE II. CRI and experimental percent of segregation for F0 separations of ⫾0.5 octave around 250 Hz in the three different frequency regions tested in experiment 1. F0 A F0 B Frequency region CRI 250 250 250 250 250 250 352 176 352 176 352 176 LOW LOW MID MID HIGH HIGH 0.9458 0.8953 0.5912 0.3527 0.0265 0.0007 Percent 86.67 86.67 70 40 43.33 10 Grimault et al.: Resolvability and streaming 266 studies 共Micheyl and Carlyon, 1998; Gockel et al., 1999兲, which revealed that, in the LOW and MID frequency regions, the F0 discrimination of a harmonic complex is impaired by preceding and succeeding complexes, i.e., temporal ‘‘fringes,’’ having a similar F0, but not by fringes having a widely different F0. In contrast, in the HIGH region, where all complexes were unresolved, interference effects occurred even between fringes and targets differing widely in F0. Informal observations made during the course of these studies indicated that the conditions in which interference effects occurred corresponded to those in which the fringe-targetfringe sequences could not be split into two streams; this was, in particular, the case when the fringes and targets were filtered in the same frequency region, were presented to the same ear, and had a similar F0. Thus, it was proposed that the F0 of the target could not be encoded independently of that of the fringes when it formed part of the same auditory stream. Consequently, the finding that interference effects in F0 discrimination occurred even for large target-fringe separations in the HIGH region was interpreted as indirect evidence for the fact that streaming was less easy in this HIGH region, unresolved condition. The present results support this interpretation. A possible reason for the different outcomes of the present study and that of Vliegen and Oxenham 共1999兲, which indicated no significant influence of resolvability on stream segregation, may come from the instructions given: Vliegen and Oxenham’s listeners were told to ‘‘try to hear out tone B separately from tone A,’’ whereas our procedure encouraged a more ‘‘neutral’’ criterion 共whether the sequence sounded more like one or two streams at the end兲. The task of trying to hear two streams is different from that of trying to hold on to a coherent percept 共van Noorden, 1975; Bregman, 1990兲, which the neutral criterion used here may have encouraged the listeners to do. Also, the frequency separation at the temporal coherence boundary—where the listener is trying to hold on to the percept of a single stream—has been shown to be highly sensitive to the tone repetition rate 共van Noorden, 1975兲. In fact, it has been suggested that the temporal coherence and the fission boundaries reflect different phenomena, the former indicating the point above which the auditory system is forced to segregation by automatic primitive processes, while the second indicates the limit of the attention-based component of streaming 共Bregman, 1990兲. Consequently, it is conceivable that stimulusrelated factors, like repetition rate and resolvability, have a larger influence on streaming when listeners are not trying to hear-out two streams. However, there is no evidence at present for the existence of an interaction between factors like repetition rate and resolvability. Another possible reason for the apparent discrepancy between the results of Vliegen and Oxenham and those obtained here is that, in the present study and the preceding ones by Micheyl and Carlyon 共1998兲 and Gockel et al. 共1999兲, a larger F0 range was used 共88 to 250 Hz兲 than in the study of Vliegen and Oxenham 共100 to 189 Hz兲. We computed that while the minimum CRI in all studies is 0 共corresponding to a fully unresolved condition兲, the maximum CRI is 0.31 in Vliegen and Oxenham’s study versus 267 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 0.94 in ours 共given that 1 corresponds to a fully resolved condition兲. Thus, the use of more extreme resolved and unresolved harmonic conditions in the present study may have promoted the emergence of significant influences of resolvability. Three interpretations can be invoked to explain the finding that although harmonic resolvability influences the streaming of complex tones differing in F0, streaming based on F0 differences can occur even when the harmonics are unresolved. According to a first interpretation, spectral cues are not absolutely necessary for streaming to occur, but they contribute to the phenomenon, together with other factors, namely, F0 differences. According to a second interpretation, streaming does not depend directly on spectral cues but on virtual pitch per se; the fact that streaming performances are larger for resolved than for unresolved harmonics can then be explained by the fact that the virtual pitch derived from resolved harmonics is generally more robust than that derived from unresolved harmonics 共Houtsma and Smurzynski, 1990; Shackleton and Carlyon, 1994兲. These two interpretations are considered further in Sec. IV. According to a third interpretation, although the components in the physical stimulus could not be resolved by the peripheral auditory system, distortion products were generated by the ear; some of these combination tones were low enough in frequency to be resolved and may thus have provided spectral cues. This third interpretation was further tested in a second experiment, described in the next section. III. EXPERIMENT 2 A. Rationale The results of experiment 1 indicate that sequences of sounds differing by their F0 can still be split into different streams by the auditory system, even when the individual components of the sounds fall in the same frequency region and are unresolved. Nevertheless, although the physical components of the sounds were unresolved, one may not rule out the possibility that distortion products corresponding to subharmonics of these components were generated by the ear; these combination tones, falling in a region where the auditory filters were narrower, may have provided spectral cues as to the F0 differences between the A and B stimuli. This would, in particular, be the case if an internal component corresponding to the fundamental frequency of the highfrequency complex was generated by the ear. Recent results suggest that amplitude-modulated high-frequency components can give rise to a strong combination tone at the frequency of the modulation 共Wiegrebe and Patterson, 1999兲. Earlier data in the literature indicate that combination tones produced by two-tone complexes are audible when the level of the primaries is between about 40 and 70 dB SL on average; however, there are large variations between subjects and some subjects can apparently detect combination tones at primary levels as low as 20 dB SL 共Plomp, 1965兲. Similarly, combination tones corresponding to the missing fundamental of complexes composed of all harmonics between the second and the tenth can be detected when the level of the complex is on average 57 dB SL, but some subjects could detect it at Grimault et al.: Resolvability and streaming 267 about 30 dB SL 共Plomp, 1965兲. On the basis of these data, it cannot be completely excluded that some listeners can hear combination tones when presented with a 40 dB SL harmonic complex, as was the case in experiment 1. In their recent article, Vliegen and Oxenham 共1999兲 estimated that a pink-noise background with a spectrum level of 25 dB at 1 kHz ensured that the distortion products elicited by their harmonic complexes were masked. The overall level of their complexes being fixed at 70 dB SPL, the SPL per component in the passband varied between around 52 or 61, depending on the F0 and frequency region tested. Thus, at 1 kHz, the component level was between 27 and 36 dB above the level of the noise. In experiment 1 of the present study, the overall SPL of the stimuli in the MID region was estimated to be around 52 dB SPL and the SPL per component in the passband varied between about 44 and 49. The estimated spectrum level of the noise at 1 kHz was 9.71 dB. Thus at this frequency, the component level was between 35 and 39 dB above the noise level, and it cannot be concluded that distortion products were inaudible in that experiment. Consequently, we performed a second experiment in which we first reduced the signal level by 10 dB, thereby making the signal-to-noise ratio 10 dB smaller than in experiment 1, and similar to that used by Vliegen and Oxenham 共1999兲. Then, keeping this new signal-to-noise ratio, we ran a second condition in which we increased both the signal and noise levels by 20 dB, which were then comparable to those used in Vliegen and Oxenham 共1999兲. B. Subjects Four subjects with normal hearing 共thresholds less than 15 dB HL at conventional audiometric frequencies between 250 and 8000 Hz兲 who all had taken part in experiment 1 participated to experiment 2. They were aged between 22 and 29 years. C. Stimuli The stimuli were the same as those used in experiment 1 共open circles兲 in the HIGH frequency region condition with F0 A ⫽88, except for a change in level. Whereas in experiment 1 the signal and pink-noise background levels were 40 and 10 dB SL, respectively, in this experiment they were set either to 30 and 10 dB SL, or to 50 and 30 dB SL, respectively. D. Results The streaming scores obtained at the two test levels are shown in Fig. 2, along with the results from experiment 1 共HIGH region, F0 A ⫽88 Hz). The data in these three conditions—the two conditions of experiment 2 plus that of experiment 1—were analyzed using a two-way repeatedmeasures ANOVA. As in the previous experiment, a strong effect of F0 separation on streaming was observed 关 F(4,12)⫽73.32, p⬍0.001], but no statistically significant difference was found between the three conditions tested 关 F(2,6)⫽1.61, p⫽0.28]. No significant interaction between condition and F0 separation was noted either 关 F(8,24) ⫽0.64, p⫽0.74]. 268 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 FIG. 2. Streaming scores as a function of F0 difference in three different level conditions in the HIGH region. The abscissa shows the distance in octave between the F0s of A and B. The ordinate represents the percent of segregation; the larger the score, the better the streaming performance. The parameter was the presentation level of the signal and noise. Filled circles and continuous line correspond to a 30 dB SL signal level and 10 dB SL masker level. Squares and dashed line correspond to a 50 dB SL signal level and 30 dB SL masker level 共same signal-to-noise ratio兲. Circles and dotted line correspond to data from the first experiment 共40 dB SL signal level and 10 dB SL masker level兲, replotted for comparison. The error bars show the standard error of the mean across subjects. E. Discussion The fact that the streaming scores for the HIGH frequency complex were not significantly reduced by a 10-dB decrease in signal-to-noise ratio even when the signal level was raised to 50 dB SL argues against the hypothesis that distortion products are necessary for the streaming of unresolved, high-frequency harmonics. This outcome is in broad agreement with the recent findings of Vliegen and Oxenham 共1999兲. The agreement between their results and ours on this point is further supported by the fact that in the second condition of our experiment 2, the signal levels and signal-tonoise ratios were comparable to those used in their experiment 1a and, yet, streaming scores were not significantly different from those measured at the lower levels used in our experiments 1 and 2. In more general terms, the finding that a 20-dB increase in signal level with the same signal-to-noise ratio had no significant effect on streaming suggests that the signal level, independently of the signal-to-noise ratio, is not an important factor in the streaming of harmonic complexes, at least over the 30 to 50 dB SL range. IV. SUMMARY AND CONCLUSION Experiment 1 compared streaming in different resolvability conditions in the same, normal-hearing subjects. Streaming scores were found to decrease overall with increasing frequency region, being in some instances signifiGrimault et al.: Resolvability and streaming 268 cantly larger in the LOW and MID than in the HIGH frequency region. Furthermore, streaming scores appeared to be significantly correlated with a computed resolvability index taking into account the combined resolvability of the A and B tones forming the test sequences. However, the results of this experiment and those of experiment 2 also indicated that completely unresolved harmonic complexes could still give rise to two perceptual auditory streams, even in conditions where subjects were unlikely to use combination tones. These results confirm the recent demonstration by Vliegen and Oxenham 共1999兲 that streaming of complex tones differing in F0 can occur on the sole basis of temporal cues. However, they differ from the results of these authors in showing that the degree of resolvability of the harmonics has a significant influence on streaming. This outcome is consistent with other recent results which suggest that streaming is substantially weaker for unresolved than for resolved harmonics 共Micheyl and Carlyon, 1998; Gockel et al., 1999兲. The present results further indicate that an effect of resolvability on stream segregation can be observed even if the task and instructions encourage the use of a neutral criterion by listeners. Therefore, the explanation proposed by Vliegen et al. 共1999兲 to explain the difference between their conclusions and those reached by Vliegen and Oxenham 共1999兲 may not be valid. Overall, the results of the different experiments presented here suggest that although resolvability of the harmonics is not absolutely necessary for streaming, it significantly contributes to it. This contribution may be mediated either by spectral cues, which are associated to resolved harmonics, or by pitch strength, which is known to be larger for resolved than for unresolved harmonics. The aim of future experiments might consist of trying to disentangle the respective influence of these two factors by manipulating pitch strength independently of spectral cues. However, because of the strong relationship that exists between these factors, this aim may well prove difficult to achieve. ACKNOWLEDGMENTS This research was supported by the French National Center for Scientific Research 共CNRS兲 and by the ENTENDRE hearing-aid dispensers group. The authors are grateful to Sid Bacon, Brian Roberts, and an anonymous reviewer for very helpful comments on earlier versions of the manuscript. Jean-Christophe Béra is gratefully acknowledged for his help with calibration. APPENDIX 1. Apparatus interchangeability check For practical reasons, not all subjects could be tested using the same apparatus; two testing systems had to be used. The preliminary experiment described below was performed in order to check that the streaming scores measured using these two systems were not different. To do this, we tested the same four subjects in the same conditions on the two systems. Furthermore, in order to investigate withinsubject variability, the stimuli were presented 30 times at each F0 combination. The F0 of the A sound was main269 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 FIG. A1. Mean streaming scores on the two testing systems. Filled circles show the results obtained with the AC30-based system. Empty circles show results obtained using the Tucker-Davis-Technologies-based system. tained constant at 88 Hz; the F0 of B was varied between 88 and 352 Hz. The signal level was 40 dB SL and the noise level was 10 dB SL. The stimuli were filtered in the MID frequency region 共1375–1875 Hz兲. Figure A1 shows the mean streaming scores of the four subjects on the two testing systems. The results obtained on the two testing systems are largely similar. A two-way TABLE AI. CRI for different F0 separations (F0 A⫽88 Hz) in the LOW 共a兲, MID 共b兲, and HIGH 共c兲 region, ‘‘y’’ and ‘‘n’’ indicate that harmonics were or were not resolved according to Shackleton and Carlyon’s 共1994兲 definition. F0 A⫽88 Hz CRI y/n 共a兲 LOW region 62 88 125 176 250 352 0.4097 0.4097 0.6426 0.8 0.8953 0.9457 y y y y y y 共b兲 MID region 62 88 125 176 250 352 0.0002 0.0002 0.0155 0.1221 0.3527 0.5912 n n ? ? y y 共c兲 HIGH region 62 88 125 176 250 352 0 0 0 0 0.0007 0.0265 n n n n n ? F0 B Grimault et al.: Resolvability and streaming 269 TABLE AII. CRI for different F0 separations (F0 A⫽250 Hz) in the LOW 共a兲, MID 共b兲, and HIGH 共c兲 regions. ‘‘y’’ and ‘‘n’’ indicate that harmonics were or were not resolved according to Shackleton and Carlyon’s 共1994兲 definition. F0 B 共a兲 LOW region 62 88 125 176 250 352 共b兲 MID region 62 88 125 176 250 352 共c兲 HIGH region 62 88 125 176 250 352 F0 A⫽250 Hz CRI y/n 0.8953 0.8953 0.8953 0.8953 0.8953 0.9458 y y y y y y 0.3527 0.3527 0.3527 0.3527 0.3527 0.5912 0.0007 0.0007 0.0007 0.0007 0.0007 0.0265 y y y y y y n n n n n ? 2. The combined resolvability index This index was obtained by computing the average number of harmonics falling in the 10-dB auditory-filter bandwidth whose center frequencies fall within the corner frequencies of the considered frequency region 共LOW, MID, HIGH兲. The resulting number was then transformed through a Gaussian function so that it was bounded between 0 共fully unresolved兲 and 1 共fully resolved兲. The formula used to compute the resolvability index is given below: RI⫽exp兵 ⫺ 共 兺 ff ul 关 1.8•ERB共 f 兲 /F 0 兴 / 共 f u⫺ f l 兲兲 2 /2其 , where fu and fl correspond to the upper and lower corner frequencies, respectively, of the considered frequency region, F0 corresponds to the F0 of the complex and ERB( f ) is the equivalent rectangular bandwidth at the center frequency f, as defined in Glasberg and Moore 共1990兲. A complex was considered to be resolved if its resolvability index was greater than 0.135 and unresolved if its resolvability index was smaller than 0.005; these two values correspond respectively to mean numbers of harmonics fallJ. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 冋 再冉 再冉 CRI⫽MAX exp ⫺ exp repeated-measure ANOVA indicated a significant effect of the F0 difference 关 F(4,12)⫽169.08, p⬍0.001] on streaming but no difference between the two systems 关 F(1,3) ⫽0.03, p⫽0.87]. The results of this experiment also revealed that the streaming percentages estimated on the basis of 30 presentations were very close to those estimated on the basis of only ten presentations; using a Mann-Whitney pairwise comparison statistical test, the two were found not to be significantly different. In view of this small within-subject variability, we chose to restrict the number of presentations of each stimulus to ten in the actual experiments. 270 ing in the auditory-filter bandwidth of 2 and 3.25 共Shackleton and Carlyon, 1994兲. Furthermore, because sequences comprising A and B tones having different F0s were used in this study, we computed a combined resolvability index 共CRI兲. This index was computed as the maximum of the resolvability index of the A and B complexes comprising the sequence. The combined resolvability index of a sequence A-B-A is then given by 冊冒 冎 冊 冒 冎册 兺 ff ul 关 1.8•ERB共 f 兲 /F0 A 兴 2 ; 共 f u⫺ f l 兲 兺 ff ul 关 1.8•ERB共 f 兲 /F0 B 兴 共 f u⫺ f l 兲 2 2 2 , where all symbols are the same as in the previous formula. Tables AI and AII show the CRI in each of the conditions tested in this study. 1 All stimulus levels used in this study were specified in terms of SLs rather than SPLs. Nevertheless, some information regarding the SPLs used in the study could be obtained a posteriori. The Sennheiser HD465 headphones used in the study were calibrated using a Zwislocki coupler in combination with a 0.5-in. BK1433 condenser microphone and a BK2610 preamplifier feeding an HP35665A signal analyzer. Based on the measured absolute thresholds of one of the normal-hearing listeners who had taken part in the experiment, the level of the 40-dB SL signal was estimated to be approximately 52 dB SPL. The spectrum level of the 10-dB SL pink noise background was measured to be about 41 dB below the level per component of the harmonic at 1500 Hz in this listener. ANSI 共1969兲. ANSI S3.6-1969, Specifications for Audiometers 共American National Standards Institute, New York兲. Anstis, S., and Saida, S. 共1985兲. ‘‘Adaptation to auditory streaming of frequency-modulated tones,’’ Percept. Psychophys. 11, 257–271. Beauvois, M. W., and Meddis, R. 共1996兲. ‘‘Computer simulation of auditory stream segregation in alternating-tone sequences,’’ J. Acoust. Soc. Am. 99, 2270–2280. Bregman, A. S. 共1978兲. ‘‘Auditory streaming is cumulative,’’ J. Exp. Psychol. 4, 380–387. Bregman, A. S. 共1990兲. Auditory Scene Analysis: The Perceptual Organization of Sound 共MIT, Cambridge, MA兲. Bregman, A. S., and Campbell, J. 共1971兲. ‘‘Primary auditory stream segregation and the perception of order in rapid sequences of tones,’’ J. Exp. Psychol. 89, 244–249. Bregman, A. S., Liao, C., and Levitan, R. 共1990兲. ‘‘Auditory grouping based on fundamental frequency and formant peak frequency,’’ Can. J. Psychol. 44, 400–413. Carlyon, R. P. 共1996a兲. ‘‘Encoding the fundamental frequency of a complex tone in the presence of a spectrally overlapping masker,’’ J. Acoust. Soc. Am. 99, 517–524. Carlyon, R. P. 共1996b兲. ‘‘Masker asynchrony impairs the fundamentalfrequency discrimination of unresolved harmonics,’’ J. Acoust. Soc. Am. 99, 525–533. Carlyon, R. P., and Shackleton, T. M. 共1994兲. ‘‘Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?,’’ J. Acoust. Soc. Am. 95, 3541–3554. Glasberg, B. R., and Moore, B. C. J. 共1990兲. ‘‘Derivation of auditory filter shapes from notched-noise data,’’ Hear. Res. 47, 103–198. Gockel, H., Caryon, R. P., and Micheyl, C. 共1999兲. ‘‘Context dependence of fundamental frequency discrimination: Lateralized temporal fringes,’’ J. Acoust. Soc. Am. 106, 3553–3563. Hartmann, W. M., and Johnson, D. 共1991兲. ‘‘Stream segregation and peripheral channeling,’’ Mus. Perc. 9, 155–184. Houtsma, A. J. M., and Smurzynski, J. 共1990兲. ‘‘Pitch identification and discrimination for complex tones with many harmonics,’’ J. Acoust. Soc. Am. 87, 304–310. Iverson, P. 共1995兲. ‘‘Auditory stream segregation by musical timbre: Effects of static and dynamic acoustic attributes,’’ J. Exp. Psychol. 21, 751–763. Grimault et al.: Resolvability and streaming 270 McCabe, S. L., and Denham, M. J. 共1997兲. ‘‘A model of auditory streaming,’’ J. Acoust. Soc. Am. 101, 1611–1621. Micheyl, C., and Carlyon, R. P. 共1998兲. ‘‘Effect of temporal fringes on fundamental-frequency discrimination,’’ J. Acoust. Soc. Am. 104, 3006– 3018. Miller, G. A., and Heise, G. A. 共1950兲. ‘‘The trill threshold,’’ J. Acoust. Soc. Am. 22, 637–638. Plomp, R. 共1965兲. ‘‘Detectability threshold for combination tones,’’ J. Acoust. Soc. Am. 37, 1110–1123. Rose, M. M., and Moore, B. C. J. 共1997兲. ‘‘Perceptual grouping of tone sequences by normally hearing and hearing-impaired listeners,’’ J. Acoust. Soc. Am. 102, 1768–1778. Shackleton, T. M., and Carlyon, R. P. 共1994兲. ‘‘The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination,’’ J. Acoust. Soc. Am. 95, 3529–3540. 271 J. Acoust. Soc. Am., Vol. 108, No. 1, July 2000 Singh, P. G. 共1987兲. ‘‘Perceptual organization of complex-tones sequences: A tradeoff between pitch and timbre?’’ J. Acoust. Soc. Am. 82, 886–899. Singh, P. G., and Bregman, A. 共1997兲. ‘‘The influence of different timbre attributes on the perceptual segregation of complex-tone sequences,’’ J. Acoust. Soc. Am. 102, 1943–1952. van Noorden L. P. A. S. 共1975兲. ‘‘Temporal coherence in the perception of tone sequences,’’ unpublished doctoral dissertation, Technische Hogeschool Eindhovern, Eindhoven, The Netherlands. Vliegen, J., and Oxenham, A. J. 共1999兲. ‘‘Sequential stream segregation in the absence of spectral cues,’’ J. Acoust. Soc. Am. 105, 339–346. Vliegen, J., Moore, B. C. J., and Oxenham, A. J. 共1999兲. ‘‘The role of spectral and periodicity cues in auditory stream segregation, measured using a temporal discrimination task,’’ J. Acoust. Soc. Am. 106, 938–945. Wiegrebe, L., and Patterson, R. D. 共1999兲. ‘‘Quantifying the distortion products generated by amplitude-modulated noise,’’ J. Acoust. Soc. Am. 106, 2709–2718. Grimault et al.: Resolvability and streaming 271 Grimault 153 Article 4: Perceptual auditory stream segregation of sequences of complex sounds in subjects with normal and impaired hearing Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon, Patrick Arthaud et Lionel Collet RESUME: Cette expérience quantifie l'influence néfaste de l'âge et d'une perte auditive sur notre faculté à séparer des flux auditifs. La même procédure que dans l'expérience précédente est utilisée pour mesurer la capacité de sujets jeunes et normo-entendants (groupe 1), malentendants et âgés (groupe 2) ou seulement âgés (groupe 3) à organiser une séquence A-B-A... de sons complexes en deux flux distincts sur la base d'une différence de fréquence fondamentale entre A et B. Etant donné que l'âge et la perte auditive dégradent la résolvabilité des stimuli, cette étude, dans la continuité de l'étude 3, tente d'objectiver les difficultés spécifiques dont souffrent les personnes âgées -malentendantes ou pas- pour organiser des scènes auditives. Lorsque la fréquence fondamentale des signaux utilisés est suffisamment basse pour supprimer tout indice spectral pour les sujets des trois groupes expérimentaux, tous les sujets de l'étude montrent des seuils de scission similaires. Au contraire, dans les conditions de stimulations résolues pour les uns (groupe 1) et non résolues pour les autres (groupes 2 et 3), les seuils de ségrégation sont significativement meilleurs pour les premiers. Ces résultats suggèrent qu'une perte de résolvabilité diminue nos capacités à organiser une séquence A-B-A... en deux flux auditifs A-... et B-.... Ils apportent ainsi des éléments d'explication au phénomène de "cocktail party". Grimault 154 Perceptual auditory stream segregation of sequences of complex sounds in subjects with normal and impaired hearing Nicolas Grimaulta),b), Christophe Micheyl a), Robert P. Carlyon c), Patrick Arthaud b) and Lionel Collet a) a)UMR CNRS 5020 Laboratoire "Neurosciences & Systèmes Sensoriels" Hôpital E. Herriot - Pavillon U, 69437 Lyon Cedex 03, France b) ENTENDRE GIPA2, Pontchartrain. France. c) MRC- Cognition and Brain Sciences Unit. 15, Chaucer Rd. Cambridge, CB2-2EF, England. Running title: Auditory streaming and hearing loss. Grimault 155 ABSTRACT The influence of hearing loss and aging on auditory stream segregation was investigated by comparing the perceptual organization of repeating ABA- sequences of harmonic complex tones as a function of the difference in fundamental frequency (F0) between the A and B tones in young normal-hearing subjects and in elderly subjects having either impaired or normal hearing for their age. In conditions in which the F0s of the A and B complexes were so low that the harmonics could not be individually resolved by the peripheral auditory system even in the young normal-hearing subjects, those subjects showed similar stream segregation performance to the elderly hearing-impaired subjects. In contrast, when the F0s of the tones were high enough for the harmonics to be largely resolved at the auditory periphery in normalhearing subjects, but presumably unresolved in the elderly subjects, the former showed significantly more stream segregation than the latter. These results, which cannot be consistently explained in terms of age differences, suggest that auditory stream segregation is adversely affected by reduced peripheral frequency selectivity of elderly individuals. This finding has implications for the understanding of the listening difficulties experienced by elderly individuals in cocktail-party situations. KEY WORDS Hearing impairment, aging, peripheral frequency resolution, auditory stream segregation, fundamental frequency, complex tones. Grimault 156 INTRODUCTION Hearing-impaired and elderly people generally experience listening difficulties in environments in which several sound sources interfere, a typical example of which consists of the famous «cocktail party» situation (Cherry, 1953). In particular, they have a hard time following the voice of a given speaker in the presence of other speakers or background sounds. The fact that these difficulties are not systematically alleviated by the use of hearing aids, the main function of which is to amplify external signals to a comfortable level, indicates that they cannot be explained simply by reduced audibility (Plomp, 1978; Cox & Alexander, 1991). It has been proposed that the hearing-in-noise difficulties of individuals with cochlear damages could be explained by reductions in the frequency-resolving power of the cochlea (Florentine et al., 1980; Glasberg & Moore, 1986; Tyler et al., 1982). This can be understood by considering that the cochlea acts like a bank of parallel bandpass filters or channels which partitions the spectrum of incoming sound into several frequency bands. When spectral components fall in the bandwidth of the same peripheral auditory filter, they strongly interact with each other. For example, the detection of a tone in noise is made difficult by those components of the noise whose frequencies fall in the same peripheral auditory-filter bandwidth (Fletcher, 1940). Consequently, the wider the auditory filters, the more likely it is that the signal which the listener wishes to attend will be masked by remote frequency components emanating from other sources, which the listeners wishes to ignore. While the difficulty to hear out simultaneous signals may constitute an important aspect of the reduced ability of hearing-impaired individuals to attend to some sounds in the presence of other sounds, it may well not be the only one. Another possible factor is that the widening of auditory filters due to cochlear damage also causes a reduction in the ability to tease apart sound events which occur sequentially. It is known that under certain conditions, successive sounds give rise to separate perceptual auditory "streams" (Bregman, 1990, Bregman & Campbell, 1971, Bregman et al., 1990). This has been well demonstrated by early experiments in which listeners where asked to describe how they perceived repeating sequences of ABA tones - where A and B represent tones of a different frequency - (van Noorden, 1975). It has been shown that when the frequency separation between the A and B tones is small and the tempo is slow, listeners perceive a single melodic stream including both Grimault 157 A and B tones and resembling a gallop. However, when the frequency separation between the two tones is increased beyond a certain limit - known as the fission threshold -, the sequence gives rise to two separate perceptual streams, one formed of the A tones and the second formed by the B tones. A possible explanation for this phenomenon is that, beyond a certain frequency separation, the two tones successively excite well-separated peripheral auditory filters, and that stimuli which are conveyed by different auditory channels can be assigned by the central auditory system to separate streams, while stimuli occupying the same or overlapping peripheral channels tend to be assigned to the same stream (Beauvois & Meddis, 1996; McCabe, 1997; Hartmann, 1991). If this peripheral channeling view of streaming is correct, then one may predict that the broadening of auditory filters in hearing-impaired subjects should lead to an increase of the fission threshold - i.e. the frequency separation necessary for the sound sequence to give rise to two separate streams -. This prediction was recently tested in a study by Rose and Moore (1997). It was supported by the finding that, for normally hearing subjects, fission thresholds increased with increasing overall frequency in a manner consistent with the broadening of auditory filters. However, the results failed to show a systematic decrease in auditory stream segregation in hearing-impaired subjects, as predicted based on the hypothesis of a relationship between peripheral frequency selectivity and streaming. Further indications that peripheral resolvability may not be the primary factor influencing streaming was obtained in a recent study by Vliegen and Oxenham (1999) in which streaming was measured using sequences of harmonic complex tones differing by their fundamental frequency (F0). The results of this study revealed that the percentage of "two stream" responses increased with the F0 separation between the A and B tones in a very similar way, irrespective of whether the complexes contained harmonics which were resolved or unresolved by the peripheral auditory system; schematically, the harmonics are considered to be resolved when they fall in different peripheral auditory filters, and to be unresolved otherwise. The authors interpreted this observation as indicating that peripheral spectral cues are not necessary for streaming. In a later study, however, Vliegen et al. (1999) showed that spectral cues were dominant in inducing involuntary stream segregation. They explained the Grimault 158 difference between the results of this and the previous study by the fact that with the tasks used by Vliegen and Oxenham (1999) streaming was advantageous and encouraged, whereas with those used by Vliegen et al. (1999), stream segregation led to worse performance. More recent results in normal-hearing subjects in fact suggest that streaming is adversely affected by reduced resolvability even when the task involves a neutral criterion (Grimault et al., 2000) i.e. when the streaming is neither advantageous nor detrimental. One interpretation of these results is that there are local differences between the excitation patterns of the A and B tones when they contain resolved harmonics, but that these differences are reduced or absent when the harmonics are unresolved. Alternatively, it may be that stream segregation is influenced by the perceived difference in pitch between the A and B tones, and that, although differences in the fundamental frequency (F0) of unresolved harmonics do lead to changes in perceived pitch, these changes are less discriminable than when the harmonics are resolved (Houtsma and Smurzynski, 1988; Shackleton and Carlyon, 1994). Therefore, although the question of the influence of peripheral frequency selectivity on streaming is not completely settled, there appears to be on the whole increasing support for the hypothesis that although streaming can occur based solely on temporal cues, spectral resolution has a significant influence. If this is the case, then on the basis of data in the literature indicating that frequency resolution decreases with hearing loss (Hoekstra & Ritsma, 1977; Florentine et al., 1980; Tyler et al., 1982; Moore, 1985) and aging (Patterson et al., 1982, Sommers & Humes, 1993, Sommers & Gehr, 1998), one may predict that the stream segregation of sequences of complex tones should be reduced in hearing-impaired and aged individuals. The present study aimed to test this prediction. Specifically, we measured stream segregation using repeating ABA- sequences of harmonic complex tones as a function of the F0 difference between the A and B tones, in young normal-hearing subjects and elderly hearing individuals with or without hearing loss in addition to that caused by aging. Two conditions were tested: in the first, the F0s of the A and B tones were so low that, in the frequency region in which the complexes were filtered, the harmonics were not resolved at the auditory periphery, even in the young normal-hearing subjects; in the second condition, the F0s of the stimuli were large enough for the harmonics to be well resolved by the peripheral Grimault 159 auditory system in the young normal-hearing subjects, but not in the elderly subjects, whether or not they had hearing loss in addition to that cause by aging. Under the hypothesis that streaming was determined by the peripheral resolvability of the harmonics, it was predicted that in the first condition in which the harmonics were not fully resolved in any of the subject groups tested, no difference in stream segregation should be obtained between the groups; in the second condition, stream segregation should be larger in the young, normal-hearing subjects group than in the elderly listeners. One might also expect the stream segregation to be particularly reduced in listeners having an additional hearing loss, over and above that naturally caused by aging. MATERIAL AND METHODS A. Subjects Overall, 28 subjects took part in this experiment. They were divided into three groups. A first group was composed of 7 normal-hearing subjects - i.e. pure-tone thresholds <= 10 dB HL at octave frequencies between 250 and 8000 Hz - and no history of otologic disease. A second group comprised 13 hearing-impaired subjects (aged between 61 and 86 years, mean age= 70.9 years, SD= 8.68) with mild to moderate sensorineural hearing loss of various etiologies - i.e. average loss at 500, 1000, and 2000 Hz was between 31.66 and 71.66 dB (mean = 48.18, SD= 11.19) and average air-bone gap <= 5 dB at the same frequencies. A third group comprised 5 elderly subjects (between 65 and 76-year old, mean age=68.8 years, SD=4.2) having normal hearing for their age - i.e. their absolute pure-tone thresholds between 250 and 8000 Hz were within 10 dB of the reference data given in Davis (1995); average hearing loss at 500, 1000, 2000 Hz was between 29.66 and 35.33 dB HL (mean=31.46, SD=2.24). Auditory filter bandwidths in this latter group are approximately 50% wider than in young listeners with normal hearing (Patterson et al., 1982). For convenience, these groups will be referred to as "YNH", "EHI+", and "EHI" respectively. B. Procedure Grimault 160 Subjects were presented with repeating ABA- sequences, where "A" and "B" represent harmonic complex tones of either the same or a different fundamental frequency. Subjects were instructed whether, at the end of the 4-s sequence they heard either a single auditory stream with a galloping rhythm or two independent streams. Subjects indicated their response by pressing "1" or "2" on a computer keyboard. The program did not accept responses until completion of the whole sequence and waited for the response before presenting the next sequence. Overall, five or six different frequency separations between the A and B tones were presented, including a no-difference condition (control condition for false-alarm rate). These different stimulus conditions were presented 10 times each, in random order. Tests began with a demonstration wherein the subjects could hear examples of sequences leading unambiguously to a single-stream or to a two-stream precept. Results were analyzed in the framework of the signal detection theory (Green & Swets, 1966; Snodgrass & Corwin, 1988). The number of "two-streams" responses given by the subject in the case where the F0 of the A and B sounds was the same was taken as a "falsealarm" rate used in order to estimate "streaming scores" - corresponding to the classical d’ discrimination index – uncontamined by differences in criterion differences between the subject groups. C. Material Signals were output via a 16-bit digital-to-analog converter. The masker and signals were then attenuated and added using a AC30 audiometer before being sent to one earpiece of Sennheiser HD465 headphones. Signals were monitored using an HP3561A signal analyzer. D. Stimuli The stimuli consisted of 4-s long sequences of harmonic complex tones. Each sequence was formed by the repetition of three 100-ms complex tones (A-B-A) occurring immediately after each other. The three-tone sequences were separated by a 100-ms silent interval. The tones were gated with 20-ms raised-cosine ramps. The F0 of signal A (F0A) was fixed at 88 or 250 Hz, whereas that of signal B varied between 88 and 352 Hz in half-octave steps. Normalhearing and impaired-hearing subjects were tested with F0A set to 88 or 250 Hz; elderly Grimault 161 normal-hearing subjects could only be tested with F0A set to 250 Hz. The harmonic complexes were generated by summation of 0°-deg phase sinusoids in the time domain. All harmonics falling within a 1375-1875 Hz passband had a constant amplitude; below and above these corner frequencies, the amplitude decreased by 48-dB/octave. The 1375-1875 Hz passband corresponds to the so-called "MID" frequency region used in several previous studies on the influence of resolvability on pitch perception (Shackleton & Carlyon, 1994; Micheyl & Carlyon, 1998; Gockel et al., 1999). It has been demonstrated that in this region, harmonic complexes with an F0 of 88 Hz are unresolved while harmonic complexes with an F0 of 250 Hz are resolved. In this context, resolvability is strictly defined as the number of harmonics falling within the 10-dB-down bandwidth of an auditory filter in the center of the region; the harmonics are considered to be resolved when this number is lower than 2, and unresolved when it is higher than 3.25. Depending on the condition tested, the signal level was set to 30, 40, or 50 dB above the threshold in quiet for a stimulus sequence composed of A and B complexes having F0s of 88 and 250, respectively. For convenience, these levels will be referred to as 30, 40, and 50 dB sensation level (SL) in the following. A pink-noise background was generated digitally, recorded on CD, and played out continuously throughout the experiment. The level of the pink background noise was set 10 dB above its absolute detection threshold, which was measured beforehand in each subject. RESULTS Grimault 162 FIG. 1: Streaming scores as a function of F0 difference in the MID region in normal-hearing (YNH), hearing-impaired (IH) and elderly normal-hearing (EHI) listeners. Abscissas indicate the F0 difference, in octave, between the A and B sounds. Ordinates represent the streaming scores, expressed as d'. The black filled circles show the results in normal-hearing subjects, the Dotted circles the results in elderly subjects and the Empty circles the results in hearingimpaired subjects. The different panels correspond to different F0As and different levels. The three upper panels correspond to conditions with F0A = 88 Hz ; the three lower panels to conditions with F0A = 250 Hz. Signal level increases between 30 dB SL and 50 dB SL from left to right. Figure 1 shows d' scores obtained in the different conditions and groups. In the conditions in which F0A was 88 Hz (upper-row panels), no substantial differences were noted between the scores obtained by the YNH and ENH+ subjects - with the exception of one point at 50 dB SL. Grimault 163 This was confirmed by the results of a three-way ANOVA (sound level X F0 difference X subject group), which indicated no significant difference between the two subject groups. No effect of the presentation level (SL) was observed either. Streaming was found to be influenced only by F0 separation (F(3,21)=37.24, p<0.0001). In the conditions in which F0A was 250 Hz (lower-row panels), streaming scores were systematically greater in YNH than in EHI+ and EHI subjects. The results of a three-way ANOVA revealed a significant difference between groups (F(2,9)=5.09, p<0.05), and a significant main effect of both stimulus level (F(2,18)=5.86, p<0.05) and F0 separation (F(3,27)=13.17, p<0.0001). A significant interaction between subject group and stimulus level was found (F(4,18)=4.09, p<0.05). Furthermore, when the EHI+ and EHI subjects were pooled together as a single group they showed significantly less streaming than the young normal listeners, as evidenced by a main effect of group (F(1,10)=5.85, p<0.05). Some differences are apparent between the two elderly groups in the 250-Hz data shown in bottom row of Fig. 1. In particular, it seems that at 30 and 50 dB SL, the EHI+ listeners show more streaming than the EHI- listeners. This trend was not statistically significant. However, because it is opposite to that predicted by our original hypothesis of a monotonic effect of frequency resolution on streaming, one possible reason for it will be discussed briefly in the following section. DISCUSSION The results of Shackleton and Carlyon (1994) and of Carlyon and Shackleton (1994) showed that the F0s of resolved complexes were more discriminable than those of unresolved complexes, and provided evidence for a qualitatively different form of processing for these two types of sound. They defined a complex as being resolved when, on average, fewer than two harmonics interacted within the 10-dB-down bandwidth of an auditory filter having a center frequency in the middle of the passband of that complex. According to that definition, the complexes (filtered in the 1375-1875 Hz region) in the F0A=88 Hz condition here were not resolved by the auditory periphery even in the young normal-hearing listeners; the 10-dB bandwidth of an auditory filter centered on 1606 Hz in a young normal hearing listener is about 364 Hz (Glasberg and Moore, 1990). Otherwise stated, in this condition in which the F0s of the stimuli were so low, the young normal-hearing subjects were in a similar situation Grimault 164 as the elderly hearing-impaired subjects with respect to resolvability: the harmonics were not individually resolved by the auditory periphery, irrespective of the presence or absence of hearing loss and of age. This may explain the absence of difference between the streaming scores of the two subject groups in this condition. Given the fact that the subjects in the two groups differed by age as well as by hearing loss, the absence of difference between their streaming scores suggests that, when the complexes are unresolved for all subjects, hearing loss and age have no significant effect on stream segregation. The lack of influence of age on stream segregation is consistent with the results of an earlier study (Alain et al., 1996). In the F0A=250 Hz condition, streaming was generally larger in the YNH than in the EHI+ and EHI listeners. Data from the literature (Patterson et al., 1982) indicate that the average 10-dB-down auditory-filter bandwidth at 1500 Hz – i.e. the middle of the MID frequency range used in the present and previous studies -, which is approximately 364 Hz in young normal-hearing listeners, is around 540 Hz in listeners aged around 70 – i.e. close to the average age across the subjects from the EHI group used here. In hearing-impaired individuals, the bandwidth varies between about 1.5 and 4 times that measured in normal-hearing subjects (Moore, 1985), leading to an estimated bandwidth of between 540 and 1456 Hz. Therefore, in the F0A=250 Hz condition, while the harmonics were resolved in normal-hearing listener, they were presumably unresolved in the other two groups of listeners tested. Accordingly, the differences in streaming scores observed between the young, normal-hearing subjects and the other subjects in this F0A=250 Hz condition may be related to differences in resolvability. The finding of larger streaming scores in young, normal-hearing subjects than in elderly and hearing-impaired listeners is consistent with the hypothesis that streaming is promoted by differences in the spectral patterns of excitation elicited in the peripheral auditory system by successive sounds (Hartmann & Johnson, 1991; Vliegen et al., 1999; Grimault et al., 2000), and with the fact that these differences are generally larger when the frequency components are individually resolved by the peripheral auditory system than when they are not. It is also consistent with the «pitch strength» hypothesis, whereby differences in frequency selectivity affect the resolvability of the complexes, which then affects their pitch strength and finally their streaming scores. Grimault 165 Naturally, because the YNH subjects differed from the EHI+ and EHI subjects not only by peripheral frequency resolution but also by age, any difference we observe between them might have been due to this age difference rather than to effects mediated by the peripheral auditory system. For example, recent evidence shows that stream segregation involves central mechanisms, and that the rate at which streaming builds up is much faster when subjects are attending to the sequences than when they are performing a competing task (Carlyon et al, 2000). It is possible that our elderly subjects were attending to the tones less consistently than our young listeners, and this would have reduced the amount of stream segregation at the end of the sequences. However, it is hard to see why this would have occurred at F0A=250 Hz but not at F0A=88 Hz. Furthermore, earlier results in the literature have indicated no systematic effect of age on streaming performance measured using pure tone sequences; only the speed of responses was shown to be different between young and elderly listeners (Alain et al., 1996). Finally, it is noteworthy that the streaming scores measured in the F0A=250 Hz condition were in general larger in the EHI+ group than in the EHI listeners. Although not statistically significant, this observation is worth discussing. If streaming were determined purely by the local differences in excitation pattern produced by the A and B tones, we would expect segregation to be either the same in the two groups of greater in the EHI group. However, if, as discussed above, streaming is determined by the difference in pitch strength, the results may be consistent with the frequency resolution of the three groups. For the young listeners, the complexes were resolved, and F0 discrimination would be expected to be good. For the ENH group the complexes are «just» unresolved, with about three harmonics interacting within the 10-dB auditory filter bandwidth. For the ENH+ groups the harmonics are still unresolved, but the filter bandwidths are even broader and more harmonics interact. Houtsma and Smurzyski (1988) have shown that increasing the number of unresolved harmonics increases the accuracy with which their F0 is encoded; as more harmonics interact, the temporal envelope at the output of an auditory filter becomes more sharply defined. A similar effect may have been produced by the increased filter bandwidths of our ENH+ group. It is important to note that both this interpretation and the one in terms of local differences in the excitation patterns of the A and B tones rely on the notion that differences in spectral resolution between young and elderly listeners can produce differences in stream segregation. Grimault 166 Another possible interpretation which may tentatively be offered for the observation of larger streaming scores in EHI+ than in EHI subjects is that beyond a certain degree of hearing loss, the detrimental effect of auditory-filter widening on streaming is over-compensated by a facilitating influence of loudness recruitment. In the presence of loudness recruitment, changes in the physical intensity of sounds lead to larger changes in the perceived intensity. Thus, loudness recruitment may have contributed to emphasize local spectral differences between the A and B complexes in EHI+ listeners. Given that the stimuli were presented at equal SLs in all subjects, and considering a simple model whereby the loudness in logarithmic sone units increases linearly between the absolute threshold and 100 dB SPL, it can be roughly estimated that the loudness of the stimuli was in fact on average 15 times as large in the EHI+ than in the EHI listeners – instead of about 4 times as large in the EHI listeners - (see appendix for details). Although loudness recruitment and the loss of frequency selectivity which are generally associated to cochlear damage presumably both find their origin in the same underlying mechanism – namely: outer hair cell damage – (see: Moore, 1995), it is possible that their non-linear effects do not exactly counteract each other at all times. If above a certain degree of loss, the enhancing effect of loudness recruitment on spectral cues becomes larger than the smearing effect of the reduction in frequency selectivity, stream segregation may have been facilitated in the EHI+ listeners, who had on average larger hearing loss, as compared to the EHI subjects. It is noteworthy that this interpretation is consistent with the general hypothesis that differences between the spectral excitation patterns elicited in the peripheral auditory system by the A and B tones promote stream segregation, which is equally consistent with the notion that peripheral frequency selectivity plays an important role in streaming. CONCLUSION On the whole, the present results indicate that perceptual auditory stream segregation is reduced in elderly hearing-impaired subjects, as compared to young normal-hearing subjects in a way that cannot be accounted for by age alone, but is generally consistent with the detrimental effect of age and hearing-impairment on peripheral frequency resolution. A potentially important implication of the present results is that reduced perceptual separation of sequential sounds may lead to increased perceptual interference between these Grimault 167 sounds. In particular, recent results suggest that the encoding of the F0 of a complex tone can be largely impaired by the presence of preceding or following tones when all tones are allocated to the same perceptual stream by the auditory system; in contrast, when the target and interferer tones are streamed apart based on differences in F0, timbre, or perceived location, the target F0 can be encoded almost as accurately as if the interferer tones were absent (Micheyl & Carlyon, 1999; Gockel et al., 1999). From a more general point of view, the present results open the way to interpretations of the listening difficulties experienced by hearing-impaired individuals in "cocktail party" situations in terms of deficits in auditory scene analysis mechanisms. ACKNOWLEDGMENTS This research was supported by the French National Center for Scientific Research (CNRS) and by the ENTENDRE hearing-aid dispensers group. Stéphane Garnier, Philippe Cancel and Gilles Leblanc are thanked for their help in conducting the experiments in hearingimpaired and old normal-hearing listeners. REFERENCES Alain C, Ogawa KH, Woods DL. Aging and the segregation of auditory stimulus sequences. J Geront B Psychol Sci Soc Sci 1996; 51: 91-93. Beauvois MW, Meddis R. Computer simulation of auditory stream segregation in alternating-tone sequences. J Acoust Soc Am 1996; 99: 2270-80. Bregman AS. Auditory Scene Analysis: The perceptual Organization of Sound, MIT, Cambridge, MA, 1990. Bregman AS, Campbell J. Primary auditory stream segregation and the perception of order in rapid sequences of tones. J Exp Psychol 1971; 89: 244-49. Bregman AS, Liao C, Levitan R. Auditory grouping based on fundamental frequency and formant peak frequency. Can J Psychol 1990; 44: 400-13. Carlyon RP, Cusack R, Foxton JM, Robertson IH. Effects of attention and unilateral neglect on auditory stream segregation. J Exp Psychol: Hum Perc Perf 2000; submitted. Carlyon RP, Shackleton TM. Comparing the fundamental frequencies of resolved and unresolved Grimault 168 harmonics: evidence for two pitch mechanisms? J Acoust Soc Am 1994; 95: 3541-54. Cherry EC. Some experiments on the recognition of speech with one or two ears. J Acoust Soc Am 1953; 25: 975-79. Cox RM, Alexander GC. Hearing aid benefit in everyday environments. Ear Hear 1991; 12: 12739. Davis A. Hearing in Adults. London: Whurr Publishers, 1995. Fletcher H. Auditory Patterns. Rev Mod Phys 1940; 12: 47-65. Florentine M, Buus S, Scharf B, Zwicker E. Frequency selectivity in normally-hearing and hearing-impaired observers. J Speech Hear Res 1980; 23: 646-69. Glasberg BR, Moore BCJ. Auditory filter shapes in subjects with unilateral and bilateral cochlear impairements. J Acoust Soc Am 1986; 79: 1020-33. Glasberg BR, Moore BCJ. Derivation of auditory filter shapes from notched-noise data. Hear Res 1990; 47: 103-38 Gockel H, Carlyon RP, Micheyl C. Context dependence of fundamental frequency discrimination: Lateralized temporal fringes. J Acoust Soc Am 1999; 106: 3553-63. Green DM, Swets JA. Signal detection theory and psychophysics. New York: Wiley, 1966. Grimault N, Micheyl C, Carlyon RP, Artaud P, Collet L. Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency. Accepted for publication in: J Acoust Soc Am 2000. Hartmann WM, Johnson D. Stream segregation and peripheral channeling. Mus Perc 1991; 9: 155-84. Hoekstra A, Ritsma RJ. Perceptive hearing loss and frequency selectivity. in: Psychophysics and Physiology of Hearing, ed. EF Evans and JP Wilson, New York: Academic Press, 1977. Houtsma AJM, Smurzynski J. JF Schouten revisited: Pitch of complex tones having many high-order harmonics. J Acoust Soc Am 1988; 87: 304-10. McCabe SL, Denham MJ. A model of auditory streaming. J Acoust Soc Am 1997; 101: 1611-21. Micheyl C, Carlyon RP. Effect of temporal fringes on fundamental-frequency discrimination. J Acoust Soc Am 1998;104: 3006-18. Moore BCJ. Perceptual consequences of cochlear damage. Oxford: University Press, 1995. Grimault 169 Moore BCJ. Frequency selectivity and temporal resolution in normal and hearing-impaired listeners. Brit J Audiol 1985; 19: 189-201. Nejime Y, Moore BCJ Simulation of the effect of threshold elevation and loudness recruitment combined with reduced frequency selectivity on the intelligibility of speech in noise. J Acoust Soc Am 1997; 102:603-15. Patterson RD, Nimmo-Smith I, Weber DL, Milroy R. The deterioration of hearing with age: Frequency selectivity, the critical ratio, the audiogram, and speech threshold. J Acoust Soc Am 1982; 72: 1788-803. Plomp R. Auditory handicap of hearing impairment and the limited benefit of hearing aids. J Acoust Soc Am 1978; 63: 533-49. Rose MM, Moore BCJ. Perceptual grouping of tone sequences by normally-hearing and hearingimpaired listeners. J Acoust Soc Am 1997; 102: 1768-78. Shackleton TM, Carlyon RP. The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination J Acoust Soc Am 1994; 95: 3529-40. Snodgrass JG, Corwin J. Pragmatics of measuring recognition memory: Applications to dementia and amnesia. J Exp Psychol: Gen 1988; 117: 34-50. Sommers MS, Gehr SE. Auditory suppression and frequency selectivity in older and younger adults. J Acoust Soc Am 1998; 103: 1067-74. Sommers MS, Humes LE. Auditory filter shapes in normal-hearing, noise-masked normal and elderly listeners. J Acoust Soc Am 1993; 93: 2903-14. Stevens SS. On the psychoacoustical law. Psychol Rev 1957; 64:153-81. Tyler RS, Wood EJ, Fernandes M. Frequency resolution and hearing loss. Brit J Audiol 1982; 16: 45-63. Van Noorden LPAS. Temporal coherence in the perception of tone sequences. Unpublished Doctoral Dissertation, Technische Hogeschool Eindhovern, Eindhoven, The Netherlands, 1975. Vliegen J, Oxenham AJ. Sequential stream segregation in the absence of spectral cues. J Acoust Soc Am 1999; 105: 339-46. Grimault 170 Vliegen J, Moore BCJ, Oxenham AJ. The role of spectral and periodicity cues in auditory stream segregation, measured using a temporal discrimination task. J Acoust Soc Am 1999; 106: 938-45. Grimault 171 APPENDIX Estimation of differences in loudness between the YNH, EHI+, and EHI subjects. The loudness L of a sound having a SPL of I dB is given by: Lsone 10I = k nh ⋅ 10 α nh (1) In young normal-hearing subjects, αnh=0.3 (Stevens, 1957) and, given that by definition, the loudness of a 1 kHz pure tone at 40 dB SPL is 1 sone, knh=0.063095734546. Let us consider a subject whose hearing threshold is elevated by an amount T dB as compared to that of a normal-hearing subject. Under the assumption that, the loudness is the same in the two subjects at threshold and at 100 dB SPL (Nejime & Moore, 1997), we have: α ih = 10 ⋅α nh T 10 − 10 (3) and: kih = k nh 10⋅α nh 10T 10− T 10 10 (4) Using these equations with T set to the average hearing threshold over 500, 1000, and 2000 Hz in the YNH, EHI+, and EHI subjects, we estimated the loudness in sones of tones at 30, 40, and 50 dB SL; the resulting values are indicated in the following table: Grimault 172 30 dB SL 40 dB SL 50 dB SL YNH 0.50 1.00 2.00 EHI+ 3.36 12.74 48.33 EHI 1.24 3.40 9.30 Table A1: Estimated loudness (in sones) of tones at 30, 40, and 50 dB SL for the YNH, EHI+, and EHI subjects. Grimault 173 Article 5: Further evidence for the resetting of the pitch analysis system by abrupt temporal transitions between sucessive tones Nicolas Grimault, Christophe Micheyl, Robert P. Carlyon et Lionel Collet RESUME: Nous avons mesuré, au cours de cette étude, des seuils de discrimination de fréquence fondamentale (discrimination entre la hauteur de deux sons complexes harmoniques) dans différentes conditions expérimentales. La fréquence fondamentale nominale des sons complexes à discriminer était soit 62 soit 352 Hz et ces sons étaient filtrés dans trois régions spectrales différentes identifiées par LOW (125-625 Hz), MID (1375-1875 Hz) et HIGH (3900-5400 Hz). Ces paramètres permettent aussi bien d'étudier l'influence de la fréquence fondamentale que celle de la région ou encore celle de la résolvabilité des harmoniques sur la discriminabilité des sons. La présence d'une frange temporelle, c'est à dire d'un son complexe (même F0 et même région) précédant immédiatement le premier des deux sons complexes à discriminer, donne toute son originalité à cette étude. Nous avons ainsi montré que la présence de la frange (masquage proactif) pouvait diminuer les performances de discrimination des sujets en absence totale de masquage rétroactif (pas de frange dans l'intervalle inter-stimulus). Par ailleurs, plus la durée de la transition entre la frange et le premier complexe est longue plus l'effet de masque est important. Ce résultat est en accord avec l'idée originelle de Bregman (Bregman et al., 1994a,b) qui suggère que les mécanismes d'encodage de la hauteur sont d'autant mieux réinitialisés que les transitions temporelles entre les signaux sont brutales. De plus, l'influence particulière de la région spectrale utilisée pour filtrer les signaux semble indiquer un rôle important du splatter spectral, généré en sortie de filtrage périphérique par des transitions abruptes, dans les mécanismes de réinitialisation du codage de la hauteur. Enfin, il faut souligner qu'une bonne Grimault 174 réinitialisation de ces mécanismes permet une ségrégation efficace des différents éléments d'une séquence constituée de sons complexes harmoniques. Les résultats de cette expérience apportent donc quelques éléments théoriques supplémentaires sur les mécanismes primaires de l'analyse de scène en audition. Grimault 175 Further evidence for the resetting of the pitch analysis system by abrupt temporal transitions between successive tones Nicolas Grimaulta),b), Christophe Micheyl a), Robert P. Carlyon c) and Lionel Collet a) a)UMR CNRS 5020 Laboratoire « Neurosciences & Systèmes Sensoriels », Hôpital E. Herriot - Pavillon U, 69437 Lyon Cedex 03, France b) ENTENDRE Audioprothesists Group GIPA2, Pontchartrain. France. c) MRC- Cognition and Brain Sciences Unit. 15, Chaucer Rd. Cambridge, CB2-2EF, England. Received: PACS Numbers: Running title: F0 integration and temporal transitions Grimault 176 Introduction The results of several previous studies have demonstrated that the auditory processing of the fundamental frequency (F0) of complex tones can be dramatically impaired by the presence of temporally-adjacent sounds. A seminal study by Carlyon (1996a) showed that the ability of subjects to discriminate the F0s of two successive complex tones, as reflected by F0 discriminations (DLF0s), was impaired in the presence of temporal "fringes", i.e. other complex tones which immediately preceded and followed the target tones. This initial finding was investigated further in a subsequent study by Micheyl and Carlyon (1998), the results of which allowed to determine how the effect depended on the F0 difference between the fringes and the targets, as well as on the peripheral resolvability of the harmonics. Basically, it was found that when the targets and fringes were made up of resolved harmonics, a large difference between their F0s annihilated the temporal interference effect; when the harmonics making up the stimuli were unresolved, in contrast, even fringes whose F0s differed widely from those of the targets had a detrimental influence. This result was replicated by a later study (Gockel et al., 1999). In all these previous studies which have demonstrated a detrimental influence of temporally-adjacent sounds on the perceptual processing of F0 information, temporal fringes were presented in both observation intervals. Consequently, two classes of interpretations can be proposed to account for the observed results. Firstly, it is possible that, as proposed by Carlyon (1996a), the detrimental effects of the fringes is due to the fact that in order to estimate the pitch of sounds, the auditory system integrates F0 information over a relatively long time window so that F0 information from the target complex is contamined by F0 information from the surrounding fringes. An alternative interpretation is that the fringes impair, not the F0 encoding process, but rather the F0 comparison process. Previous studies have shown that when extraneous sounds are introduced in the temporal interval which separates two targets sounds, the comparison between some perceptual attributes of the two sounds (pitch, timbre, phonetic identity...) can be impaired (Deutsch, 1972; Semal and Demany, 1991a,b; Semal et al., 1996). A common explanation for this observation is that the memory trace of the initial target sound is degraded by the following interferes, before it can be compared to the second target. In the previous studies by Carlyon (1996a), Micheyl and Carlyon (1998) and Gockel et al. (1999), there was always at least one interfering sound (a fringe) between the target complexes which the subject had to compare. The main aim of the present study was to test whether detrimental effects on F0 discrimination can still be Grimault 177 produced by a temporally-adjacent fringe which does not occur between the two target tones. Otherwise stated, a substantial methodological difference between the present study and previous studies in which temporal interference effects in F0 discrimination were tested lays in the fact that no interfering tone was present between the two target complexes. In such a situation, the observation of significantly larger DLF0s in the presence of the fringe would constitute a strong argument for an interpretation in terms of F0 over-integration. One difficulty with the F0 over-integration hypothesis, comes from the fact that, in the light of data in the literature, the auditory system continues to integrate F0 information in spite of detecting the end of one sound and the beginning of another appears unlikely. Recent data by White and Plack (1998) indicate that the strategy used by the auditory system to build an estimate of the F0 of complex sounds over time is not as simple as the blind integration of information within a fixed time window. Furthermore, earlier studies by Bregman and colleagues (Bregman et al., 1994a, b) have shown that the pitch-analysis system can be reset by abrupt signal onsets. In order to gain further information regarding the potential role of onset abruptness on the fringe effect, in the second experiment of the present study, DLF0s were measured for signals with onset times varying between 2.5 and 40 ms. Finally, another aim assigned to this experiment was to gather information on the possible influence of resolvability on the effect of the forward fringe. The previous studies by Micheyl and Carlyon (1998) and Gockel et al. (1999) have demonstrated that resolvability has an influence on the effect of the fringes in the sense that when the harmonics are resolved, wide differences in F0s between the fringes and the targets annihilate the detrimental effect of the fringe, whereas when the harmonics are unresolved, even fringes differing widely from the targets by the F0 have a detrimental influence. In order to test whether resolvability has a similar influence in the absence of fringes between the two target tones, fringes and targets having F0s around either 62 or 352 Hz were tested so that, in the frequency region used which is defined as the "MID" region in earlier publications (e.g. Shackleton & Carlyon, 1994; Carlyon & Shackleton, 1994; Micheyl et al., 1998; Gockel et al., 1999) -, the harmonics were either fully unresolved or fully resolved. Experiment 1 Rationale Grimault 178 The primary goal of Experiment I was to test the hypothesis that the F0 encoding of a target harmonic complex is impaired more markedly by another, trailing complex if the transition between the two tones is soft than if it is abrupt because abrupt transitions reset the pitch-analysis system whereas soft transitions promote integration of the two tones into a single perceptual entity. In order to test this prediction, we measured DLF0s for target complex, successively in the absence and in the presence of a trailing 200-ms fringe, and using either abrupt (2.5 ms) or slow (40 ms) ramp durations. Since we were furthermore interested in gathering some information regarding the generalizability of the results as well as the potential influence of harmonic resolvability, these measures were conducted at two widely different F0s in a frequency region chosen so that the harmonics of the complexes would be fully resolved in one case and fully unresolved in the other. Subjects Six normal hearing listeners took part in this experiment. The subjects ranged in age between 24 and 31 years. They all had binaural normal hearing, i.e., absolute pure tone thresholds at or below 20 dB HL at octave frequencies from 250 to 8000 Hz (ANSI, 1989). All subjects had prior experience in two-interval, forced choice procedures and in pitch discrimination tasks. Procedure Difference limens for F0 (DLF0s) were measured using a two-interval, two-alternative forced-choice (2I-2AFC) procedure in conjunction with a two down, one up adaptive tracking rule estimating the 70.7% correct discrimination on the psychometric function (Levitt, 1971). The subjects' task was to indicate which of two successive harmonic complexes had a higher pitch. Depending on the condition being tested, the two target complexes were or were not preceded by another complex - hereafter referred to as a temporal "fringe" -, the F0 of which was equal to the nominal F0 around which the actual F0 of the two target complexes were geometrically centered. The difference in the actual F0s of the two target tones, which was set to 40% of the nominal F0 at the beginning of a run, was divided by a factor of two after two consecutive correct responses and multiplied by the same factor after any incorrect response until the fourth turnpoint; thereafter, a factor of †2 was used. The procedure stopped after 16 turnpoints were obtained. The DLF0 was computed as the geometric mean of the last 12 Grimault 179 turnpoints. Six such threshold estimates were obtained in each of the eight conditions (two nominal F0s, two ramp durations, with and without fringe). Stimuli. The stimuli consisted of harmonic complex tones having a duration of either 200 ms for all maskers and 100 ms for all signals, including on and off cosine ramps with a duration of either 2.5 or 40 ms each. They were generated digitally in the time domain by adding the successive harmonics of a given F0 in sine (0°) phase. Nominal F0s of 62 and 352 Hz were used. The harmonics were then bandpass-filtered digitally using a filter with lower and upper corner frequencies of 1375 and 1875 Hz, a flat top, and 48 dB/octave slopes. As many harmonics as necessary to fill in the passband at 48 dB of the filter were included; harmonics to which an attenuation larger than 48 dB should had been applied were omitted. The complex tones had an overall level of 55 dB SPL. All stimuli were presented in a continuous pink (3 dB/octave slope) noise background with an overall level of 57 dB SPL. This noise background was aimed to prevent the perception by the listeners of combination tones generated by the ear, which might have obscured the interpretation of the results. Apparatus A Tucker-Davis-Technologies-based system was used. Signals were generated digitally in the time domain and output through a 16-bit digital-to-analog converter (TDT DA1) at a sampling rate of 44.1 kHz. A pink-noise background was generated digitally, recorded on CD, and played out continuously throughout the experiment (Sony CDPXE300). The signals and background noise were low-pass filtered (TDT FT6-2 attenuation more than 60 dB at 1.15 times the corner frequency) at 15 kHz. They were then led to two separate programmable attenuators (TDT PA4). The outputs of the attenuators were summed (TDT SM3) and led to the right or left earpiece of a Sennheiser HD465 headphone via a headphone buffer (TDT HBC). The subject was comfortably seated in a sound booth. Signal characteristics at the output of the two test systems were controlled using an HP3561A signal analyzer. Results Grimault 180 Figure 1. DLF0s measured in the absence (squares) and in the presence (circles) of the forward fringe for nominal F0s of 62 Hz (empty symbols) and 352 Hz (filled symbols), and ramp durations of 2.5 ms and 40 ms. The error bars represent the (geometric) standard errors around the (geometric) mean DLF0s across listeners. Figure 1 shows the mean DLF0s measured in the presence and in the absence of the fringe in the 6 subjects who took part in this experiment. The results were analyzed using a three-way repeated-measures ANOVA with the log-transformed relative DLF0s (i.e. DLF0/F0) as dependent variable. Overall, DLF0s proved to be significantly larger at the 62Hz than at the 352-Hz nominal F0 [F(1,5)=123.37, p<0.001]. Grimault 181 Figure 2. Variations in DLF0s caused by a forward fringe for nominal F0s of 62 Hz (black bars) and 352 Hz (gray bars), and ramp durations of 2.5 ms and 40 ms. Each panel corresponds to a listener. The error bars represent the (geometric) standard errors around the (geometric) mean ratios computed as DLF0 without mask / DLF0 with mask. Figure 2 represents the proportional changes in DLF0s induced by the fringe in each of the 6 listeners. In most listeners and most conditions, the DLF0s measured in the presence of the fringe lay above those measured in its absence. On average, DLF0s increased by about 39 % in the presence of the fringe. This effect proved to be statistically significant overall [F(1,5)=8.20, p<0.05]. ANOVAs performed independently on the thresholds measured at the two nominal F0s revealed a significant effect of the fringe at 62 Hz [F(1,5)=6.72, p<0.05]; at 352 Hz, the effect failed to reach the statistical significance threshold [F(1,5)=5.6, p=0.06]. Altogether, the ramp duration factor had no significant effect [F(1,5)=2.71, p=0.16]. This lack of effect was observed both for the data obtained in the absence of the fringe [F(1,5)=1.09, p=0.34] and for the data obtained in the presence of the fringe [F(1,5)=2.53, p=0.17]. Nevertheless, two-way repeated-measures ANOVAs (masker D onset) performed independently on the data at 62 Hz and at 352 Hz revealed a significant influence of ramp Grimault 182 duration in the former F0 condition [F(1,5)=16.96, p<0.01] but not in the latter [F(1,5)=0.13, p=0.74]. Although no interaction between the "fringe" and "ramp duration" factors was obtained overall [F(1,5)=0.43, p=0.54], an ANOVA performed on the results obtained using the 40-ms ramp duration alone revealed a significant effect of the fringe [F(1,5)=7.85, p<0.05]; for the 2.5 ms ramp duration, the effect just failed to reach the statistical significance threshold [F(1,5)=6.08, p=0.057]. Discussion The DLF0s obtained in this experiment are in the range of those measured in previous studies at similar nominal F0s (Carlyon & Shackleton, 1994; Shackleton & Carlyon, 1994). The finding of larger DLF0s at 62 than at 352 Hz is consistent with these earlier data as well as with the notion that unresolved harmonics are associated to larger DLF0s than resolved harmonics (Carlyon & Shackleton, 1994; Shackleton & Carlyon, 1994). The main finding of this experiment corresponds to the fact that DLF0s were significantly increased by the presentation of a single fringe before the first target complex. Whereas in previous studies in which fringes were presented in both observation intervals (Carlyon, 1996; Micheyl & Carlyon, 1998; Gockel et al., 1999), the observed F0 discrimination impairments could be partly explained by the disruption of the memory trace of the target tones (Deutsch, 1972; Semal and Demany, 1991a,b; Semal et al., 1996) or of the ongoing processing of these tones in short term auditory memory, –e.g. backward masking (Massaro, 1975) -, the present results allow to rule out this type of interpretations. Naturally, one cannot deny that interferences in short-term auditory memory may have contributed to the F0-discrimination impairments observed in these earlier studies. This possibility is left opened by the fact that the fringe effects evidenced here - around 39 % on average - were substantially smaller than those reported earlier – Micheyl and Carlyon (1998) and Gockel et al. (1999) have reported increases of approximately 200% in conditions in which, like here, the target complexes and the fringes had neighboring F0s –. However, it should be noted that even this difference may be explained by other phenomena than memory interferences, as will be further discussed below. The results of the present experiment indicate that the F0-encoding process itself is affected by temporally contiguous sounds. One possibility suggested by Carlyon (1996a) is that the auditory system includes some of the information regarding the F0 of the fringe into Grimault 183 its estimate of the target F0; this is the “F0 over-integration” hypothesis. According to this hypothesis, the fact that the fringe effects observed here were smaller than those obtained in the previous studies by Micheyl & Carlyon (1998) and Gockel et al. (1999) could be due to the fact that only one of the two target complexes was corrupted - since the fringe was present in only one observation interval whereas it was present in both observation intervals in earlier studies -, and that it was corrupted less – since only one fringe was presented whereas earlier studies used both a backward and a forward fringe -. Results from Carlyon (1996a) indeed suggest that the forward and the backward fringes each have an effect. However, this “F0 over-integration” interpretation needs to be qualified based on the fact that when the data obtained in the two ramp-duration conditions were analyzed separately, DLF0s were found to be significantly larger in the presence of the fringe in the 40ms ramp condition only. This observation is hard to explain in terms of a simple overintegration mechanism whereby F0 information falling within a long, fixed-duration temporal window is combined by the auditory system. Indeed, the shorter the transition between the fringe and the target, the higher the likelihood that the window contains a large amount of the fringe together with the target. Therefore, over-integration effects should have been larger in the 2.5-ms ramp condition, which corresponds to shortest transition time between the fringe and the target, than in the 40-ms ramp condition. The present finding, which show a significant fringe effect in the 40-ms ramp condition, suggests that temporal F0 overintegration, if any, between temporally-contiguous sounds is prevented by abrupt transitions. This interpretation is consistent with the hypothesis, which was originally inspired by results from Bregman and colleagues (1994a,b), that the pitch-analysis system is reset by abrupt onsets. From that point of view, slow transitions between temporally contiguous sounds, even if they are associated to large temporal gaps between the peak amplitudes of the sounds (i.e. 80 ms with the 40-ms ramps used here), appear to promote fusion into a single perceptual entity. Another interesting aspect of the present results relates to the finding of significantly larger DLF0s for the 40-ms than for the 2.5-ms ramp duration in the 62-Hz F0 condition. A possible explanation for this finding is suggested by previous data by Plack and Carlyon (1995) showing that DLFs decrease significantly with increasing tone duration up to about 200-300 ms. In the present experiment, the overall duration of the tones remained fixed at 100 ms. However, the duration of the plateau varied from 95 ms for the 2.5-ms ramps down to only 20 ms with the 40-ms ramps. The fact that ramp duration had a significant influence on Grimault 184 DLF0s only in the 62-Hz F0 condition may further be related to the finding by Plack and Carlyon (1995) that the effect of duration on DLF0s is more marked for unresolved than for resolved harmonics. Experiment 2 Rationale The results of Experiment I have shown that abrupt transitions between temporally contiguous signals contribute to prevent temporal interferences in F0 perception. Basically, two mechanisms could explain this effect. Firstly, it could be that the temporal integration of F0 information processing is reset when auditory neurons detect abrupt variations in stimulus amplitude. Neurons in the cochlear nucleus and at several other stages of the central auditory system which are specifically sensitive to stimulus onsets and/or offsets could trigger this resetting. Alternatively, in the spectral domain, abrupt onsets cause a temporary broadening of the spectrum, known as spectral splatter, which may increase the pool of peripheral auditory neurons activated by the stimulus. The main purpose of this second experiment was to try and tease apart these two types of effects in order to determine the factors underlying the influence of onset duration observed in Experiment I. The approach that was used to this aim relies on the notion that, in virtue of Paserval's time-frequency reciprocity theorem, while the bandwidth of peripheral auditory filters increases with center frequency, the response time of these filters decreases. Therefore, the effect of spectral splatter should decrease with increasing frequency, as the changes in the spectral slopes of the stimulus which it produces become smaller in comparison to auditory-filter slopes. In other words, at high frequencies, the slopes of peripheral auditory filters are shallower that the spectral slopes of the stimulus, irrespective of ramp duration. Therefore, spectral splatter is not reflected in peripheral excitation patterns. In contrast, temporal envelope slopes should have a larger effect on peripheral excitation patterns at higher frequencies, where the time constants of peripheralauditory filter impulse responses are short. Based on this reasoning, we measured and compared in this second experiment the influence of ramp duration across three different frequency regions ranging from LOW to HIGH. The predictions can be summarized as follows: If plateau duration is the factor, the effect should vary with resolvability and be larger for unresolved than for resolved harmonics. If the duration of the gap between the fringe and Grimault 185 the masker is the factor, the effect should increase from the LOW to the HIGH region. If spectral splatter is the factor, the effect should decrease from the LOW to the HIGH region. Subjects Six normal-hearing listeners, none of which had taken part in Experiment I, took part in Experiment II. The subjects ranged in age between 19 and 27 years. They all had binaural normal hearing, i.e., absolute pure-tone thresholds at or below 20 dB HL at octave frequencies from 250 to 8000 Hz (ANSI, 1989). Only one of these subjects (i.e. the first author) had prior experience in psychoacoustic tasks. The others were paid an hourly wage for their participation. Stimuli The stimuli used in this second experiment had the same general characteristics than those used in Experiment I and were generated using the same apparatus. In addition to the 2.5 and 40 ms ramp durations used previously, ramp durations of 5, 10, and 20 ms were used in this second experiment. In addition to the MID (1375-1875 Hz) frequency region, a LOW (125-625 Hz), and a HIGH (3900-5400 Hz) frequency regions were involved. The forward fringe was always present. Procedure DLF0s were measured using exactly the same 2I-2AFC procedure as used in Experiment I. The listeners took part in six 2-hour sessions, for three weeks (2 sessions per week). On odd-numbered sessions, the subjects were tested in the MID region only, using ramp durations of 2.5, 5, 10, 20, and 40 ms, and nominal F0s of 62 or 352 Hz. On evennumbered sessions, the subjects were tested in the LOW, MID and HIGH regions, using ramp durations of 2.5 and 40 ms, and nominal F0s of 62 or 352 Hz. DLF0s shown on this graph were computed as the geometric mean of the DLF0s measured during the last eight 2-hour sessions out of a total of twelve sessions. Results Grimault 186 Figure 3. DLF0s measured in the presence of the forward fringe. Right-hand panel: DLF0s obtained in the MID frequency region using nominal F0s of 62 and 352 Hz and ramp durations varying between 2.5 and 40 ms. Left-hand panel: DLF0s obtained in the LOW, MID, and HIGH frequency regions, using nominal F0s of 62 and 352 Hz, and ramp durations of 2.5 and 40 ms. The error bars represent the (geometric) standard deviations around the (geometric) mean DLF0s expressed as percentages of the nominal F0. The results of Experiment II are represented in figure 3. Data regarding the detailed effect of ramp duration on DLF0s in the MID region are shown in the right-hand panel. These data were analyzed using a two-way, repeated-measures ANOVA (ramp duration D F0). DLF0s were found to be significantly larger in the 62-Hz than in the 352-Hz F0 condition [F(1,5)=225.23, p<0.001]. They were also found to vary significantly across ramp durations [F(4,20)=8.25, p<0.001], being larger for the 40-ms than for all shorter ramp durations in the F0=62 Hz condition (Bonferroni adjusted p<0.05). No interaction was observed between the F0 and ramp duration factors [F(4,20)=1.36, p=0.28]. The left-hand panel of figure 3 shows the data obtained in the different frequency regions using the two extreme ramp durations. These data were analyzed using a three-way, repeated-measures ANOVA (ramp duration D F0 D region). DLF0s were found to vary significantly across frequency regions [F(2,10)=35.25, p<0.001], being significantly smaller in the LOW than in the MID region for both ramp durations using the 62-Hz F0, and in the MID than in the HIGH region for both ramp durations and F0s. The nominal F0 also had a Grimault 187 significant effect [F(1,5)=39.62, p=0.001]: the DLF0s were overall larger in the 62-Hz than in the 352-Hz nominal F0 condition. DLF0s varied across ramp durations [F(1,5)=116.00, p<0.001], being larger in the 40-ms than in the 2.5-ms duration condition. The influence of ramp duration was found to vary significantly across regions [F(2,10)=18.79, p<0.001], but not to depend on F0 [F(1,5)=1.20, p=0.32]. No significant interaction was noted between the F0 and frequency region factors [F(2,10)=0.33, p=0.72]. The third-order interaction between these different factors failed to reach the statistical significance threshold [F(2,10)=3.41, p=0.074]. In order to test whether the influence of ramp duration was different for resolved and unresolved harmonics, the data of the three resolved and the three unresolved conditions were grouped together and compaired; the results failed to show any significant interaction between the “ramp duration” and “resolvability” factors [F(1,5)=0.19, p=0.68]. Discussion The results of this second experiment extend those of Experiment I and further show that ramp duration has a significant influence on the DLF0s measured in the presence of a forward fringe1. No evidence was found in the pattern of results for a systematic difference in this effect between resolved and unresolved harmonics. This argues against the hypothesis that the origin of the fringe effect observed here is to be found in the temporal F0-integration effects reported by Plack and Carlyon (1995). Indeed, these authors demonstrated improvements in DLF0s with increasing stimulus duration to be markedly larger for unresolved than for resolved harmonics. This finding was confirmed in a more recent study by White and Plack (1998), which further suggested a longer integration time for unresolved than for resolved harmonics. If the fringe effects found in the present study had been due to listeners "over-integrating" F0 information from the fringe when extracting the F0 of the target, larger detrimental effects should have been obtained with unresolved than with resolved harmonics. The results of this second experiment suggest that the fringe effect is not subtended by the over-integration of F0 information. The effect of ramp duration was found to decrease with increasing frequency region. If the effect of ramp duration had been related to the abruptness of the transitions between the fringe and target in the temporal domain, it should have been smaller in the LOW region, being smoothed due to the long decay time of auditory filter impulse responses. Rather, the present finding of decreasing fringe effects with increasing frequency region is consistent with the hypothesis that the effect of ramp duration on DLF0s is related to spectral splatter. Indeed, Grimault 188 as mentioned in the Rationale of this second experiment, the effect of spectral splatter is likely to be larger in a frequency region where auditory-filter slopes are steep than in a frequency region where these slopes are shallow. Summary and conclusions Overall, the results of this study confirm and extend those of previous studies showing that discrimination limens for F0 (DLF0s) can be impaired by temporally adjacent complexes (Carlyon, 1996a ; Micheyl & Carlyon, 1998; Gockel et al., 1999). The present results demonstrate that a temporal interference effect can be observed even in conditions in which the F0-comparison process in short-term auditory memory is not impaired, which suggests that the F0-encoding process itself is altered. The alteration is larger for relatively long (40-ms ramps) than for abrupt (2.5-ms ramps) transitions between the interfering and target tones. This is consistent with the hypothesis that abrupt transitions between successive tones contribute to reset the mechanism which is responsible for pitch analysis. The fact that the effect is not related to the F0, or to the resolvability of the harmonics, but decreases with increases in the frequency region of the harmonics suggests that the resetting is mediated by the influence of spectral splatter on the patterns of activity in the peripheral auditory system; this influence presumably decreases with the decreasing slopes of peripheral auditory filters toward high frequencies. Acknowledgments This work was supported by the French National Center for Scientific Research (CNRS) and by a doctoral research Grant allocated to the first author by the Entendre hearing-aid dispensers group. References ANSI (1989). ANSI 53.6-1989, NTIS (American National Standard Institute, New York). Bregman A.S., Ahad P. (1994). "Resetting the pitch analisis system: 2.Role of sudden onsets and offsets in the perception of individual components in a cluster of overlapping tones," J. Acoust. Soc. Am. 96, 2694-2703. Bregman A.S., Ahad P., Kim J., Melnerich L. (1994). "Resetting the pitch analisis system: 1. Effects of rise times of tones in noise backgrounds or of harmonics in a complex tone," Percept. Psychophys 56, 155-162. Grimault 189 Carlyon R.P. (1996a). "Encoding the fundamental frequency of a complex tone in the presence of a spectrally overlapping masker," J. Acoust. Soc. Am. 99, 517-524. Carlyon, R.P., and Shackleton, T.M. (1994). "Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?," J. Acoust. Soc. Am. 95, 3541-3554. Semal C., Demany L. (1991a). "Dissociation of pitch from timbre in auditory short-term memory," J. Acoust. Soc. Am. 89, 2404-2410. Semal C., Demany L. (1991b). "Further evidence from an autonomous processing of pitch in auditory short-term memory," J. Acoust. Soc. Am. 93, 1315-1322. Semal C., Demany L., Ueda K., Hallé P. (1996). "Speech versus nonspeech in pitch memory," J. Acoust. Soc. Am. 100, 1132-1140. Deutsch D. (1972). "Mapping of interactions in the pitch memory trace," Science 175, 10201022. Gockel, H., Caryon, R.P. and Micheyl, C. (1999). "Context dependence of fundamental frequency discrimination: Lateralized temporal fringes," J. Acoust. Soc. Am. 106, 35533563. Levitt, H. (1971). "Transformed up-down methods in psychoacoustics," J. Acoust. Soc. Am. 49, 467-477. Massaro, D.W. (1975). "Backward recognition masking," J. Acoust. Soc. Am. 58, 1059-1065. Micheyl, C., and Carlyon, R.P. (1998). "Effect of temporal fringes on fundamental-frequency discrimination," J. Acoust. Soc. Am. 104, 3006-3018. Plack C.J., Carlyon R.P. (1995). "Differences in frequency modulation detection and fundamental frequency discrimination between complex tones consisting of resolved and unresolved harmonics," J. Acoust. Soc. Am. 98, 1355-1364. Shackleton, T.M., and Carlyon, R.P. (1994). "The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination," J. Acoust. Soc. Am. 95, 3529-3540. White L.J., Plack C.J. (1998). "Temporal processing of the pitch of complex tones," J. Acoust. Soc. Am. 103, 2051-2063. Grimault 190 Footnote This finding contrasts at first sight with the absence of significant ramp duration effects in Experiment I. A possible cause for this apparent discrepancy between the results of the two experiments comes from the fact that the listeners from Experiment II had more extensive practice in the psychophysical task, procedure, and with the stimuli, than those from Experiment I. Due to the more limited number of conditions and of test sessions in Experiment I, it is possible that the listeners who took part in this experiment did not have the opportunity to learn to take advantage of abrupt ramps. One argument for this interpretation comes from the observation that, as illustrated by Figure 4, the improvement in DLF0s over time was in general larger in the 2.5-ms ramp duration conditions than in the 40-ms ramp duration conditions. One possible explanation for this additional learning is that in the former condition, listeners improved not only in their ability to discriminate the two target F0s, but also in their ability to tease apart the first target from the preceding fringe. Further study is required on this point. Figure 4. Variations in DLF0s between the first and the last four measurements measured in Experiment II for different frequency regions, nominal F0s, and ramp durations of 2.5 (black bars) and 40 ms (dashed bars). The error bars represent the standard error around the mean ratios. Grimault 191 RESUME GENERAL ET CONCLUSIONS. Grimault 192 1-Les mécanismes présumés d'encodages de la hauteur: Un bref exposé des différentes théories se rapportant aux mécanismes neuronaux sous-jacents au codage de la hauteur des sons complexes harmoniques a été présenté en introduction de ce document. Nous avons vu au cours de cet exposé que de nombreux points de désaccord perdurent entre les équipes de recherche qui travaillent sur ce thème. Fondamentalement, certains auteurs soutiennent que le mécanisme mis en oeuvre pour coder la hauteur est similaire dans tous les cas de figure (Meddis & Hewitt, 1991a,b; Meddis & O'Mard, 1998). D'autres revendiquent la coexistence de plusieurs mécanismes donnant naissance à la même sensation (Carlyon, 1998; Shackleton & Carlyon, 1994; Carlyon & Shackleton, 1994), l'un serait spécifique aux sons complexes dont les composantes fréquentielles sont résolues par le système auditif périphérique, et l'autre serait spécifique aux sons complexes dont les composantes fréquentielles sont non-résolues. Il s'agit dans ce paragraphe de rappeler et de positionner dans ce débat les résultats des études présentées dans le premier chapitre. La première étude rapportée ici, fournit des éléments nouveaux qui arguent en faveur de l'utilisation de deux mécanismes distincts pour l'encodage de la hauteur des sons complexes dont les composantes sont résolues et celle des sons complexes dont les composantes fréquentielles sont non-résolues. Il apparaît en fait que l'un de ces mécanismes serait privilégié par le système auditif lorsque les harmoniques sont résolus par le système auditif périphérique tandis que l'autre serait dominant lorsque les harmoniques ne sont pas résolus. Pour montrer ce résultat, nous avons utilisé dans cette étude un paradigme expérimental qui a fait ses preuves dans le domaine de la vision (Karni & Sagi, 1994; Polat & Sagi, 1994; Ahissar & Hochstein, 1993; Karni, 1996) mais dont l'utilisation en audition est demeurée marginale (cf. introduction). Cette approche se fonde sur l'hypothèse qu'il est possible d'entraîner sélectivement un mécanisme neuronal. En entraînant des sujets à réaliser une tâche, Grimault 193 on postule que l'on entraîne spécifiquement le ou les mécanismes utilisés pour effectuer cette tâche particulière. Le transfert des bénéfices d'un tel entraînement vers d'autres tâches auditives suggère alors que ces tâches partagent un ou plusieurs mécanismes sous-jacents. De plus, l'allure générale d'une courbe décrivant l'évolution des performances d'un sujet au cours d'un entraînement sensoriel est révélatrice de l'optimisation progressive des différents mécanismes utilisés dans le traitement de la tâche entraînée. La forme de cette courbe apporte ainsi des indications sur les mécanismes sous-jacents impliqués. En introduction, nous avons distingué l'entraînement procédural (correspondant, en fait, à l'entraînement d'un ensemble de mécanismes) de l'entraînement au stimulus (spécifique des stimulus utilisés) (Robinson & Summerfield, 1996). On peut supposer que les mécanismes sous-jacents à l'apprentissage procédural sont identiques pour les harmoniques résolus et les harmoniques non résolus. Par contre, les mécanismes impliqués dans le traitement spécifique des harmoniques résolus ou non résolus pourraient bien être différents. La première étude confirme chacune de ces prédictions. Premièrement, les sujets entraînés à discriminer les hauteurs de sons composés d'harmoniques résolus (groupe 1) deviennent globalement plus performants que les autres sujets (groupe 2) avec d'autres sons du même type qu'avec des sons composés d'harmoniques non résolus. Réciproquement, ceux entraînés avec des harmoniques non résolus (groupe 2) sont devenus plus performants que les autres sujets (groupe 1) dans le traitement des sons complexes non résolus. Deuxièmement, nous avons observé méticuleusement les courbes d'apprentissages pour chacun des deux groupes de sujets ci-dessus, et nous avons séparé et quantifié (par une constante de temps), pour chacune de ces courbes, le gain dû à l'apprentissage "procédural" du gain dû à l'apprentissage "du stimulus". Il apparaît alors que quelle que soit la condition entraînée (résolue ou non-résolue) la part procédurale du gain est comparable. Au contraire, la part dûe à l'entraînement d'un mécanisme stimulus-spécifique est différente pour chacun des Grimault 194 groupes. D'après les résultats de cette étude, les mécanismes encodant la hauteur des sons complexes résolus et non-résolus seraient donc distincts. La seconde étude, va, quant à elle, plus loin dans l'analyse des mécanismes permettant la perception de la hauteur. En effet, elle se propose de caractériser la nature des deux mécanismes dissociés d'encodage de la hauteur dont les résultats de la première étude et ceux de travaux antérieurs suggèrent l'existence. En utilisant le même paradigme expérimental de transfert d'apprentissage, nous avons, dans cette seconde étude, testé la proximité du mécanisme codant la hauteur des sons complexes résolus avec celui codant la hauteur tonale d'un son pur. En effet, si l'on suppose qu'un modèle de type spectral ou spectro-temporel (Goldstein, 1973; Terhart, 1972) est utilisé par le système auditif pour encoder la hauteur d'un groupe d'harmoniques tous résolus, le codage de la fréquence de chacune des composantes doit en constituer le premier stade. L'amélioration de ce stade par un entraînement intensif devrait, dans ce cas, améliorer le codage de la hauteur. Parallèlement, en supposant que le codage de la hauteur en présence d'harmoniques tous nonrésolus utilise les fluctuations périodiques de l'enveloppe temporelle à la sortie des filtres auditifs périphériques, un entraînement spécifique à discriminer les fréquences de modulations d'enveloppe devrait en retour améliorer les performances de discrimination de F0 avec des harmoniques non résolus. La seconde étude répond positivement au premier de ces points. Ainsi, globalement, les sujets entraînés dans des tâches de discrimination fréquentielle améliorent plus leurs performances d'encodage de la hauteur dans les conditions résolues que dans les conditions non-résolues. Par contre, bien que certains éléments des résultats aillent dans le sens de la seconde hypothèse, nous n'observons pas de transfert significativement plus large entre la discrimination de cadences de modulation et discrimination de sons complexes non résolus. Grimault 195 Il est toutefois important de remarquer que ces résultats ne peuvent aucunement être expliqués en postulant un mécanisme unitaire pour la perception de la hauteur. De ce point de vue, ils confirment donc ceux de la première expérience et semblent plaider en faveur d'un modèle de type spectral ou spectro-temporel pour le codage des harmoniques résolus par le système auditif. En conclusion de ces deux premières études, il semble qu'au moins deux types de mécanismes sont impliqués dans le codage perceptif de la hauteur des sons complexes harmoniques. L'un d'entre eux serait spécialisé dans le codage des composantes résolues par le système auditif. Nous avons vu par ailleurs que ce mécanisme semble être spectral ou spectro-temporel. Inversement, le second mécanisme mis en oeuvre lorsque les harmoniques ne sont pas résolus serait plutôt de type non spectral. Seuls quelques indices non significatifs peuvent nous laisser supposer que le codage des fluctuations d'enveloppe puisse être une des étapes de ce mécanisme. Grimault 196 2-L'analyse de scène auditive est-elle conditionnée par les mécanismes de perception de la hauteur. Dans la première partie, nous avons discuté, de façon théorique, les mécanismes potentiels donnant lieu à la sensation de hauteur. Nous avons vu par ailleurs dans l'introduction, l'importance de la hauteur pour l'analyse des scènes auditives. Si plusieurs mécanismes, suivant la résolvabilité des signaux, conduisent à une sensation de hauteur unifiée, il semble légitime de poser la question d'une possible interaction entre le mécanisme utilisé pour encoder la hauteur et les performances de l'analyse de scènes réalisées par le sujet. Cette question est abordée dans les trois articles du second chapitre de la thèse. Dans un premier temps, nous avons mis en évidence que quelle que soit la résolvabilité des signaux, les sujets parvenaient à organiser une séquence de sons complexes harmoniques en groupant entre eux les sons ayant une hauteur virtuelle proche. Ce résultat confirme certains résultats récents de la littérature (Vliegen & Oxenham, 1999) qui signalent que les indices spectraux ne sont pas indispensables pour attribuer des flux auditifs distincts à des sons de hauteur différente. Cependant, les résultats de notre étude ont permis de révéler que les performances d'organisation étaient en fait réduites lorsque les harmoniques étaient non résolus. La plus faible saillance de la hauteur dans le cas d'harmoniques non-résolus (Houtsma & Smurzynski, 1990; Shackleton & Carlyon, 1994), phénomène pouvant être dû à des mécanismes sous-jacents différents, peut expliquer ce résultat. Par ailleurs, ce résultat peut expliquer, comme nous l'avons montré dans l'étude 4, les difficultés particulières des personnes âgées souffrant d'une perte auditive pour organiser des paysages sonores. En effet, ces personnes ont une sélectivité fréquentielle périphérique réduite (Patterson et al., 1982) et leur système auditif périphérique sépare donc moins bien les composantes fréquentielles des sons. On peut supposer qu'ils n'ont alors le plus souvent à leur disposition qu'un unique Grimault 197 mécanisme d'encodage de la hauteur (celui utilisant de façon préférentielle les harmoniques non-résolus) et que leur aptitude à séparer des sources concurrentielles sur la base de la fréquence fondamentale est affectée. A posteriori, les résultats de ces deux études confirment les hypothèses émises par les auteurs de deux études récentes (Micheyl & Carlyon, 1998; Gockel et al., 1999). Ces auteurs ont observé dans un premier temps que les performances de discrimination de hauteur entre deux sons complexes harmoniques étaient détériorées par l'ajout de franges temporelles (d'autres sons complexes) avant et après les sons cibles. Dans un second temps, ils ont remarqué que la gêne provoquée par la présence des franges se produisait lorsque le sujet était dans l'impossibilité d'organiser les franges et les cibles dans deux flux auditifs distincts. Nous avons suggéré en introduction que les mécanismes d'analyse de scènes auditives pouvaient constituer un préalable aux mécanismes d'encodage de la hauteur voire même, le tout premier étage d'un modèle du codage de la hauteur. C'est dans cette problématique que s'inscrivent les travaux réalisés dans la dernière étude (article 5) du second chapitre. Cette étude mesure nos capacités de discrimination entre deux sons complexes en présence d'une frange temporelle complexe précédant juste les deux sons complexes cibles à discriminer. Différentes conditions de résolvabillité et surtout différentes durées de rampes (c'est à dire des temps de montée et de descente plus ou moins rapides de la frange et de la cible) ont été utilisées. Les résultats de cette étude suggèrent l'existence d'une corrélation entre la ségrégation perceptive de la frange et de la cible et une discrimination performante de la hauteur. L'aptitude des sujets à analyser la scène auditive qui leur est proposée varierait ainsi en fonction des temps de monté-descente des signaux. Plus ces intervalles temporels sont courts, meilleure est la ségrégation. La règle de continuité détaillée en introduction de cet ouvrage (paragraphe 3-2-1-2) pourrait expliquer que la ségrégation soit facilitée par des transitions frange/cible brutales. Comme nous l'avons discuté dans cet article, Grimault 198 il semble donc vraisemblable que les onsets brutaux des signaux utilisés puissent tout à la fois favoriser la ségrégation et réinitialiser le mécanisme d'encodage de la hauteur (Bregman, 1994a, b). Cette réinitialisation semble dépendre de la région spectrale dans laquelle ont été filtrés les signaux. Ce résultat laisse supposer que la réinitialisation est provoquée par l'élargissement du spectre (en anglais: "spectral splatter") induit en présence des temps d'attaques/chutes les plus courts. Grimault 199 3-Conclusions: Pour conclure ce travail, rappelons-en les principaux résultats. Deux premières études, utilisant le transfert d'apprentissage, ont apporté des arguments en faveur de l'hypothèse selon laquelle deux mécanismes neuronaux différents pouvaient être mis en oeuvre pour coder une sensation commune de hauteur. L'un de ces mécanismes semble partager des processus communs avec celui utilisé pour la perception de la hauteur tonale car un transfert partiel d'apprentissage se produit entre discrimination fréquentielle et discrimination de F0 lorsque les harmoniques sont résolus. Sachant que la hauteur est un puissant outil d'analyse de scènes auditives, les trois études suivantes explorent en détail le groupement par proximité de hauteur. Nous avons mis en évidence que si la présence d'indices spectraux n'était pas indispensable aux mécanismes de groupement, ces indices facilitaient néanmoins leur mise en oeuvre. Les malentendants ont pour cette raison des difficultés spécifiques pour analyser les scènes auditives. Enfin, la dernière étude mesure l'influence des temps de montée et des temps de descente dans une expérience de discrimination de hauteur entre des sons complexes précédés d'une frange temporelle. Nous avons discuté ce résultat en suggérant que les brusques transitions, en élargissant le spectre des stimuli, puissent réinitialiser les mécanismes d'encodage de la hauteur et améliorer ainsi les performances de discrimination en favorisant la ségrégation des sons complexes. Grimault 200 BIBLIOGRAPHIE GENERALE Grimault 201 Ahissar, M. and Hochstein, S. (1993). Attentional control of early perceptual learning, Proc. Natl. Acad. Sc. USA 90, 5718-5722. Alain C., Ogawa K.H., Woods D.L.. (1996). Aging and the segregation of auditory stimulus sequences, J Geront B Psychol Sci Soc Sci 51: 91-93. American National Standard Institute. (1969). Specification for audiometers. (ANSI S3.61969), New-York: ANSI. American National Standard Institute. (1989). ANSI 53.6-1989, NTIS (American National Standard Institute, New York). Anstis, S., and Saida, S. (1985). Adaptation to auditory streaming of frequency-modulated tones, Percept. Psychophys. 11, 257-271. Bacon, S.P., Grimault, N. and Jungmee, L. (1997) Spectral integration and the detection of tones in modulated and unmodulated noise, J. Acoust. Soc. Am. 102, 3160. Beauvois, M.W., and Meddis, R. (1996). Computer simulation of auditory stream segregation in alternating-tone sequences, J. Acoust. Soc. Am. 99, 2270-2280. Beerends J.G., Houtsma A.J.M. (1986). Pitch identification of simultaneous dichotic two-tone complexes, J. Acoust. Soc. Am. 80, 1048-1056. Békésy, G. Von (1947). The variation of phase along the basilar membrane with sinusoidal vibrations, J. Acoust. Soc. Am. 19, 452-460. Bilecen, D., Seifritz, E., Radü, E.W., Schmid, N., Wetzel, S., Probst, R., Scheffler, K. (2000). Cortical reorganization after acute unilateral hearing loss traced by fMRI, Neurology, 54, 765-767. Bilsen F.A. (1973). On the influence of the number and phase of harmonics on the perceptibility of the pitch of complex signals, Acustica 28, 60-65. Bilsen F.A., Ritsma R.J. (1970). Some parameters influencing the perceptibility of pitch, J. Acoust. Soc. Am. 47, 469-475. Grimault 202 Bregman, A.S., and Campbell, J. (1971). Primary auditory stream segregation and the perception of order in rapid sequences of tones, J. Exp. Psychol. 89, 244-249. Bregman, A.S., and Dannenbring, G. (1973). The effect of continuity on auditory stream segregation, Perc. Psychophys. 36, 308-312. Bregman A.S. (1978). Auditory streaming: Competition among alternative organizations, Perception and Psychophysics 23, 391-398. Bregman A.S., Pinker S. (1978). Auditory streaming and the building of timbre, Canad. J. Psychol. 32, 19-31. Bregman, A.S. (1978). Auditory streaming is cumulative, J. Exp. Psychol.: Human Percept. Perform. 4, 380-387. Bregman, A.S. and Levitan, R. (1983). Stream segregation based on fundamental frequency and spectral peak. I: Effects of Shaping by filters, Unpublished manuscript, Psychology Department, McGill University. Bregman A.S., Abramson J., Doehring P. (1985). Spectral integration based on common amplitude modulation, Perception and Psychophysics 37, 483-493. Bregman A.S., Levitan R., Liao C. (1990). Fusion of auditory components: Effects of the frequency of amplitude modulation, Perception and Psychophysics 47, 68-73. Bregman, A.S., Liao, C., and Levitan, R. (1990). Auditory grouping based on fundamental frequency and formant peak frequency, Can. J. Psychol. 44, 400-413. Bregman, A.S. (1990). Auditory Scene Analysis: The perceptual Organization of Sound (MIT, Cambridge, MA). Bregman, A.S. (1991). Using quick glimpses to decomposemixtures, in Music. Language, speech and brain (eds J. Sundberg, L. Nord and R. Carlson), Londres, MacMillan, p.244249. Grimault 203 Bregman A.S., Ahad P (1994). Resetting the pitch analisis system: 2.Role of sudden onsets and offsets in the perception of individual components in a cluster of overlapping tones, J. Acoust. Soc. Am. 96, 2694-2703. Bregman A.S., Ahad P., Kim J, Melnerich L. (1994). Resetting the pitch analisis system: 1. Effects of rise times of tones in noise backgrounds or of harmonics in a complex tone, Percept. Psychophys 56, 155-162. Broadbent, D.E. and Ladefoged (1957). On the fusion of sounds reaching different sense organs, J. Acoust. Soc. Am. 29, 708-710. Brown J.C., Puckette M.S. (1989). Calculation of a narrowed autocorrelation function, J. Acoust. Soc. Am. 85, 1595-1601. Brunstrom J.M., Roberts B. (1998). Profiling the perceptual suppression of partials in periodic complex tones: Further evidence for a harmonic template, J. Acoust. Soc. Am. 104, 35113519. Bundy, R.S., Colombo, J. and Singer, J. (1982). Pitch perception in young infants, Develop. Psychol. 18, 10. Burns E.M., Viemeister N.F. (1976). Nonspectral pitch, J. Acoust. Soc. Am. 60, 863-869. Burns E.M., Viemeister N.F. (1981) Played-again SAM: Further observations on the pitch of amplitude-modulated noise. J. Acoust. Soc. Am. 70, 1655-1660. Buunen T.J.F., Festen J.M., Bilsen F.A., Van den Brink G. (1974). Phase effects in a threecomponent signal, J. Acoust. Soc. Am. 55, 297-303. Canévet, G. (1995). Eléments de Psychoacoustique. Document non-publié, Université AixMarseille II. Cariani P.A. and B. Delgutte (1996a). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience, J. Neurophysiol. 76, 1698-1716. Grimault 204 Cariani P.A. and B. Delgutte (1996b). Neural correlates of the pitch of complex tones. II. Pitch shift, pitch ambiguity, phase invariance, pitch circularity, rate pitch, and the dominance region for pitch, J. Neurophysiol. 76, 1717-1734. Carlyon R.P. (1996a). Encoding the fundamental frequency of a complex tone in the presence of a spectrally overlapping masker, J. Acoust. Soc. Am. 99, 517-524. Carlyon R.P., Cusack R., Foxton J.M., Robertson I.H. (2000). Effects of attention and unilateral neglect on auditory stream segregation. J Exp Psychol: Hum Perc Perf, submitted. Carlyon, R.P. (1996b). Masker asynchrony impairs the fundamental-frequency discrimination of unresolved harmonics, J. Acoust. Soc. Am. 99, 525-533. Carlyon, R.P., (1998). Comments on "A unitary model of pitch perception" [J.Acoust. Soc. Am. 102, 1811-1820 (1997).], J. Acoust. Soc. Am., 104, 1118-1121. Carlyon, R.P., (1998). The effect of the resolvability on the encoding of fundamental frequency by the auditory system. Carlyon, R.P., and Shackleton, T.M. (1994). Comparing the fundamental frequencies of resolved and unresolved harmonics: Evidence for two pitch mechanisms?, J. Acoust. Soc. Am. 95, 3541-3554. Casseday, J.H., Covey E. (1995). Mechanisms for analysis of auditory temporal patterns in the brainstem of ocholocating bats, In Neural representation of temporal patterns Ed. By E. Covey, H.L. Hawkins and R.F. Port, New York, Plenum, 25-51. Cherry E.C. (1953) Some experiments on the recognition of speech with one or two ears, J Acoust Soc Am 25, 975-79. Cox R.M., Alexander G.C. (1991). Hearing aid benefit in everyday environments. Ear Hear. 12, 127-39. Grimault 205 Darwin C.J., Ciocca V., Sandell G.J. (1994). Effects of frequency and amplitude modulation on the pitch of a complex tone with a mistuned harmonic, J. Acoust. Soc. Am. 95, 26312636. Davis A. (1995). Hearing in Adults, London: Whurr Publishers. de Cheveigné A. (1993). Separation of concurrent harmonic sounds: Fundamental frequency estimation and a time-domain cancellation model of auditory processing, J. Acoust. Soc. Am. 93, 3271-3290. De Cheveigné A. (1997). Harmonic fusion and pitch shifts of mistuned partials, J. Acoust. Soc. Am. 102, 1083-1087. de Cheveigné, A. (1993). Separation of concurrent harmonic sounds: Fundamental frequency estimation and time-domain cancellation model of auditory processing, J. Acoust. Soc. Am. 93, 3271-3290. de Cheveigné, A. (1998). Cancellation model of pitch perception, J. Acoust. Soc. Am. 103, 1261-1271. de Cheveigné, A. (1999). Modèles de traitement auditif dans le domaine temps, Mémoire HDR non-publié. Demany, L., (1985). Perceptual learning in frequency discrimination, J. Acoust. Soc. Am. 78, 1118-1120. Deutsch D. (1972). Mapping of interactions in the pitch memory trace, Science 175, 10201022. Evans E.F. (1978). Place and time coding of frequency in the peripheral auditory system: Some phisiological pros and cons, Audiolology 17, 369-420. Faulkner A. (1985). Pitch discrimination of harmonic complex signals: Residue pitch or multiple component discriminations ?, J. Acoust. Soc. Am. 78, 1993-2005. Grimault 206 Fishman Y.I., Reser D.H., Arezzo J.C., Steinschneider M. (1998). Pitch vs. Spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey, Brain Res. 786, 18-30. Fitzgerald M.B., Wright B.A. (2000) Specificity of learning for the discrimination of sinusoidal amplitude-modulation rate. J. Acoust. Soc. Am. 107, 2916. Fletchter, H. (1940). Auditory patterns, Rev. Mod. Phys. 12, 47. Florentine M., Buus S., Scharf B. and Zwicker E. (1980). Frequency selectivity in normally-hearing and hearing-impaired observers, J. Speech Hear. Res. 23, 646-69. Gerson, A. and Goldstein, J.L. (1978). Evindence for a general template in central optimal processing for pitch of complex tones, J. Acoust. Soc. Am. 63, 498. Glasberg B.R., Moore B.C.J. (1986). Auditory filter shapes in subjects with unilateral and bilateral cochlear impairements, J. Acoust. Soc. Am. 79, 1020-1033. Glasberg, B.R. and Moore, B.C.J. (1990). Derivation of auditory filter shapes from notched-noise data, Hearing Research, 47, 103-198. Gockel, H., Carlyon, R.P. and Micheyl, C. (1999). Context dependence of fundamental frequency discrimination: Lateralized temporal fringes, J. Acoust. Soc. Am. 106, 35533563. Goldstein J.L. (1973). An optimum processor theory for the central formation of the pitch of complex tones, J. Acoust. Soc. Am. 54, 1496-1516. Goldstein, J.L. (1973). An optimum processor theory for the central formation of the pitch of complex tones, J. Acoust. Soc. Am. 54, 1496. Green D.M. (1964). Detection of multiple component. Signals in noise, In Sgnal detection and recognition by human observers. Ed by J. A. Swets (J Willey & Sons Inc, New York, London, Sydney). Grimault 207 Green D.M. and Swets J.A. (1966). Signal detection theory and psychophysics, New York: Wiley. Greenwood, D.D. (1961). Critical bandwidth and the frequency coordinates of the basilar membrane, J. Acoust. Soc. Am. 33, 1344-1356. Grimault N., Micheyl C., Carlyon R.P., Collet L. Evidence for two pitch encoding mechanisms using a selective auditory training paradigm, article soumis. Grimault, N., Micheyl, C., Carlyon, R.P., Artaud, P. and Collet, L. (2000). Influence of peripheral resolvability on the perceptual segregation of harmonic complex tones differing in fundamental frequency, J. Acoust. Soc. Am. 108, 263-271. Hanna T. E. (1992) Discrimination and identification of modulation rate using a noise carrier, J. Acoust. Soc. Am. 91, 2122-2128. Hall, J.W. and Peters, R.W. (1982). Change in the pitch of a complex tone following its association with a second complex tone, J. Acoust. Soc. Am. 71, 142. Hall, J.W., Haggard, M.P. and Fernandes, M.A. (1984). Detection in noise by spectrotemporal pattern analysis, J. Acoust. Soc. Am. 76, 50-56. Hartmann W.M., Doty S.L. (1995). On the pitches of the components of a complex tone, J. Acoust. Soc. Am. 99, 567-578. Hartmann, W.M. (1988). Pitch perception and the segregation and integration of auditory entities, In Auditory function - Neurological bases of hearing. Edited by G.M. Edelman, W.E. Gall and W.M. Cowan, New York, Willey, 623-645. Hartmann, W.M., and Johnson D. (1991). Stream segregation and peripheral channeling, Mus. Perc. 9, 155-184. Helmholtz, H.L.F. Von (1863). Die Lehre von den Tonempfindungen als physiologische Grundlage für der theorie der musik, 1st edn, F. Vieweg, Braunschweig. Grimault 208 Helmholtz, H.L.F. Von (1877). On the sensation of tone, (English translation A.J.Ellis, 1954). New York, Dover. Hicks, M.L. and Bacon, S.P. (1995). Some factors influencing comodulation masking release and across-channel masking, J. Acoust. Soc. Am. 98, 2504-2514. Hoekstra A. And Ritsma R.J. (1977). Perceptive hearing loss and frequency selectivity, in: Psychophysics and Physiology of Hearing, ed. EF Evans and JP Wilson, New York: Academic Press. Houtsma A.J.M. and Smurzynski J. (1988). JF Schouten revisited: Pitch of complex tones having many high-order harmonics, J. Acoust. Soc. Am. 87, 304-310. Houtsma, A.J.M., and Smurzynski, J. (1990). Pitch identification and discrimination for complex tones with many harmonics, J. Acoust. Soc. Am. 87, 304-310. Irino T., Patterson R.D. (1997). A time domain, level-dependent auditory filter: The gammachirp, J. Acoust. Soc. Am. 101, 412-419. Irvine, D.R.F. (1992). Physiology of the auditory brainstem, In The mammalian auditory pathway: neurophysiology, Edited by A.N. Popper and R.R. Fay, New York, Spring Verlag, 153-231. Iverson P. (1995). Auditory stream segregation by musical timbre: Effects of static and dynamic acoustic attributes, J. Exp. Psychol.: Hum. Perc. Perf. 21, 751-763. Jeffress, L.A. (1948). A place theory of sound localization, J. Comp. Physiol. Psychol. 41, 3539. Kaernbach C., Demany L. (1998). Psychophysical evidence against the autocorrelation theory of auditory temporal processing, J. Acoust. Soc. Am. 104, 2298-2306. Kaltenbach J.A., Czaja J.M. and Kaplan C.R. (1992). Changes in the tonotopic map of the dorsal cochlear nucleus following induction of cochlear lesion by exposure to intense sound, Hearing Res. 59, 213-223. Grimault 209 Karni, A. and Sagi, D. (1990). Texture learning is specific for spatial location and background orientation, Invest. Ophthalmol. Vis. Sci. (Suppl.). 31, 562. Karni, A. and Sagi, D. (1991). Where practice makes perfect in texture discrimination: Evidence for primary visual cortex plasticity, Proc. Natl. Acad. Sci. USA 88, 4966-4970. Karni, A. and Sagi, D. (1993). The time course of learning a visual skill, Nature 365, 250-252. Konishi, M., Takahashi, T.T., Wagner, H., Sullivan, W.E. and Carr, C.E. (1988). Neurophysiological and anatomical substrates of sound localization in the owl, In Auditory function - neurobiological bases of hearing. Edited by G.M. Edelman, W.E. Gall and W.M. Cowan, New York, Willey, 721-745. Langner G. (1997). Neural processing and representation of periodocoty pitch, Acta Otolar. 532, 68-76. Langner G., Sams M., Heil P., Schulze H. (1997). Frequency and periodicity are represented in orthogonal maps in the human auditory cortex: evidence from magnetoencephalography, J. Comp. Pysiol. A 181, 665-676. Langner, G. and Schreiner, C.E. (1988). Periodicity coding in the inferior colliculus of the cat. I. Neuronal mechanisms, J. Neurophysiol. 60, 1799-1822. Levitt, H. (1971). Transformed up-down methods in psychoacoustics, J. Acoust. Soc. Am. 49, 467-477. Licklider, J.C.R. (1951). A duplex theory of pitch perception, Experientia 7, 128-134. Licklider, J.C.R. (1956). Auditory frequency analysis, In Information theory Edited by C. Cherry, London, Butterworth, 253-268. Licklider, J.C.R. (1959). Three auditory theories, In Psychology, a study of a science. Edited by S. Koch, New York, McGraw-Hill, I, 41-144. Licklider, J.C.R. (1962). Periodicity pitch and related auditory process models, International Audiology 1, 11-36. Grimault 210 Lin J.Y., Hartmann W.M. (1998). The pitch of a mistuned harmonic: Evidence for a template model, J. Acoust. Soc. Am. 103, 2608-2617. Lundeen, C. and Small, A.M. (1984). The influence of temporal cues on the strength of periodicity pitches, J. Acoust. Soc. Am. 75, 1578. Martens J.P. (1983). Comment on Algorithm for extraction of pitch and pitch salience from complex tonal signals [J. Acoust. Soc. Am. 71, 679-688 (1982).], J. Acoust. Soc. Am. 75, 626-628. Massaro D.W. (1975). Backward recognition masking, J. Acoust. Soc. Am. 58, 1059-1065. Maubaret C., Demany, L., Semal, C. (1999). Sélectivité de l’apprentissage auditif de discrimination chez l’homme, Mémoire DEA non publié , Université Bordeau II. McAdams S. (1989). Segregation of concurrent sounds. I: Effects of frequency modulation coherence, J. Acoust. Soc. Am. 86, 2148-2159. McCabe S.L., and Denham, M.J. (1997). A model of auditory streaming, J. Acoust. Soc. Am. 101, 1611-1621. McKeown, J.D., Darwin C.J. (1991). Effects of phase changes in low-numbered harmonics on the internal representation of complex sounds, The quarterly journal of experimental psychology 43A, 401-421. Meddis R., O’Mard L. J. (1997). A unitary model of pitch perception, J. Acoust. Soc. Am. 102, 1811-1820. Meddis, R. (1986). Simulation of mechanical to neural transduction in the auditory receptor, J. Acoust. Soc. Am. 79, 702-711. Meddis, R. (1988). Simulation of mechanical to neural transduction: Further studies, J. Acoust. Soc. Am. 83, 1056-1063. Meddis, R. and Hewitt, M. (1991a). Virtual pitch and phase sensitivity of a computer model of the auditory periphery: I. pitch identification, J. Acoust. Soc. Am. 89, 2866-2882. Grimault 211 Meddis, R. and Hewitt, M. (1991b). Virtual pitch and phase sensitivity of a computer model of the auditory periphery: II. Phase sensitivity, J. Acoust. Soc. Am. 89, 2883-2894. Menning, H., Roberts, L.E. and Pantev, C. (2000). Plastic changes in the auditory cortex induced by intensive frequency discrimination training, Neuroreport 11, 817-822. Micheyl C., and Carlyon, R.P. (1998). Effect of temporal fringes on fundamental-frequency discrimination, J. Acoust. Soc. Am.104, 3006-3018. Miller, G.A., and Heise, G.A. (1950). The trill threshold, J. Acoust. Soc. Am. 22, 637-638. Montgomery C.R., Clarkson M.G. (1997). Infant’s pitch perception: Masking by low- and high-frequency noises, J. Acoust. Soc. Am. 102, 3665-3672. Moore B.C.J. (1973). Frequency difference limens for short-duration tones, J. Acoust. Soc. Am. 54, 610. Moore B.C.J. (1985). Frequency selectivity and temporal resolution in normal and hearingimpaired listeners, Brit. J. Audiol. 19, 189-201. Moore B.C.J. (1989). An introduction to the psychology of hearing, Academic Press. Moore B.C.J. (1995). Perceptual consequences of cochlear damage, Oxford: University Press. Moore B.C.J., Glasberg B.R. (1987). Formulae describing frequency selectivity as a function of frequency and level, and their use in calculating excitation patterns, Hear. Res. 28, 209-225. Moore B.C.J., Glasberg B.R. (1989). Difference limens for phase in normal and hearingimpaired subjects, J. Acoust. Soc. Am. 86, 1351-1365. Moore B.C.J., Glasberg B.R. (1990). Frequency discrimination of complex tones with overlapping and non-overlappinhg harmonics, J. Acoust. Soc. Am. 87, 2163-2177. Moore B.C.J., Glasberg B.R., Peters R.W. (1985). Relative dominance of individual partials in determining the pitch of complex tones, J. Acoust. Soc. Am. 77, 1853-1860. Grimault 212 Moore, B.C.J. (1973). Frequency difference limens for short-duration tones, J. Acoust. Soc. Am. 54, 610. Moore, B.C.J. (1986). Parallels between frequency selectivity measured psychophysically and in cochlear mechanics, Scand. Audiol. Suppl. 25, 139-152. Nejime Y. and Moore B.C.J. (1997). Simulation of the effect of threshold elevation and loudness recruitment combined with reduced frequency selectivity on the intelligibility of speech in noise, J. Acoust. Soc. Am. 102, 603-615. Ohm, G.S. (1843). über die definition des tones, nebst daran geknüpfter theorie der sirene und ähnlicher tonbildender vorrichtungen, Ann. Physik.59, 513. Palmer C., Nelson T. And Lindley IV G. A. (1998). The functionally and physiologically plastic adult auditory system, J. Acoust. Soc. Am. 103, 1705-1721. Patterson R.D., Nimmo-Smith I., Weber D.L. and Milroy R. (1982). The deterioration of hearing with age: Frequency selectivity, the critical ratio, the audiogram, and speech threshold, J. Acoust. Soc. Am. 72, 1788-1803. Patterson, R.D. (1976). Auditory filter shapes derived with noise stimuli, J. Acoust. Soc. Am. 59, 640-654. Patterson, R.D., Allerhand, M. And Giguère, C. (1995). Time-domain modelling of peripheral auditory processing: a modular architecture and a software platform, J. Acoust. Soc. Am. 98, 1890-1894. Patterson, R.D., Nimmo-Smith, I., Holdsworth, J. and Rice, P. (1988). Spiral vos final report, Part A: The auditory filterbank, Cambridge Electronic Design, Contract Rep. (Apu 2341). Peter, R.W. and Hall, J.W. (1984). Generalization and maintenance of pitch-change effects, J. Acoust. Soc. Am.76, S76. Philibert, B., Collet, L. And Veuillet, E. (2000). Revue de littérature non-publiée. Grimault 213 Plack C.J., Carlyon R.P. (1995). Differences in frequency modulation detection and fundamental frequency discrimination between complex tones consisting of resolved and unresolved harmonics, J. Acoust. Soc. Am. 98, 1355-1364. Plomp R. (1964). the ear as a frequency analyzer, J. Acoust. Soc. Am. 36, 1628-1636. Plomp R. (1967). Pitch of complex tones, J. Acoust. Soc. Am. 41, 1526-1533. Plomp R. (1978). Auditory handicap of hearing impairment and the limited benefit of hearing aids, J. Acoust. Soc. Am. 63, 533-549. Plomp, R. (1965). Detectability threshold for combination tones, J. Acoust. Soc. Am. 37, 1110-1123. Polat, U. and Sagi, D. (1994). Spatial interactions in human vision: from near to far via experience dependent cascades of connections, Proc. Natl. Acad. Sci. USA 91, 12061209. Ragot, R. and Crottaz, S. (1998). A dual mechanism for sound pitch perception: new evidence from brain electrophysiology, Neuroreport 9, 3123-3127. Rasch, R.A. (1978). The perception of simultaneous notes such as in polyphonic music, Acustica 40, 21-33. Recanzone G.H., Schreiner C.E., Merzenich, M.M. (1993). Plasticity in the frequency representation of primary auditory cortex following discrimination training in adult owl monkey, J. Neurosc. 13, 87-103. Ritsma R.J. (1967). Frequencies dominant in the perception of the pitch of complex sounds, J. Acoust. Soc. Am. 42, 191-198. Roberts B., Brunstrom J.M. (1998). Perceptual segregation and pitch shifts of mistuned components in harmonic complexes and in regular inharmonic complexes, J. Acoust. Soc. Am. 104, 2326-2338. Grimault 214 Robinson D.W., Dadson R.S. (1956) A redetermination of the equal-loudness relations for pure tones, Br. J. Appl. Phys. 7, 166-181. Robinson K., Summerfield A.Q. (1996). Adult auditory learning and training, Ear and Hearing 17, 51S-65S. Rose, J.E., Brugge, J.F., Anderson, D.J. and Hind, J.E. (1968). Patterns of activity in single auditory nerve fibers of the squirrel monkey, In A.V.S. de Reuck & J. Knight (Eds).: Hearing mechanisms in vertebrates. London: Churchill, 144. Rose, M.M., and Moore, B.C.J. (1997). Perceptual grouping of tone sequences by normallyhearing and hearing-impaired listeners, J. Acoust. Soc. Am. 102, 1768-1778. Scheffers M.T.M. (1983). Simulation of auditory analysis of pitch: An elaboration on the DWS pitch meter, J. Acoust. Soc. Am. 74, 1716-1725. Schouten, J.F. (1940). The residue and the mechanism of hearing, Proc. K. Ned. Akad. Wet. 43, 991-999. Schouten, J.F. (1970) The residue revisited. In Frequency Analysis and periodicity perception in hearing (ed. R. Plomp and G.F. Smoorenburg), Sijthoff, Leiden. Schouten, J.F., Ritsma, R.J. and Cardozo, B.L. (1962). Pitch of the residue, J. Acoust. Soc. Am. 34, 1418-1424. Schulze H., Langner G. (1997a). Periodicity coding in the primary auditory cortex of the mongolian gerbil (Meriones unguiculatus).: two different coding strategies for pitch and rhythm ?, J. Comp. Physiol. 181, 651-663. Schulze H., Langner G. (1997b). Representation of periodicity pitch in the primary auditory cortex of the mongolian gerbil, Acta Otolaryngol. 532, 89-95. Schulze H., Scheich H. (1999). Discrimination learning of amplitude modulated tones in Mongolian gerbils, Neuroscience letter 261, 13-16. Grimault 215 Schulze H., Scheich H., Langner G. (1998) Periodicity coding in the auditory cortex: what can we learn from learning experiments? Schwartz, I.R. (1992). The superior olivary complex and lateral lemniscal nuclei, In The mammalian auditory pathway: neuroanatomy. Edité par D.B. Webster, A.N. Popper and R.R. Fay, New York, Springer-Verlag, 117-167. Seebeck, A. (1841). Beobachtungen über einige Bedingungen der Entstehung von Tönen, Ann. Phys. Chem. 53, 417. Seebeck, A. (1843). über die Sirene. Ann. Phys. Chem. 60, 449. Semal C., Demany L. (1991a). Dissociation of pitch from timbre in auditory short-term memory, J. Acoust. Soc. Am. 89, 2404-2410. Semal C., Demany L. (1991b). Further evidence from an autonomous processing of pitch in auditory short-term memory, J. Acoust. Soc. Am. 93, 1315-1322. Semal C., Demany L., Ueda K., Hallé P. (1996). Speech versus nonspeech in pitch memory, J. Acoust. Soc. Am. 100, 1132-1140. Shackleton, T.M., and Carlyon, R.P. (1994). The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination, J. Acoust. Soc. Am. 95, 35293540. Shiu, L.P. and Pashler, H. (1992). Improvement in line orientation discrimination is retinally local but dependent on cognitive set, Percept. Psychophys. 52, 582-588. Singh, P.G. (1987). Perceptual organization of complex-tones sequences: a tradeoff between pitch and timbre?, J. Acoust. Soc. Am. 82, 886-899. Singh, P.G., and Bregman, A. (1997). The influence of different timbre attributes on the perceptual segregation of complex-tone sequences, J. Acoust. Soc. Am. 102, 1943-1952. Slaney M., Lyon R.F. (1990). A perceptual pitch detector, Proc. 1990 IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP), Albuquerque, NM, 357-360. Grimault 216 Smith, P.H., Joris, P.X. and Yin, T.C.T. (1993). Projections of physiologically characterized sperical bushy cell axons from the cochlear nucleus of the cat: evidence for delay lines to the medial superior olive, J.Comp. Neurol. 331, 245-260. Snodgrass J.G. and Corwin J. (1988). Pragmatics of measuring recognition memory: Applications to dementia and amnesia, J. Exp. Psychol.: Gen. 117, 34-50. Sommers M.S. and Gehr S.E. (1998). Auditory suppression and frequency selectivity in older and younger adults, J. Acoust. Soc. Am. 103, 1067-1074. Sommers M.S. and Humes L.E. (1993). Auditory filter shapes in normal-hearing, noisemasked normal and elderly listeners. J. Acoust. Soc. Am. 93, 2903-2914. Srulovicz P., Goldstein J.L. (1983). A central spectrum model: a synthesis of auditory-nerve timing and place cues in monaural communication of frequency spectrum, J. Acoust. Soc. Am. 73, 1266-1276. Steinschneider M., Reser D.H., Fishman Y.I., Schroeder C.E., Arezzo J.C. (1998). Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pith perception, J. Acoust. Soc. Am. 104, 2935-2955. Stevens S.S. (1957). On the psychoacoustical law, Psychol. Rev. 64, 153-181. Tallal P., Miller S.L., Bedi G., Byma G., Wang X., Nagarajan S.S., Schreiner C., Jenkin W.M., Merzenich M.M. (1996). Language comprehension in language-learning impaired children improved with acoustically modified speech, Science 271, 81-84. Terhardt, E. (1972a). Zur Tonhöhenwahrnehmung von Klängen. I. Psychoakustische Grundlagen, Acustica 26, 173. Terhardt, E. (1972b). Zur Tonhöhenwahrnehmung von Klängen. II. Ein Funktionsschema, Acustica 26, 187. Terhardt, E. (1974) Pitch, consonance and harmony. J. Acoust. Soc. Am., 55, 1061-1069. Grimault 217 Terhardt, E. (1978). Psychoacoustic evaluation of musical sounds, Percept. Psychophys. 23, 483. Thurlow,W.R. (1963) Perception of low auditory pitch: a multicue mediation theory. Psychol. Rev., 70, 515-519. Tyler R.S., Wood E.J. and Fernandes M. (1982). Frequency resolution and hearing loss, Brit. J. Audiol. 16, 45-63. Van Noorden L.P.A.S. (1975). Temporal coherence in the perception of tone sequences, Unpublished Doctoral Dissertation, Technische Hogeschool Eindhovern, Eindhoven, The Netherlands. Vliegen J., Moore B.C.J. and Oxenham, A.J. (1999). The role of spectral and periodicity cues in auditory stream segregation, measured using a temporal discrimination task, J. Acoust. Soc. Am. 106, 938-945. Vliegen J., Oxenham A.J. (1999). Sequential stream segregation in the absence of spectral cues, J. Acoust. Soc. Am. 105, 339-346. Walliser, K. (1968) Zusammenwirken von Hüllkurvenperiod und Tonheit bei der Bildung des periodentonhöhe, Doctoral dissertation. Technische Hochschule, München. Walliser, K. (1969a) Zusammenhänge zwischen dem Schallreiz und der Periodentonhöle. Acoustica, 21, 319-328. Walliser, K. (1969b) Zur Unterschiedsschwelle der Periodentonhöhe. Acoustica, 21, 329-336. Walliser, K. (1969c) Uber ein Funktionsschema für die bildung der eriodentonhöhe aus dem Schallreiz. Kybernetik, 6, 65-72. Warren, R.M. (1982). Auditory perception: A new synthesis. New York: Pergamon. White L.J., Plack C.J. (1998). Temporal processing of the pitch of complex tones, J. Acoust. Soc. Am. 103, 2051-2063. Whitfield, I.C. (1967) The auditory pathway, Arnold, London. Grimault 218 Whitfield, I.C. (1970) Central nervous processing in relation to spatiotemporal discrimination of auditory patterns. In Frequency Analysis and periodicity perception in hearing (ed. R. Plomp and G.F. Smoorenburg), Sijthoff, Leiden. Wiegrebe L, Patterson R.D., Demany L., Carlyon R.P. (1998). Temporal dynamics of pitch strength in regular interval noises, J. Acoust. Soc. Am. 104, 2307-2313. Wright, B.A., Buonomano, D.V., Mahncke, H.W. and Merzenich, M.M. (1997). Learning and generalization of auditory temporal-interval discrimination in humans, J.Neurosc. 17, 3956-3963. Yost, W.A. (1996). Pitch strength of iterated rippled noise when the pitch is ambiguous, J. Acoust. Soc. Am. 101, 1644-1648. Grimault 220 ANNEXES Grimault 221 A1: Modèle de calcul des patterns d'excitations périphériques. A1-1-Présentation du modèle. J'ai, au cours de ce doctorat, élaboré un rapide modèle permettant le calcul des sorties temporelles (les patterns d'excitation) des filtres auditifs. Le modèle classique le plus utilisé est celui de Glasberg & Moore (1990). Un problème cependant est à mon avis intrinsèque à ce modèle, en particulier pour mesurer l'incidence de rapides fluctuations temporelles sur la sortie des filtres. Ce modèle est spectral. Il commence par prendre la représentation spectrale du signal incident par une classique transformée de Fourrier rapide (algorithme FFT) pour calculer le spectre à la sortie de chaque filtre auditif. Il repasse alors dans le domaine temporel par transformée de Fourrier inverse (IFFT). Le modèle que j'ai élaboré et qui vous est présenté dans cette annexe est un modèle strictement temporel. Il utilise la définition temporelle des filtres auditifs donnés par Irino & Patterson (1997): les gammachirps. Ces auteurs donnent la réponse impulsionnelle de ces gammachirps: g c (t ) = at n −1 exp(−2πbERB( f r )t ) × cos(2πf r t + c ln t + φ ) (t>0) (1) où a, b, c, n, fr et å sont les paramètres du modèle (Irino & Patterson, 1997) et ERB consiste en la fonction définie par Glasberg & Moore (1990) qui est rappelée dans le premier chapitre: ERB( f r ) = 24.7 + 0.108 f r (2) Grimault 222 J'ai développé ce modèle dans l'objectif de quantifier le "splater" induit par les temps de monté-descentes (les rampes) des sons complexes harmoniques utilisés dans l'étude 5 (entre 2.5 ms et 40 ms). Détaillons les différentes phases de calcul de ce modèle. 1-Avant toute chose, précisons que ce modèle calcule l'énergie RMS du signal incident dans 32 bandes auditives numérotées de 2 à 33 d'après la formule de Glasberg & Moore (1990): N ° ERB = 21.4 log10 (4.37 FkHz + 1) (3) Les fréquences centrales (FkHz) de ces bandes sont donc répartis entre 55 Hz et 7743 Hz et leur largeur est calculée grâce à la fonction ERB (eq.2). Ainsi, connaissant le signal incident et son niveau global en dB SPL, on extrait l'énergie par bande de ce signal par simple transformée de Fourrier (algorithme FFT) puis transformée de Fourrier inverse (IFFT). 2-L'énergie par bande est alors corrigée pour prendre en compte la variation des seuils auditifs aux différentes fréquences. Cette correction utilise les données expérimentales de Robinson & Dadson (1956) qui sont rapportées dans Glasberg & Moore (1990) dans le tableau MAF ("Minimum Auditory Field"). Une interpolation affine par morceau de cette courbe sur une échelle des abscisses logarithmiques permet de calculer la correction à apporter pour chaque fréquence. Cette interpolation ainsi que les points expérimentaux de Robinson & Dadson (1956) sont représentés sur la figure ci dessous. Grimault 223 Fig A1: Les cercles représentent les seuils auditifs (MAF) mesurés par Robinson & Dadson (1956). La ligne représente la fonction continue utilisée pour trouver une approximation du seuil pour une fréquence quelconque. 3-Une fois l'énergie par bande connue, on peut calculer à l'aide de l'équation 1 les 32 réponses impulsionnelles correspondant aux 32 fréquences centrales Fcs. Ces réponses impulsionnelles sont intensité-dépendantes. Il était donc indispensable de connaître préalablement l'énergie par bande calculée en 1 et corrigée en 2. Au passage, pour chaque réponse impulsionelle (ie. Pour chaque Fc), un coefficient normalisateur est calculé afin qu'un son pur centré sur Fc ne perde pas d'énergie en traversant le filtre auditif centré, lui aussi, sur Fc. 4-La convolution du signal incident avec les 32 réponses impulsionnelles normées par leur coefficient respectif donne alors 32 patterns d'excitation en sortie de 32 filtres auditifs. A1-2-Application du modèle. Grimault 224 Nous avons appliqué ce modèle à 12 des signaux complexes utilisés dans l'étude 5. Les paramètres sont les suivants: Fréquence fondamentale (F0): 62 Hz ou 352 Hz. Filtrage passe bande en région LOW (125-625 Hz), MID (1375-1875 Hz) ou HIGH (39005400 Hz). Intensité globale: entre 55 dB SPL (certains signaux ont été calibrés à 55 dB SPL) et 54.41 dB SPL (l'énergie des autres a été déduite numériquement). Durée des signaux: la durée prise en compte de chaque signal est égale à son temps de montée (2.5 ms ou 40 ms). La durée totale du signal est 200 ms. Le modèle compare donc la réponse des filtres (l'énergie RMS par filtre) pendant le temps de montée (2.5 ou 40 ms) dans différentes régions et F0s. L'énergie de chaque pattern d'excitation dans chacune des conditions ci-dessus est tracée sur la figure ci-dessous. La réponse énergétique des 32 filtres est normée (maximum égal à 1) pour chaque signal afin de prendre en compte les différences d'énergies dues à des durées disparates et de permettre ainsi une comparaison inter-signal. Grimault 225 Fig A2: Energie RMS par bande en réponse à des sons complexes de fréquences fondamentales 62 Hz (en haut) ou 352 Hz (en bas). Ces sons sont filtrés dans trois régions distinctes: LOW (à gauche), MID (au milieu) et HIGH (à droite). Enfin, dans chaque cadre, le trait continu correspond à la réponse (normée) à un son montant sur 2.5 ms, le trait pointillé à un son montant sur 40 ms et le trait en tirets à la différence de ces deux valeurs. A1-3-Discussion du modèle. Ce modèle à l'avantage d'utiliser, dans le domaine temporel, les réponses impultionelles simulants les filtres auditifs. Ceci permet d'avoir un réel aperçu du splater (la sur-activation de nombreux filtres auditifs) provoqué lors de l'onset brutal (2.5 ms) d'un son. Grimault 226 Un problème apparaît cependant comme incontournable. Le calcul des réponses impultionelles (c'est à dire le calcul des filtres auditifs) nécessite la connaissance préalable de l'énergie présente dans chaque filtre. Or le calcul de cette énergie demande lui aussi la connaissance préalable des filtres. Nous sommes donc enfermés dans un cercle infernal et sans solution entièrement satisfaisante. Pour contourner ce problème, nous avons choisi ici de calculer l'énergie dans des bandes critiques rectangulaires (ERB) puis d'assimiler cette énergie à celle contenue dans le gammachirp correspondant. Il s'avère que ce procédé introduit une certaine approximation. Cette approximation rend incomplet ce modèle et explique qu'il n'ait pas été inclu dans l'article 5. A1-4-Résultats et apport du modèle à la discussion de l'étude 5. Il est toutefois intéressant, malgré la remarque ci-dessus, de bien observer les courbes de la figure A2. Différence intégrée moyenne â LOW 1.48 (0.19) MID 1.36 (1.16) HIGH 0.14 (0.65) Région Table A1: Somme sur les 32 bandes des indices spectraux en région LOW, MID et HIGH. La déviation standard est donnée dans la troisième colonne. Grimault 227 Tout d'abord, on remarque que globalement, les sons ayant des temps de montées rapides ont tendance à exciter plus de filtres auditifs. La différence induite par des temps d'onset de 2.5 ms et de 40 ms (les indices spectraux) est maximum dans la région LOW (Table A1). Elle décroît très légèrement dans la région MID et elle est quasiment inexistante dans la région HIGH (Table A1). Ceci est en accord avec les éléments qui ont été discutés dans l'étude N°5. Si nous admettons que le splater physique d'un son est indépendant de sa fréquence (figure A3). Le spectre d'un son de fréquence F ayant un temps de monté lent se rapproche d'un dirac en F (ÔF). Par contre, celui d'un son de fréquence F ayant un très court temps de monté sera élargi (présence de splater) et il peut donc être représenté schématiquement par une bande centrée sur F de largeur L (L dépendant principalement du temps de montée). F=100 Hz Amplitude (arb) Amplitude (arb) ∆ F=10 kHz Fréquence (Hz) Amplitude (arb) Amplitude (arb) Temps (s) Temps (s) Fréquence (Hz) Fig A3: Les représentations temporelles (à gauche) et spectrales (à droite) de deux sons purs de 20 ms, de fréquences 100 Hz (en haut) et 10 kHz (en bas) sont représentées sur cette figure. La représentation spectrale a été obtenue par transformée de Fourrier (FFT). On observe que la largeur Ç du lobe principal des deux spectres est grossièrement identique pour chacun des signaux quelque soit leur fréquence (100 Hz ou 10 kHz). Grimault 228 Si les filtres sont larges (région HIGH), le passage de ÔF à L ne constituera pas un changement majeur puisque ÔF excitait déjà de nombreux filtres. Par contre, si les filtres sont étroits (région LOW), le passage de ÔF, qui n'excitait qu'un filtre, à L qui en excite plusieurs est tout à fait remarquable. Cette argumentation est schématisée sur la figure A4. filtres auditifs Temps de monté: 40 ms LOW HIGH spectre du signal Temps de monté: 2.5 ms Fig A4: Cette figure représente schématiquement 4 configurations possibles: 1-En haut à gauche, un son pur basse fréquence (région L0W) ayant un temps de monté de 40 ms excite un unique filtre auditif. 2-En haut à droite, ce même son en haute fréquence (région HIGH) excite 3 filtres. 3-En bas (temps de monté 2.5 ms), quelque soit la région stimulée (LOW ou HIGH), le son de basse et celui de haute fréquence excitent tous les deux trois filtres auditifs. En région LOW, le passage de 2.5 ms à 40 ms provoque donc la stimulation de 2 filtres supplémentaires. Ceci n'est pas vrai en région HIGH. C'est donc certainement ce phénomène qui est mis en évidence par la figure A2. Remarquons tout de même que cet effet ne semble pas être corrélé à la résolvabilité des signaux mais bien plutôt à la région de filtrage (ie. à la largeur des filtres auditifs stimulés). En effet, le signal 62-MID (F0=62 Hz et région MID) fournit plus d'indices spectraux que le signal 62-HIGH (F0=352 Hz et région HIGH) alors que tous deux sont non-résolus. Grimault 229 Grimault 230 THE PITCH OF HARMONIC COMPLEX TONES: STUDY OF ENCODING MECANISMS AND CONNECTION WITH AUDITORY SCENE ANALYSIS. Summary: In the first and introductory part of the thesis, the principal results and models of the literature concerning the virtual pitch encoding theories are presented. Additionally, I present the main rules of the primitive auditory scene analysis. The connection between, on the one hand, the pitch analysis and, on the other hand, the auditory scene analysis is underlined. The last part of the introduction deals with auditory learning. As a matter of fact, this psychoacoustical field has been used as a method to put into evidence similarities between neuronal process. Five studies succeed to this introduction. Using a transfer of learning paradigm, the first and the second studies clearly argue for the existence of two different pitch encoding process depending on the harmonic's resolvability. The selective learning transfer between pure-tones discrimination and resolved harmonic complex tones discrimination task suggests that the pitch of resolved harmonics could be encoded by a spectral or a spectro-temporal process. All three last studies are aimed to investigate the auditory scene organization using pitch proximity. The first one put into evidence that although streaming can occur in the absence of spectral cues, the degree of resolvability of the harmonics has a significant influence. The second one gives a first explanation of the streaming difficulties experienced by elderly hearing -impaired individuals. Their reduced peripheral frequency selectivity prevents them from using spectral cues in the same way as young and healthy subjects. The last study is aimed to further investigate the influence of temporal transition in pitch analysis mechanisms and auditory stream segregation. Overall, the results of this study confirm and extend those of previous studies showing that discrimination limens for fundamental frequency discrimination can be impaired by temporally adjacent complexes. The results are consistent with the hypothesis that abrupt transitions between successive tones, generating spectral splatters, contribute to reset the mechanism which is responsible for pitch analysis and help for segregation. As a conclusion, a general discussion of these results is provided in order to embrace the five experiments. A peripheral auditory simulation is described in annex. Key-words: Psychoacoustic, pitch, auditory scene analysis, streaming, frequency selectivity, hearing-impairment. Grimault 231 INDEX PAR AUTEUR1 1-Cet index fournit les numéros des pages où sont cités les auteurs. Les numéros précédés de "A" se réfèrent à un numéro d'étude ou d'article (par exemple: A1 pour étude numéro 1). Grimault 232 Auteur Page Abramson J. 64 Ahad P 69,A5 Ahissar, M. A1,192 Alain C. A4 Alexander G.C. A4 Allerhand, M. 34 Anderson, D.J. 15 Anstis, S. 77,A3 Arezzo J.C. 27,55,A1 Artaud, P. A1,A2,A4 Bacon, S.P. 64 Beauvois, M.W. 76,77,A4 Bedi G. 84 Beerends J.G. 23 Békésy, G. Von 14 Bilecen, D. 86 Bilsen, F.A. 25,28-29 32,39,52,A3 Bregman A.S. 58-60,64,67-69,71-77, A2,A3,A4,A5,198 Broadbent, D.E. 74 Brown J.C. 29,32 Brugge, J.F. 15 Brunstrom J.M. 27,51 Bundy, R.S. 26 Buonomano, D.V. A1 Burns E.M. 28,A2 Buunen T.J.F. 25 Buus S. A4 Byma G. 84 Campbell J. 72,A3,A4 Canévet, G. 13 Cardozo, B.L. A1 Cariani P.A. 31,55,A1 Carlyon R.P. 9,25,3844,46,47, 49,50,52-54,78,A1,A2,A3,A4,A5,192,196,197 Carr, C.E. 31 Casseday, J.H. 31 Cherry E.C. A4 Ciocca V. 51,43,69 Clarkson M.G. 26 Collet L. 86,A1,A2,A4 Colombo, J. 26 Corwin J. A4 Covey E. 31 Cox R.M. A4 Crottaz, S. A1 Cusack R. A4 Dadson R.S. 222,223 Dannenbring, G. 71 Darwin C.J. 25,51,69 Davis A. A4 de Cheveigné A. 29,30 Delgutte B. 31,55,A1 Demany L. 52,53,56,81-83, A1,A2,A5 Auteur Page Denham, M.J. Deutsch D. Doehring P. Dolmazon Doty S.L. Evans E.F. Faulkner A. Fernandes M. Festen J.M. Fishman Y.I. Fitzgerald M.B. Fletchter, H. Florentine M. Foxton J.M. Gehr S.E. Gerson, A. Giguère, C. Glasberg B.R. A4,221,222 Gockel, H. Goldstein J.L. Green D.M. Greenwood, D.D. Grimault N. Haggard, M.P. Hall, J.W. Hallé P. Hartmann W.M. Heil P. Heise, G.A. Helmholtz, H.L.F. Von Hewitt, M. A1,A2,192 Hicks, M.L. Hind, J.E. Hochstein, S. Hoekstra A. Holdsworth, J. Houtsma A.J.M. Humes L.E. Irino T. Irvine, D.R.F. Iverson P. Jeffress, L.A. Jenkin W.M. Johnson D. Joris, P.X. Kaernbach C. Karni, A. Kim J Konishi, M. Ladefoged Langner G. Lee J. Levitan R. 76,A3,A4 A5 64 13 27 55 23 64,A4 25 27,55,A1 A2 15,A2,A4 A4 A4 A4 23 34 16,25,34,46,A3, 78,A3,A4,A5,197 23-25,56,A2,194 13,A4 34 64,A1,A4 64 26,64 A5 27,58,72,A1,A2, A3,A4 55 A3 20,A1 29,31-33,47,52,56, 64 15 A1,192 A4 34 23,A3,A4,196 A4 16,17,A1,221 31 A3 31 84 A3,A4 31 53,56 81,A1,192 69,A5 31 74 55,A2 64 73-75,A2,A3,A4 Grimault 233 Auteur Auteur Page Levitt, H. A1,A2,A5 Liao C. 73,A2,A3,A4 Licklider, J.C.R. 31,35 Lin J.Y. 27 Lindley IV G. A. 86 Lundeen, C. 25 Lyon R.F. 29,32 Mahncke, H.W. A1 Martens J.P. 27 Massaro D.W. A5 Maubaret C. 83 McAdams S. 65 McCabe S.L. 76,A3,A4 McKeown, J.D. 25 Meddis R. 29,31-34,36-38,40, 45,47-48,50-53,56,76,77,A1,A2,A3,A4,192 Melnerich L. 69,A5 Menning, H. 85 Merzenich M.M. 84,A1 Micheyl C. 9,44,78,A1,A2,A3, A4,A5,197 Miller S.L. A3 Miller, G.A. 84 Milroy R. A4,196 Montgomery C.R. 26 Moore B.C.J. 14-17,25,28,34,46, A2,A3,A4,221,222 Nagarajan S.S. 84 Nejime Y. A4 Nelson T. 86 Nimmo-Smith I. 34,A4,196 O’Mard L. J. 32,36-38,40,44,45, 48,50-51,53,A1,A2,192 Ogawa K.H. A4 Ohm, G.S. 20 Oxenham, A.J. 74,A3,A4,196 Palmer C. 86 Pantev, C. 85 Pashler, H. 81,A1 Patterson R.D. 16,17,34,52,A1, A3,A4,196,221 Peter, R.W. 26,28 Philibert, B. 86 Pinker S. 74,76 Plack C.J. 44,A1,A2,A5 Plomp R. 13,24,28,A3,A4 Polat, U. 81,A1,192 Probst, R. 86 Puckette M.S. 29,32 Radü, E.W. 86 Ragot, R. A1 Rasch, R.A. 62,63 Recanzone G.H. 84,A1 Reser D.H. 27,55,A1 Rice, P. 34 Ritsma R.J. 28,29,32,52,A1,A4 44- 47- Page Roberts B. 27,51,85 Robertson I.H. A4 Robinson K. 84,A1,193 Robinson D.W. 222,223 Rose, J.E. 15 Rose, M.M. A3,A4 Sagi, D. 81,A1,192 Saida, S. 77,A3 Sams M. 55 Sandell G.J. 51,69 Scharf B. A4 Scheffers M.T.M. 23 Scheffler, K. 86 Scheich H. 82,A2 Schmid, N. 86 Schouten, J.F. 20,27-29,32,A1,A2 Schreiner C.E. 55,84,A1 Schroeder C.E. 55,A1 Schulze H. 55,82,A2 Schwartz, I.R. 31 Seebeck, A. 20 Seifritz, E. 86 Semal, C. 83,A5 Shackleton, T.M. 25,39-43,46,49,5354,A1,A2,A3,A4,A5,192,196 Shiu, L.P. 81,A1 Singer, J. 26 Singh, P.G. A3 Slaney M. 29,32 Small, A.M. 25 Smith, P.H. 31 Smurzynski J. A3,A4,196 Snodgrass J.G. A4 Sommers M.S. A4 Srulovicz P. 23,56 Steinschneider M. 27,55,A1 Stevens S.S. A4 Sullivan, W.E. 31 Summerfield A.Q. 84,A1,193 Swets J.A. A4 Takahashi, T.T. 31 Tallal P. 84 Terhardt, E. 26,A2,194 Thurlow,W.R. A2 Tyler R.S. A4 Ueda K. A5 Van den Brink G. 25 Van Noorden L.P.A.S 72,77,A3,A4 Veuillet, E. 86 Viemeister N.F. 28,A2 Vliegen J. 74,A3,A4,196 Wagner, H. 31 Walliser, K. A2 Wang X. 84 Warren, R.M. 66,67 Weber D.L. A4,196 Grimault 234 Auteur Wetzel, S. White L.J. Whitfield, I.C. Wiegrebe L. Wood E.J. Woods D.L.. Wright B.A. Wright, B.A. Yin, T.C.T. Yost, W.A. Zwicker E. Page 86 A5 A2 52,A3 A4 A4 A2 A1 31 52 A4 PERCEPTION DE LA HAUTEUR DES SONS COMPLEXES HARMONIQUES: ETUDE DES MECANISMES SOUS-JACENTS ET RELATION AVEC L'ANALYSE DE SCENES AUDITIVES. Résumé en Français: Dans une première partie d'introduction, j'ai présenté de façon non exhaustive les principales hypothèses et les principaux résultats de la littérature concernant les mécanismes d'encodage de la sensation de hauteur que nous évoque un son complexe harmonique. Dans cette même partie, j'ai rapidement exposé les principales règles et mécanismes de groupement auditif qui nous permettent d'organiser en sources sonores distinctes la mixture sonore qui, à chaque instant, nous parvient à l'oreille. J'ai alors mis en évidence l'interconnexion de ces deux grands domaines de la psychoacoustique. En fin d'introduction, un bref exposé sur les apprentissages perceptifs auditifs permet de préciser un point de méthode essentiel qui a été utilisé dans deux des études présentées dans ce document. Cinq études sont intégrées dans ce manuscrit. Les deux premières études, en utilisant un paradigme de transfert d'apprentissage, ont apporté des arguments en faveur de l'hypothèse selon laquelle deux mécanismes neuronaux différents pouvaient être mis en oeuvre pour coder une sensation commune de hauteur. L'un de ces mécanismes semble partager des processus communs avec celui utilisé pour la perception de la hauteur tonale car un transfert partiel d'apprentissage se produit entre la tâche de discrimination de sons purs et celle de discrimination de sons complexes harmoniques lorsque les harmoniques sont résolus par le système auditif périphérique. Le second de ces mécanismes pourrait, quant à lui, utiliser les fluctuations temporelles d'enveloppe pour extraire la hauteur. Toutefois, cette seconde hypothèse n'a été que très partiellement confirmée par les résultats. Une revue de littérature a montré, en introduction, que la hauteur est un puissant outil de l'analyse de scènes auditives, les trois études suivantes explorent en détail le groupement par proximité de hauteur. Nous avons mis en évidence que si la présence d'indices spectraux n'était pas indispensable aux mécanismes de groupement, ces indices facilitaient néanmoins leur mise en oeuvre. Une autre étude a mis en évidence que les malentendants ont, pour cette raison, des difficultés spécifiques pour analyser les scènes auditives. Enfin, la dernière étude mesure l'influence des temps de montée et des temps de descente dans une expérience de discrimination de hauteur entre des sons complexes précédés d'une frange temporelle. Les transitions brusques, en élargissant le spectre des stimuli, permettraient sans doute de réinitialiser les mécanismes d'encodage de la hauteur et d'améliorer ainsi les performances de discrimination en favorisant la ségrégation des sons complexes. Pour conclure ce travail, une discussion générale des résultats résume et relie entre eux les différents travaux expérimentaux. Enfin, un modèle de perception auditive périphérique est présenté en annexe. Discipline: Acoustique Mots-clés: Psychoacoustique, hauteur, analyse de scène, groupement auditif, sélectivité fréquentielle, malentendants, mécanismes perceptifs, discrimination, flux auditifs. Laboratoire: UMR CNRS 5020, "Neurosciences et Système Sensoriels" Pavillon U, Hôpital Edouard Herriot, 3 Place d'Arsonval 69003 LYON, Cedex 03