Presentation is loading. Please wait.

Presentation is loading. Please wait.

Speech perception is special (deutsche Begleitnotizen)

Similar presentations


Presentation on theme: "Speech perception is special (deutsche Begleitnotizen)"— Presentation transcript:

1 Speech perception is special (deutsche Begleitnotizen)
Version WS Speech Science XIII Speech perception is special (deutsche Begleitnotizen)

2 Topics Speech perception as simple pattern matching?
Evidence for and against a “speech mode” of speech perception. A bird’s-eye view of the perception landscape Reading: BHR(3rd ed.), chapter 6 (part 2), pp (5th ed.), chap. 11, pp P.-M., , part pp

3 Speech perception as pattern matching
The “acoustic cue” concept suggests acoustic patterns which can be stored in memory (learned) But huge variability in the acoustic structure of any linguistic unit (sound, syllable or word) argues against a simple pattern-matching mechanism. The issue of how much of the variability is stored and used when perceiving speech divides scientists. The brain is very powerful, but how is the power used! Most agree that we don’t just (passively) receive input, but that we actively work with it to create our percepts. But how? – We look first at vowels Aktiv vs. passiv? Bei der komplexen Beziehung, die sich zwischen den Eigenschaften des akus-tischen Signals und der wahrgenommenen Lautstruktur herausstellte, meinen viele Sprachforscher, daß die Sprachperzeption nicht einfach aus dem pasiven Registrieren der Schalleigenschaften und dem sequentiellen Zuordnen der Signalteile zu den einzelnen Lauten bestehen kann: a) Man konnte die ständigen Veränderungen imnnerhalb von einzelnen Segmente des Schallsignals sehen. b) Man konnte anhand von Messungen die starken Verände-rungen von einem Signal zum anderen für denselben Laut feststellen. c) Man stellte die Abhängigkeit des Wahrgenommenen vom näheren und weiteren Kontext fest. Wenn der Mensch trotz der großen Signalvarianz in der Lage ist, "invariant" zu hören, d.h. immer wieder denselben Sprachlaut bzw. Sprachlautfolge wahrzu-nehmen, muß er einen besonderen, für die Sprache spezialisierten Perzeptions-mechanismus haben. Die passiven Modelle haben aber auch ihre Anhängert, evtl. weil es nicht von vorn herein plausibel ist, die Entwicklung eines für die Verarbeitung des Sprachsignals so komplexen besonderen Mechanismus anzunehmen. Denn für die Sprachproduktion werden vorhandene anatomische und physiologische Strukturen (Lunge, Kehlkopf, Zunge, Velum, Zähne, Lippen), die für das Leben selbst wichtig sind, einfach auf andere Weise eingesetzt. Warum sollte die Perzeption anders sein?

4 How do we deal with vowels?
Vowel formants vary greatly with the size of the vocal tract. But formants change in relation to one another, and they change together with other properties, (e.g. F0: children – adults; women – men) The relative values of formants have therefore been examined. We do change our interpretation of formant values a) as a function of (very) different F0 values b) as a function of preceding formant values. And – our two-formant model of vowels is not reality Eine einfache Abbildung bestimmter Formantwerte auf eine bestimmte vokalische Klangfarbe ist offensichtlich nicht die Basis unserer Vokal-perzeption. - Da sich aber Formantwerte nicht einzeln sondern zusammen verändern, wenn der Vokaltrakt kleiner oder größer ist, wurde früh postuliert, dass das Verhältnis der Formanten zueinander eine tragfähige Basis für die Wahrnehmung einer bestimmten Klangfarbe sei (es wurden z.B. die Relativwerte R1, R2 und R3 für die Verhältnisse F2/F1, F3/F1 und F3/F2 errechnet). - Auch die (mittlere) Beziehung zwischen der F0 einer/s Sprecher/in/s und der Größe des Vokaltraktes (und damit der Formanten) wird als Normalisierungs-faktor für die sehr unterschiedlichen Formantwerte gesehen, die dieselbe Vokalqualität in verschiedenen Sprechern aufweisen kann. - Aber es ist auch experimentell zu zeigen, dass die wahrgenommene Qualität nicht nur von den Formanten und anderen Eigenschaften des beurteilten Vokals abhängt: Unterschiedliche vorhergehende (Vokal)kontexte können die perzipierte Qualität von ein und demselben Vokal ändern kann.

5 Two or more formants? Two-formant synthetic vowels which best match natural vowels (nach Carlsson et al. 1975, Fig. 1) Diese Figur zeigt, welcher F2 bei einem 2-formantigen synthetischen Vokal dasselbe Qualitätsperzept (Timbre) wie der entsprechende natürliche Vokal (von dem die ersten 4 Formanten gemessen und dargestellt sind) Carlsson et al. (1975) haben synthetische Vokale mit zwei Formanten justieren lassen, bis sie dieselbe Qualität wie natürliche Vokale hatten, um die psycho-phonetische Beziehung zwischen natürlichen und zweiformantigen syntheti-schen Vokalen zu ermitteln. Sie stellten fest, daß für Schwedisch /i/ F2' sogar oberhalb des natürlichen F3 und für die anderen Vorderzungenvokale zwischen den natürlichen F2 und F3 liegen muß. Für die Hinterzungenvokale muß der F2' in der Nähe des natürlichen F2 liegen. Die Ergebnisse sind rein psychoakustisch interpretierbar und unterstützen ein 2-Formant-Modell im Sinne zweier Energiegipfel: Die zwei Energie-gipfeln entsprechen F1 und F2, wenn F3 nicht in dasselbe auditive Filter fällt wie F2 Deshalb entspricht F2' dem natürlichen F2 bei Hinterzungenvokalen. Wenn F2 und F3 zusammenfallen, wird eine Art "gewichtetes" Mittel genommen; d.h., daß der bei [i] häufig intensitätsstärkere F3 (oder sogar F4) dominiert, so dass F2' höher liegt. Bei anderen Vorderzungenvokalen leisten F2 und F3 einen gleichwertigen Beitrag, so dass F2' zwischen F2 und F3 liegt. Carlsson, R., Fant, G. & Granström, B. (1975): Two-formant models, pitch, and vowel perception. In: G. Fant & M.A.A. Tatham (Eds.), Auditory Analysis and Perception of Speech. N.Y., Academic Press, 55-82

6 F0 as a factor in perceived vowel quality?
For 140 Hz fundamental, the same vowels are generally perceived with 80 Hz lower F1 values than for a 280 Hz F0 (after Miller 1953) Es wurde früh nachgewiesen, daß F0 mit den ersten beiden Formanten zusammenwirkt, um die wahrgenommene Vokalqualität zu bestimmen. In einer Studie von Miller (1953) zur Vokalperzeption wurde u.a. die Auswirkung von F0 auf die Identifikation von (synthetischen) Vokalen untersucht. Dieselben Vokalserien (mit F1 und F2 systematisch variiert) wurden mit zwei F0-Werten (140 und 280 Hz) präsentiert. Die Ergebnisse zeigten einen stärkeren Einfluß der F0 auf den ersten als auf den zweiten Formanten (vgl. Abbildung): Die Ergebnisse können zusammengefaßt werden: F1 ca. 80 Hz tiefer für die Identifikation von /E, , , A, / bei F0 = 140 Hz als bei 280 Hz. Geringfügig tiefere F2-Werte für / E, , , A,  / bei 140 Hz im Vergleich zu 280 Hz. Miller, R.L. (1953): Auditory tests with synthetic vowels. J. Acoust. Soc. America 25,

7 Vowels relative to preceding context.
Speaker /bIt/ /bet/ /bt/ /bt/ Formants of carrier relative to testword Vowels relative to preceding context. Ladefoged and Broadbent (1957) demonstrated that the size of the speaker producing a carrier phrase (and therefore the values of the speaker‘s vowel formants) affected the intrepetation of the test words at the end of the carrier phrase. (the test words were not produced by different speakers) Der erste experimentelle Nachweis, daß der vorgehende Kontext tatsächlich ein Normalisierungsfaktor ist, stammt von Ladefoged und Broadbent (1957). Ein Trägersatz für die Testwörter "bit - bet - bat - but" wurde von zwei verschiedenen Stimmen (mit unterschiedlicher Vokaltraktlänge) gesprochen. Je nach Trägersatz verschob sich die Anzahl der Testwörter, die als "bit" oder als "bet" bzw. als "bat" oder "but" gehört wurden E.g., A higher F1 in the carrier sentence before "bat" had the effect of making the F1 of the test word appear lower, so more "bet" interpretations resulted. A lower F2 in the carrier sentence before "but" made the F2 of "but" appear higher, and more "bat"s were reported. Ladefoged, P. und Broadbent, D.E. (1957): Information conveyed by vowels. J. Aoust. Soc. America 29, Relation of carrier-phrase formants relative to testword formant values. (e.g. F1 up = higher carrier phrase formants, therefore testword heard as less open  lower F1)

8 Immediate vs. wider context
The carrier phrase influence shows effects of wider context. The F0 effect is vowel-intrinsic, but average F0 over a phrase also provides a wider F0 context. So one important question is, whether we simply change the frame within which we process vowel formants according to the information about the speaker that we collect during the utterance? This would mean that vowels would be more difficult to identify at the beginning of utterances (from unknown speakers!) – i.e., vowels offered with no prior information. ….Is this the case? Bei extremen regionalen Akzenten ist es tatsächlich am Anfang schwieriger, das Gesprochene zu dekodieren. Nach relativ kurzer Zeit aber, stellen wir uns auf den Sprecher ein und können ihn gut verstehen. Dieses Phänomen ist aber extremer als nur die “Normalisierung” von variablen Formantverhältnisse; es ist ein ganz anderes Vokalsystem mit radikal andren Vokalqualitäten, an die wir uns gewöhnen müssen. Wir “normalisieren” nicht im auditiven Prozess, denn wir hören deutlich, dass die Vokale von unserem Standard abweichen. Erstaunlicherweise scheinen wir auch bei Sprecherwechsel, Vokalidentität sofort erkennen zu können. Die Silbe, in der der Vokal vorkommt scheint schon das notwendige Kontext zu bieten……

9 Isolated vowels vs. vowels in syllabic context
Formants rarely stay constant for long in C_C syllabic context. This could lead to the assumption that isolated vowels with well- defined, steady-state formants should be identified with more certainty. Eine frühe Studie von Ken Stevens (1968) zeigte, daß dieselben akustischen Unterschiede in den Formantwerten eindeutiger phonemisch identifiziert werden, wenn sie in CVC-Silben und nicht als isolierte Vokale dargeboten werden. Andererseits konnte er zeigen, dass sie besser diskriminiert werden, wenn sie isoliert und nicht als Silbe gehört werden. Mit anderen Worten, die psychoakustische Unterscheidbarkeit von Formant-mustern ist sehr hoch. Aber sobald sie bei der Unterscheidung von Silben und nicht nur als Klänge gehört werden, ändern wir anscheinend unsere Hörweise. Stevens hat damals die Ergebnisse als Evidenz gesehen, dass die artikulatori-schen Bewegungen, die das Signal erzeugen, bei der Dekodierung (Erkennung) wichtig sind. D.h., beim sprachlichen Hören haben wir einen Bezug zur Artikulation. Stevens,Stevens, K.N. (1968): On the relationship between speech movements and speech perception. Zeitschr. Phonetik 21, But Stevens (1968) showed that steady-state isolated vowels are, in fact, less well identified than syllable-context vowels.

10 Syllabic context 2 Percent errors 42.6% 31.2% 17.0% 9.5% Strange et al. (1976) showed that the effect of syllabic context was more important ( % difference) than the effect of listening to one speaker at a time (7.5 – 11.4% difference) Winifred Strange et al. (1976) haben weitere Unterstützung für Stevens‘ Standpunkt mit natürlichen (statt synthetisierten) Stimuli geliefert. Mit 15 verschiedenen Sprechern (5 Kinder, 5 Frauen, 5 Männer) haben sie viel höhere Identifikationsraten für /pVp/-Silben als für die isoliert gesprochenen Vokale erhalten, egal ob die Stimuli der verschiedenen Sprecher a) randomisiert oder b) blockweise dargeboten wurden: Erkennungsraten für isolierte Vokale und Vokale im /pVp/-Kontext (nach Strange et al. 1976) Isoliert Kontextualisiert Sprecher randomisiert 57,4% 83,0% Sprecher blockweise 68,8% 90,5% In einem umfangreicheren Experiment im gleichen Jahr, Verbrugge et al. (1976), in dem /hVd/-Wörter von 30 Sprechern (5 Kinder, 12 Frauen, 13 Männer) zur Identifikation dargeboten wurden, gab es keine signifikant niedrigere Erkennungsrate als für alle Sprecher verglichen mit einem einzelnen Sprecher. Dieses Ergebis ist interpretierbar als weitere Evidenz für die Nutzung dynamischer Effekte der artikulatorischen Bewegungen (im Grunde ko-artikulatoische Effekte) bei der Vokalerkennung. Strange, W., Verbrugge, R.R., Shankweiler, D.P. & Edman, T.R. (1976): Consonant environment specifies vowel identity. J. Acoust. Soc. America 60, Verbrugge, R.R., Strange, W., Shankweiler, D.P. & Edman, T.R. (1976): What information enables a listener to map a talker's vowel space. J. Acoust. Soc. America 60,

11 The importance of vowel-target info. vs. vowel-dynamics
Verbrugge & Rakerd (1986) investigated the contribution of the dynamic, movement information vs. the “vowel- defining” target information. The whole syllable was clearly easiest to recognise (91.7%). But even if the central target section was missing, almost 80% were correctly identified. In späteren Arbeiten sind Verbrugge & Rakerd (1986) der Frage nachgegangen, was im Vokal die vokalinhärente Normalisierung bewirkt. Sie haben verschiedene Teile kontextualisierter Vokale zur Identifikation angeboten (siehe Abbildung). Die Fehlerraten geben Aufschluß über den relativen Beitrag der verschiedenen Komponenten der akustischen Vokalstruktur. Der Unterschied zwischen der Fehlerrate bei ganzen Silben und nur Transitionen deutet auf einen ca. 10% Beitrag der Vokalmitte. Der Beitrag kann aber noch geringer sein, weil über 4% auf Fehler bei derVokallänge zurückzuführen waren – d.h., dass sie mit der Vokalqualitätskategorie primär nichts zu tun hatten. Hier ist wieder ein eindrucksvoller Hinweis, dass unser “Wissen” über den artikulatorischen Ablauf bei der sprachlichen Wahrnehmung wichtig ist. Verbrugge, R.R., Rakerd, B. (1986): Evidence of talker-independent information for vowels. Language & Speech 29,

12 The Motor Theory of Speech Perception
The assumption of an articulatory basis to our speech perception mechanisms has been explicit for over 40 years (internationally since a landmark Speech Communication Seminar in Stockholm in 1962) The Haskins Laboratories (USA) presented evidence (from earlier experimental work) that: We identify acoustically different stimuli as one and the same articulatorily defined speech sound We can only discriminate acoustic differences between stimuli that cross category boundaries, although the differences within categories are just as great. Das Phänomen der sogenannten „categorical perception“ wurde als Evidenz für den artikulatorischen Bezug unserer Perzeption genommen….. (siehe nächste Folie)

13 Categorical Perception
Series of acoustically equidistant stimuli 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Discriminability of stimulus pairs /g/ x /b/ /d/ No. of judgements for a category In einem Identifikationstest mit einer /ba, da, ga/ Serie (Aufgabe: Bitte angeben, ob Sie ein /b/, ein /d/ oder ein /g/ hören) wurden trotz der gleichmäßigen akustischen Veränderungen von einem Stimulus zum anderen die ersten Stimuli klar als /b/ gehört; nach einem "unsicheren" Stimulus wurden die nächsten eindeutig als /d gehört, und nach zwei weiteren unsichereren Stimuli die letzten klar als /g/ gehört In einem Diskriminationstest mit denselben Stimuli in ABX-Triaden zur Unterscheidung angeboten (Stim. 1 mit Stim. 3 und als dritter Stimulus entweder 1 oder 3; Stim. 2 mit 4 und dann entweder 2 oder 4; usw.) wurde festgestellt, daß innerhalb einer Phonemkategorie die Diskrimination schlecht war, zwischen Kategorien war sie sehr gut. (Weitere Einzelheiten in BHR, S ) Anders als bei nicht-sprachlichen akustischen Stimulusreihen konnte man im Grunde (nur) so gut unterscheiden, wie man identifizieren konnte. Diese Art von Wahrnehmung nennt man kategorielle Wahrnehmung Das Heranziehen der Artikulation, um diesen kategoriellen Prozess zu erklären, lag nahe, weil die Artikulationsstellen von /b/, /d/ und /g/ von einander klar getrennt sind, nicht ineinander übergehen. E.g., 1 is a typical /b/ F2-transition, 8 is a typical /d/ transition and is a typical /g/ transition. Stimuli 2-7 and 9-14 are steps between these typical stimuli.

14 Categorical Perception 2
• Further experiments with many other acoustic properties which come from articulations which are not categorically separable (VOT, /l – r/, vowel categories, etc.) brought about a theoretical modification …. • Categorical perzeption is “acquired” and the increased distinctiveness between categories is also acquired. The low-sensitivity baseline between the category boundaries can be seen as psychoacoustically normal sensitivity. Bei der Untersuchng der kategoriellen Wahrnehmung mit anderen akustischen Eigenschaften – z.B., VOT bei ptk-bdg-Identifikation und -Diskrimination sowie /r/-/l/ Unterscheidung - wurde es klar, daß die Kategorialität der Wahrnehmung nicht nur aufgrund von Grenzen der artikulatorischen Möglichkeiten entsteht. VOT kann von voll stimmhaft über stimmlos unaspiriert bis zu stark aspiriert variieren; alles ist artikulatorisch möglich, aber jede Sprache hat eine bestimmte Unterscheidungsbasis (meist entweder stimmhaft vs. stimmlos- unaspiriert oder stimmlos-unaspiriert vs. stimmlos-aspiriert). Bei /l/ und /r/ könnten Sprecher indogermanischer Sprachen meinen, daß wir es mit einem artikulatorisch kategoriellen Unterschied zu tun haben, aber wir wissen vom Japanischen und Koreanischen, daß dies nicht der Fall ist. Aufgrund der erlernten Kategorien, baut man bestimmte kategorielle Einteilungen des Kontinuums auf. Kritik an der Motor Theory kam schnell und dauerte lange: Meist hing sie mit der Möglichkeit zusammen, vergleichbare Kurven für nicht-sprachliche Signale zu bekommen. Auch war es unbestritten, dass Leute mit keiner oder nur sehr beeinträchtigte Artikulation ohne Probleme normale Sprache verstehen können. • Normal perception in persons with disturbed articulation induced a theoretical fall-back to a position where the link between perception and production was more abstract…. The position was referred to as “the speech mode” of perception. This still made speech perception special.

15 The Speech Mode of perception
• Many experiments showed that the functional goal of speech perception made it special: • Dichotic signals (different parts played into the left and right ear) were heard as one speech sound, but the separate elements were still audible • Separate words played into the left and right ear were heard as one word, if the sounds of the two words could combine: E.g. “pay” + “lay”  “play”. This was heard even if the /l/ started before the release of the /p/! Liberman (1975) hat den Bezug zur konkret verstandenen Artikulation abgeschwächt, indem den Bezug zur abstrakten Ebene der "motor programming" (artikulatorischen Planung) beschwörte. Er zeigt wieder, daß "Kenntnisse" der artikulatorischen Möglichkeiten am Perzeptionsprozess beteiligt sein müssen, weil bei Verkürzung des Doppelverschlusses in: i) agba, adba, agda und ii) abga, abda, adga der Perzept des ersten Verschlusses in ii) aber nicht in i) verschwand, wenn der kritische Wert sich der Dauer eines einzelnen Verschlusses näherte. Warum? - Weil in i) der zweite Verschluß artikulatorisch weiter vorn ist und deshalb über den ersten Verschluß (vor der Lösung und die Lösung überdeckend) gebildet werden kann. - In ii) liegt der zweite Verschluß weiter hinten, muß deshalb nach der Lösung des ersten Verschlusses als Verschluß noch andauern. Allerdings, verschwand dieser Effekt, sobald die erste und zweite Silbe als Konkatenation von zwei verschiedenen Stimmen angeboten wurden (= zwei Sprecher = zwei unabhängige Sprechapparate)! Liberman, A.M. (1975): How abstract must a motor theory of speech perception be? Haskins Status Report on Speech Research 44, 1-15. • Even more dramatic is the perceptual “switch” which can occur with “sine analogue speech”. Some people hear it as strange music until they are asked whether they can understand what is being said. They then hear it as speech (and cannot switch back to the music mode)

16 Other influences on phonetic perception: Visual Information
• The prime input in speech perception is the acoustic signal, but we can also often see the person who is speaking and have therefore a sub-conscious knowledge of the visual information accompanying the acoustics. • A laboratory mistake led to the discovery, that a video clip of a spoken /ga/ together with the acoustic Signal of /ba/ is often perceived as /da/. Acoustic /ga/ with a video of /ba/, on the other hand, is heard as /ba/. Wir bemerken sehr schnell bei (synchronisierten) Filmen, dass die SprecherIn anders artikuliert als die zu hörenden Worte es erwarten lassen würden. Dass wir nicht umhin können, solche visuelle Information mit zu verarbeiten, wurde vor fast 30 Jahren bekannt, als ein Labortechniker das falsche Tonband mit dem Videoband laufen ließ. • This “McGurk” effect (after the person who discovered it) has since been systematically investigated. It confirms that we cannot ignore visual information, but the synchronisation must be accurate for fusion to take place.

17 Semantische Einflüsse
Es gibt einen Effekt von fast 25% in der Erkennung eines echten Wortes im Vergleich zu einem Nichtwort entlang einer Stimulusreihe mit einem Wort bzw. einem Nichtwort als Endstimulus: Ganongeffekt Wie stark die Dekodierung der akustischen Struktur von anderen, nicht-formant-targetbezogenen Faktoren abhängt zeigt am eindringlichsten der sogenannte "Ganong-Effekt" (Ganong (1980) vgl. Centmayer (1975)) Die Phonemgrenze entlang eines synthetischen Vokalkontinuums (z.B. /u:/ zu /o:/) wird unter dem Einfluß des semantischen Status (Wort oder Nichtwort: z.B. Blut - *bloot) des einen oder anderen Endstimulus verschoben. Ganong, der den Wort-Nichtwort-Effekt systematisch untersuchte, konnte zeigen, daß sich eine Phonemgrenze generell (unabhängig von dem Lauttyp) zu ungunsten des Nichtwortes verschiebt. In der Ganong-Abbildung sehen wir die Fortis vs. Lenis Erkennung entlang eines VOT.(Voice Onset Time) Kontinuums: Z.B., das Stimuluspaar „Tüte“ – „Düte“ ist ein Wort-Nichtwortpaar das Stimuluspaar „Tüse“ – „Düse“ ist ein Nichtwort-Wortpaar Wenn wir das Lösungs+Aspirationsgeräusch von /t/-Dauer auf /d/-Dauer schrittweise reduzieren, hören wir zunächst /t/, dann ab einem kritischen Grenzwert nur noch /d/. Der Ganong-Effekt ist die Verschiebung dieser Grenze, so dass der Wechsel bei Tüte-Düte später und bei Tüse-Düse früher kommt. Centmayer, K. (1975): Interrelation of vowel perception and linguistic context. In: G. Fant & M.A.A. Tatham (Eds.), Auditory Analysis and Perception of Speech. N.Y., Academic Press, Ganong, F. (1980): Phonetic categorization in auditory word perception. J. Exp. Psychology: Human Perception and Performance 6,

18 Anti-Speech-Mode • There are still many scientists who consider the speech- mode approach too much like “hocus pocus”. They concentrate on a more direct relationship between the acoustic signal and the percept. • Stevens’ “quantal theory” of (plosive) perception rests on the fact that /t, d/ tend to have high-frequency energy, /g, k/ have middle-frequency energy, and /b, p/. Therefore, the same relative acoustic information serves the distinction indepen dent of context. Passive Theorien brauchen Evidenz für eine Verarbeitung, die direkt vom Signal zur sprachlichen Ebene führt. Merkmal-Detektoren, obwohl gleichzeitig Zeugnis einer besonderen sprachbezogenen Spezialisierung und somit in gewissem Konflikt mit der Grundphilosophie der passiven Perzeptions-theorien, bieten diesen direkten Weg. a) Die (relative) Konstanz mancher Signale und ihre Beziehung zu linguistisch relevanten Merkmalen (Stevens & Blumstein), b) die Spezialisierung der linken Gehirnhälfte für die Produktion und Perzeption der Sprache (cf. die Zusammenfassung bei B&H ) und nicht zuletzt auch c) die neurophysiologischen Entdeckungen bei Tieren von höheren Hirn-stamm- und Hirnrindneuronen, die komplexe perzeptorische Funktionen durchführen (cf., Abbs & Sussman 1971), waren Ermutigung genug in der Suche nach solchen Merkmaldetektoren. In der Annahme, daß ein neuronaler Detektor bei Überstrapazierung sich anpassen ("Adaptation") bzw. ermüden müsste, wurden viele Experimente durchgeführt, um zu zeigen, daß die Grenze zwischen den Lauten einer Distinktion (= Phonemgrenze) sich verschiebt. Der eifrigste Verfolger dieser Evidenz war der Phonetiker und Linguist W. Cooper (Cooper 1974). Abbs, J.H. & Sussman, H.M. (1971): Neurophysiological feature detectors and speech perception: A discussion of theoretical implications. J. Speech & Hearing Research 14, 23-36 Cooper, W.E. (1974): Adaptation of phonetic feature analyzers for place of articulation. J. Acoust. Soc. Amer. 56, • “Feature detectors” have been another attempt to link the acoustic signal directly with the linguistic units in a more passive model of speech perception. Animals have high- level neuronal detectors linked to vital functions, so why not humans?


Download ppt "Speech perception is special (deutsche Begleitnotizen)"

Similar presentations


Ads by Google