Die Lösung von Äquivalenzproblemen in der interkulturellen

Transcription

Dokument-Information
Dieses Dokument enthält die 1998 abgeschlossene Dissertation von Dr. Thomas Salzberger mit dem Titel
„Die Lösung von Äquivalenzproblemen in der interkulturellen
Marketingforschung mittels Methoden der probabilistischen Meßtheorie“.
Eine leicht überarbeitete Fassung der Arbeit mit dem Titel
„Interkulturelle Marktforschung
- Methoden zur Überprüfung der Datenäquivalenz“,
wurde im Service Fachverlag (http://www.wuv-verlag.at/) 1999 veröffentlicht
(ISBN 3-85428-404-7).
In engem Zusammenhang mit der Dissertation stehen folgende Konferenzpapiere
bzw. Zeitschriftenbeiträge:
Salzberger,T.; Sinkovics,R.; Schlegelmilch,B.B. (2001): Die Bedeutung der Datenäquivalenz in der internationalen Marketing- und Konsumentenforschung, in:
GFK Jahrbuch der Absatz- und Verbrauchsforschung, 47 (2), 190-209
Salzberger,T. (2000): An Alternative Way of Establishing Measurement in Marketing Research - Its Implications for Scale Development and Validity, Proceedings
of the 2000 Australia and New Zealand Marketing Academy Conference (ANZMAC), Gold Coast, Queensland, Australia, pp.1111-1117
Salzberger,T.; Sinkovics,R.; Schlegelmilch,B.B. (1999): Data Equivalence in
Cross-Cultural Research: A Comparison of Classical Test Theory and Latent Trait
Theory Based Approaches, in: Australasian Marketing Journal, Vol. 7, Nr. 2, 2338
Salzberger,T. (1999): How the Rasch Model May Shift Our Perspective of Measurement in Marketing Research, Marketing in the Third Millenium: Proceedings
of the 1999 Australia and New Zealand Marketing Academy Conference (ANZMAC), Sydney
Ein Download dieser Beiträge ist zum Teil unter
http://marketing.wu-wien.ac.at/user/salzberger/
(Stand der URL: 11.2.2002) möglich.
Doktorat der Sozial- und
Wirtschaftswissenschaften
1. Begutachter:
Univ.Prof. Dr. Hartmut H. HOLZMÜLLER
2. Begutachter:
o.Univ.Prof. Dr. Helmut KASPER
Eingereicht am:
Die Lösung von Äquivalenzproblemen
in der interkulturellen Marketingforschung mittels
Methoden der probabilistischen Meßtheorie
Dissertation
zur Erlangung des akademischen Grades eines
Doktors
der Sozial- und Wirtschaftswissenschaften
an der Wirtschaftsuniversität Wien
eingereicht bei
Erstbegutachter:
Univ.Prof. Dr. Hartmut H. HOLZMÜLLER
Zweitbegutachter:
o.Univ.Prof. Dr. Helmut. KASPER
Fachgebiet:
Absatzlehre, Allgemeine Betriebswirtschaftslehre
von:
Mag. Thomas Salzberger
Wien, im Mai 1998
Ich versichere:
1. daß ich die Dissertation selbständig verfaßt, andere als die angegebenen
Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten
Hilfe bedient habe.
2. daß ich diese Dissertation weder im In- noch im Ausland in irgendeiner Form
als Prüfungsarbeit vorgelegt habe.
3. daß diese Arbeit mit der vom Begutachter beurteilten Arbeit übereinstimmt.
Datum
Unterschrift
Die Lösung von Äquivalenzproblemen in der interkulturellen
Marketingforschung mittels Methoden der probabilistischen Meßtheorie
Thomas Salzberger
Dissertation (Abstract)
Wirtschaftsuniversität Wien
[English titel: Latent Trait Theory: Approaches Towards Solving
Problems of Equivalence in Cross-Cultural Marketing Research]
Schlagwörter:
Internationale Marktforschung, probabilistische Testtheorie, Item Response Theory,
Latent Trait Theory, Konfirmatorische Faktorenanalyse, Ethnozentrismus
Abstract:
Die Arbeit befaßt sich mit der Lösung methodischer Probleme der internationalen bzw. interkulturellen Marketingforschung. Im Rahmen quantitativer Untersuchungen stellt die interkulturelle Äquivalenz von Erhebungsdaten eine notwendige Voraussetzung für
grenzüberschreitende Vergleiche dar. Die aktuelle Marketingforschung läßt diese Problematik
oftmals außer acht oder versucht auf der Grundlage der klassischen Meßtheorie, die Äquivalenz
durch faktorenanalytische Ansätze, wie die simultane Faktorenanalyse für mehrere Gruppen, zu
gewährleisten. Die Kritik an der klassischen Meßtheorie und damit am gegenwärtigen Zutritt
der Äquivalenzbestimmung blieb in der Marketingwissenschaft jedoch weitgehend unbeachtet.
Das Ziel der Arbeit besteht in der Aufarbeitung von Methoden der probabilistischen Meßtheorie
(Latent Trait Theory) zur Lösung der Äquivalenzprobleme. Mit dem Rasch-Modell steht ein
Meßmodell sowohl für dichotome als auch für polytome Daten zur Verfügung, welche im Unterschied zur klassischen Meßtheorie, Meßprobleme zufriedenstellend lösen kann. Am Beispiel
der "Consumer Ethnocentric Tendencies Scale" (CETSCALE, Shimp und Sharma, 1987; Datensätze aus Österreich, Sinkovics, 1998; und Südkorea, Shimp et al., 1995) werden die klassischen und probabilistischen Verfahren empirisch demonstriert und einander gegenübergestellt.
Die Arbeit schließt mit den wissenschaftstheoretischen Konsequenzen eines neuen Meßparadigmas in der Marketingforschung.
Latent Trait Theory: Approaches Towards Solving
Problems of Equivalence in Cross-Cultural Marketing Research
Thomas Salzberger
Doctoral Thesis (Abstract)
University of Economics and Business Administration
[German titel: Die Lösung von Äquivalenzproblemen in der interkulturellen Marketingforschung mittels Methoden der probabilistischen Meßtheorie]
Keywords:
International Marketing Research, Item Response Theory, Latent Trait Theory, Ethnocentrism,
Confirmatory Factor Analysis, Consumer Ethnocentrism
Abstract:
The dissertation deals with approaches towards a solution of problems in international and intercultural marketing research. For cross-cultural comparisons in quantitative studies, the intercultural equivalence of data is an essential prerequisite. Current marketing research practise
often disregards these problems or tries to establish equivalence based on classical measurement
theory by applying factor analytic approaches like the simultaneous factor analysis for multiple
groups. Classical measurement has been heavily criticized, however, the severe criticism has
been left largely unnoticed in marketing research. Consequently, the aim of the dissertation is
to investigate methods based on Latent Trait Theory that are appropriate to solve the equivalence problems. The Rasch-model represents a unique measurement model for dichotomous and
polytomous data which has proporties that master the fundamental principles of measurement,
i.e. the independence of person and item parameters. An empirical example, the "Consumer
Ethnocentric Tendencies Scale" (CETSCALE, Shimp and Sharma, 1987; data sets of Austria,
Sinkovics, 1998; and South Korea, Shimp et al., 1995) demonstrates both the classical approach
and the Latent Trait Theory based approach. The dissertation concludes with the consequences
of a new measurement paradigm in marketing research within a framework of the theory of science.
Inhaltsverzeichnis
Inhaltsverzeichnis
Vorwort............................................................................................................................. 5
1 Probleme, Ziele und Positionierung............................................................................... 8
1.1 Problemstellung ..................................................................................................... 8
1.2 Zielsetzung und Vorgangsweise .......................................................................... 10
1.3 Wissenschaftstheoretische Positionierung ........................................................... 10
1.4 Aufbau der Arbeit ................................................................................................ 12
2 Interkulturelle Vergleiche im Marketing ..................................................................... 14
2.1 Internationalisierung im Marketing ..................................................................... 14
2.1.1 Wirtschaftspolitische Veränderungen .......................................................... 14
2.1.2 Internationalisierung und Standardisierung.................................................. 15
2.2 Bedeutung der Marktforschung ........................................................................... 17
2.3 Methodische Probleme der internationalen Marktforschung............................... 18
2.3.1 Abgrenzung internationaler und interkultureller Marktforschung ............... 18
2.3.2 Erkenntnisgewinnung in der interkulturellen Marketingforschung ............. 19
2.3.3 Entdeckungszusammenhang der interkulturellen Marktforschung.............. 23
3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur ............................... 25
3.1 Kultur als Nationalität .......................................................................................... 25
3.2 Ursprünge des Begriffs Kultur............................................................................. 26
3.3 Operationalisierung von Kultur ........................................................................... 30
3.3.1 Kultur und Kommunikation (Hall, 1959; Hall und Hall, 1990) ................... 30
3.3.2 Kulturdimensionen nach Kluckhohn und Strodtbeck (1975)....................... 38
3.3.3 Kulturdimensionen nach Hofstede (1980, 1993) ......................................... 41
3.4 Zusammenfassende Betrachtung der Konzepte ................................................... 46
3.5 Interkulturelle und intrakulturelle Variabilität ..................................................... 46
4 Methodische Probleme der kulturübergreifenden Forschung...................................... 49
4.1 Kulturübergreifende (Markt-)Forschung als wissenschaftliche Disziplin ........... 49
4.2 Vergleichbarkeit................................................................................................... 54
4.3 Interkulturelle Äquivalenz ................................................................................... 58
4.3.1 Funktionale Äquivalenz (functional equivalence) ....................................... 58
4.3.2 Konzeptuelle Äquivalenz (conceptual equivalence) .................................... 58
4.3.3 Metrische Äquivalenz (metric equivalence)................................................. 61
4.4 Rezeption in der interkulturellen Marketingforschung........................................ 62
4.4.1 Konzept von Douglas und Craig (1983)....................................................... 62
Konstruktäquivalenz......................................................................................... 63
Meßäquivalenz (measure equivalence) ............................................................ 65
Stichprobenäquivalenz...................................................................................... 67
4.4.2 Erweiterung von Toyne und Walters (1989) ................................................ 68
4.4.3 Erweiterung von Usunier (1996) .................................................................. 70
4.5 Rezeption der Problematik internationaler Marketingforschung in
Marktforschungsstandardwerken .......................................................................... 75
4.6 Integratives Schema von Bauer (1995) ................................................................ 76
4.7 Empirische Überprüfung der Äquivalenz ............................................................ 80
5 Operationalisierung und Messung von Konstrukten in der
interkulturellen Marketingforschung ......................................................................... 84
5.1 Universum und Messung: Verallgemeinerung von Aussagen............................. 84
5.2 Universum und kulturübergreifende Forschung .................................................. 85
1
Inhaltsverzeichnis
5.3 Operationalisierung von Konstrukten .................................................................. 91
5.4 Interkulturelle Vergleiche .................................................................................... 93
5.5 Biasformen ........................................................................................................... 97
5.6 Verfahren zur Überprüfung der Wirksamkeit von Itembiases............................. 98
6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen
Testtheorie................................................................................................................ 100
6.1 Grundlegende Ansätze zur Überprüfung der Äquivalenz der Erhebungsdaten . 100
6.2 Explorative Faktorenanalyse.............................................................................. 101
6.2.1 Grundlagen ................................................................................................. 101
6.2.2 Zielsetzungen.............................................................................................. 102
6.2.3 Kritische Betrachtung................................................................................. 104
6.3 Konfirmatorische Faktorenanalyse .................................................................... 105
6.4 Güteindikatoren zur Modellüberprüfung ........................................................... 107
6.5 Gleichungssysteme der konfirmatorischen Faktorenanalyse............................. 112
6.6 Simultane Faktorenanalyse für mehrere Gruppen (Multi-group analysis) ........ 114
6.7 Überprüfung der Datenäquivalenz ..................................................................... 117
6.8 Ebenen der Invarianz ......................................................................................... 117
6.8.1 Konfigurale Invarianz (configural invariance)........................................... 117
6.8.2 Metrische Invarianz (metric invariance) .................................................... 119
6.8.3 Skalare Invarianz (scalar invariance) ......................................................... 121
6.8.4 Invarianz der Fehler- und Faktorvarianzen ................................................ 122
6.8.5 Anforderungen der Meßäquivalenz und Invarianzebenen ......................... 123
6.9 Invarianz auf Skalenebene ................................................................................. 126
6.10 Partielle Invarianz ............................................................................................ 127
6.11 Überblick über den Ablauf der Äquivalenzprüfung der Erhebungsdaten........ 131
7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen
Testtheorie (Latent Trait Theory) ............................................................................ 132
7.1 Kritische Betrachtung der klassischen Testtheorie ............................................ 132
7.2 Guttmanskalierung ............................................................................................. 136
7.3 Das probabilistische Testmodell von Rasch (1980)........................................... 139
7.3.1 Übergang von einem deterministischen zu
einem probabilistischen Modell...................................................................... 139
7.3.2 Eigenschaften des Rasch-Modells.............................................................. 144
Graphische Darstellung des Modells.............................................................. 144
Voraussetzungen und Konsequenzen des Rasch-Modells.............................. 146
Der Informationsbegriff.................................................................................. 149
7.3.3 Parameterschätzungen ................................................................................ 151
7.3.4 Limitierungen des Rasch-Modells.............................................................. 153
7.3.5 Verallgemeinerung des Rasch-Modells auf polytome Daten..................... 154
7.3.6 Verallgemeinerungen des Rasch-Modells für dichotome Anwendungen .. 165
7.3.7 Weitere Latent Trait Modelle ..................................................................... 171
7.3.8 Modellüberprüfung..................................................................................... 172
Residualstatistiken .......................................................................................... 173
Überprüfung der Invarianz der Parameterschätzungen .................................. 174
Likelihood-basierter Ansatz ........................................................................... 177
7.3.9 Anwendung in der interkulturellen Forschung........................................... 178
7.3.10 Zusammenfassende Betrachtung des Rasch-Modells .............................. 179
2
Inhaltsverzeichnis
8 Methodischer Referenzrahmen für die Überprüfung der
interkulturellen Validität .......................................................................................... 181
9 Behandlung der Äquivalenzproblematik in der empirischen,
quantitativen interkulturellen Marketingforschung ................................................. 185
10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE ... 192
10.1 Consumer-ethnocentric Tendency ................................................................... 192
10.2 Überprüfung der Datenäquivalenz mittels konfirmatorischer MehrgruppenFaktorenanalysen................................................................................................. 198
10.2.1 Teilung der Stichproben ........................................................................... 198
10.2.2 Überprüfung von Faktorenmodellen in beiden Kulturen ......................... 199
10.2.3 Überprüfung der konfiguralen Invarianz.................................................. 201
10.2.4 Überprüfung der vollen metrischen Invarianz.......................................... 202
10.2.5 Partielle metrische Invarianz .................................................................... 202
10.2.6 Überprüfung der vollen skalaren Invarianz.............................................. 203
10.2.7 Partielle skalare Invarianz ........................................................................ 203
10.2.8 Kreuzvalidierung der Ergebnisse ............................................................. 203
10.2.9 Zusammenfassung der Analyseschritte .................................................... 204
10.2.10 Vergleichbarkeit der CETSCALE in Österreich und Südkorea............. 208
10.3 Überprüfung der Datenäquivalenz auf der Basis der Latent Trait Theory ...... 208
10.3.1 Überprüfung des polytomen Rasch-Modells in Österreich...................... 210
10.3.2 Überprüfung des polytomen Rasch-Modells in Südkorea ....................... 214
10.3.3 Überprüfung des dichotomen Rasch-Modells in Österreich .................... 216
10.3.4 Überprüfung des dichotomen Rasch-Modells in Südkorea...................... 217
10.3.5 Überprüfung der interkulturellen Vergleichbarkeit
(Österreich - Südkorea) .................................................................................. 218
10.3.6 Exkurs: Überprüfung des dichotomen Birnbaum-Modells in Österreich 220
10.4 Implikation für die interkulturelle Validität der CETSCALE in Österreich und
Südkorea.............................................................................................................. 223
10.5 Weiterführende Forschung............................................................................... 224
11 Meßtheoretische Paradigmen................................................................................... 225
11.1 Paradigmen und wissenschaftlicher Fortschritt ............................................... 225
11.2 Meßtheoretische Paradigmen in der Marketingforschung ............................... 229
12 Implikationen für die Marketingforschung.............................................................. 233
12.1 Plädoyer für eine meßtheoretische Fundierung der Marketingforschung........ 233
12.2 Plädoyer für eine theoretische Fundierung des Kulturkonstrukts in der
interkulturellen Marketingforschung................................................................... 236
12.3 Anwendungsfelder vergleichsbezogener Methoden
in der Marketingforschung .................................................................................. 237
12.4 Spezielle Anwendungsfelder der Latent Trait Theory
in der Marketingforschung .................................................................................. 237
13 Literatur ................................................................................................................... 240
Abbildungsverzeichnis.................................................................................................. 262
Tabellenverzeichnis ...................................................................................................... 265
Sachindex...................................................................................................................... 266
Autorenindex ................................................................................................................ 278
3
Inhaltsverzeichnis
Anhang
A CETSCALE Items (Shimp und Sharma, 1987) ................................................... 285
B CETSCALE Itempool (Shimp und Sharma, 1987; Sinkovics, 1998) .................. 287
C LISREL-Syntax: separate CFA in Österreich und Südkorea ............................... 296
D LISREL-Syntax: konfigurale Invarianz ............................................................... 298
E LISREL-Syntax: volle metrische Invarianz ......................................................... 299
F LISREL-Syntax: partielle metrische Invarianz..................................................... 300
G LISREL-Syntax: skalare Invarianz ...................................................................... 301
H LISREL-Syntax: partielle skalare Invarianz ........................................................ 303
I Modellgesamtprüfung: dichotomes Rasch-Modell für 26 Items (österreichischer
Datensatz)............................................................................................................ 305
J Modelltest: Vergleich der Parameter aus Kalibrierungs- und Validierungssample
(österreichischer Datensatz) ................................................................................ 307
K Modelltest: Vergleich der Parameter aus Teilstichproben nach Rohscore
L Modelltest: Vergleich der Parameter aus Teilstichproben nach Geschlecht
M Modelltest: Vergleich der Parameter aus Teilstichproben nach Altersgruppen
N Modellgesamtprüfung: dichotomes Rasch-Modell für 8 Items (südkoreanischer
Datensatz)............................................................................................................ 315
O Test auf Differential Item Functioning : Vergleich Österreich - Südkorea ......... 316
4
Vorwort
Vorwort
Als der dänische Mathematiker und Statistiker Georg Rasch 1951 vom Danish Institute
for Educational Research beauftragt wurde, meßtheoretische Modelle für Tests zur Leistungsbeurteilung zu entwickeln, sollte damit der Grundstein für die moderne Test- und
Meßtheorie gelegt sein. Rasch entwickelte in den folgenden Jahren Meßmodelle, welche
den von Thurstone (1928) formulierten Anforderungen eines Instruments zur Messung
von Einstellungen gerecht werden:
„A measuring instrument must not be seriously affected in its measuring function
by the object of measurement. To the extent that its measuring function is so affected, the validity of the instrument is impaired or limited. If a yardstick measured
differently because of the fact that it was a rug, a picture, or a piece of paper that
was being measured, then to that extent the trustworthiness of that yardstick as a
measuring device would be impaired. Within the range of objects for which the
measuring instrument is intended, its function must be independent of the object
of measurement.“ (Thurstone, 1928/1959, S.228)
Thurstones Forderungen konnten und können von der klassischen Testtheorie, zu dessen
Mitbegründern Thurstone ohne Zweifel zu zählen ist, nicht erfüllt werden. Raschs Publikation im Jahre 1960 mit dem Titel „Probabilistic Models for Some Intelligence and Attainment Tests“, in welcher er mehrere Modelle für verschiedene Anwendungssituationen
vorstellt, ist ein Wendepunkt in der Geschichte der Meßtheorie. Zum ersten Mal wird mit
Rasch der Begriff der Messung überhaupt erst definiert, werden Annahmen durch überprüfbare Hypothesen ersetzt.
„The psychometric methods introduced in this (Anm.: Rasch’s) book go far
beyond measurement in education or psychology. They embody the essential principles of measurement itself, the principles on which objectivity and reproducibility, indeed all scientific knowledge, are based.“ (Wright, 1980a, S.XIX)
Das später als Rasch-Modell bezeichnete logistische Testmodell für dichotome Items
wurde in der Folge für andere Anwendungssituationen verallgemeinert. Diese Modelle
werden heute unter dem Begriff der Latent Trait Theory zusammengefaßt. Ungeachtet
seiner Weiterentwicklungen ist das Rasch-Modell aufgrund seiner besonderen psychometrischen Eigenschaften einzigartig. Die theoretischen Entwicklungen der Latent Trait
Theory im allgemeinen und des Rasch-Modells im besonderen haben jedoch bislang
5
Vorwort
kaum Niederschlag in der wirtschaftswissenschaftlichen Forschung, im speziellen der
Marketingwissenschaft, gefunden. Zu stark ist das Paradigma der klassischen Testtheorie
verankert. Zu bedeutsam sind allerdings auch die meßtheoretischen Vorzüge des RaschModells, um auf ein „Umlernen“ zu verzichten.
Die vorliegende Untersuchung, welche eine grundlegende Auseinandersetzung mit
Raschs Meßparadigma in der Marketingforschung vornimmt, geht auf eine Anregung von
Hartmut Holzmüller (1995) (Wirtschaftsuniversität Wien1) zurück. Die methodischen
Probleme in der kulturübergreifenden Marktforschung sind der Auslöser für eine eingehende Neubetrachtung des methodischen Repertoires der Datenanalyse und Messung im
Marketing. Das Äquivalenzproblem der interkulturellen Forschung wird zwar in der Marketingwissenschaft in seiner Existenz erkannt, aber als konzeptuelles Problem betrachtet
und nicht als Meßproblem (Malpass und Poortinga, 1986).
Diese Untersuchung mit ihrem überwiegend methodischen Schwerpunkt will nicht nur
Lösungen anbieten. Vielmehr besteht eine, vielleicht sogar vorrangige, Zielsetzung auch
darin, Problembewußtsein zu wecken. In diesem Sinne offeriert diese Arbeit Lösungsvorschläge für Probleme, die oftmals subjektiv zuvor gar nicht bestanden haben.
„The formulation of a problem is far more essential than its solution, which may
be merely a matter of mathematical and experimental skill. To raise new questions, new possibilities, to regard old problems from a new angle, requires creative
imagination.“ (Albert Einstein, zitiert in: McDonald, 1989, S.45)
Für die zur Analyse zur Verfügung gestellten Daten sei an dieser Stelle Rudolf Sinkovics
(österreichischer Datensatz), Subhash Sharma, Terence Shimp und Jeongshin Shin (koreanischer Datensatz) herzlich gedankt. Ohne sie wäre die empirische Demonstration der
vorgestellten Methoden zur Überprüfung der Äquivalenz von Erhebungsdaten in der interkulturellen Marketingforschung nicht möglich gewesen. Hans Baumgartner (The
Pennsylvania State University) und Jan-Eric Gustafson (Göteborgs Universitet) haben
wertvolle Beiträge für die Aufarbeitung der konfirmatorischen Mehrgruppen-Faktoren-
1. Hartmut Holzmüller folgte 1998 dem Ruf an den Lehrstuhl für Marketing der Universität
Dortmund.
6
Vorwort
analyse geleistet. David Andrich (Murdoch University, Perth, Western Australia) sei für
zahlreiche Anregungen auf dem Gebiet der Latent Trait Theory gedankt.
Dank gebührt schließlich Bettina für ihre mentale Unterstützung in allen Phasen der Dissertation und vor allem für das aufgebrachte Verständnis für das forschungsbedingte Zukurzkommen anderer Lebensbereiche.
Anmerkung: Bei allen personenbezogenen Bezeichnungen gilt die gewählte Form für beide Geschlechter. Der Autor folgt damit der Bestimmung des §1 Abs. 4 des österreichischen Bundesgesetzes über die Gleichbehandlung von Frau und Mann im Arbeitsleben
(Gleichbehandlungsgesetz).
7
1 Probleme, Ziele und Positionierung
1.1 Problemstellung
Das ausgehende 20. Jahrhunderts ist durch eine rasante Internationalisierung der wirtschaftlichen Austauschbeziehungen gekennzeichnet. Schlagworte wie „Globalisierung“
(Levitt, 1983) haben bereits Eingang in den allgemeinen Sprachgebrauch gefunden. Politische Umwälzungen (Integration der Märkte in Europa, Nordamerika, Südamerika, usw.)
und technologische Entwicklungen (neue Formen der Telekommunikation) haben die
hohe Geschwindigkeit der Internationalisierung zum Teil ermöglicht, zum Teil akzeleriert.
Internationalisierung
Internationalisierung im Marketing
Internationalisierung der Marketingforschung
Methodische Probleme der internationalen
Marketingforschung (Vergleichbarkeit)
Exploration der Methoden
zur Überprüfung der Vergleichbarkeit
Abbildung 1: Ableitung der Problemstellung aus der Internationalisierung
Dies hat unzweifelhaft auf alle betrieblichen Funktionsbereiche signifikante Auswirkungen, insbesondere jedoch auf den Marketingbereich. Die Erweiterung der Tätigkeitsfelder
des Unternehmens um das internationale Geschäft bzw. eine Intensivierung der internationalen Aktivitäten führt zu einem gesteigerten Informationsbedarf. Die Bewältigung
dieses erhöhten Informationsbedarfs erfordert zum einen eine quantitative Ausweitung
der Marktforschungsaktivitäten, stellt die Marktforschung zum anderen aber auch vor
8
qualitativ neue Probleme, welche sich durch veränderte Rahmenbedingungen ergeben
(vgl. Abbildung 1 auf Seite 8).
Die Internationalisierung der Marktforschung ist durch erhebliche praktische Herausforderungen gekennzeichnet. Im Zuge der Primärerhebung quantitativer Daten in fremden
Ländern gilt es zahlreiche operative Probleme zu bewältigen, etwa Sprachbarrieren zu
überwinden oder die sich aus technischen Unzulänglichkeiten (mangelhaftes Telefonsystem, unzureichende infrastrukturelle Erschließung entlegener Gebiete, usw.) ableitenden
Schwierigkeiten zu lösen. Die Sekundärmarktforschung hat u.a. mit Problemen der Verfügbarkeit, Aussagekraft und Aktualität von Daten zu kämpfen. All diese Aspekte sind in
Marketing-Lehrbüchern ausführlich dokumentiert.
Die internationale Marktforschung stößt in vielerlei Hinsicht aber auch auf methodische
und analysetechnische Probleme. Die Überschreitung von Kulturgrenzen gestaltet die
Analyse von Erhebungsdaten und deren Interpretation weit komplexer, als dies in der traditionellen intrakulturellen Marktforschung der Fall ist - und oftmals auch weit komplexer
als dies gegenwärtig in der interkulturellen Marktforschung wahrgenommen wird. Qualitätsstandards von Skalen, wie Reliabilität und Validität, und die Funktionalität von Items
werden durch kulturelle Faktoren beeinflußt. Diese Effekte können zu Verzerrungen der
Meßergebnisse führen und im ungünstigsten Fall Vergleiche über Kulturgrenzen hinweg
bedeutungslos werden lassen (Douglas und Craig, 1992; Manrai und Manrai, 1996). Die
dieser Arbeit zugrundeliegende Problemstellung ist die Klärung der Frage, welche Bedingungen erfüllt sein müssen, um aussagekräftige interkulturelle Vergleiche vornehmen zu
können. Dazu ist eine Aufarbeitung der Methoden erforderlich, mit welchen diese Bedingungen überprüft werden können.
Die Relevanz dieser Fragestellung erhöht sich aufgrund des steigenden Forschungsinteresses an kulturübergreifender Theorieentwicklung und -validierung. Insbesondere Fragen
der Generalisierbarkeit von Theorien und der Wirkungsbasis des Kultureinflusses implizieren methodische Probleme, für welche es Lösungsansätze zu erarbeiten gilt. Schließlich erscheint es auch im Sinne der Forschungsökonomie angezeigt, die Übertragbarkeit
von kulturbezogenen Meßinstrumenten auf andere Kulturen kritisch zu überprüfen.
9
1.2 Zielsetzung und Vorgangsweise
Entsprechend der Problemstellung besteht die Zielsetzung dieser Arbeit in der Ableitung
der Bedingungen, welche die Voraussetzung für die Vergleichbarkeit von Erhebungsdaten aus der Marketingforschung über Kulturgrenzen hinweg darstellen. Ansätze aus der
überwiegend methodenorientierten interkulturellen Forschung erscheinen in diesem Sinne ebenso vielversprechend und befruchtend für die Marketingforschung wie solche aus
der Disziplin der Meß- und Testtheorie.
Die Aufarbeitung der methodischen Ansätze zur Bewältigung dieses Problems hat sich
zum einen des Analyseinstrumentariums im Rahmen der klassischen Test- und Meßtheorie1 zu bedienen. Zum anderen ist das Potential des moderneren Ansatzes der Latent Trait
Theory für die Überprüfung der Vergleichbarkeit zu untersuchen. Auf der Grundlage der
Erarbeitung eines Methodeninstrumentariums, welches geeignet ist, die Vergleichbarkeit
von Erhebungsdaten aus der interkulturellen Marktforschung empirisch zu überprüfen,
sollen die unterschiedlichen Verfahren hinsichtlich ihrer Eignung, Einsetzbarkeit und
wissenschaftstheoretischen Adäquanz beurteilt werden.
Das erarbeitete methodische Instrumentarium soll schließlich am Beispiel einer Marketing-Skala, der CETSCALE (Shimp und Sharma, 1987), welche in Österreich und Südkorea eingesetzt wurde, exemplarisch demonstriert werden.
1.3 Wissenschaftstheoretische Positionierung
Die vorliegende Studie folgt wissenschaftstheoretisch dem kritischen Rationalismus.
Dies impliziert, daß gegenständliche - substantielle, wie meßtheoretische - Theorien falsifizierbar sein müssen, um formal als einwandfrei gelten zu können (Chmielewicz, 1979,
S.102f). Nach dem Falsifikationsprinzip ist der Wahrheitswert einer empirischen Theorie
mit allgemeinen Gültigkeitsanspruch (d.h. bezüglich unendlich vieler Fälle) nie endgültig
bestimmbar (Prim und Tilmann, 1997, S.79ff), da dies unendlich viele Verifikationsversuche erfordern würde. Statt dessen werden Nichtfalsifikationen, also Verifikationen im
Einzelfall, als Hinweise auf die Gültigkeit einer Theorie betrachtet. Diese Gültigkeit ist
jedoch nur eine vorläufige. Empirische Theorien sind somit gültig bis auf Widerruf, wel1. Die Begriffe Testtheorie und Meßtheorie werden im Rahmen dieser Arbeit synonym
gebraucht.
10
cher Folge einer erfolgreichen Falsifikation wäre. Übereinstimmend mit Popper wird das
grundlegende Ziel der Wissenschaft in der Suche nach zufriedenstellenden Erklärungen
gesehen (Andersson, 1988, S.17), nicht in der Suche nach Wahrheit.
Das Falsifikationsprinzip blieb jedoch nicht unkritisert. Insbesondere Kuhn, Lakatos und
Feyerabend (Andersson, 1988) stellen die Eignung dieses Prinzips in Frage. An dieser
Stelle wird lediglich auf die Kritik Kuhns (1997, S.156ff) eingegangen. Nach Kuhn sind
Theorien immer unvollständig und unvollkommen in der Übereinstimmung mit realen
Phänomenen (und dies bedingt erst die Eignung einer Theorie als Ansatzpunkt für wissenschaftliche Problemlösung). Dadurch ließe sich so gut wie jede Theorie leicht falsifizieren. Die wissenschaftsgeschichtliche Betrachtung Kuhns zeigt, daß im Einzelfall
falsifizierte Theorien jedoch nicht umgehend verworfen, sondern Modifikationen unterworfen werden (Andersson, 1988, S.41). Wenn aber nur schwerwiegende Abweichungen
von theoretischen Vorhersagen als Falsifikation betrachtet werden, so führt dies unweigerlich zum Problem des „Grades der Falsifikation“. Womit genausogut vom „Grad der
Verifikation“ gesprochen werden könnte. Vor allem bei der Betrachtung alternativer,
konkurrierender Erklärungsversuche sollte, so Kuhn, die Frage gestellt werden, welche
Theorie besser zu den Fakten paßt. Ein Beispiel aus der Physik mag dies verdeutlichen.
Newtons Mechanik ist für relativ zur Lichtgeschwindigkeit schnell bewegte Objekte widerlegt und wäre nach dem Falsifikationsprinzip als ungültig zu betrachten. Im vertrauten
Mesokosmos alltäglicher Erfahrungen liefert Newtons Mechanik aber nach wie vor
brauchbare, wenn auch nicht völlig exakte Vorhersagen. Die Ungenauigkeit der Vorhersage ist geringer als die der Messung und somit irrelevant. Die Heranziehung der relativistischen Mechanik Einsteins wäre in diesem Fall nicht vertretbar. Die Falsifikation im
Einzelfall muß also nicht dazu führen, die Theorie als solche zu verwerfen. Vielmehr läßt
sich die Theorie so umformulieren und ihr Anwendungsbereich so einschränken, daß der
Gegenstandsbereich der erfolgreichen Falsifikation nicht mehr im Geltungsbereich der
Theorie liegt.
Im Bereich des internationalen Marketings würde dies bedeuten, daß eine Konsumentenverhaltenstheorie mit ursprünglich universellem Gültigkeitsanspruch, welche in einer
Kultur widerlegt wird, nach wie vor in allen anderen Kulturen als gültig betrachtet werden
kann bzw. wird. Gleiches gilt für Falsifikationen innerhalb einer Kultur, welche beispiels-
11
weise auf soziodemographische Bedingungen zurückzuführen sind. Letztlich gilt es, den
Gültigkeitsbereich - oder mit anderen Worten das Ausmaß der Gültigkeit - einer Theorie
zu bestimmen. Ob dabei vom „Ausmaß der Verifikation“ oder vom „Ausmaß der Falsifikation“ gesprochen wird, ist aus dieser Sicht eher belanglos.
Die bisherigen Ausführungen bedeuten nicht, daß Theorien, die dem wissenschaftstheoretischen Anspruch des kritischen Rationalismus nicht gerecht werden, hier ohne weiteres
nicht betrachtet werden. Vielmehr sollen gegenständliche Theorien - im speziellen Meßtheorien - einander gegenübergestellt und auf der wissenschaftstheoretischen Metaebene
beurteilt werden.
Eine ausdrückliche Ausgangsannahme dieser Untersuchung besteht in der grundsätzlichen Meßbarkeit von nicht beobachtbaren Konstrukten in der Marketingforschung. Damit
ist jedoch keine kritiklose Einstellung zur quantitativen Forschung verbunden. Es wird die
Auffassung vertreten, daß die Qualität der Überprüfung substanztheoretischer, quantitativer Hypothesen durch die Qualität der zugrundeliegenden Meßtheorie begrenzt ist. Letztlich sind nur wissenschaftstheoretisch einwandfreie Meßtheorien geeignet, dem
eventuellen Vorwurf der leichtfertigen Quantifizierung, der Scheingenauigkeit, des Metrisierens statt Messens wirkungsvoll zu begegnen.
1.4 Aufbau der Arbeit
Nach der Klärung der Zielsetzung und Problemstellung wird die Bedeutung interkultureller Vergleiche im Marketing und die sich daraus ergebenden Konsequenzen für die
Marktforschung erörtert. Anschließend werden der Begriff Kultur und mögliche Operationalisierungen näher untersucht. Die Exploration methodischer Probleme der interkulturellen Marketingforschung dient der Schärfung des Problembewußtseins und einer
intensiven Auseinandersetzung mit dem Problemcharakter. Der darauffolgende Abschnitt
behandelt unterschiedliche Formen der Konstruktoperationalisierung und mündet in Anforderungen an Lösungsstrategien für das Problem der Datenäquivalenz.
Mit der konfirmatorischen Mehrgruppen-Faktorenanalyse wird vorerst ein Ansatz im
Rahmen der klassischen Testtheorie vorgestellt, ohne auf metatheoretischer Ebene eine
Kritik der Meßtheorie vorzunehmen. Letztere erfolgt im Anschluß, wenn Verfahren der
12
Latent Trait Theory beleuchtet werden. Ein zusammenfassender Referenzrahmen für die
Überprüfung der Datenäquivalenz stellt beide Verfahren und den Ablauf der Prüfschritte
einander gegenüber. Eine Zusammenstellung von publizierten empirischen Untersuchungen aus der interkulturellen Forschung illustriert die derzeit angewandten Verfahren - dies
bewußt in wertender Weise, jedoch unter Bezugnahme auf die vorangegangene Aufarbeitung möglicher Methoden. Die empirische Analyse der interkulturellen Vergleichbarkeit
eines Marketinginstruments demonstriert die Anwendung zweier, alternativer meßmethodischer Ansätze. Im Anschluß daran erfolgt ein Vergleich der Methoden aus wissenschaftstheoretischer Sicht. Abschließend werden Implikationen formuliert, welche sich
sowohl für die interkulturelle als auch für die intrakulturelle Marketingforschung ergeben.
13
2 Interkulturelle Vergleiche im Marketing
2.1 Internationalisierung im Marketing
Die in der Vergangenheit, wie wohl auch in der Zukunft, zunehmende Internationalisierung der wirtschaftlichen Austauschbeziehungen verstärkt die interkulturelle Dimension
im Marketing und im Management. Dabei können politische Entwicklungen, wie die Einigung Europas im Rahmen der Europäischen Union oder die Öffnung der ehemals kommunistischen Staaten Mittel- und Osteuropas, akzelerierende Wirkung entfalten.
Theoretische Beiträge der wirtschaftswissenschaftlichen Disziplin, wie die Standardisierungsdiskussion (vgl. Levitt, 1983), förden ebenfalls Internationalisierungsbestrebungen.
Zugleich entwickeln Praxis und Wissenschaft aber ein „mangelndes Problembewußtsein“
für sich daraus ergebende „kulturelle Überschneidungssituationen“ (Holzmüller, 1997,
S.57). Fehler im Management und im Marketing sind die Folge (vgl. z.B. Ricks, 1993).
2.1.1 Wirtschaftspolitische Veränderungen
Die letzten beiden Jahrzehnte des 20. Jahrhunderts zeichnen sind durch bedeutsame Veränderungen der politischen und insbesondere ökonomischen Rahmenbedingungen aus.
Aus österreichischer, wie auch gesamteuropäischer Perspektive sind in erster Linie zwei
höchst bedeutsame Entwicklungen zu nennen: der gemeinsame Markt der Europäischen
Union (EU-Binnenmarkt) und die Öffnung der osteuropäischen Märkte.
Der gemeinsame Markt in Europa eröffnet neue Perspektiven der Internationalisierung
und Standardisierung für Länder der europäischen Union. Dem Cassis-de-Dijon-Prinzip
folgend (Boran-Leitner und Franta, 1994, S.11), ist die Konformität eines Produkts mit
den nationalen Vorschriften eines Mitgliedslandes ausreichend für eine EU-weite Markteinführung. Dies bedeutet, daß legistische Regelungen in einzelnen Staaten der EU nicht
notwendigerweise zu Produktanpassungen führen müssen. International tätige Anbieter
können das Standardisierungspotential, welches diese Regelung mit sich bringt, nutzen
und in Kostenvorteile umsetzen. Für bislang ausschließlich binnenstaatlich aktive Anbieter, für welche die national unterschiedlichen Regeln, Vorschriften und Normen ein unüberwindbares Hindernis für Internationalisierungsschritte darstellten, eröffnet sich damit
die völlig neue Perspektive einer Ausweitung der Absatzmärkte.
14
Zeitgleich mit dem Prozeß der europäischen wirtschaftlichen Integration, führt der Zusammenbruch des kommunistischen Systems in der ehemaligen UdSSR und den osteuropäischen Staaten des RGW (Rat für gegenseitige Wirtschaftshilfe) zu einer unerwarteten
Öffnung dieser Märkte. Da die wirtschaftliche Umstellung dieser Staaten einen fundamentalen Paradigmenwechsel darstellt, ist insbesondere in der Übergangsphase die Unsicherheit für Unternehmen sehr groß. Probleme ergeben sich aus zum Teil nur rudimentär
vorhandenen, oftmals völlig ungewohnten Marktstrukturen, rechtlichen Unsicherheiten
im Hinblick auf Eigentumsfragen, Unwägbarkeiten in Währungsfragen bezüglich der
Entwicklung von Wechselkursen, Inflationsraten, Gewinntransfers, u.s.w., aber auch aufgrund schlecht einschätzbarer Nachfragemuster der Konsumenten. Dies hat zur Etablierung eines eigenen Osteuropaschwerpunktes in der Marketingdisziplin geführt (vgl.
Schuh et al., 1994; Springer, 1993; Tietz und Zentes, 1993).
Die Entwicklung einheitlicher Märkte ist jedoch nicht auf Europa beschränkt. Auch in anderen Erdteilen werden einheitliche Wirtschaftsräume gebildet. In Nordamerika, beispielsweise, formen Kanada, die USA und Mexiko mit der NAFTA-Zone das
amerikanische Pendant zum EU-Binnenmarkt. Regelmäßig ist der Wegfall von Grenzen
und administrativen Hürden jedoch nicht nur mit neuen Chancen verbundenen. „Grenzenlose“ wirtschaftliche Aktivitäten implizieren auch verschärfte Konkurrenz und stellen
eine große Herausforderung für die Wettbewerbsfähigkeit dar. Weltwirtschaftlich bedeutet insbesondere die rasant zunehmende Wirtschaftskraft asiatischer Länder, wie Singapur, Malaysia, Korea und nicht zuletzt China, eine Herausforderung für alle
Volkswirtschaften, für international und - zunehmend - auch national tätige Unternehmen.
2.1.2 Internationalisierung und Standardisierung
Internationaler Erfolg ist gleichbedeutend mit größtmöglicher Realisierung von Standardisierungspotentialen. Die theoretische Fundierung geht auf Levitt (1983) zurück, welcher von einer, zumindest segmentspezifisch wirksamen, weltweiten Annäherung der
Nachfragemuster ausgeht. Doch auch bei z.B. kulturell bedingt unterschiedlichen Erwartungen gegenüber Produkten können Standardisierungsstrategien erfolgreich sein. Kostenvorteile der Standardisierung führen zu Preisreduktionen. Der Vorteil des niedrigeren
Preises, so die Hypothese, überwiegt den Nachteil, daß das Produkt nicht optimal den lan-
15
desspezifischen Erwartungen entspricht. Die drei Grundannahmen von Levitt lassen sich
wie folgt zusammenfassen (Douglas und Wind, 1987, S.21):
• Die Bedürfnisse und Interessen der Konsumenten nähern sich weltweit an und werden
homogener.
• Das günstigere Preis-Leistungsverhältnis von „globalen“ Produkten gleicht bestehende
Präferenzen hinsichtlich Produktfunktionalität, -ausstattung, -design, u.s.w. aus.
• Die Bedienung globaler Märkte führt zu deutlichen Kostenreduktionen aufgrund von
Standardisierungen in Produktion und Marketing.
Levitt (1983) bietet somit die theoretische Basis für die Vorteile von Strategien, die zum
Teil erst durch die skizzierten wirtschaftspolitischen Veränderungen umsetzbar geworden
sind. Substantiell bedeutet diese Sichtweise, daß der Fokus der Betrachtung auf das Gemeinsame (gleiche oder ähnliche Erwartungshaltungen, Nachfrage- und Produktverwendungsmuster, etc) gelenkt wird. Die Bedeutung spezifischer Anpassungen des
Marketinginstrumentariums tritt dagegen in den Hintergrund.
Es ist allerdings fraglich, ob diese Sichtweise unabhängig von Produktkategorie oder
Branche notwendigerweise erfolgversprechend ist. Auch die Auswahl der tatsächlich einbezogenen Länder wird für die Gültigkeit bzw. Haltbarkeit der Theorie von Levitt belangreich sein, wenngleich der Begriff global grundsätzlich weltweite Anwendbarkeit
unterstellt. Douglas und Wind (1987) sehen für die konkrete Umsetzbarkeit einer globalen Marketingstrategie sowohl externale Hemmnisse als auch internale Barrieren. Letztere bestehen einerseits aufgrund der vorhandenen Ausgestaltung internationaler
Aktivitäten. Rechtliche Verpflichtungen im Rahmen von Joint Ventures, Lizenzvereinbarungen, etc. können die kurzfristige Umsetzung globaler Konzepte erschweren. Andererseits sind unternehmensinterne Widerstände denkbar. Die Unterordnung des lokalen
Managements unter eine gemeinsame globale Strategie kann zu Motivations- und Identifikationsproblemen führen.
Rechtliche und politische Restriktionen, unterschiedliche Marktstrukturen oder Marktentwicklungsstadien stellen externale, vom Unternehmen in der Regel nicht beeinflußbare
Rahmenbedingungen dar, die globale Konzepte undurchführbar erscheinen lassen. So
16
können unterschiedliche Vorschriften zur Gestaltung von Werbespots einem völlig einheitlichen kommunikationspolitischen Auftritt entgegenstehen.
Während bei internalen Barrieren zumindest mittelfristig Handlungsspielräume seitens
des Unternehmens existieren, ist dies bei externalen Bedingungen nur sehr beschränkt der
Fall. Grundvoraussetzung für die Prüfbarkeit, inwieweit globale Strategien umsetzbar
und erfolgsversprechend sind, stellt jedenfalls die profunde Kenntnis von internalen wie
externalen Barrieren dar. Während z.B. rechtlichen Rahmenbedingungen bei Länderoder Strategieselektionsmodellen meist prominenter Stellenwert beigemessen wird, treten
mögliche bedeutsame Unterschiede in der Marktstruktur oder bei Verhaltens- und Nachfragemustern von Konsumenten oft in den Hintergrund. Ähnlichkeit und Vergleichbarkeit
wird zuweilen nur unterstellt.
2.2 Bedeutung der Marktforschung
Im Zuge der Internationalisierung steigt der Informationsbedarf im Unternehmen. Die
Entscheidungstatbestände im internationalen Marketing sind gegenüber dem nationalen
Marketing erweitert. So muß die Marktforschung beispielsweise Informationen bereitstellen, auf deren Grundlage die Länderselektion oder die Wahl von Produktionsstandorten erfolgt. Kernaufgabe der internationalen Marktforschung ist die Beantwortung der
Frage, inwieweit sich verschiedene nationale Märkte voneinander unterscheiden bzw.
einander ähneln. Dies belegt die strategische Bedeutung der internationalen Marktforschung. Im operativen Marketing sind Fragen der Produkt-, Kommunikations-, Preis- und
Distributionspolitik um internationale Problemstellungen auszuweiten. Diese konzentrieren sich auf das notwendige Ausmaß der kulturellen Anpassung bzw. auf den möglichen
Grad der Standardisierung.
Vor dem Hintergrund der im Gefolge politischer Veränderungen verringerten externalen
Hindernisse globaler Strategien und dem theoretischen Konzept von Levitt mag die Erforschung regional bedingter Unterschiede überflüssig weil irrelevant erscheinen. Aufgrund der nicht uneingeschränkten Gültigkeit der Theorie der Standardisierungsvorteile
kommt der Markt(er)forschung jedoch weiterhin hohe und vor dem Hintergrund zunehmender Internationalisierung von Unternehmen sogar steigende Bedeutung zu.
17
2.3 Methodische Probleme der internationalen Marktforschung
2.3.1 Abgrenzung internationaler und interkultureller Marktforschung
Neben inhaltlichen Problemen, zeichnet sich internationale Marktforschung auch durch
methodische Besonderheiten aus. Internationale Marktforschung ist per Definition länderübergreifend („cross-national“). Das Überschreiten von Ländergrenzen bedeutet,
zwar nicht notwendigerweise, aber so doch in aller Regel, auch das Überschreiten kultureller Grenzen. Im Falle von nationalen Minderheiten mag dies beispielsweise nicht zutreffen (z.B. deutschsprachige Südtiroler in Italien). Wirtschaftliche Einigungsprozesse
und zaghafte Ansätze politischer Einigung in der Europäischen Union haben sich zwar in
einem gemeinsamen Markt niedergeschlagen. Über Jahrhunderte ausdifferenzierte Kulturunterschiede in Europa sind dadurch jedoch keineswegs verschwunden.
Bedeutsamer als die wenigen Ausnahmen der Regel, wonach Ländergrenzen auch Kulturgrenzen darstellen, sind die Ausnahmen, die mit der Umkehrung der Beziehung verbunden sind. Kulturelle Grenzen sind nicht notwendigerweise mit Ländergrenzen
assoziiert. Man muß keine historischen Beispiele, wie die UdSSR zitieren. Länder wie die
Schweiz, Belgien oder Kanada, demonstrieren, daß kulturelle Grenzen, in diesen Fällen
sprachdefiniert, quer durch nationales Terrain bzw. auch durch die Bevölkerung (zweibzw. mehrsprachige Gebiete) laufen können. Doch selbst für einsprachige Staaten ist die
Annahme distinkter Kulturen innerhalb des Staates nicht völlig abwegig, wie das Beispiel
von Nord- und Süditalien zeigt. Ob sich dabei „kulturelle“ Unterschiede in unterschiedlichen Produktivitätsraten und damit essentiell in ökonomischen Motiven erschöpfen, kann
an dieser Stelle nicht beurteilt oder weiter verfolgt werden.
Holzmüller (1986, S.46) unterscheidet die beiden Dimensionen „Grenzüberschreitung“
(ein oder mehrere berücksichtigte Staaten) und Anzahl der einbezogenen Kulturen (eine
oder mehrere Gruppen) und kombiniert diese zu vier Anwendungsfeldern der Marktforschung (vgl. Abbildung 2).
18
Anzahl der
berücksichtigten
Staaten
ein Staat
Anzahl der kulturellen Gruppen
eine Gruppe
mehrere Gruppen
binnenstaatliche
Untersuchung
mehrere Staaten
„cross-national“
„cross-cultural“
Abbildung 2: Kultur- und nationenbezogene Typologie der Marktforschung
in Anlehnung an: Holzmüller (1986, S.46)
Grenzüberschreitende Marktforschung („cross-national“) ist folglich nicht notwendigerweise auch kulturübergreifend. Bedeutsamer erscheint jedoch, daß Probleme der kulturübergreifenden Forschung auch dann relevant sein können, wenn Grenzen nicht
überschritten werden („mehrere Gruppen, ein Staat“).
2.3.2 Erkenntnisgewinnung in der interkulturellen Marketingforschung
Doch auch im Falle der binnenstaatlichen Untersuchung ist Kultur als verhaltensprägendes Hintergrundphänomen (Kroeber-Riel, 1992, S.575) präsent. Die Wirksamkeit kultureller Einflüsse wird erst mit dem „Blick auf andere Kulturen“ (Kroeber-Riel, 1992,
S.575) bewußt und deutlich. Analog zu in Laborexperimenten konstant gehaltenen „Störvariablen“, ist kulturbedingter Einfluß unter der Bedingung der Invariabilität nicht wahrnehmbar. Erst die Einbeziehung mehrerer Kulturen im Sinne der Einführung von Varianz
der Variable „Kultur“ macht kulturbedingte Wirkungen erfahr- und untersuchbar. Die
Wahrnehmung von Wirkungen erfolgt allerdings in der Person des Forschers und setzt die
Manifestierung der Wirkung voraus, welche seinerseits den Einsatz von Instrumenten
oder Verfahren erfordert. In der quantitativen Marktforschung ermöglicht erst die Messung mit Hilfe von Meßinstrumenten die Transformation von Charakteristika im Konsumenten als Untersuchungseinheit (aus dem Universum der essentiellen Realität, vgl.
Popper, 1963, zitiert in Friedrichs, 1990, S.70) in „Daten“ (Tatbestände des Universums
der beobachtbaren Phänomene), welche durch geeignete Analysetechniken zu erkenntnisbezogenen Aussagen seitens des Forschers im Universum der beschreibenden Sprache
und der symbolischen Darstellung führen (vgl. Abbildung 3). In der qualitativen Marktforschung übernehmen entsprechende Verfahren, wie Beobachtung, qualitatives Interview, etc. die Funktion der Transformation.
19
Charakteristika
von Konsumenten
essentielle Realität
Meßinstrument
Methodik
Konsumentendaten
Theoretische Aussagen des Forschers
beobachtbarePhänomene
beschreibende Sprache
Abbildung 3: Generierung theoretischer Aussagen des Forschers in der quantitativen
Marktforschung
Für die Erkenntnisgewinnung im Rahmen der Marktforschung sind somit Charakteristika
des Meßinstruments und der angewandten Methodik ebenso bedeutsam, wie Charakteristika der untersuchten Konsumenten. Da die Ableitung von Aussagen aufgrund von Messungen, Beobachtungen, etc. seitens des Forschers und deren Interpretation stets vor
einem theoretischen Hintergrund erfolgt (vgl. Friedrichs, 1990, S.27), ist auch die Person
des Forschers zu berücksichtigen. In internationalen Marktforschungsprojekten ist stets
ein kulturbedingter Bias in bezug auf das Forschungsdesign, auf die Kommunikation der
beteiligten Forscher und schließlich der Interpretation der Ergebnisse denkbar. „This occurs because international marketing research typically involves researchers from one
cultural environment conducting research in another cultural environment, or communicating with researchers from another cultural environment.“ (Douglas und Craig, 1983,
S.145). Die in Abbildung 2 (Seite 19) dargestellte Typologie der Marktforschung knüpft
hinsichtlich beider Dimensionen (Anzahl der Staaten, Anzahl der Kulturen) an den Untersuchungseinheiten (z.B. Konsumenten) an. Ergänzt man diese Referenzierung um die
Person des Forschers (vgl. Holzmüller, 1995, S.4) und um den kulturellen bzw. nationalen
Hintergrund der eingesetzten Meßinstrumente und der Methodik, so erweitert sich der
kulturelle Bezugsrahmen um zwei Dimensionen. Abbildung 4 (Seite 21) stellt den kulturellen Bedingungsrahmen der Marktforschung unter Vernachlässigung der einbezogenen
Staaten dar, bezieht sich also lediglich auf das Kriterium „cross-cultural“. Damit sind die
in Abbildung 3 dargestellten Elemente der Generierung theoretischer Aussagen erfaßt.
20
Forscher
kulturelle
Übereinstimmung
keine
kulturelle
Übereinstimmung
M
eß
i
ns
t
ru
m
en
t
kulturelle
Übereinstimmung
keine kulturelle
Übereinstimmung
eine
Übereinstimmung mit
mehrere
kultureller Gruppe
Kulturelle Gruppen der
der Untersuchungseinheiten Untersuchungseinheiten
Abbildung 4: Kultureller Bezugsrahmen der Marktforschung
Die explizite Berücksichtigung des Meßinstruments und des Forschers zeigt, daß Marktforschung auch dann interkulturellen Charakter aufweisen kann, wenn die Untersuchungseinheiten einer Kultur angehören. Die Ausdrücke „interkulturelle Studie“ bzw.
„cross-cultural study“ sollen allerdings weiterhin nur solche Untersuchungen beschreiben, welche mehrere kulturelle Gruppen von Untersuchungseinheiten einbeziehen. Kulturelle Inkongruenzen von Forscher und Untersuchungseinheiten können zu fehlerhaften
bzw. inadäquaten Interpretationen von Beobachtungen und Ergebnissen seitens des Forschers führen. Die unter dem Begriff Ethnozentrismus der Forschung (Atteslander, 1995;
S.107) bekannte Problematik besteht darin, daß der Forscher Interpretationen vor dem
Hintergrund seiner eigenen Kultur vornimmt und sich der Bedeutung von Beobachtungen
entsprechend eigener kultureller Standards bewußt wird („Whether willingly or unconsciously, [scientists] look at any new culture through eyes conditioned from birth to see
things in a particular way.“ Hall und Hall, 1990, S.XX). In der interkulturellen Forschungspraxis bedeutet dies, daß der Forscher sich dieser Wirkungen und des Einflusses
des self-reference criterion (Malhotra et al., 1996) bewußt werden muß.
Auch auf der Ebene der Theorien und Modelle ist Kultur als prägender Einfluß wirksam.
Theorien reflektieren den kulturellen Kontext, in welchem sie entstanden sind und erprobt
wurden. Dies kann dazu führen, daß kulturgebundene Theorien, Annahmen und Hypothesen in der interkulturellen Forschung die kulturadäquate Wahrnehmung von fremdkulturellen Phänomenen erschweren und Barrieren zwischen Forscher und untersuchter Kultur
entstehen (Hall und Hall, 1990).
21
Analog zur Person des Forschers, weist auch das eingesetzte Meßinstrument einen kulturellen Hintergrund auf. Eine mangelnde Übereinstimmung des kulturellen Kontexts der
Entwicklung des Instruments einerseits und des kulturellen Umfelds der konkreten Anwendung andererseits, kann dazu führen, daß das Meßinstrument inadäquat ist und an Zuverlässigkeit und Gültigkeit verliert. In der Praxis ist diese Problematik von großer
Bedeutung. Aufgrund der Forschungsökonomie ist es angezeigt, wennimmer möglich, ein
bereits entwickeltes Meßinstrument einem Neuentwurf vorzuziehen. Die Konsumentenforschung zeichnet sich allerdings durch eine Dominanz der Vereinigten Staaten aus. Ein
Großteil der in der Marktforschung eingesetzten Skalen sind daher US-amerikanischen
Ursprungs. Die Übernahme solcher Meßinstrumente in andere Kulturen ist problematisch. Eine Untersuchung kann somit auch dann eine interkulturelle Fragestellung sein,
wenn es sich um eine monokulturelle Studie handelt.
Zwischen dem Einsatz eines Meßinstruments aus einem anderen kulturellen Kontext und
der Berücksichtigung mehrerer kultureller Gruppen auf Seiten der Untersuchungseinheiten (klassische „cross-cultural“-Studie) bestehen Parallelen. Die Frage der Übereinstimmung des Meßinstruments bezieht sich explizit auf den kulturellen Kontext des
Instruments. Die Problematik bei der Einbeziehung verschiedener Kulturen auf Konsumentenseite basiert aber zum Teil ebenfalls auf methodischen Fragestellungen, wie z.B.
der Einsetzbarkeit eines einzigen Meßinstruments in mehreren Kulturen. Allerdings impliziert eine interkulturelle Studie Probleme, die über das eigentliche Meßinstrument hinausgehen und sowohl Forschungsgegenstand als auch Forschungsprozeß betreffen. Ein
kulturfremdes Meßinstrument in einer monokulturellen Untersuchung stellt folglich einen
Spezialfall dar, dessen Diskussion im Rahmen der Problematik interkultureller Untersuchungen Berücksichtigung findet.
Demgegenüber stellt die Frage der Person des Forschers aus einer anderen Kultur eine
Problematik eigener Art dar, welche weder durch eine Analyse des Forschungsgegenstands, noch durch eine Analyse des Forschungsprozesses unmittelbar erforscht oder gelöst werden kann. Vielmehr kann eine Lösung der Problematik nur in einer kulturellen
Sensibilisierung des Forschers liegen. Die kulturadäquate Interpretation von Beobachtungen und Forschungsergebnissen erfordert die Kenntnis und Reflektion der kulturellen
Standards der einbezogenen Untersuchungseinheiten. Diese können durch entsprechende
22
Trainingsprogramme vermittelt werden, welche z.B. für im Ausland tätige Manager, Studierende oder für Flüchtlinge entwickelt werden (vgl. z.B. Thomas, 1991; Müller und
Thomas, 1991; Brislin und Yoshida, 1994; Brüch und Thomas, 1995; Landis und Bhagat,
1996). Die methodischen Ansätze, welche Gegenstand dieser Arbeit sind, können zu einer
Bewältigung dieses Problems nicht beitragen. Die Darstellung der Problematik dient lediglich der Abgrenzung des Einsatzbereichs der vorgestellten Methoden.
2.3.3 Entdeckungszusammenhang der interkulturellen Marktforschung
Die mit der Internationalisierung von Unternehmen einhergehende methodische Problematik der Vergleichbarkeit soll im Rahmen dieser Untersuchung gelöst werden. Vergleichbarkeit in der interkulturellen Marktforschung ist von hoher praktischer Relevanz.
Es ist die Aufgabe der wissenschaftlichen Forschung, die Grundlagen möglicher methodischer Probleme zu erarbeiten und ein praktisch einsetzbares Instrumentarium für deren
Bewältigung zur Verfügung zu stellen.
Das Potential des methodischen Instrumentariums geht jedoch über die Frage der Vergleichbarkeit hinaus und erstreckt sich auch auf die nationale Marktforschung. Unter dem
Aspekt der Forschungsökonomie ist die Übernahme etablierter Meßinstrumente sinnvoller als eine Neuentwicklung. Wird in einem nationalen Marktforschungsprojekt ein Meßinstrument eingesetzt, welches unter anderen kulturellen Rahmenbedingungen entwickelt
wurde, so stellt sich die Frage der Übertragbarkeit. Interkulturelle Probleme und vor allem
deren Lösung können sich somit auch für nicht kulturübergreifende Studien als relevant
erweisen.
Schließlich kann Forschungsinteresse auch darin bestehen, die Generalisierbarkeit von
Theorien im interkulturellen Kontext zu überprüfen. Für die (Weiter-)Entwicklung theoretischer Konzepte kann die Entdeckung kulturbedingter Inkongruenzen befruchtend wirken. Die bei der Erforschung des Konsumentenverhaltens angewandten Theorien sind
zum überwiegenden Teil in der „westlichen“ Welt entwickelt worden. Erst die empirische
Validierung in anderen kulturellen Umfeldern kann den tatsächlichen Geltungsbereich
der Theorien abstecken (Manrai und Manrai, 1996). Darüber hinausgehend plädieren
Manrai und Manrai (1996) für die explizite Berücksichtigung kultureller Einflußfaktoren
in neuen Theorien des Konsumentenverhaltens. Auch für Kotler (1994, S.174) stellen kulturelle Faktoren die bedeutsamste Einflußquelle des Konsumentenverhaltens dar („broa23
dest and deepest influence“). Kulturbedingte Verhaltensdeterminanten stehen damit
hierarchisch über sozialen, persönlichen und psychologischen Faktoren. Die globale bzw.
interkulturelle Marktforschung würde durch die Integration kultureller Faktoren entscheidend profitieren.
Kultur
(Unabhängige Variable)
Abhängige Variable
Substanztheorie
Operationalisierung
von Kultur
Interkulturelle
Vergleichbarkeit
Probleme der interkulturellen Marketingforschung
Abbildung 5: Probleme der interkulturellen Marketingforschung
Sowohl die empirische Validierung vorhandener Theorien, als auch deren Erweiterung
um kulturelle Variablen bzw. die Entwicklung neuer transkultureller Theorien erfordern
zum einen eine adäquate Operationalisierung von Kultur und zum anderen Meßinstrumente mit interkultureller Validität. Erst diese stellen die Basis für eine potentielle Falsifizierbarkeit bzw. vorläufige Verifizierung der Theorien dar. Die Frage der
interkulturellen Validität von Meßinstrumenten nimmt Bezug auf die abhängige(n) Variable(n) einer zugrundeliegenden Substanztheorie (vgl. Abbildung 5). Die Forderung der
adäquaten Operationalisierung von Kultur zielt hingegen auf die unabhängige Variable
der Substanztheorie ab, deren Wirkung auf die abhängige Variable untersucht wird. Interkulturelle Validität ist ein formales Problem, während die Kulturoperationalisierung ein
inhaltliches Problem ist. Letzterem kommt ein hoher Stellenwert zu, da die Lösung des
Meßproblems ohne geeignete Kulturoperationalisierung keinen Erkenntnisfortschritt bewirken kann. Es wäre dann zwar geklärt, daß ein Vergleich vorgenommen werden kann,
aber nicht auf welche Einflußgröße Unterschiede gegebenenfalls zurückzuführen wären.
Aus diesem Grund wird die Operationalisierung von Kultur im nächsten Kapitel verhältnismäßig ausführlich behandelt.
24
3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur
Ils parlent de la mort comme tu parles d’un fruit
Ils regardent la mer comme tu regardes un puits
Les femmes sont lascives au soleil redouté
Et s’il n’y a pas d’hiver cela n’est pas l’été.
Jacques Brel, Les Marquises, 1977
3.1 Kultur als Nationalität
Hinter der häufig erfolgten Gleichsetzung von interkulturell und international bzw. crosscultural und cross-national steht meist auch eine unreflektierte Identität der Begriffe Kultur und Nationalität. Dies ist aus theoretischer Sicht unbefriedigend. Das Konzept der
Kultur wird dabei nicht in seiner inhaltlichen Bedeutung gesehen. Es wird kein Versuch
unternommen, der Komplexität von Kultur auch nur annähernd gerecht zu werden. Kultur
wird lediglich als klassifizierbare Kategorie betrachtet, deren konkrete Ausprägungen lediglich hinsichtlich ihrer Unterscheidbarkeit analysiert werden. Einzelne Kulturen werden als unterschiedlich dargestellt, ohne darauf Bezug zu nehmen, worin sie sich
unterscheiden und worin sie sich gleichen. „Die überwiegende Mehrheit publizierter Forschungsarbeiten berücksichtigt Kultur als unspezifizierte nominalskalierte Variable“
(Holzmüller, 1995, S.75). Die konkrete Operationalisierung von Kultur erfolgt dementsprechend nur auf dem Niveau der nominalen Unterscheidung.
Neben der Reduktion von Kultur auf ihre bloße Klassifikation, ist die Gleichsetzung von
Kultur und Nationalität darüber hinaus auch inhaltlich problematisch. Wie weiter oben
ausgeführt bestehen zwischen den Konzepten Kultur und Nationalität zwar Überschneidungsbereiche, jedoch keine inhaltliche Identität. Nationalität als Staatszugehörigkeit basiert lediglich auf dem legistischen Begriff der Staatsbürgerschaft und ist somit ein
(völker-)rechtlicher Terminus, welcher im Rahmen der Marketingforschung zu kurz
greift.
Die Reduktion von Kultur auf eine nominalskalierte Variable impliziert weiters, daß kulturbedingte Effekte und Unterschiede lediglich beschrieben werden können (vgl. Holzmüller, 1995, S. 76). Es ist nicht möglich, im Sinne von kausal begründbaren
Zusammenhängen, Rekurs auf inhaltliche Aspekte des Konzeptes der Kultur zu nehmen.
In empirischen Studien nachgewiesene Unterschiede oder Gemeinsamkeiten stellen nur
Einzelergebnisse dar, welche jeder Generalisierbarkeit entbehren. Somit sind auch keine
25
a priori Vorhersagen im Sinne theoretisch begründbarer Hypothesen in zukünftigen, andere Kulturen einbeziehenden Studien möglich. Die Integration kultureller Einflußfaktoren in Theorien des Konsumentenverhaltens erfordert demzufolge eine über die bloße
Unterscheidung hinausgehende Form der Operationalisierung von Kultur. „(...) thinking
about ’culture’ as a singular variable that stands in an antecedent relation to specific response variables is destined to be unproductive. Rather, theoretical categories or dimensions that are contained in or which are part of what is called cultural variation are the
entities of interest (...) (Poortinga und Malpass, 1986, S.36, eigene Hervorhebungen).
3.2 Ursprünge des Begriffs Kultur
Ehe auf konkrete Ansätze zur Operationalisierung von Kultur eingegangen wird, wird die
begriffliche Grundlage von Kultur und damit die Basis für Operationalisierungsversuche
näher beleuchtet. Für Usunier (1996, S. 3) geht der Begriff der Kultur in der deutschen
Sprache auf das abstrakte Konzept der Zivilisation zurück und wird in dieser Bedeutung
bereits im 18. Jahrhundert verwendet. Die englische Sprache übernahm zu Beginn des 20.
Jahrhunderts diesen Bedeutungsinhalt. Im Französischen wird culture im ausgehenden
19. Jahrhundert als Synonym für „Kultivierung“, „landwirtschaftliche Tätigkeit“ gebraucht. Die Etymologie des Ausdrucks Kultur geht auf lateinischen Ursprung zurück und
bedeutet ’Bebauung’, ’Ausbildung’ (Brockhaus, 1979, S.286). Auch im modernen
Sprachgebrauch des Deutschen wird der Begriff der Kultur zum Teil in dieser gegenständlichen Bedeutung angewendet (z.B. „künstliche Gründung eines Waldbestandes“,
„auf geeigneten Nährböden gezüchtete Bakterien oder Zellarten“, Brockhaus, 1979,
S.285). Kultur nimmt somit auf eine der grundlegenden Wurzeln moderner menschlicher
Gesellschaften Bezug: dem Landbau bzw. der Landwirtschaft. Erst durch diese Errungenschaft wird die Gattung Mensch zur Zivilisation. Kroeber-Riel (1992, S.575) verwendet
die Begriffe Kultur und Zivilisation dementsprechend synonym. Die semantische Begriffsanalyse unterstreicht zwar die Tragweite und fundamentale Bedeutung des Konzepts, welche weit über nationalstaatliche Abgrenzungen hinaus geht, führt aber nicht
unmittelbar zu einer brauchbaren Operationalisierung des modernen Konzepts der Kultur.
Die Problematik einer allgemein akzeptierten Definition von Kultur liegt in den mannigfaltigen Bedeutungsinhalten mit welchen die Alltagssprache den Begriff belegt. Jeder Definitionsversuch, welcher sich von diesen allgemeinsprachlichen Inhalten loslöst, aber
auch jeder Versuch, der (nur) auf einzelne, ausgewählte Aspekte Bezug nimmt, wird auf
26
Akzeptanzprobleme stoßen (wie dies z.B. auch beim Begriff der „Intelligenz“ der Fall ist,
welcher ebenso trivialsprachliche Bedeutungen aufweist). Für die Definition eines wissenschaftlichen Begriffs ist aber weniger die inhaltliche Korrespondenz mit Alltagsbedeutungen entscheidend, als vielmehr die Eignung des Begriffs im Rahmen von
Theoriegebäuden. Die wissenschaftliche Definition muß insbesondere die Basis für eine
praktikable Operationalisierung darstellen.
Als grundlegende Definition kann Kultur als Gemeinsamkeit von Verhaltens- und Denkmustern gesehen werden (Kroeber und Kluckhohn, 1952, zit. in Kroeber-Riel, 1992,
S.575; Goodenough, 1971) oder als „Gesamtheit der typischen Lebensformen größerer
Gruppen einschließlich ihrer geistigen Aktivitäten, besonders der Werteinstellungen“
(Brockhaus, 1979, S.285). Kultur besteht somit aus von einer abgrenzbaren, aber größeren Gruppe von Individuen geteilten Standards, welche die Wahrnehmung und Interpretation der Umwelt erleichtern, sowie verhaltensbezogene Imperative umfassen. Kultur ist
nach dieser Definition ein zentraler, ständig präsenter Einflußfaktor des Denkens und
Handels. Sie stellt einen Bezugsrahmen, ein Orientierungssystem dar, innerhalb dessen
Wahrnehmungen erfolgen (vgl. den Begriff der „subjektiven Kultur“ nach Triandis,
1972), Erkenntnisse gewonnen, Handlungen bewertet und Verhalten gesetzt werden.
Freud (1930) sieht in der Kultur und ihrer Entwicklung Einschränkungen der persönlichen
Freiheit. Kultur stellt sich somit gegen den Freiheitsdrang des Individuums, sie ist aber,
so scheint es, nicht imstande, die Natur des Individuums „in die eines Termiten umzuwandeln“ (Freud, 1930, S.226). Kultur ist demnach durchaus ambivalent zu sehen. Kulturellen Leistungen, wie höhere psychische Tätigkeiten, wissenschaftliche, künstlerische und
ideologische Errungenschaften, stehen eben jene „Kulturversagungen“ (Freud, 1930,
S.227) als Einschränkungen persönlicher Freiheit gegenüber, auf denen kulturelle Leistungen als Sublimierung von Triebzielen basieren. „Ein guter Teil des Ringens der
Menschheit staut sich um die Aufgabe, einen zweckmäßigen, d.h. beglückenden Ausgleich zwischen diesen individuellen und den kulturellen Massenansprüchen zu finden
(...).“ (Freud, 1930, S.226).
Kultur ist also ein äußerst komplexes Netzwerk von Regeln, welches das soziale Zusammenleben und die Interaktion von Individuen erst ermöglicht. Die erfolgreiche Interaktion
zweier Individuen erfordert ein Mindestmaß an Übereinstimmung betreffend grundlegen-
27
der Begriffe der expliziten Sprache, aber auch von grundlegenden nonverbalen Kommunikationselementen als implizite Formen von Botschaften, sowie von Bewertungen von
Sachverhalten. Der Erfolg von Sozietäten („Kulturen“ im Sinne der Gesamtheit der Individuen, welche die Gemeinsamkeiten teilen) beruht auf einem Mindestmaß an Übereinstimmung von Handlungszielen und Handlungsformen seitens ihrer Mitglieder. Der
moderne Kulturbegriff umfaßt auch materielle Manifestationen menschlicher Aktivitäten
und deren technische Grundlagen, wie „Obdach, Kleidung, Werkzeug, Gerät“ (Brockhaus, 1979, S.285). Eine Differenzierung in Kultur als geistige und Zivilisation als technisch-materielle Komponente der menschlichen Gesellschaft gilt als historisch überholt.
Kultur ist nach der oben genannten Definition ein individuell verfügbares kognitives System zur Bewältigung sozialer Interaktionen mit Individuen, die sich ebenfalls dieses Systems bedienen. Für Goodenough (1971) bedeutet dies, daß ein Individuum auch über
mehrere solche Systeme verfügen kann (Konzept der „operational culture“). In Abhängigkeit von der jeweiligen kulturellen Gruppe, kommt das jeweils adäquate kognitive System
zur Anwendung. Kultur bzw. kulturelle Zugehörigkeit ist in diesem Sinne nicht angeboren, sondern vielmehr durch Lernprozesse erworben. Angeborene auslösende Mechanismen (Lorenz, 1943, Leyhausen, 1951) sind demzufolge nicht zum kulturellen System zu
zählen. Im Rahmen der primären Sozialisation des Menschen wird (zumindest) ein als
Kultur zusammengefaßtes System erlernt. Dieses umfassende Netzwerk an Interpretations- und Verhaltensregeln, Werten und Traditionen setzt den Rahmen, innerhalb dessen
Erkenntnisse gewonnen und Handlungen gesetzt werden. Alle zukünftigen Erfahrungen
werden vor dem Hintergrund dieses kulturellen Systems interpretiert, es sei denn, es werden weitere kulturelle Systeme und seine Regeln erlernt. Letzteres kann im Rahmen der
primären Sozialisation erfolgen im Sinne einer multikulturellen Erziehung (wie dies bei
aus unterschiedlichen Kulturkreisen stammenden Elternteilen der Fall sein kann), aber
auch im fortgeschrittenen Lebensalter durch Aufenthalte in Fremdkulturen, kulturelle
Sensibilisierungsprogramme oder durch den Einfluß von spezifischen Organisationskulturen.
28
Kultur A
Kultur B
Kultur C
Abbildung 6: Kultur als System von Denk- und Verhaltensmustern
Gegenüber der bloß klassifikatorischen Beschreibung von Kultur im Sinne eines nominalen Charakteristikums, welche lediglich die Unterscheidbarkeit gewährleistet, eröffnet die
Sichtweise von Kultur als System zumindest prinzipiell die Möglichkeit, die Ähnlichkeit
kultureller Systeme anzugeben. Der Grad der Ähnlichkeit ergibt sich aus dem Ausmaß an
Übereinstimmung kulturbestimmender Elemente. Ehe jedoch Ähnlichkeiten zwischen
Kulturen untersucht werden können, müssen Kulturen abgegrenzt werden. Der kleinste
denkbare Umfang einer als Kultur bezeichenbaren Gruppe von Individuen umfaßt aufgrund der Definition von Kultur als System zur Bewältigung von Interaktionen zumindest
zwei Personen. Es ist freilich nicht sinnvoll, Gruppen dieses Umfangs als Kultur zu betrachten. Die Erforschung von Kultur zielt auf größere Sozietäten ab („typischen Lebensformen größerer Gruppen“, Brockhaus, 1979, S.285). Die systembestimmenden
Elemente der Kultur sind daher allgemeinerer Art. Der Grad der zu wählenden Allgemeinheit und die damit verbundene Abgrenzung kann jedoch nicht willkürlich erfolgen.
Stets ist die Frage zu stellen, ob sich die als Kultur abgegrenzte Gruppe tatsächlich von
anderen Gruppen hinsichtlich der Denk- und Verhaltensmuster unterscheidet (Usunier,
1996). Ob Unterschiede als relevant zu erachten sind, hängt von der konkreten Forschungsfrage ab, die es zu behandeln gilt. Kulturen, die im Rahmen eines Forschungsprojekts als gleich betrachtet werden, das heißt als eine Kultur, können in einem anderen
Projekt als zwei unterschiedliche Kulturen aufgefaßt werden. Kulturen und ihre Abgrenzungen sind folglich auch hierarchisch organisierbar. So zeichnen sich Subkulturen, abgrenzbare Gruppen von Individuen innerhalb einer Gesellschaft, durch ein gemeinsames
System an Denk- und Verhaltensmustern aus, worin sie sich von anderen kulturellen Teileinheiten unterscheiden. Subkulturen lassen sich jedoch zu Kulturen auf gesellschaftli-
29
cher Ebene zusammenfassen, welche sich von Kulturen anderer Gesellschaften
unterscheiden.
Kultur A
Subkultur Aa
Subkultur Ab
Abbildung 7: Abgrenzung von Kultur als hierarchisches System
Zusammengefaßt eröffnet die Definition von Kultur als komplexes System von Denkund Verhaltensmustern eine enormes Potential für die Marketingforschung, indem kulturelle Wirkungszusammenhänge kausal auf spezifische Bestimmungselemente der Kultur
zurückgeführt werden können. Kulturen können durch Beschreibung der Systemelemente
und ihrer Beziehungen inhaltlich charakterisiert werden. Verschiedene Kulturen lassen
sich aufgrund der partiellen Übereinstimmung der Systemelemente hinsichtlich ihrer
Ähnlichkeit analysieren. Einzelne Kulturen können durch das Ausmaß ihrer Homogenität, das heißt individuelle Variabilität der Systeme, beschrieben werden und - abhängig
vom nahezu beliebig wählbaren Grad an Homogenität - hierarchisch aufgegliedert werden. Dies setzt jedoch ein operationales Modell der Kultur voraus, die - wie jedes Teilsystem der Realität - in ihrer Gesamtheit nicht erfaßbar ist.
3.3 Operationalisierung von Kultur
3.3.1 Kultur und Kommunikation (Hall, 1959; Hall und Hall, 1990)
Kultur ist untrennbar mit Kommunikation verbunden. Zum einen wird Kultur als erlerntes
System durch verbale und nonverbale Kommunikation vermittelt. Die Weitergabe von
Kultur und deren Charakteristika erfolgt im Rahmen von Sozialisationsprozessen in kleinen Gruppen, in der Regel der Kernfamilie (Kroeber-Riel, 1992, S.576). Zum anderen ist
Kommunikation formal und inhaltlich Bestandteil der Kultur. Die Art und Weise, wie in
einer Gruppe kommuniziert wird (formaler Aspekt) ist ebenso integraler Teil des kulturellen Systems, wie zum Teil auch die Inhalte, welche in bestimmten Situationen zum
Ausdruck kommen oder nicht kommuniziert werden. Hall (1959) und Hall und Hall
(1990) basieren ihre Analyse der Struktur von Kultur unter anderem auf Kommunikati-
30
onsprozesse. Mitglieder einer Kultur teilen nicht nur Informationen, sondern auch die Art
und Weise der Kodierung, Speicherung und Abrufung derselben (Hall und Hall, 1990,
S.XIV). Kommunikation als abstrakter Begriff umfaßt die Teilaspekte der verbalen Kommunikation, also Worte und Sprache („the medium of business, politics, and diplomacy“,
Hall und Hall, 1990, S.3), materielle Dinge als Indikatoren von Status und Macht, sowie
Verhalten. Kommunikation durch Verhalten liefert Aufschlüsse darüber, wie andere fühlen und umfaßt Techniken zur Konfliktvermeidung (Hall und Hall, 1990).
Dimension
(Extrem-)Ausprägungen
Geschwindigkeit von
Botschaften
langsam - schnell
Kontextorientierung
low context - high context
Raumstrukturierung
- Territoriale Anordnung
- persönlicher Raum
offen - geschlossen
wenig umfangreich - umfangreich
Zeitstrukturierung
- parallele Aktivitäten
- zeitlicher Fokus
monochronisch - polychronisch
Vergangenheit - Gegenwart - Zukunft
Zeit als Kommunikation
- Tempo, Rhythmus
- Bedeutung von
Vorausplanung
(Scheduling)
langsam - schnell
gering - hoch
Informationsfluß
langsam, linear - schnell, diffundierend
Ablaufschemata
verbindlich - unverbindlich
Tabelle 1: Kulturelle Dimensionen nach Hall und Hall (1990)
Bei der Analyse der Kommunikation im kulturellen Kontext liegt bei Hall und Hall (1990)
der Schwerpunkt auf formalen Aspekten. Es ist demnach weniger bedeutsam, was kommuniziert wird, sondern vielmehr wie etwas kommuniziert wird. Die Geschwindigkeit einer Botschaft bezieht sich auf das Verhältnis von Informationsgehalt zum Umfang der
Botschaft. Schnelle Botschaften haben geringen Umfang, ihre Information ist jedoch von
geringer Redundanz. Schlagzeilen in Zeitungen, kurze Kommuniqués oder Werbespots
im Fernsehen sind Beispiele für schnelle Botschaften. Langsame Botschaften sind im
Vergleich dazu länger und weisen geringere Informationsdichte auf. Bücher oder TV-Do-
31
kumentationen sind beispielsweise langsame Botschaften. Wesentlich ist, daß die gleichen Inhalte sowohl in langsamer als auch in hoher Geschwindigkeit kommuniziert
werden können. Abhängig von Kontext, Situation, Vertrautheit, Medium, etc. besteht
auch innerhalb einer Kultur eine Variabilität der Geschwindigkeit. Abweichungen von
der kulturtypischen Geschwindigkeit werden als unangebracht, unangenehm oder zumindest als überraschend erlebt. Zusammenhänge bestehen zwischen Kommunikationsgeschwindigkeit und -medium. Die Medien Buch und Kunstwerk (Bild) transportieren sehr
langsame Botschaften. Demgegenüber sind Fernsehen und Cartoons typischerweise
„schnelle Medien“. Doch auch innerhalb eines Mediums kann Geschwindigkeitsdifferenzierung auftreten. In Nachrichtensendungen des Fernsehens werden relativ schnelle Botschaften erwartet, die rasch einen Überblick verschaffen sollen. In Magazinen hingegen
werden langsamere Botschaften transportiert. Trotz aller situationsspezifischer Variabilität unterscheiden sich Kulturen als Ganzes voneinander und können als eher langsam oder
eher schnell beschrieben werden. Für die interkulturelle Kommunikation bedeutet dies die
Gefahr von Mißverständnissen und Fehlinterpretationen. Das Kennenlernen einer Person
ist grundsätzlich ein komplexer, langsam erfolgender Vorgang. Dennoch kommunizieren
einige Kulturen, wie z.B. die USA, relativ schnell, um jemanden kennenzulernen. Angehörige europäischer Kulturen dagegen pflegen einen langsameren Kommunikationsstil
(Hall und Hall, 1990). Für Europäer im Kontakt mit US-Amerikanern schreitet daher der
Prozeß des Sich-kennen-lernens zu schnell voran. Kommunikationsmerkmale wie formlose Anrede (z.B. mit dem Vornamen) oder scheinbar große Vertrautheit kommen für Europäer überraschend und werden vor dem eigenen kulturellen Hintergrund als Zeichen
einer Verbundenheit interpretiert, die in diesem Ausmaß tatsächlich nicht besteht. Als Reaktion darauf kommen Verhaltensweisen und Erwartungshaltungen der Europäer, welche
vor deren kulturellen Hintergrund der subjektiv wahrgenommenen Vertrautheit entsprechen, wiederum für Amerikaner unerwartet und erscheinen - aus deren Sicht - unbegründet.
Bei der inhaltlichen Gestaltung einer kommunikativen Botschaft sind - neben intrakultureller Variabilität - ebenfalls kulturbedingte Präferenzen und Usancen wirksam. Wird der
gesamte Inhalt ausdrücklich in der Botschaft kodiert, so sprechen Hall und Hall (1990,
S.6ff) von low context culture. Demgegenüber beinhalten die Botschaften einer high context culture wenig explizite Information. Amerikaner, Deutsche, Schweizer und Skandi-
32
navier beispielsweise liefern einander explizite, umfangreiche Hintergrundinformationen
(low context), während Araber und Mittelmehrkulturen engere Beziehungsgeflechte unterhalten, welche Ihnen hohe Kontextinformation bereitstellen (high context). Tiefgehende explizite Hintergrundinformationen erübrigen sich daher. Fehlen Angehörigen von
high context Kulturen entsprechende Hintergrundinformationen, so müssen diese erst beschaffen werden. So möchten Franzosen äußerst umfangreiche Informationen, ehe sie ein
bislang unbekanntes Unternehmen bewerten (Hall und Hall, 1990, S.10). Auch die - aus
europäischer Sicht - lange Anlaufphase, welche Geschäftsbeziehungen mit Arabern oder
Japanern erfordern, kann im Sinne eines Bedürfnisses nach Generierung von Kontextinformation auf Seiten der Geschäftpartner interpretiert werden.
Ein weiterer Aspekt des Kommunikationsverhaltens, indem sich Kulturen unterscheiden,
ist der persönliche Raum (Hall und Hall, 1990, S.10ff). Dieser umgibt jede Person in unsichtbar angeordneten Schichten von der physischen Hautoberfläche bis hin zu persönlichen Gegenständen und Eigentum. Letztere können einen räumlich weit ausgedehnten
Kreis um die Person bilden, zum Beispiel die Grenzen des eigenen Grundstücks. Das Eindringen anderer Personen in diese Schichten hängt von Situation und Vertrautheit ab.
Nordeuropäische Kulturen halten beim Gespräch mit fremden Personen entsprechend ihrer Vorstellung der persönlichen Nahsphäre eine größere räumliche Distanz ein als südliche Kulturen. Angehörige südlicher Kulturen dringen folglich in den Augen von
Nordeuropäern zu weit in den persönlichen Raum ein. Da das Raumkonzept, ebenso wie
andere formale Aspekte der Kommunikation, grundsätzlich nicht als kulturdeterminiert
erlebt wird, sondern die eigenen Standards als universell gültig betrachtet werden, wird
das Verhalten entsprechend dieser Standards interpretiert und die zu nahe herankommende Person als aggressiv oder aufdringlich erlebt.
Die Bedeutung der Anordnung im Raum ist ebenso kulturabhängig. In deutschen und
amerikanischen Büros befinden sich die „Chefetagen“ auf höchster Ebene, also in den
obersten Stockwerken, wodurch in erster Linie Hierarchie, in zweiter Linie unter Umständen aber auch ein mangelndes Kommunikationsnetzwerk zum Ausdruck kommt. Französische Manager dagegen sind in mittleren Etagen angesiedelt, wodurch deren zentrale
Stellung und die hohe Bedeutung einer engen Kommunikation symbolisiert wird, ist doch
umfangreicher Informationsstand in der low context Kultur von Frankreich essentiell.
33
Bereits Kant (1995, S.73ff) erkannte neben dem Raum die Zeit als grundlegende a priori
gegebene Kategorie aller Anschauung. Es liegt daher nahe, Kulturen nach dem Kriterium
der Zeitstrukturierung und -wahrnehmung zu differenzieren (Hall und Hall, 1990, S.13ff).
Zeit und ihre Wahrnehmung und Ordnung läßt sich in mannigfaltige Aspekte gliedern.
Der Gegensatz von monochronischer (monochronic time) gegenüber polychronischer
Orientierung (polychronic time) einer Kultur bezieht sich auf die Zahl der Tätigkeiten,
welche parallel, also gleichzeitig, ausgeführt werden. Monochronische Kulturen konzentrieren sich auf eine Tätigkeit, welche konsequent verfolgt wird. Unterbrechungen, welche nicht dem Zeitplan entsprechen, werden vermieden bzw. als unangenehm erlebt. Die
Wurzeln dieser Zeitorientierung gehen auf die Einführung der industriellen Produktionsweise im 17. Jahrhundert in England zurück. Der Einsatz von Maschinen und ein damit
verbundener genauer Einsatzplan erforderten die strikte Einhaltung von Arbeitszeiten und
die Konzentration auf eine spezifische Tätigkeit. Nach wie vor pflegen moderne westliche
Wirtschaftssysteme, wie in den USA, der Schweiz oder Deutschland, die monochronische
Zeitstrukturierung. Im Gegensatz dazu gestattet das polychronische System mehrere Tätigkeiten gleichzeitig. Zeitpläne treten in den Hintergrund, sind weniger verbindlich. So
werden aktuelle Aktivitäten zugunsten anderer Tätigkeiten unterbrochen oder länger ausgeführt als ursprünglich geplant, wodurch sich nachfolgende Aktivitäten verzögern. Der
Fokus liegt auf der Pflege zwischenmenschlicher Interaktionen, welche gegenüber der
Einhaltung von starren Zeitplänen höherrangig sind. Als Beispiele polychronischer Zeitorientierung gelten Europas mediterrane Kulturen, arabische Kulturen und solche aus
Südamerika. Die Offenheit dieser Kulturen für neue und parallele Aktivitäten und die Bereitschaft, vorgefaßte Zeitpläne zu ändern, schlägt sich auch in der Raumstrukturierung
nieder. Während monochronische Kulturen großen Wert auf abgeschlossene, womöglich
schalldichte Arbeitsräume legen, welche konzentriertes, störungsfreies Arbeiten gewährleisten sollen, gestalten polychronische Kulturen ihre Arbeitsumgebung offener und geben damit Raum und Gelegenheit zu spontaner Kommunikation. Dadurch ergeben sich
ständige Informationsflüsse, welche einen hohen Stand an Kontextwissen ermöglichen.
Polychronische Kulturen sind folglich eher high context orientiert. Ebenfalls starke Interdependenzen ergeben sich im Zusammenhang mit der Sichtweise von Gegenständen und
Privateigentum. Monochronische Kulturen haben hohen Respekt vor Privateigentum,
borgen und leihen eher selten. Kontrastierend sind polychronische Kulturen der Leihe von
Gegenständen gegenüber aufgeschlossener.
34
Ein weiterer Aspekt der Zeitstrukturierung betrifft den kulturtypischen Fokus auf Vergangenheit, Gegenwart oder Zukunft. In Deutschland ist die Vergangenheit der Ausgangspunkt aller Überlegungen und Problemlösungen. Dementsprechend ist es üblich, den
historischen Hintergrund ausführlich und - als low context Kultur - explizit zu beleuchten.
Dies ist für gegenwartsbezogene Kulturen, wie die USA, ungewöhnlich. Probleme und
Sachverhalte werden direkt angesprochen ohne deren Geschichte zu behandeln. High
context Kulturen mit Vergangenheitsorientierung, wie z.B. Frankreich oder Japan, legen
zwar ebenfalls großen Wert auf eine fundierte historische Basis, bringen dies aber nicht
explizit zum Ausdruck, sondern erwarten, daß diese ohnehin bekannt und folglich implizit
adressierbar ist.
Neben der Zahl der gleichzeitig ausgeführten Tätigkeiten können sich Kulturen auch darin unterscheiden, welches Tempo und welcher Rhythmus den Aktivitäten zugrundeliegt,
für Hall und Hall (1990, S.18) ein Aspekt der „Zeit als Kommunikation“. Unterschiedliche Rhythmen erschweren die Zusammenarbeit durch mangelnde Synchronisierung. Eine
besonders kritische Phase im internationalen Management ist die der Entscheidungsfindung. Für Amerikaner ist es unverständlich, wenn Deutsche eine lange Zeitspanne benötigen, um eine endgültige Entscheidung zu treffen. Gleiches gilt für Japan. „Au Japon, les
décisions en entreprise sont souvent très lentes par souci d’arriver à une expression consensuelle. Mais à une lente maturation préalable à la décision succède par contre une très
grande rapidité de mise en oeuvre.“ (Ollivier et al., 1990, S.19). Der Charakter von Zeit
als nonverbale Kommunikationsform wird deutlicher bei kulturspezifischen Usancen der
Zeitvorausplanung. Unterschiede bestehen in der Bedeutung von Vorausplanung im allgemeinen, welche für die USA oder Deutschland als monochronische Kulturen hoch ist,
für Frankreich als polychronische Kultur aber untergeordnet ist. Polychronische Kulturen
sind, wie bereits erwähnt, sehr tolerant bezüglich ad hoc Änderungen von Zeitplänen. Ein
spontaner Gesprächstermin ist daher bei gegebener Wichtigkeit einer Geschäftsbeziehung
durchaus realistisch. In monochronischen Kulturen würde dies eine unerwünschte Unterbrechung darstellen. Spontanität wird demzufolge der genauen Zeitplanung untergeordnet. In den USA ist eine längere Vorausplanung ein Indikator für den hohen Stellenwert,
welcher einer Beziehung beigemessen wird. Mit einer kurzen Frist bzw. einem spontanen
Termin, wie dies z.B. in Frankreich oder Japan bei wichtigen Geschäften üblich ist, wäre
in den USA das Gegenteil, nämlich Unwichtigkeit, zum Ausdruck gebracht. Daraus ist er-
35
sichtlich, welch ausgeprägte Inkompatibilität zwischen den Systemen besteht und wie bedeutsam interkulturelle Sensibilität ist. Die strikte Vorausplanung von Aktivitäten in
monochronischen Kulturen führt aus Sicht polychronischer Kulturen einerseits zu einer
zu langen Anlaufzeit. Andererseits bedeutet eine detaillierte Zeitplanung auch ein vordefiniertes Ende, welches aus monochronischer Sicht unbedingt einzuhalten ist. Für polychronische Kulturen ist dies unverbindlich und wird bei Bedarf neu festgelegt.
Monochronische Kulturen geraten dadurch in Verhandlungssituationen leicht unter Zugzwang.
Ein weiteres kulturelles Charakteristikum ist die Widmung verschiedener Zeitabschnitte
im Tages- bzw. Jahresverlauf. So ist die übliche Dauer von Mahlzeiten im Tagesverlauf
sehr unterschiedlich. Zusammenhänge bestehen mit der low versus high context Orientierung und der monochronischen versus polychronischen Ausrichtung. High context Kulturen nutzen die Einnahme von Mahlzeiten für Informationsaustausch und widmen dieser
eine entsprechend lange Zeitspanne. Für monochronische Kulturen ist vor allem die Einhaltung des Zeitplans essentiell.
Entsprechend der hohen Bedeutung von Zeit in monochronischen Kulturen, kommt der
Wahl von Zeitspannen Kommunikationscharakter zu. So signalisiert die Wartezeit, welche ein Gesprächspartner einem anderen auferlegt, die zugeschriebene soziale Stellung
und Wertschätzung. Vor allem bürokratische Systeme neigen zu dieser Ausdrucksform
von Macht und Unterordnung. Allerdings kann lange Wartezeit auch als Hinweis von
Desorganisation verstanden werden. In der interkulturellen Begegnung wesentlich ist jedoch, daß in polychronischen Kulturen Wartezeiten keine symbolische Kommunikationsbotschaft transportieren und entsprechende Interpretationen von seiten monochronischer
Kulturen voreilig oder völlig unbegründet sind.
Kulturspezifische Muster der Zeitwahrnehmung, Raumstrukturierung und Kontextorientierung implizieren bestimmte Formen des Informationsflusses in und durch Organisationen. Monochronische Kulturen verarbeiten einlangende Informationen nicht unmittelbar,
sondern ordnen diese dem Zeitplan unter. Im Zusammenwirken mit einer low context Orientierung erfolgt der Informationsfluß linear in vordefinierter Weise. Polychronische
Kulturen verarbeiten viele Informationen spontan und parallel. Die damit verbundene
36
high context Ausrichtung bewirkt ein starkes Diffundieren der Information durch viele
Bereiche der Organisation gleichzeitig. Dies gewährleistet einen rascheren Informationsfluß und entsprechend schnellere Reaktionen.
Bestimmten Schemata, welche die einzelnen Schritte im Ablauf von Aktivitäten regeln,
kommt in verschiedenen Kulturen unterschiedliche Stringenz zu. Monochronische Kulturen legen großen Wert auf die genaue Einhaltung der Phasen. Nicht vorgesehene Zwischenschritte, wie ad hoc initiierte Treffen, werden als störende Unterbrechungen erlebt.
Änderungen im Ablauf stellen aus monochronischer Sicht die Gesamtplanung in Frage.
Für polychronische Kulturen sind Zeit- und Ablaufpläne weniger strikt. Neue Informationen können zu einem raschen Überdenken des vorgefaßten Ablaufs führen. Aufgrund der
hohen Kontextinformation aller Mitglieder eines Projekts ist es eher wahrscheinlich, daß
ein Beteiligter mit dem Fortgang unzufrieden ist und Änderungen moniert im Vergleich
zum fraktionierten Prozeß in einer monochronischen Kultur, wo bis zum vordefinierten
Zeitpunkt des Informationsaustausches individuell gearbeitet wird.
Die skizzierten Dimensionen von Kultur demonstrieren, wie gegensätzlich Kulturen in ihren Kommunikationsstandards sein können. Die eigenen, von frühester Kindheit an erlernten Verhaltens- und Interpretationsmuster sind in der interkulturellen Begegnung
nicht mehr adäquat, führen zu Mißverständnissen und Fehlinterpretationen. Die Aneignung fremdkultureller Standards zum besseren Verständnis kann die Interaktion erleichtern. Während jedoch die eigenkulturellen Muster weitgehend routinisiert und unbewußt
wirksam sind, sind neu erlernte Standards kognitive Konzepte, die nicht automatisch ablaufen. Sie helfen bei der kulturadäquaten Dekodierung, dennoch können Emotionen vor
dem Hintergrund der Frustration eigener Standards entstehen (vgl. Brislin und Yoshida,
1994, S.55), welche die interkulturelle Kommunikation nichtsdestotrotz zu einer großen
Herausforderung machen. So kann ein Interviewer aus einer monochronischen Kultur mit
einem festen Zeitplan, welcher in einem polychronischen Umfeld Befragungen durchführen soll, zwar kognitiv verstehen, daß sein Zeitplan nicht einhaltbar ist, weil sich seine polychronischen Interviewpartner leicht ablenken lassen und nicht an vereinbarte Zeiten
halten. Dennoch sind emotionale Folgen, wie Verärgerung und Unmut möglich (vgl. dazu
ein Beispiel in Hall und Hall, 1990, S.22). Auch wird klar, daß sich die gesamte Organisation kultursensitiv verhalten muß. Ist dies lediglich beim Interviewer der Fall (im Sinne
37
einer Akzeptanz polychronischer Rhythmen), so werden die Auftraggeber des Interviewers das Nichteinhalten des Plans nicht nachvollziehen können.
Für Hall und Hall (1990, S.26f) gestalten sich interkulturelle Projekte dann besonders
schwierig, wenn eine involvierte Kultur (oder die betroffene Branche) hohe Kontextinformation erfordert. Weiters erschwert hohe Komplexität des Projektgegenstandes (Elemente,
Ebenen,
Stellenwert
von
menschlichen
Aktivitäten)
die
interkulturelle
Kommunikation. Im allgemeinen nimmt die Problematik mit steigender Unterschiedlichkeit der Kulturen (kulturelle Distanz) zu.
Einen besonderen Stellenwert bei der Bewältigung nimmt das aktive und passive Informationsverhalten ein. Low context Kulturen erwarten ausführliche und vor allem explizite Informationen. Mitglieder von high context Kulturen müssen dementsprechend
Informationen liefern und können nicht auf implizites Wissen vertrauen. Umgekehrt müssen sich high context Kulturen bewußt sein, daß ausdrückliche Informationen in low context Kulturen üblich sind und nicht signalisieren, daß der betreffende Adressat darüber
nicht Bescheid wisse.
3.3.2 Kulturdimensionen nach Kluckhohn und Strodtbeck (1975)
Ein weiterer Ansatz der Konzeptualisierung von Kultur stammt von Kluckhohn und
Strodtbeck (1975, zusammenfassende Darstellung z.B. bei Robbins, 1996) und umfaßt
sechs Dimensionen. Die erste bezieht sich auf die Beziehung von Mensch und Natur bzw.
Umwelt („relationship to the environment“). Die Ausprägungen auf dieser Dimension reichen von Unterordnung des Menschen gegenüber der Natur, über eine harmonische Beziehung bis hin zur Dominierung der Natur durch den Menschen. Kulturen, die sich
Umwelteinflüssen unterordnen bzw. sich als - mehr oder weniger gezwungenermaßen unterordnend erleben, sehen Ereignisse als natur- oder gottgegeben, während die Umwelt
dominierende Kulturen sich als die Natur kontrollierend sehen (Robbins, 1996, S.53). Der
Ausdruck „kontrollierend“ legt eine Bezugnahme auf das Konzept der Attribution aus der
Sozialpsychologie nahe (vgl. exemplarisch Herkner, 1991, S.345). Die Attributionstheorie befaßt sich auf individueller Ebene mit Ursachenzuschreibungen. Vereinfacht können
Ereignisse und Ergebnisse von - auch sozialen - Handlungen ursächlich entweder auf die
eigene Person zurückgeführt werden (erlebte Kontrollierbarkeit) oder auf äußere Umstände (Zufall, mächtige andere Personen; erlebte Unkontrollierbarkeit). Das Konzept von
38
Kluckhohn und Strodtbeck sieht in der Kulturzugehörigkeit einen allgemeinen Einflußfaktor des Attributionsstils. Für die Zielsetzung in Organisationen wirkt sich die Ausprägung auf dieser Dimension insoweit aus, als sich unterordnende Kulturen der Setzung von
Zielen grundsätzlich eine geringe Bedeutung zuweisen, da deren Erreichung ohnehin
nicht auf eigenem Tun basieren kann (Robbins, 1996, S.53). Kulturen in Harmonie mit
Umwelteinflüssen setzen zwar Ziele, sind bei deren Erreichung aber flexibel und Zielanpassungen gegenüber aufgeschlossen. Die Natur dominierende Kulturen fixieren Ziele
mit hoher Bestandskraft. Die Erreichbarkeit wird als im Vermögen des Betroffenen erlebt,
eine Divergenz von Soll- und Isterfüllung dementsprechend der Person angelastet.
Die zweite Dimension wird als Zeitorientierung bezeichnet und erinnert an die Dimension
des Fokus der zeitlichen Orientierung bei Hall und Hall (1990). Bei Hall und Hall wird
mit Zeitorientierung in erster Linie eine zeitliche Schwerpunktsetzung gemeint. Ein vergangenheitsbezogener Fokus bewirkt, daß Probleme und deren Lösungen stets vor ihrer
geschichtlichen Genese betrachtet werden, während gegenwartsbezogene und auf die
nahe Zukunft gerichtete Kulturen dem historischen Hintergrund nur sehr untergeordnet
berücksichtigen. Bei Kluckhohn und Strodtbeck wird auf eine Zeitraumperspektive abgestellt. So weist in diesem Sinne Japan eine langfristige Ausrichtung auf (Robbins, 1996,
S.54). Dementsprechend werden beispielsweise Mitarbeiter in langen Intervallen evaluiert und haben oft bis zu 10 Jahre und mehr Zeit, sich zu profilieren. Dagegen sind die
USA als kurzfristig orientierte Gesellschaft durch wesentlich kürzere Evaluationszyklen
gekennzeichnet, da Zielerreichungen in kurzen Fristen überprüft werden.
Dimension
(Extrem-)Ausprägungen
Relationship to the environment
domination - harmony - subjugation
Time Orientation
past - present - future
Nature of People
good vs. evil
Activity Orientation
being - controlling - doing
Focus of Responsibility
individualistic - group - hierarchical
Conception of Space
private vs. public
Tabelle 2: Kulturdimensionen nach Kluckhohn und Strodtbeck (1975)
39
Die dritte Dimension im Rahmen des Kulturkonzepts von Kluckhohn und Strodtbeck beschreibt die Grundeinstellung zur menschlichen Natur. Diese kann in ihren Extremausprägungen positiv („gut“) oder negativ („böse“) sein. In Abhängigkeit von diesem
grundlegenden Menschenbild sind Präferenzen hinsichtlich von Führungsstilen naheliegend (Robbins, 1996, S.54). Für Kulturen mit negativem Menschenbild erscheinen autokratische Stile vorteilhafter und adäquater. Robbins (1996, S.54) führt als Beispiel
Nordkorea an. Kulturen mit mittlerer Ausprägung (nach Robbins, 1996, S.54, z.B. die
USA) bevorzugen partitive Führungsstile, allerdings mit Kontroll- und Evaluationsroutinen. Für Gesellschaften mit unbeschränkt positivem Menschenbild erscheinen solche
Kontrollmaßnahmen überflüssig, Führungsstile nähern sich dem laissez-faire an. Robbins
nennt allerdings kein praktisches Beispiel dazu.
Aktivitätsorientierung ist die vierte Dimension des Konzepts. Für diese Dimension werden drei Ausprägungstypen angegeben: Kulturen mit dem Schwerpunkt auf Aktivitäten
(„doing“), solche die sich auf das Sein, die Existenz des Augenblicks ausrichten („being“)
und schließlich solche, die schwerpunktmäßig Kontrolle ausüben wollen („controlling“).
Für „doing“-Kulturen wie z.B. die USA (Robbins, 1996, S.55) steht harte Arbeit im Vordergrund mit der Erwartung entsprechender materieller und nichtmaterieller Honorierung. „Being“-Kulturen wie z.B. Mexiko stellen demgegenüber die „Muße des
Augenblicks“ in Form einer ausgedehnten Siesta in den Vordergrund. Frankreich als Beispiel einer „controlling“-Kultur wählen demgegenüber einen rationalen und logischen
Zutritt. Als Gemeinsamkeit der „controlling“- und der „doing“-Ausrichtung wird die rationale Grundhaltung betrachtet, während „being“-Kulturen Entscheidungen primär emotional fällen (Robbins, 1996, S.55).1
Die Dimension Fokus der Verantwortlichkeit spiegelt den Gegensatz von Individualismus versus Kollektivismus wider. Verantwortlichkeit kann individualistisch (z.B. USA)
oder gruppenbezogen (z.B. Malaysia, Israel) sein. Mittlere Ausprägungen werden als
hierarchisch bezeichnet (z.B. Frankreich, Großbritannien). Die sechste und abschließende
Dimension bei Kluckhohn und Strodtbeck betrifft die Konzeptualisierung des Raumes.
1. Diese Beurteilung ist meines Erachtens mit größter Vorsicht zu betrachten, besteht doch die
Gefahr vor dem eigenen kulturellen Hintergrund jede Abweichung davon bei fremden Kulturen als irrational oder emotional einzuordnen. Vor allem aufgrund der wertenden Konnotationen des Begriffs „rational“ sollte dieser wie auch alle anderen Inferiorität einer Kultur
vermuten lassende Termini im Bereich der Beschreibung von Kulturen vermieden werden.
40
Diese kann in ihren Extremen privat oder öffentlich sein und ähnelt der Raumstrukturierung bei Hall und Hall (mehr oder weniger umfangreicher persönlicher Raum und territoriale Anordnung). Öffentlich orientierte Kulturen räumen der Privatsphäre weniger
Stellenwert ein. Dementsprechend dominieren in Japan als öffentliche Kultur Großraumbüros, welche hierarchieübergreifend Mitarbeiter beherbergen. In den USA als private
Kultur sind abgeschlossene Einzelbüros entsprechend weit verbreitet. Zusammenhänge
lassen sich auch mit anderen Dimensionen bei Hall und Hall erkennen. So ist Informationsfluß in öffentlichen Kulturen schneller und weniger linear, wodurch wiederum ein hoher Kontextinformationsstand erzielt wird.
3.3.3 Kulturdimensionen nach Hofstede (1980, 1993)
Ein umfassendes, auf umfangreichen empirischen Daten basierendes Konzept des Konstrukts Kultur entwickelte Hofstede (1980, 1993). Als Grundlage dienen Hofstede Datenerhebungen in 64 Ländern (Hofstede, 1992, S.306), wobei über 160 Items in 18
verschiedenen Sprachversionen zum Einsatz kamen (Hofstede, 1984, S.42). Insgesamt
wurden in drei Befragungszyklen mehr als 160.000 Personen befragt, welche weltweit in
Tochtergesellschaften eines in den USA ansässigen Unternehmens bzw. im Mutterunternehmen selbst tätig sind. Das Unternehmen wird zum Teil nicht namentlich genannt, sondern unter dem Pseudonym Hermes adressiert (Hofstede, 1984, S.62), an anderer Stelle
aber als IBM identifiziert (Hofstede, 1993, S.28). Die Datenanalyse zielte auf die Ermittlung von Dimensionen ab, in welchen sich geographisch abgrenzbare Einheiten voneinander unterscheiden. Da der Untersuchung nur ein Unternehmen und damit eine
einheitliche Unternehmenskultur zugrunde liegt, wurde der mögliche Einflußfaktor Organisationskultur konstant gehalten. Empirisch festgestellte Unterschiede lassen sich daher
auf allgemein-kulturelle Standards zurückführen. Hofstede ermittelte ursprünglich vier
Dimensionen, auf welchen sich Kulturen überdauernd unterscheiden.
41
Dimension
Individualismus - Kollektivismus
Maskulinität - Femininität
Ungewißheitsvermeidung
Machtdistanz
Langfristige - kurzfristige Orientierunga
a. Diese Dimension wurde erst in einer
ergänzenden Studie gefunden (Hofstede,
1984).
Tabelle 3: Kulturdimensionen nach Hofstede (1980, 1984)
Die erste Dimension wird entsprechend ihrer Extremausprägungen als IndividualismusKollektivismus-Dimension bezeichnet. In individualistisch geprägten Kulturen sehen
sich Menschen primär als Einzelindividuen mit hoher Wertschätzung für persönliche
Selbstbestimmung und Entscheidungsfreiheit. In kollektivistischen Kulturen erleben sich
Menschen dagegen in erster Linie als Teil einer Gruppe. Erfolge wie Mißerfolge werden
gruppenbezogen attribuiert. Die empirischen Ergebnisse von Hofstede (1991, S.53), basierend auf einem Individualismus-Index, weisen die USA im Rahmen von 53 Ländern
und 3 Regionen („arabische Länder“, „Ost-Afrika“ und „West-Afrika“) als die am meisten individualistisch geprägte Kultur aus (mit einem Score von 91 auf einer Skala von 0
bis 100). Diese und alle weiteren Scores stellen allerdings nur relative Positionen der Länder zueinander dar, da die Werte auf Faktorscores beruhen. Die unmittelbar folgenden
Kulturen (Australien mit 90, Großbritannien 89, Kanada und Niederland je 80) sind ebenfalls typische Vertreter sogenannter „westlicher“ Kulturen. Österreich liegt mit 55 Punkten im mittleren Bereich der Skala und markiert den Wendepunkt von individualistischen
zu kollektivistischen Kulturen. Letztere umfassen asiatische Länder (wie z.B. Malaysia
mit 26 Punkten, Hongkong 25, Thailand 20, Südkorea 18 oder Indonesien 14), arabische
Staaten (als Region zusammengefaßt mit einem Score von 38), südamerikanische Länder
(Kolumbien 13, Ecuador 8 oder Guatemala 6), aber auch südeuropäische Kulturen (Griechenland 35, Portugal 27 und Jugoslawien 27).
42
Betrachtet man die Dimension Individualismus versus Kollektivismus vor dem Hintergrund Freud’scher Sicht von Kultur (als Einschränkung individueller Freiheit), so könnte
man diese Dimension auch als Stärke der Durchsetzung kultureller Normen sehen. Individuelle Freiheit ist kein Kulturgut (Freud, 1930, S.226), sondern vielmehr der Gegenpol
von Kultur! Individualistische Kulturen zeichnen sich demnach durch weniger reglementierende Einflüsse, damit in gewisser Weise durch „weniger Kultur“, aus. Kultur ist in diesem, wie auch in jedem anderen, auf den in dieser Arbeit Bezug genommen wird, freilich
wertfrei zu sehen. Kultur wird in keiner Weise als Vervollkommnung gesehen (vgl.
Freud, 1930, S.226). In kollektivistischen Kulturen dagegen ist das kulturelle Regelwerk
umfangreicher, drängt individuelle Freiheit stärker zurück. Dieser Sichtweise folgend,
wäre die Dimension Individualismus versus Kollektivismus eine Metadimension gegenüber weiteren Dimensionen, welche die Wirkungsweise der kulturellen Beeinflussung inhaltlich beschreiben. Der Unterschied in der Interpretation liegt darin, daß nach Hofstede
in kollektivistischen Kulturen die Individuen stärker gruppenorientiert sind, also die Ziele
der Gruppe zu den eigenen, individuellen machen. Legt man die Sichtweise Freuds zugrunde, so sind die Ziele der Individuen in kollektivistischen Kulturen keineswegs andere
als in individualistischen Gesellschaften, die Individuen sozusagen keine „Termiten“,
sondern allein die Stärke der Durchsetzung und die Mannigfaltigkeit kultureller Einschränkung ist stärker.
Die zweite von Hofstede identifizierte Dimension baut auf Charakteristika traditioneller
Geschlechtsrollen auf und wird dementsprechend durch ihre Extremausprägungen maskuline versus feminine Orientierung bezeichnet. Im Falle maskuliner Orientierung genießt das Leistungsstreben Vorrang vor zwischenmenschlichen Zielsetzungen, wie
Solidarität, soziale Beziehungen und Sensitivität. Feminin orientierte Kulturen verfolgen
umgekehrte Prioritäten. Hofstede rechtfertigt die Wahl der Begriffe und vor allem die Zuordnung von maskulin zur „harten“ Rolle und feminin zur „weichen“ Rolle, damit, daß
diese Entsprechung soziale Realität ist und keine persönlichen Vorlieben widerspiegelt
oder widerspiegeln soll (Hofstede, 1991, S.107, Fußnote 1). Überdies ist auf die Kontinuierlichkeit der Dimension hinzuweisen, das Begriffspaar maskulin und feminin markiert
lediglich Extremausprägungen. Weiters bedeutet ein Dimensionswert einer Kultur nicht,
daß zwischen den biologischen Geschlechtern keinerlei Unterschiede hinsichtlich ihrer
43
Wertvorstellungen bestünden (Hofstede, 1991, S.85). Vielmehr stellt der Dimensionswert
einer Kultur lediglich ein Durchschnittsniveau dar.
Ein Maskulinitätsindex (Skala 0 bis 100) sieht Japan als die am stärksten maskulin geprägte Kultur (95 Punkte, Hofstede, 1991, S.84), gefolgt von Österreich (79) und Venezuela (73). Am entgegengesetzten Pol befinden sich die skandinavischen Staaten
(Schweden 3, Norwegen 8 und Dänemark 16), sowie die Niederlande (14). Auffallend ist
die hohe Variabilität innerhalb abgeschlossener Weltgegenden. So sind Vertreter Südamerikas unter 50 Ländern und 3 Regionen an 3. Stelle (Venezuela), an 27. Stelle (Brasilien), an 37. Position (Peru), sowie am 46. Rang zu finden, verteilen sich also über das
gesamte Skalenspektrum. Gleiches gilt für Asien (Philippinen an 11. Stelle, Thailand an
44.), für Nord- und Südeuropa.
Die dritte Kulturdimension nach Hofstede ist die mehr oder weniger stark ausgeprägte
Vermeidung von Ungewißheit. Kulturen mit starker Ungewißheitsvermeidungstendenz
versuchen, über zukünftige Situationen größtmögliche Klarheit zu gewinnen. Neuartige,
ungewohnte Situationen werden als unangenehm erlebt. Dementsprechend werden langfristige Planungen bevorzugt (vgl. Müller und Kornmeier, 1995). Kulturen mit geringerer
Vermeidungstendenz für Ungewißheit sind gegenüber Änderungen und neuen Situationen toleranter. Ein entsprechender Index (Hofstede, 1991, S.113) sieht Griechenland
(Score 112) als die Kultur mit der größten Unsicherheitsvermeidung. Österreich liegt im
Mittelfeld (70 Punkte, 24. Position). Die Länder mit der geringsten Ausprägung sind Singapur (8), Jamaica (13) und Dänemark(23).
Die vierte Dimension nach Hofstede bezeichnet die Machtdistanz, welche gesellschaftlich akzeptiert wird. Kulturen mit hoher Machtdistanz sind durch große Unterschiede hinsichtlich der sozialen Stellung der Individuen und des Prestige, welches diese genießen,
gekennzeichnet. Organisationen sind dementsprechend streng hierarchisch strukturiert,
Entscheidungen werden zentral getroffen (Müller und Kornmeier, 1995, S.149). Hofstedes Analysen weisen Malaysia als die Kultur mit der größten Machdistanz aus, Österreich
mit der geringsten. Müller und Kornmeier (1995, S.152) weisen daraufhin, daß Faktorenanalysen von auf Länderniveau aggregierten Daten bei orthogonaler Faktorenrotation lediglich drei Faktoren ergeben. Die Dimensionen Machtdistanz und Individualismus
44
versus Kollektivismus werden durch einen Faktor abgebildet. Auch aus einer Gegenüberstellung der beiden entsprechenden Indexwerte bei Hofstede (1991, S.54) ist ein Zusammenhang ersichtlich. Geringe Machtdistanz geht mit Individualismus einher. An anderer
Stelle findet sich bei Hofstede (1984, S.63) ebenfalls eine Faktorenanalyse auf länderaggregierter Ebene, welche zum gleichen Ergebnis, also drei Faktoren, kommt. Die vierdimensionale Lösung Hofstedes geht auf die Analyse von Teilstichproben zurück
(Hofstede, 1984, S.60).
In einer nachfolgenden Studie in 23 Ländern, welche von chinesischen Studenten durchgeführt wurde („The Chinese Culture Connection“, 1987), wurde eine fünfte Dimension
identifiziert, welche die zeitliche Orientierung erfaßt und dementsprechend „langfristige
versus kurzfristige Orientierung“ genannt wird (Hofstede, 1992, S.310). Unter langfristiger Orientierung werden Wertvorstellungen wie Fleiß und Durchhaltevermögen verstanden (Hofstede, 1992, S.311), kurzfristige Orientierung impliziert Achtung von
Traditionen, sozialen Verpflichtungen und das Streben, stets das „Gesicht zu wahren“
(Hofstede, 1992, S.311). Kulturen mit vergleichsweise kurzfristiger Ausrichtung sind Pakistan, die Region Westafrika, die Philippinen, aber auch Kanada und Großbritannien.
Langfristig orientiert sind China, Hongkong und Taiwan. Die Tatsache, daß sich diese
drei Staaten hinsichtlich ihrer Orientierung nicht unterscheiden, unterstreicht die hohe Bestandkraft kultureller Überlieferung. Weder der Einfluß einer - kurzfristig orientierten Kolonialmacht wie Großbritannien in Hongkong, oder der grundlegende Unterschied im
wirtschafts- und gesellschaftspolitischen System zwischen China einerseits und Hongkong, sowie Taiwan andererseits, zeigen Auswirkungen auf diese Kulturdimension.
In Darstellungen Hofstedes Konzept der Kulturdimensionen wird jedoch meist nur auf
jene vier Dimensionen Bezug genommen, welche in der ursprünglichen Studie (IBM) gefunden wurden (vgl. exemplarisch Robbins,1996, S.56ff). Die Dimension feminine versus maskuline Orientierung wird gelegentlich anders benannt, um einerseits den Anschein
einer Dichotomie und andererseits eine Zuordnung der Merkmale zum biologischen Geschlecht zu vermeiden. Robbins (1996, S.57) bezeichnet die Dimension daher als Gegensätzlichkeit von Quantität („money“, maskuliner Pol) und Qualität des Lebens (soziale
Beziehungen, femininer Pol).
45
3.4 Zusammenfassende Betrachtung der Konzepte
Alle drei behandelten Kulturkonzepte stellen eine sinnvolle und vielversprechende
Grundlage dar, die Variable Kultur in Vergleichsstudien weit über die bloße Unterscheidung anhand des Kriteriums „Land“ hinaus einzubeziehen. Zwischen den einzelnen Ansätzen bestehen Überschneidungsbereiche, aber auch Unterschiedlichkeiten der
Begriffsdefinitionen, welche es zu beachten gilt, wenn einzelne Komponenten kombiniert
werden. Die Wahl von Dimensionen entlang derer eine Operationalisierung von Kultur
erfolgen kann, muß vor dem Hintergrund der konkreten Problemstellung beurteilt werden. Holzmüller (1995, S.171f) plädiert für Operationalisierungen, welche „sowohl harte
(objektive) als auch weiche (subjektive) Indikatorvariablen einbeziehen“. Als harte Kriterien bieten sich beispielsweise volkswirtschaftliche Daten an (das Pro-Kopf-Bruttosozialprodukt korreliert positiv mit Individualismus, Hofstede, 1993, S.93), oder
sozialwirtschaftliche, wie z.B. Frauenbeschäftigungsrate oder Streuung des Bildungsniveaus.
Aus theoretischer Sicht besteht ein Defizit hinsichtlich der Integration der verschiedenen
Ansätze. Clark (1990) unternimmt den Versuch, mehrere Konzepte in einem gemeinsamen Rahmen zu plazieren (vgl. auch Holzmüller, 1995, S.171). Die drei grundlegenden
Bereiche umfassen das Verhältnis zur Autorität, zum Selbst und zum Risiko. Diese gehen
in ihrer Charakterisierung auf Arbeiten von Inkelsen und Levinson (1969) zurück. Hofstedes Dimension Machtdistanz behandelt das Verhältnis zur Autorität, die Dimensionen
Maskulinität und Individualismus die Beziehung zum Selbst und die Unsicherheitsvermeidungstendenz das Verhältnis zum Risiko. Bereits erwähnte empirische Befunde, wonach die Dimensionen Machtdistanz und Individualismus korrelieren (vgl. Müller und
Kornmeier, 1995, S.152) stellen diese Zuordnung allerdings in Frage.
3.5 Interkulturelle und intrakulturelle Variabilität
Ein möglicher Ansatz für Kritik an Kulturkonzepten ist die Relevanz interkultureller Unterschiede auf der Basis von länderaggregierten Größen vor dem Hintergrund intrakultureller Variabilität. Je größer die Varianz eines Merkmals innerhalb einer als Kultur
abgegrenzten Einheit (Naroll, 1970, zitiert in: Triandis, 1980, S.2; verwendet den Begriff
cultunit), desto bedeutungsloser sind Unterschiede der mittleren Ausprägungen zwischen
den Einheiten. Aufgrund der hohen Heterogenität der Kulturgruppen sind solche Verglei46
che mit konzeptuellen Problemen behaftet (Triandis, 1980). Hall und Hall (1990, S.xx)
lösen dieses Problem, in dem sie sich explizit nicht auf die Gesamtheit der Bevölkerung
beziehen, sondern auf urbane Geschäftsleute, wie z.B. im Falle Frankreichs auf die Gebiete Paris und Lyon oder in Deutschland auf die Städte Frankfurt, Düsseldorf, Köln oder
Hamburg. Diese Subkulturen sind homogener im Vergleich zu Gesamtkulturen. Auch
Hofstedes Arbeiten beruhen auf empirischen Erhebungen in einem Unternehmen und sind
daher wirtschaftsbezogen. Insoweit erscheint die Übertragbarkeit der Konzepte auf die internationale Managementforschung naheliegender als die Anwendung in der internationalen Konsumentenforschung, entstammen die Ergebnisse und Konzeptualisierungen
doch der Managementforschung. Für die empirische Marketingforschung im allgemeinen
und der Konsumentenforschung im speziellen ist jedoch gerade die Überprüfung der
Übertragbarkeit eine Frage, die es zu beantworten gilt. Nur durch empirische interkulturelle Studien läßt sich beispielsweise überprüfen, inwieweit kulturbedingte Verzerrungen
bei Datenerhebungen auftreten und ob Beziehungen zu den genannten kulturellen Dimensionen bestehen.
Die Gegenüberstellung von interkultureller und intrakultureller Variabilität muß sich
letztlich mit der Frage auseinandersetzen, ob die kulturelle Zugehörigkeit einen direkten
Einfluß auf individuelle psychologische Charakteristika (Persönlichkeitseigenschaften)
ausübt. Für Verfechter des Konzepts des Nationalcharakters (Inkelsen und Levinson,
1969) bestimmt die kulturelle Zugehörigkeit das durchschnittliche Niveau einer Persönlichkeitseigenschaft. Mitglieder einer Kultur weisen demnach - ungeachtet einer interindividuellen Verteilung - auf einer Persönlichkeitsdimension im Durchschnitt höhere
Werte auf als Mitglieder einer anderen Kultur. Die empirische Überprüfung eines solchen
Zusammenhangs erfordert daher Meßinstrumente, welche valide Mittelwertsvergleiche
erlauben und frei von additiven Biases sind.
Das Konzept des Nationalcharakters ist im Hinblick auf seine möglichen Implikationen
problematisch. Die - berechtigte oder unberechtigte - Annahme eines als kulturell begründeten Niveaus einer Persönlichkeitseigenschaft, deren Ausprägungen unterschiedlich bewertet werden (wie z.B. Aggressivität, Bestreben zu dominieren, etc.), kann die Basis für
nationale Stereotypien und Vorurteile sein. Die Existenz von Nationalcharakteren wurde
weder eindeutig bestätigt noch widerlegt (Usunier, 1996, S.15). Linton (1945, zitiert in
47
Usunier, 1996, S.15), ein Vertreter der Gegenposition, geht davon aus, daß Persönlichkeitseigenschaften individueller Natur sind und durch kulturelle Variablen nicht direkt
beeinflußt werden. Die Wirkung von Kultur zeige sich zwar auf der Verhaltensebene, wo
kulturelle Standards die Integration des Einzelnen in die Gesellschaft formen und bestimmen, nicht aber auf der Ebene von Persönlichkeitsvariablen. Kultur wäre demnach eine
das Verhalten moderierende Variable. Eine gleiches Niveau zweier Kulturen auf einer
Persönlichkeitseigenschaft ließe demzufolge nicht notwendigerweise auf gleiche Verhaltensweisen schließen. Dies ist konsistent mit Kotlers (1994) Sicht, wonach Kultur vor sozialen, persönlichen und psychologischen Faktoren den stärksten Einfluß auf das
Konsumentenverhalten ausübt. Für die internationale Marktforschung bedeutet dies, daß
der verhaltensbezogenen Validierung von Skalen ein hoher Stellenwert zukommt.
48
4 Methodische Probleme der kulturübergreifenden Forschung
„Given the present state of affairs we would submit that it is unwarranted to
ignore the problem of equivalence in intercultural studies. After all, comparing
inequivalent data gives misleading outcomes about the nature and extent of
cross-cultural differences in behavior.“
Malpass und Poortinga (1986, S.82)
4.1 Kulturübergreifende (Markt-)Forschung als wissenschaftliche Disziplin
Wissenschaftsdisziplinen lassen sich in der Regel durch ihre inhaltliche Domäne definieren bzw. voneinander abgrenzen. Der kulturübergreifenden bzw. kulturvergleichenden
Forschung (cross-cultural research) fehlt - abgesehen von der Einbeziehung der Variable
Kultur - die inhaltliche Bestimmbarkeit. Sie definiert sich primär durch die angewandten
Methoden (Berry, 1980, S.1). „The field of cross-cultural psychology is, to a large extent,
defined by its methods.“ (Lonner und Berry, 1986, S.11). Auch für Manrai und Manrai
(1996) nimmt die (Weiter-)Entwicklung adäquater Methoden in der internationalen Marketingforschung eine bedeutsame Rolle ein.
Eine mögliche Grundlage kulturübergreifender Forschung ist der Vergleich („Cross-cultural refers to comparisons of cultures.“, Triandis, 1980, S.2, Hervorhebung im Original).
Der Vergleich ist geradezu ein Grundparadigma der wissenschaftlichen Methodik. Ohne
Vergleiche könnten weder Unterschiede und Gemeinsamkeiten, noch Kovariation oder
Kausalität beobachtet bzw. erschlossen werden (Berry, 1980, S.2). Kulturübergreifende
Forschung bedient sich also keines Methodenfunduses eigener Art, vielmehr ist die Methodologie „(...) the same for comparative research across cultures as for other areas of
empirical psychology (...)“ (Poortinga und Malpass, 1986, S.37). Allerdings ergeben sich
durch die Einbeziehung der Kultur Unterschiede in den „difficulties, issues and strategies“ (Poortinga und Malpass, 1986, S.37).
Kultur ist in diesem Sinne eine unabhängige Variable, deren Auswirkungen auf Verhaltensvariablen untersucht werden. Im Gegensatz zum klassischen Experiment ist dabei die
Manipulierbarkeit der unabhängigen Variable durch den Versuchsleiter allerdings naturgemäß nicht gegeben, insoweit es sich folglich um einen quasi-experimentellen Ansatz
handelt. „Essentially the method involves comparing two or more naturally occurring cases which differ substantially.“ (Berry, 1980, S.2, Hervorhebung im Original). Der quasiexperimentelle Ansatz birgt die Gefahr der Konfundierung verschiedener Effekte in einer
49
Variablen in sich. Für Campbell (1961, S. 449, zit. in Berry, 1980, S.2) ist „a comparison
of a single pair of natural objects (...) nearly uninterpretable“. Diagnostizierte Unterschiede in Abhängigkeit von der Ausprägung der Variable Kultur sind somit nicht eindeutig
kausal interpretierbar. „The problem in cross-cultural research is not the identification of
differences between groups in some focal aspect of bahavior, but rather to protect the scientific value of these differences by making them interpretable.“ (Poortinga und Malpass,
1986, S.33). Für den Ausschluß alternativer Erklärungsmuster entscheidend ist die Operationalisierungsform von Kultur (vgl. Kapitel 3.3 auf Seite 30). Ein auf mehrere Dimensionen abstellendes Kulturmodell liefert jene Kontextinformationen, die nach Hsu (1972)
die Voraussetzung für die Elimination rivalisierender Erklärungsansätze darstellt.
In diesem Zusammenhang ist insbesondere die theoretische Fundierung von Hypothesen
von großer Relevanz, wie sie auch von Manrai und Manrai (1996) gefordert wird. „With
no explicit theory to interpret observed relationships, these cannot be fitted into a cumulative and systematic body of knowledge.“ (Poortinga und Malpass, 1986, S.19). Die
theoretische Basis muß einen Zusammenhang zwischen der Ausprägung auf kulturellen
Dimensionen einerseits und der Ausprägung auf verhaltens- oder einstellungsbezogenen
Konstrukten anderseits schlüssig argumentieren. Werden kulturbedingte Unterschiede
theoriegeleitet auf einen kulturellen Aspekt oder eine bestimmte Kombination kultureller
Aspekte zurückgeführt und andere Aspekte bei der Auswahl der entsprechenden Kulturen
konstant gehalten (Quasi-Manipulation einer Kulturdimension), so ist die ursächliche
Rückführung auf diesen Aspekt naheliegend und vertretbar.
Kulturelle Vergleiche können auch als Ex-post-facto-Experimente (vgl. Chmielewicz,
1979, S.113) gesehen werden. Im Unterschied zum Labor- und zum Feldexperiment kann
der Forscher nicht aktiv die unabhängigen Variablen, die Kulturzugehörigkeit, verändern.
Deshalb sollte besser die Bezeichnung „zielgerichtete Beobachtung“ Verwendung finden
(Chmielewicz, 1979, S.113). Variationen der Kultur in der Realität werden beobachtet,
um vorhandene Hypothesen zu verifizieren oder zu falsifizieren. Wenngleich „es im Prinzip unerheblich ist, ob die Variation durch den Experimentator oder aus anderem Anlaß
erfolgt“, ist „im letzteren Fall gleiche oder höhere Sorgfalt anzuwenden“ (Chmielewicz,
1979, S.114). Für die tatsächliche Durchführbarkeit eines kulturellen Sozialexperiments
ist neben der logischen Möglichkeit (Widerspruchsfreiheit), vor allem die theoretische
50
Möglichkeit zu prüfen (vgl. Chmielewicz, 1979, S.116). Die theoretische Möglichkeit
wird beeinträchtigt, wenn keine prüfbaren Hypothesen vorhanden sind, sich die Sozialsysteme im Zeitablauf ändern und damit wiederholte Experimente zu unterschiedlichen Resultaten führen, sich die Experimentalvariablem von anderen Umwelteinflüssen nicht
isolieren lassen, oder wenn der Experimentator die Ergebnisse beeinflußt, etwa durch Interaktionseffekte, die sich daraus ergeben, daß Befragter und Interviewer nicht der selben
Kultur angehören.
Die inhaltliche Gemeinsamkeit aller kulturübergreifender Forschungsvorhaben liegt, naheliegend, in der Kulturbezogenheit der unabhängigen Variable. Die Variation der unabhängigen Variablen erfolgt auf der Ebene von Nationen oder kultureller Gruppen (Berry,
1980, S.3) und in der Regel nicht auf dem Niveau von Provinzen oder Subkulturen. Aus
methodischer Sicht bedeutet die Wahl möglichst distinkter Kulturen eine Maximierung
der Varianz der abhängigen Variable. Zielsetzung ist dementsprechend deren kulturbasierte Erklärung. Dazu kontrastierend untersucht der „varianzminimierende“ Forschungsansatz (z.B. Berry und Annis, 1974) die kritische Schwelle der kulturellen Distanz,
welche überschritten werden muß, um sich in statistisch bedeutsamen Unterschieden der
abhängigen Variable zu manifestieren.
Unabhängig von der Zielsetzung - Varianzmaximierung oder Varianzminimierung - erfolgt die Analyse auf der Ebene von (kulturellen) Gruppen und darin begründeter Unterschiede. Individuelle Differenzen sind somit nicht Gegenstand kulturübergreifender
Forschung (Berry, 1980, S.3). Wie schon die Betrachtung der Konzeptualisierungen des
Phänomens Kultur (vgl. Kapitel 3.3 auf Seite 30) ergab, sind kulturelle Charakteristika
stets gruppenbezogen und schließen individuelle Varianz nicht aus.
Aus Marketingsicht erscheint eine Kombination von kulturellen Variablen einerseits und
psycho-, sowie demographischer Variablen andererseits durchaus zielführend und vielversprechend. So muß die Überprüfung der Hypothese der weltweiten Annäherung der
Konsumentenbedürfnisse (Levitt, 1983) im Einzelfall sowohl kulturbezogene als auch
persönlichkeitsbezogene und demographische Variablen berücksichtigen. Die Überprüfung der korrekten Identifikation kulturübergreifender, aber homogener Kundensegmente
zielt demnach darauf ab, die Unabhängigkeit der Einstellungs- und/oder Verhaltensvaria-
51
blen von der Kulturzugehörigkeit zu bestätigen, gleichzeitig jedoch die Abgrenzbarkeit
der Segmente hinsichtlich psycho- und demographischer Variablen nachzuweisen. Die
Trennlinien der Segmentierung sind somit nicht kulturbestimmt, sondern verlaufen intrakulturell. Die große Bedeutung der Kulturzugehörigkeit für das Konsumentenverhalten
(nach Kotler, 1994, der dominante Einflußfaktor) läßt es jedoch nicht zu, grundsätzlich
anzunehmen, daß Kulturzugehörigkeit keine Auswirkung hätte. Dies ist vielmehr empirisch zu überprüfen. Kulturübergreifende Marketingforschung ist demnach nicht per se
darauf ausgerichtet, Unterschiede zu bestätigen, sondern vielmehr auch Gemeinsamkeiten
nachzuweisen, wenn dies theoriegeleitet plausibel erscheint. Grundvoraussetzung für inhaltliche Aussagen über bestehende Differenzen oder Gemeinsamkeiten ist die formale
Gültigkeit der angewendeten Theorie bzw. des Meßmodells. Dies ist konsistent mit der
Ansicht von Manrai und Manrai (1996), wonach interkulturelle Forschung die Grundlage
für die Verallgemeinerung von Konsumentenverhaltenstheorien darstellt. Die Varianz der
abhängigen Variablen kann nur dann vollständig untersucht und erklärt werden, wenn
diese durch die Betrachtung mehrerer Kulturen in ihrer Gesamtheit präsent ist (Berry,
1980, S.5). Für kulturübergreifende Marketingforschung ist somit definitionsgemäß die
Berücksichtigung des Einflusses der Kulturzugehörigkeit konstituierendes Element, dies
impliziert jedoch keine Beschränkung darauf.
Triandis et al. (1972, S.1) definieren kulturübergreifende psychologische Forschung folgendermaßen:
„Cross-cultural psychology includes studies of subjects from two or more
cultures, using equivalent methods of measurement, to determine the limits
within which general psychological theories do hold, and the kinds of
modifications of these theories that are needed to make them universal.“
Eine Analyse der Elemente dieser auf die kulturübergreifende Marketingforschung übertragbaren Definition läßt sich wie folgt zusammenfassen:
• Die betrachteten Untersuchungseinheiten müssen aus mindestens zwei verschiedenen
Kulturen stammen.
• Der Vergleich über Kulturen hinweg erfordert äquivalente Meßmethoden, welche sinnvolle Aussagen über Unterschiede oder Gemeinsamkeiten ermöglichen.
52
• Das primäre Ziel der Untersuchung ist die Ermittlung der Gültigkeitsgrenzen von Theorien.
• Eine weitere Zielsetzung besteht in der Generierung von Ansätzen zu Theorieanpassungen und -modifikationen zur Überwindung der eingeschränkten Gültigkeit von Theorien.
Die Zielsetzung kulturübergreifender Forschung ist demnach die Prüfung der transkulturellen Gültigkeit einer Theorie. Dies erfordert zum einen, trivial, die Einbeziehung mehrerer Kulturen, wie dies bereits angesprochen wurde, zum anderen aber auch äquivalente
Meßmethoden. Diese Grundvoraussetzung und die sich daraus ergebenden methodischen
Probleme sind letztlich das gemeinsame Element aller kulturübergreifenden Forschungsstudien. Meßmethoden gelten in diesem Zusammenhang dann als äquivalent, wenn das
Zustandekommen eines Meßwertes unabhängig von der kulturellen Zugehörigkeit in gleicher und damit vergleichbarer Weise erfolgt. Die Forderung äquivalenter Meßmethoden
ist allerdings keine spezifische der interkulturellen Forschung. Für jede Form der vergleichenden Forschung ist die Äquivalenz der Meßmethoden eine conditio sine qua non. In
der intrakulturellen Forschung wird diese Forderung in der Regel nicht explizit erhoben.
Es wird vielmehr davon ausgegangen, daß für anhand demo- und psychographischer
Merkmale beschriebener Gruppen meßmethodische Äquivalenz gegeben ist. Die Tatsache, daß diese Forderung im Rahmen der kulturübergreifenden Forschung explizit erhoben wird, und damit deren Überprüfung zum Untersuchungsgegenstand bzw. zur
Forschungsfrage wird, liegt in der Besonderheit der Variable Kultur begründet. Für innerhalb einer Kultur differenzierende Variablen wird zwar angenommen, daß diese, forschungslogisch, unabhängigen Variablen kausale Effekte auf abhängige Variablen der
Einstellung oder des Verhaltens hin ausüben. Die Unterschiedlichkeit der betrachteten
Subjekte manifestiert sich aber nur auf der inhaltlichen Ebene. Es wird jedoch nicht angenommen, daß die verschiedenen Ausprägungen der unabhängigen Variable auf der Metaebene, also auf der Ebene des Meßmodells, unterschiedliche Reaktionsweisen auf das
Meßinstrument bedingen. Im Gegensatz dazu impliziert unterschiedliche kulturelle Zugehörigkeit die Möglichkeit unterschiedlicher Reaktionsweisen auf Meßinstrumente (Items,
Stimuli) und damit ein nicht äquivalentes Zustandekommen von Meßwerten. Es ist dementsprechend nicht die grundsätzliche Relevanz der Meßäquivalenz, welche intrakulturelle Forschung von intrakultureller unterscheidet, sondern deren besondere Relevanz und
53
die daraus folgende explizite Thematisierung. Zweifelsohne ist die Dringlichkeit der
Überprüfung der Meßäquivalenz bei interkulturellen Studien ungleich größer. Doch auch
bei intrakulturellen Forschungsvorhaben stellt sich die Frage der Vergleichbarkeit. So ist
beispielsweise zu hinterfragen, inwieweit Erhebungsdaten unterschiedlicher Altersgruppen miteinander vergleichbar sind. Es ist denkbar, daß sich die im Lebensaltersverlauf unterschiedlich verteilenden Lernerfahrungen mit Erhebungsinstrumenten, wie z.B. mit
innovativen rechnergestützten Erhebungsformen auf der Basis neuer Informationstechnologien (World Wide Web, etc.), aber auch mit klassischen Fragebögen, in Form von Kohorteneffekten manifestieren. Vergleiche, welche ohne Reflexion solcher Effekte
vorgenommen werden, beruhen potentiell auf Meßartefakten.
Ein weiteres von der Problematik der Vergleichbarkeit besonders betroffenes Feld der Betriebswirtschaftslehre ist, aufgrund unterschiedlicher Formen betrieblicher Organisationskultur, die Personalwirtschaft. Ein beispielsweise zu Mitarbeiterevaluationszwecken
durchgeführter Vergleich von Erhebungsdaten über unterschiedliche Organisationskulturen hinweg liefert nur dann valide Ergebnisse, wenn die einzelnen Formen der Organisationskulturen keine spezifischen Reaktionsmuster auf Stimuli des Meßinstruments
bedingen. Organisationskulturen unterscheiden sich dabei grundsätzlich von „gewöhnlichen“ Subkulturen. Während Subkulturen innerhalb einer Kultur dieser untergeordnet
sind und eine Form der weitergehenden Ausdifferenzierung darstellen, kann eine unternehmensbezogene Organisationskultur auch Elemente aus völlig fremden Kulturen enthalten. Dies ist insbesondere dann zu erwarten, wenn sich ein Unternehmen im
ausländischen Eigentum befindet und fremdkulturelle Normen im Unternehmen wirksam
werden.
4.2 Vergleichbarkeit
Die Voraussetzung für sinnvolle Vergleiche, also für Vergleichbarkeit, ist das äquivalente
Zustandekommen von Meßwerten. Berry (1980, S.8) nennt zwei Aspekte der Vergleichbarkeit: „To compare two phenomena, they must share some feature in common; and to
compare them to some advantage, they should usually differ on some feature.“ Der erste
Aspekt („share some feature in common“) ist gleichbedeutend mit der Forderung, daß die
untersuchten Phänomene auf der gleichen Dimension abbildbar sein müssen. Vergleichbarkeit erfordert somit dimensionale Identität (Frijda und Jahoda, 1966). Berry betont,
54
daß die dimensionale Übereinstimmung gezeigt, also empirisch nachgewiesen werden
muß. Zwei Wege bieten sich dabei grundsätzlich an. Zum einen können „Universalien“
herangezogen werden; Phänomene, welche in ihrer Existenz aufgrund anthropologischer,
biologischer oder sprachlich-linguistischer Erkenntnisse universell, also kulturunabhängig sind (vgl. Lonner, 1980, für einen ausführlichen Überblick). So läßt sich etwa der Ausdruck von Emotionen („affective expression or mood“, Lonner, 1980, S.169) universell
auf einer bipolaren Dimension abbilden, die mit „low“ versus „high“ bezeichnet werden
kann. Für jede bekannte Kultur und jedes Individuum ist diese universelle Dimension anwendbar. Die Problematik von Universalien im Anwendungskontext der internationalen
Marketingforschung liegt in ihrer Abstraktheit. Selten sind Verhaltensweisen Forschungsgegenstand, welche auf so hoher Generalitätsebene angesiedelt sind, daß diese
den Anspruch der Universalität erheben könnten. Die alternative Möglichkeit der Gewährleistung von Vergleichbarkeit liegt in der empirischen Überprüfung und Bestätigung
der Äquivalenz von Erhebungsdaten. Die Grenzlinie zwischen (echten) Universalien, deren interkulturelle Vergleichbarkeit angenommen werden kann und Phänomenen, deren
Vergleichbarkeit empirisch nachgewiesen werden muß, ist allerdings nicht trennscharf.
„So-called universals appear to differ particularly in the extent to which they are accessible to objective analysis.“ (Poortinga und Malpass, 1986, S.44). Van de Vijver und Poortinga (1982) klassifizieren Universalien durch vier Kategorien. Konzeptuelle
Universalien sind theoretische Konzepte auf hoher Abstraktionsebene, welche aber einer
empirischen Analyse nicht unmittelbar zugänglich sind. Schwache („weak“) Universalien
sind solche, für die Konstruktvalidität in verschiedenen Kulturen nachgewiesen ist. Starke
(„strong“) Universalien sind dann gegeben, wenn ein Konzept auf einer Intervallskala
meßbar ist und intrakulturelle Unterschiede (z.B. Meßwertedifferenz zwischen zwei Zeitpunkten) kulturübergreifend vergleichbar sind. Strikte („strict“) Universalien bestehen
dann, wenn Konzepte auf einer identen Skala kulturübergreifend gemessen werden und
folglich absolute Vergleiche aussagekräftig sind. Abgesehen von der Klasse der konzeptuellen Universalien, gründen sich alle Formen der Universalien nach Van de Vijver und
Poortinga auf einer empirischen Überprüfung! Dies widerspricht terminologisch der Ansicht von Berry, wonach Universalien a priori und ohne die Notwendigkeit empirischer
Überprüfung Vergleichbarkeit gewährleisten. Für die Praxis der interkulturellen Forschung im Marketing ist die terminologische Abgrenzung aber zweitrangig. Die Klassifikation von Van de Vijver und Poortinga unterstreicht vielmehr, daß Vergleichbarkeit nur
55
auf sehr hoher Abstraktionsebene angenommen werden kann. Also auf einer Ebene, die
für die empirische Forschung weitgehend bedeutungslos ist.
Der zweite von Berry genannte Aspekt der Vergleichbarkeit betrifft die Unterschiedlichkeit der Phänomene („they should usually differ on some feature“). Dieser Aspekt unterscheidet sich grundsätzlich vom ersten Aspekt im Hinblick auf die Ebene der
Betrachtung. Die erste Forderung verlangt Identität auf der Metaebene der Dimensionalität und ist damit unabdingbare Voraussetzung für aussagekräftige Vergleiche. Die zweite
Forderung zielt auf unterschiedliche Ausprägungen der betrachteten Kulturen auf eben
der identen Dimension bzw. den identen Dimensionen ab. Während die erste Forderung
ein methodischer Imperativ ist, in Ermangelung dessen Vergleichbarkeit nicht gegeben
ist, stellt die zweite Forderung lediglich eine forschungspragmatische und -ökonomische
Richtlinie dar. „If such differences were not to be found, then comparative enquiry would
soon cease to be worthwile.“ (Berry, 1980, S.8). Werden also Phänomene untersucht, in
denen sich Kulturen nicht unterscheiden, so werden damit befaßte Forschungsvorhaben
auf Dauer zwecklos sein. Die Voraussetzung für diese Erkenntnis ist allerdings gerade
das Vorliegen einer Reihe empirischer Indizien, welche dafür sprechen, daß Unterschiede
nicht bestehen. „Cross-cultural psychology is about the explanation of differences - and
sometimes similarities - in the behavior of people belonging to different cultures.“ (Poortinga und Malpass, 1986, S.17, eigene Hervorhebung). Erst wenn durch eine Vielzahl von
Studien belegt ist, daß keine kulturbedingten Unterschiede hinsichtlich eines Phänomens
existieren, berührt ein weiteres Forschungsprojekt keine relevante Forschungsfrage. Für
Studien, die bis dahin durchgeführt wurden, ist Vergleichbarkeit allerdings im Sinne dimensionaler Äquivalenz eine Grundvoraussetzung. Für Adler (1983, S.30) ist die Schwerpunktsetzung der Suche nach Gemeinsamkeiten oder nach Unterschieden eine Funktion
des grundlegenden Forschungsansatzes. Ethnozentrische kulturübergreifende Forschung
geht von Theorien des Ausgangslandes aus und überprüft die Gültigkeit in anderen kulturellen Umfeldern. Die Zielsetzung besteht dabei in der Ausweitung des Gültigkeitsraumes
der Theorie, die Suche ist demnach auf Gemeinsamkeiten ausgerichtet. Polyzentrische
Forschung geht von keiner Ausgangskultur aus, sondern betrachtet mehrere Kulturen nebeneinander. Der Fokus der Forschung ist auf Unterschiede ausgerichtet. Komparative
Forschung stellt ebenfalls Kulturen einander gegenüber, zielt aber sowohl auf Unterschiede als auch auf Gemeinsamkeiten ab.
56
Der zweite Aspekt in Berry’s Formulierung nimmt somit auf die inhaltliche Sinnhaftigkeit eines Forschungsvorhabens Bezug (soll etwas verglichen werden). Der erste Aspekt
ist demgegenüber eine formale Forderung (kann etwas verglichen werden) und methodisch weitaus grundlegender. Die Zielsetzung vorliegender Arbeit ist demnach die Beantwortung methodischer Fragestellungen der Vergleichbarkeit, sowie die Erarbeitung ihrer
Voraussetzungen.
Poortinga und Malpass (1986, S.39) betonen, daß die empirische Prüfung der Universalität einer Theorie gerade erst durch empirische Studien demonstriert werden kann, welche
keine Unterschiede zwischen verschiedenen Kulturen zeigen. Die Suche nach kulturübergreifender Gemeinsamkeiten ist in diesem Sinne durchaus ein wertvoller Beitrag zur Prüfung von Theorien. Der Beachtung methodischer Probleme ist dabei höchste Priorität
beizumessen. Finifter (1977, S.155, zitiert in: Poortinga und Malpass, 1986, S.39) illustriert die Problematik: „Failure to reproduce a finding in the same culture usually leads
the investigator to question the reliability, validity and comparability of the research procedures used in the two studies for possible method artifacts. But failure to corroborate
the same finding in a different culture often leads to claims of having discovered ’cultural’
differences.“
Vergleiche über Kulturen hinweg und deren Sinnhaftigkeit werden jedoch auch grundlegend in Frage gestellt. Malinowski (1988) geht davon aus, daß jede Kultur nur in deren
eigenen Begriffssystemen verstanden werden kann und jede Art von Institution als Produkt des kulturellen Hintergrunds zu sehen ist („radikaler kultureller Relativismus“, vgl.
Poortinga und Malpass, 1986, S.41). Versuche, interkulturelle Vergleiche anzustellen,
sind demzufolge a priori zum Scheitern verurteilt. Durkheim (1981) geht ebenfalls davon
aus, daß soziale Phänomene nur im Rahmen der sie hervorbringenden kulturellen Rahmenbedingungen interpretierbar sind. Einen Ausweg, welcher diese Bedenken berücksichtigt, sieht Köbben (1970, zitiert in: Berry, 1980, S.9) darin, statt spezifischer Aspekte
(„single traits“), Komplexe aggregierter Einzelaspekte („complexes of traits“) zu untersuchen und zu vergleichen. Zu weit reichende Abstraktion ist aber ebenso problematisch.
„[T]he higher our level of abstraction the greater the danger that our generalizations are
commonplace“ (Köbben, 1970, S.585, zitiert in: Berry, 1980, S.9).
57
Die Frage des Abstraktionsniveaus ist demnach von zentraler Bedeutung. Ein zu geringes
Allgemeinheitsniveau birgt die Gefahr in sich, Vergleichbarkeit nicht gewährleisten zu
können. Ein zu hohes Niveau stellt die anwendungsbezogene Relevanz in Frage.
4.3 Interkulturelle Äquivalenz
Wie bereits dargestellt, ist, abgesehen von universellen Phänomenen (Universalien), die
Vergleichbarkeit durch interkulturelle Äquivalenz der Erhebungsdaten zu belegen. Für
Berry und Dasen (1974) sind drei Arten von Äquivalenz zu demonstrieren: funktionale
(functional), konzeptuelle (conceptual) und metrische (metric) Äquivalenz. Jede dieser
Formen „[provides] some evidence for dimensional identity“ (Berry, 1980, S.9).
4.3.1 Funktionale Äquivalenz (functional equivalence)
Der Begriff der funktionalen Äquivalenz geht auf Frijda und Jahoda (1966), sowie Goldschmidt (1966) zurück. Funktionale Äquivalenz ist nach Berry (1980) dann gegeben,
wenn die untersuchten Verhaltensweisen in allen untersuchten Kulturen Reaktionsformen
auf ein Problem sind, welches von allen Kulturen geteilt wird. Wenn die untersuchte Verhaltensweise in den betrachteten Kulturen mit unterschiedlichen Problemen assoziiert ist,
also eine unterschiedliche Funktionalität aufweist, so sind Vergleiche auf der Basis dieser
Verhaltensweise nicht möglich1.
4.3.2 Konzeptuelle Äquivalenz (conceptual equivalence)
Konzeptuelle Äquivalenz zielt nach Berry (1980, S.9) auf die Bedeutung der eingesetzten
Forschungsmaterialien (Stimuli, Konzepte) und des untersuchten Verhaltens ab. Nur
wenn die eingesetzten Reize, wozu auch die in einem Fragebogen verwendeten Items zu
zählen sind, in allen in der Untersuchung einbezogenen Kulturen die gleiche Bedeutung
haben, sind Vergleiche möglich. Als Möglichkeit, konzeptuelle Äquivalenz zu prüfen,
führt Berry die sorgfältige Untersuchung der lokalen Bedeutung von Konzepten im kognitiven System der jeweiligen Kulturen an. Operational erfaßt wird, soweit es sich um
sprachliches Material handelt, diese Forderung - zumindest zum Teil - durch die Übersetzungsäquivalenz (translation equivalence). Letztere gilt dann als gegeben, wenn die Vorgangsweise der Vorwärts-Rückwärts-Übersetzung (Brislin, 1970) erfolgreich angewandt
1. Grundsätzlich ist ein Vergleich, auch der sprichwörtliche von Äpfel und Birnen, immer „möglich“. Hier wird unter „möglich“ jedoch nicht die bloße Durchführbarkeit verstanden, sondern
die aussagekräftige Interpretierbarkeit eines Vergleichs.
58
wurde. Dabei wird der Text in der Ausgangssprache in die Zielsprache übersetzt und diese
Version wieder in die Ausgangssprache rückübersetzt. Für jede der beiden Übersetzungen
ist eine zweisprachige Person heranzuziehen. Stimmen die Originalversion und die aus
der Zielsprache rückübersetzte Version überein, so ist von sprachlicher Äquivalenz auszugehen. Die Übereinstimmung muß zwar nicht wörtlich sein, jedoch semantisch (vgl.
Holzmüller, 1995, S.230). Diese Vorgangsweise ist allerdings in der Praxis mit Problemen behaftet. So ist es beispielsweise denkbar, daß die Übersetzung in die Zielsprache
Fehler aufweist, die für die Ausgangssprache typisch sind, z.B. Germanismen in einer
englischsprachigen Übersetzung eines deutschen Textes. Solche Fehler werden von versierten Rückübersetzern erkannt. Im Zuge der Rückübersetzung wird der Ausgangstext
daher korrekt rekonstruiert, ohne eine entsprechend äquivalente Zielsprachversion zu gewährleisten (vgl. Holzmüller, 1995, S.230). Der Erfolg dieser Strategie hängt somit entscheidend von der Auswahl der zweisprachigen Übersetzer ab. Holzmüller (1995, S.229)
tritt für zweisprachige Personen ein, die beide Sprachen in deren jeweiligen kulturellen
Umfeldern erlernt haben. Dies gewährleistet eine profunde Kenntnis des kulturellen Kontextes einer Sprache, welche für ein präzises Verständnis der Semantik unabdingbar ist.
Bilingualen Personen, welche in ihrem Elternhaus zweisprachig aufgewachsen sind, fehlt
der authentische kulturelle Hintergrund, welcher für die Äquivalenz der Übersetzung entscheidend ist. Ein weiterer Prüfschritt zur Gewährleistung sprachlicher Äquivalenz ist die
Einschaltung einer Überprüfung der Zielsprachenübersetzung auf Verständlichkeit durch
einsprachige Personen, ehe die Rückübersetzung erfolgt (Holzmüller, 1995, S.231).
Die Erreichung sprachlicher Äquivalenz kann auch dadurch erleichtert werden, in dem
bei der Ausgangsversion sprachliche Anpassungen zugelassen werden. Im Gegensatz zur
zentrierten Übersetzung, wo die Ausgangsversion unveränderlich ist, werden bei der denzentrierten oder symmetrischen Übersetzung alle Versionen aufeinander abgestimmt
(Holzmüller, 1995, S.231). Dies stellt letztlich einen zusätzlichen Freiheitsgrad für die
Übersetzung dar.
Unabhängig von der Zulässigkeit der Anpassung des Ausgangstextes, sollte dieser bereits
so formuliert werden, daß äquivalente Übersetzungen erleichtert werden. So sollte auf
grammatikalische Konstruktionen oder sprachliche Eigentümlichkeiten verzichtet werden, die lediglich in der Ausgangssprache möglich sind, in anderen Sprachen aber keine
59
Entsprechungen finden. Brislin (1980, 1986, vgl. auch Holzmüller, 1995, S.226f) formuliert zwölf Regeln zur Gestaltung des Ausgangstextes. Diesen zufolge soll die Originalversion aus kurzen Sätzen bestehen, Passiv-Konstruktionen sollten ebenso vermieden
werden, wie Möglichkeitsformen. Diese Richtlinien sind allerdings auf die englische
Sprache ausgerichtet (Holzmüller, 1995, S.227; Bauer, 1989, S.37) und nicht unbedingt
auf andere Sprachen anwendbar. Als allgemeine, kultur- und sprachunabhängige Regel
schlägt Holzmüller (1995, S.227) den Einsatz multikultureller Teams bei der Entwicklung
verbaler Erhebungsinstrumente vor.
Ein anderer Ansatz zur Überprüfung der konzeptuellen Äquivalenz nach Berry (1980) ist
der Einsatz des semantischen Differentials (Osgood, 1953, 1965; Osgood et al., 1957).
Dieses Verfahren dient der Erfassung und Messung der konnotativen Bedeutungen eines
Begriffs. Ein vorgegebenes Wort ist dabei auf einer Reihe von bipolaren Skalen, welche
durch begrifflich entgegengesetzte Adjektivpaare gebildet werden, durch eine entsprechende Markierung einzustufen. Osgood konnte faktorenanalytisch zeigen, daß sich die
Einstufungen zu drei dahinterliegenden, latenten Dimensionen verdichten lassen. Diese
Faktoren bezeichnet Osgood mit Bewertung (charakterisiert durch Paare wie gut-schlecht,
schön-häßlich, etc.), Aktivierung (indiziert durch Paare wie aktiv-passiv, schnell-langsam, etc.) und Potenz (erfaßt durch Paare wie stark-schwach, hart-weich, etc.). Die durch
diese Methodik ermittelte konnotative Bedeutung eines Wortes geht über die semantische
Bedeutung im engeren Sinne hinaus. Gerade in der kulturvergleichenden Einstellungsmessung können unterschiedliche Bewertungen eines Begriffs einen substantiellen Antwortbias verursachen. Differenzen zwischen Kulturen reflektieren dann keine realen
Unterschiede in der Einstellung, sondern lediglich Bedeutungsunterschiede der eingesetzten Begriffe. Beispielsweise ist der Begriff manipulieren im Deutschen im Vergleich zum
englischen manipulate stärker negativ gefärbt. Die Gleichsetzung der Begriffe in der
Übersetzung mag zwar semantisch noch korrekt sein, für die kulturvergleichende Forschung aber ungeeignet. Vor allem für Schlüsselbegriffe und solche, in denen die unterschiedlichen Konnotationen nicht so klar sind wie im Beispiel manipulieren-manipulate,
bietet sich das Verfahren des semantischen Differentials als Ergänzung zu VorwärtsRückwärts-Übersetzungen an.
60
Ein dritter, von Berry (1980, S.10) angeführter Ansatz zur Analyse der konzeptuellen
Äquivalenz setzt an linguistischen Studien an. Entsprechend der kognitiven Anthropologie (auch als ethnoscience bezeichnet, vgl. Brislin, 1980, S.421ff) weist jede Kultur ihre
typischen Kategorisierungsmuster für Phänomene und Erfahrungen auf. Diese Muster der
Einordnung von Begriffen reflektieren ebenfalls deren konzeptuelle Bedeutung. Weichen
die Muster der untersuchten Kulturen stark voneinander ab, so ist davon auszugehen, daß
konzeptuelle Äquivalenz nicht besteht. Chikudate (1997) setzt linguistische Untersuchungen im Rahmen eines Vergleichs der Organisationskultur japanischer und amerikanischer
Banken ein, um die ethnozentrische Sichtweise bisheriger amerikanischer Studien zu
überwinden. („These research attitudes conducted by U.S. behavioural scientists are ethnocentric.“ Chikudate, 1997, S.172)
Ebenso wie die funktionale Äquivalenz, ist die, durch Übersetzungsäquivalenz, Untersuchungen mittels semantischer Differentiale und/oder linguistischer Analysen operationalisierte, konzeptuelle Äquivalenz notwendige, für sich allein jedoch nicht hinreichende
Bedingung für aussagekräftige Vergleiche.
functional equivalence
conceptual equivalence
translation equivalence
semantic differential
linguistic analysis
metric equivalence
subsystem validation
scalar equivalence
Abbildung 8: Formen der Äquivalenz nach Berry (1980)
4.3.3 Metrische Äquivalenz (metric equivalence)
Als dritte Form der Äquivalenz nennt Berry (1980, S.10f) die metrische Äquivalenz. Diese zielt auf die psychometrischen Eigenschaften von Datensätzen ab. Die Überprüfung
dieser Äquivalenzform setzt somit Erhebungsdaten voraus, kann also - im Gegensatz zur
funktionalen und konzeptuellen Äquivalenz - erst nach der Datenerhebung überprüft werden. Unter psychometrischen Eigenschaften wird die Struktur und die Kohärenz der Daten verstanden. Dies kann zum einen auf das nomologische Netz (Churchill, 1995, S.538)
der einbezogenen Konstrukte bezogen werden, zum anderen auf die innere Struktur eines
Konstrukts. Im ersten Fall werden Beziehungen unabhängiger und abhängiger Variablen
auf ihre kulturelle Invariabilität hin untersucht (von Roberts und Sutton-Smith, 1962, als
subsystem validation bezeichnet). Dies entspricht einer nomologischen Validierung (vgl.
61
z.B. Steenkamp und van Trijp, 1991, S.294) der entsprechenden theoretischen Modelle in
den einzelnen Kulturen. Im zweiten Fall wird die innere Struktur des Konstrukts in den
einzelnen Kulturen verglichen (von Poortinga, 1975, als scalar equivalence bezeichnet,
vgl. auch Irvine und Carroll, 1980). Skalare Äquivalenz ist dann gegeben, wenn die Korrelations- bzw. Kovarianzmatrizen innerhalb der Kulturen einander über die Kulturen hinweg ähneln. Für Malpass und Poortinga (1986, S.67) ist es jedoch nicht „immediately
clear which conditions have to be satisfied for either confirmation or rejection of this essential equality“.
4.4 Rezeption in der interkulturellen Marketingforschung
4.4.1 Konzept von Douglas und Craig (1983)
Das Bewußtsein für die Problematik interkultureller Vergleichsforschung wurde primär
in der psychologischen Forschung entwickelt. In der Marketingdisziplin fanden methodologische Aspekte der kulturübergreifenden Forschung nur zögerlich Eingang. Dies mag
zum einen am Timelag liegen, der üblicherweise zwischen der Entwicklung von mathematisch-statistischen Methoden und deren Anwendung in den Wirtschaftswissenschaften
auftritt. Zum anderen ist die Hinwendung zum internationalen und globalen Marketing
ein Phänomen der 80er und 90er Jahre des 20. Jahrhunderts. Mit der kognitiven Wende
von der Annahme großer Kulturunterschiede, welche standardisierten Marketingkonzepten entgegenstehen, hin zur Suche nach universellen bzw. kulturübergreifenden Gemeinsamkeiten, welche hohes Standardisierungspotential darstellen, stieg die Zahl
interkultureller Marketingforschungsvorhaben. Zeitgleich mit Levitts (1983) Publikation
über die Globalisierung der Märkte, sensibilisierten Douglas und Craig (1983) die internationale Marketingforschung für Probleme der Äquivalenz von Daten.
Die von Douglas und Craig (1983, S.137ff) vorgeschlagene Systematisierung der Äquivalenzaspekte geht von drei, sodann weiteruntergliederten Bereichen aus: der Konstruktäquivalenz (construct equivalence), der Meßäquivalenz (measure equivalence) und der
Stichprobenäquivalenz (sampling equivalence). In „Global Marketing Strategy“ stellen
Douglas und Craig (1995, S.68ff) die Äquivalenzaspekte (aus wertender Sicht des Autors:
bedauerlicherweise) verkürzt und weniger systematisch dar.
62
Konstruktäquivalenz
Konstruktäquivalenz besteht nach Douglas und Craig aus funktionaler (functional), konzeptueller (conceptual) und kategorialer Äquivalenz (category equivalence). Die Bedeutung von funktionaler Äquivalenz bei Douglas und Craig entspricht jener bei Berry
(1980). Es muß überprüft werden, „whether a given concept or behavior serves the same
function from country to country“ (Douglas und Craig, 1983, S.137). Douglas und Craig
führen einige Beispiele für fehlende Äquivalenz an (Douglas und Craig, 983, S.137f). So
ist die Funktion eines Fahrrades in den USA in erster Linie eine freizeitbezogene, während in den Niederlanden dem Fahrrad auch Verkehrsmittelcharakter zukommt. Erwachsenenfortbildungskurse sind in den USA vorranging individuell motiviert und werden als
Freizeitgestaltung erlebt. Demgegenüber werden solche Kurse in Japan berufsbezogen
beurteilt, weisen also eine andere Funktionalität auf. Die persönliche Entscheidung ist daher in den USA am Kriterium „was bringt der Kurs mir persönlich“ ausgerichtet, während
in Japan die Frage „was bringt das meiner Firma“ im Mittelpunkt steht. Kulturen unterscheiden sich weiters in der sozialen Funktionalität, die bestimmten Produkten zukommt.
So verliert in den USA das Automobil zunehmend an Wert als Indikator des sozialen Status seines Besitzers, während in weniger entwickelten Ländern ein Kraftfahrzeug für einen hohen Stellenwert des Eigentümers spricht. In Mexiko stellen, zumindest Anfang der
80er Jahre, auch Kühlschränke Statussymbole dar und werden dementsprechend im
Wohnzimmer plaziert. Schließlich kann die Funktionalität von Objekten in einzelnen
Kulturen auch gänzlich auf die soziale Komponente reduziert sein. In afrikanischen Ländern ist, so Douglas und Craig, der Besitz elektrischer Haushaltsgeräte aufgrund des damit verbundenen Sozialprestiges selbst dann attraktiv, wenn der Haushalt über elektrische
Energie gar nicht verfügt, die sachliche Funktionalität also nicht gegeben ist.
construct equivalence
category equivalence
measure equivalence
calibration equivalence
metric equivalence
sampling equivalence
individual versus group
sample representativity
Abbildung 9: Formen der Äquivalenz nach Douglas und Craig (1983)
Die konzeptuelle Äquivalenz stimmt bei Douglas und Craig ebenfalls mit jener bei Berry
(1980) überein. Konzeptuelle Äquivalenz ist demnach „concerned with the interpretation
that individuals place on objects, stimuli, or behavior, and whether these exist or are ex-
63
pressed in similar ways in different countries and cultures“ (Douglas und Craig, 1983,
S.138). Beispielsweis mag das Konzept der Aggressivität in verschiedenen Kulturen unterschiedlich zum Ausdruck kommen und daher auf unterschiedliche Art gemessen werden müssen. Konzepte mögen auch kulturell einzigartig sein und in anderen Kulturen
keine Entsprechung finden. „Philotimo“ als Verhalten entsprechend den Erwartungen der
Mitglieder der eigenen Gruppe, soll einzigartig für die griechische Kultur sein (Triandis
und Vassilou, 1972, zitiert in: Douglas und Craig, 1983, S.138), wenngleich dieses Beispiel intuitiv nicht nachvollziehbar ist und die Bestätigung der Einzigartigkeit eine Analyse sämtlicher Kulturen erfordern würde. Auch für Poortinga und Malpass (1986, S.42)
erscheint „the explanation of philotimo (...) to rest on concepts which are not specific to
Greek culture.“ Das Konzept der „innovativeness“ illustriert die unterschiedliche Ausdrucksweise eines grundsätzlich gleichen oder sehr ähnlichen Konzepts. „Innovativeness“ wird in den USA durch den Kauf und die Verwendung neuer Produkte ausgedrückt,
aber auch durch die Kommunikation über diese Produkte, deren Merkmale und Marken
im Freundes- und Familienkreis. Im Gegensatz dazu, wird „innovativeness“ in Frankreich
lediglich durch den Produkterwerb charakterisiert. Gespräche über Produkte und Erfahrungen damit sind aber nicht üblich (Green und Langeard, 1975, zitiert in: Douglas und
Craig, 1983, S.139).
Neben der funktionalen und konzeptuellen Äquivalenz sehen Douglas und Craig (1983,
S.123f) in der Kategorienäquivalenz ein Charakteristikum der Konstruktäquivalenz. Der
Aspekt der kategorialen Äquivalenz „relates to the category in which objects or other stimuli are placed“ (Douglas und Craig, 1983, S.123). Douglas und Craig zitieren eine Reihe
von Beispielen, in denen kategoriale Äquivalenz nicht besteht. So umfaßt die Kategorie
der „soft drinks“ abhängig vom Kulturkreis unterschiedliche Getränke, wie Fruchtsäfte,
kohlensäurehaltige Limonaden, Konzentrate, unter Umständen aber auch Bier. Ähnliches
gilt für den Oberbegriff des Desserts. Im Gegensatz zu europäischen Kulturen, zählen
Süßspeisen in China nicht zu den Desserts. Die Art der zu einer Klasse zusammengefaßten Produkte bestimmt letztlich Konkurrenzbeziehungen zwischen diesen Produkten und
muß marketingseitig berücksichtigt werden. Auch die Kategorien, nach denen Produkte
beurteilt werden, können variieren. So soll in Frankreich für die Einschätzung des Geruchsaromas einer Speise die Kategorie heiß-kalt relevant sein, während dies in den angelsächsischen Ländern nicht der Fall ist. Vergleicht man diese Subdimension der
64
Konstruktvalidität mit dem von Berry (1980) vorgeschlagenem System, so finden sich mit
den als Operationalisierungen der konzeptuellen Äquivalenz angeführten Verfahren des
semantischen Differentials und der linguistischen Analyse entsprechende Pendants. Die
Kategorienäquivalenz ist demnach eher eine Unterform der konzeptuellen Äquivalenz als
eigenständiger Aspekt.
Meßäquivalenz (measure equivalence)
Die neben der Konstruktäquivalenz zweite Form der Äquivalenz nach Douglas und Craig
ist die Meßäquivalenz, welche sich in die Kalibrierungsäquivalenz (calibration equivalence), die Übersetzungsäquivalenz (translation equivalence) und die metrische Äquivalenz (metric equivalence) gliedert. Meßäquivalenz ist mit Konstruktäquivalenz „highly
interrelated insofar as the measure is an operational definition of the construct“ (Douglas
und Craig, 1983, S.140). Douglas und Craig ziehen damit hinsichtlich der Äquivalenz
eine deutliche Trennlinie zwischen dem latenten Konstrukt und seiner Operationalisierung durch manifeste Variablen. Sie stehen damit im Gegensatz zu Berry (1980), der die
Übersetzungsäquivalenz - und damit die Äquivalenz manifester Stimuli - zur konzeptuellen Äquivalenz zählt. Allerdings beziehen sich auch Douglas und Craig (1983, S.138) bei
der konzeptuellen Äquivalenz auf „objects, stimuli, or behavior“, also auf manifeste Variablen. Die Unterschiede in der Systematisierung von Berry (1980) und Douglas und
Craig (1983) liegen demnach lediglich im Abstraktionsniveau der Operationalisierung
und erscheinen für die praktische Umsetzung der Äquivalenzprüfungen ohne Bedeutung.
Mit Kalibrierungsäquivalenz nehmen Douglas und Craig Bezug auf Maßeinheiten im
weitesten Sinne, welche bei der Konstruktoperationalisierung relevant sind. Offensichtlich und durch Umrechnungstabellen relativ einfach zu lösen, sind Kompatibilitätsprobleme bei Geldeinheiten, Hohl- und Ausdehnungsmaßen, und dergleichen. Im Einzelfall
kann die mathematisch einfache Konvertierung aber auch problematisch sein, wenn etwa
„runde“ Ausgangsbeträge in „unrunde“ Werte transformiert werden oder, im Falle von
Geldbeträgen, Wechselkurse Kaufkraftunterschiede nicht reflektieren. Weitaus schwieriger gestaltet sich die interkulturell äquivalente Operationalisierung, wenn es sich nicht um
physikalische oder monetäre Einheiten handelt. So können an rechtliche Normen anknüpfenden Qualitätsklassen bei der Produktbeschreibung in anderen Kulturen keine oder eine
völlig anders geartete Entsprechung aufweisen. Auch auf die Bedeutung von, sowie die
perzeptive und sprachliche Differenzierung zwischen Farben ist kulturell unterschiedlich.
65
So sollen afrikanische Kulturen teilweise nicht zwischen grün und blau unterscheiden.
Reize, die in einer Kultur als unterschiedlich gesehen werden, können somit in einer anderen Kultur als gleich erlebt werden.
Die Übersetzungsäquivalenz wurde bereits im Zuge der Darstellung des Systems von Berry (1980) beschrieben. Douglas und Craig weisen darüber hinaus darauf hin, daß auch
nonverbale Reize übersetzungsäquivalent sein müssen. Dabei ist speziell auf die kulturtypische Interpretation von nonverbalen Stimuli Bedacht zu nehmen.
Unter metrischer Äquivalenz verstehen Douglas und Craig (1983, S.142) die „scoring or
scalar equivalence of the measure used“. Dabei sind zwei Aspekte zu berücksichtigen. Einerseits muß die spezifische Skala und das Scoring vergleichbar sein. Andererseits ist die
Äquivalenz der Reaktionen, also der Meßwerte, erforderlich. Naturgemäß ist diese Form
der Äquivalenz in der quantitativen Marketingforschung von ungleich größerer Bedeutung als in der qualitativ orientierten Forschung. Die kulturadäquate Skalierung bzw. das
Scoring sind wesentlich davon abhängig, mit welchen Skalentypen die Mitglieder der
Kultur vertraut sind. In den USA sind fünf- oder siebenstufige Skalen allgemein üblich,
während andere Länder mit zehn- oder gar zwanzigstufigen Skalen vertraut sind (Douglas
und Craig, 1983, S.142), wobei aber offen bleibt, in welchen Ländern Skalen mit derart
vielen Ausprägungen sinnvoll einsetzbar sind. Der Einsatz von Skalen, die für eine Kultur
ungewöhnlich sind, „can result initially in uncertainty and frustration and eventually in
unintentional response errors“ (Toyne und Walters, 1989, S.206).
Der zweite Aspekt metrischer Äquivalenz betrifft die Bedeutung der Meßwerte (Douglas
und Craig, 1983, S.142). Um sinnvolle Vergleiche über Kulturen hinweg anstellen zu
können, müssen die gleichen Meßwerte gleiche Bedeutung aufweisen und gleich interpretierbar sein. So müssen beispielsweise die einzelnen Antwortmöglichkeiten auf einer
Kaufabsichtsskala in allen untersuchten Kulturen mit der gleichen Kaufwahrscheinlichkeit assoziiert sein. Zur Überprüfung der metrischen Äquivalenz schlagen Douglas und
Craig den parallelen Einsatz mehrerer Meßmethoden vor, welche, so Douglas und Craig,
unterschiedliche potentielle Biases aufweisen. Durch den Vergleich dieser Maße könne
Äquivalenz erzielt werden. Allerdings gehen Douglas und Craig nicht näher darauf ein,
wie dies konkret möglich ist. Auch die als Alternative ins Treffen geführten statistischen
66
Techniken, wie z.B. das Normalisieren oder Standardisieren von Erhebungsdaten, werden
nicht näher ausgeführt, ermöglichen zudem nur „some degree of equivalence“ (Douglas
und Craig, 1983, S.142). Die Berücksichtigung standardisierter Meßwerte in Form von
Faktorscores (welche typischerweise einer Verteilung mit dem Mittelwert 0 und der Varianz 1 folgen), ist allein nicht geeignet, kulturübergreifende Vergleichbarkeit zu gewährleisten. „Although (...) statistically sophisticated methods are used - where, for example,
comparisons are made on the basis of factor scales rather than raw scores - it remains a
shortcoming that the possibility of scale bias cannot be ruled out.“ (Poortinga und Malpass, 1986, S.29).
Stichprobenäquivalenz
Der dritte Aspekt der Äquivalenz ist die Stichprobenäquivalenz (Douglas und Craig,
1983, S.143ff). Diese betrifft zum einen die Frage, welche Personen innerhalb einer Kultur herangezogen werden und zum anderen, wie Repräsentativität der Stichproben erzielt
wird. Da die Rollenverteilung kulturabhängig ist, kann die Auswahl der Auskunftspersonen aus den Haushaltsmitgliedern anpassungsbedürftig sein. Auch die Frage, ob Einzelpersonen herangezogen werden sollen oder mehrere Personen ist vor dem kulturellen
Hintergrund zu klären. Die Repräsentativität der Stichproben ist beispielsweise in Entwicklungsländern schwierig zu erzielen bzw. zu überprüfen. Fehlende, unzureichend dokumentierte, fehlerhafte oder unvollständige Bevölkerungsdaten erschweren die
Bestimmung der Grundgesamtheit, wodurch zuverlässige Quotenpläne nicht erstellt werden können. Infrastrukturelle Defizite können dazu führen, daß ländliche Gebiete nicht
oder nur mit unvertretbarem Aufwand erreichbar und dementsprechend in der Stichprobe
unterrepräsentiert sind. Schriftliche Datenerhebungen können durch hohe Analphabetismusraten extrem verzerrt werden, ebenso Telefonumfragen aufgrund mangelhafter und
ungleichmäßig verteilter Telefonanschlüsse. So weist z.B. Lettland eine Telefonanschlußdichte von nur 0.3 Anschlüssen pro 1000 Einwohnern auf (im Jahre 1990), Ungarn
eine von 96.2 (1990), während es in Österreich 409 Anschlüsse auf 1000 Einwohner
(1989) sind (Bauer, 1995, S.331f). Douglas und Craig diskutieren neben der repräsentativen Auswahl innerhalb der Kulturen auch die repräsentative Auswahl der Kulturen selbst.
Durch steigende Kommunikation und verstärkte Reisetätigkeit, so Douglas und Craig
(1983, S.145; vgl. auch Levitt, 1983) gleichen sich Einstellungen, Verhaltensweisen, Lifestyles und Konsummuster innerhalb von Regionen, wie z.B. Europa oder Lateinamerika, an. Erkenntnisse, die in einem Land gewonnen werden, könnten dementsprechend auf
67
andere, ähnliche Länder übertragen werden, wodurch hohe Kosteneinsparungen erzielbar
wären. Diese Vorgangsweise ist allerdings nur dann anwendbar, wenn, etwa durch vorangehende empirische Analysen, die kulturelle Ähnlichkeit hinreichend dokumentiert ist.
Dies ist umso wahrscheinlicher, je enger das Segment ist, in dessen Rahmen über Ländergrenzen hinweg Verallgemeinerungen getätigt werden. So erscheint die Generalisierung
bei Geschäftsleuten weniger problematisch als bei Konsumenten im allgemeinen.
4.4.2 Erweiterung von Toyne und Walters (1989)
Die Konzeptualisierung der Äquivalenzproblematik durch Douglas und Craig wurde in
der Folge erweitert. Toyne und Walters (1989, S.200ff) ergänzen im Rahmen ihrer Systematisierung der Äquivalenz die Konstruktäquivalenz durch die zeitliche Äquivalenz
(temporal equivalence) und die Marktstrukturäquivalenz (market structure equivalence).
Die funktionale und die konzeptuelle Äquivalenz bei Douglas und Craig finden sich bei
Toyne und Walters unverändert wieder, die Kategorienäquivalenz hat eine Entsprechung
als Definitionsäquivalenz (definitional equivalence).
Der Begriff der zeitlichen Äquivalenz nimmt Bezug auf die Untersuchungssituation (Toyne und Walters, 1989, S.203). Diese ist vor dem Hintergrund saisonaler, politischer und
ökonomischer Faktoren zu sehen. So können Wahlen oder die Bekanntgabe volkswirtschaftlicher Daten die Einstellung zu importierten Gütern kurzfristig beeinflussen. Jahreszeitliche Faktoren können auf das Involvement der Konsumenten wirken und damit die
Validität einer Datenerhebung beeinträchtigen. So sind Umfragen zu Wintersportgeräten
im Oktober auf der nördlichen Hemisphäre nicht mit solchen auf der Südhalbkugel zu vergleichen. Neben solchen psychologischen Effekten, können besondere jahreszeitliche Erscheinungen, wie Regenzeiten, Sturmzeiten, extreme Kälte- oder Hitzeperioden
Datenerhebungen erschweren oder völlig unmöglich machen. Zeitliche Äquivalenz ist
darüber hinaus aber auch produktbezogen zu beachten, so z.B. hinsichtlich des landesbezogenen Stadiums im Produktlebenszyklus.
Die Marktstrukturäquivalenz zielt auf mögliche kulturbedingte Unterschiede in Konsummustern und Marktreaktionsweisen ab. Marktreaktionen auf den Einsatz von Marketinginstrumenten werden wesentlich durch konsumentenseitige Produktkenntnisse und die
Verfügbarkeit von Produkten in Märkten beeinflußt. Die Marktcharakteristika und -institutionen, wie verfügbare Distributionskanäle, Medien und deren Reichweite, Produktsub68
stitute, u.s.w. sind auf Vergleichbarkeit zu untersuchen. Die Marktstrukturäquivalenz ist
demzufolge vor allem bei stark anwendungs- und umsetzungsbezogener Marketingforschung höchst bedeutsam.
construct equivalence
definitional equivalence
temporal equivalence
market structure equivalence
measurement equivalence
gradation equivalence
scale equivalence
sampling equivalence
population definition
sample scope and
representativity
Abbildung 10: Formen der Äquivalenz nach Toyne und Walters (1989)
Der Bereich der Meßäquivalenz (measurement equivalence) entspricht ebenfalls weitgehend dem Konzept von Douglas und Craig. Die Übersetzungsäquivalenz und die Kalibrierungsäquivalenz werden von Toyne und Walters übernommen, letztere allerdings in
gradation equivalence (Toyne und Walters, 1989, S.204f) umbenannt. Die metrische
Äquivalenz wird in gleicher Weise definiert und als Skalenäquivalenz (scale equivalence)
bezeichnet. Toyne und Walters (1989, S.204) diskutieren die Meßäquivalenz vor dem
Hintergrund der emic/etic-Problematik. Die Begriffe emic und etic sind der Linguistik
entlehnt (Berry, 1980, S.11; 1990, S.88). Phonemics (Phoneme) sind Lautgebilde, die nur
in einer Sprache Verwendung finden, Phonetics (phonetische Elemente) sind sprachübergreifende Lauteinheiten. Dementsprechend sind emische Meßinstrumente dazu geeignet,
Konstrukte innerhalb einer bestimmten Kultur zu messen, verlieren ihre Gültigkeit aber,
wenn sie in anderen Kulturen angewandt werden. Etische Meßinstrumente sind hingegen
kulturunabhängig und messen das operationalisierte Konstrukt in allen Kulturen gleichermaßen. Die Möglichkeit, Konstrukte emisch oder etisch zu operationalisieren, wird weiter
unten noch ausführlicher behandelt. Der Vorteil etischer Instrumente liegt darin, daß sie
nur einmal entwickelt werden müssen und - sieht man von der meist erforderlichen Übersetzung ab - in anderen Kulturen einsetzbar sind. Der Nachteil liegt im großen Aufwand,
der zur Entwicklung erforderlich ist. Letztlich muß der etische Charakter eines Meßinstruments durch empirische Prüfung belegt werden. „When the etic approach is adopted,
each measurement in the instrument has to be tested to ensure that it is culture free or, at
least, culture unbiased.“ (Toyne und Walters, 1989, S.204). Toyne und Walters führen allerdings keine dazu geeigneten Verfahren an. Die bei der praktischen Entwicklung etischer Meßinstrumente auftretenden Probleme führen häufig dazu, Instrumente kulturell
69
anzupassen. Emische Instrumente sind grundsätzlich leichter zu entwickeln, aber nicht
kulturell übertragbar. Für die interkulturelle Vergleichsforschung stellt sich die Frage, inwieweit emische Maße sinnvoll einsetzbar sind. Toyne und Walters (1989, S.204) betonen, daß bei der Entwicklung von „emic instruments to measure the same phenomenon
across several countries or cultures, the international researcher must be concerned with
obtaining gradation, translation, and scale equivalence.“ (Hervorhebungen im Original).
Die Anwendbarkeit dieser drei Äquivalenzformen erscheint allerdings im Falle ausschließlich emischer Meßinstrumente fraglich. Wenn das zu untersuchende Phänomen in
den einzelnen Kulturen unterschiedlich operationalisiert wird, die Items eines Fragebogens also nicht übereinstimmen, so sind diese nicht durch Übersetzung ineinander überzuführen, insoweit Übersetzungsäquivalenz kein überprüfbares Kriterium sein kann.
Abschließend beschreiben Toyne und Walters (1989, S.207f) den Aspekt der Stichprobenäquivalenz in ähnlicher Weise wie Douglas und Craig (1983, S.143ff). Im Hinblick
auf die Repräsentativität der Stichproben weisen Toyne und Walters auf den Konflikt Repräsentativität - Vergleichbarkeit hin. Stichproben unterschiedlicher Kulturen, welche
nach den jeweiligen Bevölkerungsstrukturen repräsentativ sind, können unter Umständen
nicht mehr vergleichbar sein. Die Effekte der unterschiedlichen Zusammensetzung der
Stichproben hinsichtlich demographischer Kriterien sind konfundiert mit dem sich aus
der Kulturzugehörigkeit ergebenden Effekt.
4.4.3 Erweiterung von Usunier (1996)
Usunier (1996, S.140ff) widmet sich ausführlich der kulturübergreifenden Marketingforschung und greift ebenfalls den Ansatz von Douglas und Craig (1983) auf. Usunier weicht
jedoch in der Systematisierung ab, indem er sechs Kategorien der Äquivalenz definiert,
welche sich zum Teil weiter in insgesamt 16 Subkategorien untergliedern. Die nicht weiter unterteilten Kategorien der konzeptuellen und der funktionalen Äquivalenz entsprechen denen von Douglas und Craig (1983) und Toyne und Walters (1989) und bedürfen
daher keiner weiteren Erläuterung. Somit geht auch Usunier davon ab, die Übersetzungsäquivalenz als Form der konzeptuellen Äquivalenz zu verstehen, wie dies bei Berry
(1980) der Fall ist. Übersetzungsäquivalenz stellt bei Usunier (1996, S.146ff) eine eigene
Kategorie dar, welche sich untergliedert in lexikalische (lexical), idiomatische (idiomatic), grammatikalisch-syntaktische (grammatical-syntactical), sowie erfahrungsbezogene
Äquivalenz (experiential equivalence). Lexikalische Äquivalenz ist dann gegeben, wenn
70
Begriffe einander entsprechen. Zur Sicherstellung dieser Form der sprachlichen Äquivalenz werden Wörterbücher herangezogen. Idiomatische Äquivalenz nimmt Bezug auf
Idiome. Idiome sind linguistische Einheiten, Redewendungen, die muttersprachlichen
Personen geläufig und fixer Sprachbestandteil sind, welche aber nur schwierig und unvollkommen in andere Sprachen übersetzbar sind. Usunier (1995, S.146) führt als Beispiel das englische Idiom „it’s warm“ an, welches nicht eindeutig ins Französische
übersetzt werden kann. In der Bedeutung „es ist warm (heute)“ ist die Entsprechung „il
fait chaud“, während im Sinne von „es (das Objekt) ist warm“ die korrekte Übersetzung
„c’est chaud“ ist. Grammatikalisch-syntaktische Äquivalenz betrifft die zu berücksichtigenden sprachtypischen Satzbauformen, sowie die Wortstellung. Im Englischen steht typischerweise die Aktion am Satzbeginn (Subjekt und Verb), während im Deutschen und
im Französischen oftmals Sätze durch erläuternde Umstände in Nebensatzform beginnen.
Im Japanischen schließlich stehen Verben erst am Satzende. Da grammatikalische Regeln
unbedingt zu beachten sind, können sich daraus Unterschiede in der Schwerpunktsetzung
der Betonung ergeben.
Die erfahrungsbezogene Äquivalenz betrifft die Bedeutung der Begriffe im Sprachgebrauch. Das französische Adjektiv „chaud“ (warm/heiß) hat im Englischen die Entsprechungen „warm“ und „hot“ (Usunier, 1996, S.147). Eine eindeutige Übersetzung aus dem
Französischen ins Englische (und auch nicht ins Deutsche) ist daher nicht möglich. Die
Übertragung muß folglich den Kontext berücksichtigen, um vergleichbares Verständnis
zu gewährleisten. Aus dem Beispiel ist auch die enge Beziehung von Übersetzungs- und
konzeptueller, sowie kategorialer Äquivalenz ersichtlich. Während im Englischen und im
Deutschen zwei unterschiedliche Begriffe zur Verfügung stehen, werden diese im Französischen zu einer Klasse zusammengefaßt. Somit besteht ein Unterschied in der Kategorisierung. Übliche Verfahren der Vorwärts-Rückwärts-Übersetzung sind oft nicht in der
Lage, erfahrungsbezogene Äquivalenz zu gewährleisten (vgl. Usunier, 1995, S.148). Rein
lexikalische Äquivalenz ist allerdings nicht ausreichend.
71
lexical equivalence
idiomatic equivalence
grammat.-syntact. equivalence
experiential equivalence
measure equivalence
perceptual equivalence
metric equivalence
calibration equivalence
temporal equivalence
sample equivalence
sampling unit equivalence
frame equivalence
sample selection equivalence
data collection equivalence
respondents’ cooperation equiv.
data colection context equiv.
response style equivalence
Abbildung 11: Kategorien der Äquivalenz nach Usunier (1996)
Zur Meßäquivalenz (measure equivalence) faßt Usunier (1996, S.149ff) die perzeptive
(perceptual) und metrische (metric) Äquivalenz, sowie die Kalibrierungsäquivalenz (calibration equivalence) und die temporale (temporal) Äquivalenz zusammen. Die perzeptive Äquivalenz bezieht sich auf kulturbedingte Unterschiede in der physischen
Wahrnehmung. Erfahrungsberichte weisen auf zu beachtende sozialisationsbedingte Differenzen der Wahrnehmung und der Interpretation von Farben und Gerüchen hin
(Usunier, 1996, S.150). Diese Subkategorie behandeln Douglas und Craig (1983) im Rahmen der Kalibrierungsäquivalenz. Letztere ist auch Bestandteil der Systematisierung von
Usunier. Diese Kategorie stimmt mit jener bei Douglas und Craig überein, zielt also beispielsweise auch auf Farbäquivalenzen ab. Die Sinnhaftigkeit einer Aufspaltung der Kalibrierungsäquivalenz bei Douglas und Craig (1983) in die Kategorien perzeptive
Äquivalenz und Kalibrierungsäquivalenz bei Usunier (1995) erscheint daher etwas fragwürdig. Mit der temporalen Äquivalenz nimmt Usunier (1995, S.152f) Bezug auf Kalibrierungsaspekte, die im Zusammenhang mit zeitlichen Faktoren stehen. So ist die
Informationsalterung hinsichtlich ihrer Dauer kulturell unterschiedlich. Bei Kulturen, die
durch Hyperinflation gekennzeichnet sind, müssen monetäre Angaben mit dem exakten
Datum versehen werden, während dies in geldwertstabilen Ländern nicht der Fall ist. Für
diesen Äquivalenzaspekt gilt das bereits für die perzeptive Äquivalenz gesagte. Die Sinnhaftigkeit, diesen Aspekt eigenständig zu behandeln und nicht der Kalibrierungsäquivalenz unterzuordnen, kann hinterfragt werden.
Die metrische Äquivalenz befaßt sich mit der Bedeutung von Ratingskalen. Eine lexikalische Übersetzung der Bezeichnungen bei Ratingskalen gewährleistet die metrische
72
Äquivalenz, also die tatsächliche Bedeutung der so ermittelten Meßwerte, im allgemeinen
nicht (Usunier, 1996, S.151). Übersetzungsprobleme treten vor allem dadurch auf, daß
einzelne Sprachen nur über sehr wenige Begriffe verfügen (so z.B. das Koreanische,
Usunier, 1996, S.151), welche den Grad der Ausprägung bezeichnen, andere wiederum
über eine Vielzahl von nahezu synonymen Wörtern (so z.B. das Französische, Usunier,
1996, S.151), welche aber geringe Bedeutungsunterschiede aufweisen. Auch sind die lexikalisch einander entsprechenden Begriffe in ihrer wertenden Bedeutung oftmals unterschiedlich und können demzufolge nicht ohne weiteres zur Bezeichnung von
Ratingskalen herangezogen werden. Bauer (1995, S.248ff) beschreibt mit der Methode
der simultanen adjektivischen Dezentrierung nach Angelmar und Pras (1978) einen Ansatz zur Gewährleistung der metrischen Äquivalenz. Dabei müssen die Distanzen zwischen den einzelnen Antwortkategorien in allen Sprachen semantisch äquidistant sein.
Übersetzungen, die diesem Anspruch gerecht werden, sind nur durch eine dezentrierte
Vorgangsweise zu erzielen. Dabei wird auch die ausgangssprachliche Version so lange
verändert, bis Äquivalenz besteht. Ein interessanter alternativer, von Bauer (1995, S.252f)
empfohlener, Ansatz geht auf Myers und Warner (1968) zurück. Danach werden bewertende Adjektive (z.B. fantastic, outstanding, fine, acceptable, poor, usw.) auf einer 21-stufigen Intervallskala eingestuft (Thurstone-Methode). Adjektive, die in verschiedenen
Sprachen gleiche Mittelwerte auf dieser Skala aufweisen und darüber hinaus geringe Varianzen, sind als äquivalente Übersetzungen geeignet. Die Bedingung geringer Varianz ist
auch in intrakulturellen Studien beachtenswert. Sie stellt sicher, daß alle befragten Personen die Begriffe ähnlich bewerten. Usunier (1996, S.151) führt einige Beispiele von äquivalenten Bewertungsbegriffen aus dem Englischen und dem Französischen nach
Angelmar und Pras (1978) an. So ist fantastic im Englischen äquivalent zu extraordinaire
im Französichen, neutral entspricht moyen, bad ist mit remarquablement faible übersetzbar, usw. Das letzte Beispiel illustriert, daß die rein lexikalische Übersetzung von bad zu
inäquivalenten Skalen führt.
Die Stichprobenäquivalenz (sample equivalence) umfaßt nach Usunier (1996, S.153ff)
die Äquivalenz der Untersuchungseinheiten (sampling unit equivalence), die Äquivalenz
der Stichprobenpläne (frame equivalence) und die Äquivalenz der Stichprobenauswahl
(sample selection equivalence). Im Rahmen der Äquivalenz der Untersuchungseinheiten
ist beispielsweise bei Konsumentenbefragungen auf Unterschiede in der familiären Rol-
73
lenverteilung im Kaufentscheidungsprozeß zu achten. Diese Aspekte sind bereits bei
Douglas und Craig (1983, S.143) berücksichtigt. Gleiches gilt für die Äquivalenz der
Stichprobenpläne (vgl. Douglas und Craig, 1983, S.144). Bezugnehmend auf die Äquivalenz der Stichprobenselektion betont Usunier (1996, S.154), daß „[t]he main problem in
the cross-cultural sampling process is the selection of samples that can be considered
comparable across countries“. Bei der Stichprobenselektion sind zwei Phasen zu unterscheiden. Im ersten Schritt ist zu entscheiden, welche Kulturen bzw. Länder ausgewählt
werden, im zweiten Schritt ist die Zusammensetzung der nationalen Stichproben zu bestimmen. Die Äquivalenzproblematik betrifft zentral den zweiten Schritt. Die Auswahl
der Kulturen bzw. Länder im ersten Schritt kann durch unternehmensbezogene Fragestellungen, wie strategische Entscheidungen der Marktselektion, hinreichend begründet sein.
Wird Kultur anders als auf der bloßen Unterscheidungsebene operationalisiert (wie z.B.
durch die Kulturoperationalisierung nach Hofstede, 1984, 1991), können die dadurch
theoretisch fundierten Dimensionen auswahlbestimmend sein.
Die letzte Kategorie der Systematisierung nach Usunier (1996, S.156ff) umfaßt die Datenerhebungsäquivalenz (data collection equivalence). Dieser Aspekt gliedert sich in die
Subkategorien Äquivalenz der Kooperationsbereitschaft der Respondenten (respondents’
cooperation equivalence), der Kontextäquivalenz (data collection context equivalence)
und der Äquivalenz der Antwortstile (response style equivalence). Die Kooperationsbereitschaft und damit die Rate der Antwortverweigerung variiert in Abhängigkeit kulturbedingter Normen der Intimität und der Abgrenzung der Privatsphäre (vgl. auch Jain,
1993, S.392). Ähnliches gilt für Verzerrungen in Form von Antwortbiases (vgl. Holzmüller, 1995, S.123ff). In Skandinavien ist es durchaus kulturkonform, Fremden gegenüber
zuzugeben, zuviel Alkohol zu trinken, während dies in Lateinamerika nicht der Fall ist,
die Antworten also mutmaßlich verzerrt sind (Usunier, 1996, S.157). Weiters kann die soziale Situation der Befragung nicht kulturkonform sein, etwa im Falle eines männlichen
Interviewers und einer weiblichen Befragten. Auch auf kulturspezifische Ressentiments
gegenüber bestimmten anderen Nationalitäten ist Rücksicht zu nehmen. Schließlich kann
der Charakter eines Interviews als wissenschaftliche Form der objektiven Datengewinnung kulturell nicht verankert sein (Usunier, 1996, S.157). Dies hat Auswirkungen sowohl auf die befragte Person, als auch auf den Interviewer, welchem der Sinn und der
Charakter eines Interviews erklärt werden muß.
74
Schließlich können auch Antwortstile, besondere Muster wie Ja-Sage- und Nein-SageTendenzen, Non-response-Muster und Extremantworten, kulturell bedingt mehr oder weniger gehäuft auftreten. In einer Untersuchung zum Kochverhalten griechischer und italienischer Hausfrauen (Van Herk und Verhallen, 1995, zitiert in: Usunier, 1996, S.158)
stellte sich heraus, daß griechische Hausfrauen eine starke Ja-Sage-Tendenz aufweisen,
was zu einem deutlichen biasbedingten Mittelwertsunterschied führt. Auf das Problem
der Antwortverweigerung (Non-response) wurde bereits hingewiesen. Kulturbedingte
Unterschiede in der Vorliebe für extreme Antwortstile beeinflußt die Varianzen in den
einzelnen Stichproben. So gelten Amerikaner als extremer in ihren Antworten im Vergleich zu Japanern oder Koreanern (Usunier, 1996, S.159).
4.5 Rezeption der Problematik internationaler Marketingforschung in Marktforschungsstandardwerken
Die Rezeption der besonderen Problematik internationaler Marketingforschung reicht erstaunlicherweise kaum über jene Lehrbücher hinaus, die ein „international“ oder ein „global“ im Titel führen. Churchill („Marketing Research: Methodological Foundations“,
1995, S.7) beispielsweise weist auf die Fehler hin, die bei Nichtbeachtung von Umfeldfaktoren, zu denen die Kulturzugehörigkeit zu zählen ist, auftreten können („International
Missteps Caused by Environmental Differences“). Überraschenderweise geht Churchill
in der Folge jedoch weder im Abschnitt „Data Collection Forms“ (S. 396ff), noch in den
Kapiteln „Attitude Measurement“ (S.451ff) oder „Sampling Procedures“ (S.574ff) auf
Besonderheiten internationaler Marketingforschung ein. Jain („International Marketing
Management“, 1993, S.368ff) geht auf Probleme ein, die sich aus der Stichprobenrepräsentativität sowie der Übersetzung von Fragebögen ergeben. Weiters thematisiert Jain
(1993, S.392) das Problem der kulturbedingten Antwortverweigerung. So können kulturelle Normen den Umgang mit Fremden verbieten, vor allem für Frauen. In islamischen
Ländern ist es daher nicht kulturadäquat, Frauen telefonisch zu befragen. Auch die Abgrenzung der Intimsphäre ist kulturell unterschiedlich. In lateinamerikanischen Ländern
ist es nicht opportun, mit Interviewern über Kauf- und Verwendungsverhalten im Hygiene- und Körperpflegebereich zu sprechen. In Japan ist mit großen Widerständen zu rechnen, wenn die persönlichen wirtschaftlichen Verhältnisse angesprochen werden
(Einkommen, Vermögen, etc.), das Familienleben oder politische und religiöse Einstellungen. Jain geht allerdings nicht explizit auf Äquivalenzaspekte ein.
75
Burns und Bush („Marketing Research“, 1995, S.6) plädieren dafür, „changes taking place in the social and cultural environment“ zu berücksichtigen. Die in der internationalen
Marketingforschung zu lösenden Probleme werden aber nur kurz angesprochen. Immerhin werden die funktionale und konzeptuelle Äquivalenz, die Skalen- sowie die Übersetzungsäquivalenz inhaltlich erwähnt. Auch auf die Bedeutung der Untersuchungssituation
(vgl. Jain, 1993, S.392) wird hingewiesen. Meffert („Marketingforschung und Käuferverhalten“, 1992, S.81) geht zwar auf Kultur als kaufverhaltensbeeinflussende Variable ein,
nicht jedoch auf Spezifika der interkulturellen Marketingforschung. Ähnliches gilt für Pepels („Käuferverhalten und Marktforschung“, 1995). Hüttner („Grundzüge der Marktforschung“, 1989, S.319ff) geht auf Schwierigkeiten der internationalen Primärforschung
exemplarisch ein. So wird die Durchführbarkeit der Erhebungsmethodik diskutiert
(schriftliche Befragungen vor dem Hintergrund teilweise hoher Analphabetismusraten,
Telefonbefragungen bei ungenügendem Ausbau der Telefoninfrastruktur, etc.). Auch die
Bedeutung der Befragungssituation und der Auswahl der Interviewer wird erläutert. Insgesamt wird jedoch keine Systematik der verschiedenen Äquivalenzaspekte angeboten.
4.6 Integratives Schema von Bauer (1995)
Bauer (1995, S.51ff) entwirft aufbauend auf Douglas und Craig (1983) ein integratives
System von Äquivalenzbedingungen. Während die Ansätze von Douglas und Craig
(1983), Toyne und Walters (1989) und Usunier (1996) die einzelnen Aspekte zwar nicht
völlig isoliert, so doch getrennt voneinander behandeln, betont Bauer das Zusammenwirken der einzelnen Äquivalenzkategorien. Um dies in der Systematisierung zu implementieren, führt Bauer eine neue Äquivalenzkategorie ein: die Äquivalenz der nationalen
Erhebungsdaten einer internationalen Marketingforschung (Erhebungsdatenäquivalenz).
Diese Form der Äquivalenz unterscheidet sich grundsätzlich von allen anderen Kategorien. Die Äquivalenz der Erhebungsdaten ist als Funktion aller anderen, untergeordneten
Kategorien, von Bauer (1995, S.51) als Strukturelemente der internationalen Marketingforschung bezeichnet, zu sehen. Letztere sind somit notwendige Bedingungen der Erhebungsdatenäquivalenz (vgl. Bauer, 1995, S.51). Insoweit stellt Bauers Ansatz ein
hierarchisches System dar. Zwar betonen auch Douglas und Craig (1983), daß Verletzungen einzelner Äquivalenzaspekte letztlich die Vergleichbarkeit der empirischen Daten beeinträchtigen. Die Datenäquivalenz ist bei Douglas und Craig allerdings keine
übergeordnete Kategorie, sondern wird im Rahmen der Meßäquivalenz behandelt, welche
76
neben der Konstrukt- und der Stichprobenäquivalenz gleichrangig angeordnet ist. Die besondere Stellung der Erhebungsdatenäquivalenz bei Bauer (1995) ist dadurch gerechtfertigt, daß diese Form der Äquivalenz als Prüfstein für alle Formen der Äquivalenz gesehen
werden kann. Dies ergibt sich aus dem Zusammenhang der einzelnen, untergeordneten
Kategorien und der Erhebungsdatenäquivalenz. Ist die Äquivalenz der Erhebungsdaten
gewährleistet, so besteht Vergleichbarkeit der Ergebnisse. Kann die Erhebungsdatenäquivalenz nicht nachgewiesen werden, so ist mangelnde Äquivalenz in einem oder mehreren
Aspekten gegeben.
Äquivalenz der nationalen Erhebungsdaten
einer internationalen Marketingforschung
Äquivalenz der
Untersuchungsdatenaufbereitung
Äquivalenz der ...
Untersuchungsmethoden
Untersuchungseinheiten
Untersuchungssituationen
Äquivalenz der Untersuchungssachverhalte
(prinzipielle Anwendbarkeit des Konstrukts;
notwendige, aber nicht hinreichende Voraussetzung)
Abbildung 12: Bedingungen der Äquivalenz der Erhebungsdaten (in Anlehung an
Bauer, 1995, S.52)
Die in Abbildung 12 dargestellten Bedingungen der Äquivalenz nach Bauer (1995) lassen
sich drei Ebenen zuordnen. Auf der ersten Ebene befindet sich die Äquivalenz der Untersuchungssachverhalte (Bauer, 1995, 53ff). Diese entspricht der Konstruktäquivalenz bei
Douglas und Craig (1983) und untergliedert sich daher in funktionale, konzeptuelle und
77
kategoriale Äquivalenz. Die Konstruktäquivalenz ist damit die Grundlage für weiterführende Schritte im Forschungsprozeß, steht sie doch für die grundsätzliche Anwendbarkeit
des Konstrukts in allen einbezogenen Kulturen. Nur wenn die Konstruktäquivalenz gegeben ist, sind Äquivalenzaspekte der zweiten Ebene relevant. Es handelt sich dabei um die
Operationalisierung des Konstrukts und die Durchführung der Datenerhebung. Die Konstruktoperationalisierung ist Gegenstand der Äquivalenz der Untersuchungsmethoden
(Bauer, 1995, S.56ff), welche aus vier Teilaspekten besteht. Die erhebungsmethodische
Äquivalenz betrifft die Frage, ob durchgängig in allen Kulturen die gleiche Methodik eingesetzt werden kann oder ob Anpassungen erforderlich sind, wie dies beispielsweise bei
schriftlichen Befragungen in Ländern mit hohen Analphabetismusraten der Fall ist. Bei
unterschiedlichen Methoden ist so vorzugehen, „daß sowohl eine äquivalente Repräsentanz der einzelnen nationalen Stichproben als auch eine äquivalente interne Validität der
nationalen Erhebungsergebnisse erzielt werden kann“ (Bauer, 1995, S.56). Die befragungstaktische Äquivalenz zielt auf kulturbedingte Anpassungen der Frageformen (z.B.
offen versus geschlossen), um kulturspezifische Verzerrungen zu vermeiden, die sich z.
B. aus einem Höflichkeitsbias ergeben können (Bauer, 1995, S.57; vgl. auch Holzmüller,
1995, S.123ff). Die Übersetzungsäquivalenz betrifft „eine bedeutungsinvariante Übersetzung der verbalen und nonverbalen Stimuli (Bauer, 1995, S.57). Schließlich soll die meßmethodische Äquivalenz den Einsatz vergleichbarer Meßmethoden gewährleisten. Dabei
sind kulturtypische Verbreitungen bestimmter Ratingskalenformate zu berücksichtigen.
Die Wahl und die Ausgestaltung einer Erhebungsmethode kann mit der Selektion der Untersuchungseinheiten zusammenhängen. Letztere ist Gegenstand der Äquivalenz der Untersuchungseinheiten (Bauer, 1995, S.58f). Zum einen sind die Untersuchungseinheiten
empirisch zu definieren, also die Grundgesamtheit der Auskunftspersonen festzulegen.
Dabei ist insbesondere auf funktionale Äquivalenz abzustellen. Dies bedeutet, daß in Abhängigkeit von kulturell unterschiedlichen Strukturen und Rollenverteilungen bei Kaufentscheidungsprozessen, unter Umständen hinsichtlich Geschlecht, Alter, etc.
verschiedene Personen auszuwählen sind. Zum anderen sind, wenn keine Totalerhebung
möglich ist, äquivalente Auswahlverfahren anzuwenden (Auswahläquivalenz).
Die Umsetzung der Datenerhebung wird bei Bauer (1995, S.60f) durch die Äquivalenz
der Untersuchungssituationen erfaßt. Dabei sind zeitliche Faktoren zu berücksichtigen
78
(zeitablaufbezogene Bedingungen, wie Wertewandel, politische oder wirtschaftliche Prozesse; zeitpunktbezogene Faktoren natürlicher Art, wie Jahreszeiten, klimatische Faktoren, religiöser Art, wie Fastenzeiten, oder wirtschaftlicher Art, wie saisonale Einflüsse).
Die Erhebungssituation ist zudem durch eine soziale Interaktion des Interviewers und der
befragten Person, sowie unter Umständen auch weiterer anwesender Personen, gekennzeichnet. Auch die sich daraus ergebenden Beeinflussungen der Datenerhebungen sind einer Äquivalenzprüfung zu unterziehen (Interaktionsäquivalenz).
Nach erfolgter Datenerhebung ist auf Äquivalenz der Untersuchungsdatenaufbereitung
(Bauer, 1995, S.61) zu achten. Problematisch kann diese dann sein, wenn Antworten auf
offene Fragen zu übersetzen sind (Äquivalenz der Response-Übersetzungen) und zu Kategorien zu verdichten sind (Äquivalenz der Response-Kategorisierungen).
Der konsekutive Charakter der Systematisierung von Bauer wird auch durch ein von Cavusgil und Das (1997) vorgeschlagenes Prozeßmodell der kulturübergreifenden Forschung deutlich. Cavusgil und Das entwerfen einen deskriptiven Überblick über
Äquivalenzaspekte, der mit dem Bauers weitgehend übereinstimmt. Das Prozeßmodell
umfaßt sieben Schritte (vgl. Abbildung 13). Im ersten Schritt ist das zu untersuchende
Konstrukt theoretisch zu spezifizieren und inhaltlich einzugrenzen. Im folgenden Schritt
ist die konzeptuelle und funktionale Äquivalenz des Konstrukts, im Sinne Bauers die
Äquivalenz der Untersuchungssachverhalte, in den untersuchten Kulturen zu überprüfen.
Die Schritte drei und vier, die Entwicklung eines Stichprobenplans und des Meßinstruments, sind eng miteinander verbunden und folglich in Abbildung 12 (Seite 77) auf einer
Ebene als Äquivalenz der Untersuchungseinheiten bzw. der Untersuchungsmethoden angesiedelt. Im fünften Schritt erfolgt nach Cavusgil und Das die Datenerhebung, im Zuge
deren Administration auf Äquivalenz zu achten ist (Äquivalenz der Untersuchungssituationen). Keine Entsprechung im Prozeßmodell von Cavusgil und Das findet die Datenaufbereitung bei Bauer. Diese ist bei Cavusgil und Das wohl zwischen fünftem und sechstem
Schritt einzuordnen. Im sechsten Schritt erfolgt die Datenanalyse, abschließend im siebenten Schritt die Interpretation der Daten.
79
Specifying the theoretical domain of the construct
Acquisition and application of substantive knowledge about
the conceptual and functional equivalence of the construct
Creation of an effective and cost-efficient sampling design
Developing a sound instrumentation design
Collection of data
Data analysis
Data interpretation
Abbildung 13: Prozeßmodell kulturübergreifender Forschung
(Cavusgil und Das, 1997, S.89ff)
4.7 Empirische Überprüfung der Äquivalenz
Die übergeordnete Äquivalenz der Erhebungsdaten ist bei Bauer (1995), wie bereits dargestellt, Folge der Gewährleistung der Äquivalenz der Teilaspekte und wird bei Bauer
nicht näher hinsichtlich ihrer Prüfbarkeit ausgeführt. Die exakte Überprüfung der Äquivalenz in den Teilaspekten ist zum Teil allerdings mit erheblichen Schwierigkeiten verbunden. Die Äquivalenz der Untersuchungseinheiten bei Bauer (gleichbedeutend mit der
Konstruktäquivalenz bei Douglas und Craig) kann zwar durch qualitative Vorstudien untersucht werden. Einer quantitativen Analyse ist dieser Äquivalenzaspekt allerdings nicht
zugänglich. Gleiches gilt für die Äquivalenz der Untersuchungsmethoden. Vor Durchführung der Datenerhebung kann aufgrund qualitativer oder auch quantitativer Vorstudien
(Probeerhebungen, um die prinzipielle Einsetzbarkeit eines Instruments zu prüfen) und
der Analyse anderer Forschungsprojekte die Plausibilität der erhebungsmethodischen und
befragungstaktischen Äquivalenz untersucht werden. Die Überprüfung, ob diese Formen
der Äquivalenz im gegenständlichen Forschungsvorhaben tatsächlich erreicht werden,
kann aber erst nach erfolgter Datenerhebung im Rahmen der Äquivalenz der Erhebungsdaten überprüft werden. Gleiches gilt für die Übersetzungsäquivalenz und die meßmetho-
80
dische Äquivalenz. Eine endgültige Aussage, ob die Übersetzung äquivalent zur
Ausgangsversion ist, erlaubt erst die Überprüfung der Erhebungsdatenäquivalenz.
Aus diesen Gründen erscheint es höchst wünschenswert, die Äquivalenz der Erhebungsdaten zu überprüfen. Dies bedeutet nicht, daß sich Bestrebungen, in jedem der angeführten Bereiche möglichst hohe Äquivalenz zu erzielen, erübrigen. Im Gegenteil sind diese
Bemühungen geradezu eine conditio sine qua non für die Erhebungsdatenäquivalenz. Angesichts der mannigfaltigen, auf kulturelle Faktoren zurückgehenden Einflüsse kann es
andererseits nicht als ausreichend angesehen werden, in den einzelnen Aspekte danach zu
trachten, Äquivalenz herzustellen und den Erfolg dieser Zielsetzung lediglich durch Plausibilitätsüberlegungen zu untermauern. Die Bestimmung der Erhebungsdatenäquivalenz
bietet sich als Objektivierung der Beurteilung an, ob Äquivalenz besteht oder nicht. Hinweise auf methodische Ansätze finden sich bereits bei Berry (1980, S.10) im Zusammenhang mit der metrischen Äquivalenz. Diese „exists when the psychometric properties of
two (or more) sets of data from two (or more) cultural groups exhibit esentially the same
coherence or structure“ (Berry, 1980, S.10). Wie schon im Rahmen der Diskussion der
Systematisierung der Äquivalenz durch Berry (1980) ausgeführt, kann die Erfüllung dieser Forderung einerseits durch eine Überprüfung der Beziehungen des Konstrukts zu vorund nachgelagerten Konstrukten, also zu Antezedenzbedingungen und nachgelagerten
Konstrukten, erfolgen. Andererseits ist die innere Struktur des Konstrukts und ihre Unabhängigkeit von kulturellen Faktoren zu überprüfen. Berry (1980, S.10) spricht dabei von
einem „requirment (...) of increasing importance“.
Berry (1980, S.10f) betont die Besonderheit der metrischen Äquivalenz, die darin besteht,
daß sie erst nach erfolgter Datenerhebung überprüfbar ist. Sie entspricht damit, sowie in
ihrer inhaltlichen Bedeutung, der Äquivalenz der Erhebungsdaten bei Bauer (1995). Der
bei Berry erstgenannte Zugang (Überprüfung der Beziehungen des Konstrukts zu vorund nachgelagerten Konstrukten) basiert auf dem Konzept der nomologischen Validität
(vgl. z.B. Homburg und Giering, 1996, S.7; Pepels, 1995, S.280). Äquivalenz zwischen
verschiedenen Kulturen besteht dann, wenn das nomologische Netzwerk und die darin definierten Beziehungen der Konstrukte interkulturell übereinstimmen. Dem zweiten Ansatz (Überprüfung der inneren Struktur des Konstrukts) liegt die Konstruktvalidität (vgl.
z.B. Pepels, 1995, S.280) zugrunde. Demnach besteht Äquivalenz dann, wenn die Dimen-
81
sionalität und die Operationalisierung der einzelnen Dimensionen unabhängig von der
Kulturzugehörigkeit sind.
Beiden Ansätzen gemeinsam ist der Vergleich von Strukturen über Kulturen hinweg und
die Überprüfung auf Identität dieser Strukturen. Verfahren zur statistischen Überprüfung
der Äquivalenz der Erhebungsdaten müssen demzufolge dazu geeignet sein, Unterschiede
in den Strukturen auf deren Signifikanz zu prüfen. Ehe entsprechende Verfahren gesucht
werden, sind mögliche Operationalisierungsformen von Konstrukten in der interkulturellen Marketingforschung darzustellen.
Konkrete Ansatzpunkte finden sich in deskriptiven Systematisierungen der Äquivalenzbedingungen jedoch nicht. Die Standardisierung der Erhebungsdaten, wie sie Douglas
und Craig (1983, S.142) vorschlagen, ist kein Garant für interkulturelle Vergleichbarkeit
der Daten. Sekaran (1983, S.66) plädiert für eine „higher order factor analysis“ bei der
Analyse interkultureller Daten. Adler (1983, S.40) empfiehlt „multivariate techniques“.
„Comparative research studies are complex. Univariate statistical techniques are generally inappropriate.“ (Adler, 1983, S.40). Nasif et al. (1991, S.87) beklagen, daß sich die Datenanalyse
in
der
kulturübergreifenden
Forschung
zumeist
in
bivariaten
Korrelationsanalysen erschöpft. Auf Adler (1983) referenzierend, ist für Nasif et al.
(1991, S.87) aufgrund der Komplexität vergleichender Forschung „the univariate statistical technique inappropriate“ (Nasif et al., 1991, S.87). Als „appropriate methods“ schlagen Nasif et al. (1991, S.87) „multivariate and other powerful statistical analyses“ vor. Im
Prozeßmodell der kulturübergreifenden Forschung von Cavusgil und Das (1997, S.91)
werden ebenfalls multivariate Verfahren vorgeschlagen, speziell der Einsatz konfirmatorischer Faktorenanalysen, die zur Überprüfung bzw. Identifikation dem Konstrukt zugrundeliegender Dimensionen geeignet sind. Der Einsatz explorativer Faktorenanalysen
ist bei entsprechenden theoretischen Grundlagen zu vermeiden (Cavusgil und Das, 1997,
S.91).
Die deskriptive Darstellung der Äquivalenzaspekte betreffend, sind seit Douglas und Craig (1983) deutliche Fortschritte zu verzeichnen (vgl. die Darstellungen bei Bauer, 1995;
Usunier, 1996; Nasif et al., 1991; Cavusgil und Das, 1997). Auf die allerdings unzureichende Rezeption in einschlägigen Lehrbüchern wurde bereits an anderer Stelle hinge-
82
wiesen. Nach wie vor deutliche Defizite bestehen in der Integration geeigneter Methoden
zur Überprüfung der Äquivalenz der Erhebungsdaten. Konsens besteht hinsichtlich der
hohen Komplexität der Aufgabe. Mehr und mehr wird das Potential strukturprüfender
Verfahren, wie der konfirmatorischen Faktorenanalyse, erkannt.
83
5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung
5 Operationalisierung und Messung von Konstrukten in der
interkulturellen Marketingforschung
5.1 Universum und Messung: Verallgemeinerung von Aussagen
Abgesehen von deskriptiven Studien, dient die Erhebung von Daten der Generalisierung
von Aussagen (vgl. Poortinga und Malpass, 1986, S.21). Wenn eine Vollerhebung nicht
möglich ist, und dementsprechend eine Stichprobe aus der Population gezogen werden
muß, an welcher eine Messung erfolgt, so interessieren nicht die Meßergebnisse in Bezug
auf die spezifische Auswahl an Personen in der Stichprobe, sondern die Verallgemeinerung der Aussagen auf die zugrundeliegende Population. Grundlage der Verallgemeinerbarkeit und damit der Gültigkeit der gewonnenen Aussagen für die Population ist die
Repräsentativität der Stichprobe.
Das Problem der Verallgemeinerbarkeit ergibt sich aber nicht nur personenbezogen, sondern auch die Elemente der Messung betreffend. Jede Messung ist eine Stichprobe aus einer ganzen Reihe an grundsätzlich möglichen Messungen, die statt dessen vorgenommen
werden könnten. Alle möglichen Messungen stellen einen der Population analogen Pool
dar. Cronbach et al. (1972, zitiert in: Poortinga und Malpass, 1986, S.22) führten dafür
den Begriff des Universums ein. Population und Universum sind einander konzeptuell
ähnlich, werden jedoch terminologisch differenziert. „(...) universe refers to a set of conditions for observation or items of measurement, while population is used exclusively for
a set of persons.“ (Poortinga und Malpass, 1986, S.22). Die Ziehung von Stichproben aus
der Population wurde bereits im Rahmen der Stichprobenäquivalenz behandelt, so daß sie
an dieser Stelle nicht weiter verfolgt wird. Im Rahmen der Entwicklung von Meßinstrumenten ist die Analyse des zugrundeliegenden Universums relevant. „A measurement instrument for a particular universe can be constructed by drawing a (random) sample of
elements from that universe.“ (Poortinga und Malpass, 1986, S.22). Das Meßinstrument
stellt somit einen Auszug aus einer Vielzahl an Elementen dar, dem Universum, welche
zur Messung des Konstrukts geeignet sind. Konstrukte bedürfen zur Messung sogenannter Indikatorvariablen, welche als manifeste, beobachtbare Größen Rückschlüsse auf das
latente Konstrukt ermöglichen. Meßinstrumente bestehen somit aus Indikatorvariablen.
Die Meßskala wird im Falle von Einstellungskonstrukten üblicherweise durch die aufsummierte Anzahl der Zustimmungen zu den einzelnen Indikatorvariablen gebildet. Im
84
Falle mehrkategorieller Items (Likert-Skala, Rating-Skala) kann zudem der Grad der Zustimmung berücksichtigt werden. Die Vorgangsweise, aus dem Universum möglicher
Einheiten, eine zufällige Auswahl zu treffen, setzt eine präzise, operationale Definition
des zu messenden Konstrukts voraus (vgl. Poortinga und Malpass, 1986, S.22).
5.2 Universum und kulturübergreifende Forschung
Im Rahmen der kulturübergreifenden Forschung stellt sich die Frage, ob das zu messende
Konstrukt in allen untersuchten Kulturen das gleiche Universum an möglichen Indikatoren impliziert. Ein Beispiel für idente Universen stellt das Konstrukt der Differenzierbarkeit reiner Töne (Poortinga und Malpass, 1986, S.23) dar. Das Universum dieses
Konstrukts wird durch alle reinen Töne gebildet und kann a priori als universell angesehen werden, da es auf humanphysiologischen und physikalischen Grundlagen basiert und
kulturelle Einflüsse weitestgehend auszuschließen sind. Demgegenüber sind die Universen eines Wortschatztestes sprachbezogen (die einzelnen Wörter einer Sprache) und damit in verschiedenen Kulturen, zumindest insoweit es sich um Kulturen unterschiedlicher
Sprache handelt, unterschiedlich.
Neben der Übereinstimmung der Universen ist die Auswahl der Elemente ein mögliches
Unterscheidungskriterium (Poortinga und Malpass, 1986, S.23). Wenn alle Elemente des
Universums zur Messung herangezogen werden, so erfolgt diese auf der Ebene des Universums. Dies gilt allerdings auch dann, wenn Elemente repräsentativ ausgewählt werden.
In diesem Fall wird der Meßwert nicht wesentlich durch die tatsächliche Wahl der Elemente beeinflußt. Vielmehr führt jede repräsentative Auswahl zum gleichen Ergebnis.
Wenn jedoch die Wahl der Elemente entscheidenden Einfluß auf das Meßergebnis hat, so
erfolgt der Vergleich verschiedener Kulturen nicht auf der Ebene des Universums, sondern auf der Ebene ausgewählter Elemente. Ein Beispiel dafür sind bestimmte optische
Täuschungen, die aus dem Universum aller möglichen optischen Täuschungen ausgewählt werden, um das Konstrukt der Täuschungsanfälligkeit zu messen. Optische Täuschungen können ganz spezifisch durch kulturassoziierte Faktoren, wie z.B. Vertrautheit
mit geometrischen Formen, beeinflußt werden (Segall et al., 1966).
Schließlich unterscheiden Poortinga und Malpass (1986, S.22f) Universen danach, ob sie
attributbezogen oder repertoirebezogen sind. Universen sind dann attributbezogen, wenn
85
sie auf mentale Prozesse oder eine Persönlichkeitsmerkmal (engl. Trait) abzielen. Die
Elemente attributbezogener Universen sind daher mit Persönlichkeitsmerkmalen assoziiert. Bei repertoirebezogenen Universen besteht eine solche Assoziation nicht, da diese
auf ein Verhaltensrepertoire abzielen und keine internalen Persönlichkeitsmerkmale annehmen. Meßinstrumente, die den Wissensstand in bestimmten Gebieten (Geographie,
Wortschatz, etc.) messen, nehmen keinen Bezug auf Persönlichkeitsmerkmale, sind daher
repertoirebezogen. Konstrukte, die bestimmte Fähigkeiten oder Merkmale einer Person
bezeichnen, wie z.B. die Diskriminierbarkeit von Tonhöhen als Fähigkeit oder die Einstellung gegenüber umweltfreundlichen Produkten als Merkmal), haben attributbezogene
Universen.
Universum
Identisches
Universum
Auswahl der Elemente
Repräsentative Auswahl
bzw. gesamtes Universum
Bezug des Universums
Typ
repertoire-bezogen
A
attribut-bezogen
B
repertoire-bezogen
C
attribut-bezogen
D
repertoire-bezogen
E
attribut-bezogen
F
repertoire-bezogen
G
attribut-bezogen
H
Selektierte Elemente
Nicht-Identisches
Universum
Repräsentative Auswahl
bzw. gesamte Universen
Selektierte Elemente
Abbildung 14: Klassifikation der Universen kulturübergreifender Forschung
(Poortinga und Malpass, 1986, S.25)
Die Einordnung der Universen einer interkulturellen Vergleichsforschung ist unmittelbar
relevant für die Art der möglichen Vergleichsaussagen. Um Vergleiche anstellen zu können, muß eine gemeinsame Skala etabliert werden (Malpass und Poortinga, 1986, S.73;
Poortinga und Malpass, 1986, S.24; Berry, 1980, S.8). Sind die Universen ident, ist die
Auswahl der Elemente repräsentativ, und handelt es sich um ein repertoirebezogenes
86
Konstrukt (vgl. Abbildung 14, Typ A), so ergibt sich die gemeinsame Skala allein durch
die Definition des Konstrukts, welches ein Universal (Berry, 1980; Lonner, 1980) darstellt. Kann von einem Universal nicht ausgegangen werden (Vgl. Abbildung 14, Typen
B bis D), sind die Universen aber ident, so besteht zwar prinzipiell eine gemeinsame Skala, der Vergleich von Meßwerten auf dieser Skala ist jedoch aufgrund möglicher Biases
nicht ohne weiteres möglich. „The definition of a comparison scale does not create major
problems when there is an identical universe (...). This does not mean that no systematic
errors can be made in the interpretation of actual data.“ (Poortinga und Malpass, 1986,
S.26). Systematische Fehler können beispielsweise auf Methodenartefakte, Verständnisprobleme seitens der Respondenten, Interaktionen mit Interviewern oder Drittpersonen,
usw. zurückgehen (vgl. dazu die Darstellungen zur Äquivalenzproblematik in Kapitel 4).
Sind die Universen nicht ident, so ist die Definition einer gemeinsamen Skala problematisch. Erfolgt die Auswahl der Elemente repräsentativ bzw. werden die gesamten Universen erfaßt, so erscheint die Definition einer gemeinsamen Skala möglich. „As far as nonidentical universes are concerned, a reasonable claim can be made to the effect that a comparison scale can be defined when all the elements in the respective universes are known
and either the entire universe, or a representative sample, are used for its measurement.“
(Poortinga und Malpass, 1986, S.26).
Im Falle nichtidenter Universen und selektierter Elemente ist bei repertoirebezogenen
Konstrukten (vgl. Abbildung 14, Typ G) grundsätzlich von unterschiedlichen Skalen auszugehen und damit Vergleichbarkeit nicht gegeben. So sind Meßergebnisse bezüglich des
Wissens über lokale Fauna und Flora nicht unmittelbar vergleichbar (Poortinga und Malpass, 1986, S.24). Ein Versuch, eine gemeinsame Skala zu etablieren, könnte darin liegen,
die einzelnen Elemente in einer Kultur und Sprache nicht lexikalisch in einer andere Sprache zu übersetzen, sondern anhand einer, durch Expertenurteile gegebenen, Rangfolge der
Wichtigkeit regionaler Pflanzen und Tiere.
Für attributbezogene Konstrukte ist die Definition einer gemeinsamen Skala bei nichtidenten Universen und selektierten Elementen (vgl. Abbildung 14, Typ H) ebenfalls äußerst problembehaftet. Gleichzeitig umfaßt diese Kategorie die Mehrzahl der
kulturübergreifenden Untersuchungen in der Psychologie (Poortinga und Malpass, 1986,
87
S.26), sowie in der Marketingforschung. Die dabei untersuchten Konstrukte (Persönlichkeitsmerkmale, Einstellungen, etc.) sind nicht direkt beobachtbar und damit nicht direkt
meßbar. Solche Konstrukte werden als latente, hypothetische Konstrukte bezeichnet (vgl.
Hänni, 1987, S.946). Die zur Messung herangezogenen Elemente sind Manifestationen
bzw. Indikatoren des Konstrukts. Die Auswahl der Elemente ist in der Regel nicht repräsentativ für das Universum. Diese ist vielmehr „based on a small subset of behaviors,
which from a theoretical point of view (or intuitively!) capture the essential aspects of a
psychological quality.“ (Poortinga und Malpass, 1986, S.27). Die Vergleichbarkeit verschiedener Kulturen setzt eine gemeinsame Skala voraus, welche die Meßwerte abbildet.
Die Definition einer solchen Skala setzt wiederum voraus, daß Identität auf der Konstruktebene besteht. Ist ein Konstrukt in Kultur A eindimensional, in Kultur B aber mehrdimensional, so ist eine gemeinsame Skala schon allein deshalb nicht etablierbar, da keine
dimensionale Identität besteht und in Kultur B mehr als eine Skala zur Repräsentation des
Konstrukts erforderlich ist. Vergleichbarkeit setzt somit dimensionale Identität des Konstrukts voraus. Die Frage, ob diese notwendige Bedingung für Vergleichbarkeit auch hinreichend ist, hängt davon ab, wie der Begriff der Vergleichbarkeit definiert wird. Wenn
sich Vergleichbarkeit lediglich darauf beziehen soll, Aussagen hinsichtlich der dimensionalen Identität treffen zu können, so ergibt sich der hinreichende Charakter der Bedingung
trivial aus der Gleichsetzung von dimensionaler Identität und Vergleichbarkeit. Freilich
verliert Vergleichbarkeit damit jeden erkenntnisbezogenen Wert, der über den der dimensionalen Identität hinausginge.
Für Vergleichbarkeit, verstanden als Zulässigkeit des Vergleichs von Meßwerten über
Kulturen hinweg, ist die dimensionale Identität allein nicht ausreichend. Dies erfordert
eine gemeinsame Meßskala. Diese ist dann gegeben, wenn die Transformation der hypothetischen Skala des Konstrukts in die Meßskala in allen Kulturen in gleicher Weise erfolgt (Poortinga und Malpass, 1986, S.28). Die hypothetische Skala des Konstrukts ist,
dimensionale Identität auf Konstruktebene vorausgesetzt, universell. Diese Skala bildet
die latenten, ’wahren’ Werte ab. Die Meßskala bildet die Scores der manifesten Indikatorvariablen (Meßelemente aus dem Universum des Konstrukts) ab.
88
Meßskala
Skala des hypothetischen Konstrukts
Abbildung 15: Transformation der Skala des hypothetischen Konstrukts und der
Meßskala (Poortinga und Malpass, 1986, S.28)
Abbildung 15 gibt einige mögliche Transformationsfunktionen wieder. Sinnvolle Messungen setzen (grundsätzlich) streng monoton steigende Funktionsverläufe voraus. Die
theoretische Fundierung der Transformation ist Aufgabe der Testtheorie, die der Messung
zugrundegelegt wird. Die klassische Testtheorie (vgl. Fischer, 1974, S.26), die axiomatisch auf Gullikson (1950) zurückgeht und später einige Modifikationen erfahren hat (vgl.
z.B. Lord und Novick, 1968), definiert die Transformationsfunktion als lineare Funktion.
Die Skala des hypothetischen Konstrukts bildet demnach die „true scores“ ab, also die
„wahren Werte“1, welche bei der tatsächlichen Messung durch Meßfehler überlagert sind
(zu anderen, semantischen, Interpretationen des „wahren Wertes“ in der klassischen Testtheorie vgl. Fischer, 1974, S.27).
wobei:
X = T+E
X ... beobachteter Meßwert
T ... wahrer Wert (true score)
E ... Meßfehler (random error)
Cov (T,E)=0; E(E)=0
Abbildung 16: Grundgleichung der klassischen Testtheorie
(Fischer, 1974, S.36; Rost, 1988, S.81)
Da jedoch sowohl der „wahre Wert“, als auch der Meßfehler nicht beobachtbare Größen
darstellen, wird ein beobachtbarer Wert, der manifeste Meßwert, durch die Summe zweier
unbeobachtbarer Werte „erklärt“. Die Grundgleichung der klassischen Testtheorie (vgl.
Abbildung 16) ist daher tautologisch und empirisch nicht widerlegbar.
89
Ausgehend von der Identität der Skala des hypothetischen Konstrukts unterscheiden
Poortinga und Malpass (1986, S.29f) drei mögliche Ansätze zur Interpretation interkultureller Daten. Im ersten Fall werden idente oder weitgehend gleiche Meßinstrumente eingesetzt und die Übereinstimmung der Transformationsfunktionen nicht überprüft,
sondern angenommen. „... when comparisons are made in terms of an observed score scale - and this is most common - it is implicitly assumed that the transformation function
between the hypothetical construct scale and observed score scale is the same in the cultures which are compared.“ (Poortinga und Malpass, 1986, S.29). Die bloße Annahme
identer Transformationsfunktionen und damit die fehlende Überprüfung der Wirksamkeit
eines Biases ist allerdings nicht zufriedenstellend. Im zweiten Fall werden ebenfalls gleiche oder nahezu gleiche Meßinstrumente angewandt, die Identität der Transformationsfunktionen wird jedoch durch zusätzliche Analysen geprüft. Poortinga und Malpass
(1986, S.30) führen als Beispiel Korrelationsanalysen der kulturspezifischen Itemschwierigkeiten an. Itemschwierigkeiten werden im Rahmen der klassischen Testtheorie bei leistungsbezogenen Meßinstrumenten als Verhältnis der Zahl der Personen definiert, welche
ein Item korrekt lösen und der Zahl der Personen insgesamt. Dieses Maß läßt sich für Einstellungsmessungen analog berechnen und könnte Itemaffektivität (Grad, inwieweit ein
Item Personen anspricht und zur Zustimmung animiert) genannt werden. Die Aussage-
1. Die formale Definition des beobachteten Werts X als Summe von True Score T und zufälligem
Fehler E sagt nichts über die semantische Bedeutung des True Scores oder wahren Werts aus.
Man kann den wahren Wert als platonische Idee verstehen, als Ding an sich (Steyer und Eid,
1993), welches unabhängig vom Test existiert. Tatsächlich sollte T auch testunabhängig sein,
was allerdings nur für parallele Tests praktisch gelten kann. Andere Sichtweisen „definieren“
den wahren Wert als Differenz des beobachteten Werts X und des Meßfehlers E, was lediglich
einer tautologischen Umstellung der Grundformel entspricht. Die statistische Interpretation
des wahren Werts als Erwartungswert des beobachteten Werts [T=E(X)] impliziert, daß der
Erwartungswert des zufälligen Fehlers E gleich 0 ist. E(E)=0 läßt sich also nicht aus der
Grundformel ableiten, sondern ist eine Zusatzannahme, ebenso wie die Zusatzannahme, daß
die Fehler verschiedener Testteile i und j unkorreliert sind [COV(Ei;Ej)=0]. Im Mittel entspricht also X gleich T. Gelegentlich wird die Grundformel auch anders angegeben (z.B. bei
Mullen, 1995). Der beobachtete Wert X wird als Summe von True Score, systematischem Fehler Es und zufälligem Fehler (random error) Er definiert (X = T + Es + Er). Damit wird jedoch
eine beobachtbare Größe durch drei nicht beobachtbare Größen definiert. Weiters führt T=E(X)
zu einem Widerspruch, da gilt: T=E(X)=E(T + Es + Er). E(Er)=0, der Erwartungswert des
systematischen Fehlers ist aber eine Konstante c [E(Es)=c]. Folglich gilt: T=E(X)=E(T) + c und
damit T=T + c. Dieser Widerspruch ist nur dann auflösbar, wenn der systematische Fehler mit
dem beobachteten Wert kombiniert wird (X’=X + Es). Die Spezifikation eines systematischen
Fehlers ist daher wenig sinnvoll. Insbesondere beeinträchtigt er als Konstante die - als Korrelation definierte! - Validität ohnehin nicht, wie gelegentlich behauptet wird. Sehr wohl relevant
ist ein additiver Bias im Falle der simultanen Betrachtung mehrerer Gruppen (vgl. Kapitel 6.6
auf Seite 114). Allerdings ist auch da nur der relative Bias einer Gruppe zu einer Referenzgruppe bestimmbar und nicht der absolute systematische Meßfehler einer Gruppe.
90
kraft dieser Größe ist durch ihre Stichprobenabhängigkeit allerdings ernsthaft eingeschränkt.
Eine
Heranziehung
zur
Überprüfung
der
Identität
der
Transformationsfunktionen erscheint daher problematisch.
Im dritten Fall gehen Poortinga und Malpass (1986, S.30) von unterschiedlichen Operationalisierungen in den einzelnen Kulturen aus. Durch intrakulturelle Konstruktvalidierung kann zwar gewährleitet werden, daß das gleiche hypothetische Konstrukt gemessen
wird, die Skala der manifesten Meßwerte (Scores) ist aber grundsätzlich unterschiedlich,
so daß keine Vergleichbarkeit der Meßwerte besteht. Die Anpassung der Meßinstrumente
an die jeweiligen Kulturen erhöht zwar die Zahl der möglichen Instrumente, beschränkt
aber die Zahl der Verfahren zur Überprüfung der Identität der Transformationsfunktionen
(Poortinga und Malpass, 1986, S.30).
5.3 Operationalisierung von Konstrukten
In der interkulturellen Erforschung eines marketingrelevanten Konstrukts ist grundsätzlich davon auszugehen, daß unterschiedliche, kulturabhängige Universen von Elementen,
die zur Operationalisierung des Konstrukts geeignet sind, bestehen. Daraus ergibt sich,
daß Konstrukte formal ident in allen untersuchten Kulturen oder formal unterschiedlich
operationalisiert werden können. Bei der formal identen Operationalisierung werden nur
solche Elemente zur Messung des Konstrukts herangezogen, die in allen Universen der an
der Untersuchung beteiligten Kulturen enthalten sind. Die einzelnen Elemente unterscheiden sich lediglich sprachlich, wobei die Bedingungen der Übersetzungsäquivalenz erfüllt
sein müssen. Bei formal unterschiedlichen Operationalisierungen in den einzelnen Kulturen sind einzelne oder alle Elemente kulturspezifisch und lediglich in einem Universum
enthalten.
Elemente, die in allen Universen enthalten sind und dementsprechend kulturübergreifend
zur Messung geeignet sind, werden als etics bezeichnet (Berry, 1980, S.11f). Kulturspezifische Elemente werden emics genannt. Bestehen die in unterschiedlichen Kulturen eingesetzten Meßinstrumente ausschließlich aus emischen Elementen, so ist ein
interkultureller Vergleich nicht möglich (Berry, 1990, S.95; Holzmüller, 1995, S.153).
Die Zielsetzung kulturvergleichender Forschung muß demnach auf die Entwicklung - zumindest teilweise - etischer Meßinstrumente gerichtet sein. Die Entwicklung von formal
91
identen Elementen im Meßinstrument garantiert allerdings nicht, daß diese Elemente tatsächlich in allen untersuchten Kulturen im Universum des Konstrukts enthalten sind.
„There appears to be no clear a priori criterion by which to distinguish the culture-specific
from the universal, (...) to distinguish the emic from the etic.“ (Poortinga und Malpass,
1986, S.41). Auch Wich (1989, S.43) betont, „daß Identität (Anm.: der Operationalisierung) nicht immer gleichzeitig Äquivalenz bzw. Vergleichbarkeit zur Folge haben muß“.
Die Frage, ob Meßinstrumente grundsätzlich als emisch anzusehen sind oder ob etische
Instrumente möglich sind, ist nicht objektiv beurteilbar, sondern hängt wesentlich von der
individuellen Grundposition ab. Verschreibt sich der Forscher a priori keiner der beiden
Positionen, so können diese als Annahmen bezeichnet werden, als Aussagen, die zwar objektiven Wahrheitswert aufweisen, aber mit keinem subjektiven Wahrheitsanspruch verbunden werden (vgl. Chmielewicz, 1979, S.119). Anhänger des radikalen kulturellen
Relativismus (vgl. dazu Poortinga und Malpass, 1986, S.41) gehen davon aus, daß hypothetische Konstrukte jedenfalls vor dem Hintergrund der spezifischen Kultur zu operationalisieren sind und favorisieren damit eine emische Ausrichtung. Adler (1983, S.S.36)
bezeichnet diese Sicht als polyzentrische Vorgangsweise („Cultures must be understood
in their own terms“). Weniger radikale Positionen nehmen an, daß „[d]ata, concepts, and
measurement procedures as they are found in a particular culture may be culture-specific,
but they may also be found to be appropriate for more than one culture“ (Poortinga und
Malpass, 1986, S.41).
Jedenfalls ist die Entwicklung a priori etischer, also universell gültiger, Meßinstrumente
nicht möglich. Der etische Charakter eines Elementes in einem Meßinstrument ist vielmehr empirisch zu belegen. Eine mögliche Vorgangsweise (vgl. Berry, 1990, S.95; Holzmüller, 1995, S.153) besteht darin, von einem vorläufig als emisch betrachteten
Meßinstrument auszugehen, welches in einer Kultur entwickelt und validiert wurde. Dieses Meßinstrument wird, so weit erforderlich in übersetzter Form, in einer anderen Kultur
eingesetzt. Wie bereits dargestellt, wird durch die in beiden Kulturen formal identen Meßinstrumente allein noch kein etisches Instrument etabliert. Die kulturfremden emics werden vielmehr der zweiten Kultur „aufgedrängt“ (imposed etics, auch pseudo etics
genannt). Durch weitere Exploration der zweiten Kultur werden dafür spezifische, also
emische Aspekte erforscht und berücksichtigt, so daß ein zweites emisches Meßinstrument resultiert. Dieses wird mit dem ursprünglichen emischen Instrument der Ausgangs-
92
kultur verglichen. Die Überschneidungsbereiche der beiden emischen Instrumente sind
kulturübergreifend einsetzbar. Dennoch kann nicht uneingeschränkt von etischen Instrumenten gesprochen werden, da die Gültigkeit nur für die beteiligten Kulturen nachgewiesen wird. Die entsprechenden Elemente im Überschneidungsbereich werden als derived
etics bezeichnet.
Die empirische Überprüfung, ob und in welchem Ausmaß ein Überschneidungsbereich
existiert, ist von der Zielsetzung ident mit der Überprüfung der Äquivalenz der Erhebungsdaten. Kulturelle Faktoren können einerseits als Antezedenzbedingung die Werte
des Konstrukts, also die Ausprägungen auf der Konstruktdimension, beeinflussen. Andererseits bestimmt Kultur die Definition der zur Messung des Konstrukts geeigneten Parameter (Poortinga und Malpass, 1986, S.45). Für quantitative Vergleiche über Kulturen
hinweg sind ein gemeinsames Modell (gleiche Struktur) und eine gemeinsame Skala erforderlich (Poortinga und Malpass, 1986, S.43).
5.4 Interkulturelle Vergleiche
Die Überprüfung von Hypothesen in der interkulturellen Forschung ist aufgrund des Charakters der Untersuchung als Ex-post-facto-Experiment (Chmielewicz, 1979, S.113ff)
problematisch. Unter einer Hypothese sei „eine Aussage verstanden, die objektiv einen
Wahrheitswert aufweist, also nach ihrer Form wahr oder falsch sein kann, für die außerdem subjektiv ein Wahrheitsanspruch erhoben wird“ (Chmielewicz, 1979, S.119). Um die
Prüfung einer wissenschaftlichen Hypothese durch statistische Verfahren zu gewährleisten, muß diese in eine statistische Hypothese umgewandelt werden (Bortz, 1993, S.105).
Letztere soll inhaltlich so genau wie möglich der wissenschaftlichen Hypothese entsprechen. Die statistische Hypothese zielt auf einen spezifischen Testwert ab, der durch das
angewendete Verfahren ermittelt wird. Um aufgrund empirischer Daten eine Entscheidung zu treffen, müssen stets zwei, komplementäre statistische Hypothesen formuliert
werden. Die eigentlich zu überprüfende Hypothese geht - bei Unterschiedshypothesen von einem Unterschied aus. In statistischer Diktion wird diese Hypothese Alternativhypothese genannt (Bortz, 1993, S.106). Letzterer wird eine Nullhypothese gegenübergestellt.
Die Nullhypothese ist logisch komplementär zur Alternativhypothese. Daraus folgt, daß
entweder die Alternativhypothese oder die Nullhypothese objektiv wahr ist, nie aber beide wahr oder beide falsch sein können. Das angewandte statistische Verfahren prüft, ob
93
die empirischen Daten mit der Nullhypothese noch in Einklang stehen, oder ob die Alternativhypothese als vorläufig gültig anzusehen ist. Im letzteren Fall wird von einem signifikanten Ergebnis gesprochen, der empirisch in einer Stichprobe vorgefundene
Unterschied ist also statistisch bedeutsam und auf die Grundgesamtheit verallgemeinerbar. Unabhängig vom Ergebnis der Hypothesenprüfung kann selbige allerdings nur einen
subjektiven Wahrheitsanspruch begründen. Denn die Prüfung der Hypothesen ist stets mit
der Möglichkeit einer Fehlentscheidung verbunden. Dabei werden zwei Fehlerarten unterschieden. Die fälschliche Zurückweisung der Nullhypothese und damit die Annahme
der Alternativhypothese wird als Fehler 1. Art oder α-Fehler bezeichnet. Die fälschliche
Beibehaltung der Nullhypothese entspricht einem Fehler 2. Art oder β-Fehler (Bortz,
1993, S.107). Die statistische Hypothesenprüfung erlaubt zwar keine Aussage, ob im konkreten Fall eine Fehlentscheidung getroffen wurde, sie gestattet aber eine Quantifizierung
der Wahrscheinlichkeit eines Fehlers. Die Prüfung eines empirischen Ergebnisses auf Signifikanz erfolgt damit auf einem bestimmten, vom Forscher zu wählenden Niveau, dementsprechend Signifikanzniveau bezeichnet. Dieses gibt die Wahrscheinlichkeit an, die
Gültigkeit der Nullhypothese auch als solche richtig zu erkennen. Das Signifikanzniveau
ist damit komplementär zum Fehler 1. Art. Während der Fehler 1. Art frei wählbar ist, ist
der Fehler 2. Art nur für die Annahme eines bestimmten wahren Unterschieds bestimmbar.
Das Signifikanzniveau läßt sich formal als bedingte Wahrscheinlichkeit darstellen:
P (Beibehaltung der NullhypotheseGültigkeit der Nullhypothese).
Aus dieser Wahrscheinlichkeit läßt sich aber ohne weitere Annahmen nicht die Gültigkeit
der Nullhypothese unter der Bedingung der empirischen Daten ableiten. Nach dem Theorem von Bayes (Abbildung 17; vgl. Iversen, 1984, S.12), ist die Wahrscheinlichkeit der
Nullhypothese unter der Bedingung der Daten dann ableitbar, wenn die a priori Wahrscheinlichkeit der Nullhypothese vom Forscher vorgegeben wird.
94
P ( H i ) × P ( D Hi )
P ( H i D ) = --------------------------------------------------------k
∑i = 0 P ( H i ) × P ( D H i )
Hi ... Hypothese i
D ... Daten (empirische Ergebnisse)
Abbildung 17: Wahrscheinlichkeit einer Hypothese unter der Bedingung empirischer Daten nach dem Theorem von Bayes (vgl. Iversen, 1984)
Im Nenner des Bruches (vgl. Abbildung 17 für i=0) sind die Wahrscheinlichkeiten aller
möglichen Alternativhypothesen mit den entsprechenden Wahrscheinlichkeiten der Daten zu multiplizieren. Im Zähler ist die Wahrscheinlichkeit der Daten unter der Bedingung
der Gültigkeit der Nullhypothese (entspricht dem gewählten Signifikanzniveau) mit der
unbedingten a priori Wahrscheinlichkeit der Nullhypothese zu multiplizieren. Malpass
und Poortinga (1986, S.48) argumentieren, daß die a priori Wahrscheinlichkeit der Zurückweisung der Nullhypothese in der interkulturellen Vergleichsforschung außerordentlich hoch ist. Die a priori Wahrscheinlichkeit der Zurückweisung der Nullhypothese ist
dann hoch, wenn die a priori Wahrscheinlichkeit der Nullhypothese gering ist. Letzteres
gilt allerdings nicht, weil bereits eine Reihe empirischer Befunde dafür spräche, sondern
weil zahlreiche unkontrollierte Effekte, wie z.B. Antwortbiases, wirksam sind. Für Malpass und Poortinga (1986, S.48) ist die Nullhypothese, welche das Fehlen eines Unterschieds postuliert, daher keine taugliche Alternative zur Forschungshypothese, wonach
ein kulturell bedingter Unterschied bestehe. Die Testung einer Alternativhypothese gegen
eine Nullhypothese ist nur eine „reasonable presumption in studies where subjects are
randomly allocated to different experimental conditions and the differences between these
conditions are restricted to changes which are introduced and more or less completely
controlled by the investgator(s)“ (Malpass und Poortinga, 1986, S.49). In kulturübergreifenden Studien ist dies in der Regel nicht der Fall, da „the allocation of subjects is determined by their membership in a specific cultural group and the observed differences
between cultures follow from antecedent conditions on which the researcher has exercised
no influence“ (Malpass und Poortinga, 1986, S.49). Malpass und Poortinga unterstreichen
damit die Problematik von Ex-post-facto-Experimenten. Zwei Strategien, die Genauigkeit der Hypothesenprüfung zu steigern, die Erhöhung der Stichprobengröße, sowie die
95
Durchführung von Replikationsstudien, versagen in der kulturvergleichenden Forschung.
Replikationsstudien und größere Stichprobenumfänge sind dann zur Randomisierung unkontrollierbarer Effekte, wie Antwortbiases, nicht geeignet, wenn diese Effekte in stets
gleicher Weise wirksam sind. „To the extent that the ambient factors are themselves stable
across subjects or across assessment procedures, larger samples and replications will serve only to increase the stability of the biased estimation of the population difference, since
all the data would have the existing biases in common.“ (Malpass und Poortinga, 1986,
S.50). Für Malpass und Poortinga ist dementsprechend der „empirical support for many
interpretations of observed cross-cultural differences (...) far less established than it appears to be“ (Malpass und Poortinga, 1986, S.49). Aussagekräftige Vergleiche bedingen
daher die Eliminierung kleinster systematischer Biases. Dies kann nur durch die Überprüfung der Äquivalenz der Erhebungsdaten erfolgen. Im Falle nicht signifikanter Unterschiede ist es zwar unwahrscheinlich, daß substantielle Biases wirksam sind (Malpass und
Poortinga, 1986, S.63). Dennoch ist es unbefriedigend, daraus sowohl die Schlußfolgerung zu ziehen, daß kein Bias besteht, als auch die, daß sich die beiden Kulturen im untersuchten Phänomen nicht unterscheiden.
Die Tatsache, daß der Datenäquivalenzprüfung in der interkulturellen Marketingforschung ein viel zu geringer Stellenwert eingeräumt wird, kann auf mehrere Ursachen zurückgeführt werden. Zum einen wird „[e]quivalence (...) often seen as a conceptual rather
than a measurement problem“ (Malpass und Poortinga, 1986, S.67). Die Fehleinschätzung des Problemcharakters führt zu inadäquaten, meist auf Plausibilitätsüberlegungen
beruhenden „Prüfungen“ der Äquivalenz. Wie bereits dargestellt, ist die Beachtung aller
Äquivalenzaspekte von der Konstruktformulierung bis zur Aufbereitung der Daten keine
hinreichende Bedingung für die Äquivalenz der Erhebungsdaten. Ein zweiter Grund,
Äquivalenzprüfungen zu unterlassen, geht auf inhaltliche bzw. forschungssoziologische
Motive zurück. Weist die Prüfung der Äquivalenz der Erhebungsdaten darauf hin, daß
keine Vergleichbarkeit der Daten gegeben ist, so besteht aufgrund des Fortschritts der Untersuchung keine Möglichkeit mehr, korrigierend einzugreifen. Dies beeinträchtigt aber
wesentlich die Publizierbarkeit der Ergebnisse in wichtigen Zeitschriften. Ähnliches gilt,
wenn signifikante Unterschiede postuliert und empirisch nachgewiesen werden, diese
aber lediglich auf Methodenartefakten beruhen. Malpass und Poortinga (1986, S.64f) betonen, daß „a failure to find differences is not a negative but a positive research outcome“
96
und daß „the search for no-difference results across divergent cultures may from time to
time be a more promising approach than searching for differences“.
Schließlich liegt ein möglicher Grund auch darin, daß geeignete Methoden in der wirtschaftswissenschaftlichen Forschergemeinschaft noch nicht entsprechend rezipiert sind.
Diesbezügliche Defizite wurden bereits im Zuge der Beschreibung von Systematisierungen der Äquivalenz beklagt.
5.5 Biasformen
In der interkulturellen Vergleichsforschung lassen sich drei mögliche Formen von Biases
unterscheiden (Malpass und Poortinga, 1986, S.71ff):
• Stimulusbias
• Methodenbias
• Universumsbias
Die Wirksamkeit eines Stimulusbias, oder Itembias, ist dann wahrscheinlich, wenn die
einzelnen Stimuli (Items) nicht repräsentativ für das Universum möglicher Stimuli sind
bzw. das Universum sehr heterogen ist. So wäre ein Item, welches nach dem höchsten
Berg der Alpen fragt, zwar für alle Länder im Universum eines Tests europäischer Geographie. Für Schweizer ist die richtige Antwort allerdings viel wahrscheinlicher als für
Schweden (Malpass und Poortinga, 1986, S.71). Ein Methodenbias ist wirksam, wenn
Umfeldvariablen, wie Interaktionen des Interviewers und des Befragten, Verständnis der
Aufgaben, etc., zu kulturell unterschiedlichen Ergebnissen führen. Während Methodenund Stimulusbias meßmethodische Probleme implizieren, referenziert der Universumsbias auf ein theoretisches Problem. Ein Universumsbias besteht dann, wenn die Universen
unterschiedlich sind oder Generalisierungen auf unterschiedliche Universen erfolgen.
Wenn nicht-idente Universen zu formal unterschiedlichen Meßinstrumenten führen, so
besteht keine Möglichkeit, Biases auszuschließen (Malpass und Poortinga, 1986, S.74).
In interkulturellen Studien sind in der Regel die Universen nicht zur Gänze bekannt, damit
ist auch nicht klar, ob sie sich unterscheiden. Die Prüfung, ob ein Universumsbias vorliegt, kann durch Validitätsprüfungen in Bezug auf das gemeinsame Universum erfolgen.
Da die Präsenz eines Universumsbiases in aller Regel aber auch zu Methoden- oder Stimulusbiases führt, gewährleistet die Überprüfung letzterer auch eine Abschätzung eines
97
möglichen Universumsbias. Sowohl Methoden- als auch Stimulusbias beeinträchtigen die
Äquivalenz auf der Ebene einzelner oder auch aller Items. Werden auf Itemebene keine
Biases gefunden, so kann davon ausgegangen werden, daß die Universen übereinstimmen. Werden hingegen einige der Items durch einen Bias beeinflußt, so empfehlen Malpass und Poortinga (1986, S.75), diese von der weitergehenden Analyse auszuschließen.
Voraussetzung für diese Vorgangsweise ist allerdings die Plausibilität identer Universen,
welche theoretisch zu untermauern ist. Andernfalls reflektieren die ausgeschlossenen
Items systematische Unterschiede zwischen den Kulturen.
5.6 Verfahren zur Überprüfung der Wirksamkeit von Itembiases
Ein Item ist als biasfrei zu betrachten, wenn die Schwierigkeit bzw. die Affektivität des
Items nicht kulturabhängig ist. Auf die Problematik der Itemschwierigkeit im Rahmen der
klassischen Testtheorie wurde bereits hingewiesen. Eine Alternative zur klassischen Testtheorie stellt die probabilistische Testtheorie (Fischer, 1974), auch als Latent Trait Theory
oder Item Response Theory bezeichnet, dar. Das hypothetische Konstrukt wird dabei auf
einer Latent Trait Skala abgebildet. Die Wahrscheinlichkeit der Zustimmung einer Person
bei einem Item in Abhängigkeit von der Position auf der Latent Trait Skala formt eine sogenannte Itemcharakteristikkurve (Malpass und Poortinga, 1986, S.77). Für biasfreie
Items stimmen die Parameter der Itemcharakteristikkurven in den jeweiligen Kulturen
überein.
Prüfverfahren, die geeignet sind, Methodenbiases zu entdecken, setzen an Iteminterkorrelationen an (Malpass und Poortinga, 1986, S.78f). Items, die das gleiche Konstrukt messen, müssen korrelieren. Interkulturelle Vergleichbarkeit setzt voraus, daß diese
Korrelationen in den betrachteten Kulturen übereinstimmen. Als adäquates Verfahren
bietet sich die konfirmatorische Faktorenanalyse (Jöreskog, 1971) an (Malpass und Poortinga, 1986, S.79). Diese basiert auf Itemkovarianzen und berücksichtigt daher alle möglichen Interitembeziehungen simultan. Durch Spezifikation von theoretisch fundierten
Beziehungen von Items zu Faktoren, ist eine Prüfung der Struktur der Items simultan in
mehreren Kulturen möglich.
Somit erscheinen zwei methodische Ansätze zur Überprüfung der Äquivalenz der Erhebungsdaten vielversprechend, zum einen die konfirmatorische Faktorenanalyse, welche
98
auf der klassischen (oder traditionellen) Testtheorie (Classical Test Theory, CTT) beruht,
zum anderen Verfahren auf der Basis der probabilistischen Testtheorie (Latent Trait
Theory, LTT).
99
6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie
6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der
klassischen Testtheorie
6.1 Grundlegende Ansätze zur Überprüfung der Äquivalenz der Erhebungsdaten
Die endgültige Bewertung der Äquivalenz erfordert die Überprüfung der Äquivalenz der
Erhebungsdaten. Ein möglicher Ansatz, welcher Gegenstand dieses Abschnitts ist, basiert
auf der konfirmatorischen Faktorenanalyse. Ein alternativer methodischer Zugang beruht
auf der probabilistischen Testtheorie, welcher im Abschnitt 7 (S. 132) behandelt wird. Der
wesentliche Unterschied der beiden möglichen Ansätze liegt somit in der zugrundeliegenden Meßtheorie und ist dementsprechend fundamental. Der faktorenanalytische Ansatz
basiert auf der klassischen, traditionellen Test- und Meßtheorie, deren Grundformel bereits eingeführt wurde (vgl. Abbildung 16 auf Seite 89). Da die klassische Testtheorie die
in der Marketingforschung vorherrschende, weithin akzeptierte Meßtheorie darstellt, wird
auf ihre Charakteristika und Probleme erst im folgenden Abschnitt eingegangen, wenn
diese kontrastierend zur probabilistischen Testtheorie erläutert werden. Gegenstand dieses Kapitels ist daher die Exploration der konfirmatorischen Faktorenanalyse als Instrument der Überprüfung der Äquivalenz der Erhebungsdaten. Die kritische Hinterfragung
der meßtheoretischen Grundlagen erfolgt zu einem späteren Zeitpunkt.
Bereits Berry (1980) führt die Prüfung der inneren Struktur eines Konstrukts als Verfahren zur Bestimmung der metrischen Äquivalenz an (vgl. Seite 62). Ein Vergleich über
Kulturen hinweg erfordert demnach gleiche innere Struktur der Meßmodelle. Die Identität der Strukturen ist aber gleichzeitig auch Voraussetzung für die Erfüllung der Äquivalenz der Erhebungsdaten. Die Faktorenanalyse bietet sich somit als strukturenprüfendes
Verfahren an.
100
6.2 Explorative Faktorenanalyse1
6.2.1 Grundlagen
Die explorative Faktorenanalyse (EFA) dient der Untersuchung der Struktur, welche den
Beziehungen von manifesten Variablen (Items) zugrundeliegt. Die Quantifizierung der
Variablenbeziehungen erfolgt in Form von Korrelationskoeffizienten (vgl. Backhaus et
al., 1994, S.193). Die Korrelationen aller Variablen formen eine Korrelationsmatrix, welche den Input für die Faktorenanalyse darstellt2. Die Analyse der dahinterliegenden
Struktur erfolgt durch die Definition von latenten Dimensionen, welche als Faktoren bezeichnet werden (vgl. z.B. Hair et al., 1995, S.366f). In Abbildung 18 sind zwei latente
Faktoren (F1 und F2) dargestellt, welche hinter den Interkorrelationen von acht manifesten Variablen (V1 bis V8) stehen. Die „Verbindung“ eines Faktors und einer manifesten
Variable wird als Ladung bezeichnet. Dieser Parameter entspricht der Gewichtung des
Faktors bei der Erklärung der Variablen und ist wie eine Korrelation zu interpretieren.
Dementsprechend können Faktorladungen Werte zwischen -1 und +1 annehmen. Hohe
Absolutwerte (also nahe -1 oder +1) stehen für einen starken Zusammenhang (in Abbildung 18 sei dies durch eine durchgezogene Linie dargestellt), Ladungswerte um 0 stehen
für einen sehr geringen bis gar keinen Zusammenhang (in Abbildung 18 durch strichlierte
Linien symbolisiert). Da latente Variablen (Faktoren) nicht direkt beobachtbar sind, sondern nur durch manifeste Variablen erfaßbar sind, werden letztere auch Indikatorvariablen genannt.
1. Auf die explorative Faktorenanalyse wird fast ausschließlich unter Weglassung des Begriffs
„explorativ“ Bezug genommen. Weiters werden unter dem Begriff Faktorenanalyse, neben
anderen, weniger bedeutsamen Verfahren (vgl. dazu z.B. Bortz, 1993, S.515ff), zwei Analysetechniken subsumiert: die Hauptachsenanalyse als Faktorenanalyse i.e.S. und die Hauptkomponentenanalyse. Letztere kann als Schätzverfahren der Faktoren angesehen werden (vgl. z.B.
Horn und McArdle, 1992, S.119). In der Praxis unterscheiden sich die Lösungen der Hauptachsenanalyse und der Hauptkomponentenanalyse allerdings nicht substantiell. Zu den unterschiedlichen Anwendungsvoraussetzungen vgl. z.B. Hair et al. (1995, S.375ff).
2. Die Faktorenanalyse baut in der Mehrzahl der Anwendungen auf Korrelationen von Variablen
(Items) auf, sogenannte R-type-factor analysis (vgl. Hair et al., 1995, S.369; Stewart, 1981,
S.52ff). Daneben besteht die Möglichkeit, Faktorenanalysen auf Korrelationen von Personen
(Cases) zu beziehen (Q-type-factor analysis, vgl. Hair et al., 1995, S.369 bzw. S-type-factor
analysis, vgl. Stewart, 1981, S.52ff), sowie Wiederholungsmessungen einer einzigen Person
oder Messungen an einer einzigen Variablen zu mehreren Zeitpunkten zu berücksichtigen (Ttype-, P-type- bzw. O-type-factor analysis, vgl. Stewart, 1981, S.52ff).
101
V1
V2
V3
F1
V4
V5
F2
V6
V7
V8
Abbildung 18: Faktorenanalyse: Beziehungen manifester Variablen
(V1 bis V8) zu zwei latenten Faktoren (F1 und F2)
6.2.2 Zielsetzungen
Die Zielsetzungen der explorativen Faktorenanalyse lassen sich demnach wie folgt zusammenfassen (Hair et al., 1995, S.368ff; Stewart, 1981, S.51):
• Ermittlung der den Variablenbeziehungen zugrundeliegenden Struktur
• Identifikation für ein Konstrukt repräsentativer Variablen
• Reduktion der Daten
Alle drei Zielsetzungen stehen in einem engen Zusammenhang. Die Zielsetzung der
Strukturentdeckung ergibt sich unmittelbar aus dem Grundprinzip der Faktorenanalyse.
Eine Reihe von Variablen wird in einem Raum angeordnet, dessen konstituierende Achsen durch Faktoren gebildet werden (vgl. Abbildung 19). Diese Raumstruktur ist ein Abbild3 der Datenstruktur. Der Faktorraum ist nicht notwendigerweise orthogonal, das heißt,
die Faktoren müssen nicht unkorreliert sein. Im Sinne einer leichteren Interpretierbarkeit
werden unkorrelierte Faktoren aber in der Regel bevorzugt. Die Korrelation der Faktoren
102
hängt analysetechnisch von der gewählten Rotationsform ab (vgl. dazu z.B. Bortz, 1993,
S.506ff).
F2
V6
V8 V7
V5
V2
V1
V3
V4
F1
Abbildung 19: Faktorenanalyse: Anordnung der manifesten Variablen
(V1 bis V8) im zweidimensionalen Raum (definiert
durch F1 und F2)
Die Dimensionen des Raumes, also die Faktoren, lassen sich inhaltlich durch die Stärke
der Assoziation der Variablen mit der jeweiligen Dimension interpretieren. Variablen die
mit einer Dimension sehr stark assoziiert sind, also eine hohe Faktorladung haben, gleichzeitig auf allen anderen Dimensionen nur geringe Ladungen aufweisen, charakterisieren
die entsprechende Dimension inhaltlich. Daraus ergibt sich, daß Variablen, die diese Bedingung erfüllen, aus inhaltlichen Gründen zu bevorzugen sind und für eine Dimension
des Konstrukts als repräsentativ betrachtet werden können. Der in Abbildung 19 dargestellte Faktor 1 wird gut durch die Variablen V1 bis V4 charakterisiert. V5 lädt zwar ebenso hoch auf Faktor 1, gleichzeitig aber auch auf Faktor 2. Diese Variable läßt sich also
nicht auf einen Faktor zurückführen. Das Ziel, eine Faktorenstruktur zu ermitteln, die dieser Vorgabe gerecht wird, läßt sich durch faktorenanalytische Techniken (konkret durch
entsprechende Rotationsverfahren, vgl. z.B. Bortz, 1993, S.506ff; Backhaus et al., 1994,
S.227ff; Stewart, 1981, S.59) erreichen. Thurstone (1947) hat für diese Struktur den Begriff der Einfachstruktur (simple structure) geprägt.
3. Das Abbild ist allerdings insofern unvollkommen, als die Faktoren nicht die gesamte Varianz
der ursprünglichen Variablen erklären können. Das faktorenanalytische Modell impliziert
somit einen abstraktionsbedingten Informationsverlust.
103
Da die Dimensionalität des Faktorenraumes kleiner ist als die des Raumes der ursprünglichen Variablen, ist mit der Faktorenanalyse konsequenterweise eine Reduktion der Daten verbunden. Jede Beobachtungseinheit wird nicht mehr durch die Zahl der
ursprünglichen, manifesten Variablen beschrieben, sondern durch die wesentlich geringere Zahl an latenten Dimensionen. Letztere drücken aus, was die ursprünglichen Variablen
gemeinsam haben (vgl. Stewart, 1981, S.51). Messen alle Variablen die gleiche Dimension, so läßt sich die Ausprägung einer Beobachtungseinheit durch einen einzigen Wert angeben, den Faktorwert. Freilich ist die Datenreduktion in aller Regel mit einem
Informationsverlust verbunden. Die Faktorwerte können nicht mehr die gesamte Varianz
reproduzieren, die in den ursprünglichen Variablen enthalten war. Der Verlust an Information ist jedoch stark unterproportional zum Gewinn, der aus der Datenreduktion resultiert4.
6.2.3 Kritische Betrachtung
Die explorative Faktorenanalyse zählt zu den in der Marketingforschung am häufigsten
angewandten multivariaten Verfahren (Stewart, 1981, S.51). Nicht selten nimmt die Anwendung aber den Charakter eines „blind use“ an, welcher nicht zuletzt auf die leichte
Verfügbarkeit von entsprechender Statistiksoftware zurückgeht (Stewart, 1981, S.51). An
dieser Stelle interessieren weniger grundsätzliche, konzeptuelle Mißverständnisse (wie
z.B. die Verwechslung mit der Clusteranalyse hinsichtlich der Zielsetzung des Verfahrens) oder die Problematik der Anwendung auf ordinal skalierte Variablen, sondern Einschränkungen, die sich im Zuge der konkreten Anwendung der Faktorenanalyse bei der
Überprüfung der Datenäquivalenz ergeben. Die Faktorenanalyse zählt zu den strukturentdeckenden Verfahren, ist also explorativer, hypothesengenerierender Natur. Vor allem zu
Beginn eines Skalenentwicklungsprozesses ist der Einsatz von Faktorenanalysen daher
sinnvoll. Sehr häufig bestehen aber vor Anwendung der Faktorenanalyse durchaus Hypothesen, welche Variablen interkorrelieren und dementsprechend einen Faktor formen und
welche Variablen zu welchen Faktoren keine Beziehung und dementsprechend auf diesen
Faktoren eine geringe Ladung aufweisen. Die Zielsetzung liegt demnach nicht in der
Strukturentdeckung, sondern in der Strukturprüfung. Die explorative Faktorenanalyse
geht jedoch davon aus, daß keine a priori Struktur bekannt ist. Ein statistischer Test einer
4. Dies gilt unter der Voraussetzung, daß die Variablen gemeinsame Varianz enthalten und die
Daten damit überhaupt zur Faktorenanalyse geeignet sind. Als Maß für die Eignung der Daten
kann z.B. das „Kaiser-Meyer-Olkin measure of sampling adequacy“ (vgl. Stewart, 1981, S.57)
herangezogen werden.
104
strukturellen Hypothese kann somit nicht im Rahmen der explorativen Faktorenanalyse
erfolgen. Im Zuge der Überprüfung der Äquivalenz der Erhebungsdaten in der internationalen Marktforschung ist jedoch zu prüfen, ob die vorgegebene Struktur kulturübergreifend nachweisbar ist bzw. ob sich die Strukturen in den einzelnen Stichproben gleichen.
Für die Fragestellung des Vergleichs zweier faktorenanalytischer Lösungen wurden zwar
Lösungsvorschläge entwickelt (vgl. z.B. Bortz, 1993, S.511f), diese stellen aber durchwegs keine gute Basis für Überprüfungen der strukturellen Identität dar (Horn und
McArdle, 1992, S.131). Der „Salient Variable Similarity Index“ (SVSI) (vgl. Horn und
McArdle, 1992, S.131) drückt die Übereinstimmung faktorenanalytischer Lösungen hinsichtlich der „herausragenden“, also hohen Ladungen (salient loadings) aus. Der Wert des
Index ist aber maßgeblich davon abhängig, welche Grenze für „salient loadings“ - mehr
oder weniger willkürlich - definiert wird. Der auf Tucker (vgl. Horn und McArdle, 1992,
S.131; Bortz, 1993, S.512) zurückgehende Kongruenzkoeffizient ist ebenfalls ein Maß für
die Übereinstimmung zweier Faktoren. Allerdings fehlt die theoretische Grundlage der
Zufallsverteilung dieses Koeffizienten, und dementsprechend stehen keine statistisch fundierten Interpretationsregeln zur Verfügung. ten Berge (1996) analysiert weitere Factor
Similarity Coefficients von Kaiser, Hunka und Bianchini und kommt zum Schluß, daß
auch diese Koeffizienten keine zuverlässige Methode darstellen, die Übereinstimmung
von Faktoren zu überprüfen. Diese methodischen Defizite und der strukturprüfende Charakter der Äquivalenzprüfung legen die Anwendung konfirmatorischer Faktorenanalysen
nahe (ten Berge, 1996).
6.3 Konfirmatorische Faktorenanalyse
Die konfirmatorische Faktorenanalyse (abgekürzt CFA für confirmatory factor analysis)
ist ein strukturprüfendes Verfahren im Unterschied zum strukturentdeckenden Charakter
der explorativen Faktorenanalyse (vgl. Homburg und Giering, 1996, S.9). Folglich erfordert die CFA ein theoretisch fundiertes Modell, welches die Beziehungen der manifesten
Variablen zu latenten Größen spezifiziert5. Ist ein solches nicht vorhanden, so kann die
5. Die Differenzierung in explorative und konfirmatorische Faktorenanalyse ist nicht immer eindeutig (Anderson und Gerbing, 1988, S.411f). Zwar ist eine explorative Faktorenanalyse stets
tatsächlich explorativ, eine konfirmatorische Faktorenanalyse kann jedoch - zumindest in Teilbereichen des Modells - durchaus explorativen Charakter annehmen, wenn Beziehungen nicht
theoretisch fundiert sind und datengestützt revidiert werden (Gerbing und Hamilton, 1996).
Anderson und Gerbing schlagen daher den Begriff der „restricted analysis“ vor, welcher auf
die Restriktionen der Parameterschätzungen (typischerweise die der nonsalient loadings auf 0)
abstellt.
105
explorative Faktorenanalyse als vorangehende Heuristik zur Modellbestimmung herangezogen werden. „When the underlying structure of the measures (indicators) is not well understood, EFA’s lack of a priori specification becomes a relative strength.“ (Gerbing und
Hamilton, 1996, S.63).
Abbildung 20 stellt ein Modell für zwei Faktoren dar. Latente Variablen werden konventionskonform durch Ellipsen symbolisiert, manifeste Variablen durch Rechtecke (vgl.
Backhaus et al., 1994, S.324). Der Faktor F1 steht demnach in Bezug zu vier manifesten
Variablen (Indikatoren V1 bis V4). Jede dieser Variablen wird als von F1 beeinflußt gesehen. Wird die Richtung der Beziehung dieser Art spezifiziert, so wird von reflektiven
Indikatoren (Homburg und Giering, 1996, S.9) gesprochen. In Abbildung 20 wird die
Verbindung von F1 zu V1 bis V4 dementsprechend als Pfeil dargestellt, der von F1 ausgeht. Die Variablen V1 bis V4 sind somit als fehlerbehaftete Messungen des Faktors F1
zu sehen. Der Meßfehler wird durch einen zusätzlichen Pfeil symbolisiert, welcher zur
manifesten Variable zeigt. Aus Gründen der einfacheren Darstellung werden die Meßfehler, zumindest in konzeptuellen Modelldarstellungen, zumeist nicht angegeben. Wird die
Beziehung von Faktor und manifester Variable umgekehrt, so spricht man von formativen
Indikatoren (Homburg und Giering, 1996, S.9). Die latente Dimension wird dann als
Funktion der Indikatoren gesehen. Formative Indikatoren sind nur dann sinnvoll, wenn
eine taxative Auflistung aller möglichen Indikatoren verfügbar ist und diese den Faktor
sozusagen definieren (z.B. das Konstrukt der sozialen Schicht als definitorische Funktion
von Ausbildung, Einkommen und Berufsstand). In der Messung von Einstellungen und
Persönlichkeitskonstrukten ist die Zahl möglicher Indikatoren (theoretisch) schier unerschöpflich, so daß praktisch ausschließlich reflektive Indikatoren modelliert werden.
106
V1
V2
F1
V3
V4
V5
V6
F2
V7
V8
Abbildung 20: Faktorenanalyse: CFA-Modell zweier latenter Faktoren und
acht manifester Variablen
Für die Variablen V1 bis V4 werden also entsprechende Ladungswerte für F1 geschätzt.
Die Variablen V5 bis V8 stehen in keinem Bezug zu F1, die entsprechenden Modellparameter sind somit auf 0 fixiert. Die Entscheidung, welche Ladungen geschätzt und welche
auf 0 fixiert werden sollen, ist auf einer theoretischen Basis zu bestimmen. Von 0 verschiedene Ladungen werden auch als salient loadings bezeichnet, die Nulladungen als
nonsalient loadings. Eine weitere Besonderheit konfirmatorischer Faktorenanalysen betrifft die Beziehung der Faktoren untereinander. Durch den Ausschluß geringer Ladungen
von manifesten Variablen auf anderen Faktoren als dem durch das Item zu messenden
Faktor, wird im allgemeinen eine korrelative Beziehung zwischen den Faktoren angenommen (in Abbildung 20 durch einen Doppelpfeil dargestellt).
6.4 Güteindikatoren zur Modellüberprüfung
Die Überprüfung, ob die Daten einer angenommenen Modellstruktur entsprechen, ist
gleichbedeutend mit der Prüfung der Güte des faktorenanalytischen Modells. Der historisch erste Ansatz der Gütebestimmung (Goodness-of-fit6) sah ein Modell dann als gültig
an, wenn sich die Kovarianzen zwischen den einzelnen manifesten Variablen auf der Ba-
6. Neben der Möglichkeit der Bestimmung der Güte des Gesamtmodells können auch einzelne
Parameter auf Signifikanz geprüft werden.
107
sis der geschätzten Modellparameter (sogenannte implied matrix) von den tatsächlichen
Kovarianzen (empirische Matrix) nur stichprobenbedingt unterscheiden (Baumgartner
und Homburg, 1996, S.149). Die Differenz der beiden Matrizen ist χ2- verteilt (vgl. z.B.
Bollen und Long, 1993, S.3). Ein statistischer Test des Unterschieds der empirischen und
der implied Matrix ist daher mittels des χ2-Tests möglich. Der χ2-Test setzt allerdings
Normalverteilung aller Variablen voraus. Für Faktorenanalysen auf der Basis einer Korrelationsmatrix ist der Test nicht anwendbar (vgl. Backhaus et al., 1994, S.400). Die Nullhypothese geht von gleichen Kovarianzmatrizen aus, die Alternativhypothese postuliert
unterschiedliche Matrizen. Da die Nullhypothese somit für die Gültigkeit des Modells
spricht, liegt das „Interesse des Forschers“ in der Nichtverwerfung der Nullhypothese.
Die relevante Irrtumswahrscheinlichkeit ist demzufolge die Wahrscheinlichkeit einer irrtümlichen Beibehaltung der Nullhypothese (der Fehler zweiter Art, beta-Fehler, vgl.
Bortz, 1993, S.107ff). Diese Wahrscheinlichkeit ist ohne Annahme eines bestimmten Unterschieds nicht quantifizierbar, sie sinkt jedoch mit der Festlegung einer höheren Wahrscheinlichkeit des Fehlers erster Art (alpha-Fehler). Dementsprechend wird die
Festlegung eines alpha-Wertes von .1 oder .2 empfohlen, jedenfalls kein geringerer Wert
als .05 (vgl. z.B. Hair et al., 1995, S.683).
Die Anwendung des χ2-Tests ist jedoch problembehaftet. Die Teststärke (Power) des χ2Tests (vgl. zum Begriff der Teststärke z.B. Bortz, 1993, S.118ff) nimmt mit zunehmendem Stichprobenumfang stark zu, so daß für große Stichproben bereits triviale Abweichungen der Kovarianzmatrizen als signifikant ausgewiesen werden (Bollen und Long,
1993; La Du und Tanaka, 1989; Marsh et al., 1988). Als groß gelten in diesem Zusammenhang Stichproben von etwa 200 Respondenten (vgl. z.B. Hair et al., 1995, S.683).
Umgekehrt ist für Stichprobenumfänge von kleiner als 100 die Teststärke so gering, daß
Modelle auch dann als akzeptabel ausgewiesen werden, wenn keine der im Modell spezifizierten Beziehungen signifikant ist. Diese Grenzen beruhen allerdings auf Erfahrungswerten und sind nicht mathematisch ableitbar. Für Browne und Cudeck (1993, S.137)
reflektiert das einzige statistische Gütemaß, der χ2-Test, sehr oft nur den Stichprobenumfang und nicht die Adäquanz des Modells. In der Praxis bedeutet dies, daß der χ2-Test für
Stichproben zwischen 100 und 200 grundsätzlich anwendbar und aussagekräftig ist. Allerdings sind für valide Modelltests zumeist größere Stichproben erforderlich. Bei größe-
108
ren Stichproben spricht ein nichtsignifikantes Ergebnis für die Akzeptanz eines Modells,
ein signifikantes Ergebnis jedoch nicht notwendigerweise dagegen.
Um die Abhängigkeit des χ2-Tests vom Stichprobenumfang zu berücksichtigen, wurde an
Stelle der Signifikanzprüfung das Verhältnis von χ2-Wert und Freiheitsgrade als Beurteilungskriterium vorgeschlagen (Normed Chi-square Goodness-of-Fit Measure, Hair et al.,
1995, S.690). Allerdings besteht keine Einigkeit über die Grenze, ab welcher ein Modell
als inakzeptabel anzusehen ist. Die Empfehlungen streuen von zwei bis fünf mal so großen χ2-Werten in Relation zu den Freiheitsgraden (Bollen und Long, 1993, S.3). Ebenfalls auf die Berücksichtigung der Stichprobengröße abzielend ist der Scaled
Noncentrality Parameter SNCP (Hair et al., 1995, S.684). Dieser Parameter baut auf dem
Noncentrality Parameter NCP auf, welcher sich als Differenz des χ2-Werts und der Freiheitsgrade berechnet. Der Scaled Noncentrality Parameter dividiert diese Differenz durch
den Stichprobenumfang. Es existieren aber keine begründbaren Grenzwerte, anhand derer
über die Akzeptanz eines Modells entschieden werden könnte.
Die Güteindikatoren Goodness-of-Fit Index GFI und Adjusted Goodness-of-Fit Index
AGFI, entwickelt von Jöreskog und Sörbom (1993) und in das Softwareprodukt LISREL
integriert, basieren auf quadrierten Residualvarianzen und Residualkovarianzen (vgl.
Backhaus et al., 1994, S.401; Hair et al., 1995, S.684, 686) und liegen somit zwischen 0
(kein Fit) und 1 (perfekter Fit). Der AGFI unterscheidet sich vom GFI durch die Berücksichtigung der Freiheitsgrade des Modells in Bezugnahme auf die Freiheitsgrade eines
Modells, welches die Unabhängigkeit aller Variablen annimmt. Beide Indikatoren sind
unabhängig vom Stichprobenumfang und gelten als robust gegenüber Verletzungen der
Normalverteilungsannahme. Da der GFI gleiche Varianzen der Modellvariablen annimmt, ist dieser Indikator nur für Korrelationsmatrizen anwendbar. Der AGFI hingegen
ist auch für Kovarianzmatrizen geeignet. Sowohl für den GFI, als auch für den AGFI liegen keine bestimmten Grenzen der Modellakzeptanz vor. Jedoch gelten Werte von mindestens .90 als akzeptabel (Hair et al., 1995, S.686).
Der Root Mean Square Residual Wert RMSR baut ebenfalls auf Residualen auf. Im Falle
von Kovarianzmatrizen als Input gibt dieses Maß die durchschnittliche Residualkovarianz an, ist aber bei unterschiedlicher Skalierung der Variablen nicht aussagekräftig (Hair
109
et al., 1995, S.684). Bei Korrelationsmatrizen gibt der RMSR die durchschnittliche Residualkorrelation an. Da keine allgemein akzeptierten Grenzwerte vorliegen, ist der RMSR
nur vor dem Hintergrund der spezifischen Forschungsziele interpretierbar, erlaubt aber
keinen objektiven Modelltest.
Während sich die bisher genannten Indikatoren (mit Ausnahme des AGFI) auf die absolute Güte von Modellen beziehen (stand-alone Indizes), stellen inkrementale Indikatoren
das zu prüfende Modell in Bezug zu einem Referenzmodell (als baseline oder null model
bezeichnet, vgl. Baumgartner und Homburg, 1996, S.149). So können unterschiedliche
Modelle verglichen werden. Üblicherweise wird als Referenzmodell allerdings ein Modell unkorrelierter manifester Variablen gewählt, wodurch die inkrementalen Indizes
auch zur absoluten Gütebestimmung geeignet sind. Die bedeutsamsten inkrementalen Indizes sind der Normed Fit Index NFI und der Nonnormed Fit Index NNFI. Der auf Bentler
und Bonnet (1980) zurückgehende NFI (auch als Bentler Bonnet Index BBI bezeichnet,
vgl. Baumgartner und Homburg, 1996, S.149) setzt die Differenz der χ2-Werte des null
model und des zu prüfenden Modells in Beziehung zum χ2-Wert des null model. Der Indexwert liegt zwischen 0 (kein Fit) und 1 (perfekter Fit) Als untere Grenze für akzeptable
Modelle wird .90 empfohlen (Hair et al., 1995, S.686). Der ebenfalls von Bentler und
Bonnet (1980) vorgeschlagene NNFI baut auf dem gleichen Quotienten auf wie der NFI,
jedoch werden alle χ2-Werte durch die Zahl der Freiheitsgrade dividiert. Theoretisch
kann der NNFI auch Werte außerhalb der durch 0 und 1 gegebenen Grenzen annehmen
(daher nonnormed, vgl. Tanaka, 1993, S.16). Als untere Grenze der Akzeptanz werden
ebenfalls .90 genannt (Hair et al., 1995, S.686). Der NNFI wurde ursprünglich von Tucker
und Lewis (1973) für die Gütebestimmung explorativer Faktorenanalysen entwickelt. Der
NNFI wird daher sehr häufig auch als Tucker-Lewis-Index TLI bezeichnet.
Während sich die bisher angeführten Gütemaße auf die Gegenüberstellung von empirischen Stichproben(ko)varianzen und durch das Modell erklärter (Ko)Varianzen bezogen,
zielt der von Steiger (1990) vorgeschlagene Root Mean Square Error of Approximation
RSMEA auf die Abweichung der im Modell erklärten Kovarianzen von den Kovarianzen
in der Population ab (Hair et al., 1995, S.685). Der Overall Error von Modellen besteht
aus zwei Komponenten: dem Error of Approximation und dem Error of Estimation
(Browne und Cudeck, 1993, S.141ff). Der Error of Approximation ist die mangelnde
110
˜
Übereinstimmung der Populationskovarianzmatrix Σ 0 und der Kovarianzmatrix Σ 0 , welche sich auf der Basis des gemäß der gewählten Diskrepanzfunktion bestangepaßten Modells ergibt. Die Populationskovarianzmatrix Σ 0 enthält die „wahren“ Kovarianzen, sie ist
dementsprechend eine nicht beobachtbare Konstante. Die auf dem gewählten Modell ba˜
sierende Matrix Σ 0 ist unabhängig von konkreten Stichproben, sie ist damit ebenfalls
nicht stochastisch, sondern konstant. Der Error of Approximation ist der Fehler, der sich
daraus ergibt, daß das Modell die realen Kovarianzen nicht vollständig erklären kann.
˜
Stimmen Σ 0 und Σ 0 überein, so ist der Error of Approximation gleich 0. Im allgemeinen
nimmt dieser Fehler mit der Aufnahme zusätzlicher Parameter ab. Der dadurch erzielbaren Fitverbesserung steht allerdings eine geringere Komplexitätsreduktion durch das Modell gegenüber. Der Error of Estimation ist stichprobenbezogen und ergibt sich aus der
˜
Differenz der Kovarianzmatrix Σ 0 (auf der Basis des an die Population bestangepaßten
Modells) und der Kovarianzmatrix Σ , welche auf der Basis des an die konkrete Stichpro˜
be bestangepaßten Modells abgeleitet wird. Die Differenz der konstanten Matrix Σ 0 und
der stochastischen Matrix Σ ist eine nicht direkt beobachtbare Zufallsvariable.
In der praktischen Beurteilung von Modellen ist die stichprobenbedingte Abweichung (also der Error of Estimation) weniger interessant als der populationsbezogene Fehler, der
sich aus der Modellierung ergibt (Error of Approximation). Die Schätzung des nicht beobachtbaren Error of Approximation kann auf der Diskrepanz der Stichprobenkovarianzmatrix S und der Kovarianzmatrix Σ basieren. Diese Differenz impliziert jedoch einen
bedeutsamen Bias. Als Korrektur bietet sich die Verminderung der Differenz um den
Quotienten aus Freiheitsgraden und Stichprobenumfang an (Browne und Cudeck, 1993,
S.143).7 Problematisch ist dieser Index, da die zusätzliche Aufnahme von Parametern den
Error of Approximation verringert. Die Zielsetzung eines möglichst geringen Fehlers ist
somit konfliktär mit der Zielsetzung eines möglichst einfachen Modells, welches auf nur
sehr wenigen zu schätzenden Parametern basiert (Parsimony Prinzip). Steigers (1990)
RMSEA löst dieses Problem, indem der Fitindex durch die Quadratwurzel der Kovarianzmatrizendifferenz geteilt durch die Zahl der Freiheitsgrade berechnet wird (vgl. Abbildung 21). Zusätzlich geschätzte Parameter, gleichbedeutend mit einer Verringerung der
Freiheitsgrade, verringern zwar die Differenz der Kovarianzmatrizen im Zähler des
7. Da dieser Ausdruck negative Werte annehmen kann, wird als Schätzer das Maximum des Ausdrucks und 0 gewählt (Browne und Cudeck, 1993, S.143).
111
Bruchs, führen aber gleichzeitig zu einer Verkleinerung des Nenners (Freiheitsgrade).
Der RMSEA belegt somit zusätzliche Parameterschätzungen mit einem Penalty, wodurch
der Fit eines Modells auch abnehmen kann. Die untere Grenze des RMSEA ist 0 (perfekten Fit indizierend). Die Schwelle für die Akzeptanz eines Modells kann einmal mehr
F0 ... Error of Approximation
F
------o
d
˜
F o = F ( Σ o ,Σ o )
RMSEA =
ˆ
ˆ
F = F  S ,Σ
ˆ
ˆ d
F o = M ax {F – ---, 0}
n
ˆ
F ... Schätzung aufgrund der Stichprobe (biased)
ˆ
F0 ... Bias-korrigierte Schätzung
d .... Freiheitsgrade des Modells
n .... Stichprobenumfang
Σ 0 ... Populationskovarianzmatrix
˜
Σ 0 ... Reproduzierte Kovarianzmatrix auf der Basis des an die Population bestangepaßten Modells
S .... Kovarianzmatrix der Stichprobe
ˆ
Σ ... Reproduzierte Kovarianzmatrix auf der Basis des an die Stichprobe bestangepaßten Modells
Abbildung 21: Definition des Root Mean Square Error of Approximation nach
Steiger (1990) (vgl. Browne und Cudeck, 1993, S.142ff)
nicht objektiv angegeben werden. Es haben sich jedoch weithin akzeptierte Grenzwerte
etabliert (vgl. Browne und Cudeck, 1993, S.144; Hair et al., 1995, S.685; Homburg und
Baumgartner, 1995, S.167; Steenkamp und Baumgartner, 1996a, S.21). Ein RMSEA von
.05 und weniger spricht für ein sehr gutes Modell, Werte zwischen .05 und .08 für ein akzeptables Modell. Modelle mit RMSEA-Werten von mehr als .10 sind zu verwerfen. Neben dem TLI hat sich der RMSEA in Simulationsstudien als äußerst effektiv
herausgestellt, darüber hinaus sind beide Indizes unabhängig von der Stichprobengröße
(vgl. Steenkamp und Baumgartner, 1996a, S.18).
6.5 Gleichungssysteme der konfirmatorischen Faktorenanalyse
Faktorenanalytische Modelle lassen sich in Form von Regressionsgleichungen darstellen
(vgl. Backhaus et al., 1994, S.3478). Jede manifeste Variable xi (Antwort auf das Item i;
i = 1, ..., k) wird repräsentiert durch die Summe der mit den Faktorladungen λij (i Items,
j Faktoren, j = 1, ..., m) gewichteten Faktorwerte ξj und dem stochastischen Fehlerterm δi
(vgl. Abbildung 22).
112
xi ...... manifeste Variable i (i = 1, ..., k)
λij ..... Faktorladung des Items i auf Faktor j
j = 1, ..., l, ..., m
xi = ∑
λ ij ξ j + δ i
j=1
ξj ....... Faktorwert (Faktorscore) bei Faktor j
m
δi ....... stochastischer Fehlerterm
Abbildung 22: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf
die manifeste Variable (vgl. Backhaus et al., 1994, S.347; Bagozzi,
1982, S.564ff)
Üblicherweise werden manifeste Variablen als lediglich durch einen Faktor beeinflußt
modelliert9. Die Regressionsgleichung in Abbildung 22 reduziert sich somit auf eine einfache Regression eines Faktors l auf die manifeste Variable xi, da alle λij für j ≠ l gleich
0 sind. Der Parameter λil gibt folglich die Steigung der Geraden an und definiert damit die
Metrik (Varianz) der latenten Variablen. Die Definition der Metrik der latenten Variablen
ist erforderlich, da diese - wie ihr Mittelwert (vgl. dazu weiter unten) - nicht eindeutig bestimmbar ist. Zum einen kann die Varianz der latenten Variablen gleich 1 gesetzt werden
(oder theoretisch auch gleich jedem anderen beliebigen Wert), und damit eine Standardisierung erzielt werden. Zum anderen kann aber auch die Faktorladung eines Items mit 110
fixiert werden (oder theoretisch auch mit einem anderen beliebigen Wert). Aus der Gleichung in Abbildung 22 ist unmittelbar ersichtlich, daß bei einem Faktorladungswert von
1 die Varianz der latenten Variablen durch jene der manifesten definiert wird.
Neben der Varianz muß auch der Mittelwert der latenten Variablen definiert werden. Der
stochastische Fehlerterm hat einen Erwartungswert von 0 und ist mit allen Faktorwerten,
sowie mit Fehlertermen aller anderen Variablen grundsätzlich unkorreliert. Die Regressionsgleichung beschreibt daher eine Gerade, die durch den Nullpunkt verläuft. Der erwar8. Die Beschreibung der konfirmatorischen Faktorenanalyse erfolgt im Rahmen der Behandlung
des LISREL-Ansatzes der Kausalanalyse. Kausalanalytische Modelle bestehen aus Regressionen von latenten Variablen. Latente Variablen werden durch Meßmodelle faktorenanalytisch
operationalisiert. Konfirmatorische Faktorenanalysen sind somit Bestandteil von Kausalmodellen.
9. Dies entspricht der von Thurstone (1940, 1947) angeregten Einfachstruktur (simple structure).
Vgl. dazu Abschnitt 6.8 (Seite 117).
10.Die Fixierung der Faktorladung auf 1 impliziert in diesem Fall keine perfekte Korrelation der
manifesten und der latenten Variablen, da die konfirmatorische Faktorenanalyse auf Kovarianzen aufbaut und die Faktorladungen daher unstandardisiert sind. Erst die Parameter der standardisierten Lösung sind auf den Bereich zwischen -1 und 1 beschränkt und als Korrelationen
interpretierbar.
113
tete Wert für xi für alle ξj = 0 ist daher gleich 0 (vgl. Steenkamp und Baumgartner, 1996a,
S.4). Dies kann allerdings durch die Einführung einer Intercept-Konstanten τi geändert
werden.
xi ...... manifeste Variable i (i = 1, ..., k)
τi ..... Intercept-Parameter
x i = τ i + λ il ξ l + δ i
λij ..... Faktorladung des Items i auf Faktor l
ξj ....... Faktorwert (Faktorscore) bei Faktor j
δi ....... stochastischer Fehlerterm
Abbildung 23: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf
die manifeste Variable, mit Intercept-Parameter
(vgl. Steenkamp und Baumgartner, 1996a, S.4)
Die Intercept-Konstante ist jedoch im allgemeinen nicht eindeutig bestimmbar, da die
Gleichung in Abbildung 23 unterdeterminiert ist. Die Addition einer beliebigen Konstanten c zum Intercept-Wert kann durch die Subtraktion von
c
--λ
vom Faktorwert ξ ausgegli-
chen werden11. Der Mittelwert der latenten Variablen ist somit nicht eindeutig
bestimmbar. Aus diesem Grund wird auf den Intercept-Parameter häufig verzichtet, d.h.
dieser wird gleich 0 gesetzt. Werden mehrere Gruppen simultan analysiert, so können die
Intercept-Werte in den einzelnen Gruppen gleichgesetzt werden, wodurch die Mittelwerte
der latenten Variablen bei g Gruppen in g-1 Gruppen determiniert sind (vgl. dazu Kapitel
6.6.).
6.6 Simultane Faktorenanalyse für mehrere Gruppen (Multi-group analysis)
Die simultan durchgeführte Faktorenanalyse für mehrere Gruppen (Jöreskog, 1971; Sörbom, 1974) schätzt die in einem Modell spezifizierten Parameter gleichzeitig in mehreren,
voneinander unabhängigen Stichproben. Im Unterschied zu einer wiederholt für mehrere
Stichproben durchgeführten Faktorenanalyse, besteht bei der Mehrgruppen-Faktorenanalyse die Möglichkeit, stichprobenübergreifend Beschränkungen (equality constraints)
einzuführen.12 So läßt sich beispielsweise der Schätzwert eines Ladungsparameters in allen Stichproben auf den gleichen Wert beschränken. Ohne diese Beschränkung wird der
Parameter bei m Stichproben m mal geschätzt. Mit der Beschränkung wird dieser nur ein11.Umgekehrt kann jede Addition einer Konstanten c vom Faktorwert durch die Subtraktion von
λc vom Intercept-Wert ausgeglichen werden (Steenkamp und Baumgartner, 1996a, S.6).
114
mal geschätzt. Gleiches gilt für alle anderen zu schätzenden Parameter. Die Einführung
von Beschränkungen reduziert die Zahl der zu schätzenden Parameter und damit die
Komplexität des Modells. Die Übereinstimmung des Modells mit den empirischen Daten,
also der Modelfit, wird dementsprechend abnehmen13, da die Schätzungen nicht mehr an
die einzelnen Stichproben angepaßt werden, sondern simultan an alle einbezogenen Stichproben. Modelle mit und ohne Beschränkungen stimmen jedoch insoweit überein, wie sie
die gleichen manifesten und latenten Variablen enthalten und ident strukturiert sind. In
V1
V2
V3
V1
1
2
3
4
V2
F1
V3
V4
5
6
7
8
F1
V4
Stichprobe 2
Stichprobe 1
Abbildung 24: Faktorenanalyse: Simultane Analyse in zwei Stichproben ohne
stichprobenübergreifende Beschränkungen
Abbildung 24 ist ein Modell ohne Beschränkungen dargestellt (vier manifeste Variablen
V1 bis V4 laden auf einem einzigen Faktor F1). Dementsprechend sind acht Ladungsparameter zu schätzen.14 Abbildung 25 stellt das gleiche Modell, allerdings mit Beschränkungen, dar. Die Ladungen der manifesten Variablen müssen übereinstimmen, daher sind
nur vier Parameter zu schätzen. Jedes der beiden Modelle kann durch Einführung bzw.
Aufgabe von Beschränkungen in das andere übergeführt werden. Die Modelle sind daher
ineinandergeschachtelt („nested models“). Der Vergleich der Fitwerte von nested models
gibt darüber Aufschluß, ob mit der Einführung von Beschränkungen eine statistisch bedeutsame Verschlechterung des Fits verbunden ist. Als Prüfstatistik kann der χ2-Differenzentest (∆χ2) herangezogen werden (Bentler und Bonett, 1980, S.593). ∆χ2 ergibt sich als
Differenz der χ2-Werte der beiden betrachteten Modelle, die Zahl der Freiheitsgrade entspricht der Differenz der Freiheitsgrade der Modelle. Der Vergleich zweier nested models
12.Werden keinerlei Beschränkungen eingeführt, so ist die Mehrgruppen-Faktorenanalyse äquivalent zu einer wiederholt durchgeführten Eingruppenfaktorenanalyse. Die χ2-Statistik der
Mehrgruppenfaktorenanalyse ergibt sich in diesem Fall als Summe der χ2-Statistiken der einzelnen Faktorenanalysen.
13.Führen die getrennten Parameterschätzungen zum exakt gleichen Ergebnis in allen Stichproben, so bleibt der Fit bei simultaner Analyse unverändert (Grenzfall).
14.Wird die Varianz der latenten Variablen durch die Varianz einer manifesten Variablen definiert,
so sind in beiden Stichproben insgesamt sechs Ladungsparameter zu schätzen.
115
V1
V1
1
2
3
4
V2
V3
V2
F1
V3
V4
1
2
3
4
F1
V4
Stichprobe 1
Beschränkungen
Stichprobe 2
Abbildung 25: Faktorenanalyse: Simultane Analyse in zwei Stichproben mit
stichprobenübergreifenden Beschränkungen
hat daher hypothesenprüfenden Charakter (vgl. Horn und McArdle, 1992, S.134). Ein
nicht signifikantes ∆χ2 weist darauf hin, daß sich die auf die gleichen Schätzungen beschränkten Parameter in den einzelnen Stichproben nicht signifikant voneinander unterscheiden. Die simultane Faktorenanalyse für mehrere Gruppen ist damit geeignet, die
Strukturen latenter Konstrukte in verschiedenen Stichproben auf ihre Identität bzw. Unterschiedlichkeit zu überprüfen. Ein nicht signifikanter ∆χ2-Wert der Modelle in Abbildung 24 bzw. Abbildung 25 spricht dafür, daß die manifesten Variablen in beiden
Gruppen eindimensional und gleich stark mit der (im Beispiel einzigen) latenten Variable
assoziiert sind.
Die simultane Analyse ermöglicht darüber hinaus die Identifizierbarkeit der Item-Intercepts und der Mittelwerte der latenten Variablen (vgl. Abbildung 23 auf Seite 114). Im
Eingruppenfall sind diese nicht identifizierbar und werden üblicherweise gleich 0 gesetzt.
Im Mehrgruppenfall können die Item-Intercepts in einer Gruppe gleich 0 gesetzt werden15 und in den anderen Gruppen frei geschätzt werden (vgl. Steenkamp und Baumgartner, 1996a, S.6). Auch dabei besteht die Möglichkeit, Modelle ohne Beschränkungen
(freie Schätzung der Intercepts in m-1 Gruppen) Modellen mit Beschränkungen (gleiche
Intercepts über alle Gruppen) gegenüberzustellen und deren Fitwerte durch den χ2-Differenzentest zu vergleichen. Gleiches gilt für die Mittelwerte der latenten Variablen.
15.Zusätzlich ist der Intercept-Wert eines Items in allen Stichproben gleichzusetzen, um den
Ursprung der latenten Variablen zu definieren. Für andere, äquivalente, Möglichkeiten der
Identifikation der Intercepts vgl. Steenkamp und Baumgartner (1996a, S.6).
116
6.7 Überprüfung der Datenäquivalenz
Gemäß den im Abschnitt 4.7 (Seite 80) dargestellten Bedingungen der empirischen Überprüfung der Äquivalenz von Erhebungsdaten erweist sich die Faktorenanalyse für mehrere Gruppen als geeignetes Verfahren. Die Gruppen entsprechen Stichproben aus
unterschiedlichen Kulturen. Durch den Vergleich von Modellen mit und ohne Beschränkungen ist die Überprüfung der Äquivalenz von Meßstrukturen in verschiedenen Kulturen möglich. Erweist sich die Meßstruktur als invariant, so besteht kulturübergreifende
Vergleichbarkeit der Messungen. Meßinvarianz besteht dann, wenn die im Meßinstrument enthaltenen manifesten Variablen die latenten Variablen in gleicher Weise indizieren (Horn und McArdle, 1992). Horn und McArdle (1992, S.117) charakterisieren die
Problemstellung und ihre Bedeutung folgendermaßen:
The general question of invariance of measurement is one of whether or not,
under different conditions of observing and studying phenomena, measurement operations yield measures of the same attribute. If there is no evidence
indicating presence or absence of measurement invariance - the usual case or there is evidence that such invariance does not obtain, then the basis for
drawing scientific inference is severely lacking: findings of differences between individuals and groups cannot be unambiguously interpreted. This point
is subtle, but critical.
Aufbauend auf dem Konzept der faktoriellen Invarianz (vgl. Meredith, 1964, 1993) operationalisieren Horn und McArdle (1992) die Überprüfung der Meßinvarianz durch den
Vergleich von faktorenanalytischen Modellen mit unterschiedlichen Beschränkungen auf
drei Ebenen und unterscheiden konfigurale Invarianz, metrische Invarianz und Invarianz
unter Einbezug von Mittelwerten. Steenkamp und Baumgartner (1996a, 1996b) folgen
dieser Differenzierung, bezeichnen die Invarianz unter Einbezug von Mittelwerten jedoch
als skalare Invarianz (Meredith, 1993).
6.8 Ebenen der Invarianz
6.8.1 Konfigurale Invarianz (configural invariance)
Die Überprüfung der gruppenübergreifenden Gültigkeit eines Meßmodells erfolgt in
mehreren Teilschritten. Jeder dieser Schritte repräsentiert eine Hierarchieebene der Meßäquivalenz. Der Übergang von einer Ebene zur nächsten erfolgt durch die Einführung von
Beschränkungen bei der Parameterschätzung. Für die einzelnen Niveaus der Invarianz
werden von verschiedenen Autoren unterschiedliche Begriffe gewählt. Tabelle 6 auf
117
Seite 123 gibt einen diesbezüglichen Überblick. Im folgenden wird auf die Terminologie
bei Steenkamp und Baumgartner (1996a, 1996b) Bezug genommen.
Das Konzept der konfiguralen Invarianz (Steenkamp und Baumgartner, 1996a, S.8; Meredith, 1993, S.540; Horn und McArdle, 1992, S.126; Singh, 1995, S.604) ist die grundlegendste Form der Invarianz. Diese sieht vor, daß in allen untersuchten Gruppen
dieselben Ladungsmuster auftreten. Die latenten Variablen müssen somit die gleichen
manifesten Indikatorvariablen aufweisen (von 0 verschiedene, salient loadings). Die Ladungen von manifesten Variablen, die zu einer bestimmten latenten Variable in keiner Beziehung stehen, werden in allen Gruppen gleichermaßen auf 0 fixiert (non-salient
loadings), also nicht geschätzt. Diese Vorgaben entsprechen der von Thurstone (1940,
1947) formulierten Einfachstruktur (simple structure). Die Einfachstruktur wurde als
Zielvorgabe der explorativen Faktorenanalyse entwickelt, um die Interpretation der Lösung zu erleichtern. Sie ist dann gegeben, wenn Variablen auf Faktoren entweder Ladungen von oder um 0 oder aber hohe16, signifikant von 0 verschiedene Ladungen aufweisen
(Horn und McArdle, 1992, S.126). Idealerweise laden manifeste Variablen auf lediglich
einem Faktor (Steenkamp und Baumgartner, 1996a, S.8). Konfigurale Invarianz bedeutet
somit, daß die gleiche (Einfach-)Struktur in allen Gruppen Gültigkeit besitzt.17 Die zu
schätzenden salient loadings müssen jedoch der Höhe nach nicht übereinstimmen, sondern werden für jede Gruppe separat geschätzt. Lediglich die non-salient loadings stimmen in allen Gruppen durch ihre Fixierung auf 0 numerisch überein. Um die
Diskriminanzvalidität zu gewährleisten, müssen die Korrelationen der latenten Variablen
signifikant kleiner als 1 sein (Steenkamp und Baumgartner, 1996a, S.8).
Die konfigurale Invarianz impliziert daher, daß die gleichen Meßmodelle angewendet
werden können, die Indikatorvariablen aber unterschiedlich stark mit den latenten Variablen assoziiert sind. Die einzelnen manifesten Variablen messen somit die gleichen latenten Variablen, aber nicht notwendigerweise mit der gleichen Güte bzw. Trennschärfe. Die
konfigurale Invarianz ist dementsprechend eine notwendige Voraussetzung der kulturübergreifenden Gültigkeit von Meßinstrumenten. Wird konfigurale Invarianz empirisch
16.Unter einer „hohen“ Ladung ist eine Ladung nahe 1 oder nahe -1 zu verstehen. Das Vorzeichen
spielt diesbezüglich keine Rolle.
17.Bollen (1989, S.358) bezeichnet die Hypothese der konfiguralen Invarianz als Hform, da die
gleiche „Form“ der Konstrukte Gegenstand der Hypothese ist. Singh (1995, S.604) verwendet
dafür den Begriff der „factorial similarity“.
118
widerlegt, so bestehen fundamentale Unterschiede in der Meßstruktur, das heißt die manifesten Variablen messen unterschiedliche latente Variablen. Die Gültigkeit des die konfigurale Invarianz spezifizierenden Modells erfolgt mittels der in Abschnitt 6.4 (Seite
107) besprochenen Indikatoren.
Kultur A
Kultur B
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
Ladung auf
latenter
Variablen
(Faktor F2)
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
Ladung auf
latenter
Variablen
(Faktor F2)
V1
λ1=1a
0
V1
λ9=1
0
V2
λ2
0
V2
λ10
0
V3
λ3
0
V3
λ11
0
V4
λ4
0
V4
λ12
0
V5
0
λ5=1
V5
0
λ13=1
V6
0
λ6
V6
0
λ14
V7
0
λ7
V7
0
λ15
V8
0
λ8
V8
0
λ16
Tabelle 4: Konfigurale Invarianz eines zweifaktoriellen Konstrukts
(unstandardisierte Ladungsparameter)
a. Die unstandardisierten Ladungsparameter λ1, λ5, λ9 und λ13 sind mit 1 fixiert, um die Metrik
der latenten Variablen F1 und F2 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112).
Tabelle 4 stellt die Ladungsmatrizen von 8 manifesten Variablen V1 bis V818 und zwei
latenten Variablen, den Faktoren F1 und F2, in zwei Gruppen, bezeichnet als Kultur A
und Kultur B, dar. Jeder der beiden Faktoren F1 und F2 wird durch je 4 manifeste Variablen gemessen. Jeweils drei Ladungsparameter pro Faktor und Gruppe werden geschätzt.
6.8.2 Metrische Invarianz (metric invariance)
Bei gegebener konfiguraler Invarianz kann das Mehrgruppenmodell auf metrische Invarianz geprüft werden. Das Modell der metrischen Invarianz ist im Vergleich zum Modell
18.Dabei wird davon ausgegangen, daß in beiden Kulturen die gleichen Items in gleicher Zahl
eingesetzt werden (etic approach). Die dargestellte Vorgangsweise ist jedoch verallgemeinerbar für eine ungleiche Zahl an Items bzw. die Einbeziehung kulturspezifischer Items (emic
approach). Vgl. dazu die Ausführungen zur partiellen Invarianz im Kapitel 6.10 auf Seite 127.
119
der konfiguralen Invarianz stringenter, da zusätzliche Beschränkungen eingeführt werden.19 Die Ladungsparameter müssen nun nicht nur in ihrem Muster übereinstimmen,
sondern auch der Höhe nach. Es wird somit für jedes Paar von manifester Variable und
latenter Variable, für welches ein salient loading spezifiziert wird, nur ein Ladungsparameter geschätzt. Erweist sich das Modell metrischer Invarianz als haltbar, so messen die
manifesten Variablen die entsprechenden latenten Variablen in allen einbezogenen Kulturen gleich gut. Die Metrik der Meßwerte stimmt somit überein. Damit sind Differenzscores welche innerhalb der Kulturen gebildet werden, kulturübergreifend
vergleichbar (Steenkamp und Baumgartner, 1996a, S.9). Die Überprüfung der metrischen
Invarianz erfolgt durch den Vergleich des Modellfits von metrischer und konfiguraler Invarianz mittels des χ2-Differenzentests (vgl. dazu Abschnitt 6.6 auf Seite 114). Nimmt der
Modellfit bei metrischer Invarianz nicht signifikant ab, so besteht hinsichtlich aller Items
metrische Äquivalenz.
Kultur A
Kultur B
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
Ladung auf
latenter
Variablen
(Faktor F2)
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
Ladung auf
latenter
Variablen
(Faktor F2)
V1
λ1=1a
0
V1
λ1=1
0
V2
λ2
0
V2
λ2
0
V3
λ3
0
V3
λ3
0
V4
λ4
0
V4
λ4
0
V5
0
λ5=1
V5
0
λ5=1
V6
0
λ6
V6
0
λ6
V7
0
λ7
V7
0
λ7
V8
0
λ8
V8
0
λ8
Tabelle 5: Metrische Invarianz eines zweifaktoriellen Konstrukts
a. Die unstandardisierten Ladungsparameter λ1 und λ5 sind mit 1 fixiert, um die Metrik der
latenten Variablen F1 und F2 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112).
19.Singh (1995, S.604) bezeichnet metrische Invarianz als „factorial equivalence“, Meredith
(1993, S.530) wählt die Bezeichnung „weak measurement invariance“. Bei Ferrando (1996,
S.430), welcher zwar Bezug auf die Terminologie von Meredith nimmt, findet sich dafür „partial invariance“.
120
In Tabelle 5 sind die der metrischen Invarianz entsprechenden Ladungsmatrizen für das
in Tabelle 4 dargestellte Modell angeführt. Die Zahl der zu schätzenden Ladungsparameter reduziert sich (bei zwei Gruppen) auf die Hälfte.
6.8.3 Skalare Invarianz (scalar invariance)
Metrische Invarianz stellt hohe Anforderungen an die empirischen Daten. Dennoch ist
metrische Invarianz für absolute Vergleiche von Meßwerten über Kulturgrenzen hinweg
zwar eine notwendige, aber keine hinreichende Voraussetzung. Metrische Äquivalenz bezieht sich lediglich auf die Ladungsparameter, also auf die Korrelation einer manifesten
und einer latenten Variable. Korrelationen werden jedoch durch Lineartransformationen
der Variablen nicht beeinflußt. Die Addition einer Konstanten zur manifesten Variable
verändert die Korrelation mit der latenten Variable, also den Ladungsparameter, nicht.
Dies bedeutet andererseits, daß die Wirksamkeit eines additiven Bias in einer Kultur die
Ladungswerte und damit die metrische Äquivalenz nicht beeinflußt. Für interkulturelle
Vergleiche, die auf Mittelwertsunterschiede abstellen, ist aber gerade ein additiver Bias
äußerst problematisch, da dieser eben nicht auf einen „wahren“ Unterschied auf der zugrundeliegenden latenten Dimension hindeutet, sondern eine kulturspezifische Reaktion
auf ein manifestes Item darstellt. Abbildung 26 stellt dies graphisch dar. Auf der x-Achse
ist der beobachtete Testscore abgebildet. Die y-Achse steht allgemein für ein Kriterium,
wobei es sich um ein Außenkriterium handeln kann, aber auch um den True Score. Im
letzteren Fall sind die eingetragenen Geraden die Regressionsgeraden der Regression der
beobachteten Testscores auf die True Scores. Zur Vereinfachung ist der Einfluß von Meßfehlern nicht dargestellt. Die exemplarischen Regressionsgeraden für die Kulturen A und
B sind parallel, die Assoziation der latenten Dimension (True Score) und des manifesten
Scores somit invariant, metrische Invarianz also gegeben. Dennoch entspricht der beobachteten Testscoredifferenz von XA-XB kein Unterschied auf der Ebene der True Scores,
da sich die Interceptwerte der Regressionsgeraden IA und IB unterscheiden.
121
Kriterium (True Score)
Kultur A
Kultur B
TA=TB
IA
IB
Testscore (Observed Score)
XA
XB
Abbildung 26: Regression des beobachteten Testscores auf ein Kriterium
(in Anlehnung an Hulin et al., 1983, S.157 und Hancock, 1997, S.99)
Die Prüfung auf skalare Invarianz untersucht damit die Wirksamkeit eines additiven Bias.
Dabei werden - analog zu den Ladungsparameterschätzungen im Zuge der Prüfung auf
metrische Invarianz - die Item-Intercepts in allen untersuchten Kulturen gleichgesetzt,
also in der Parameterschätzung mit equality constraints belegt. Erweist sich der ModellFit als nicht signifikant schlechter im Vergleich zum Modell-Fit auf der Basis freier ItemInterceptschätzungen in allen Kulturen, so besteht skalare Invarianz. Mittelwertsvergleiche zwischen den Kulturen sind unter diesen Bedingungen aussagekräftig. Für den Vergleich der Modell-Fitwerte wird analog zur Prüfung der metrischen Invarianz der χ2Differenzentest angewandt.
6.8.4 Invarianz der Fehler- und Faktorvarianzen
Aufbauend auf skalarer Invarianz können die Fehlervarianzen und/oder die Faktor(ko)varianzen auf deren Invarianz überprüft werden (Bollen, 1989, S.360ff). Die Identität der
Meßfehlervarianzen ist gleichbedeutend mit gleicher Reliabilität20. Dies ist jedoch für
Mittelwertsvergleiche nicht unbedingt erforderlich. Gleiches gilt für die Faktorvarianzen,
welche die Streuung der latenten Variablen in der jeweiligen Gruppe ausdrücken. Die
Überprüfung der Invarianz der Faktorkovarianzen, welche nur bei mehrdimensionalen
Konstrukten Anwendung finden kann, stellt eine Möglichkeit dar, die interkulturelle Kon-
20.Singh (1995, S.604) versteht unter „measurement equivalence“ Gleichheit der Faktorladungen
(im Sinne der metrischen Invarianz) und Gleichheit der Fehlervarianzen. Bei Singh findet sich
jedoch erstaunlicherweise kein Äquivalent zur skalaren Invarianz. Meredith (1993; S.532ff.)
bezeichnet skalare Invarianz als „strong factorial invariance“, Invarianz der Fehlervarianzen
als „strict factorial invariance“.
122
struktvalidität zu überprüfen, indem die Diskriminanzvalidität der Faktoren verglichen
wird. Auch diese Form der Invarianz ist keine notwendige Voraussetzung für interkulturelle Vergleichbarkeit der latenten Variablen über Kulturen hinweg, sehr wohl aber eine
Frage der intrakulturellen Gültigkeit.
Invarianzebene
Übereinstimmung
der Ladungsmuster
(1) (gleiche salient variables,
Ladungen der nonsalient
variables gleich 0 gesetzt)
zusätzlich:
Übereinstimmung
(2)
der Ladungen der
salient variables
Steenkamp
Horn und
und
McArdle Baumgartner
(1992)
(1996a,
1996b)
konfigurale konfigurale
Invarianz
Invarianz
zusätzlich:
Übereinstimmung
(4)
der Fehlervarianzen
zusätzlich:
Übereinstimmung
(5)
der Faktorkovarianzen
Singh
(1995)
Reise
et al.
(1993)
Hform
Baseline
model
Factorial
similarity
Baseline
model
Factorial
equivalence
Full
measurement
invariance
metrische
Invarianz
Hλ x
Weak
measurement
invariance
-
skalare
Invarianz
H λ xκ
Strong
factorial
invariance
-
-
-
partielle
Invarianz
-
-
Partially
restricted
model
partielle
Invarianz
-
berücksichtigt ohne
besondere
Bezeichnung
HλxΘδ
Strict
factorial
invariance
Measurement
equivalence
-
-
-
der Item-Intercepts
Aufhebung von
Restriktionen für einzelne Items
Meredith
(1993)
metrische
Invarianz
zusätzlich:
(3) Übereinstimmung
Bollen
(1989)
-
berücksichtigt ohne
besondere
Bezeichnung
[ohne (3)]
HλxΘδΦ
[ohne (3)]
[ohne (3)]
-
Tabelle 6: Überblick über unterschiedliche Terminologien im Zusammenhang mit
der Invarianzprüfung
6.8.5 Anforderungen der Meßäquivalenz und Invarianzebenen
Zusammenfassend ergeben sich somit drei Invarianzebenen: die konfigurale, die metrische und die skalare Invarianz. Konfigurale Invarianz stellt auf die grundlegende Struktur
ab und ist somit Grundvoraussetzung für interkulturelle Vergleiche. Ohne konfigurale Invarianz besteht keine Gemeinsamkeit des Konstrukts. Metrische Invarianz zielt auf die
Stärke der Assoziation der manifesten Variablen und der zugrundeliegenden latenten ab.
Bei erfüllter metrischer Invarianz besteht kulturübergreifende Meßgüte des Instruments.
123
Skalare Invarianz schließt die Wirksamkeit eines additiven Biases aus und gewährleistet
schließlich die Vergleichbarkeit von Meßwerten und die Aussagekraft von kulturbedingten Unterschieden der Meßwerte. Die besondere Bedeutung der skalaren Invarianz soll an
dieser Stelle nochmals unterstrichen werden. Erst durch diese Form der Invarianz sind die
Bedingungen der Meßäquivalenz, welche im vorangegangen Kapitel dargestellt wurden,
erfüllt. (Einschränkend ist allerdings anzumerken, daß sich die Meßäquivalenz selbst
dann auf den der klassischen Testtheorie zugänglichen Erkenntnisraum limitiert.)
Bedauerlicherweise sind selbst die derzeit aktuellsten Publikationen im internationalen
Marketing in diesem Bereich äußerst „unscharf“. So setzen Malhotra et al. (1996, S. 20)
in ihrem „state-of-the-art review“ skalare und metrische Invarianz nach wie vor schlichtweg gleich („[s]calar equivalence, also called metric equivalence“), was zu einem differenzierten Verständnis der Problematik wenig beiträgt. Auch Cavusgil und Das (1997)
nehmen in ihrem aktuellen Überblick über Methoden der vergleichenden empirischen
Forschung nur auf die Vergleichbarkeit der dimensionalen Struktur Bezug, lassen jedoch
die mögliche Wirksamkeit eines additiven Bias außer Betracht. Für Mullen (1995) ist skalare Äquivalenz begrifflich der metrischen Äquivalenz untergeordnet, unterscheidet sich
aber von der bloßen Äquivalenz der Faktorladungen. Durch die unterschiedliche Begrifflichkeit allein ergeben sich also keine grundsätzlichen Differenzen zur vorgestellten Invarianzprüfung nach Steenkamp und Baumgartner (1996a, 1996b). Problematisch
erscheint allerdings die von Mullen vorgeschlagene empirische Überprüfung der skalaren
Invarianz. Mullen stellt den beobachteten Testscore als Summe des True Scores, des unsystematischen Meßfehlers (random error) und des systematischen Meßfehlers dar. Letzterer ist, ebenso wie der unsystematische Meßfehler, mit dem True Score unkorreliert, im
Unterschied zum unsystematischen Fehler allerdings konstant. Somit ist der systematische Meßfehlerterm lediglich eine andere Darstellung des Intercept-Terms. Mullen verzichtet jedoch auf die Parametrisierung eines Intercept-Terms und faßt systematischen
und unsystematischen Fehlerterm zusammen. In der multi-group-Analyse schlägt Mullen
equality constraints bezüglich der Fehlerterme vor und geht davon aus, daß dieser Test „a
joint test of the equality of random error variance (...) and systematic ’error’ variance“ ist
(Mullen, 1995, S.582). Nach Mullen überprüft die Äquivalenz der unsystematischen Fehlerterme vergleichbare Reliabilität, während die Äquivalenz der systematischen Fehlerterme die Validität überprüft. Diese Argumentation ist aus mehreren Gründen
124
problematisch. Zum einen ist fraglich, warum der systematische Fehlerterm im Strukturgleichungsmodell überhaupt im „Gesamtfehlerterm“ (nach Mullen die Summe aus systematischen und unsystematischen Fehler) enthalten sein soll, ist der Erwartungswert des
Fehlerterms doch definitionsgemäß gleich 0. Zum anderen stellen Varianzen eben nur auf
die Variabilität ab und sind durch additive Konstanten unbeeinflußt21. Mullens Verzicht
auf die Item-Intercepts ist folglich nicht zielführend und erlaubt keine Überprüfung der
skalaren Invarianz und damit der Bedeutsamkeit von Mittelwertsvergleichen. Auch der
bei Mullen zitierte Bollen (1989) betont die diesbezügliche Bedeutung der Intercepts
(S.365f).
Darüber hinaus ist die Argumentation Mullens, durch Äquivalenztests der systematischen
Meßfehler die Validität zu überprüfen, zu hinterfragen. Für Mullen (1995, S.576) ist die
Wirksamkeit eines systematischen Meßfehlers, also einer mit dem True Score unkorrelierten Konstanten, eine Bedrohung der Validität. Als Beispiel führt Mullen eine Waage
an, welche zwar bei Abwägung eines bestimmten Gegenstandes stets den gleichen Wert
anzeigt (und somit reliabel ist), aber den wahren Wert (Gewicht des Gegenstands) um
zehn Pfund übertrifft. Der systematische Meßfehler dieser Waage ist somit zehn Pfund
und die Validität laut Mullen aus diesem Grund beeinträchtigt. Die Validität im Rahmen
der klassischen Testtheorie ist allerdings als Korrelation des Testscores und eines Außenkriteriums definiert (z.B. Fischer, 1974, S.41). Als Außenkriterium kann in diesem Fall
das wahre Gewicht oder auch eine andere Waage ohne Bias dienen. Die Korrelation der
Meßwerte der Waage und der wahren Werte wird freilich durch den systematischen Fehler von 10 Pfund in keiner Weise beeinträchtigt. Der systematische Fehler verringert also
nicht die Validität, sondern impliziert lediglich den Verlust der Verhältnisskaleneigenschaft der Meßwerte, welche einen sinnvollen, natürlichen Nullpunkt voraussetzen würde. Würde man die Waage tatsächlich als invalide betrachten, so wäre durch die simple
Subtraktion von 10 Pfund von jedem Meßwert die Waage „plötzlich“ - ohne am Meßinstrument etwas zu ändern - äußerst valide! In der Marketingforschung im allgemeinen und
in der Einstellungsforschung ist der Stellenwert von Verhältnisskalen aber ohnehin sehr
gering und für Intervallskalen stellt sich die Problematik von vornherein nicht, da diese
gegenüber Lineartransformationen invariant sind.
21.Die Varianz der Parameter innerhalb einer Gruppe bezieht sich auf die Abweichung vom Mittelwert der jeweiligen Gruppe und nicht auf einen Gesamtmittelwert über alle Gruppen.
125
6.9 Invarianz auf Skalenebene
Einen äußerst kontroversiellen Beitrag zur Äquivalenzdiskussion haben 1995 Labouvie
und Ruetsch (1995) geleistet. Labouvie und Ruetsch argumentieren, daß metrische Äquivalenz auf dem Niveau der Gesamtskala für die Vergleichbarkeit ausreichend sei [„(...)
the use of multi-item scales requires only that conditions of simple structure and metric
invariance be satisfied at the scale level.“ (Labouvie und Ruetsch, 1995, S.63)]. Dieser
Ansatz geht davon aus, daß Items von gruppenspezifischen Faktoren beeinflußt sind, welche sich jedoch unter Umständen ausgleichen können.22 Modelltheoretisch bedeutet dies,
daß gruppenbezogene Beschränkungen der Parameterschätzungen nicht auf der Ebene
einzelner Items vorgenommen werden, sondern daß Invarianz nur „im Durchschnitt“ gegeben sein muß. Dementsprechend wird nur die mittlere Ladung der salient variable
gleichgesetzt (mean salient loading). Analog müssen die nonsalient variables lediglich im
Durchschnitt gleich 0 sein. Gleiches gilt für die Item-Intercepts.
Die Reaktionen auf den Beitrag von Labouvie und Ruetsch sind äußerst kritisch. Meredith
(1995a, 1995b) weist nach, daß Invarianz auf dem Skalenniveau nicht ausreichend ist für
bedeutungsvolle Vergleiche über Gruppen hinweg. Die Lockerung der Beschränkungen
zur Invarianzprüfung führen dazu, daß die als konfirmatorisch ausgewiesene Faktorenanalyse nichts anderes als eine Faktorachsenrotation darstellt, und keine Hypothesenprüfung möglich ist. McDonald (1995) zeigt, daß im skalenbezogenem Ansatz der
Äquivalenzprüfung selbst eine Unterscheidung von salient und nonsalient variables nicht
vorgenommen wird, wenn das Ladungsmuster in einer Gruppe mit der Form .0 .0 .0 .9 .9
.9 und einer anderen Gruppe mit der Form .9 .9 .9 .0 .0 .0 nicht gegen die Vergleichbarkeit
der Mittelwerte dieser sechs Items spricht23. Nesselroade (1995a, S.96) geht möglichen
Motiven nach, warum die Beschränkungen der faktoriellen Invarianz auf Itemebene gelockert werden sollten und kommt zum Schluß, daß diese bislang nicht theoretisch untermauert werden konnten und das dahinterliegende Rational wohl nur darin gelegen ist, daß
Items „inherently unstable“ sind. Der Vorschlag von Labouvie und Ruetsch ist in diesem
22.Drasgow (1995, S.83) weist darauf hin, daß diese Idee nicht neu ist, sondern bereits zu Beginn
der 50er Jahre formuliert wurde.
23.Drasgow (1995)führt ein analoges Beispiel an. Laden in einem Mathematiktest in einer
Gruppe Algebra-Items hoch und Arithmetik-Items gering (weil im Unterricht nur Algebra
gelehrt wurde) und verhält es sich in einer anderen Gruppe genau umgekehrt, so wäre diese
Messung des Mathematikwissens nach Labouvie und Ruetsch invariant und Vergleiche zulässig.
126
Sinne als Anpassung der Stringenz der Invarianzprüfung an das antizipierte Niveau, welches Daten zu erfüllen imstande sind, zu sehen24. Aus theoretischer Sicht ist dieses
„Downgrading“ nicht befriedigend und Nesselroade (1995b) plädiert dafür, metrische Invarianz auf Itemebene als vorrangiges Prüfkriterium beizubehalten.
6.10 Partielle Invarianz
Die Darstellung der Invarianzformen und der Möglichkeit zu deren empirischer Überprüfung ist davon ausgegangen, daß die mit der metrischen und skalaren Invarianz verbundenen equality constraints für alle Items eingeführt werden und die Äquivalenzprüfung
daher für das gesamte Meßinstrument erfolgt. Ausgehend von einem statistisch haltbarem
Modell der konfiguralen Invarianz, wird im ersten Schritt die Modellspezifikation im Sinne der metrischen Invarianzanforderungen stringenter. Im zweiten Schritt erfolgt, unter
der Voraussetzung gegebener metrischer Invarianz, abermals eine Reduktion der Zahl der
unabhängig zu schätzenden Parameter. Die Erfüllung der Invarianzbedingungen für alle
Items ist jedoch in der Praxis äußerst unwahrscheinlich und volle metrische oder skalare
Invarianz daher empirisch kaum zu bestätigen. Für die Vergleichbarkeit ist jedoch partielle, also nicht alle Items umfassende Invarianz unter bestimmten Bedingungen ausreichend (Byrne et al., 1989; Reise et al., 1993; Steenkamp und Baumgartner, 1996a; Singh,
1995). Aufbauend auf konfiguraler Invarianz müssen im Zuge der Prüfung der metrischen
Invarianz nicht alle Ladungsparameter gleichgesetzt werden. Für einige Parameter können in jeder Gruppe spezifische Schätzungen erfolgen. Äquivalenz und damit Vergleichbarkeit ist dann noch gegeben, wenn neben einem gleichgesetzten Item, welches die Skala
der latenten Variablen definiert, mindestens ein weiteres Item invariant ist. Tabelle 7 stellt
die zu schätzenden Ladungsparameter für ein einfaktorielles Konstrukt dar. Die manifeste
Variable V1 definiert die Varianz der latenten Variablen (Faktor F1). Für die manifesten
Variablen V2, V3 und V4 werden gemeinsame Ladungsparameter geschätzt, für V5 und
V6 kulturspezifische Parameter. Erweist sich dieses Modell als haltbar, so besteht partielle metrische Invarianz. Die Überprüfung der skalaren Invarianz erfolgt dazu analog, indem nur für einen Teil der Items, für welche allerdings metrische Invarianz gelten muß,
die Intercepts kulturübergreifend gleichgesetzt werden.
24.Nesselroade (1995, S.119f) zitiert in diesem Zusammenhang Nunnally (1967): „In another
context, Nunnally (1967) argued that adjusting one’s analytic methods „down“ to the perceived
quality of the data was neither particularly valuable nor necessarily appropriate.“
127
Kultur A
Kultur B
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
V1
λ1=1a
V1
λ1=1
V2
λ2
V2
λ2
V3
λ3
V3
λ3
V4
λ4
V4
λ4
V5
λ5
V5
λ7
V6
λ6
V6
λ8
Tabelle 7: Partielle metrische Invarianz eines einfaktoriellen Konstrukts
a. Der unstandardisierte Ladungsparameter λ1 ist mit 1
fixiert, um die Metrik der latenten Variablen F1 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112).
Für den Ablauf der Invarianzprüfung bedeutet dies, daß aufbauend auf konfiguraler Invarianz zunächst auf volle metrische Invarianz geprüft wird. Erweist sich diese als nicht
haltbar, so wird die Stringenz des Modells reduziert, indem einige der gleichgesetzten Ladungsparameter nun weiter freigesetzt werden. Dies bedeutet eine Erhöhung der Zahl der
unabhängig zu schätzenden Parameter und damit eine bessere Anpassung des Modells an
die Daten. Für die Auswahl der Items, für welche metrische Invarianz nicht länger angenommen wird, werden die Modifikationsindexwerte (vgl. Backhaus et al., 1994, S.421)
herangezogen. Diese Werte werden für alle restringierten, also nicht frei geschätzten Parameter ausgewiesen und geben an, wie sich der Fit des Modells verbessern würde, wenn
die entsprechenden Parameter freigesetzt werden. Einen Überblick über den Ablauf der
Prüfung der Erhebungsdaten auf Äquivalenz und der einzelnen Prüfschritte gibt Abbildung 27 auf Seite 129.
Für die praktische Anwendung von partiell äquivalenten Skalen in der interkulturellen
Forschung ist allerdings zu beachten, daß der Vergleich von additiven Rohscores (Summe
der Itemwerte als Gesamtmaß) nur für jenen Teil der Items möglich ist, welche invariant
128
Analyse: CFA in Kultur A
Modell-Test (Fit) innerhalb Kultur A
Analyse: CFA in Kultur B
Modell-Test (Fit) innerhalb Kultur B
Falls erforderlich: Elimination von Items
Schritt 1: Bestimmung des Modellfits innerhalb der Kulturen (Gruppen)
Analyse: multi-group CFA, equality constraints auf non-salient loadings
Test auf konfigurale Invarianz
Schritt 2: Test auf konfigurale Invarianz
Analyse: multi-group CFA, equality constraints auf non-salient und salient loadings
Test auf volle metrische Invarianz
Einzelne equality constraints auf
salient loadings aufgehoben
Test auf partielle metrische Invarianz
Schritt 3: Test auf metrische Invarianz
Analyse: multi-group CFA, zusätzliche equality constraints auf Item-Intercepts
Test auf skalare Invarianz
Einzelne equality constraints auf
Item-Intercepts aufgehoben
Test auf partielle skalare Invarianz
Schritt 4: Test auf skalare Invarianz
partielle skalare Invarianz
volle skalare Invarianz
Niveau der Datenäquivalenz
Abbildung 27: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung auf Äquivalenz mittels Strukturgleichungsanalysen
für mehrere Gruppen (multi-group CFA)
129
sind. Werden allerdings direkt Mittelwerte der latenten Variablen, also der Faktorwerte,
verglichen, so können dabei auch nicht invariante Items einbezogen werden, da diese
durch kulturspezifische Parameter mit der gemeinsamen Skala verbunden sind. Vergleiche latenter Variablen lassen sich im Rahmen der multi-group-Analyse vornehmen, indem ein Modell mit gleichgesetzten Mittelwerten mit einem Modell frei geschätzter
Mittelwerte hinsichtlich des Fits verglichen wird, wobei wieder der χ2-Differenzentest
Anwendung findet. Sinkt der Fit ausgehend von der freien Schätzung bei Einführung eines equality constraints signifikant, so unterscheiden sich die Mittelwerte ebenso signifikant.
Das Konzept der partiellen Invarianz eröffnet darüber hinaus interessante Perspektiven
hinsichtlich der Einbeziehung kulturspezifischer Items, also von emic Items (Baumgartner und Steenkamp, 1997). Tabelle 8 baut auf Tabelle 7 auf, indem ein Set von vier manifesten Variablen V1, V2, V3 und V4 als kulturübergreifend invariant modelliert ist. Die
weiteren Variablen (in Tabelle 8 grau unterlegt) sind jedoch nun kulturspezifisch. V5 und
V6 kommen in Kultur A zum Einsatz, V7 und V8 in Kultur B. Aus diesem Grund ist es a
priori nicht sinnvoll, die Ladungsparameter z.B. von V5 und V7 gleichzusetzen, da sich
diese Items inhaltlich unterscheiden und nur formal im Zuge der Parameterschätzungen
als einander entsprechend angesehen werden. Die Zahl der manifesten Variablen muß
nicht notwendigerweise in allen Kulturen ident sein. Es kann also in Kultur A ein Set von
z.B. 5 zusätzlichen emic Items eingesetzt werden und in Kultur B ein Set von nur drei spezifischen Items. Um die Anwendbarkeit von Standardprogrammen zur Parameterschätzung zu ermöglichen, sind diesfalls jedoch imaginäre manifeste Variablen einzuführen
mit Mittelwert 0, Varianz gleich 1 und Kovarianzen mit allen anderen Variablen gleich 0
(Baumgartner und Steenkamp, 1997).
Substantiell kann die Einbeziehung von emic Items sinnvoll sein, wenn sie der Erhöhung
der intrakulturellen Validität (inhaltliche Validität, Vorhersagevalidität, usw) dient. Es
muß stets bedacht werden, daß Vergleichbarkeit als interkulturelle Validität, welche Gegenstand dieser methodologischen Exploration ist, zwar notwendige Voraussetzung für
sinn- und bedeutungsvolle interkulturelle Vergleiche ist, die intrakulturelle Validität aber
nicht ersetzen kann. Insbesondere das Konzept der partiellen Invarianz birgt die Gefahr in
sich, daß Vergleiche von Rohscores auf der Basis einer stark eingeschränkten Itemanzahl
130
durchgeführt werden, wodurch die Validität der Messung durch Verdünnung (vgl. Fischer, 1974, S.98f) ernsthaft bedroht sein kann. Die Testung von Unterschiedshypothesen
betreffend latenter Mittelwerte (vgl. Hancock, 1997) ist daher, wenn auch technisch aufwendiger, vorzuziehen.
Kultur A
Kultur B
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
manifeste
Variable
Ladung auf
latenter
Variablen
(Faktor F1)
V1
λ1=1a
V1
λ1=1
V2
λ2
V2
λ2
V3
λ3
V3
λ3
V4
λ4
V4
λ4
V5
λ5
V7
λ7
V6
λ6
V8
λ8
Tabelle 8: Partielle metrische Invarianz eines einfaktoriellen Konstrukts
unter Einbeziehung von emic Items
a. Der unstandardisierte Ladungsparameter λ1 ist mit 1
fixiert, um die Metrik der latenten Variablen F1 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112).
6.11 Überblick über den Ablauf der Äquivalenzprüfung der Erhebungsdaten
Zusammenfassend erfolgt die Überprüfung der Äquivalenz der Erhebungsdaten in vier
Schritten (Abbildung 27 auf Seite 129 stellt diese schematisch dar). Zunächst ist der Modellfit innerhalb der Kulturen zu bestimmen (Schritt 1). Darauf aufbauend wird die konfigurale Invarianz geprüft (Schritt 2). Wenn diese gegeben ist, wird im darauf folgenden,
dritten Schritt auf volle metrische Invarianz geprüft. Gegebenenfalls ist die Hypothese
metrischer Invarianz für einzelne Items aufzugeben (partielle Invarianz). Im Zuge des
vierten Prüfschrittes wird auf volle bzw. partielle skalare Invarianz geprüft und damit das
Niveau der Datenäquivalenz bestimmt.
131
7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory)
Two philosophers are walking down the street. They see two women leaning out
of upper story windows, facing each other across an alley, and arguing. One of
them stops to watch and says to the other, ’You know they’ll never agree.’ The
other says, ’How on earth can you tell?’ The first one replies, ’They’re arguing
from different premises.’
Satire, unbekannte Quelle
7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der
probabilistischen Testtheorie (Latent Trait Theory)
Im vorangegangenen Kapitel wurde versucht, innerhalb des Paradigmas der klassischen
Testtheorie eine methodische Vorgangsweise zu beschreiben, die geeignet ist, die interkulturelle Validität im Sinne der Vergleichbarkeit von Messungen empirisch zu überprüfen. Da die klassische Testtheorie nach wie vor das vorherrschende Meßparadigma der
Marketingforschung darstellt, erscheint dies sinnvoll und angebracht. In diesem Kapitel
soll jedoch das Paradigma selbst kritisch hinterfragt und die Stärken und Schwächen beleuchtet werden. Mit der probabilistischen Testtheorie steht ein alternatives Paradigma
zur Verfügung, welches in die Marketingsforschung bislang fast völlig unbeachtet geblieben ist.
7.1 Kritische Betrachtung der klassischen Testtheorie
Die bereits eingeführte Grundgleichung der klassischen Testtheorie (vgl. Abbildung 16
auf Seite 89), welche den beobachteten Testwert als Summe eines „wahren“ Werts (True
Score) und eines stochastischen Fehlerterms „erklärt“, wurde aus den Naturwissenschaften übernommen. Die Funktion der Meß- bzw. Testtheorie liegt darin, dem empirischen
Relativ (vorgegebene Objekte, Meßgegenstände) ein numerisches Relativ (Meßwert) zuzuordnen, welches die zwischen den Meßgegenständen „feststellbaren empirischen Relationen in eine Menge von Zahlen und Relationen zwischen diesen“ (Fischer, 1974, S.115)
abbildet. Ein Beispiel der physikalischen Messung der Körpergröße von Personen soll
dies verdeutlichen (Fischer, 1974). Die zu messenden Personen können zunächst paarweise verglichen werden, bis eine Rangreihenfolge von einzelnen Größenklassen hergestellt
ist (dessen Umfang mindestens eine Person beträgt). Diese paarweisen Vergleiche stellen
noch keine Messung dar, da keinerlei Zuordnung von Zahlen als numerisches Relativ zu
den festgestellten empirischen Relationen (zwei Personen sind unterschiedlich oder
gleich groß) erfolgt. Die empirischen Relationen der einzelnen Größenklassen haben jedoch lediglich den Charakter von kleiner/größer- bzw. gleich-Beziehungen. Werden nun
den einzelnen Größenklassen in ansteigender Reihenfolge numerische Werte zugeordnet,
132
so nehmen diese Werte den Charakter von Meßwerten an (numerisches Relativ). Diese
Werte können die natürlichen Rangzahlen 1,2,3, usw. sein, müssen aber nicht notwendigerweise unmittelbar aufeinanderfolgen. Jede streng monoton ansteigende Zahlenfolge
wäre als numerisches Relativ geeignet, da die abzubildenden empirischen Relationen lediglich ordinaler Natur sind. Die so erfolgte Messung würde daher keinerlei Schlußfolgerungen über die Größenunterschiede zwischen einzelnen Personen erlauben. Werden
jedoch im nächsten Schritt alle möglichen Größenunterschiede zwischen je zwei Personen (also Differenzen) verglichen, so erlaubt auch das entsprechende numerische Relativ
die Interpretation von Differenzen. Womit die Intervallskaleneigenschaft des numerischen Relativs und damit der Messung begründet wird.
Die Übertragung dieses Paradigmas der Messung von beobachtbaren Meßgegenständen
auf die Messung von unbeobachtbaren Meßobjekten (Einstellungen, Intelligenz, usw.) ist
insofern problematisch, als im letzteren Fall empirische Relationen kaum erfaßbar sind.
Es ist nicht möglich, die Einstellungen zweier Personen unmittelbar zu vergleichen und
eine Rangreihenfolge von Einstellungsklassen zu bilden, zu denen eine Zuordnung von
numerischen Werten erfolgen könnte. Ebenso ist es natürlich nicht möglich, Einstellungsunterschiede unmittelbar zu vergleichen. Die Aufgabe einer Meßtheorie liegt nun darin,
nichtsdestotrotz eine Zuordnungsvorschrift zu formulieren, die ein bestimmtes Skalenniveau1 impliziert. Kann dies die klassische Testtheorie leisten? Die klassische Testtheorie
setzt voraus, daß der beobachtete Meßwert X intervallskaliert ist. Dies ist zwingend erforderlich, betrachtet man beispielsweise die als Varianzverhältnis definierte Testreliabilität
oder die als Korrelation definierte Validität. Die Tragfähigkeit dieser Voraussetzung wird
jedoch in der klassischen Testtheorie nicht begründet. Der beobachtete Meßwert X wird
als Summe der Werte einzelner Items errechnet. Im einfachsten Fall dichotomer Items
wird somit aus einer Vielzahl qualitativer Meßwerte auf Itemebene ein quantitativer Meßwert. Geht man davon aus, daß alle Items gleiche Trennschärfe aufweisen, so ist die Summe der positiv beantworteten Items aber lediglich ordinal skaliert. Über die Unterschiede
im empirischen Relativ zwischen einzelnen Rohscores als numerisches Relativ sind keinerlei gesicherte Aussagen möglich. Dennoch nimmt die klassische Testtheorie schlichtweg an, die Rohscores seien (wie erforderlich) intervallskaliert. Geht man von der
1. Für einen Überblick über Skalenniveaus und die sich daraus ergebenden Konsequenzen hinsichtlich zulässiger Transformationen vgl. z.B. Glass und Stanley (1970, S.7ff).
133
Annahme gleicher Itemtrennschärfe ab, so sind die Rohscores auch nicht zwingend ordinal skaliert, da unterschiedliche Antwortmuster, die zum gleichen Rohscore führen, nicht
notwendigerweise mit derselben Position am empirischen Relativ verknüpft sind. Für
mehrkategorielle Items ist die Problematik verschärft, da eine Addition von Items die Intervallskaleneigenschaft der den Items zugrundeliegenden Antwortskalen voraussetzt.2
Eine weitere Voraussetzung für eine sinnvolle Aufsummierung einzelner Items zu einem
Gesamtscore ist die Eindimensionalität der Items. Im Rahmen der Grundgleichung der
klassischen Testtheorie wird auch dies einfach als gegeben angenommen. Die Überprüfung dieser Voraussetzung ist ohne Zusatzannahmen über die Parallelität von Messungen
nicht möglich. Für eine eindimensionale Messung und damit Homogenität der Items sind
gleiche faktorenanalytische Ladungswerte für alle Items erforderlich. Nur unter dieser
Bedingung sind Verfahren der Reliabilitätsabschätzung durch Korrelation von Testteilen,
wie dies im Zuge der split half Reliabilität oder der Bestimmung der internen Konsistenz
durch Cronbach’s Alpha der Fall ist, sinnvoll. Über die weiteren Erfordernisse paralleler
Messungen (etwa Gleichheit der Erwartungswerte und Meßwertvarianzen) besteht in der
Literatur Uneinigkeit (vgl. dazu Fischer, 1974, S.33ff, S.127). Die Grundlagen der klassischen Testtheorie sind somit äußerst problematisch und die Aussagekraft der Meßwerte,
sowie der darauf aufbauenden Testkennwerte zweifelhaft. Die Grundgleichung „erklärt“
einen beobachtbaren Wert als Summe zweier unbeobachtbarer und ist - ohne Zusatzannahmen zur Parallelität von Messungen - dementsprechend tautologisch und empirisch
nicht falsifizierbar (Rost, 1988, S.81). Die klassische Testtheorie ist damit in erster Linie
von Pragmatik gekennzeichnet, die meßtheoretischen Grundlagen sind unbefriedigend.
2. Auch die Methode der simultanen adjektivischen Dezentrierung von Angelmar und Pras unter
Anwendung der Thurstone-Skalierung (vgl. dazu Bauer, 1995, S.248ff) kann dieses Problem
nicht grundsätzlich lösen. Diese Methode sieht vor, daß Verbalisierungen von Antwortkategorien auf einer 21-stufigen Bewertungsskala eingestuft werden. Für die tatsächliche Verbalisierung werden jene Begriffe ausgewählt, die auf dieser Bewertungsskala äquidistant sind.
Darüber hinaus erlauben die so gewonnenen Bewertungen die Konstruktion von einander entsprechenden Antwortskalen in verschiedenen Sprachen, indem Begriffe nicht wörtlich übersetzt werden, sondern „gleichwertige“ Begriffe gewählt werden. Die Überlegenheit dieser
Methode gegenüber einer bloß „gefühlsmäßigen“ Äquidistanz der Begriffe und einer wörtlichen Übersetzung ist unbestreitbar. Die theoretische Schwäche der klassischen Testtheorie ist
damit aber aus zwei Gründen nicht überwunden. Zum einen wird für die 21-stufige Bewertungsskala Intervallskalenniveau nur angenommen. Es ist äußerst fragwürdig, ob Personen
wirklich in der Lage sind, zwischen 21 Abstufungen äquidistant zu differenzieren. Zum anderen ist die mit dieser Methode entwickelte Antwort(intervall)skala lediglich eine Meßhypothese. Die empirische Überprüfung dieser Hypothese ist eben innerhalb der klassischen
Testtheorie nicht möglich.
134
Einen zentralen Stellenwert innerhalb der klassischen Testtheorie nehmen die Begriffe
der Reliabilität und Validität ein. Die Reliabilität eines Tests ist inhaltlich definiert als
„Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht“ (Lienert,
1989, S.14). Formal ist die Reliabilität als Verhältnis der Varianz der True Scores T und
der Varianz der beobachteten Meßwerte X definiert, was äquivalent zur quadrierten Korrelation von True Scores und manifester Meßwerte ist (vgl. Abbildung 28).
2
σ
2
Rel = -----T- = ρ (X,T)
2
σX
Abbildung 28: Formale Definition der Reliabilität (Fischer, 1974, S.37)
Aus der Definition der Reliabilität ist unmittelbar ersichtlich, daß diese populationsabhängig ist. Für sehr homogene Populationen bzw. Stichproben ist die True Score Varianz
kleiner als für heterogene. Im Extremfall völliger Gleichheit der Personen hinsichtlich des
zu messenden Konstrukts ist die True Score Varianz gleich null und die Reliabilität wird
ebenfalls gleich null. Somit beschreibt die Reliabilität nicht die Meßgenauigkeit eines
Tests unabhängig von den zu messenden Personen, sondern gibt die Meßgenauigkeit in
Bezug auf eine gegebene Population an (Fischer, 1974, S.38; Traub und Rowley, 1991,
S.40). Die Reliabilität ist also nicht als Eigenschaft des Tests zu sehen, sondern gibt lediglich an, wie gut der Test innerhalb einer bestimmten Population differenziert. Wenn
die True Score Varianz und damit die Reliabilität gleich null ist, so bedeutet dies nicht,
daß der Test unzuverlässig mißt. Das Unvermögen des Tests, innerhalb dieser Population
zu differenzieren, liegt nicht an der Qualität des Tests, sondern daran, daß innerhalb dieser
Population hinsichtlich des Testkriteriums nicht differenziert werden kann.
Eine weitere mit der Reliabilität verbundene Problematik liegt in ihrer Anwendung zur
Berechnung von Konfidenzintervallen für den True Score3. Die Breite des Konfidenzintervalls hängt von der Reliabilität des Meßinstruments ab (vgl. dazu Fischer, 1974, S.40),
ist aber für jeden manifesten Meßwert gleich. In der Praxis ist es äußerst unplausibel, daß
3. Bei der Schätzung des True Scores mittels der Regressionsmethode
( ˆτp = ρX X' ⋅ Xp + ( 1 – ρX X' ) ⋅ X = X + ρX X' ⋅ ( Xp – X ) , vgl. Traub, 1994, S.150; Fischer, 1974, S. 40f) ist auch die
Punktschätzung von der Reliabilität abhängig.
135
ein Meßinstrument in seinen Extrembereichen gleich zuverlässig mißt wie im Mittelbereich. Abgesehen davon hängt die Breite des Konfidenzintervalls für eine bestimmte Person von der Homogenität der Population ab, da letztere die Höhe der Reliabilität
mitbestimmt.
Mit der Reliabilität sind also eine Reihe theoretischer Probleme verbunden. Aber auch die
praktische Bestimmung ist kein triviales Problem. Da die True Scores nicht beobachtbar
sind, ist auch deren Varianz nicht bestimmbar. Die Reliabilität ist damit nicht in der Form
ermittelbar, in der sie definiert wird. Als Alternative kann der Test wiederholt werden und
die Korrelation der beiden Testvorgaben als Wiederholungstestreliabilität zur Abschätzung der Reliabilität herangezogen werden. Der so ermittelte Wert unterschätzt allerdings
in der Regel die Reliabilität, da zeitbedingte Faktoren korrelationsreduzierend wirken.
Andere Möglichkeiten, die Reliabilität abzuschätzen, erfordern Zusatzannahmen über die
Parallelität von Messungen, welche in der Praxis selten erfüllt sind und auch kaum überprüft werden. Für Testhalbierungsmethoden und Paralleltestreliabilitätsbestimmungen
müßten die entsprechenden Tests bzw. Testteile gleiche Varianz aufweisen.
Für die Bestimmung der Validität als Korrelation der manifesten Testwerte und eines Außenkriteriums gelten analoge Einschränkungen der Aussagekraft aufgrund der Verteilungs- und Populationsabhängigkeit der Korrelation und der Fragwürdigkeit der
Intervallskaleneigenschaft der Meßwerte. Auch andere wichtige Parameter, wie zum Beispiel der Schwierigkeitsgrad bzw. der Aufforderungsgrad eines Items definiert als Anteil
der richtigen Antworten bzw. Zustimmungen und der Gesamtzahl der untersuchten bzw.
befragten Personen, lassen sich im Rahmen der klassischen Testtheorie nicht populationsunabhängig bestimmen. Ein Item eines Einstellungsmeßinstruments wird in einem Sample mit stark positiver Einstellung eine höhere Zustimmungsrate aufweisen als in einem
Sample mit überwiegend negativer Einstellung.
7.2 Guttmanskalierung
Auf Louis Guttman (vgl. dazu z.B. die Ausführungen bei Fischer, 1974, S.137ff) geht der
erste Versuch zurück, die mit der klassischen Testtheorie verbundenen theoretischen Probleme zu überwinden. Wie bereits dargestellt, geht die klassische Testtheorie davon aus
(bzw. setzt unüberprüfbar voraus), daß die Summe von dichotomen Items eine intervalls-
136
kalierte Meßgröße ergibt. Dies ist im allgemeinen aus meßtheoretischen Gründen nicht
haltbar. Bei Items unterschiedlicher Trennschärfe ist jedoch selbst das ordinale Skalenniveau fraglich, da unterschiedliche Antwortmuster nicht ohne weiteres verglichen werden
können. Die klassische Testtheorie macht keine Aussage darüber, wie die Antwort auf ein
einzelnes Item in Abhängigkeit von der Position auf der latenten Dimension, welche gemessen werden soll, zustandekommt. Das Meßergebnis X (Rohscore) wird mit der Lokation T auf der latenten Dimension bis auf den Meßfehler E gleichgesetzt. Guttman
formuliert nun die notwendigen Voraussetzungen auf Itemebene, um ein ordinales Skalenniveau des Rohscores zu begründen. Demnach ist die Aussage, der Rohscore n ist größer als der Rohscore n-1, nur dann zwingend gültig, wenn der Rohscore n dadurch
zustande kommt, daß die genau gleichen Items positiv beantwortet werden, wie beim
Rohscore n-1, und ein weiteres Item. Ein Rohscore von n, welcher sich dadurch ergibt,
daß n-1 andere Items des Meßinstruments und ein weiteres positiv beantworten werden,
wäre demnach qualitativ unterschiedlich und die Schlußfolgerung, dieser Rohscore von n
wäre größer als der Rohscore von n-1, wäre nicht zulässig. Werden alle Items eines Meßinstruments nach aufsteigender Schwierigkeit (Aufforderungscharakter) gereiht4, so geht
die Guttmanskala davon aus, daß die Antwortmuster das sogenannte Guttmanpattern zeigen.
Item (Antwortpattern)
Rohscore
1
2
3
4
5
6
0
0
0
0
0
0
0
1
0
0
0
0
0
1
1
1
0
0
0
0
2
1
1
1
0
0
0
3
1
1
1
1
0
0
4
1
1
1
1
1
0
5
1
1
1
1
1
1
6
0
1
0
1
1
0
3
Abbildung 29: Guttmanpattern für sechs dichotome Items
4. Die Rangreihung erfolgt auf der Basis der Itemscores.
137
Abbildung 29 stellt das Guttmanpattern für sechs dichotome Items5 dar. Jeder mögliche
Rohscore impliziert die positive Beantwortung aller Items des nächstgeringeren Rohscores und eines mehr. Das kursiv dargestellte Antwortmuster 010110 führt zwar ebenso wie
das Muster 111000 zum Rohscore 3, ist aber mit diesem nicht vergleichbar, da andere
Items positiv beantwortet wurden. Da die Items nach ihrer Schwierigkeit geordnet sind,
impliziert das Antwortmuster 010110, daß das leichteste und drittleichteste Item nicht bewältigt wurden, was die Rangreihung der Items in Frage stellt.
Das Meßmodell von Guttman läßt sich wie folgt formal darstellen (vgl. Fischer, 1974,
S.139):
• Jedes Item i läßt sich durch einen Schwierigkeitsparameter δi charakterisieren.
• Jede Person v läßt sich durch einen Fähigkeits- bzw. Einstellungsparameter βv charakterisieren.
• Die Antwort auf ein Item i durch die Person v wird als avi bezeichnet und erhält den Wert
1, wenn die Person positiv antwortet und den Wert 0, wenn die Person negativ antwortet.
• Die Beziehung der Parameter δi und βv und der Antwort avi wird formuliert als:
avi = 1 wenn die βv ≥ δi
avi = 0 wenn die βv < δi
Das Guttmanmodell läßt sich alternativ als Wahrscheinlichkeit einer positiven Antwort
darstellen:
P ( + | v, i) = 1 für βv ≥ δi
und
P ( + | v, i) = 0 für βv < δi
Aus dieser grundlegenden Beziehung geht unmittelbar hervor, daß eine Person v alle
Items positiv beantworten muß, deren Itemparameter kleiner oder gleich ihrem Personenparameter sind. Da die Wahrscheinlichkeit einer positiven Antwort nur die Werte 0 und 1
5. Die Guttmanskalierung ist auf mehrkategorielle Antwortverrechnungen verallgemeinerbar.
Dabei wird der Maximalwert gleich 1 gesetzt und dazwischen liegende Werte auf entsprechende Werte zwischen 0 und 1 umgerechnet.
138
annehmen kann, handelt es sich um ein deterministisches Meßmodell. Aus dem Item- und
dem Personenparameter resultiert eindeutig die Antwort. Bereits ein einziges vom Guttmanpattern abweichendes Antwortmuster falsifiziert das Meßmodell. Die Guttmanskalierung hat sich aus diesem Grund in der Praxis nicht durchgesetzt. Für reale Messungen ist
das Modell folglich ungeeignet. An dieser Stelle interessiert aber weniger die Praxisrelevanz des Modells, sondern vielmehr eine nähere Betrachtung der fundamentalen Unterschiede der Guttmanskalierung und der klassischen Testtheorie. Das Guttmanmodell
formuliert eine Hypothese, wie eine Messung zustandekommt, nämlich als Vergleich einer Person und eines Items bzw. eines Personenparameters und eines Itemparameters. In
der klassischen Testtheorie fehlt eine solche Hypothese, dementsprechend ist auch die
Falsifizierbarkeit des Meßmodells nicht möglich. Die Guttmanskalierung ist falsifizierbar. Der zentrale Fortschritt in der Meßtheorie liegt also in deren Falsifizierbarkeit. Die
Tatsache, daß das Guttmanmodell in der Praxis auch so gut wie immer falsifiziert wird,
schmälert diesen Fortschritt keineswegs. Ein weiterer fundamentaler Unterschied liegt in
der Unabhängigkeit der Itemparameter von der jeweilig betrachteten Population.
Die Guttmanskalierung stellt somit die Grundlage eines Paradigmenwechsels in der Meßtheorie dar.6 Auf dieser Basis hat der dänische Mathematiker und Statistiker Georg Rasch
(1960/1980) ein probabilistisches Meßmodell entwickelt, welches als Rasch-Modell in
die Literatur eingegangen ist und die Theorie des Messens revolutionierte.
7.3 Das probabilistische Testmodell von Rasch (1980)
7.3.1 Übergang von einem deterministischen zu einem probabilistischen Modell
Rasch (1980) baut auf den Überlegungen Guttmans auf, geht jedoch vom deterministischen Element der Messung ab. Rasch (1980, S.11) sieht darin eine Analogie zur Wende
in der Physik von der klassischen Physik Newtons zur modernen Physik, welche durch
Indetermination und Zufallsprozesse gekennzeichnet ist.
6. Die Bereitschaft der Scientific Community, die mit diesem Paradigmenwechsel verbundene
Fundamentalkritik an der klassischen Testtheorie anzuerkennen, war (und ist?) in weiten Teilen von keinem allzu großen Enthusiasmus gekennzeichnet. Erste Publikationsversuche in
Psychometrika durch Guttman in den 30er Jahren, wurden von Vertretern der klassischen Testtheorie erfolgreich „abgewehrt“. Zuviele wissenschaftliche Karrieren wurden auf diesem Paradigma aufgebaut. Zuviele wissenschaftliche „Kenntnisse“ wären zu hinterfragen gewesen. So
datiert die erste diesbezügliche Publikation erst aus 1950 (Guttman, 1950, zitiert in Fischer,
1974, S.137).
139
Der Ausgangspunkt des Modells liegt - wie bei Guttman - im Paarvergleich von Personen
und Items. Item- und Personenparameter werden als auf einer gemeinsamen latenten Dimension abbildbar angenommen. So hat auf einer Einstellungsdimension jede Person eine
bestimmte Position (Lokation), welcher der Einstellung entspricht. Jedes Item des diese
Einstellung messenden Instruments hat einen bestimmten Aufforderungscharakter (das
Pendant zur Itemschwierigkeit bei Leistungstests), der sich ebenfalls auf dieser Skala abbilden läßt und den Itemparameter darstellt. Item- und Personenparameter sind formal
gleichbedeutend. Jedes Item kann daher auch als „Verkörperung“ eines bestimmten Einstellungsniveaus interpretiert werden. Werden nun ein Item und eine Person als Paar verglichen (d.h. das Item wird der Person zur Beantwortung vorgegeben), so entscheiden
(nur) die Item- und Personenparameter - so die Modellkonsequenz - ob eine zustimmende
oder ablehnende Antwort zustandekommt. Der Vergleich einer bestimmten Person v und
eines bestimmten Items i ist daher unabhängig davon, welche Personen sonst noch betrachtet werden oder betrachtet werden könnten und wie sich diese hinsichtlich der latenten Dimension verteilen. Der Vergleich ist weiters unabhängig von den weiteren im
Meßinstrument enthaltenen Items. Wichtig ist allerdings festzuhalten, daß der Vergleich
eines Items und einer Person weder eine Messung des Itemparameters, noch eine Messung des Personenparameters voraussetzt oder darstellt. Es wird somit von der Annahme
der klassischen Testtheorie abgegangen, „die Itemreaktion hätte schon Meßqualität“
(Rost, 1988, S.84). Der Vergleich erfolgt am empirischen Relativ und ist damit analog
zum Beispiel des Versuchs der Messung der Körpergröße von Personen, welches im Zuge
der Kritik der klassischen Testtheorie angeführt wurde. Der Vergleich zweier Personen
hinsichtlich ihrer Körpergröße erfordert keine Messung der Körpergröße, ebensowenig
der Vergleich der Einstellung einer Person und der Einstellung, die ein Item verkörpert.
Aufgabe der Meßtheorie ist es zu erklären, wie auf der Basis dieser Vergleiche Messungen zustandekommen, das heißt die Beziehung von latenter Dimension und manifester
Antwort muß falsifizierbar modelliert werden.
Bei Guttman wird diese Beziehung deterministisch modelliert, bei Rasch hingegen probabilistisch7. Das Meßmodell von Rasch (oder kurz: Rasch-Modell8) kann daher als probabilistische Version des deterministischen Modells von Guttman gesehen werden.
140
Vergleich
von Item i und
Person v
Differenz
der Parameter
Wahrscheinlichkeit der Itemantwort xvi=1
bei Guttman
bei Rasch
βv > δi
(βv − δi) > 0
P(xvi=1) = 1
P(xvi=1) > ½
βv = δi
(βv − δi) = 0
P(xvi=1) = 1
P(xvi=1) = ½
βv < δi
(βv − δi) < 0
P(xvi=1) = 0
P(xvi=1) < ½
Abbildung 30: Vergleich der Modelle von Guttman (1950) und Rasch (1980)
hinsichtlich der Wahrscheinlichkeit einer positiven Antwort bei
gegebener Differenz von Personen- und Itemparameter (vgl.
dazu Wright und Stone, 1979, S.13)
Abbildung 30 stellt die Ausgangsposition von Rasch dem Modell von Guttman gegenüber. Rasch nimmt für eine positive Differenz von βv und δi im Unterschied zu Guttman
nicht an, daß die Antwort zwingend und deterministisch positiv ist, sondern lediglich, daß
die Wahrscheinlichkeit einer positiven Antwort größer als ½ ist. Mit zunehmender, positiver Differenz wird die Wahrscheinlichkeit als steigend angenommen und geht für sehr
große Differenzen gegen 1. Entsprechen Item- und Personenparameter einander exakt, so
beträgt die Wahrscheinlichkeit einer positiven Antwort ½. Für negative Differenzen ist
die Wahrscheinlichkeit kleiner als ½ und strebt mit zunehmender Differenz gegen 0.
Der Vergleich von Person und Items kann als „Wettstreit“ angesehen werden und die
Wahrscheinlichkeit des Ergebnisses als sogenannter Wettquotient angegeben werden.
Sind die Chancen einer positiven und einer negativen Antwort gleich, so stehen die
„Odds“ 1:1. Dieses Verhältnis kann als der Quotient eines Personenparameters Bv und ei-
7. Es sei vermerkt, daß bezüglich des Ursprungs der probabilistischen Beziehung unterschiedliche Auffassungen vertreten werden. Der stochastic subject view geht davon aus, daß die Antwort innerhalb einer Person stochastisch erfolgt. Der random sampling view hingegen nimmt
an, daß für jede fixierte Person die Antwort deterministisch erfolgt und der probabilistische
Zusammenhang darauf beruht, daß für unterschiedliche Personen mit dem gleichen Personenparameter die Antwortwahrscheinlichkeiten unterschiedlich sind (vgl. Molenaar, 1995a, S.5f).
8. Da Rasch mehrere Modelle für verschiedene Anwendungen vorgestellt hat, ist diese Bezeichnung, obzwar in der Literatur oft verwendet, nicht eindeutig. Da jedoch im Kontext dieser
Arbeit kein anderes Modell von Rasch besprochen wird, besteht keine Verwechslungsgefahr.
Präziser wäre die Bezeichnung dichotomes logistisches Modell von Rasch oder one-parameter
logistic model.
141
nes Itemparameters Di interpretiert werden. Die Odds lassen sich sehr einfach in eine
Wahrscheinlichkeit umrechnen (vgl. Abbildung 31)9.
Odds
Wahrscheinlichkeit
Bv
----Di
Bv ⁄ Dv
P = ------------------------1 + Bv ⁄ Dv
Bv=1, Di=1
1--1
1 ⁄ 1 - = 1--P = -----------------1+1⁄1
2
Bv=10, Di=2
10
-----2
5 - = 5--P = ----------1+5
6
Bv=2, Di=3
2--3
2 ⁄ 3 - = 2--P = -----------------1+2⁄3
5
Beispiele
Abbildung 31: Umrechnung von Odds-Quotienten in Wahrscheinlichkeiten (vgl. Andrich, 1988a, S.24ff)
Die Parametrisierung durch die Personenparameter Bv und Itemparameter Di entspricht
den Voraussetzungen von Rasch. Gleichen die Parameter einander exakt (wie im ersten
Beispiel in Abbildung 31), so ist die Wahrscheinlichkeit einer Zustimmung genau ½. Ist
der Personenparameter größer als der Itemparameter so ist die Wahrscheinlichkeit größer
als ½ und geht mit steigendem Quotienten der Parameter gegen 1. Analog gilt, daß bei
kleiner werdendem Quotienten die Wahrscheinlichkeit gegen 0 geht. Das Skala der Parameter weist Verhältnisskalenniveau auf. Sowohl Item- als auch Personenparameter können keine negativen Werte annehmen, da negative Odds-Quotienten bedeutungslos sind.
Die Skala reicht dementsprechend von 0 bis unendlich. Die Parameterwerte sind bis auf
eine multiplikative Konstante eindeutig (eine Multiplikation aller Parameter verändert
das Odds-Verhältnis nicht). Daher ist die Skala diesbezüglich zu normieren. Die Addition
einer Konstanten ist hingegen nicht möglich, da beispielsweise ein Verhältnis von 1:2
nach Addition von 2 zu allen Parametern nicht ident ist mit einem Verhältnis von 3:4.
Aufgrund der Asymmetrie der Verhältniswerte (alle Verhältnisse für Bv < Di liegen zwischen 0 und 1, während alle Verhältnisse für Bv > Di zwischen 1 und unendlich liegen)
9. Die Modelldarstellung durch die Parameter Bv und Di erfolgt gelegentlich nicht als Bruch,
sondern als multiplikativer Term (vgl. z.B. Andrich, 1989, S.12). Dabei wird der Itemparameter invertiert und ist inhaltlich daher ein „Leichtigkeitsparameter“.
142
werden die Modellparameter im allgemeinen logarithmisch transformiert10. Abbildung
32 gibt beide Parametrisierungsformen des Rasch-Modells und die Transformationsvorschrift wieder.11
Transformation
Bv ⁄ Dv
P = ------------------------1 + Bv ⁄ Dv
β –δ
βv = ln Bv
e v i
P = ----------------------β –δ
1+e v i
δi = ln Di
β –δ
e v i
P ( a vi = 1 ) = ----------------------β –δ
1+e v i
1
P ( a vi = 0 ) = ----------------------β –δ
1+e v i
B v, β v
Personenparameter
Di, δi
Itemparameter
avi
Reaktion der Person v auf Item i
(0 = Ablehung, 1 = Zustimmung)
Abbildung 32: Parametrisierungsformen des Rasch-Modells
(vgl. Rasch, 1980, S.187; Fischer, 1974, S.432)
Die logarithmisch transformierten Parameter βv und δi sind - wie die ursprünglichen Parameter Bv und Di - auf der gleichen Skala. Die neue Parametrisierung ist nun jedoch gegenüber additiven Transformationen invariant. Wird zu allen Parametern eine additive
Konstante hinzugezählt, so verändert dies die Differenz zweier Parameter nicht. Insofern
sind die Modellparameter (zumindest) intervallskaliert. Im Unterschied zur Intervallskala, sind die Parameter allerdings gegenüber einer multiplikativen Transformation nicht invariant. Beispielsweise ist die Differenz von (3 - 1) nicht ident mit der Differenz von (62). Das Skalenniveau ist daher höher als jenes der Intervallskala (welche gegenüber jeder
Art von Lineartransformation invariant ist), aber geringer als jenes einer Absolutskala
(welche gegenüber keinerlei Transformation invariant ist) und wird als Differenzenskala
bezeichnet (vgl. Rost, 1988, S.106f). Für die Skala der Modellparameter ist daher der Ur-
10.Dabei wird der natürliche Logarithmus zur Basis der Eulerschen Zahl e angewandt.
11.Wird für die Modelldarstellung durch die Parameter Bv und Di die multiplikative Form
gewählt (vgl. Fußnote 9. auf Seite 142), so führt die logarithmische Transformation zu einer
Summe (statt einer Differenz) im Exponenten von e.
143
sprung zu definieren. Üblicherweise wird dies dadurch vorgenommen, daß der Mittelwert
der Itemparameter gleich 0 gesetzt wird (Rost, 1988, S.108).
7.3.2 Eigenschaften des Rasch-Modells
Graphische Darstellung des Modells
Ehe die besonderen Eigenschaften des Rasch-Modells dargestellt werden, erfolgt zunächst die graphische Repräsentation des Modells. Da die Reaktion avi auf ein Item i
durch die Person v lediglich vom Personen- und vom Itemparameter abhängt und letztere
auf einer gemeinsamen Skala abbildbar sind, läßt sich die Wahrscheinlichkeit einer positiven Antwort gemäß der logarithmischen Parametrisierung des Rasch-Modells (vgl. Abbildung 32) durch eine Kurve abbilden, welche die Zustimmungswahrscheinlichkeit zu
einem bestimmten Item i mit dem Itemparameter δi in Abhängigkeit vom Personenparameter βv angibt. Diese Kurve wird als Itemcharakteristik (item characteristic curve
ICC12) oder Itemresponsefunktion (item response function IRF) bezeichnet (Rost, 1988,
S.107f; van der Linden und Hambleton, 1997, S.5). Abbildung 33 stellt die Itemcharakteristik für ein Item mit δi=0 dar. Die durchgezogene Linie gibt die Wahrscheinlichkeit einer positiven Antwort an, die strichlierte Linie jene einer negativen Antwort. Da sich die
Wahrscheinlichkeit einer negativen Antwort im Fall eines dichotomen Items aus der
Wahrscheinlichkeit einer positiven Antwort eindeutig ergibt und somit redundant ist,
wird die strichlierte Linie im allgemeinen nicht dargestellt.
12.Diese Bezeichnung findet sich bereits bei Lord (1952, S.7). Die Beziehung von „ability“ und
„probability of a correct answer“ basiert dabei jedoch auf dem, mathematisch äußerst komplizierten weil auf Integrationen beruhenden, Normal-Ogive-Modell. Dieses Modell kann als
Grundlage oder Vorläufer späterer logistischer Testmodelle gesehen werden.
144
P(avi=x | δi, βv )
1
ICC P(avi=0 | δi=0, βv )
ICC P(avi=1 | δi=0, βv )
0.5
0
-4
-3
-2
-1
δi = 0
1
2
3
4
δi, βv
Abbildung 33: Itemcharakteristikkurve(n) ICC für ein Item mit δi = 0
Für δi = βv (im Beispiel bei βv = 0) ist die Zustimmungswahrscheinlichkeit ebenso wie
die Ablehnungswahrscheinlichkeit gleich ½. Für βv < 0 ist die Ablehnung des Items die
wahrscheinlichere Alternative, für βv > 0 ist die Zustimmung wahrscheinlicher. Der Parameterwert δi kann daher auch als Schwelle (Threshold) verstanden werden, an welcher
die wahrscheinlichste Antwortalternative wechselt. Diese Interpretation ist vor allem für
die Verallgemeinerung des Modell auf mehrkategorielle Items von Bedeutung.
Aus der Gleichung des Rasch-Modells folgt unmittelbar, daß die ICCs für verschiedene
modellkonforme Items parallel sind, sich also nicht überschneiden (vgl. Fischer, 1974,
S.199). Inhaltlich bedeutet dies, daß alle Items gleich gut diskriminieren (allerdings in unterschiedlichen Bereichen der zugrundeliegenden latenten Dimension). Gleiche Diskrimination ist also keine zusätzlich getroffene Annahme, sondern ableitbare Konsequenz des
Modells. Diese Konsequenz mag aus Sicht des in der klassischen Testtheorie verhafteten
Denkens äußerst stringent und unrealistisch erscheinen. Allerdings ist zu bedenken, daß
auch in der klassischen Testtheorie so zentrale Kennwerte wie die Reliabilität streng genommen nur dann bestimmbar sind, wenn alle Items bzw. Testteile parallele Messungen
darstellen, was gleiche Itemdiskrimination impliziert.
145
Voraussetzungen und Konsequenzen des Rasch-Modells
Das Rasch-Modell sieht, wie gezeigt wurde, eine Trennung von Beobachtungen (Itemreaktionen) und latenter Dimension vor. Beobachtungen stellen keine Messungen, aber Indikatoren der latenten Dimension dar. Die Beziehung von Beobachtungen und latenter
Dimension wird probabilistisch modelliert. Kovariationen zwischen Beobachtungen werden „als Resultat ihrer Abhängigkeit von einer gemeinsamen latenten Variable angesehen, nicht als direkte Abhängigkeit zwischen den Verhaltensweisen“ (Beobachtungen)
selbst (Fischer, 1974, S.149) erklärt. Dies bedeutet, daß - für eine gegebene und fixierte
Position einer Person auf der latenten Dimension - die Itemantworten untereinander unkorreliert sein müssen, da jeglicher Zusammenhang zwischen diesen auf die - nun konstant gehaltene - latente Variable zurückzuführen ist. Dies wird als Prinzip der lokalen
(weil auf eine fixierte Position am latenten Kontinuum bezogenen) stochastischen Unabhängigkeit13 bezeichnet (Fischer, 1974).
Die Wahrscheinlichkeit, einem bestimmten Item zuzustimmen, ist somit im Modell von
Rasch unabhängig von den Antworten auf sonstige Items des Meßinstruments. Diese Modellvoraussetzung kann empirisch überprüft werden (vgl. Fischer, 1974, S.214f). Items
deren Beantwortung die positive Beantwortung anderer Items voraussetzt, wie dies z.B.
bei Leistungskontrollen mit aufeinander aufbauenden Problemstellungen der Fall ist, sind
demnach nicht modellkonform. Enthält die Lösung eines Items hilfreiche Hinweise auf
die Lösung eines anderen, so stellt dies ebenfalls eine Verletzung der lokalen stochastischen Unabhängigkeit dar (vgl. Hambleton et al., 1991, S.10). Auch das Streben einer
Person nach Konsistenz in einem Einstellungsmeßinstrument kann zu einer Modellverletzung führen. Eine weitere wichtige Voraussetzung des Rasch-Modells ist die Eindimensionalität der Items. Eindimensionalität führt stets zu lokaler stochastischer
Unabhängigkeit. Hambleton et al. (1991, S.12) weisen daraufhin, daß die Umkehrung
nicht notwendigerweise gilt. Ist z.B. zur Lösung einer Mathematikaufgabe eine bestimmte Lesefähigkeit erforderlich, so mißt der Test zwei Dimensionen: mathematisches Verständnis und Lesefähigkeit. Unterscheiden sich die Personen hinsichtlich der
Lesefähigkeit allerdings nicht, so hat diese Konstante keinen Einfluß auf das Testergebnis
und die lokale stochastische Unabhängigkeit hält. Eindimensionalität und lokale stocha13.Statt lokaler stochastischer Unabhängigkeit wird auch bedingte stochastische Unabhängigkeit
gebraucht (so z.B. bei Steyer und Eid, 1993). Die Bedingung zielt auf den fixierten Personenparameter ab.
146
stische Unabhängigkeit sind somit Voraussetztungen für das Modell. Ihre Verletzung
führt dazu, daß sich das Modell als nicht haltbar erweist.
Eine weitere Voraussetzung des Modells ist die Tragfähigkeit der Hypothese, daß mit zunehmenden Werten des Personenparameters die Wahrscheinlichkeit einer positiven Antwort streng monoton zunimmt. Vor allem in der Einstellungsmessung ist denkbar, daß bei
stark positiver Einstellung wie auch bei stark negativer Einstellung ein Item abgelehnt
wird, wenn auch aus konträren Motiven. So könnte z.B. in einem Meßinstrument zum
Umweltbewußtsein die Frage „Sollen phosphathaltige Waschmittel innerhalb eines Jahres verboten werden?“ von wenig umweltbewußten Personen verneint werden, weil ein
solches Verbot als nicht notwendig erachtet wird. Besonders umweltbewußte Personen
könnten diese Frage aber ebenso verneinen, weil diese für ein sofortiges Verbot eintreten.
Die Itemcharakteristikkurve ist in diesem Fall nicht kumulativ, sondern hat ein Maximum. Spezielle Unfoldingmodelle werden diesen Bedingungen gerecht (vgl. z.B.
Andrich, 1997).
Ein aus der Modellformulierung folgender höchst bedeutsamer Aspekt ist die Eigenschaft
des Rohscores (als einfache Summe der positiv beantworteten Items) als erschöpfende
Statistik14 bezüglich des Personenparameters (vgl. die Ableitung für den allgemeinen Fall
dichotomer Items bei Fischer, 1974, S.195ff und die Beweisführung bei Fischer, 1995a).
Dies bedeutet, daß bei gegebenem Rohscore das diesem Score zugrundeliegende Antwortmuster (welche Items positiv beantwortet wurden) keinerlei weitere Information über
die Person enthält, sondern der Rohscore die gesamte verfügbare Information ausdrückt15. Auf die Reproduktion des allgemeinen Beweises wird hier verzichtet. Statt dessen soll ein einfaches, leicht verallgemeinerbares Beispiel zweier Items demonstrieren,
14.Die Bezeichnung „erschöpfende Statistik“ geht auf Ronald Fisher zurück (Rasch, 1980, S21.)
15.Intuitiv mag es unfair erscheinen, alle Items unabhängig von ihrer Schwierigkeit gleich zu
gewichten und eine einfache Summe als Rohscore zu bilden. Allerdings müßte bei stärkerer
Gewichtung der richtigen Antwort auf ein „schweres“ Item konsequenterweise auch eine falsche Antwort bei einem „leichten“ Item zu einem stärkeren Penalty führen als eine falsche
Antwort bei einem schweren Item. Tatsächlich ist die Gewichtung keine Funktion der Itemschwierigkeit, sondern lediglich der Itemdiskriminanzen. Letztere sind im Modell von Rasch
jedoch stets gleich. Daher führt die positive Beantwortung eines leichten Items und die gleichzeitige negative Beantwortung eines schweren Items zum gleichen Rohscore von 1 wie die
negative Beantwortung eines leichten Items bei gleichzeitiger positiver Beantwortung eines
schweren Items. Das gehäufte Auftreten von Antwortmustern, die dem letzteren entsprechen,
würde freilich die Gültigkeit des Modells und die Qualität der Itemparameterschätzungen in
Frage stellen.
147
daß das Antwortmuster lediglich von den Itemparametern abhängt und daher über die Personenparameter keine Information enthält (vgl. Abbildung 34).
Gegeben seien zwei Items mit den Itemparametern δ1 und δ2.
Die Wahrscheinlichkeiten der Ablehnung und Zustimmung sind daher:
1
P ( a v1 = 0) = -----------------------Ablehnung bei Item 1:
β –δ
1+e v 1
β –δ
e v 1
P ( a v1 = 1) = -----------------------Zustimmung bei Item 1:
β –δ
1+e v 1
Ablehnung bei Item 2:
1
P ( a v2 = 0) = -----------------------β –δ
1+e v 2
β –δ
e v 2
P ( a v2 = 1) = -----------------------Zustimmung bei Item 2:
β –δ
1+e v 2
Ein Rohscore von 1 kann durch die Antwortmuster 1 0 und 01 zustandekommen. Die
Wahrscheinlichkeiten dieser beiden Antwortmuster ergeben sich aufgrund der lokalen stochastischen Unabhängigkeit als Produkt der entsprechenden Wahrscheinlichkeiten auf Itemebene. Zur Vereinfachung wird der Nenner wie folgt ersetzt:
γ vi = 1 + e
Vereinfachung der Darstellung:
Antwortmuster 1 0:
P ( ( a v1 = 1 ) ∧ ( a v2
βv – δi
β –δ
e v 1 1
= 0 ) ) = --------------- ⋅ ------γv1 γ v2
β –δ
1 e v 2
Antwortmuster 1 0:
-----P ( ( a v1 = 0 ) ∧ ( a v2 = 1 ) ) = - ⋅ --------------γ v1 γ v2
Für die Wahrscheinlichkeit des Antwortmusters 1 0 unter der Bedingung eines
Rohscores von 1 ergibt sich somit:
P ( ( a v1 = 1 ) ∧ ( a v2 = 0 ) [ ( a v1 = 1 ) ∧ ( a v2 = 0 ) ] ∨ [ ( a v1 = 0 ) ∧ ( a v2 = 1 ) ]) =
1 - βv – δ1
------------⋅e
βv – δ1
βv
– δ1
–δ1
γ v1 γv2
e
e
e
⋅
e
= --------------------------------------------------------------------------- = ------------------------------------ = ----------------------------------------- = -----------------------1 - β v – δ 2 e β v – δ 1 + e β v – δ 2 e β v ⋅ ( e – δ 1 + e –δ 2 ) e –δ 1 + e – δ2
1 - βv – δ1 ------------------------⋅e
+
⋅e
γ v1 γ v2
γ v1 γ v2
Abbildung 34: Unabhängigkeit der Wahrscheinlichkeit eines bestimmten Antwortmusters bei gegebenem Rohscore für zwei dichotome Items (Andrich,
1998, S.68ff; Fischer, 1974, S.214f).
Die Wahrscheinlichkeit eines Antwortmusters unter der Bedingung eines fixierten
Rohscores hängt somit nur von den entsprechenden Itemparametern ab und ist von den
Personenparametern unabhängig. Folglich enthält das spezifische Antwortmuster keiner-
148
lei Informationen zur Person. Der Rohscore hat sich damit als erschöpfende Statistik erwiesen.
Die Bedeutung dieser Modelleigenschaft ist fundamental. Der Vergleich zweier Items ist
unabhängig von den Personen, welche diese Items beantwortet haben. Gleichermaßen
gilt, daß der Vergleich zweier Personen unabhängig von den eingesetzten Items ist. Die
Item- und Personenparameter sind somit separierbar. Die Bestimmung der Itemparameter
erfolgt daher - zumindest theoretisch16 - unabhängig von der konkreten Stichprobe und
auch unabhängig von der Population (Fischer, 1974, S.218ff). In jeder Subpopulation
(z.B. Männer und Frauen) muß der Vergleich von Items zum selben Ergebnis führen. Ist
dies nicht der Fall, so ist das Modell subpopulationsübergreifend nicht haltbar und Vergleiche zwischen Personen aus unterschiedlichen Subpopulationen sind nicht möglich.
Im Unterschied zur klassischen Testtheorie, erfordert das Rasch-Modell keine normalverteilte Referenzpopulation, und - bei Gültigkeit des Modells - sind Vergleiche von Personen unabhängig von der Tatsache welche Personen sonst noch in der Stichprobe oder
Population vertreten sind. Auch die konkrete Auswahl von Items aus einem Pool modellkonformer Items ist dabei ohne Belang, insbesondere müssen die ausgewählten Items bei
den verglichenen Personen nicht ident sein. Rasch hat für diese Modelleigenschaften den
Begriff der spezifischen Objektivität geprägt (Fischer, 1974, S.407; ausführliche Darstellung bei Fischer, 1989).
Die Besonderheit des Rasch-Modells liegt darin, daß „[e]s nicht nur ein Modell [ist], das
die Eigenschaft der spezifischen Objektivität besitzt, sondern auch das einzige Modell mit
dieser Eigenschaft“ (Fischer, 1974, S.407; Hervorhebung im Original).
Der Informationsbegriff
Aus der Darstellung der ICC in Abbildung 33 auf Seite 145 geht unmittelbar hervor, daß
die Antwort einer Person im Punkt δi = βv mit maximaler Unsicherheit verbunden ist. Die
16.In der Praxis beruhen Schätzungen der Parameter selbstverständlich auf bestimmten Stichproben, deren unterschiedliche Zusammensetztungen zu unterschiedlichen Schätzfehlern führen
können. Die zuverlässige Schätzung der Modellparameter ist z.B. dann nicht möglich, wenn
der Bereich der Personenparameter stark vom Bereich der Itemparameter abweicht, also z.B.
nur zu leichte oder zu schwere Items zur Verfügung stehen. Dies hängt unmittelbar mit dem
noch einzuführenden Informationsbegriff und der daraus resultierenden Abschätzung des
Meßfehlers zusammen.
149
Antwort ist in keiner Weise vorhersagbar. Mit zunehmender Differenz von βv und δi läßt
sich die Antwort jedoch immer besser vorhersagen. Bei einer positiven Differenz von 3
Skaleneinheiten erfolgt mit 95%iger Wahrscheinlichkeit eine Zustimmung, bei einer entsprechenden negativen Differenz mit derselben Wahrscheinlichkeit eine Ablehnung. Die
durch die Beobachtung der Itemreaktion gewonnene Information ist daher im Falle δi =
βv am größten und nimmt mit zunehmender Differenz von βv und δi ab. Formal ist die
Iteminformation durch das Produkt der Wahrscheinlichkeit einer Zustimmung und der
Wahrscheinlichkeit einer Ablehnung definiert (vgl. Abbildung 35). Bei einer jeweils
50%igen Wahrscheinlichkeit ist die Iteminformation mit 0.5 ⋅ 0.5 = 0.25 maximal.
β –δ
e v 1
1
I i = ------------------------ ⋅ -----------------------β –δ
β –δ
1+e v 1 1+e v 1
P(avi=x | δi, βv )
1
ICC
0.5
I
0
-4
-3
-2
-1
δi = 0
1
2
3
4
δi, βv
Abbildung 35: Iteminformationsfunktion I als Produkt der Zustimmungswahrscheinlichkeit und Ablehnungswahrscheinlichkeit
(vgl. dazu Fischer, 1974, S.295).
Die Information aus mehreren Items wird additiv zur Testinformation verknüpft. Die Information zweier Items ist also die Summe der Information jedes Items (Fischer, 1974,
S.296). Daraus folgt, daß die Vorgabe zweier Items, deren - im Falle eines Einstellungsmeßinstruments - Aufforderungscharakter sich stark von der Einstellung der Person unterscheidet, weniger Information liefert als der Einsatz von zwei Items, welche mit der
Einstellung der Person annähernd übereinstimmen.
150
Aus der Iteminformationsfunktion bzw. bei Aufsummierung über alle Items aus der Testinformationsfunktion lassen sich Standardschätzfehler ableiten (vgl.Abbildung 36).
1SE = ----I
Abbildung 36: Standardschätzfehler S.E. als Funktion der Testinformation I
(vgl. dazu Hambleton et al., 1991, S.94)
Der Standardschätzfehler ist somit von der Übereinstimmung des Personenparameters
und der Itemparameter abhängig. Im Grenzbereich eines Meßinstruments werden die
mittleren Differenzen von βv und δi groß und die Testinformation entsprechend gering.
Letzteres erhöht den Standardschätzfehler. Konfidenzintervalle für Personenparameter
sind daher im Mittelbereich aufgrund der größeren zur Verfügung stehenden Information
kleiner als in den Extrembereichen. Inhaltlich ist dies äußerst plausibel, da die Genauigkeit eines Meßinstruments im Mittelbereich als maximal angenommen werden kann. Darüber hinaus hängt die Breite des Konfidenzintervalls für den Parameter einer Person nur
von den entsprechenden Items ab. In der klassischen Testtheorie sind Konfidenzintervalle
für den True Score unabhängig vom Niveau stets gleich groß und hängen von der - populationsabhängigen - Reliabilität ab.
Für die Schätzungen der Itemparameter gelten analoge Zusammenhänge (vgl. dazu Hambleton et al., 1991, S.44f). Je weniger Personen im Bereich eines Items liegen, desto unzuverlässiger wird die Schätzung des Itemparameters. Daher kann bzw. soll die Auswahl
einer Stichprobe zur Schätzung der Itemparameter - trotz grundsätzlicher Stichprobenunabhängigkeit - nicht willkürlich erfolgen.17
7.3.3 Parameterschätzungen
Für die Schätzung der Modellparameter stehen eine Reihe von Verfahren zur Verfügung,
deren Beschreibung im Detail zu weit führen würde. Einen Überblick bieten z.B. Molenaar (1995b), Fischer (1974, S.230ff) und Hambleton et al. (1991, S.32ff). Die Auswahl
eines geeigneten Schätzalgorithmus ist zudem jenseits des Einflusses der angewandten
Forschung und in erster Linie ein Problem für die Entwicklung von Softwareprodukten.
17.Vgl. dazu die kritischen Anmerkungen zum Rasch-Modell durch Grubitzsch und Rexilius
(1978, S.71f).
151
Dennoch sollen einige Schätzverfahren zumindest erwähnt werden. Einige Methoden
bauen auf Likelihoodkonzepten auf, d.h. die Parameter werden so gewählt, daß den Daten
maximale Wahrscheinlichkeit zukommt. Die unbedingte Maximum Likelihood Methode
(unconditional oder joint log-likelihood) schätzt Item- und Personenparameter simultan,
wodurch die Separierbarkeit der Parameter verloren geht. Obendrein sind die Schätzwerte
für eine fixierte Zahl an Items nicht biasfrei. Bei geringen Itemzahlen ist das Verfahren
äußerst problematisch und theoretisch jedenfalls unbefriedigend (Fischer, 1974, S.258f).
Aus diesen Gründen sollte diese Methode vermieden werden. Vor allem ältere Softwareprodukte wenden diesen Algorithmus an (vgl. einen diesbezüglichen Überblick bei Hambleton et al. (1991, S.48ff), der allerdings die derzeit aktuellsten Programme naturgemäß
nicht enthält).
Die bedingte Maximum-Likelihood-Methode (conditional maximum-likelihood) beruht
auf der Bedingung von sogenannten Randsummen der Datenmatrix, also Rohscores der
Personen und Itemrohscores. Dieses Verfahren schätzt die Modellparameter für Items und
Personen getrennt. Im ersten Schritt werden die Itemparameter geschätzt, deren Schätzfehler aufgrund der geringen Zahl an Items im Vergleich zur Zahl an Personen wesentlich
kleiner ist als jener der Personenparameter. Letztere werden geschätzt, nachdem die Itemparameter als bekannt vorausgesetzt werden. Besonders zu betonen ist, daß Schätzformeln der Itemparameter unabhängig von Personenparametern sind, womit das Prinzip der
spezifischen Objektivität erhalten bleibt (Fischer, 1974, S.233). WINMIRA (von Davier,
1996) wendet dieses Verfahren an. Analog zur bedingten Maximum-Likelihood schätzt
auch das Marginal Maximum-Likelihood Verfahren (Thissen, 1982) zuerst die Itemparameter und dann die Personenparameter. Diese Methode ist auch auf Verallgemeinerungen
des Rasch-Modells anwendbar. Eine praktische Umsetzung findet sich bei MULTILOG
(Thissen, 1991). Eine auf paarweisen Vergleichen von Items beruhende Methode liegt
RUMM (Sheridan et al.,1997) zugrunde (vgl. zur paarweisen Schätzung Zwinderman,
1995).
152
7.3.4 Limitierungen des Rasch-Modells
Dem vorgestellten Rasch-Modell liegen einige grundlegende Einschränkungen bezüglich
der zu analysierenden Daten zugrunde, welchen den praktischen Einsatz limitieren:
• Einschränkung auf dichotome Items
• Hypothese der gleichen Diskriminanz aller Items als Konsequenz des Modells
• Hypothese der Eindimensionalität
Die Einschränkung auf dichotome Items begrenzt die Anwendbarkeit des Modells stark.
Vor allem in der Einstellungsforschung sind mehrkategorielle Antwortskalen die Regel
und dichotome Kategorien die Ausnahme. Die Verallgemeinerung des Rasch-Modells für
mehrkategorielle Antwortformate (polytome Daten) ist daher von hohem Interesse. Der
zweite Aspekt, welcher als Einschränkung verstanden werden kann, betrifft die gleiche
Diskriminanz aller Items. Diese Eigenschaft des Rasch-Modells verhindert zwar nicht die
Anwendung des Modells auf unterschiedlich diskriminierende Items (wie im Falle des dichotomen Modells bei polytomen Daten), die Übereinstimmung des Modells mit Daten
und dementsprechend die Gültigkeit des Modells wird dadurch aber herabgesetzt bzw. besteht nicht. Gleiches gilt für Items, deren Beantwortung durch mehr als eine latente Dimension beeinflußt wird. Verallgemeinerungen des Rasch-Modells in bezug auf
unterschiedlich diskriminierende Items, sowie mehrdimensionale Modelle, stellen allerdings eine qualitativ andere Richtung der Generalisierung des Modells im Vergleich zu
polytomen Modellen dar. Da die Hypothese gleicher Itemdiskriminanz im Rahmen des
Rasch-Modells keine Zusatzannahme ist, welche ohne weiteres aufgegeben werden könnte, sondern notwendig aus der Grundgleichung folgt, muß dementsprechend die Grundformel geändert werden. Damit verändern sich aber der Charakter des Modells und seine
Eigenschaften fundamental. Dennoch soll auf diesbezügliche Verallgemeinerungen eingegangen werden, da diesen praktische Relevanz zukommt. Schließlich mag die Hypothese gleicher Itemdiskriminanz „realitätsfern“ anmuten. Freilich muß abermals daran
erinnert werden, daß die klassische Testtheorie zur Bestimmbarkeit der Reliabilität sehr
rigider Annahmen zur Parallelität von Messungen bedarf, welche unter anderem in gleicher Itemdiskriminanz bestehen. Gleiches gilt für die gleichgewichtete Summe der Items
als Gesamtscore. Diese Vorgangsweise setzt ebenfalls gleiche Itemdiskriminanz voraus.
153
7.3.5 Verallgemeinerung des Rasch-Modells auf polytome Daten
Wennimmer das Antwortformat eines Items mehr als zwei Kategorien umfaßt, ist das dichotome Rasch-Modell nicht anwendbar. Von der Möglichkeit, Kategorien zusammenzufassen, also eine Dichotomisierung der Daten vorzunehmen, soll vorerst noch abgesehen
werden. Bei mehr als zwei Kategorien können diese sowohl geordnet als auch ungeordnet
sein. Ungeordnete Kategorien liegen dann vor, wenn, zum Beispiel, in einem Multiple
choice Verfahren eine Antwort richtig ist, die anderen aber falsch sind, ohne eine Wertigkeit der falschen Antwortkategorien anzunehmen. Folglich handelt es sich hinsichtlich
der falschen Antwortalternativen um eine Nominalskala. Die Entwicklung von Modellen
für nominal skalierte Items zielt darauf ab, zusätzlich zur „richtig-versus-falsch-Information“ für den Fall einer falschen Antwort aus der Wahl einer bestimmten falschen Kategorie Information zu gewinnen (Hambleton et al., 1991, S.26). Modelle dieser Art gehen
auf die Arbeiten von Bock (1972, 1997) zurück (Nominal Response bzw. Nominal Categories Model).
Für Marketinganwendungen relevanter sind allerdings Modelle für Antwortskalen, welche eine Ordnung der Kategorien annehmen. Jede Rating- oder Likert-Skala geht davon
aus, daß die einzelnen Antwortalternativen (z.B. lehne stark ab - lehne eher ab - stimme
eher zu - stimme volle zu) geordnet sind. Die Alternative „lehne eher ab“ steht für eine
stärker positive Einstellung als die Alternative „lehne stark ab“, aber für eine stärker negative Einstellung als „stimme eher“ zu. Dieser trivial anmutende Sachverhalt verdient allerdings besondere Reflexion. Im Rahmen der klassischen Testtheorie wird nicht nur
regelmäßig angenommen, daß die Antwortkategorien geordnet sind (also Ordinalskaleneigenschaft aufweisen), sondern darüber hinaus auch, daß die Distanzen zwischen den
Kategorien gleich sein, somit Intervallskalenniveau gegeben ist. Dies ist zumindest dann
zweifelhaft, wenn das Antwortformat mehr als etwa fünf Alternativen vorsieht und die
Personen überfordern könnte. Für die Verallgemeinerung des Rasch-Modells wird lediglich davon ausgegangen, daß die Antwortkategorien eine Ordinalskala darstellen. Die Anforderung an die Daten ist daher wesentlich geringer und in aller Regel realistischer. Ein
weiterer fundamentaler Unterschied betrifft die Qualität der Aussage, derzufolge die Kategorien geordnet sind. In der klassischen Testtheorie handelt es sich um eine unverzichtbare Voraussetzung, welche aber nicht überprüft wird. Im Rasch-Modell hingegen stellt
diese Aussage eine Meßhypothese dar, deren Gültigkeit überprüfbar ist.
154
Die Entwicklung von Modellen für polytome Daten geht auf Andrich (1978a, 1978b,
1988b), Andrich et al. (1997), Masters (1982) und Masters und Wright (1997) zurück.
Andrich (1978a) leitete das sogenannte Rating-Scale Modell ab, welches eine Verallgemeinerung des Rasch-Modells für Rating-Skalen darstellt. Dabei wird angenommen, daß
die Abstände18 zwischen jeweils zwei Antwortkategorien bei allen Items gleich sind. Dieses Rational ergibt sich aus der einheitlichen Verbalisierung der Antwortalternativen. Innerhalb der Items können die Distanzen aber variieren. Masters (1982) verallgemeinerte
im Partial-Credit Modell19 Andrichs Rating-Scale Modell, indem die Abstände zwischen
den Kategorien itemspezifisch modelliert werden. Das Rating-Scale Modell ist demnach
ein Spezialfall des Partial-Credit Modells20. Aus diesem Grund wird im folgenden nicht
auf diese Unterscheidung eingegangen, sondern die exemplarische Ableitung des allgemeinen Rasch-Modells (Andrich, 1988b) für polytome Daten behandelt, um die entsprechenden Begriffe und Parameter einzuführen. Andrich bezeichnet dieses Modell als
„Rasch’s extended logistic model for partial credit scoring“ (ELM). Gegenüber Masters
Partial-Credit Modell erlaubt dieses Modell auch die Kombination von Items mit verschiedener Zahl an Kategorien (also auch dichotome und polytome Items) in einem Meßinstrument. Eine ausführliche Ableitung des polytomen Rasch-Modells und eine formale
Beweisführung findet sich bei Fischer (1995b).
Im dichotomen Modell von Rasch werden zwei Antwortalternativen (als 0 und 1 kodiert)
modelliert. Die Wahrscheinlichkeit einer positiven Antwort läßt sich in Form der ICC darstellen (Abbildung 33 auf Seite 145). Die Wahrscheinlichkeit einer negativen Antwort ist
dazu komplementär und damit redundant. Die Schwelle zwischen negativer und positiver
Antwort als wahrscheinlichste Alternative kann als „Threshold“ bezeichnet werden und
ist im dichotomen Fall ident mit dem Itemparameter, welcher - abhängig vom Anwendungsgebiet - die Schwierigkeit bzw. den Aufforderungscharakter des Items wiedergibt.
18.Was genau unter „Abstand“ in diesem Zusammenhang zu verstehen ist, ergibt sich aus den
nachfolgenden Darstellungen (vgl. Fußnote 22. auf Seite 156).
19.Die Bezeichnung Partial Credit leitet sich daraus ab, daß - im Unterschied zur dichotomen
Kategorisierung des „alles oder nichts“ - für teilrichtige Antworten ein partial credit vergeben
wird.
20.Die Interpretation von Masters (1982, S.155), wonach die Person die Beantwortung in Form
von „steps“ von einer Kategorie zur nächsten vornimmt, wird von Andrich nicht geteilt. Letzterer geht - wohl vor dem Hintergrund der Leistungstestung - davon aus, daß die Beantwortung
in Form eines alle Kategorien simultan einbeziehenden Prozesses erfolgt. Vor allem in der Einstellungsmessung erscheint diese Interpretation plausibler. Es ist nicht anzunehmen, daß eine
Person vorerst ein Statement voll ablehnt, um sich dann Gedanken darüber zu machen, ob der
nächste „step“ zur nächsthöheren Kategorie erfolgt oder nicht.
155
Im einfachsten Fall eines polytomen Items stehen drei Antwortkategorien (0, 1 und 221)
zur Auswahl (trichotomes Item). Daher ist eine ICC zur Charakterisierung eines Items
nicht ausreichend. Statt dessen wird das Item durch sogenannte Categorie Characteristic
Curves (CCC) beschrieben (von Davier und Rost, 1995, S.372). Jede CCC beschreibt die
Wahrscheinlichkeitsfunktion für eine Antwortalternative. Bei m Antwortalternativen
werden daher m CCCs dargestellt, wobei nur m-1 CCCs voneinander unabhängig sind
(analog zum dichotomen Fall). Die Schwellen zwischen den einzelnen CCCs werden wieder als Thresholds bezeichnet. Im Falle eines trichotomen Items gilt es daher, zwei Thresholds zu modellieren (vgl. Abbildung 37).22
P(avi=x | τ1,τ2, βv )
1
0
2
1
0.5
0
-4
-2
τ1
0
τ2
2
4
τi, βv
Abbildung 37: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item
Für Personenparameter bis zur ersten Threshold τ1 ist die Antwortkategorie 0 am wahrscheinlichsten. Für höhere Werte ist zunächst Antwort 1 am wahrscheinlichsten, für Werte ab der zweiten Threshold τ2 ist die Wahl der Antwort 2 zu erwarten. Diese Abfolge der
Antwortkategorien ist äquivalent mit der Ordnungshypothese, wonach die Antwort 2 für
mehr des untersuchten latenten Konstrukts steht als Antwort 1, welche wiederum für mehr
steht als Antwort 0.
21.Die Kodierung in dieser Form dient nicht nur dazu, den Erfordernissen von Softwareprodukten genüge zu tun, sondern ist, wie noch zu zeigen ist, zwingend erforderlich.
22.Die Distanz zweier Thresholds kann daher als „Abstand“ zwischen zwei Kategorien interpretiert werden (vgl. Fußnote 18. auf Seite 155).
156
Da jede Threshold lediglich zwischen zwei aufeinanderfolgenden Kategorien differenziert, läßt sich das dichotome Rasch-Modell auf jede einzelne Threshold anwenden. Für
ein trichotomes Item ergeben sich daher hypothetisch folgende Antwortmuster (vgl. Abbildung 38, die Nenner der Wahrscheinlichkeitsausdrücke werden durch eine Transformation vereinfacht):
Dichotome
Ursprüngliches
Antwortmuster Antwortformat
τ1
τ2
0
0
0
1
0
1
Wahrscheinlichkeit
1
1
1
------------------------ ⋅ ------------------------ = ---------βv – τ2
β –τ
γ 1 γ2
1+e v 1 1+e
βv – τ1
β –τ
1 e
e v -1
----------------------- ⋅ ----------------------= -------------β –τ
β –τ
γ 1 γ2
1+e v 1 1+e v 2
β –τ
0
1
1
1
unmöglich
2
β –τ
e v 2
1
e v 2
------------------------ ⋅ ------------------------ = --------------β –τ
β –τ
γ1 γ2
1+e v 1 1+e v 2
βv – τ1
βv – τ2
2β v – τ 1 – τ 2
e
e
e
------------------------ ⋅ ------------------------ = ------------------------β –τ
β –τ
γ1 γ2
1+e v 1 1+e v 2
Abbildung 38: Anwendung des dichotomen Rasch-Modells auf ein polytomes
Antwortformat (I)
Das erste Muster bedeutet, daß keine der Thresholds überwunden wird. Im Sinne der ursprünglichen Skala steht dies für die Antwort 0. Beim zweiten Muster wird τ1 überschritten, nicht jedoch τ2. Dies entspricht der Kategorie 1. Das dritte Muster impliziert ein
Überschreiten von τ2 , nicht aber von τ1. Im Falle zweier dichotomer Items stünde dieses
Muster für die Möglichkeit, ein schweres Item positiv zu beantworten, ein leichtes aber
negativ. Im Falle eines trichotomen Items ist dies jedoch nicht möglich, da es nur drei
Antwortkategorien gibt. Das vierte Muster schließlich steht für Antwort 2, da beide
Thresholds überwunden werden. Die Antwortwahrscheinlichkeiten für die vier theoretisch ableitbaren Muster ergeben sich nach dem Modell von Rasch durch die Multiplikation
der
jeweiligen
Wahrscheinlichkeiten
auf
Thresholdebene,
da
diese
Wahrscheinlichkeiten nach dem Prinzip der lokalen stochastischen Unabhängigkeit voneinander unabhängig und daher multiplikativ zu verknüpfen sind. Das dritte theoretisch
157
mögliche Antwortmuster hat sich als praktisch unmöglich erwiesen. Es ist daher aus den
weiteren Betrachtungen auszuscheiden. Dadurch ergänzen sich die Wahrscheinlichkeiten
der drei praktisch möglichen Antwortmuster aber nicht länger auf 1. Um dieses Problem
zu lösen, werden die verbleibenden drei Wahrscheinlichkeitsausdrücke durch die Summe
der Wahrscheinlichkeitsausdrücke ersetzt, wodurch sich die drei verbleibenden Wahrscheinlichkeiten notwendigerweise auf 1 ergänzen. Der Zählerausdruck des ersten Antwortmusters wird modifiziert wiedergegeben, um formale Übereinstimmung mit den
Wahrscheinlichkeiten anderer Rohscores zu erzielen. Die Summe der einzelnen Wahrscheinlichkeiten wird vereinfacht durch γ dargestellt (vgl. Abbildung 39).
Dichotome
Antwortmuster
τ1
Score
Wahrscheinlichkeit
0
e v
--------γ
1
e v 1
----------------γ
2
e
------------------------γ
τ2
0β
0
0
1β – τ
1
0
2β v – τ 1 – τ 2
1
1
1β – τ
0β
Wobei:
2β – τ – τ
e v e v 1 e v 1 2
γ = ---------- + ----------------- + ------------------------γ1 γ2
γ1 γ2
γ1 γ2
γ1 = 1 + e
β v – τ1
γ2 = 1 + e
β v – τ2
Abbildung 39: Anwendung des dichotomen Rasch-Modells auf ein polytomes
Antwortformat (II)
Die Thresholdparameter im polytomen Modell sind in der gleichen Metrik skaliert wie die
Itemschwierigkeitsparameter im dichotomen Modell. Dies bedeutet allerdings, daß für
ein polytomes Item unmittelbar kein „overall-difficulty“-Parameter angegeben werden
kann. Die Position des Items ergibt sich aus allen Thresholdparametern simultan. Andrich
(1988b, S.364) schlägt daher eine Reparametrisierung des Modells vor. Das arithmetische
158
Mittel aller Thresholds wird - in Übereinstimmung mit dem dichotomen Modell - mit δi
bezeichnet und kann als Kennwert der „overall-difficulty“ interpretiert werden, da dieser
Parameter die Lokation des Items auf der latenten Dimension angibt. Die Thresholdparameter geben sodann die Abweichung der Threshold von diesem Schwierigkeitsparameter
δi an. Die Zahl der zu schätzenden Parameter erhöht sich dadurch nicht, da als Nebenbedingung die Summe der Thresholds definitionsgemäß gleich 0 sein muß. Die ursprünglichen Thresholds werden als non-centralised Thresholds bezeichnet, die transformierten
als centralised Thresholds. Abbildung 40 gibt die Transformationsvorschriften im Detail
wieder.
τ ij = δ i + τ' ij
m
∑j = 1 τ'ij
τij
τ'ij
δi
m
= 0
Threshold für Item i zwischen Kategorien j
und j-1 (non-centralised threshold)
Threshold für Item i zwischen Kategorien j
und j-1 (centralised threshold)
Itemparameter für Item i („overall-difficulty“)
Zahl der Antwortkategorien für Item i
Abbildung 40: Transformation der non-centralised thresholds in centralised
thresholds (Andrich, 1988b, S.364).
Somit ergibt sich das in Abbildung 41 dargestellte allgemeine polytome Modell mit centralised Thresholds (Andrich, 1988b, S.366). Die Wahrscheinlichkeit für die Antwortkategorie 0 wird getrennt dargestellt, da sie sich im Rahmen der allgemeinen Notation nicht
integrieren läßt, weil die Threshold τi0 nicht existiert.
159
0 + 0 ⋅ (β – δ )
v
i
P ( a vi = 0 β v ,τ ij ,j = 1…m ) = e------------------------------ = --1ϒ
ϒ



∑

– τ ij + x ⋅ ( β v – δ i )

j=1
x
P ( a vi = x β v ,τ ij ,j = 1…m ,0 < x ≤ m ) = e---------------------------------------------------ϒ
ϒ = 1+∑
m
e



∑
k

– τij + k ⋅ ( β v – δ i )

j=1
k=1
Abbildung 41: Extended logistic model (ELM), allgemeines polytomes
Rasch-Modell (vgl. Andrich, 1988b, S.366).
Da das allgemeine polytome Modell auf der Basis des dichotomen Rasch-Modells abgeleitet wurde, hat das allgemeine Modell alle Eigenschaften des dichotomen Modells
(Rohscore als erschöpfende Statistik, Separierbarkeit der Parameter, spezifische Objektivität). Daher ist es zulässig, vom polytomen Rasch-Modell zu sprechen. Das dichotome
kann auch als Spezialfall des polytomen Modells angesehen werden. Ein zunächst scheinbar unbedeutender, aber wesentlicher Unterschied besteht jedoch. Bei der Ableitung des
polytomen Modells durch Anwendung des dichotomen Modells auf die einzelnen Thresholds (vgl. Abbildung 38 auf Seite 157), wurde im Falle eines trichotomen Items der sich
theoretisch ergebende, aber praktisch unmögliche Fall ausgeschlossen, daß die zweite
Schwelle überschritten wird, die erste jedoch nicht. Allgemein gilt, daß all jene Kombinationen ausgeschlossen werden (müssen), die nicht dem Guttman-Pattern (bezogen auf
die Thresholds) entsprechen (vgl. dazu Andrich, 1995a, S.37). Die Elimination von Kombinationen ist also nicht willkürlich, sondern reflektiert die vermutete Ordnung der einzelnen Kategorien. Somit formuliert das polytome Rasch-Modell die (überprüfbare!)
Hypothese, daß die Antwortkategorien geordnet sind.23 Wenn das Ergebnis der Parameterschätzung der Darstellung in Abbildung 37 (Seite 156) entspricht, die Thresholdparameter also entsprechend der Hypothese geordnet sind (τi < τj für alle i < j), so bestätigen
die Daten die im Modell formulierte Ordnungshypothese. In der Praxis können jedoch die
23.Es sei an dieser Stelle nochmals auf den fundamentalen Unterschied zur klassischen Testtheorie hingewiesen. Während im klassischen Modell die Antwortkategorien äquidistant sein müssen, und die Erfüllung dieser Voraussetzung praktisch nicht zu überprüfen ist, erfordert das
Rasch-Modell lediglich eine ordinale Rangordnung und gestattet die empirische Prüfung dieser Hypothese.
160
Thresholdparameterschätzungen der angenommenen Ordnung widersprechen (Andrich et
al., 1997, S.62). Wenn τi < τj für mindestens ein Paar i,j mit i < j nicht erfüllt ist, so sind
die Thresholdparameter nicht hypothesenkonform geordnet (sogenannte „reversed Thresholds“, vgl. Abbildung 42). Inhaltlich bedeutet dies: die zweite Threshold ist „leichter“
als die erste und dementsprechend leichter zu überwinden als die erste.24 Die graphische
Darstellung von reversed Thresholds zeigt weiters, daß die betroffene Antwortkategorie
1 in keinem Bereich der latenten Dimension die wahrscheinlichste Antwort ist. Vielmehr
geht die wahrscheinlichste Antwort direkt von 0 auf 2 über. Für Personen, deren Parameter im Bereich zwischen den beiden Thresholds liegen, müßte theoretisch die Antwortkategorie 1 am wahrscheinlichsten sein. Tatsächlich ist aber sowohl die Kategorie 0 als auch
die Kategorie 2 wahrscheinlicher. „Because the very construction of the model requires
an ordering of thresholds, it is argued here that whenever the threshold estimates are reversed, it provides evidence that the ordering is not operating as intended.“ (Andrich et
al., 1997, S.68). Die Hypothese der Rangordnung ist somit im Fall von reversed Thresholds empirisch falsifiziert. Beachtenswert ist, daß die Überprüfung der Ordnungshypothese durch statistische Fitprüfverfahren, welche auf Vergleichen von theoretisch zu
erwartenden Häufigkeiten (welche sich aus den CCCs ergeben) und empirisch festgestellten Häufigkeiten nicht möglich ist, da die Modellparameter die Umkehr der Ordnung reflektieren.
24.Erläuternd sei hinzugefügt, daß die geringere Schwierigkeit der zweiten Threshold unabhängig von der ersten zu sehen ist. Die Interpretation, der „Schritt“ von der Kategorie 1 auf 2 ist
leichter als jener von 0 auf 1 (woraus sich nicht ergäbe, daß die Rangordnung der Kategorien
falsifiziert wäre) ist daher nicht zutreffend.
161
P(avi=x | τ1,τ2, βv )
1
0
2
0.5
1
0
-4
-2
τ2
τ1
2
4
τi, βv
Abbildung 42: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item
mit reversed thresholds (vgl. Andrich et al., 1997, S.62).
Die Ursachen dafür, daß die Daten die angenommene Ordnung der Kategorien nicht wiederspiegeln, lassen sich nicht modelltheoretisch oder statistisch begründen. So können reversed Thresholds auf Multidimensionalität der Daten, unterschiedliche Diskriminanz der
Thresholds, Überforderung der Personen durch zuviele Antwortkategorien, unzureichende oder verwirrende Instruktion der Personen bzw. sonstige in der Administration gelegene Unzulänglichkeiten oder mangelhafte Begründung der hypothetischen Ordnung der
Antwortmöglichkeiten zurückzuführen sein (Andrich et al., 1997). Analog zu jeder anderen Form von Misfit zwischen Modell und Daten, sind die Ursachen durch eine fachlichinhaltliche Inspektion der Items zu klären und revidierte Versionen empirisch zu überprüfen. Modelltheoretisch besteht jedoch die Möglichkeit, auch am gleichen Datensatz eine
Revision der Ordnungshypothese zu testen. Im Falle des trichotomen Items aus Abbildung 42 ist die Kategorie 1 offensichtlich nicht zwischen 0 und 2 gelegen und daher als
Mittelkategorie nicht sinnvoll, weil meßtheoretisch dysfunktional. Durch eine Zusammenlegung der Mittelkategorie mit einer der beiden anderen Antwortmöglichkeiten (in
diesem Fall eine Dichotomisierung) kann die Ordnungshypothese revidiert werden und
empirisch überprüft werden. Erweist sich das Item als modellkonform, so kann daraus geschlossen werden, daß die Messung eigentlich - trotz trichotomer Skala - dichotom erfolgt
und die Meßgenauigkeit der dreistufigen Skala überschätzt wird. Insbesondere in der Einstellungsforschung erscheint angesichts von fünf- oder mehrstufigen Skalen dieser Sach162
verhalt höchst relevant. Eine anschließende Kreuzvalidierung an einem neuen Datensatz
unter Einsatz einer revidierten Antwortskala ist jedenfalls angezeigt.
Die Zusammenlegung von Kategorien im Falle empirischer Meßprobleme bietet sich als
Lösungsmöglichkeit an.25 In der Praxis des Messens in der Marketingforschung stellt sich
darüber hinaus grundsätzlich die Frage, unter welchen Umständen Daten dichotomisiert
werden können. Im Rahmen der klassischen Testtheorie ist aufgrund des Bezugs auf eine
normalverteilte Grundgesamtheit eine Kategorienzusammenfassung dann möglich und
zulässig, wenn die Meßinstrumente gleiche Meßgenauigkeit aufweisen (Andrich, 1995a,
1995b, 1995c). Werden zwei benachbarte Antwortkategorien zusammengelegt, so ist zu
erwarten, daß die Summe der Häufigkeiten der ursprünglichen Kategorien der Häufigkeit
der neuen Kategorie entspricht. Andere, von der Zusammenfassung nicht betroffene Kategorien bleiben davon unberührt. Das Rasch-Modell unterscheidet sich diesbezüglich
grundlegend. Ein Blick auf die Modellgleichungen zeigt dies unmittelbar. Die Terme der
Wahrscheinlichkeiten der einzelnen Antwortkategorien (vgl. den allgemeinen Fall in Abbildung 41 und das Beispiel in Abbildung 39) weisen im Nenner die Summe der Zähler
aller Kategoriewahrscheinlichkeiten auf. Jede Veränderung der Kategorienzahl (also
auch eine Zusammenlegung zweier oder mehrerer Kategorien) verändert daher auch den
Nenner und beeinflußt folglich die Wahrscheinlichkeit jeder anderen Kategorie. Für die
Gültigkeit des Modells bedeutet dies, daß Kategorien nicht willkürlich zusammengefaßt
werden dürfen (Andrich, 1988b, S.367). Stimmen die Daten mit den ursprünglichen Kategorien und das entsprechende Rasch-Modell überein, so ist es mathematisch nahezu
auszuschließen, daß bei einer Kategorienzusammenfassung das neu formulierte Modell
ebensogut paßt. Die Zusammenlegung „tempting as it may be, will usually slur the specific objectivity“ (Rasch, 1966, S.107).
Das Rasch-Modell impliziert somit, daß die Person bei ihrer Entscheidung, welche Kategorie sie wählt, die gesamte Skala simultan betrachtet, was durchaus plausibel erscheint.
Abbildung 43 stellt exemplarisch eine fünfstufige Antwortskala dar, wie sie in der Marketingforschung eingesetzt werden könnte. Die klassische Testtheorie geht davon aus,
25.Roskam (1995, S.31) argumentiert, daß eine Zusammenlegung von Kategorien nur dann zielführend ist, wenn die Kategorien verbal gekennzeichnet sind und eine semantische Beschreibung der Zusammenfassung mehrerer Kategorien möglich ist. Sind die einzelnen
Antwortalternativen aber lediglich durch Zahlen beschrieben, so ist eine Zusammenfassung
problematisch.
163
daß durch die Zusammenfassung von „ausgezeichnet“ und „sehr gut“ die Häufigkeiten in
den anderen drei Kategorien unverändert bleiben. Im Rasch-Modell würden sich die er-
sc
hl
ec
ht
se
hr
sc
hl
ec
ht
sc
hl
ec
ht
se
hr
sc
hl
ec
ht
gu
t
au
sg
ez
ei
ch
ne
t/s
eh
gu
rg
t
ut
au
sg
ez
ei
ch
ne
se
t
hr
gu
t
warteten Häufigkeiten (Wahrscheinlichkeiten) jedoch ändern.
Abbildung 43: Zusammenfassung zweier Kategorien einer fünfstufigen
Antwortskala
Zusammenfassend ist festzuhalten, daß sich das dichotome Modell von Rasch ohne Verlust seiner besonderen Eigenschaften auf den Anwendungsfall polytomer Daten verallgemeinern läßt. Weiters hat sich gezeigt, daß aus theoretischer Sicht die Zusammenfassung
von Kategorien nur dann zulässig ist, wenn die Kategorien nicht hypothesenkonform gerangreiht sind. Bei Gültigkeit des Modells führt jede Zusammenlegung post hoc zu einer
Verschlechterung der Modell-Daten-Übereinstimmung.
Abschließend sei noch erwähnt, daß das Scoring der Antwortkategorien durch aufeinanderfolgende ganze Zahlen ebenfalls nicht willkürlich ist, sondern sich notwendig ergibt.
Rasch selbst hat auf anderem Wege eine Verallgemeinerung seines dichotomen Modells
abgeleitet (Abbildung 44, der Nenner ergibt sich durch die Summe aller Zähler).
– κ + φ ⋅ (β – δ )
x
x
v
i
P { a vi = x β v ,δ i ,( κ ) ,( φ ) } = e------------------------------------ϒ
Abbildung 44: Verallgemeinerung des dichotomen Rasch-Modells durch Rasch
(Wright, 1980b, S.185)
Dieses Modell enthält einen Kategoriekoeffizienten κ welcher mit zunehmender Kategorie ansteigen soll und eine aus den Daten zu schätzende Scoringfunktion φ, jene Werte,
mit denen die einzelnen Kategorien in den Score eingehen. Andersen (1977) konnte später
164
zeigen, daß die Werte der Scoringfunktion φ äquidistant sein müssen. Andrich (1978b)
demonstriert, daß nur ganze Zahlen 0, 1, 2, usw. die Eigenschaften des Rasch-Modells erhalten. Jede andere Scoringfunktion führt zu unterschiedlichen Diskriminanzen an den
Thresholds, wodurch die Separierbarkeit der Parameter verloren geht. Andrich (1978a)
demonstrierte, daß die Kategoriekoeffizienten κ als Thresholds zwischen zwei aufeinanderfolgende Kategorien interpretierbar sind. Die von Rasch formulierte Forderung, die
Kategoriekoeffizienten müßten mit den einzelnen Kategorien ansteigen ist somit äquivalent mit der Forderung Andrichs, wonach die Thresholds entsprechend geordnet sein müssen.
7.3.6 Verallgemeinerungen des Rasch-Modells für dichotome Anwendungen
Wie umfassend dargestellt, geht das Rasch-Modell von einer latenten Dimension (Latent
Trait) aus, welche das Antwortverhalten bestimmt und auf welcher sowohl Item- als auch
Personenparameter skaliert sind. Aus diesem Grund werden Modelle dieser Art auch als
Latent Trait Modelle bezeichnet und die dahinterstehende Meßtheorie als Latent Trait
Theory (LTT). Formal synonym mit Latent Trait Theory wird auch Item Response Theory
(IRT) verwendet (so z.B. bei Hambleton et al., 1991). Wissenschaftstheoretisch ist damit
zumeist ein anderer, behavioristischer, Fokus verbunden, nämlich der auf die Itemantwort
(Item Response). Der Begriff der Latent Trait Theory akzentuiert demgegenüber stärker
die zu messende latente Dimension.
Das Rasch-Modell ist in diesem Sinne lediglich ein Latent Trait (oder Item Response)
Modell. Da es nur einen Itemparameter spezifiziert, nämlich den Itemschwierigkeitsparameter δ, wird es auch als one-parameter logistic model bezeichnet (Hambleton et al.,
1991, S.12). Wie gezeigt wurde, impliziert dies die Uniformität der Itemdiskriminanzen,
gleichbedeutend mit der Parallelität aller ICCs. Weiters nähert sich die Wahrscheinlichkeit einer positiven Antwort für Personenparameter gegen - ∞ asymptotisch 0 an, und für
Personenparameter gegen ∞ strebt diese gegen 1. Beide Konsequenzen sind bei einer formalen Verallgemeinerung des Rasch-Modells nicht länger zwingend. Birnbaum stellte
1968 ein two-parameter logistic model26 vor (Birnbaum-Modell), welches einen expliziten Itemdiskriminanzparameter aufweist (Abbildung 45).
26.Die Bezeichnung two-parameter logistic model geht darauf zurück, daß jedes Item mit zwei
Parametern, dem Schwierigkeits- und dem Diskriminanzparameter, beschrieben wird. Die
Skalierungskonstante D ist kein Parameter, sondern fixiert.
165
Da ( β – δ )
e i v i
P = ---------------------------------Da ( β – δ )
1+e i v i
wobei:
P
D
ai
δi
βv
Wahrscheinlichkeit einer positiven Antwort
Skalierungskonstante (1.7)
Diskriminanzparameter
Itemschwierigkeitsparameter
Personenparameter
Abbildung 45: Two-parameter logistic model
(Hambleton et al., 1991, S.14f)
Formal stellt dieses Modell eine Verallgemeinerung des Rasch-Modells dar. Für ai=1und
Wahl der Skalierungskonstanten D mit 1 geht das two-parameter logistic model in das
one-parameter logistic model von Rasch über. Konsequenterweise ist das Rasch-Modell
formal ein Spezialfall des Birnbaum-Modells. Dies mag den Eindruck erwecken, die Modelle unterscheiden sich lediglich quantitativ (in der Zahl von Parametern). Tatsächlich
führen das Rasch-Modell und das Birnbaum-Modell zu fundamental unterschiedlichen
Konsequenzen. Durch die unterschiedliche Diskriminanz der Items schneiden die ICCs
des Birnbaum-Modells einander (Abbildung 46).
P(avi=x | δi, βv, ai)
1
Item 1
0.5
Item 2
0
-4
-3
-2
-1
δi = 0
1
2
3
4
δi, βv
Abbildung 46: ICCs im two-parameter logistic model
Item 1 und Item 2 haben den gleichen Schwierigkeitsparameter von 0, daher ist für beide
Items bei 0 die Wahrscheinlichkeit einer positiven Antwort gleich ½. Der Anstieg der ICC
ist für Item 1 jedoch steiler, da dieses Item stärker diskriminiert als Item 2. Unmittelbar
166
zu erkennen ist die Konsequenz unterschiedlich diskriminierender Items. Die Reihenfolge
der Schwierigkeiten der beiden Items ist nun nicht mehr unabhängig von den Personenparametern. Für positive βv ist Item 1 leichter als Item 2, während für negative βv Item 2
leichter ist als Item 1.27 Das Birnbaum-Modell geht somit von der Stichprobenunabhängigkeit und der Separierbarkeit der Parameter ab. Auch der Rohscore ist nicht länger eine
erschöpfende Statistik, da es nun relevant ist, ob ein bestimmter Rohscore durch die positive Beantwortung wenig diskriminierender Items oder stark diskriminierender Items
zustandekommt. Jeder Itemscore muß daher mit dem Diskriminanzparameter multipliziert werden (Fischer, 1974, S.204). Es erhebt sich die Frage, ob das stärker diskriminierende Item 1 „besser“ ist als Item 2. „In traditional test theory (Anm.: klassische
Testtheorie), high discrimination is interpreted as a desirable characteristic of an item and
a key indicator of item quality.“ (Masters, 1988, S.15). Auch die Guttman-Skalierung beurteilt die Qualität der Items durch ihre Diskriminanz, indem nur sehr stark diskriminierende - im Idealfall deterministische - Items herangezogen werden. Im Birnbaum-Modell
und im noch zu besprechenden three-parameter logistic model werden ebenfalls Items mit
hoher Diskriminanz bevorzugt28. Im Sinne des Rasch-Modells ist die Abhängigkeit der
Reihenfolge der Itemschwierigkeiten von der Populationsverteilung, welche sich zwingend aus der unterschiedlichen Diskriminanz ergibt, gleichbedeutend damit, daß ein stärker diskriminierendes Item Personen mit hohen Parametern bevorzugen, da dieses für
diese Gruppe relativ leichter erscheint (Masters, 1988, S.22). Im Sinne des Rasch-Modells
ist daher „Überdiskriminanz“ genauso problematisch wie „Unterdiskriminanz“ und eine
27.Dieses „Paradoxon“ wird auch als „Lord’s Paradox“ bezeichnet (Hulin, 1987, S.117f).
Ein Gedankenexperiment soll die Problematik verdeutlichen. Gegeben seien zwei Hanteln A
und B. Zu bestimmen seien deren Gewicht bzw. das Verhältnis der Gewichte. Eine Waage
stehe nicht zur Verfügung. Statt dessen werden die Hanteln mehreren Personen vorgegeben,
welche in der Art des Gewichthebens diese hochstemmen sollen. Die Personen lassen sich in
zwei Gruppen gliedern. Die erste ist untrainiert, die zweite besteht aus durchtrainierten, professionellen Gewichthebern. Im Sinne der Latent Trait Theory weist jede Hantel ein latentes,
weil nicht direkt beobachtbares Gewicht auf, welches durch den „Itemschwierigkeitsparameter“ ausgedrückt wird. Jede Person hat eine individuelle Fähigkeit, Gewichte zu heben, ausgedrückt durch ihren Personenparameter. Welche Meßergebnisse sind zu erwarten, wenn das
two-parameter logistic model gültig ist? In der Gruppe der untrainierten Personen wird die
Zahl der Personen, welche eine Hantel, z.B. A, hochstemmen, aber nicht auch die andere Hantel B, wesentlich größer sein als umgekehrt die Zahl der Personen, welche Hantel B hochstemmen, aber nicht auch Hantel A. Die naheliegende Schlußfolgerung daraus wäre wohl, daß
Hantel B schwerer ist als Hantel A. Bei Gültigkeit des two-parameter model verhält es sich bei
der Gruppe der trainierten Gewichtheber jedoch umgekehrt! Nun ist die Zahl derer, die Hantel
B hochstemmen und gleichzeitig nicht auch Hantel A größer als die Zahl jener, bei denen es
sich umgekehrt verhält. Die Schlußfolgerung daraus wäre wohl, daß Hantel B leichter ist als
Hantel A. Offensichtlich hängt das relative Gewicht von der betrachteten Stichprobe der Personen ab. Ein für naturwissenschaftliche Messungen, wie die des Gewichts, völlig inakzeptables Ergebnis.
167
Bedrohung der spezifischen Objektivität. Eine mögliche Ursache für zu hohe Diskriminanz kann in der Multidimensionalität eines Items liegen. Sind zum Beispiel für die positive Beantwortung eines schwierigen Items Zusatzinformationen oder besondere
Fähigkeiten zusätzlich zur zu messenden Dimension erforderlich, welche empirisch mit
dieser Dimension korrelieren, so fällt die Beantwortung für Personen mit hohen Parametern leichter als dies aufgrund der latenten Dimension eigentlich der Fall sein sollte. Zu
hohe Diskriminanz spricht vor diesem Hintergrund nicht für hohe Qualität eines Items,
sondern für meßtheoretische Probleme.29
Die Schätzung der Parameter gestaltet sich ebenfalls weit schwieriger als im Rasch-Modell, da bei gleichbleibendem Umfang der Beobachtungseinheiten (Antworten auf Items)
die Zahl der zu schätzenden Parameter höher ist. Zur Bewältigung der mathematischen
Probleme werden daher Verteilungsannahmen bezüglich der Personenparameter getroffen. Die Parameterschätzungen sind aus den genannten Gründen oftmals unbefriedigend
und instabil (Fischer, 1974, S.278; vgl. auch Lim und Drasgow, 1990, S.165). Technische
Probleme der Modellschätzung treten jedoch gegenüber der theoretischen Problematik in
den Hintergrund. Der „Verzicht“ auf spezifische Objektivität der Messung, welche allein
im Rasch-Modell gegeben ist, stellt den Fortschritt gegenüber der klassischen Testtheorie
in Frage. Tatsächlich kann das Birnbaum-Modell als Versuch verstanden werden, die Parameter der klassischen Testtheorie nachzuempfinden. Der Itemdiskriminanzparameter
entspricht dem Faktorladungswert der Faktorenanalyse. (Wobei einmal mehr daran erinnert wird, daß die zur Bestimmung der Reliabilität erforderliche Parallelität von „Messungen“ in strenger Auslegung auf Itemebene gleiche Ladungen voraussetzt.) Die
Skalierungskonstante D wird so gewählt, daß die ICC des two-parameter models jener ei28.Die höhere Einschätzung stark diskriminierender Items geht aus der erschöpfenden Statistik
für den Personenparameter hervor, da die Scores der Items mit dem jeweiligen Diskriminanzparameter multipliziert werden.
29.Die Wertschätzung stark diskriminierender Items in der klassischen Testtheorie ist freilich
ebenfalls zu relativieren. Diskriminanz wird in der klassischen Testtheorie als Korrelation
eines Items mit dem Gesamtscore definiert. Weist ein Item hohe Diskriminanz auf, im Idealfall
eine Korrelation von 1, so leistet dieses Item keinen Beitrag zur Messung, da die gesamte
Information auch in allen anderen Items enthalten ist. Umgekehrt könnte daher auch das stark
diskriminierende Item alle anderen ersetzen. Eine ausschließlich an der Itemdiskriminanz orientierte Itemselektion erhöht zwar die ausgewiesene Reliabilität, diese Erhöhung ist aber
„künstlich“ im Sinne einer Einengung des Meßbereichs auf eine Facette des zu messenden
Konstrukts. Das Prinzip, wonach die Validität mit zunehmender Reliabilität ebenfalls steigt, ist
damit nicht länger wirksam. Die künstliche Erhöhung der Reliabilität und deren unreflektierte
Interpretation führt daher zu einer „Verdünnung“ des Meßinstruments und zwangsläufig zu
einer Verringerung der Validität („Attenuation Paradox“, vgl. Fischer, 1974, S.145).
168
nes normal ogive models entspricht, einem logistischen Meßmodell, welches auf einer kumulativen Normalverteilungsannahme der Personenparameter beruht (Hambleton et al.,
1991, S.14f) - völlig in der Tradition der klassischen Testtheorie.30
Konsequenterweise ist die Wahl des Meßmodells keine triviale Entscheidung31. Das
Rasch-Modell geht von expliziten Voraussetzungen aus, die durch empirische Daten erfüllt sein müssen, um eine Messung im Sinne der spezifischen Objektivität zu konstituieren. Wenn Daten diesen Ansprüchen nicht genügen, ist es scheinbar naheliegend, auf
einige dieser Voraussetzungen zu „verzichten“. Die Einführung zusätzlicher Parameter
im two-parameter logistic model führt notwendigerweise zu einer besseren Übereinstimmung von Modell und Daten. Meßtheoretisch wird damit aber davon abgegangen, vorab
theoretisch zu klären, welche Bedingungen die Daten erfüllen müssen, um eine Messung
zu begründen. Vielmehr geht es lediglich darum, Daten durch Modelle zu beschreiben.32
In diesem Sinne ist das Rasch-Modell keine Spezialfall des Birnbaum-Modells, sondern
vielmehr ein Modell mit besonderen Eigenschaften, welche durch die Einführung von
Diskriminanzparametern verloren gehen.
Vor diesem Hintergrund erscheint es nicht angebracht, weitere „Verallgemeinerungen“
einzuführen. Aus Gründen der Vollständigkeit sei darauf hingewiesen, daß das three-pa-
30.Die Annäherung des two-parameter logistic model an die klassische Testtheorie zeigt sich
auch in Interpretationen der Modelle durch Anwender des two-parameter logistic model. So
stellen z.B. Parsons und Hulin (1982, S.827) fest, daß das faktorenanalytische Modell (klassische Testtheorie) eine lineare Beziehung zwischen „observed variables“ modelliert. An anderer Stelle wird das faktorenanalytische Modell als ein „Item-Response-Model“ bezeichnet,
welches eine lineare Beziehung zwischen „item responses und constructs“ annimmt, während
das two-parameter logistic model von einer nicht-linearen Beziehung ausgeht - offenbar der
einzig wahrgenommene Unterschied. Völlig übersehen wird dabei jedoch, daß das faktorenanalytische Modell unter „item response“ nichts anderes als ein manifestes Attribut „versteht“
und lediglich Attribute korreliert und durch dahinterstehende Faktoren „erklärt“ werden. Demgegenüber wird „item response“ in LTT-Modellen als Vergleich der Person und des Items
(bzw. der entsprechenden Parameter) definiert. Klassische Testtheorie und LTT-Modelle unterscheiden sich vielmehr hinsichtlich der Transformation des Rohscores in den latenten Wert der
Person. Die Schätzung des True Score erfolgt bei der klassischen Testtheorie als lineare Funktion des Observed Scores (Rohscore), bei LTT-Modellen sind die Personenparameter hingegen
nicht-linear verknüpft mit dem Rohscore.
31.Vor diesem Hintergrund greift die Bezeichnung des Rasch-Modells durch Sinkovics et al.
(1998, S.276) als „a very simple model“ zu kurz. Zwar ist das Rasch-Modell einfach im formalen Sinne einer geringen Zahl an Parametern (im Vergleich zum two- und three-parameter logistic model). Inhaltlich wäre die Bezeichnung als einfaches Modell jedoch irreführend.
169
rameter logistic model das Birnbaum-Modell um einen zusätzlichen Parameter erweitert
(Hambleton et al., 1991, S.17f; Abbildung 47).
Da ( β – δ )
e i v i
P = c i + ( 1 – c i ) --------------------------------Da i ( β v – δ i )
1+e
wobei:
P
D
ai
δi
ci
βv
Wahrscheinlichkeit einer positiven Antwort
Skalierungskonstante (1.7)
Diskriminanzparameter
Itemschwierigkeitsparameter
Untere asymptotische Wahrscheinlichkeit
Personenparameter
Abbildung 47: Three-parameter logistic model
(Hambleton et al., 1991, S.17)
Dieser Parameter gibt jenen Wert an, gegen den die Wahrscheinlichkeit einer positiven
Antwort bei gegen - ∞ gehenden Personenparameterwerten asymptotisch strebt (im Falle
des Rasch- oder Birnbaum-Modells ist dieser Wert gleich 0). Dieses Wahrscheinlichkeitsniveau wird also nie unterschritten und könnte daher als „Minimalwahrscheinlichkeit“
oder „untere asymptotische Wahrscheinlichkeit“ bezeichnet werden. Bei Leistungstests
könnte dies als Ratewahrscheinlichkeit interpretiert werden. Da dieser Wert jedoch die
Wahrscheinlichkeit im gesamten Wertebereich beeinflußt, stellt sich die Frage, warum für
sehr leistungsfähige Personen bei sehr leichten Aufgaben die Ratewahrscheinlichkeit
überhaupt eine Rolle spielen sollte. Dementsprechend ist der Rateparameter in Samples
sehr leistungsfähiger Personen nicht zuverlässig schätzbar. Für die Testanwendung wiederum erscheinen Items mit hoher Ratewahrscheinlichkeit gerade für leistungsschwächere Probanden ohnehin völlig ungeeignet, da die Wahrscheinlichkeit der Beantwortung fast
völlig unabhängig vom Personenparameter ist. Auch bei diesem Modell geht es also in erster Linie darum, die Daten besser zu beschreiben.33
32.Dies wird in Anwendungen dieses Modells oft in entlarvender Eindeutigkeit evident: „Theoretical expectations led to the prediction that the two-parameter model (...) would provide the
best fit.“ (Bontempo, 1993, S.154). Klarer kann nicht zum Ausdruck gebracht werden, daß es
dabei nicht um die Konstituierung theoretisch einwandfreier Messung geht, sondern um die
Anpassung des Modells an Daten.
33.Auch dazu finden sich interessante Anwendungsfälle. Ellis et al. (1993, S.134) gehen davon
aus, daß „[o]ne of the more well-researched IRT models is the three-parameter logistic model“
- offenbar ein ausreichendes Motiv zur Anwendung.
170
7.3.7 Weitere Latent Trait Modelle
Die Verallgemeinerungen des Rasch-Modells für polytome Daten und die Erweiterungen
des dichotomen Modells um Diskriminanzparameter und Minimalwahrscheinlichkeiten
wurden ausführlicher behandelt. Generalisierungen in andere Richtungen werden dagegen nur kurz angerissen. So bestehen Versuche, die Eindimensionalitätsvoraussetzung
aufzugeben und multidimensionale Modelle zu entwickeln (McDonald, 1989; 1997).
Reckase (1997) stellt ein multidimensionales Modell für dichotome Daten vor, Kelderman (1997) eines für polytome Daten. In der Praxis der Marketingforschung wird allerdings auch bei mehrdimensionalen Konstrukten die eindeutige Zuordnung eines Items zu
einer Dimension angestrebt. Die zukünftigen Entwicklungen bleiben diesbezüglich abzuwarten.
Andere Forschungsströmungen (z.B. Verhelst et al., 1997a) beschäftigen sich mit den
Konsequenzen, welche sich daraus ergeben, daß in Schritten gelöste Aufgaben nicht ohne
weiteres mit dem Partial Credit Model analysiert werden können, da dieses davon ausgeht, daß der nächste Schritt nicht bewältigt aber zumindest versucht wird.
Die Unabhängigkeit der Itemparameterschätzungen von der Stichprobe kann in RaschModellen dadurch gefährdet werden, daß aufgrund von Zeitlimits bei der Testbearbeitung
einige Personen keine Gelegenheit erhalten, die letzten Items des Tests zu bearbeiten. Daher erscheinen diese als schwieriger als sie eigentlich sind. In Marketinganwendungen erscheint dieses Problem allerdings nicht relevant. Modelle für Tests mit Zeitbeschränkung
finden sich bei z.B. bei Verhelst et al. (1997b) und Roskam (1997).
Sogenannte nichtparametrische Modelle gehen von metrisch skalierten Skalen der latenten Dimension ab und leiten ordinale Skalen ab. Grundlegende Arbeiten gehen auf Mokken und Lewis (1982) und Mokken (1997) zurück, Molenaar (1997) stellt ein
entsprechendes Modell für polytome Items vor. Auf Modell für nichtmonotone Itemcharakteristiken (Unfolding Modelle) wurde bereits hingewiesen (z.B. Andrich, 1997).
Eine - allerdings nicht mehr völlig aktuelle - Taxonomie von Modellen der Item Response
Theory findet sich bei Thissen und Steinberg (1986).
171
7.3.8 Modellüberprüfung
Die Behandlung von Methoden zur Überprüfung der Gültigkeit wird auf das Rasch-Modell eingeschränkt. Da es kein bestes Verfahren zur Prüfung der Übereinstimmung (Fit)
von Daten und Modell gibt, ist aus einer Reihe von Verfahren und Ansätzen eine Auswahl
zu treffen. Für die Praxis bedeutet dies, daß die Modellbeurteilung nicht auf einem Kennwert beruhen sollte, sondern eine Kombination von unterschiedlichen Ansätzen erforderlich ist. Das Vertrauen auf eine singuläre Kenngröße ist aus statistischen Gründen nicht
sinnvoll. Auf die Problematik der Sensitivität von χ2-Verfahren für kleinste (und damit
unbedeutende) Abweichungen bei größeren Stichproben wurde bereits im Zuge der Prüfung von Strukturgleichungsmodellen hingewiesen.
Die Haltbarkeit des Modells kann einerseits darauf beruhen, die Übereinstimmung von
Modellvorhersage hinsichtlich der Antwortwahrscheinlichkeit und der tatsächlichen Antworthäufigkeiten zu prüfen (Residualanalyse). Andererseits kann die Modellprüfung
auch auf die besonderen Eigenschaften des Rasch-Modells abzielen. So sind die Parameterschätzungen theoretisch unabhängig von der jeweiligen Stichprobe. Der Vergleich von
Parameterschätzungen aus unterschiedlichen Teilsamples liefert daher über die Gültigkeit
des Modells unmittelbar Aufschluß. Zu diesem Zwecke kann das ursprüngliche Sample
auf Zufallsbasis in zwei Subsamples geteilt werden (Vergleich eines Kalibrierungs- und
eines Validierungssamples). Diese Vorgangsweise ist auch bei Anwendung von Verfahren im Rahmen der klassischen Testtheorie möglich. Das Rasch-Modell ist allerdings entsprechende Modellgültigkeit vorausgesetzt - auch gegen nichtzufällige Aufteilungen
invariant. So dürfen sich die Parameterschätzungen von Frauen und Männern ebenso nur
zufällig voneinander unterscheiden, wie jene von Personen mit über- und unterdurchschnittlichem Score. Vor allem der Vergleich letzterer stellt einen äußerst anspruchsvollen
Test
der
Modellgültigkeit
dar.
Bei
signifikant
unterschiedlichen
Parameterschätzungen ist die spezifische Objektivität der Messung nicht gegeben und die
Messung erfolgt nicht populationsunabhängig.
Weiters besteht die Möglichkeit, die Likelihood eines Antwortmusters für eine Person zu
untersuchen (Likelihood-basierter Ansatz). Diese Verfahren wurden ursprünglich für die
Prüfung des Personen-Fits entwickelt. Reise (1990) zeigt, daß dieser Ansatz auch zur
Überprüfung des Item-Fits geeignet ist. Die Prüfung des Item-Fits ist deshalb sinnvoll, da
172
sich die Verletzung der (für das Rasch-Modell essentiellen) Eindimensionalitätsannahme
im Item-Misfit ausdrückt.
Schließlich können auch nicht LTT-spezifische Verfahren, wie z.B. die Mantel-HaenszelStatistik (vgl. z.B. Millsap und Everson, 1993), eingesetzt werden. Dieses hier nicht näher
erläuterte Verfahren basiert auf dem Vergleich einer Referenzgruppe und einer Fokusgruppe, für welche unterschiedliche Itemparameter vermutet werden. Für Personen mit
gleichem Rohscore ist aufgrund der Häufigkeiten dieses Rohscores in der Referenz- und
Fokusgruppe eine erwartete Häufigkeit für eine Antwortkategorie ermittelbar, welche mit
der tatsächlichen Häufigkeit verglichen wird. Dies resultiert - summiert über alle Rohscores - in einer χ2-verteilten Prüfgröße. Daneben ist ein αMH verfügbar, welches die OddsVerhältnisse der Referenz- und der Fokusgruppe vergleicht. Für weniger als 20 Items ist
diese Größe allerdings nicht zuverlässig.
Schließlich besteht bei polytomen Modellen die Möglichkeit, die Ordnungshypothese bezüglich der Antwortkategorien zu überprüfen. Dabei werden, wie bereits dargestellt, die
Thresholdparameter auf ihre Ordnung hin untersucht.
Residualstatistiken
Die ICC bzw. CCCs eines Items geben die dem Modell entsprechenden Wahrscheinlichkeiten der Antwortkategorien wieder. Diese Wahrscheinlichkeiten sind gleichbedeutend
mit den erwarteten Häufigkeiten in einer Stichprobe. Ein erster Ansatz zum Vergleich erwarteter und tatsächlicher Häufigkeiten stellt der Item-Q-Index von Rost und von Davier
(1994) dar. Dieser Kennwert vergleicht tatsächliche Häufigkeiten im Antwortmuster mit
dem erwarteten Muster. Dabei kann eine Abweichung in zwei Richtungen auftreten. Ein
Item kann stärker diskriminieren als erwartet (das tatsächliche Muster nähert sich dem
Guttman-Pattern an) oder schwächer (das beobachtete Muster nähert sich dem Anti-Guttman-Pattern an). Für diesen Fit-Index steht eine Standardisierung zur Verfügung, welche
die Prüfgröße in eine asymptotisch normalverteilte Größe transformiert. Letztere ist nach
Wahl einer Irrtumswahrscheinlichkeit auf Signifikanz prüfbar. Die Ausscheidung eines
Items allein aufgrund eines signifikanten (standardisierten) Q-Index ist allerdings wenig
zielführend, da dies den Fit der restlichen Items so verändern kann, daß im nächsten
Schritt weitere Items auszuscheiden wären, welche durchaus als modellkonform angesehen werden können.
173
Eine weitere Möglichkeit, Abweichungen der Häufigkeiten zu überprüfen, bietet der Q1Index (Hambleton et al., 1991, S.60f; Rost und von Davier, 1994, S.172f). Zur Berechnung dieser Größe werden die Differenzen von erwarteter und beobachteter Häufigkeiten
in einzelnen Wertebereichen der latenten Dimension (also für bestimmte βv-Parameter)
verglichen und quadriert. Diese werden mit der Zahl der Personen im jeweiligen Wertebereich gewichtet (vgl. Abbildung 48). Da der Index eine Summe quadrierter Abweichungen darstellt, ist die Prüfgröße χ2-verteilt. Diese Prüfgröße kann auf alle LTT-Modelle
angewendet werden.
2
N j [ P j – E ( P j )]
Q1 = ∑
-----------------------------------------=
j = 1 E ( Pj ) [ 1 – E ( P j ) ]
m
m
∑j = 1 z j
2
wobei: Nj ... Zahl der Personen im Bereich j
m ... Zahl der Bereiche, in welche das latente Kontinuum unterteilt wird
P .... Beobachtete Häufigkeit der Antwort
E (P) Erwartete Häufigkeit der Antwort
Abbildung 48: Q1-Index zur statistischen Prüfung der Residuale auf Signifikanz
(Hambleton et al., 1991, S.61; Rost und von Davier, 1994, S.172).
Überprüfung der Invarianz der Parameterschätzungen
Aufgrund der Stichproben- und Populationsunabhängigkeit der Itemparameter im RaschModell dürfen sich Schätzungen auf der Basis unterschiedlicher Stichproben nur zufällig
unterscheiden. Ein erster Ansatz besteht in der Betrachtung der Reihenfolge der Itemschwierigkeiten in unterschiedlichen Teilstichproben. Diese sind bei Modellgültigkeit
stets gleich. Allerdings kann diese Prüfung nur qualitativ erfolgen, es stehen keine statistischen Prüfkriterien zur Verfügung (Steyer und Eid, 1993, S.228). Für den Vergleich
zweier Itemparameterschätzungen stehen jedoch relativ einfache Statistiken zur Verfügung. Die Voraussetzung dafür ist eine gleiche Skala der Parameter in beiden Gruppen.
Dies kann dadurch erzielt werden, indem in beiden Gruppen der Ursprung der Skala dadurch definiert wird, daß das Mittel aller Itemparameterschätzungen gleich 0 gesetzt wird.
Jede andere, theoretisch mögliche Skalendefinition (Fixierung eines beliebigen Parameters oder des Mittels der Personenparameter auf einen bestimmten Wert) führt zu unterschiedlichen Skalen (Hambleton et al., 1991). Für jede Parameterschätzung läßt sich auf
der Basis der Informationsfunktion ein Standardschätzfehler (als invertierter Wert der In-
174
formationsfunktion) ermitteln (Hambleton et al., 1991, S.44f, 112). Daraus leitet sich eine
χ2-verteilte Prüfgröße mit (für das Rasch-Modell) einem Freiheitsgrad ab. Einschränkend
ist anzumerken, daß diese Prüfung lokale stochastische Unabhängigkeit voraussetzt, so
daß Rasch-Homogenität der Items und lokale stochastische Unabhängigkeit simultan geprüft werden (Steyer und Eid, 1993, S.228). Erweisen sich die Parameter als nicht äquivalent, so wird von Differential Item Functioning (DIF) (Hambleton et al., 1991, S.109ff)
oder (früher) von Item Bias (Hambleton und Swaminathan, 1985, S.281ff) gesprochen.
Die Items „funktionieren“ in unterschiedlichen (Sub-)Populationen verschieden. Ein Vergleich von Personen aus unterschiedlichen (Sub-)Populationen ist unter diesen Bedingungen nicht möglich (Steyer und Eid, 1993, S.245).
ˆ
ˆ 2
ˆ 2
ˆ
( δ 1 – δ 2)
( δ 1 – δ 2)
χ = --------------------------------------------------- = ---------------------------------------------ˆ
ˆ
ˆ 2
ˆ 2
VAR ( δ 1) + VAR ( δ 2)
SE ( δ 1) + SE ( δ 2)
2
wobei:
VAR ... Varianz
SE ...... Standardschätzfehler
Abbildung 49: Prüfgröße für den Unterschied von Itemparameterschätzungen aus
unterschiedlichen Stichproben (Hambleton et al., 1991, S.111).
Der Vergleich von Itemparameterschätzungen geht davon aus, daß die entsprechenden
Schätzungen zu Wahrscheinlichkeitsverteilungen führen, die mit den tatsächlichen Häufigkeiten in den Gruppen annähernd übereinstimmen. Mit anderen Worten: die Modelle
müssen innerhalb der Gruppen gültig sein. Eine mangelnde Übereinstimmung wird als
Uniform DIF bezeichnet. Differieren die empirischen Verteilungen, z.B. dadurch, daß ein
Item in einer Gruppe stärker diskriminiert als in einer anderen, so handelt es sich um Nonuniform DIF.
175
empirische
Häufigkeit
1
0.5
0
-4
-3
-2
-1
0
1
2
3
4
2
3
4
δi, βv
nonuniform DIF
P(avi=x | δi, βv)
1
0.5
0
-4
-3
-2
-1
0
1
δi, βv
uniform DIF
Abbildung 50: Beispiel für nonuniform und uniform DIF
Eine Alternative zur statistischen Prüfung der Parameter auf Gleichheit stellt die Berechnung der Fläche zwischen den ICCs für ein Item auf der Basis unterschiedlicher Stichproben dar (Raju, 1988). Diese Fläche ist bei exakt gleichen Itemparametern gleich 0. Der
Vergleich der empirisch festgestellten Fläche und einer zufällig zu erwartenden ist vor allem für das two- und three-parameter logistic model sinnvoll.
176
Likelihood-basierter Ansatz
Der Likelihood-Ansatz (Reise, 1990) zur Prüfung des Item-Fits vergleicht die tatsächlichen Antworten der Personen auf ein Item mit der wahrscheinlichsten Antwort (most likely response). Abbildung 51 gibt die Prüfgröße und die entsprechenden Gleichungen
wieder. Die Fit-Statistik ist bei logarithmischer Transformation der Likelihoods und Standardisierung asymptotisch standardnormalverteilt und damit leicht auf Signifikanz prüfbar. Positive Werte sprechen dafür, daß die wahrscheinlichsten Antworten empirisch
häufiger auftreten als erwartet, negative Werte der Prüfgröße ergeben sich bei inkonsistenten Antworten (Rost und von Davier, 1994, S.173f; Reise, 1990, S.129).
n
Li =
wobei:
∏v = 1
x
p vivi ( 1 – p vi)
1 – x vi
Li ... Likelihood für Item i
xvi .. Antwort (0,1) der Person v bei Item i
pvi .. Wahrscheinlichkeit einer positiven Antwort
der Person v bei Item i
log L vi = x vi log p vi + ( 1 – x vi )log ( 1 – p vi )
wobei: log Lvi logarithmische Transformation der Likelihood
log .... Logarithmus zur Basis e (natürlicher Logarithmus)
E vi = p vi log p vi + ( 1 – p vi) log ( 1 – p vi )
V vi = pvi ( 1 – p vi) [ log pvi – log ( 1 – p vi )]
2
wobei: Evi .... Erwartungswert bei Modellgültigkeit
Vvi .... Varianz
log L vi – E vi
z vi = ---------------------------Vvi
2
χi =
2
∑v zvi
Abbildung 51: Prüfgröße für Likelihood-basierten Ansatz zur Bestimmung des
Item-Fit (Rost und von Davier, 1994, S.173; Reise, 1993).
177
7.3.9 Anwendung in der interkulturellen Forschung
Die bisherige Darstellung des Rasch-Modells legt die Anwendung in der intrakulturellen
Marketingforschung nahe (vgl. das nachfolgende Kapitel 7.3.10). Die besonderen Modelleigenschaften lassen gerade in der interkulturellen Forschung eine Modellanwendung
interessant erscheinen. Die Variable Kultur kann als Trennkriterium betrachtet werden.
Alle einer Kultur angehörigen Personen stellen eine Population dar. Ergeben die Itemparameterschätzungen in zwei (allen) Kulturen gleiche (d.h. nur zufällig verschiedene) Werte, so sind auch die Personenparameter und damit auch deren Mittelwerte dieser (aller)
Kulturen vergleichbar. Abbildung 52 gibt den Ablauf der Prüfung der Erhebungsdaten auf
interkulturelle Äquivalenz wieder. Die Kulturzugehörigkeit ist damit ein jedem beliebigen Trennkriterium formal gleichgestelltes Kriterium der Modellüberprüfung auf der Basis der Invarianz der Parameterschätzungen. Substantiell unterscheidet sich Kultur
allerdings von allen anderen möglichen Kriterien (wie Altersgruppen, Geschlechteraufteilung, Scoregruppen, etc.). Letztere sind hervorragend geeignet zur intrakulturellen
Überprüfung des Modells. Es werden diesbezüglich in der Regel keine Unterschiede erwartet bzw. hypothetisch angenommen. Dagegen sind kulturbedingte Einflüsse explizit
hypothetisch formuliert und werden entweder vermutet oder zumindest für möglich erachtet. Wichtig ist dabei, zwischen meßtheoretischer Hypothese des Kultureinflusses und
substanztheoretischer Hypothese des Kultureinflusses zu unterscheiden (Singh, 1996,
S.1047f). Erstere zielt auf das äquivalente Zustandekommen der Messung ab, was die
Grundlage der Vergleichbarkeit darstellt. Ist diese gegeben (im Sinne einer Haltbarkeit
der meßtheoretischen Nullhypothese), so können substanztheoretische Hypothesen überprüft werden. Letztere können auf Niveauunterschiede auf der latenten Dimension abzielen oder auf unterschiedliche Beziehungen im nomologischen Netz des Konstrukts.
Dementsprechend müssen die Begründungen der meßtheoretischen und der substanztheoretischen Hypothese unterschiedlich sein. Im Gegensatz zur klassischen Testtheorie stellt
das Rasch-Modell eine Grundlage zur Verringerung der Konfundierung von Meß- und
Substanztheorie (vgl. dazu Holzmüller, 1995, S.149f) in der interkulturellen Forschung
dar.
178
Analyse: LTT-Modell in Kultur A
Modell-Test (Fit) innerhalb Kultur A
Analyse: LTT-Modell in Kultur B
Modell-Test (Fit) innerhalb Kultur B
Falls erforderlich: Elimination von Items
Schritt 1: Bestimmung des Modellfits innerhalb der Kulturen (Gruppen)
Analyse: Vergleich der Modellparameter (Differential Item Functioning)
Test auf Gleichheit der Itemparameter (Invarianz)
Schritt 2: Test auf Invarianz der Itemparameter
Abbildung 52: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden
Forschung auf Äquivalenz mittels Latent Trait Theory basiertem Ansatz
7.3.10 Zusammenfassende Betrachtung des Rasch-Modells
Die Modelle der Latent Trait Theory haben sich gegenüber Ansätzen, die auf der klassischen Testtheorie beruhen, im allgemeinen als meßtheoretisch überlegen erwiesen. Im besonderen weist das Rasch-Modell für dichotome Daten und seine Verallgemeinerung für
polytome Antwortformate Eigenschaften auf, welche theoretisch fundiertes Messen ermöglichen. Die Unabhängigkeit von Meßergebnissen von der Tatsache welche Messungen
sonst
noch
erfolgen
(spezifische
Objektivität),
sollte
eigentlich
eine
Selbstverständlichkeit sein. Dennoch hat das Paradigma des Rasch-Modells in die Marketingforschung bislang kaum Eingang gefunden, geschweige denn sich gegen das klassische Meßparadigma durchgesetzt. Dies kann in der Vergangenheit zum Teil auf die
ungenügende Verfügbarkeit von Softwareprogrammen zurückgeführt werden. Auch benötigt die Diffusion von in Spezialdisziplinen (zu einer solchen hat sich die Meß- und
Testtheorie unzweifelhaft entwickelt) generiertem methodischen Wissen in eine anwendungsorientierte Disziplin wie der Marketingwissenschaft geraume Zeitspannen. Freilich
darf nicht übersehen werden, daß der Wechsel von der klassischen zur probabilistischen
Testtheorie im Forschungsalltag weit mehr darstellt, als den bloßen Wechsel eines methodischen Instrumentariums. Letzteres würde unter Umständen den Gebrauch des Begriffs
Paradigmenwechsel gar nicht rechtfertigen. Sehr wohl einen Paradigmenwechsel stellen
179
die Implikationen des Rasch-Modells dar. Messung „passiert“ nicht länger, sondern wird
theoretisch begründet und in ihrer Funktionalität statistisch überprüfbar. Unzweifelhaft
erfordert die Falsifizierbarkeit und höhere Stringenz der Meßtheorie eine sorgfältigere
und damit zeitintensivere Entwicklung von Meßinstrumenten. Die Anwendung von Qualitätsindikatoren der Forschung welche am Output pro Zeiteinheit ansetzen, gehen diesbezüglich nicht nur ins Leere, sondern wirken sich kontraproduktiv aus. Die
Überwindung dieser „wissenschaftssoziologischen“ Probleme wäre jedenfalls mit einem
enormen Zugewinn an Aussagenqualität in der quantitativ orientierten empirischen Marketingforschung verbunden. Vor allem die mit der Anwendung der klassischen Testtheorie verbundene Konfundierung von Meß- und Substanztheorie (Holzmüller, 1995) in
komplexen verhaltenswissenschaftlichen Modellen ist völlig unbefriedigend.
180
8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität
8 Methodischer Referenzrahmen für die Überprüfung der
interkulturellen Validität
In Kapitel 5 wurden die Bedingungen interkultureller Vergleichbarkeit erarbeitet. Die
nachfolgenden Kapitel 6 und 7 widmeten sich der Darstellung methodischer Ansätze zur
Überprüfung der Vergleichbarkeit von Erhebungsdaten in der kulturübergreifenden Marketingforschung. Die beiden vorgestellten Ansätze, jener der konfirmatorischen Mehrgruppen-Faktorenanalyse und der Latent Trait Theory basierte Vergleich der
Meßfunktionalität (Differential Item Functioning) unterscheiden sich fundamental im zugrundeliegenden Meßparadigma. Die Frage, welcher Ansatz gewählt wird, ist demzufolge auf der Metaebene der Meßtheorie zu entscheiden. Die Zielsetzung dieses Kapitels
liegt in einer rekapitulativen Zusammenfassung der Problematik und ihrer Lösung, sowie
der Einordnung des Prüfungsgegenstandes in das System der meßtheoretischen Gütekriterien.
Sowohl im Rahmen der klassischen Testtheorie als auch in jenem der Latent Trait Theory
ist die Frage der Vergleichbarkeit eine formale. Vergleichbarkeit gewährleistet das vergleichbare Zustandekommen der Messung (zumindest im Latent Trait Theory basierten
Ansatz) und mehr-weniger Aussagen auf der Ebene des numerischen Relativs in Abhängigkeit von der Kulturzugehörigkeit. Interkulturelle Vergleichbarkeit soll daher - in Anlehnung an die Terminologie von Lienert (1989) - folgendermaßen definiert werden:
Die i n t e r k u l t u r e l l e V a l i d i t ä t eines Tests (Meßinstruments) gibt den Grad
an, mit dem er (es) in verschiedenen Kulturen das gleiche Persönlichkeits- oder Verhaltenskonstrukt gleich gut mißt, unabhängig davon, ob der Test (das Meßinstrument) dieses
Konstrukt auch zu messen beansprucht.
Kontrastierend dazu die Definitionen der Reliabilität und Validität bei Lienert (1989):
„Unter Reliabilität eines Testes versteht man den G r a d d e r G e n a u i g k e i t , mit
dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig ob er
dieses Merkmal auch zu messen beansprucht (welche Frage ein Problem der Validität
ist).“ (Lienert, 1989, S.14; Hervorhebung im Original).
181
„Die Validität eines Testes gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll
oder zu messen vorgibt, auch tatsächlich mißt.“ (Lienert, 1989, S.16).
Im Unterschied zu Lienerts Formulierungen geht die Definition der interkulturellen Validität von Persönlichkeits- oder Verhaltenskonstrukten aus und vermeidet den Begriff
Merkmal, welcher sprachlich zu sehr an manifeste Attribute erinnert. Diese Unterschiedlichkeit soll jedoch nicht weiter eine Rolle spielen. Vielmehr steht die Einordenbarkeit der
interkulturellen Validität zur Diskussion. Interkulturelle Validität stimmt mit der Definition der Reliabilität dahingehend überein, daß dieses Gütekriterium unabhängig davon ist,
ob der Test mißt, was er zu messen vorgibt. Dies entspricht der Feststellung, daß interkulturelle Vergleichbarkeit auf formale und nicht inhaltliche Aspekte abstellt.1 Interkulturelle Validität unterscheidet sich von der Reliabilität dadurch, daß diese nicht eindeutig
gegeben ist, sondern gegenüber einzelnen Kulturen bestehen und gegenüber anderen nicht
bestehen kann. In diesem Aspekt herrscht Parallelität zur Validität, welche ebenfalls nicht
auf die Validität beschränkt ist, sondern im Bezug zu einem oder mehreren Außenkriterien zu sehen ist. Interkulturelle Validität ist somit ein meßtheoretisches Gütekriterium,
welches - im System der Gütekriterien der klassischen Testtheorie - logisch zwischen Reliabilität und Validität einzuordnen ist (vgl. Abbildung 53).
Reliabilität
in Kultur A
Reliabilität
in Kultur B
Interkulturelle Validität
bezüglich Kultur A und B
Validität
in Kultur A
Validität
in Kultur B
Abbildung 53: Einordnung der interkulturellen Validität in das System der Gütekriterien der klassischen Testtheorie
1. Dies steht nicht im Widerspruch dazu, daß bei nicht gegebener Vergleichbarkeit inhaltliche
Ursachen dafür verantwortlich sein können.
182
Die Reliabilität ist ein zentrales Gütekriterium der klassischen Testtheorie. In der Latent
Trait Theory kommt der Reliabilität aufgrund des ihr immanenten Bezugs zur Verteilung
der Population ein vergleichsweise viel geringerer Stellenwert zu. Tatsächlich ist es möglich, die Formel der Reliabilität aus der klassischen Testtheorie auch im Rahmen der Latent Trait Theory anzuwenden2. Statt der True Score Varianz wird die Varianz der
Personenparameter eingesetzt, für die Meßfehlervarianz steht die Varianz der Standardschätzfehler der Personenparameter (welche sich auf der Basis der Informationsfunktion
herleiten). Zwar sind Personenparameter und Meßfehler nun nicht voneinander unabhängig (U-förmiger Zusammenhang), aber doch linear unkorreliert. Dieser Index wird jedoch
nicht als Reliabilität bezeichnet, sondern als Person-Separation-Index (Andrich, 1982),
weil dieser angibt, wie gut der Test zwischen den getesteten Personen diskriminiert. Auch
im Paradigma der Latent Trait Theory gilt freilich, daß die interkulturelle Validität die intrakulturelle Validität nicht ersetzen kann, sondern eine Voraussetzung für Vergleichbarkeit ist.
Interkulturelle Validität ist keine notwendige Voraussetzung für intrakulturelle Validität.
Es ist selbstverständlich möglich, Meßinstrumente aus der Kultur A an eine bestimmte
Kultur B anzupassen und emic Items neu zu formulieren, um eine möglichst optimale intrakulturelle Validität zu erreichen. Diese Vorgangsweise strebt jedoch keine Vergleichbarkeit an und kann sie - ohne Überprüfung im Sinne der interkulturellen Validität - auch
nicht gewährleisten.
Für den auf Vergleichbarkeit abzielenden Einsatz einer Marketingskala ergibt sich der in
Abbildung 54 (vereinfacht für zwei Kulturen) dargestellte Ablauf. Der Ausgangspunkt
kann in einer Skala liegen, welche in Kultur A entwickelt wurde und nun in Kultur B im
Sinne einer Replikation (Hubbard und Armstrong, 1994) eingesetzt wird. Alternativ dazu
kann bereits bei der originären Skalenentwicklung auf den zukünftigen interkulturellen
Einsatz abgestellt werden. Diese Vorgangsweise führt zwar nicht notwendigerweise zu
interkultureller Vergleichbarkeit, erhöht jedoch deren Wahrscheinlichkeit. Unabhängig
vom Ausgangspunkt ist die interkulturelle Validität empirisch zu überprüfen. Parallel
dazu ist die intrakulturelle Validität in den untersuchten Kulturen zu bestimmen. Die An2. Für die Bestimmung von Konfidenzintervallen für Personenparameter wird die Reliabilität
oder ein vergleichbares Maß in der Latent Trait Theory nicht benötigt, da dafür die Standardschätzfehler zur Verfügung stehen.
183
wendung eines ursprünglich auf Kultur A bezogenen Meßinstruments in Kultur B kann
allerdings auch in Form einer erweiterten Replikation (Replication and Extension, Hubbard und Armstrong, 1994) erfolgen (in Abbildung 54 punktiert dargestellter Pfad), wenn
die intrakulturelle Validität im Vordergrund steht. Der gleiche Weg kann beschritten werden, wenn interkulturelle Validität nicht nachweisbar ist und eine bessere Anpassung an
die jeweilige(n) Kultur(en) als Alternative erfolgen soll (in Abbildung 54 punkt-strichliert
dargestellter Pfad). Die Abläufe der beiden behandelten Methoden zur Äquivalenzprüfung wurden bereits in Abbildung 27 (Seite 129) bzw. Abbildung 52 (Seite 179) dargestellt.
Marketing-Instrument
Interkulturelle Entwicklung
(für Kulturen A und B)
Entwicklung in Kultur A
Intrakulturelle Meßgüte:
• Objektivität
• Reliabilität (klassisch)/ LTT-Modellkonformität
• Validität
Replikation
Erweiterte Replikation
Einsatz in Kultur B
Anpassung an Kultur B
Intrakulturelle Meßgüte:
• Objektivität
• Reliabilität (klassisch)/ LTT-Modellkonformität
• Validität
Vergleich von Kultur A und B
Interkulturelle Validität („Validität des Vergleichs“)
• Klassisch: konfirm. Mehrgruppen-Faktorenanalyse
• LTT: Modellkonformität / DIF-Analyse
Abbildung 54: Schematischer Ablauf der Untersuchung einer Marketing-Skala
auf interkulturelle Vergleichbarkeit
184
9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung
9 Behandlung der Äquivalenzproblematik in der empirischen,
quantitativen interkulturellen Marketingforschung
Internationalisierungs- und Globalisierungstendenzen haben die empirische Marketingforschung stimuliert, sich verstärkt Kultur- und Landesgrenzen überschreitenden Fragestellungen zu widmen. Spätestens seit Douglas und Craig (1983) hat sich die
Überzeugung durchgesetzt, daß sprachliche Äquivalenz (Übersetzungsäquivalenz) allein
nicht ausreicht. Gleichzeitig haben allerdings methodische Entwicklungen in Spezialdisziplinen, namentlich der Meß- und Testtheorieforschung, die Marketingwissenschaft
nicht in dem Ausmaß durchdrungen, wie dies wünschenswert wäre. Nach wie vor finden
viele interkulturelle Studien mit qualitativen Argumenten das Auslangen, wenn es um die
Begründung interkultureller Vergleichbarkeit geht. Zur Zeit finden sich nur sehr wenige
Ansätze, empirische Erhebungsdaten auf deren interkulturelle Äquivalenz zu prüfen. Die
Auswahl von methodisch qualitativ mehr oder weniger anspruchsvollen Publikationen erhebt keinen Anspruch auf Systematik oder gar Vollständigkeit, sondern dient lediglich
der Illustration.
Das von Shimp und Sharma (1987) vorgestellte Konzept des Consumer Ethnocentrism erwies sich als äußerst stimulierend für interkulturelle Forschungsvorhaben. Der Ansatz
geht auf das soziologische Phänomen des Ethnozentrismus zurück, wonach Menschen
mehr oder weniger dazu neigen, Mitglieder ihrer eigenen Gruppe (z.B. Landsleute) gegenüber Fremdgruppenmitgliedern zu bevorzugen. Angewendet auf das Konsumverhalten geht das Konzept davon aus, daß eine individuelle Neigung besteht, Produkte der
eigenen Volkswirtschaft gegenüber importierten Produkten zu favorisieren. Importe sind
in diesem Sinne eine Bedrohung für die nationale Volkswirtschaft, tragen zur Arbeitslosigkeit bei und verringern langfristig das Wohlstandsniveau. Shimp und Sharma (1987)
haben in den USA ein 17 Items umfassendes Meßinstrument entwickelt - die Consumer
Ethnocentric Tendency Scale (CETSCALE) - welches die persönliche Neigung zu ethnozentrischem Konsumverhalten mißt. Das Konstrukt ist in ein nomologisches Netzwerk
von Antezedenzbedingungen und nachgelagerten Konstrukten eingebettet und für den
US-Kontext, sowie in Südkorea von Sharma et al. (1995) umfassend validiert worden.
Netemeyer et al. (1991) haben erstmals die kulturübergreifende Güte der Skala geprüft.
In einer multikulturellen Studie, welche neben den USA Frankreich, Japan und die Bundesrepublik Deutschland einschließt, wird die Reliabilität und Validität der
185
CETSCALE in diesem Kulturen empirisch analysiert. Eine Überprüfung der interkulturellen Vergleichbarkeit wird jedoch nur eingeschränkt vorgenommen. In einer konfirmatorischen Mehrgruppen-Faktorenanalyse wird die Identität der Ladungsmuster
(konfigurale Invarianz) geprüft und bestätigt. Eine weitergehende Prüfung findet allerdings nicht statt.
Sinkovics (1998) replizierte die CETSCALE in Österreich. Der umfassende Ansatz geht
dabei vom ursprünglichen, der CETSCALE in den USA zugrundeliegenden Itempool aus,
welcher aus 117 Fragen besteht. Die Zielsetzung ist fokussiert auf eine optimale Anpassung des Meßinstruments an Österreich, sowie auf die nomologische Validierung innerhalb der österreichischen Kultur. Die Vergleichbarkeit steht daher nicht im Vordergrund.
Good und Huddleston (1995) untersuchen den Consumer Ethnocentrism in Polen und
Rußland. Bezüglich der Anwendbarkeit des Konstrukts berufen sich die Autorinnen auf
den erfolgreichen Einsatz des Meßinstruments in anderen Ländern, beschränken sich hinsichtlich der Äquivalenzaspekte auf die Güte der Übersetzung. Ein methodisch anspruchsvoller Vergleich einer auf zehn Items reduzierten Kurzform der CETSCALE über
Kulturgrenzen hinweg findet sich bei Steenkamp und Baumgartner (1996a, 1996b). Der
Vergleich von Daten aus Belgien, Großbritannien und Griechenland erfolgt auf der Basis
der Mehrgruppen-Faktorenanalyse. Dieser Beitrag ist vor allem methodisch interessant
und stimulierend für aussagekräftige interkulturelle Forschung. Einschränkend ist anzumerken, daß ein Rückbezug auf die untersuchten Kulturen im Sinne einer substanztheoretischen Theorie des Einflusses von Kultur auf ethnozentrische Tendenzen nicht erfolgt,
was den meßtheoretischen Wert des Beitrags nicht schmälert.
Im Bereich der Konsumentenforschung haben Beatty et al. (1994) das Freizeitverhalten
untersucht und interkulturelle Vergleiche angestellt. Die Prüfung der Meßäquivalenz basiert lediglich auf explorativen Faktorenanalysen unter Anwendung des Kongruenzkoeffizienten und Cattell’s Salient Variable Similarity Index (vgl. zu diesen Indices die
kritischen Anmerkungen im Kapitel 6.2.3 auf Seite 104). Die Argumentation der Vergleichbarkeit fällt dementsprechend unscharf aus: „Four factors were identified, which
were reasonably consistent across countries.“ (Beatty et al., 1994, S.412).
186
Lewis und Cadell (1997) untersuchen Kulturunterschiede im Dienstleistungsmarketing,
namentlich in der Luftfahrtbranche. Die Studie geht der Frage nach, inwieweit Briten und
Dänen sich hinsichtlich Erwartungen und Qualitätswahrnehmungen bezüglich des Fluges
kulturbedingt unterscheiden (Mittelwertsvergleiche, Korrelationen von Teildimensionen
mit Gesamturteil). Äquivalenzaspekte werden nur in Form der Übersetzungsäquivalenz
behandelt, welche in Form einer Vorwärts-Rückwärts-Übersetzung gewährleistet wird.
Analog ist die Vorgangsweise von Lundstrom und White (1997), welche Materialismus
von Konsumenten in Frankreich und in den USA vergleichen. Obwohl Mittelwertsunterschiede interpretiert werden, beschränkt sich die Berücksichtigung von Äquivalenzaspekten auf Übersetzungsfragen. Lundstrom und White (1997, S.49) gehen davon aus, daß
„[t]his procedure is consistent with established procedures for conducting international
research.“
Die interkulturelle Replikation eines Standardmeßinstruments zum „Optimal stimulation
level“ von Steenkamp und Baumgartner (1995) wendet den konfirmatorischen Mehrgruppen-Faktorenanalyseansatz an, allerdings ohne die Berücksichtigung von Item-Intercepts.
Ähnlich geht Cui-Chi (1997) bei einem interkulturellen Vergleich des Conditions of Trust
Inventory (CTI) vor. Cui-Chi zeigt, daß die Skala im britischen und im chinesischen Kulturkontext nicht völlig äquivalent mißt.
Quester und Tan (1997) liefern einen kulturvergleichenden Beitrag im Non-Profit-Bereich. Die Einstellung von Konsumenten aus Australien gegenüber Anti-Rauch-Werbung
wird der Einstellung von Konsumenten aus Malaysia gegenübergestellt. Die Datenerhebung erfolgt in Form einer Fragebogens. Äquivalenzaspekte werden in keiner Weise angesprochen, selbst die Sprachversionen der Fragebögen bleiben unklar.
Zahlreiche Studien konzentrieren sich (nach wie vor) auf Reliabilitätsaspekte unter Bezugnahme auf Davis et al. (1981). Vergleichbarkeit ist damit allerdings nicht notwendig
gewährleistet. Parameswaran und Yaprak (1987) nehmen im Rahmen einer interkulturellen Studie zur Produkteinstellung einen varianzanalytischen Vergleich von intra- und interkulturellen Reliabilitätskoeffizienten vor. Jüngere Beispiele für diese Strategie
stammen von Song und Parry (1997), welche die Vergleichbarkeit von Daten aus Japan
187
und den USA bezüglich eines Produktentwicklungsprozesses auf einen Vergleich der Reliabilität stützen.
Im personalwirtschaftlichen Anwendungsbereich gehen van Minden und Talgic (1997)
bei der interkulturellen „Validierung“ der INDSALES, einer Skala zur Jobzufriedenheit,
ähnlich vor und begründen die Vergleichbarkeit mit der gleichen Rangordnung der Reliabilitäten der einzelnen Subskalen.
Die interkulturelle Studie zur Einstellung gegenüber Marketingaktivitäten von Zhang und
Dadzie (1994) basiert auf konfirmatorischen Mehrgruppen-Faktorenanalysen, jedoch
ohne Einbeziehung von Item-Intercepts. Ebenso gehen Calantone et al. (1996) vor. Das
interkulturelle Forschungsvorhaben zu Erfolgsfaktoren der Produktneuentwicklung zielt
ausdrücklich jedoch nicht auf Mittelwertsvergleiche ab, sondern fokussiert auf die nomologische Validierung innerhalb der einzelnen betrachteten Kulturen.
Auch in der Managementforschung finden sich methodisch analoge Vorgangsweisen.
Riordan und Vandenberg (1994) untersuchen kulturspezifische Interpretionsmuster von
arbeitsbezogenen Skalen und gründen Vergleichbarkeit auf metrische Invarianz.
Zumindest inkonsequent mutet die Untersuchung von Sensales und Greenfield (1995) an.
Die Studie befaßt sich mit der Einstellung gegenüber Computern und dem Einsatz von
Technologie in der Wissenschaft und basiert auf Datenerhebungen unter Studenten in
Rom und Los Angeles. Mittelwertsvergleiche werden auf der Basis von Rohscores aller
einbezogenen Items vorgenommen (und interpretiert). In anschließenden explorativen
Faktorenanalysen werden jedoch einzelne dieser Items aufgrund konzeptueller Probleme
ausgeschieden.
Resümierend ist festzustellen, daß die Vergleichbarkeit von Daten aus der interkulturellen
Forschung auf methodisch höchst unterschiedlichem Niveau geprüft wird. Vor allem
Item-Intercepts berücksichtigende Anwendungen finden sich auch 1998 - 24 Jahre nach
dem Beitrag von Sörbom (1974) - nur äußerst selten. Zahlreiche auf Mittelwertsvergleichen beruhende Erkenntnisse aus der interkulturellen Forschung sind daher in ihrer Gültigkeit bedroht und bedürfen einer sorgfältigen Reanalyse. Alle bisher zitierten Arbeiten
188
basieren auf der klassischen Testtheorie, Anwendungen der Latent Trait Theory in der
Wirtschaftswissenschaft sind, abgesehen von personalwirtschaftlichen Untersuchungen,
praktisch nicht vorhanden. Mazanec (1979) stellt eine Ausnahme dar und hat bereits sehr
früh die Einsatzmöglichkeit einer Variante des Rasch-Modells - des linear-logistischen
Testmodells - in der Marketingforschung geprüft und ist - mit eigenen Worten - „gescheitert“1. Singh (1996) liefert einen neuen Impuls zum Einsatz von Latent Trait Theory Ansätzen in der Marketingforschung. Er untersucht die Anwendbarkeit des two-parameter
logistic model. Aus meßtheoretischer Sicht impliziert dieses Modell jedoch den Verzicht
auf die besonderen Eigenschaften des Rasch-Modells.
In personalwirtschaftlichen Studien mit interkulturellen Aspekten finden sich zahlreiche
Anwendungen der Latent Trait Theory. Ellis (1989) prüft die Vergleichbarkeit der Career
Ability Placement Survey (CAPS) mittels des three-parameter logistic model. Eine Fülle
von Studien befaßt sich mit der interkulturellen Anwendbarkeit und psychometrischen
Äquivalenz des Job Discriptive Index (JDI) (z.B. Hulin et al., 1982; Parsons und Hulin,
1982; Drasgow und Miller, 1982; Hulin und Mayer, 1986; Candell and Hulin, 1987; Hanisch, 1992). Durchwegs werden dabei Modelle mit zwei oder drei Itemparametern eingesetzt. Zwar weisen beispielsweise Candell and Hulin (1987, S.421) darauf hin, daß
„[t]he choice of the IRT model is not trivial“, es wird jedoch kein Verfahren angegeben,
welches als Entscheidungsgrundlage der Modellwahl dienen könnte. Die Wahl des twoparameter logistic model wird damit begründet, daß dieses Modell „accurate approximations to item response data“ liefert. Einmal mehr wird somit das Modell den Daten angepaßt und die Modellwahl nicht meßtheoretisch begründet. Aus heutiger Sicht
problematisch erscheint weiters die vorgenommene Dichotomisierung der Daten. Diese
war zur Zeit der Veröffentlichung schon allein aus datenverarbeitungstechnischen Gründen (Verfügbarkeit entsprechender Analyseprogramme) unumgänglich. Unabhängig davon unbefriedigend ist allerdings die Codierung von „weiß nicht“-Antworten und
fehlenden Angaben („missing“) als Ablehnung eines Statements. Die Anwendung der unconditional maximum likelihood Schätzung der Parameter ist aus heutiger Sicht ebenfalls
nicht optimal. Schließlich werden auch andere arbeitsbezogene Skalen auf ihre interkulturelle Gültig- und Vergleichbarkeit untersucht, so z.B. die Job Diagnostic Survey (JDS)
1. Im Sinne einer Nichtentsprechung von Modell und Daten.
189
von Idaszak et al. (1988), wobei konfirmatorische Faktorenanalysen (ohne Item-Intercepts) durchgeführt werden.
Die historische Verbundenheit der meß- und testtheoretischen Disziplin (wenn man diese
bereits als solche bezeichnen will) und der psychologischen Wissenschaftsdisziplin
drückt sich in einer großen Zahl methodisch anspruchsvoller Studien aus. Huang et al.
(1997) haben die interkulturelle Vergleichbarkeit eines Persönlichkeitskonstrukts geprüft
und berichten, daß signifikante Mittelwertsunterschiede auf der Basis von Rohscores nach
einer Purifikation der Skala (mit Hilfe des three-parameter logistic model) nicht mehr gegeben sind.
Ellis und Kimmel (1992) widmen sich der interkulturellen Überprüfung einer Skala zur
„Attitude towards mental health“. Ziel der Analyse ist nicht nur eine Begründung der Vergleichbarkeit hinsichtlich der drei betrachteten Kulturen, sondern die Ermittlung kulturspezifischer Abweichungen von omnikulturellen Antwortmustern. Die an sich sehr
interessante Zielsetzung ist allerdings, so räumen auch die Autoren ein, nicht konsequent
umsetzbar, da die Ermittlung omnikultureller Antwortmuster ein ebenfalls omnikulturelles Sample erfordern würde. Da dieses bei Ellis und Kimmel nicht verfügbar ist, werden
die einzelnen kulturhomogenen Samples mit einem kulturheterogenen Sample verglichen, welches aus eine Auswahl aus den drei einbezogenen Kulturen besteht. Damit ist
aber das kulturheterogene Sample nicht wirklich omnikulturell und einzelne Personen
kommen im Zuge des Vergleichs in beiden Samples vor. Auch bei Ellis und Kimmel ist
die Begründung der Modellwahl problematisch. Da eine leichte Tendenz zur Zustimmung
vermutet wird (Ja-sage-Tendenz) wird das three-parameter logistic model gewählt. Diese
Argumentation ist nicht völlig nachvollziehbar, da sich eine Ja-sage-Tendenz im gesamten Skalenbereich in einer Verschiebung des Itemschwierigkeitsparameters niederschlagen müßte. Insbesondere sind gerade kulturspezifische Unterschiede der Ja-sage-Tendenz
höchst relevant. Der dritte Itemparameter, der die untere asymptotische Zustimmungswahrscheinlichkeit angibt, ist jedoch der am schwierigsten zuverlässig zu schätzende Parameter. Schließlich wird die Wahl eines dichotomen Modells (welche die
Dichotomisierung der Daten impliziert) damit begründet, daß Modelle für polytome Daten nicht so gut erforscht wären. Die willkürliche Dichotomisierung polytomer Daten bedroht aber die Aussagekraft der Ergebnisse.
190
Zusammenfassend ist zu sagen, daß der Einsatz adäquater Methoden in der interkulturellen Forschung über weite Strecken nicht zufriedenstellend ist. Augenscheinlich ist freilich
eine Tendenz zu anspruchsvolleren Analysetechniken sowohl in psychologischen als
auch in wirtschaftswissenschaftlichen Untersuchungen, wobei letztere jedoch auf einem
geringeren meßmethodischen Niveau erfolgen. So sind Anwendungen von Modellen der
Latent Trait Theory fast ausschließlich der psychologischen Forschung vorbehalten. Der
mit den LTT Modellen verbundene Paradigmenwechsel im Sinne von Kuhn (1997) in der
Meßtheorie oder - weniger drastisch formuliert - die Einführung eines parallelen Paradigmas neben dem der klassischen Testtheorie ist in der wirtschaftswissenschaftlichen Forschung bislang nicht erfolgt. Betrachtet man die LTT Anwendungen in der Psychologie
näher, so stellt man fest, daß diese fast ausschließlich auf das two- oder three-parameter
logistic model zurückgreifen und damit der klassischen Testtheorie genauso nahe stehen
wie dem Rasch-Modell. Der Hintergrund liegt in einer fast durchgängig zu verzeichnenden Ausrichtung der Forschung auf die bestmögliche Erklärung von Daten. Die wissenschaftstheoretisch adäquate Vorgangsweise (im Sinne von Popper, 1966) des Ableitens
von Bedingungen aus einer - in diesem Fall - Meß-Theorie, welche die Daten empirisch
überprüfbar (falsifizierbar) zu erfüllen haben, wird damit ins Gegenteil verkehrt. Unzulänglichkeiten der Daten werden vielmehr - entweder ex post im Zuge des Einsatzes mehrerer Modelle und anschließender Wahl des „besten“ oder ex ante in „Antizipation“
möglicher Probleme - in ein kompliziertes Modell absorbiert.
191
10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE
10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der
CETSCALE
10.1 Consumer-ethnocentric Tendency
Die beiden Lösungsansätze zur empirischen Überprüfung der interkulturellen Validität
sollen im folgenden exemplarisch dargestellt werden. Das bereits vorgestellte Konzept
des Consumer Ethnocentrism (Shimp und Sharma, 1987) eignet sich dazu sowohl in meßtheoretischer als auch in inhaltlicher Hinsicht. Das meßtheoretische Interesse liegt in der
Fülle an Anwendungen der CETSCALE zur Messung der Consumer Ethnocentric Tendency in kulturellen Überschneidungssituationen (z.B. Netemeyer et al., 1991; Sharma et
al., 1995; Good und Huddleston, 1995; Steenkamp und Baumgartner, 1996a, 1996b; Sinkovics, 1998), welche unterschiedlichen Standards der Überprüfung der interkulturellen
Validität gerecht werden. Das inhaltliche Interesse liegt im Stellenwert des Konstrukts für
internationale Marketingstrategien (Salzberger et al., 1997; Sinkovics und Salzberger,
1996).
Die historischen Wurzeln des Ethnozentrismusbegriffs reichen bis an den Beginn des 20.
Jahrhunderts zurück (vgl. die ausführliche Darstellung des Ethnozentrismus bei Sinkovics, 1998). Das in der Soziologie und Anthropologie entwickelte Konzept wurde (und
wird) als Erklärungsansatz für Gruppenkonflikte auf nationaler Ebene herangezogen.
Psychologie und Psychoanalyse offerieren einerseits zahlreiche, konkurrierende oder einander ergänzende Theorien zur Erklärung der Genese des Ethnozentrismus. Die psychologische Forschung hat andererseits aber auch das Konzept als solches aufgegriffen und
weiterentwickelt (so z.B. im Rahmen der Theorie der sozialen Identität von Tajfel und
Turner, 1979, 1986) und damit gewissenmaßen „individualisiert“. Die Theorie der sozialen Identität verwendet zwar den Begriff des Ethnozentrismus nicht explizit, weist mit
dem Konstrukt der „sozialen Identität“ aber eine Entsprechung auf. Die soziale Identität
eines Individuums als inneres Spiegelbild seiner Position in gesellschaftlichen Systemen
von in-groups (denen die Person selbst angehört) und out-groups (Fremdgruppen) wird
als einstellungs- und verhaltensbeeinflussende Größe gesehen und nimmt damit den Charakter einer zeitlich überdauernden Persönlichkeitseigenschaft1 (Trait) an. Shimp und
Sharma (1987) folgen dieser Sichtweise, wenn sie ethnozentristische Tendenzen mit dem
Konstrukt der Consumer-ethnocentric Tendency auf kaufverhaltensrelevante Tatbestände
192
einschränken. Shimp und Sharma gehen davon aus, daß eine Persönlichkeitsvariable die
Bereitschaft, ausländische Produkte zu kaufen, beeinflußt. Zur Messung dieser latenten,
weil nicht direkt beobachtbaren, Variablen wurde von Shimp und Sharma (1987) in den
USA die CETSCALE entwickelt. Aus einem ursprünglich 117 Items umfassenden Pool
wurden schließlich auf der Basis von Purifikationsstudien (Shimp und Sharma, 1987,
S.281ff) 17 Items ausgewählt, welche das Meßinstrument konstituieren. Für den Einsatz
der Skala in anderen Kulturen als jener der USA stellt sich somit die Frage der Güte der
Skala in jenen Kulturen und - wenn ein Vergleich unterschiedlicher Kulturen angestellt
werden soll - die der interkulturellen Validität. Die exemplarische Darstellung der Prüfung der Äquivalenz der Erhebungsdaten (und damit die Begründung interkultureller Validität) erfolgt am Beispiel einer Replikation der CETSCALE in Österreich (Sinkovics,
1998) und in Südkorea (Sharma et al., 1995). Tabelle 10 gibt einen Überblick über die
Stichproben und deren Charakteristika in Österreich und Südkorea.
Geographisches
Anwendungsgebiet
Sinkovics (1998)
Sharma et al. (1995)
Österreich
Südkorea
Landessprache
Gewährleistung der Übersetzungsäquivalenz
deutsch
Vorwärts-Rückwärtsübersetzung
koreanisch
Vorwärts-Rückwärtsübersetzung
Eingesetztes Instrument
CETSCALE;
ursprünglicher Itempool
der US-Studie von
Shimp und Sharma
(1987)
(117 Items)
CETSCALE;
17 Items umfassende
Skala von Shimp und
Sharma (1987)
Antwortskala
siebenstufige LikertSkala, Endpunkte verbalisiert
Tabelle 9: Datenerhebungs- und Stichprobencharakteristika
in Österreich und Südkorea
1. Auf eine mögliche kritische Hinterfragung sei an dieser Stelle nur hingewiesen. Die Ausprägung auf der Persönlichkeitseigenschaft könnte gerade in diesem Beispiel durchaus auch
gesellschaftlich mitdeterminiert sein. Der Trait wäre demnach eine Funktion von Person und
Gesellschaft, ethnozentrische Tendenzen (zum Teil) die Internalisierung sozialer Normen.
Insoweit wäre bei einer Änderung des sozialen Umfelds der zeitlich überdauernde Charakter
der Persönlichkeitseigenschaft (welche dann besser nicht so bezeichnet werden sollte) in Frage
gestellt. Das tatsächlich persönliche Element wäre die individuelle Abweichung von einem
sozial determinierten Mittelwert.
193
Sinkovics (1998)
Sharma et al. (1995)
Stichprobenziehung
„questionnaire-drop-in“Technika;
Quotensampling nach
Geschlecht, Alter und
Schulbildung
„questionnaire-drop-in“Technik,
mail surveyb;
Quotensampling nach
Geschlecht („questionnaire-drop-in“) und
Alter und Einkommen
(mail survey)
Stichprobenumfang
n=1105
n=667c
Stichprobencharakteristika
Repräsentativität
Zielsetzung
Einschränkungen
landesweit
landesweit
Bias bezüglich Ostöster- Bias bezüglich städtireich (Wien, Niederöster- scher Ballungsräumed
reich und Burgenland
überrepräsentiert)
Skala
Erhebungszeitraum
Oktober - Dezember
1993
1992/93
Tabelle 9: (Forts.) Datenerhebungs- und Stichprobencharakteristika
in Österreich und Südkorea
a. Studenten wurden beauftragt, nach Quotenvorgaben den Fragebogen zu distribuieren.
b. 700 Fragebögen wurden an Studenten ausgegeben, 1.500 Personen wurden postalisch kontaktiert.
c. 125 Datensätze entstammen der mail survey, 542 Datensätze wurden im Rahmen des questionnaire-drop-in erhoben.
d. Dieser ergibt sich aus der Konzentration des questionnaire-drop-in auf Seoul und eine weitere,
nicht namentlich genannte Stadt.
Die Problematik des Vergleichs von Daten aus Südkorea und Österreich folgt unmittelbar
aus der trivial ersichtlichen Unterschiedlichkeit der beiden Kulturen. Bei der konkreten
Betrachtung der kulturellen Merkmale ist jedoch auf eine Trennung substanztheoretischer
Sachverhalte und solcher, welche zu Meßartefakten führen könnten, also meßtheoretischer Aspekte, zu achten. Obwohl diese aufgrund des Betrachtungswinkels dieser Untersuchung nicht im Vordergrund stehen, soll auch auf substanztheoretische Überlegungen
eingegangen werden.
194
Kulturdimension
Österreich
Südkorea
Individualismus (IDV score)
55
18
Machtdistanz (PDI score)
11
60
Maskulinität (MAS score)
79
39
Unsicherheitsvermeidung (UAI score)
70
85
Tabelle 10: Österreich und Südkorea auf Hofstedes (1991, 1992) Kulturdimensionen
(Faktorscores, die sich im Bereich von 0 bis 100 verteilen; höhere Werte bedeuten
stärkere Ausprägung im Sinne der Dimensionsbeschreibung)
Als brauchbare Operationalisierung von Kultur bieten sich die Kulturdimensionen von
Hofstede (1991, 1992) an (vgl. zu der Bedeutung der Dimensionen Kapitel 3.3 auf Seite
30). Hinsichtlich des Individualismus-Kollektivismus unterscheiden sich Österreich und
Südkorea deutlich. Österreich weist darin einen Score von 55 auf und liegt damit im Mittelfeld aller von Hofstede betrachteten Kulturen. Südkorea zählt mit einem Score von 18
dagegen zu den kollektivistischen Kulturen. Substanztheoretisch führt dieser Gegensatz
zur Hypothese, wonach Südkorea von einem stärkeren Konsumentenethnozentrismus geprägt ist als Österreich. Begründen läßt sich diese Vermutung damit, daß ethnozentrische
Motive (Importe schaden der Volkswirtschaft, erhöhen Arbeitslosigkeit bzw. tragen dazu
bei) per definitionem kollektivbezogen sind. Der Erwerb eines importierten, aber billigeren Produkts statt eines aus heimischer Produktion, verschafft dem Individuum einen ökonomischen Vorteil, welcher - bei Annahme gleicher Qualität - in der Preisdifferenz der
beiden Produkte besteht. Gesamtgesellschaftlich führt dies - folgt man der Argumentation
des Ethnozentrismus - zu einem Schaden, welcher allerdings nicht unmittelbar das Individuum betrifft. Konsumentenethnozentrismus ist also unmittelbar mit der Abwägung individueller und gesamtgesellschaftlicher Nutzenaspekte verbunden.
Auf der Dimension Machtdistanz zählt Österreich zu den Kulturen mit der geringsten
Machtdistanz, während Südkorea einen sehr hohen Score aufweist. Da hohe Machtdistanz
hohe Durchsetzbarkeit sozialer Normen impliziert, spricht auch der Unterschied auf dieser Dimension für stärkeren Konsumentenethnozentrismus in Südkorea. Auf die auch
theoretisch enge Verbundenheit von Individualismus-Kollektivismus und Machtdistanz
wurde bereits früher hingewiesen.
195
Südkorea weist auf der Dimension Maskulinität einen deutlich geringeren Wert auf als
Österreich, legt also vergleichsweise mehr Gewicht auf Solidarität und Gemeingefühl.
Auch dies stützt die Hypothese höheren Ethnozentrismus in Südkorea. Schließlich ist die
Tendenz zur Unsicherheitsvermeidung in Südkorea etwas, aber nicht deutlich höher als in
Österreich. Eine Implikation für die substanztheoretische Hypothese des kulturellen Einflusses ergibt sich aus dieser Dimension daher nicht.
Auch die Kulturstandards (Thomas, 1991) Südkoreas belegen die auf Hofstede beruhenden Schlußfolgerungen. Brüch und Thomas (1995, S.31) bezeichnen starke Hierarchieorientierung als „das dominante Ordnungsprinzip der koreanischen Gesellschaft“ und
bestätigen damit die hohe Machtdistanz des Landes. Die Ursache dafür liegt in der langen
konfuzianischen Tradition als Philosophie und Staatsdoktrin unter der Yi-Dynastie
(1392-1910). Südkorea betont weiters sehr stark den Kulturstandard der Beziehungsorientierung (Brüch und Thomas, 1995, S.74). Auch dies hat Wurzeln im Konfuzianismus.
Im koreanischen wird die Haltung des Menschen, Werte des Kollektivs vor individuellen
Werten zu stellen, als Ui bezeichnet. Verbundenheit mit seinen Mitmenschen ist tugendhafter als kurzfristiges Profitstreben. Eng damit verbunden ist ein ausgeprägtes Harmoniestreben, ein Streben nach Eintracht und gemütlicher Atmosphäre. Mit individuellen
Zielen, welche auf Kosten anderer erreicht werden, ist nach koreanischer Auffassung eigentlich nichts erreicht. Auch dies spricht deutlich für die Annahme stärkerer konsumentenethnozentrischer Tendenzen im Vergleich zu mitteleuropäischen Kulturen.
Die Kulturstandards der Gruppenorientierung und der Loyalität verstärken die Basis dieser Hypothese. Koreaner sehen das Individuum stets als Element von Gruppen. „Dadurch
kommt es allgemein zu einer starken Unterscheidung zwischen Personen, die Mitglied in
der eigenen Gruppe sind, und solchen, die es nicht sind.“ (Brüch und Thomas, 1995,
S.89). Aufgrund der exponierten geographischen Lage, wurde Korea in der Geschichte regelmäßig von fremden Mächten (China, Japan) bedroht und angegriffen (in der Zeit der
Yi-Dynastie im Schnitt alle 1.44 Jahre!). Daraus resultieren starke und nach wie vor wirksame Unsicherheitsgefühle gegenüber Fremden. Der Aufbau von Vertrauen ist dementsprechend schwierig. Der Standard der Loyalität schließlich bewertet gegenseitige
Hilfsbereitschaft, Unterstützung und Förderung als äußerst positiv (Brüch und Thomas,
1995, S.99).
196
Auch andere Befunde sprechen für grundlegende Unterschiede zwischen den beiden betrachteten Kulturen und bestätigen die Ergebnisse von Hofstede, sowie von Brüch und
Thomas (1995). Du Preez et al. (1994) beschreiben Südkorea als typisches ostasiatisches
Land und Verbindungsglied von Asien und Japan. Zahlreiche aus westlicher Sicht japanische Kulturwerte gehen tatsächlich auf koreanische Ursprünge zurück. Südkorea zeichnet sich durch ein traditionell starkes, ökonomisch aktives Staatswesen aus, die
Gesellschaft teilt ausgeprägte national(istisch)e Gefühle. Wirtschaftlich bedeutsam ist
Südkoreas Fertigungsindustrie. So erreichte die Jahresproduktion der exportstarken Automobilindustrie 1990 bereits fast die Millionengrenze (987.000 Fahrzeuge, wobei
340.000 davon exportiert wurden). Den hohen Exportzahlen stand bis 1987 allerdings ein
völliges Einfuhrverbot für Kraftfahrzeuge gegenüber. Nach wie vor behindern tarifäre
Handelshemmnisse den Import äußerst effektvoll (im Jahre 1994 beliefen sich Einfuhrzölle für Autos auf etwa 100% des Warenwerts). Zusammenfassend ergibt sich eine inhaltlich
gut
fundierte
Hypothese,
wonach
Südkorea
durch
höheren
Konsumentenethnozentrismus charakterisiert ist als Österreich.
Diese Überlegungen geben jedoch keinerlei Aufschluß darüber, welche spezifischen
meßtheoretischen Faktoren die Vergleichbarkeit bedrohen könn(t)en. Tatsächlich sind inhaltlich-fundierte meßtheoretische Hypothesen wesentlich schwieriger zu entwickeln als
substanztheoretische. In aller Regel ist dies nicht weiter problematisch. Die meßtheoretische Zielsetzung unterscheidet sich von der substanztheoretischen fundamental dadurch,
daß auf der Substanzebene Unterschiede hypothetisch angenommen werden und Forschungsprojekte darauf abzielen, diese Unterschiede empirisch zu belegen. In der Terminologie des statistischen Hypothesentestens ist die Alternativhypothese quasi die
„Wunschhypothese“. Ein statistisch bedeutsamer Unterschied ohne inhaltlich fundierte
Hypothese, typisch für exploratives Vorgehen, ist nicht viel mehr als ein „Exemplar einer
Schmetterlingssammlung“, und eine Einbindung der empirischen Erkenntnis in einen
theoretischen Rahmen ist unmittelbar nicht möglich.
Bei der meßtheoretischen Prüfung dagegen ist die Nullhypothese, wonach kein Unterschied der Meßfunktionalität besteht (Biasfreiheit der Messung, gleiche Eignung der
Items zur Charakterisierung des Konstrukts, usw.), die „bevorzugte“ Hypothese. Die Prüfung der interkulturellen Validität zielt eben darauf ab, einen empirischen Beleg zu fin-
197
den, daß die Messung in den betrachteten Kulturen äquivalent erfolgt. Explizite a priori
Hypothesen, warum die Meßäquivalenz nicht gegeben sein sollte, erscheinen daher nicht
unbedingt erforderlich. Im Falle der Falsifikation der interkulturellen Validität ist jedoch
eine Ursachenexploration angezeigt, um Verbesserungen im Meßinstrument, dem Erhebungs- und/oder Forschungsdesign vornehmen zu können.
Ausdrückliche meßtheoretische Alternativhypothesen sind dann sinnvoll und notwendig,
wenn der Fokus auf meßtheoretische Fragestellungen gerichtet ist. Eine solche könnte
z.B. darin bestehen, die Eignung einer 10-stufigen Skala in zwei Kulturen zu untersuchen,
wobei eine Kultur stärker mit 10-stufigen Skalen vertraut ist (etwa aufgrund des Schulnotensystems) als die andere.
Im folgenden werden die beiden behandelten methodischen Ansätze zur Bestimmung der
Datenäquivalenz exemplarisch dargestellt.
10.2 Überprüfung der Datenäquivalenz mittels konfirmatorischer Mehrgruppen-Faktorenanalysen
Die Prüfung der Datenäquivalenz erfolgt entlang folgender Schritte (vgl. Abbildung 55
auf Seite 206):
• Teilung der Stichproben Österreich und Südkorea in ein Kalibrierungs- und in ein Validierungssample
• Überprüfung von Faktorenmodellen in beiden Kulturen (Kalibrierungssamples)
• Überprüfung der konfiguralen Invarianz (Mehrgruppenanalyse)
• Überprüfung der vollen metrischen Invarianz
• Fakultativ: Einschränkung auf partielle metrische Invarianz
• Überprüfung der vollen skalaren Invarianz
• Fakultativ: Einschränkung auf partielle skalare Invarianz
• Überprüfung der Ergebnisse an den Validierungssamples
10.2.1 Teilung der Stichproben
Die Teilung der Stichproben in ein Kalibrierungssample und ein Validierungssample
dient der Überprüfbarkeit der Ergebnisse im Sinne einer Kreuzvalidierung. Die Parameterschätzung und Testung der Invarianz erfolgt anhand der Kalibrierungssamples. Das
198
Endergebnis wird an den Validierungssamples kreuzvalidiert. Diese Vorgangsweise ist
angezeigt, da die Invarianzprüfung Schritte beinhaltet, welche eine Anpassung des Modells an die Daten vorsehen. So bestehen keine a priori Hypothesen, welche Items nicht
metrisch invariant sind und deren Parameter daher im Zuge der partiellen metrischen Invarianz nicht gruppenübergreifend geschätzt werden. Konkret wird eine zwischen 0 und
100 gleichverteilte Zufallsvariable zur Teilung der beiden Stichproben am jeweiligen Median herangezogen.2
Land
Österreich
Südkorea
Median der
Zufallsvariable
Stichprobenumfang
Stichprobenumfang
(insgesamt)
(unter Berücksichtigung von
fehlenden Werten)
Kalibrierungssample
n=553
n=548
Validierungssample
n=552
n=548
Kalibrierungssample
n=333
n=323
Validierungssample
n=334
n=334
Stichprobe
50.939
51.247
Tabelle 11: Kalibrierungs- und Validierungssamples
10.2.2 Überprüfung von Faktorenmodellen in beiden Kulturen
Die Invarianzprüfung basiert auf einem Vergleich von stringenteren Modellen mit einem
Basismodell der konfiguralen Invarianz. Die Haltbarkeit des Basismodells hängt neben
der gleichen Ladungsstruktur in den beiden Kulturen auch von der Güte des Modells innerhalb der Kulturen ab. Aus diesem Grund werden in beiden Stichproben vorerst getrennt konfirmatorische Faktorenanalysen durchgeführt, um die Eindimensionalität der
Daten zu prüfen und gegebenenfalls durch die Ausscheidung von Items zu gewährleisten.
Zwar ist Eindimensionalität nicht als absoluter Begriff zu sehen, sondern vielmehr „a relative matter“ (Andrich, 1988a, S.9) und hängt vom Anwendungsfall ab. Im konkreten
Fall ist eine Bestimmung der Eindimensionalität durch eine konfirmatorische Faktorenanalyse aber essentiell, da Folgeschritte eben auf letzterer aufbauen. Da die Prüfung der
2. Der SPSS 7.5 Befehl dazu lautet: [COMPUTE random = RV.UNIFORM(0,100)].
199
konfiguralen Invarianz auf denselben Items beruhen soll, wird darauf geachtet, bei der
Ausscheidung von Items in beiden Kulturen analog vorzugehen. Diese Prüfung und alle
folgenden basieren auf Parameterschätzungen und Modell-Fit-Bestimmungen im Rahmen von Lisrel Version 8.14 (Jöreskog und Sörbom, 1993)3.
Modell-Fit der 17
CETSCALE Items
Richtwert
für guten
Modell-Fit
Österreich
Südkorea
361.84b
(119)
<.01
χ2
(df)
p
(n.s.)a
681.85
(119)
<.01
RMSEA
< .08
.09
.08
AGFI
> .90
.80
.85
NFI
> .90
.85
.85
NNFI = TLI
> .90
.86
.88
Tabelle 12: Fit-Werte der getrennten konfirmatorischen Faktorenanalysen
auf der Basis der 17 CETSCALE-Items
a. Im Idealfall ist der χ2-Wert nicht signifikant. Zu beachten sind jedoch
die in Kapitel 6.4 auf Seite 107 behandelten Einschränkungen. An dieser Stelle werden auch alle anderen Fit-Indikatoren erläutert.
b. Der geringere χ2-Wert in Südkorea ist lediglich durch den kleineren
Stichprobenumfang zu erklären.
Die in Tabelle 12 ausgewiesenen Fit-Werte zeigen, daß die Eindimensionalität im Sinne
der faktorenanalytischen Ergebnisse nicht als gesichert gelten kann. Die Modifikationsindexwerte bezüglich der Fehlerkovarianzen geben Aufschluß über mögliche Verbesserungen des Modells. Zwar ist es im Prinzip möglich, Fehlerkovarianzen einzuführen, diese
als zu schätzen, aus theoretischer ist dies allerdings nicht zufriedenstellend (vgl. Salzberger, 1997), da mögliche Mehrdimensionalität dadurch maskiert werden könnte. Aus inhaltlichen Überlegungen erscheint es andererseits nicht sinnvoll, vom Konzept der
Eindimensionalität im Falle der CETSCALE abzuweichen. Eine nähere Betrachtung der
Items, deren Kovarianzen betroffen sind, zeigt, daß diese Items inhaltlich hochgradig
übereinstimmen, also die gleiche Facette des Konstrukt ausdrücken.4 Die hohe Übereinstimmung im Gehalt des Items führt offensichtlich zu einer über die auf die latente Di3. Die Syntax der Modelle wird für diese und alle weiteren Ebenen der Invarianzprüfung in
Anhang C bis H angegeben.
200
mension zurückzuführende Gemeinsamkeit hinausgehende Kovarianz. Das zweite Item
liefert keine Information, die auch nicht schon im ersten Item vorhanden ist. Aus diesem
Grund wird das zweite (im Instrument später folgende) Item ausgeschieden. Die Plausibilität dieser Entscheidung ist auch dadurch begründet, daß bei Konsistenzneigung der befragten Personen, die zweite Antwort von der ersten abhängt und nicht umgekehrt.
Nach der Ausscheidung eines Items wurden die Faktorenanalysen wiederholt und die FitWerte neu berechnet. In der Folge erweist sich die Eliminierung von sechs weiteren Items
als erforderlich, um akzeptable Modelle zu erhalten (vgl. Tabelle 13). Somit basiert die
weiterführende Analyse auf 10 CETSCALE Items5.
Modell-Fit der 10
CETSCALE Items
Richtwert
für guten
Modell-Fit
Österreich
Südkorea
83.19
(35)
<.01
χ2
(df)
p
(n.s.)
126.74
(35)
<.01
RMSEA
< .08
.07
.07
AGFI
> .90
.93
.93
NFI
> .90
.94
.91
NNFI = TLI
> .90
.95
.93
Tabelle 13: Fit-Werte der getrennten konfirmatorischen Faktorenanalysen
auf der Basis von zehn CETSCALE-Items
10.2.3 Überprüfung der konfiguralen Invarianz
Auf der Grundlage der zehn ausgewählten CETSCALE-Items erfolgt die Überprüfung
der konfiguralen Invarianz. Die χ2-Statistik ergibt sich logisch zwingend aus der Summe
der entsprechenden Statistiken der getrennten Modelle. Diese Größe dient als Referenzwert für Vergleiche mit Modellen metrischer und skalarer Invarianz. Die neuberechneten
Fit-Werte RMSEA, NFI und NNFI erweisen sich als zufriedenstellend. Dementsprechend
4. Als Beispiel seien die signifikanten Modifikationsindexwerte von 88.44 in Österreich bzw.
32.05 in Südkorea (Werte über 3.84 gelten als signifikant) für zwei Items angeführt, welche
einerseits die Meinung „Es sollten nur Produkte importiert werden, die nicht in Österreich/
Korea erhältlich sind.“ und andererseits die Aussage „Man sollte nur jene ausländischen Produkte kaufen, die nicht im eigenen Land verfügbar sind.“ zum Inhalt haben.
5. Die Darstellung der Items in Anhang A gibt Auskunft darüber, welche Items ausgeschieden
werden.
201
kann von einer grundlegenden interkulturellen Übereinstimmung von zehn CETSCALE
Items ausgegangen werden.
Modell-Fit der
10 CETSCALE Items
Richtwert für guten
Modell-Fit
Konfigurale Invarianz
(Österreich-Südkorea)
χ2
(df)
p
(n.s.)
209.93
(70)
<.01
RMSEA
< .08
.07
NFI
> .90
.93
NNFI = TLI
> .90
.94
Tabelle 14: Fit-Werte des Modells konfiguraler Invarianz auf der Basis von zehn
CETSCALE Items
10.2.4 Überprüfung der vollen metrischen Invarianz
Auf der Grundlage des Modells der konfiguralen Invarianz werden nun die Ladungsparameter aller Items gruppenübergreifend gleichgesetzt. Dadurch wird die Stringenz des Modells erhöht und der Modell-Fit im allgemeinen verringert. Die Signifikanz der ModellFit-Verschlechterung wird mittels χ2-Differenzentest geprüft. Im konkreten Fall verschlechtert sich der χ2-Wert von 209.93 (df=70) auf 259.89 (df=79). Somit ergibt sich ein
∆χ2 von 49.96 (df=9). Die kritische Grenze liegt bei einem Signifikanzniveau von 5% bei
16.92, die Fit-Verringerung ist also statistisch bedeutsam und das Modell der vollen metrischen Invarianz nicht haltbar.
10.2.5 Partielle metrische Invarianz
Die Modifikationswerte der Ladungsparameter geben einen Hinweis darauf, für welche
Items metrische Invarianz nicht besteht. Das Konzept der partiellen Invarianz sieht vor,
für diese Items die Beschränkung gleicher Parameterschätzungen aufzuheben. Im Beispiel wird schrittweise vorgegangen und nach der Aufhebung der Beschränkung für ein
Item eine Bestimmung des Modell-Fits vorgenommen. Schließlich wird für drei Items6
die Hypothese metrischer Invarianz verworfen, gleichbedeutend mit der Haltbarkeit der
metrischen Invarianz für sieben CETSCALE Items. Die Prüfstatistik ∆χ2 ist mit 10.22 bei
6. Anhang A gibt Aufschluß, um welche Items es sich dabei handelt.
202
df=6 geringer als der kritische Wert χ25%=12.59. Darüber hinaus ist nun kein Modifikationsindexwert signifikant.
10.2.6 Überprüfung der vollen skalaren Invarianz
Da drei Items metrisch nicht invariant sind, bezieht sich die Prüfung der „vollen“ skalaren
Invarianz nur auf die verbleibenden sieben Items. Lediglich für diese werden nun die
Item-Intercepts auf den gleichen Schätzwert restringiert. Das resultierende ∆χ2=307.37
bei df=12 übertrifft den kritischen Wert χ25%=21.03 deutlich, die Fit-Verschlechterung
erweist sich somit als signifikant.
10.2.7 Partielle skalare Invarianz
Analog zur partiellen metrischen Invarianz werden nun für einzelne Items die Intercepts
frei, d.h. in beiden Gruppen getrennt, geschätzt. Wieder liefern die Modifikationsindexwerte Anhaltspunkte zur Auswahl dafür relevanter Items. Nach iterativer Vorgangsweise
(Itemauswahl, Fitbestimmung, Itemauswahl, usw.) werden die Beschränkungen für drei
Item-Intercepts7 aufgehoben. Für vier Items ist die Hypothese der skalaren Invarianz haltbar. Die Fitdifferenz ∆χ2 beträgt 12.66 bei df=9 und liegt unter dem kritischen Wert
χ25%=16.92.
10.2.8 Kreuzvalidierung der Ergebnisse
Die Wiederholung der Analysen mit den Validierungssamples bestätigt alle Ergebnisse,
welche auf der Basis der Kalibrierungssamples abgeleitet worden sind. Die Resultate im
Detail, sowie eine Zusammenfassung der Prüfschritte der Invarianzprüfung gibt Tabelle
15 wieder. Abbildung 55 stellt den Ablaufplan der Untersuchung dar. Die dabei verwendeten Item-Codes sind im Anhang A erläutert.
7. Anhang A gibt Aufschluß, um welche Items es sich dabei handelt.
203
Samples
Kalibrierung
χ2
∆χ2
χ25%
(df)
(df)
(df)
Konfigurale Invarianza
209.93
-
-
Volle metrische Invarianz
259.89
49.96
16.92
(79)
(9)
(9)
220.15
10.22
12.59
(76)
(6)
(6)
Skalare Invarianzb
517.30
307.37
21.03
(82)
(12)
(12)
Partielle skalare Invarianz
222.59
12.66
16.92
(79)
(9)
(9)
253.07
-
-
262.38
9.31
12.59
(76)
(6)
(6)
264.48
11.41
16.92
(79)
(9)
(9)
Modell
Partielle metrische Invarianz
Validierung
Konfigurale Invarianz
(70)
(70)
Partielle metrische Invarianz
Partielle skalare Invarianz
Tabelle 15: Schritte der Invarianzprüfung (Kalibrierungssamples) und Kreuzvalidierung
(Validierungssamples) auf der Basis von 10 CETSCALE Items
a. Basismodell
b. Auf der Basis der partiellen metrischen Invarianz
10.2.9 Zusammenfassung der Analyseschritte
Abbildung 55 stellt die Analyseschritte des faktorenanalytischen Ansatzes und deren Zielsetzungen
zusammenfassend dar. Zunächst erfolgt eine Teilung der Stichproben, um eine Kreuzvalidierung
der Ergebnisse zu ermöglichen. Konfirmatorische Faktorenanalysen, welche unabhängig voneinander für den österreichischen und den südkoreanischen Datensatz vorgenommen werden, dienen
dazu, die Eindimensionalität der Items zu gewährleisten. Im konkreten Fall der CETSCALE führt
dies zu einer Reduktion der ursprünglich 17 Items auf zehn. Daran anschließend erfolgt die Schätzung des Basismodells der konfiguralen Invarianz. Dieses Modell wird simultan für beide Kulturen
geprüft. Der χ2-Wert (209.93) dient als Vergleichswert der Modellgüte für Modelle der metrischen
und skalaren Invarianz. Aufbauend auf einer übereinstimmenden Struktur wird die volle metrische
Invarianz der zehn Items geprüft. Für drei Items wird die Hypothese der metrischen Invarianz zurückgewiesen, volle metrische Invarianz somit nicht bestätigt. Für sieben metrisch invariante Items
erfolgt abschließend die Prüfung auf skalare Invarianz durch Gleichsetzung der Item-Intercepts.
204
Für drei Items läßt sich skalare Invarianz nicht bestätigen, vier Items erweisen sich als
skalar invariant. Die partielle skalare Invarianz bezieht sich daher auf vier Items, drei weitere sind nur metrisch invariant und ebenfalls drei Items nur konfigural invariant. Die
Kreuzvalidierung überprüft die Modelle der konfiguralen, partiell metrischen und partiell
skalaren Invarianz und bestätigt die Ergebnisse auf allen drei Ebenen.
205
Ziele und Analysen
Datenbasis
CETSCALE 17
Südkorea (KOR)
(Sharma et al., 1995)
17 Items, n=667
Ziel:
Test auf interkulturelle Vergleichbarkeit: Test auf konfigurale, metrische und skalare Invarianz
CETSCALE 17
Österreich (AT)
(Sinkovics, 1998)
17 Items, n=1105
n=333
n=553
Split in:
Split in:
n=334
n=552
KalibrierungsKalibrierungssample Validierungs- sample Validierungssample
sample
Validierungssamples
konfirmator. Faktorenanalyse (CFA)
für AT und KOR separat
Ziel: Test auf Eindimensionalität der
CETSCALE
Kalibrierungssamples
Items eliminiert:
t16, t12, t15, t7, t13, t9, t14
Südkorea
10 Items
eindimensional
RMSEA=.065
graduelle Elimination
von Items
Ziel: akzeptabler Goodness-of-Fit der eindimensionalen Modelle
Österreich
10 Items
eindimensional
RMSEA=.069
Kriterium:
Modifikationsindices
multi-group CFA (AT und KOR)
Constraints auf non-salient loadings
Ziel: Test auf konfigurale Invarianz
konfigurale Invarianz bestätigt (10 Items)
RMSEA=.068
Basismodell mit χ2=209.93, df=70
multiple-group CFA
equality constraints auf salient loadings
Ziel: Test auf metrische Invarianz
volle metrische Invarianz nicht bestätigt
∆χ2=49.96, df=9, p<.05
equality constraints
aufgehoben: t8, t1, t4
multi-group CFA
einige equality
constraints aufgehoben
Ziel: Test auf partielle
metrische Invarianz
partielle metr. Invarianz bestätigt (7 Items)
∆χ2=10.22, df=6, p>.05
Kriterium:
Abbildung 55: Empirische Überprüfung der interkulturellen Validität der
CETSCALE am Beispiel von Österreich und Südkorea mittels konfirmatorischer Mehrgruppen-Faktorenanalysen
206
Ziele und Analysen
Datenbasis
Validierungssamples Metrische Invarianz
multi-group CFA
equality constraints auf Item-Intercepts
Ziel: Test auf skalare Invarianz
skalare Invarianz nicht bestätigt
∆χ2=307.36, df=12, p<.05
equality constraints
aufgehob.: t10, t17, t5
multi-group CFA
einige equality
constraints aufgehoben
Ziel: Test auf partielle
skalare Invarianz
partielle skalare Invariance bestät. (4 Items)
∆χ2=12.66, df=9, p>.05
Kriterium:
Validierungssamples
konfigurale Invarianz bestätigt (10 Items)
RMSEA=.077
Basismodell mit χ2=253.07, df=70
multi-group CFA (AT und KOR)
Constraints auf non-salient loadings
Ziel: Test auf konfigurale Invarianz,
Kreuzvalidierung
multi-group CFA, partielle equality
constraints auf Ladungen
Ziel: Test auf partielle metrische
Invarianz, Kreuzvalidierung
partielle metrische Invar. bestät. (7 Items)
∆χ2=9.31, df=6, p>.05
multi-group CFA, partielle equality
constraints auf Item-Intercepts
Ziel: Test auf partielle skalare Invarianz, Kreuzvalidierung
partielle skalare Invarianz bestät. (4 Items)
∆χ2=11.41, df=9, p>.05
Abbildung 55: (Forts.) Empirische Überprüfung der interkulturellen Validität der
CETSCALE am Beispiel von Österreich und Südkorea mittels konfirmatorischer Mehrgruppen-Faktorenanalysen
207
10.2.10 Vergleichbarkeit der CETSCALE in Österreich und Südkorea
Die Überprüfung der interkulturellen Validität der CETSCALE für Österreich und Südkorea auf der Basis der Faktorenanalyse stützt die Hypothese der Vergleichbarkeit und
Aussagekraft von Mittelwertsvergleichen über Kulturen hinweg. Zehn Items erfüllen die
Bedingung konfiguraler Invarianz, sieben davon sind darüber hinaus metrisch, vier auch
skalar invariant. Mittelwertsvergleiche auf der Basis von Rohscores sind nur für skalar invariante Items zulässig. Um eine Beschränkung auf vier Items (und damit unweigerlich
eine Reduktion von Reliabilität und in der Folge Validität der Skala) zu vermeiden, wird
die substanztheoretische Hypothese eines Mittelwertsunterschieds ebenfalls im Rahmen
der konfirmatorischen Mehrgruppen-Faktorenanalyse geprüft. Ausgehend vom Modell
der partiellen skalaren Invarianz wird eine weitere Beschränkung der Parameterschätzung
- hinsichtlich des Mittelwerts der latenten Variable, also des Faktors - eingeführt und damit die Nullhypothese repräsentiert. Führt diese Beschränkung auf die gleiche Parameterschätzung zu einer signifikanten Fitverschlechterung, so sind die latenten Mittelwerte
verschieden. Sowohl die Kalibrierungs- als auch die Validierungsdaten führen zur Verwerfung der Nullhypothese. Die Verschlechterung des Fits ist in beiden Fällen signifikant
(∆χ2=183.06, df=1, p<.0001 bzw. ∆χ2=212.90, df=1, p<.0001). Südkorea weist also höhere Werte des Konsumentenethnozentrismus auf als Österreich.
10.3 Überprüfung der Datenäquivalenz auf der Basis der Latent Trait Theory
Aufgrund der in Kapitel 7 ausführlich beschriebenen besonderen Eigenschaften des
Rasch-Modells wird die Anwendbarkeit von Latent Trait Theory basierten Modellen vorerst auf dieses Modell eingeschränkt. Als Ausgangspunkt der Analysen dient der österreichische Datensatz, wobei die erste Zielsetzung in der Überprüfung der Modellkonformität
der Daten besteht. Erweisen sich die Daten nämlich als nicht durch das Rasch-Modell beschreibbar, so ist eine Überprüfung der Datenäquivalenz auf der Basis des betrachteten
Latent Trait Theory Modells nicht möglich. Wenn und nur wenn polytome Modelle falsifiziert werden, können allerdings Antwortkategorien zusammengefaßt werden, um die
Tauglichkeit dichotomer Modelle zu prüfen. Die Wahl des österreichischen Datensatzes
ist darin begründet, daß dieser aus mehr, nämlich jenen 117 Items besteht, welche den ursprünglichen Itempool zur Entwicklung der CETSCALE in den USA darstellen. Die Modellprüfung zielt daher nicht nur auf die Prüfung der Modellkonformität der 17 Items
umfassenden CETSCALE als notwendige Voraussetzung für Vergleiche mit dem südko-
208
reanischen Datensatz ab, sondern auch auf die Entwicklung eines, möglicherweise, umfassenderen Rasch-Modell-konformen Instruments für Österreich.
Die zweite Zielsetzung der Analysen besteht in der Überprüfung der südkoreanischen Daten auf deren Übereinstimmung mit dem Rasch-Modell. Schließlich besteht die darauf
aufbauende dritte Zielsetzung in der Analyse der Vergleichbarkeit der Daten. Abbildung
56 gibt die konkreten Ablaufschritte wieder.
Überprüfung des
polytomen Rasch-Modells
in Österreich
Überprüfung des
polytomen Rasch-Modells
in Südkorea
für modellkonforme Items
wenn Zusammenfassung von
Kategorien
erforderlich
Vergleich der
Modell-Parameter in
Österreich und Südkorea
wenn Zusammenfassung von
Kategorien
erforderlich
Überprüfung des
dichotomen Rasch-Modells
in Österreich
für nicht modellkonforme Items
Überprüfung des
dichotomen Rasch-Modells
in Südkorea
Vergleich der
Modell-Parameter in
Österreich und Südkorea
One-parameter model von Rasch
Überprüfung des
Modells von Birnbaum
in Österreich
Two-parameter model von Birnbaum
Abbildung 56: Ablaufplan der empirischen Überprüfung der interkulturellen Validität
der CETSCALE am Beispiel von Österreich und Südkorea mittels Latent
Trait Theory basierter Modelle
209
10.3.1 Überprüfung des polytomen Rasch-Modells in Österreich
Da die einzelnen Antwortkategorien der CETSCALE Items (einschließlich derer im ursprünglichen Itempool) nicht verbalisiert sind8, sondern lediglich die Endpunkte der Skala, wird keine itemübergreifende Einschränkung hinsichtlich der Thresholds
vorgenommen (wie dies beim Rating-Scale-Modell der Fall ist). Statt dessen wird das allgemeinste Rasch-konforme Modell für polytome Daten, das Partial Credit Model (Masters, 1982; Andrich, 1988b), der Analyse zugrundegelegt. Somit ist für alle Items die
meßtheoretische Hypothese formuliert, daß die Antwortkategorien geordnet sind, also
Ordinalskalenniveau aufweisen. Es wird weder davon ausgegangen, daß die Abstände
zwischen zwei aufeinanderfolgende Kategorien innerhalb eines Items gleich sind, noch
daß Abstände zwischen zwei bestimmten Kategorien für alle Items gleich sind. Im Vergleich zur klassischen Testtheorie, wo Äquidistanz innerhalb aller und über alle Items angenommen wird, sind die hier getroffenen Voraussetzungen deutlich weniger
anspruchsvoll und - vor allem - empirisch überprüfbar. Alle Parameterschätzungen werden mit WINMIRA (von Davier, 1996) vorgenommen.
Da das Rasch-Modell von der Eindimensionalität der Items ausgeht, wird vorerst der gesamte Itempool (117 Items) einer explorativen Faktorenanalyse (Hauptachsenmethode)
unterzogen9. Es wird keine Rotation der Lösung vorgenommen, da kein mehrdimensionales Konstrukt abgeleitet werden soll. Alle Items, deren Ladungswert auf dem ersten
Faktor kleiner als .5 ist, werden aus der weiteren Betrachtung ausgeschlossen. Auf der Basis dieses Kriteriums verbleiben 44 Items10 für eine anschließende konfirmatorische Faktorenanalyse, um die Eindimensionalität zu prüfen. Analog zur Vorgangsweise im Zuge
der Prüfung der Datenäquivalenz mittels konfirmatorischer Mehrgruppen-Faktorenanalysen, werden solange Items ausgeschieden, bis kein signifikanter Modifikationsindex bezüglich Fehlerkovarianzen mehr besteht und der Modellfit zufriedenstellend ist.
Schließlich wird ein Set von 26 Items ausgewählt, welches die Grundlage für die Prüfung
der Anwendbarkeit des polytomen Rasch-Modells darstellt. Darin sind 13 der
17 CETSCALE-Items, sowie alle zehn CETSCALE Items enthalten, welche der Aus8. Wenn alle Kategorien verbalisiert sind (z.B. mit stimme stark zu, stimme zu, stimme eher zu,
lehne eher ab, lehne ab, lehne voll ab), so ist es plausibel anzunehmen, daß diese Skala über
alle Items gleiche Funktionalität, also insbesondere gleiche Abstände über alle Items, aufweist.
9. Da die konfirmatorische Faktorenanalyse aller 117 Items keine Konvergenz zeigte, wurde
diese Analyse vorgeschalten.
10.Darin sind alle 17 CETSCALE Items enthalten.
210
gangspunkt der konfirmatorischen Mehrgruppen-Faktorenanalysen war. Für die Modellprüfung werden die Daten wieder in ein Kalibrierungs- und in ein Validierungssample
geteilt, um bei Modellkonformität eine Kreuzvalidierung zu ermöglichen.
Q-Index:
p(x>zq)
Itemlabel
Analyse auf der Basis von ...
26 Items
17 Items
16 Items
V038
0.99842
-
-
V037
0.99946
-
-
V031
0.99652
-
-
V063
0.99657
-
-
V035
0.99669
-
-
V079
0.93016
0.89182
0.84786
V034
0.96605
0.88934
0.87448
V028
0.90840
0.70071
0.64246
V081
0.83738
0.85464
0.83061
V097
0.88564
0.92888
0.92305
V054
0.59058
0.60559
0.53556
V050
0.67457
0.71893
0.60548
V093
0.28255
0.35156
0.28631
V103
0.96193
0.79963
0.74242
V082
0.69625
0.74743
0.71604
V019
0.04639
0.02447
0.01576
V048
0.01739
0.00904
V069
0.10227
0.08771
0.05641
V027
0.36616
0.59742
0.61271
V046
0.31276
0.42925
0.42067
V077
0.00058
V095
0.11714
0.07405
-
0.03933
Tabelle 16: Polytomes Rasch-Modell in Österreich: Test des Item-Fits mittels des
Q-Index (Rost und von Davier, 1994)
211
Q-Index:
p(x>zq)
Itemlabel
Analyse auf der Basis von ...
26 Items
17 Items
0.27988
16 Items
V001
0.16782
0.23221
V021
0.00208
-
-
V062
0.00000
-
-
V010
0.00003
-
-
Tabelle 16: (Forts.) Polytomes Rasch-Modell in Österreich: Test des Item-Fits
mittels des Q-Index (Rost und von Davier, 1994)
Die Modellprüfung erfolgt in zwei Teilschritten. Ehe die Ordnungshypothese überprüft
wird, wird zu Beginn der Item-Fit analysiert, wobei ausschließlich der Q-Index (Rost und
von Davier, 1994) herangezogen wird11. Items, welche entweder zu stark diskriminieren
(Wahrscheinlichkeit des Q-Index über 99%12) oder zu geringe Diskriminanz aufweisen
(Wahrscheinlichkeit des Q-Index unter 1%), werden ausgeschieden. Die Modellschätzung wird wiederholt und der Item-Fit von neuem geprüft. Im konkreten Anwendungsfall
erweisen sich zunächst fünf Items (V038, V037, V031, V063 und V035) als überdiskriminierend und vier Items (V077, V021, V062 und V010) als unterdiskriminierend. Die
Werte nicht modellkonformer Items sind in Tabelle 16 kursiv dargestellt. In der daran anschließenden Analyse der verbleibenden 17 Items wird ein weiteres Item (V048) ausgeschieden. Die restlichen 16 Items erweisen sich als modellkonform und bilden die
Grundlage für die Überprüfung der Ordnungshypothese. Tabelle 17 gibt die ThresholdParameter dieser Items wieder. Sämtliche Items weisen zumindest einmal, in der Regel
jedoch zwei- oder mehrmals sogenannte reversed Thresholds auf (Thresholds, welche Parameter aufweisen, die kleiner als die von vorangegangenen Thresholds sind, sind kursiv
dargestellt). Damit muß die Ordnungshypothese als falsifiziert gelten! Die sieben Antwortkategorien weisen kein Ordinalskalenniveau auf. Aus diesem Grund werden für weiterführende Analysen die Daten dichotomisiert. Dies mag - aus der Perspektive der
klassischen Testtheorie - wie ein Verzicht auf Information aussehen. Aus der Sicht der
11.Die ausschließliche Verwendung dieses Index beruht zum einen - pragmatisch - darauf, daß
WINMIRA diesen als einzigen ausgibt und die Berechnung anderer Fitwerte im polytomen
Fall sehr komplex ist, zum anderen aber darauf, daß die Überprüfung der Ordnungshypothese
im Vordergrund steht.
12.Das Signifikanzniveau wird mit 1% gewählt, da bei einem höheren Niveau die Gefahr besteht,
durchaus modellkonforme Items auszuscheiden.
212
Latent Trait Theory ist dieser Schritt allerdings als Konsequenz daraus zu interpretieren,
daß die Ordnung der Thresholds nicht gegeben ist und die scheinbar gegebene Präzision
der siebenstufigen Skala faktisch nicht gewährleistet ist. Abbildung 57 stellt die CCCs für
ein ausgewähltes Item dar.
Itemlabel Threshold 1 Threshold 2 Threshold 3 Threshold 4 Threshold 5 Threshold 6
V079
-0.135
-0.093
-0.792
0.021
0.743
0.240
V034
0.163
0.249
-0.800
0.210
-0.265
1.560
V028
0.857
0.381
-0.871
1.261
0.482
1.519
V081
-0.200
0.090
-1.008
0.422
-0.322
0.715
V097
-0.732
-0.505
-0.962
-0.733
0.179
0.992
V054
-0.511
-0.247
-0.630
0.011
0.300
1.087
V050
-0.890
-0.333
-0.948
-0.179
0.155
0.528
V093
0.172
-0.094
-1.078
0.308
0.347
0.110
V103
0.621
0.567
-0.161
1.020
1.070
1.509
V082
-0.817
-0.300
-1.017
-0.210
0.246
1.029
V019
0.795
0.361
-1.117
0.909
0.798
0.932
V069
0.207
0.483
-0.604
0.843
0.288
1.350
V027
0.240
-0.118
-1.429
-0.165
0.031
0.461
V046
-1.429
-0.608
-1.255
-0.645
-0.258
-0.022
V095
-0.169
-0.562
-1.659
0.541
-0.045
0.988
V001
-0.765
-0.565
-1.016
-0.467
-0.736
0.071
Tabelle 17: Threshold-Parameter im Partial Credit Model für 16 Items in
Österreich
Zuvor wird jedoch überprüft, ob das polytome Rasch-Modell und damit die Ordnungshypothese für den südkoreanischen Datensatz haltbar ist.
213
P(avi=x | τi, βv)
1
1
7
0.5
6
2
5
4
3
τi, βv
0
Abbildung 57: Category characteristic curves (CCCs) für ein polytomes Item (V001)
mit sieben Antwortkategorien
10.3.2 Überprüfung des polytomen Rasch-Modells in Südkorea
Um die Parallelität der Analysen des österreichischen und des südkoreanischen Datensatzes zu bewahren, werden jene 13 CETSCALE Items herangezogen, welche im 26 Items
umfassenden Set enthalten sind, welches die Grundlage der entsprechenden Untersuchungen in Österreich war. Die Analyse erfolgt völlig analog zu jener in Österreich. Der QIndex gibt im Falle Südkoreas keinerlei Hinweise, daß Items unter- oder überdiskriminieren (vgl. Tabelle 18).
Q-Index:
p(x>zq)
Itemlabel
t1
0.53267
t2
0.07105
t3
0.65068
t4
0.08934
t5
0.70915
t6
0.79415
t7
0.91073
Tabelle 18: Polytomes Rasch-Modell in Südkorea: Test des Item-Fits mittels
des Q-Index (Rost und von Davier, 1994)
214
Q-Index:
p(x>zq)
Itemlabel
t8
0.64594
t9
0.57535
t10
0.04010
t11
0.86109
t13
0.63695
t17
0.26651
Tabelle 18: (Forts.) Polytomes Rasch-Modell in Südkorea: Test des Item-Fits
mittels
Die Inspektion der Threshold-Parameter ergibt jedoch ein ähnliches Bild, wie es bereits
bei der Analyse des österreichischen Datensatzes festgestellt wurde. Jedes Items zeichnet
sich durch zumindest zwei reversed Thresholds aus (vgl. Tabelle 19). Das polytome Modell erweist sich damit weder für Österreich, noch für Südkorea als tragfähig. Die Eignung
von mehrstufigen Antwortskalen ist - zumindest im vorliegenden Fall der CETSCALE äußerst fragwürdig. Die befragten Personen sind offensichtlich nicht in der Lage, zwischen diesen Kategorien ordinal zu differenzieren. Für die Anwendung klassischer Verrechnungsmuster (Addition aller Antworten zu einem Gesamtscore) stellt dieser Befund
eine fundamentale Bedrohung dar.
t1
0.043
-0.825
-1.009
1.016
-0.270
-0.061
t2
-0.264
0.370
-0.754
0.980
0.309
0.065
t3
-1.971
-0.439
-0.993
-0.081
-0.250
-0.165
t4
-0.260
0.123
-0.230
1.458
1.492
0.756
t5
0.369
-1.025
-0.542
1.054
0.031
1.057
t6
-0.446
-0.574
-0.151
0.563
0.311
0.630
t7
-0.842
-0.167
-0.399
0.786
-0.019
0.898
t8
-0.068
-1.938
-1.121
0.322
-0.755
0.400
t9
1.095
-0.821
-0.718
0.575
0.342
0.798
t10
-1.013
0.165
-0.535
0.540
-0.369
0.266
Tabelle 19: Threshold-Parameter im Partial Credit Model für 13 Items in Korea
215
t11
-0.320
-0.449
-0.426
0.615
0.162
1.154
t13
-0.783
-0.446
-0.478
0.542
0.215
1.068
t17
-0.120
-0.511
-0.656
0.471
0.948
1.279
Tabelle 19: (Forts.) Threshold-Parameter im Partial Credit Model für 13 Items in
10.3.3 Überprüfung des dichotomen Rasch-Modells in Österreich
Da sich das polytome Modell bei keinem Item als tragfähig erwiesen hat, werden die Daten nun dichotomisiert13, um die Übereinstimmung mit dem dichotomen Rasch-Modell
zu überprüfen. Analog zu den Prüfschritten für das polytome Modell, bildet der 26 Items
umfassende Datensatz aus Österreich den Ausgangspunkt der Analysen. Diese 26 Items
sind im Sinne der konfirmatorischen Faktorenanalysen als eindimensional zu betrachten.
Die Modellübereinstimmung jedes Items wird anhand folgender Kriterien beurteilt:
• Item-Q-Index von Rost und von Davier (1994)
• Log-Likelihood-Quotient (Reise, 1990)
• Q1-Index (Hambleton et al., 1991)
• Invarianz der Itemparameterschätzung für eine Stichprobenteilung nach Kalibrierungs/Validierungssample, Geschlecht, Score und Alter der Personen
Der Item-Q-Index gibt Aufschluß darüber, ob das Item über- oder unterdiskriminiert. Dieser Index wird von WINMIRA (von Davier, 1996) ausgegeben. Der Log-LikelihoodQuotient stellt einen Vergleich der wahrscheinlichsten, theoretisch erwarteten, und der
tatsächlichen Itemantwort dar, der Q1-Index prüft die Residuen (Abweichungen der tatsächlichen Antwortwahrscheinlichkeiten von den theoretischen) auf Signifikanz. Diese
beiden Kennwerte werden gemäß ihrer Definition mittels Microsoft Excel berechnet. Die
Invarianzprüfung basiert auf der Stichprobenunabhängigkeit des Rasch-Modells, wonach
die Parameterschätzungen stets gleich sein müssen und nur zufällig voneinander abweichen dürfen. Die empirische Überprüfung entspricht daher einem Test auf Differential
Item Functioning und beruht auf einer χ2-verteilten Prüfgröße. Auch diese Berechnung
wird mittels Microsoft Excel durchgeführt14. Der Vergleich der beiden auf Zufallsbasis
13.Die originalen Itemkodierungen 1 bis 4 und 5 bis 7 wurden jeweils zusammengefaßt.
14.Die entsprechenden Teilergebnisse sind in Anhang J bis M angeführt.
216
geteilten Samples (Kalibrierungs- und Validierungsstichprobe) stellt dabei den Test mit
der geringsten Macht (im statistischen Sinne) dar, da beide Stichproben die gleiche Verteilung haben. Anspruchsvoller sind die Vergleiche von Männern und Frauen, sowie von
Personen unter bzw. über 35 Jahren. Am empfindlichsten auf Modellverletzungen reagiert der Vergleich der Personen mit hohem Rohscore mit solchen mit geringem Rohscore
(Scoregruppen). Bei Gültigkeit des Rasch-Modells müssen sich nichtsdestotrotz gleiche
Parameterschätzungen ergeben. Im Birnbaum-Modell, welches unterschiedliche Diskriminanzen zuläßt, ist dies praktisch auszuschließen.
Alle angeführten Fit-Statistiken sind in Anhang I wiedergegeben. Die Selektion nicht modellkonformer Items erfolgt durch simultane Betrachtung der Fit-Indikatoren. Keiner der
Kennwerte kann als singuläres Entscheidungskriterium herangezogen werden, da jeweils
unterschiedliche Formen von Misfit angezeigt werden15. Im ersten Schritt werden neun
Items16 ausgeschieden, welche beim Vergleich der Scoregruppen signifikant (α=1%) unterschiedliche Parameterschätzungen aufweisen. Bei all diesen Items ist auch zumindest
ein Item-Q-Index in der Kalibrierungs- oder Validierungsstichprobe signifikant. Aufgrund signifikanter (α=1%) Q1-Indexwerte oder signifikanter Invarianztests werden vier
weitere Items17 als nicht modellkonform ausgeschlossen. Schließlich wird ein Item18 wegen signifikanter Q1-Indexwerte im Kalibrierungs- und im Validierungssample, sowie
gleichzeitig signifikantem Likelihood-Quotienten ausgeschieden.
Somit verbleiben zwölf Items, welche dem dichotomen Rasch-Modell in Österreich entsprechen. Acht dieser Items sind Bestandteil der CETSCALE, vier Items entstammen
dem erweiterten Itempool.
10.3.4 Überprüfung des dichotomen Rasch-Modells in Südkorea
Im nächsten Prüfschritt werden jene acht in Österreich modellkonformen CETSCALE
Items auf ihre Modellübereinstimmung in Südkorea untersucht. Als Kriterium dienen der
Item-Q-Index von Rost und von Davier (1994), der Log-Likelihood-Quotient (Reise,
15.Die Situation ist ähnlich der der Fitbeurteilung in Strukturgleichungsmodellen. Die einzelnen
Indikatoren sollten daher nicht überbewertet werden. Aus diesem Grund wird das Signifikanzniveau mit 1% festgesetzt.
16.Es sind dies die Items V038, V037, V031=t1, V063=t7, V034, V095, V021, V062 und V010.
17.Es handelt sich um V097, V048=t2, V046=t3 und V001.
18.Item V077=t10
217
1990) und der Q1-Index (Hambleton et al., 1991). Die entsprechenden Statistiken sind
Anhang N zu entnehmen. Bei lediglich einem Item19 bestehen deutliche Hinweise auf
mangelnde Modellkonformität. Der Likelihood-Quotient, sowie der Q1-Index sind signifikant, der Item-Q-Index weist tendenziell auf Unterdiskriminanz hin. Dieses Item wird
folglich ausgeschieden. Sieben der acht CETSCALE Items gelten somit als dem RaschModell entsprechend und bilden die Grundlage für die Überprüfung der interkulturellen
Vergleichbarkeit.
10.3.5 Überprüfung der interkulturellen Vergleichbarkeit (Österreich - Südkorea)
Die interkulturelle Vergleichbarkeit der CETSCALE Daten auf der Basis der Latent Trait
Theory (eingeschränkt auf sieben Items) ist dann gegeben, wenn die geschätzten Itemparameter in beiden Kulturen übereinstimmen. Sind die Schätzwerte hingegen signifikant
verschieden, so unterliegen diese Items einer unterschiedlichen, kulturabhängigen Meßfunktionalität (Differential Item Functioning, DIF). DIF kann zwei Formen annehmen
(vgl. Abbildung 50 auf Seite 176). Zum einen können die Items in verschiedenen Kulturen
zwar den gleichen Aufforderungscharakter haben, aber unterschiedlich diskriminieren
(nonuniform DIF). Zum anderen kann bei gleicher Diskriminanz der Aufforderungscharakter nicht übereinstimmen (uniform DIF). Da die Items intrakulturell dem Rasch-Modell entsprechen, bestehen im konkreten Anwendungsfall keine Abweichungen der
empirischen und der erwarteten Itemdiskriminanz, nonuniform DIF ist daher auszuschließen. Der Vergleich der Itemparameter prüft somit, inwieweit uniform DIF besteht. Vor
der Analyse werden die Itemparameter in Österreich und in Südkorea neu geschätzt20.
Ein erstes Prüfkriterium der Invarianz der Parameterschätzungen stellt die Reihenfolge
der Items nach deren Schwierigkeitsparameter dar. Tabelle 2021 enthält die Itemparameter in Österreich und Südkorea, sowie die jeweilige Rangzahl22. Die Rangreihenfolge differiert offensichtlich stark. Beispielsweise nimmt das in Österreich „leichteste“ Item in
19.Item V035=t4.
20.Die Übernahme von Itemparametern aus vorangegangenen Kalibrierungen ist aus zwei Gründen nicht möglich. Erstens beeinflussen nicht modellkonforme Items die Schätzungen der
Parameter, zweitens ist der Ursprung der Skala der Itemparameter durch den Mittelwert der
Itemparameter definiert. Ein Vergleich von Parametern setzt jedoch die gleiche Skala voraus.
Daher müssen die Schätzungen in Österreich und in Südkorea auf der gleichen Itemanzahl
basieren.
21.Eine ausführlichere Auflistung befindet sich im Anhang O.
22.Bei einer Rangteilung wurde ein mittlerer Rang vergeben.
218
Südkorea den fünften Rangplatz ein. Insgesamt korrelieren die beiden Rangfolgen nicht
signifikant (Spearman’s rho, r=.41, p=.36).
δ
Österreich
Itemcodes
Wert
δ
Südkorea
Rang
Wert
DIF χ2
df=1
fett=sig.1%
Rang
krit.χ21%,df=1= 6.6349
v082
t13
-1.033
1
0.279
5
91.44
V081
t9
-0.575
2.5
0.120
3
25.08
V093
t11
-0.575
2.5
0.091
2
22.99
V054
t6
-0.411
4
0.186
4
18.39
V079
t8
-0.305
5
-1.548
1
56.68
V028
t5
1.304
6
0.390
6
33.95
v103
t17
1.594
7
0.482
7
46.65
Tabelle 20: Test auf interkulturelle Vergleichbarkeit von sieben CETSCALE Items
in Österreich und Südkorea mittels des dichotomen Rasch-Modells
Die deutlich unterschiedliche Rangfolge weist bereits darauf hin, daß eine interkulturelle
Vergleichbarkeit offenbar nicht besteht. Die χ2-Prüfstatistik bestätigt dies: bei sämtlichen
Items unterscheiden sich die Parameter signifikant.
Dieser Befund stellt die Frage in den Raum, warum die sieben CETSCALE Items so unterschiedlich charakterisiert sind. Es wäre naheliegend, die mangelnde Vergleichbarkeit
auf die „hohen und irrealen Anforderungen des Rasch-Modells“ zurückzuführen. Doch
diese Attribution ist aus zweierlei Gründen unzutreffend. Zum einen impliziert auch die
klassische Testtheorie zum Teil sehr stringente, aber eben unüberprüfte Voraussetzungen.
Zum anderen haben sich immerhin zwölf Items in Österreich und sieben der acht darin
enthaltenen CETSCALE Items in Südkorea als modellkonform erwiesen. Das Rasch-Modell ist also nicht prinzipiell unanwendbar. Offensichtlich ist die Meßfunktionalität so
weit beeinflußt, daß Vergleiche nicht zulässig sind. Ob dies tatsächlich kulturbedingt ist
oder auf eine unterschiedliche Administration der Datenerhebung zurückzuführen ist, ist
unmittelbar nicht zu beantworten. Dies bedarf einer sorgfältigen Analyse der Datenerhebungen und eines Rekurses auf alle möglichen Quellen mangelnder Äquivalenz.
219
Die CETSCALE stellt diesen Befunden zufolge keine Basis für Vergleiche von Österreich und Korea dar. Der erfolgreiche Einsatz der Skala in zahlreichen Kulturen (u.a. in
Österreich und Südkorea) weist jedoch darauf hin, daß die Skala grundsätzlich geeignet
ist, das Phänomen des Konsumentenethnozentrismus inhaltlich valide zu messen. Die
mangelnde Vergleichbarkeit zeigt, daß die Messung im Sinne einer Überbrückung des
empirischen und des numerischen Relativs nicht äquivalent erfolgt.
10.3.6 Exkurs: Überprüfung des dichotomen Birnbaum-Modells in Österreich
Die bisherigen Analysen basieren allesamt auf dem Rasch-Modell (one-parameter logistic model), welches gleiche Diskriminanz aller Items (bzw. aller Thresholds im Falle polytomer Items) impliziert. Die Aufgabe dieser Eigenschaft führt notwendigerweise zur
Aufgabe des Rasch-Modells. Kritiker der uniformen Diskriminanz favorisieren daher das
Birnbaum-Modell (two-parameter logistic model), welches neben der Itemschwierigkeit
einen weiteren Parameter vorsieht, welcher die tatsächliche Diskriminanz erfaßt. Das vorangegangene Kapitel 9 hat gezeigt, daß die Mehrzahl der Anwendungen der probabilistischen Testtheorie auf das Birnbaum-Modell zurückgreifen. Da damit der Boden
objektiven Messens (im Sinne der spezifischen Objektivität) verlassen wird, erfolgt die
Betrachtung des Birnbaum-Modells in Form eines Exkurskapitels. Ziel des Kapitels ist
die Klärung der Frage, ob ein flexibleres Modell die Zahl der modellkonformen Items im
Falle der CETSCALE erhöhen kann.
Ausgangspunkt der Analyse ist abermals der 26 Items umfassende österreichische Datensatz. Zwölf dieser Items sind mit dem Rasch-Modell vereinbar. Für diese Items ist daher
die Berücksichtigung eines Diskriminanzparameters weder erforderlich, noch sinnvoll.23
Für die verbleibenden 14 Items erfolgt eine genaue Inspektion der tatsächlichen Antworthäufigkeiten in Abhängigkeit vom Trait im Vergleich zu den theoretischen Antworthäufigkeiten (ausgedrückt durch die ICC). Läßt die tatsächliche Antwortverteilung ein
Muster erkennen, welches darauf hindeutet, daß das Item über- oder unterdiskriminiert,
so ist eine Berücksichtigung im Rahmen des Birnbaum-Modells sinnvoll. Abbildung 58
stellt die Antwortverteilung eines offensichtlich überdiskriminierenden Items dar. Wenn
23.Da im Zuge der Schätzung des Birnbaum-Modells per definitionem ein Diskriminanzparameter spezifiziert wird, bedeutet dies, daß für die Diskriminanzparameter für diese Items auf den
gleichen Schätzwert fixiert werden (im Sinne eines equality constraints).
220
die Verteilung hingegen lediglich zufällig um die ICC streut (abwechselnd positive und
negative Residuale), so ist auch das Birnbaum-Modell nicht geeignet.
P(avi=x | δi, βv)
1
tatsächliche Häufigkeit
0.5
erwartete Häufigkeit
δi, βv
0
Abbildung 58: Vergleich von erwarteter Häufigkeit (ICC) und tatsächlicher Häufigkeit zustimmender Antworten im Rasch-Modell (Item V034)
Tatsächlich zeigen sieben Items empirische Antwortverläufe, die auf unterschiedliche
Diskriminanz hindeuten. Vier24 davon diskriminieren schlechter (dies drückt sich auch
im Item-Q-Index aus), drei25 diskriminieren stärker als erwartet (ebenfalls durch den
Item-Q-Index angezeigt). Die Analyse mittels des Birnbaum-Modells wird mit MULTILOG (Thissen, 1991) durchgeführt. Insgesamt werden 19 Items einbezogen, für zwölf
werden die Diskriminanzparameter gleichgesetzt (Rasch-Modell konforme Items), für
sieben werden diese Parameter frei geschätzt. Zum Vergleich erfolgt eine Parameterschätzung für über alle Items gleichgesetzte Diskriminanzparameter. Die Überprüfung, ob das
Birnbaum-Modell im Falle der sieben nicht uniform diskriminierenden Items besser mit
den Daten übereinstimmt, erfolgt anhand eines Vergleichs der Fitstatistiken aus diesen
beiden Schätzungen (vgl. Tabelle 21).
24.Es sind dies die Items V038, V037, V031=t1 und V034.
25.Es sind dies die Items V010, V062 und V021.
221
+ : Überdiskriminanz
Itemcodes
- : Unterdiskriminanz
Diskriminanz
im
RaschModell
Q1-Indexa
χ2 (dfb) / p
one-parameter
model
two-parameter
model
∆χ2 (dfc) / p
V038
+
22.56 (11) / .02
7.79 (10) / n.s.
14.77 (1) / <.001
V037
+
59.91 (11) / <.0001
12.78 (10) / n.s.
47.13 (1) / <.0001
+
26.38 (11) / <.01
11.92 (10) / n.s.
14.46 (1) / <.001
V034
+
37.45 (11) / <.0001
14.44 (10) / n.s.
23.01 (1) / <.0001
V021
-
67.23 (11) / <.0001
37.16 (10) / <.0001
30.07 (1) / <.0001
V062
-
190.41 (11) / <.0001
26.17 (10) / <.01
164.24 (1) / <.0001
V010
-
80.45 (11) / <.0001
35.39 (10) / <.001
45.06 (1) / <.0001
V031
t1
Tabelle 21: Vergleich der Fitstatistiken auf der Basis des one-parameter und des twoparameter logistic model für sieben nicht Rasch-Modell konforme Items
a. Dieser Fitindex ist als Vergleichsgrundlage geeignet, da er die Abweichung der theoretischen von
der tatsächlichen Antworthäufigkeit ausdrückt.
b. Die Freiheitsgrade ergeben sich aus m-k, wobei m die Zahl der Intervallzusammenfassungen der
Personenparameter als Grundlage des Vergleichs theoretischer und tatsächlicher Antworthäufigkeiten angibt und k für die Zahl der zu schätzenden Itemparameter steht (Hambleton et al., 1991,
S.61). Im Beispiel beträgt m=12, k ist für das one-parameter model gleich 1, für das two-parameter model gleich 2.
c. Da das one-parameter model aus dem two-parameter model durch Einführung einer Beschränkung
hervorgeht, ist der Freiheitsgrad gleich 1.
Für alle sieben Items ist die Übereinstimmung von Modellerwartung und Daten im Falle
des Birnbaum-Modells (two-parameter model) signifikant (α=1%) besser als im RaschModell (one-parameter model) (vgl. den χ2-Differenzentest in Tabelle 21). Absolut gesehen ist der Fit der drei unterdiskriminierenden Items aber auch im Birnbaum-Modell nicht
zufriedenstellend. Für diese Items wird die Modellübereinstimmung zwar verbessert, ist
aber immer noch ungenügend. Im Gegensatz dazu weisen die überdiskriminierenden Item
auch absolut gesehen im Rahmen des Birnbaum-Modells guten Fit auf. Die Wahl des
Birnbaum-Modells führt daher zu einem insgesamt 16 Items umfassenden Meßinstrument. Es soll aber auch an dieser Stelle nochmals betont werden, daß mit dem Birnbaum-
222
Modell lediglich eine bessere Anpassung des Modells an die Daten erfolgt. Aus meßtheoretischer Sicht ist dies problematisch.
10.4 Implikation für die interkulturelle Validität der CETSCALE in Österreich und Südkorea
Zur Überprüfung der interkulturellen Validität der CETSCALE wurden zwei Methoden
vorgestellt und demonstriert. Die Ergebnisse sind unterschiedlich. Der faktorenanalytische Ansatz spricht für eine - zwar nur partielle, aber doch gegebene - meßtheoretische
Übereinstimmung der CETSCALE in Österreich und Südkorea. Vier Items sind skalar,
weitere drei metrisch invariant. Für insgesamt zehn Items besteht konfigurale Invarianz.
Die Vergleichbarkeit der Daten ist diesem Ansatz zufolge also gewährleistet. Der Latent
Trait Theory basierte Ansatz hingegen kommt zum gegenteiligen Schluß. Zwar erfüllen
sieben Items nach Dichotomisierung der Daten die Modellanforderungen in Österreich
und in Südkorea, die Modelle stimmen jedoch interkulturell nicht überein. Aussagen über
Unterschiede in der Consumer-ethnocentric Tendency in Österreich und in Südkorea sind
demzufolge nicht möglich.
Wann immer alternative Methoden zu divergierenden Schlußfolgerungen Anlaß geben,
stellt sich die Frage, welchem Ansatz nun eher zu „vertrauen“ ist. Innerhalb der unterschiedlichen Methoden ist diese Frage allerdings grundsätzlich nicht zu beantworten. Erst
die wissenschaftstheoretische Betrachtung der den Methoden zugrundeliegenden Theorien, in diesem Fall Meßtheorien, auf einer Metaebene kann substantiell zu einer Klärung
beitragen. Die Entscheidung, welcher Methode (und damit welchem Ergebnis!) vertraut
wird, ist somit eine Frage des gewählten Meßparadigmas. Die Aufarbeitung der klassischen und der probabilistischen Testtheorie (Latent Trait Theory) hat gezeigt, daß letztere
- zumindest im Falle des Rasch-Modells - wissenschaftstheoretisch deutlich anspruchsvoller und zufriedenstellender ist. Aus diesem Grund sollte der probabilistischen Testtheorie der Vorzug gegeben werden. Dies ist als Plädoyer zu verstehen und keinesfalls als
endgültige materielle Schlußfolgerung aus einem metatheoretischen Vergleich von klassischer und probabilistischer Testtheorie. Letztlich bleibt es jedem Forscher überlassen,
welche Methoden er einsetzt, solange er diese Wahl argumentativ begründet.
223
Ein formaler wissenschaftstheoretischer Imperativ besteht jedoch darin, vorab fundiert
eine Methode bzw. eine Meßtheorie zu wählen und alle inhaltlichen Schlußfolgerungen
auf der Basis dieser Methode bzw. Theorie abzuleiten. In diesem Sinne darf die Vorgangsweise dieser Untersuchung - parallele Analyse mittels zweier meßtheoretischer Ansätze - nicht als Empfehlung mißverstanden werden. Die Wahl der Methode nach der
Inspektion der Ergebnisse wäre wissenschaftstheoretisch nicht haltbar. Eine solche ist
auch nicht Gegenstand dieser Studie. Vielmehr sollte die Anwendung beider Ansätze demonstriert und auf die fundamentalen Unterschiede hingewiesen werden.
Versucht man ungeachtet der wissenschaftstheoretisch damit verbundenen Probleme, aus
den inhaltlichen Ergebnissen beider Analysen zu einer gemeinsamen Schlußfolgerung zu
gelangen, so könnte die Anwendung des polytomen Rasch-Modells als Ausgangspunkt
dienen. Sowohl in Österreich, als auch in Südkorea wurden polytome Modelle durch die
Daten falsifiziert. Damit ist die Ordnungshypothese der einzelnen Antwortkategorien zu
verwerfen. Die klassische Testtheorie geht aber davon aus, daß die Itemantworten nicht
nur ordinal-, sondern intervallskaliert sind. Im Lichte der zurückzuweisenden Ordnungshypothese erscheint daher der Ansatz der klassischen Testtheorie problematisch und unzuverlässig. Demzufolge bestehen keine gesicherten Hinweise auf die interkulturelle
Validität der CETSCALE bzw. einzelner Items für die Anwendung in Österreich und
Südkorea.
10.5 Weiterführende Forschung
Einen Ansatzpunkt zu weiterführender Forschung stellt das dichotome Rasch-Modell dar.
Sowohl in Österreich, als auch in Südkorea sind einzelne Items nach Dichotomisierung
modellkonform. Diese Ergebnisse sind in der Zukunft durch die Erhebung originär dichotomer Daten zu überprüfen (Andrich et al., 1997). Auch die Einschränkung der Antwortskala auf weniger als sieben, aber mehr als zwei Kategorien erscheint sinnvoll.
224
11 Meßtheoretische Paradigmen
„[D]ie normale Wissenschaft [hält sich] gewöhnlich die Philosophie vom Leibe,
und wahrscheinlich aus gutem Grund. Solange die normale Forschungsarbeit
unter Verwendung des Paradigmas als eines Vorbildes ausgeführt werden kann,
brauchen Regeln und Annahmen nicht eigens herausgestellt zu werden.“
Thomas Kuhn (1997, S.101)
Im Rahmen der Darstellung der Grundlagen der klassischen und der probabilistischen
Meßtheorie wurde bereits der Begriff des wissenschaftlichen Paradigmas (Kuhn, 1997)
verwendet. Die Frage, ob nun empirischen Ergebnissen auf der Grundlage der klassischen
Meßtheorie oder jenen auf der Basis unterschiedlicher probabilistischer Modelle eher zu
trauen ist, oder mit anderen Worten welche Theorie als überlegen gelten kann, wurde mit
dem Hinweis auf die unterschiedlichen paradigmatischen Grundlagen der Theorien als
unbeantwortbar zurückgewiesen. Es ist nicht möglich, die Frage im Sinne einer logischen
Ableitung zu klären. Demzufolge stellt sich - neben einer begrifflichen Klärung des wissenschaftlichen Paradigmas - die Frage, ob und, wenn ja, welche meßtheoretischen Paradigmen in der Marketingforschung bestehen, welches das vorherrschende Paradigma ist
und wie zugunsten eines anderen entschieden werden könnte. Dies erfordert zunächst eine
Darstellung der wissenschaftstheoretischen Sichtweise von Kuhn (1997).
11.1 Paradigmen und wissenschaftlicher Fortschritt
Nach Kuhn (1997) stehen am Beginn der Entwicklung jeder wissenschaftliche Disziplin
zahlreiche Schulen, welche mehr oder weniger konkurrierenden spekulativen Theorien
bzw. Ansichten über die Natur anhängen. Keine dieser Theorien genießt ein besonderes
Vorrecht im Sinne allgemeiner Akzeptanz. Erweist sich eine Theorie in der Folge als
überlegen, so wird diese allgemein anerkannt und zur Paradigmentheorie erklärt. Es wird
davon ausgegangen, daß das Paradigma „die meisten Beobachtungen und Experimente,
welche für die Fachleute jener Wissenschaft leicht zugänglich sind, erfolgreich erklärt“
(Kuhn, 1997, S.77). Ein Paradigma besteht aus einem Bündel von Verfahren, Anwendungen, Gesetzen und Theorien. Eine spezifische Fachterminologie, von Kuhn als „esoterisches Vokabular“ bezeichnet, erleichtert die wissenschaftliche Kommunikation, führt
aber auch zu einem Verlust der Allgemeinverständlichkeit.
Eine wichtige Funktion des Paradigmas besteht in der Klärung wissenschaftlicher Begriffe. Die explizite Bezugnahme auf grundlegende Theorien erübrigt sich damit. „Wenn der
225
einzelne Wissenschaftler ein Paradigma als gegeben betrachten kann, braucht er bei seinen Hauptwerken nicht mehr zu versuchen, sein Fachgebiet von den Grundprinzipien aus
unter Rechtfertigung jedes neu eingeführten Begriffs neu aufzubauen.“ (Kuhn, 1997,
S.34). Ein Paradigma bestimmt aber nicht nur was untersucht und wie dies untersucht
wird, sondern auch wie die Realität interpretiert wird (Andersson, 1988).1 Mit der Annahme eines ersten Paradigmas ist für Kuhn das Stadium einer reifen Wissenschaft erreicht.
Paradigmen als Systeme von allgemein anerkannten Theorien und Begriffen2 stecken den
Bereich ab, in dem normalwissenschaftliche Forschung möglich ist. Normalwissenschaftlich ist „eine Forschung, die fest auf einer oder mehreren wissenschaftlichen Leistungen
der Vergangenheit beruht, Leistungen, die von einer bestimmten wissenschaftlichen Gemeinschaft eine Zeitlang als Grundlagen für ihre weitere Arbeit anerkannt werden“
(Kuhn, 1997, S.25). Mit der Festlegung eines Paradigmas ist allerdings auch Erstarrung
verbunden. Der Forscher ist bestrebt, die „Natur in die vorgeformte und relativ starre
Schublade, welche das Paradigma darstellt, hineinzuzwängen. In keiner Weise ist es das
Ziel der normalen Wissenschaft, neue Phänomene zu finden; und tatsächlich werden die
nicht in die Schublade hineinpassenden oft überhaupt nicht gesehen. Normalerweise erheben die Wissenschaftler auch nicht den Anspruch, neue Theorien zu finden, und oft genug sind sie intolerant gegenüber den von anderen gefundenen. Normalwissenschaftliche
Forschung ist vielmehr auf die Verdeutlichung der vom Paradigma bereits vertretenen
Phänomene und Theorien ausgerichtet.“ (Kuhn, 1997, S.38).
1. Kuhn (1997, S.127f) führ als Beispiel die Entdeckung des Planeten Uranus an. Die Entdekkung wird William Herschel zugeschrieben und mit 1781 datiert. Tatsächlich wurde Uranus im
Jahrhundert zuvor mindestens siebzehn Mal beobachtet, jedoch als Fixstern eingestuft. Erst
verbesserte Teleskope haben Herschel dazu geführt, Uranus aufgrund seines für einen Fixstern
ungewöhnlichen Durchmessers als - Kometen zu sehen. Erst als Versuche gescheitert waren,
Uranus eine Kometenbahn anzupassen, wurde Uranus als Planet erkannt.
2. Paradigmen müssen jedoch nicht notwendigerweise auf expliziten Regeln und Begriffen basieren (Kuhn, 1997, S.60ff). Wesentlich ist die forschungsleitende Funktion des Paradigmas.
Kuhn führt drei Gründe dazu an. Erstens ist es gelegentlich gar nicht möglich, ausdrückliche
Regeln zu formulieren. So ist es auch nicht möglich, Regeln dafür aufzustellen, was ein Sessel
ist und zu gewährleisten, daß jedes Objekt, das für gewöhnlich als Sessel bezeichnet wird, tatsächlich damit erfaßt wird und gleichzeitig jedes Objekt, das für gewöhnlich nicht als Sessel
bezeichnet wird, dadurch ausgeschlossen wird. Zweitens werden Paradigmen in der Regel
implizit gelernt. Theorien und Begriffe werden im Anwendungskontext didaktisch aufbereitet
und sind in der Folge ausdrücklich gar nicht bewußt. Drittens ist eine explizite Paradigmenformulierung dann nicht erforderlich, wenn alle wissenschaftlichen Erkenntnisse vorbehaltlos
anerkannt werden. Erst wenn dies nicht mehr der Fall ist, liegt eine Bedrohung für das Paradigma vor.
226
Paradigmata bestimmen die Regeln der Wissenschaft, nach denen eine Lösung eines Problems, Kuhn verwendet den Begriff des Rätsels, als zulässig zu betrachten ist. „Derjenige,
der ein Instrument für die Bestimmung optischer Wellenlängen baut, darf sich nicht mit
einem Gerät zufriedengeben, das lediglich bestimmte Zahlen bestimmten Spektrallinien
zuordnet. (...) [E]r muß durch die Analyse seines Apparates im Rahmen der anerkannten
optischen Theorie zeigen, daß die von seinem Instrument gelieferten Zahlenwerte diejenigen sind, die in der Theorie als Wellenlängen auftreten. Wenn eine restliche Unklarheit
in der Theorie oder ein nicht analysierter Teil seines Instruments ihn daran hindert, diesen
Nachweis vollständig zu liefern, können seine Kollegen zu dem Schluß kommen, er habe
gar nichts gemessen.“ (Kuhn, 1997, S.53). Erst wenn eine theoretische Grundlage vorhanden ist, deren Vorhersagen mit den gemessenen Werten übereinstimmen, ist tatsächlich
ein Problem gelöst.
Diese Problematik ist für Natur- wie Sozialwissenschaften gleichermaßen relevant. Wenn
substantielle Theorien quantitative Voraussagen ermöglichen (z.B. ein bestimmter Zusammenhang von Konsumentenethnozentrismus und Kaufabsicht gegenüber importierten Produkten), so geben diese Theorien im Zuge der empirischen Überprüfung Anlaß zu
Messungen. Ohne theoretische Grundlagen werden keine Messungen vorgenommen oder
dennoch vorgenommene nicht als solche anerkannt. Die Qualität der Messung der Konstrukte hängt von der zugrundeliegenden Meßtheorie ab. Nur eine Meßtheorie, welche das
empirische und das numerische Relativ in zufriedenstellender Weise verknüpft, begründet einwandfreie Messungen. Auf die besondere Schwierigkeit in den Sozialwissenschaften, zumeist mit unbeobachtbaren empirischen Relativen konfrontiert zu sein, wurde
bereits hingewiesen. Meßtheoretische Probleme verschärfen sich dadurch, sind aber, wie
die Latent Trait Theory zeigt, nicht prinzipiell unlösbar.
Die bisherige Darstellung kann leicht den Eindruck erwecken, wissenschaftlicher Erkenntniszugewinn sei ein kumulativer Prozeß. In der Tat trifft dies auf normalwissenschaftliche Forschung, also jene innerhalb eines Paradigmas, auch zu. Gelegentlich
erbringen jedoch Forschungen Ergebnisse, welche nicht im Einklang mit dem herrschenden Paradigma stehen und dieses in seiner Existenz bedrohen. „Die normale Wissenschaft
unterdrückt (...) oft fundamentale Neuerungen, weil diese notwendigerweise ihre Grundpositionen erschüttern. Und trotzdem, solange diese noch ein Element der Willkür enthal-
227
ten, bietet gerade das Wesen der normalen Forschung die Gewähr dafür, daß das Neue
nicht sehr lange unterdrückt wird.“ (Kuhn, 1997, S.20). Kuhn sieht zwei Gründe für neuartige, außerordentliche Untersuchungen. Zum einen können normale Probleme widerstehen, durch bekannte Regeln und Verfahren lösbar zu sein. Zum anderen kann ein „für die
normale Forschung entwickeltes Ausrüstungsstück“ nicht in der erwarteten Weise arbeiten und Anomalien erkennen lassen. Wenn die „Fachwissenschaft den die bestehende
Tradition wissenschaftlicher Praxis untergrabenden Anomalien nicht länger ausweichen
kann“, dann erfolgen neue außerordentliche Untersuchungen (Kuhn, 1997, S.20). Diese
setzen das Paradigma ab und führen schließlich zu einem neuen Paradigma, welches in
Wettstreit mit dem vorangegangen tritt. Die Wissenschaft gerät in eine Krise. Die Umwandlung der Paradigmata erfolgt in Form wissenschaftlicher Revolutionen, welche das
übliche Entwicklungsschema einer reifen Wissenschaft sind (Kuhn, 1997, S.27). Wissenschaftlicher Fortschritt ist demzufolge kein Prozeß der bloßen Wissensanhäufung, sondern ist durch Diskontinuitäten, durch grundlegende Umbrüche gekennzeichnet. Eine
wissenschaftliche Revolution fordert „von der Gemeinschaft, eine altehrwürdige wissenschaftliche Theorie zugunsten einer anderen, nicht mit ihr zu vereinbarenden, zurückzuweisen“. (Kuhn, 1997, S.20f).
Der Prozeß des Paradigmenwechsels ist regelmäßig ein mühsamer und durch Widerstände gekennzeichneter. „Für [Forscher des traditionellen Paradigmas] bedeutet die neue
Theorie eine Änderung der Regeln, die bislang die Praxis der normalen Wissenschaft beherrschten. Zwangsläufig wirkt sie sich daher auf umfangreiche, schon erfolgreich abgeschlossene wissenschaftliche Arbeiten aus. Insofern ist eine neue Theorie, sei ihr
Anwendungsbereich auch noch so speziell, selten oder nie nur ein Baustein, der dem
schon Bekannten hinzugefügt würde. Ihre Anerkennung erfordert die Umarbeitung einer
früheren Theorie und die Neubewertung früherer Fakten, einen wahrhaft revolutionären
Vorgang, der selten von einem einzigen Menschen und niemals von heute auf morgen zu
Ende geführt werden kann.“ (Kuhn, 1997, S.21). Die Welt des Wissenschaftlers wird
nicht nur „quantitativ bereichert“, sondern auch „qualitativ umgewandelt“ (Kuhn, 1997,
S.22). Die Resistenz von Paradigmen gegen ihre Ablösung ist jedoch nicht funktionslos.
Erst diese Widerstandskraft gewährleistet, daß Paradigmen, welche sich immerhin für geraume Zeit als erfolgreich und sinnvoll erwiesen haben, leichtfertig aufgegeben werden
(Kuhn, 1997, S.77). Neue Theorien kommen nur dann zum Zug, wenn „normale Problem-
228
lösungstätigkeit offensichtlich versagt hat“ (Kuhn, 1997, S.87). Der Wechsel eines Paradigmas ist „eine Extravaganz, die auf die unbedingt notwendigen Fälle beschränkt bleiben
soll“ (Kuhn, 1997, S.89).
Ein Paradigma kann nur dann verworfen werden, wenn ein neues zur Verfügung steht.
Die Beurteilung, ob das neue angenommen oder das alte beibehalten werden soll, kann
sich nicht auf eine Überprüfung der Theorien mit der Natur beschränken. Jede Theorie ist
unvollkommen und steht gelegentlich mit der Natur in Widerspruch3. Das Urteil muß sich
vielmehr auf einen „Vergleich beider Paradigmata mit der Natur und untereinander“ stützen. In der Übergangsphase von einem Paradigma zum anderen sind zahlreiche Probleme
durch beide Paradigmen lösbar. Das alte Paradigma hat sich geraume Zeit als brauchbar
erwiesen und bleibt dies für die eine oder andere Anwendung. Darüber hinaus setzen zahlreiche Forscher, deren Ausbildung auf dem traditionellen Paradigma beruht hatte, weiter
auf dieses.
11.2 Meßtheoretische Paradigmen in der Marketingforschung
Es stellt sich zunächst die Frage, ob die klassische und die probabilistische Testtheorie
überhaupt als unterschiedliche Paradigmen in der Marketingforschung bezeichnet werden
können oder sollen. Tietz (1993a, 1993b) widmet sich der Analyse der Paradigmatik des
Marketing und diagnostiziert drei historische Paradigmen der Marketingwissenschaft
(Tietz, 1993a, S.158f). Das erste war prägend für die 50er Jahre und sieht die Aufgaben
des Marketing, welches damals noch nicht so bezeichnet wurde, im Absatz von Produkten. Angesichts einer produktionsfokusierten Betrachtung und des Vorherrschens von
Verkäufermärkten stehen technische Probleme des Absatzes im Vordergrund. Mit Beginn
der 60er Jahre tritt eine Wende ein. Märkte wandeln sich von Verkäufer- zu Käufermärkten, Konsumenten werden erstmals als Forschungsgegenstand interessant. Neue Forschungsfelder, wie Marktsegmentierung, Marketingprognostik, usw. werden eröffnet.
Mitte der 70er Jahre ist erneut eine Wende festzustellen. Die moderne Datenverarbeitungstechnik hält Einzug ins Marketing. Externe Effekte werden berücksichtigt, Umwelt-
3. Wissenschaften für die das nicht der Fall ist (Kuhn, 1997, S.92, führt das Beispiel der geometrischen Optik an), hören schnell auf, entsprechende Problemstellungen zu offerieren und nehmen daher den Charakter einer Technologie an.
229
marketing und Stakeholder-Marketing sind die Folge. Neue Spezialisierungsformen, wie
Rechtsmarketing, sektorales Marketing und nicht zuletzt internationales Marketing treten
in Erscheinung. Im Vergleich zu diesem inhaltlich geprägten Paradigmenbegriff, ist eine
Meßtheorie zweifelsohne kein Marketingparadigma. Meßtheorien sind allerdings grundsätzlich keine Marketingtheorien4, sondern werden, ebenso wie mathematische oder statistische Theorien und Methoden, unterstützend herangezogen, wenn quantitative
Voraussagen empirisch zu überprüfen sind.
Sieht man in der Meß- und Testtheorie jedoch eine eigenständige wissenschaftliche Disziplin - und die hohe Spezialisierung spricht dafür - , so erscheint es durchaus angemessen, die klassische Testtheorie als erstes allgemein anerkanntes Paradigma der Disziplin
zu bezeichnen und die Latent Trait Theory bzw. probabilistischen Testtheorie als alternatives Paradigma. Die nähere Analyse der Modelle auf der Grundlage der Latent Trait
Theory hat zudem gezeigt, daß mit dem Rasch-Modell ein Modell mit besonderen Eigenschaften aus der Modellfamilie herausragt. Während dieses den Schwerpunkt auf die
theoretische Darstellung legt, welche Eigenschaften Daten aufweisen müssen, um als
Messungen gelten zu können, verfolgen mehrparametrische Modelle der Latent Trait
Theory den umgekehrten Weg und gehen davon aus, daß Modelle gegebene Daten bestmöglich zu erklären haben. Auf die unüberbrückbaren Differenzen, die sich aus diesen
unterschiedlichen Prämissen ergeben, wurde hingewiesen. Aus diesem Grund erscheint
es ebenso angemessen, von verschiedenen Paradigmen innerhalb der Latent Trait Theory
zu sprechen.
Die Bedeutung des vorherrschenden Paradigmas der Meßtheorie für die Marketingwissenschaft ist jedenfalls kaum zu unterschätzen. Die Zuverlässigkeit aller auf Messungen
beruhender materieller Erkenntnisse der Marketingwissenschaft hängt von der Qualität
der jeweiligen Messungen ab. Der Befund von Tietz (1993b, S.229), wonach vor allem
die Konsumentenforschung durch einen Explorationsfetischismus gekennzeichnet ist,
und anspruchsvolle statistische Methoden oft unreflektiert angewandt werden, unterstreicht die Relevanz der Meßtheorie im Marketing. Ohne vernünftige Messungen sind
nachfolgende aufwendige, multivariate Analyseverfahren nicht zielführend.
4. Im Rahmen der Marktforschung wird meßtheoretischen Grundlagen und statistischen Analysetechniken zwar breiter Raum gewidmet, jedoch in der Regel unter Anwendungsaspekten.
230
Jedes der beiden angesprochenen Paradigmen stellt einen methodologischen Rahmen bereit, innerhalb dessen Messungen erfolgen. Der Wert des Paradigmas liegt also zum einen
darin, Messungen zu ermöglichen, zum anderen - und dies ist mindestens ebenso wichtig
- darin, in Forschungsvorhaben auf meßtheoretische Begriffe zurückgreifen zu können
und diese weder erklären, noch hinterfragen zu müssen. Als Beispiel mag in der klassischen Testtheorie der Begriff der Reliabilität dienen. Die angewandte Forschung, welche
sich des Paradigmas der klassischen Testtheorie bedient, gibt den Kennwert der Reliabilität an, ohne ihn üblicherweise näher zu erläutern oder gar zu definieren. Selbst die Bezugnahme auf allgemein akzeptierte Lehrbücher kann sich erübrigen, wenn angenommen
werden kann, daß das esoterische Vokabular aller Forscher innerhalb dieses Paradigmas
den Begriff umfaßt.
Im Kapitel 4.5 wurde untersucht, inwieweit die Problematik internationaler Marktforschung und möglicher Lösungen in Marketing-Lehrbüchern rezipiert ist. Dabei wurde
festgestellt, daß die Problematik bei weitem nicht in voller Tragweite dargestellt wird.
„Schnellere“ Medien wissenschaftlicher Erkenntnisse, wie Zeitschriftenartikel und Konferenzbeiträge lassen jedoch einen deutlichen Trend erkennen, daß sich die wissenschaftliche Gemeinschaft im Marketing der Problematik bewußt wird. Weniger ermutigend ist
der Befund im Hinblick auf Lösungsszenarien, wie Kapitel 9 illustriert. In Lehrbüchern
der Marketingdisziplin sind Hinweise auf oder gar Aufarbeitungen der Latent Trait Theory praktisch nicht zu finden. Nach Kuhn (1997) besteht die Funktion von Lehrbüchern
darin, Uneingeweihte in das herrschende Paradigma einzuführen. Eine kritische Betrachtung der klassischen Testtheorie in Lehrbüchern ist daher auch gar nicht zu erwarten. Die
quantitative Marketingforschung ist fest im Paradigma der klassischen Testtheorie verankert. Retrospektiv betrachtet, spiegelt sich dies auch im Aufbau dieser Untersuchung wider. In Kapitel 6 wurde ein methodischer Ansatz zur Bestimmung der interkulturellen
Validität auf der Basis der klassischen Testtheorie erläutert. Dabei wurde diese Basis in
keiner Weise kritisch hinterfragt. Dies ist in der normalen Wissenschaft (im Sinne Kuhns)
auch gar nicht angebracht. Vielmehr ging es in diesem Abschnitt lediglich darum, eine
Verfeinerung des methodologischen Rüstzeugs vorzunehmen. Im Gegensatz dazu eröffnete Kapitel 7 mit einer kritischen Betrachtung der klassischen Testtheorie, ehe mit der
probabilistischen Testtheorie eine Alternative vorgestellt wird. Die kritische Analyse
wurde vom Gefühl geleitet, daß die klassische Testtheorie nicht in der Weise „funktionie-
231
re“, wie man es von einer Meßtheorie eigentlich erwarten würde. Tatsächlich haben sich
fundamentale Parameter als äußerst problematisch herausgestellt. Noch weitaus bedrohlicher war der Befund, daß Messung auf der Basis der klassischen Testtheorie nicht falsifizierbar ist. Im Sinne Poppers liegt damit gar keine wissenschaftliche Theorie vor,
kommt der klassischen Testtheorie kein Erklärungswert zu (vgl. Andersson, 1988, S.17).
Diese Erkenntnis scheint das Potential zu bergen, jene Krise heraufzubeschwören, welche
nach Kuhn (1997) die notwendige Voraussetzung für die Ablöse eines herrschenden Paradigmas durch ein neues darstellt. Als Kandidaten für letzteres stehen die probabilistische Testtheorie in Form des Rasch-Modells bzw. in Form mehrparametrischer Modelle
zur Verfügung.
Dennoch sind in der quantitativen Marketingforschung kaum Anzeichen für eine solche
Krise zu erkennen. Nach wie vor stellt die klassische Testtheorie weitgehend unwidersprochen die Grundlage quantitativer Forschung dar. Entwicklungen in der Meßtheorie
werden entweder nicht wahrgenommen oder als die Marketingdisziplin nicht betreffend
erlebt. Tatsächlich hat sich die Meßtheorie zu einer eigenständigen Disziplin entwickelt,
und die Versuchung ist verlockend, Erkenntnisse dieser Disziplin aus der eigenen, der
Marketing-Disziplin, auszugrenzen. Pragmatisch betrachtet, ist diese Strategie durchaus
sinnvoll. Die klassische Testtheorie hat sich als das erste wissenschaftliche Meßparadigma über Jahrzehnte hinweg als erfolgreich erwiesen - zumindest vom Standpunkt dieses
Paradigmas aus. Eine leichtfertige Aufgabe wäre daher völlig absurd. Wissenschaftssoziologisch ist auch stark zu bezweifeln, daß die etablierte wissenschaftliche Gemeinschaft
der Marketingforschung ihre Grundlagen bereitwillig verwirft und den Wert ihrer eigenen
Erkenntnisse in Frage stellt.
Wenn diese Untersuchung den Leser stimuliert hat, darüber zu reflektieren, daß die Probleme der klassischen Testtheorie so grundlegend sind, daß eine Verwerfung oder zumindest ein Überdenken des herrschenden Paradigmas alles andere als leichtfertig wäre, dann
ist diese Arbeit erfolgreich gewesen. Für das 21. Jahrhundert erscheint ein meßtheoretischer Paradigmenwechsel in der Marketingforschung, wie auch in vielen anderen Bereichen der Betriebswirtschaftslehre, wo Theorien quantitative Voraussagen ermöglichen
und daher Messungen zu deren Überprüfung bedingen, als durchaus realistisch.
232
12 Implikationen für die Marketingforschung
Die aus dieser Untersuchung ableitbaren Implikationen lassen sich in folgende Bereiche
gliedern:
• Plädoyer für eine meßtheoretische Fundierung der Marketingforschung
• Plädoyer für eine theoretische Fundierung des Konstrukts Kultur in der interkulturellen
Marketingforschung
• Anwendungsfelder vergleichsbezogener Methoden in der Marketingforschung
• Spezielle Anwendungsfelder der Latent Trait Theory in der Marketingforschung
12.1 Plädoyer für eine meßtheoretische Fundierung der Marketingforschung
Ein bedeutsamer Gegenstand der Marketingforschung besteht in der Messung sogenannter latenter hypothetischer Konstrukte. Letztere stellen die substanztheoretische Basis der
Messung dar, geben sie doch erst Anlaß zur Messung (Hänni, 1987, S.946). Die Entwicklung von Indikatoren als Manifestationen eines latenten Konstrukts setzen die Annahme
des Konstrukts voraus. Die Frage, wie gut diese Indikatoren das Konstrukt messen bzw.
die Frage, ob sie dies überhaupt tun, ist Gegenstand der Meßtheorie. Die Aufgabe der
Meßtheorie liegt also darin, auf axiomatischer Basis deduktiv abzuleiten, welche Eigenschaften Daten aufweisen müssen, um eine Messung zu konstituieren. Eine Meßtheorie,
soll sie dem Anspruch einer Theorie gerecht werden, muß prinzipiell falsifizierbar sein.
In der Praxis der Marketingforschung werden meßtheoretische Grundlagen kaum reflektiert. Das Konzept der klassischen Testtheorie wird weitgehend unkommentiert unterstellt. Zwar widmen sich Marketing-Lehrbücher dem Modell der klassischen Testtheorie,
dies erfolgt jedoch nicht auf einer methodenkritischen Ebene, sondern lediglich auf deskriptivem Niveau (vgl. Kapitel 12). Nicht zufällig sind die ins Treffen geführten Beispiele zumeist aus den Naturwissenschaften entlehnt (physikalische Maße der Körpergröße,
des Körpergewichts, der Temperatur, etc.). Die Problematik der Anwendung dieser Meßtheorie im Bereich der Sozial- und Wirtschaftswissenschaften wird hingegen kaum thematisiert.
233
Es stellt sich die Frage, welche Konsequenzen diese von hoher Pragmatik gekennzeichnete Vorgangsweise der empirischen, quantitativen Marketingforschung mit sich bringt.
Die Ignorierung möglicher meßtheoretischer Probleme führt nicht dazu, daß diese nicht
weiter existieren. Vielmehr werden diese von der meßtheoretischen in die substanztheoretische Ebene quasi importiert, freilich ohne auf letzterer als solche erkennbar zu sein!
Wenn meßtheoretische Unzulänglichkeiten bestehen (und dies ist keinesfalls als die Ausnahme zu sehen), so sind Meßwerte nicht aussagekräftig und statistisch scheinbar gut abgesicherte Schlußfolgerungen auf der Substanzebene (z.B. signifikante Ergebnisse eines
t-Tests, einer Varianz- oder Regressionsanalyse) unter Umständen meßtheoretische Artefakte. Die Prüfung substantieller Hypothesen ist durch Scheingenauigkeit bedroht, indem
errechnete p-Werte unzuverlässig und formal ausgewiesene Signifikanzniveaus inkorrekt
sind.
Die Konfundierung von Meß- und Substanztheorie kann nur dadurch gelöst werden, daß
eine wissenschaftstheoretisch zufriedenstellende Meßtheorie zugrunde gelegt wird. Jeder
Kompromiß auf der Meßebene im Sinne einer reduzierten Zuverlässigkeit1 der Messung
beschränkt notwendigerweise die Aussagekraft substanztheoretischer Schlußfolgerungen. Unglücklicherweise werden meßtheoretische Probleme im Rahmen der klassischen
Testtheorie nicht immer offenkundig. Im Sinne eines inhaltlichen Fortschritts der Wissenschaftsdisziplin Marketingforschung ist nichtsdestotrotz eine stärkere Gewichtung der
Meßtheorie in empirischen Studien zu fordern.
Auch der Ablauf von Forschungsprojekten kann eine Quelle meßmethodischer Probleme
darstellen. In der Praxis wird nicht selten das Meßproblem umgekehrt. Anstelle eines
Konstrukts, zu dessen Messung Indikatoren gesucht werden, dienen Indikatoren - oder
besser: manifeste Variablen - als Ausgangspunkt. Durch explorative Faktorenanalysen
wird untersucht, was denn eigentlich damit gemessen wird. Die Konstrukte werden datengesteuert abgeleitet. Die Marketingdisziplin, wie jede andere empirische Wissenschaft
auch, kann und soll auf solche explorative, induktive Ansätze nicht verzichten. Durch ausschließlich deduktive Schritte kann der Erkenntnisraum der Disziplin letztlich nicht erweitert werden. Problematisch wird diese Vorgangsweise jedoch dann, wenn an ein und
1. Unter Zuverlässigkeit ist in diesem Zusammenhang nicht das Konzept der Reliabilität zu verstehen, sondern die Frage, ob und wie eine Messung überhaupt zustande kommt.
234
demselben Datensatz Konstrukte „abgeleitet“ und „gemessen“, sowie darauf aufbauend
substanztheoretische Hypothesen geprüft werden. Bei der Entwicklung von Meßinstrumenten ist daher eine strikte Trennung induktiver und deduktiver Schritte zu fordern. Auf
explorative Analysen müssen konfirmatorische folgen, um eine meßtheoretische Hypothesenprüfung zu ermöglichen. Der Ablaufplan einer Skalenentwicklung soll jedoch nicht
auf die Erhebung neuer Datensätze und der Testung neuer Modelle beschränkt bleiben.
Bei Meßproblemen sind auch die konkreten Operationalisierungen zu überdenken und
Items gegebenenfalls neu zu formulieren. Eine Anpassung von Modellen an mangelhafte
Daten, wie dies im Rahmen des two- und three-parameter logistic model erfolgt, ist keine
dazu gleichwertige Alternative. Bei mangelhafter Übereinstimmung von Modell und Daten, ist in erster Linie die Messung und damit das Zustandekommen der Daten zu hinterfragen. Der gegenteilige Schluß - das Modell ist falsch - würde nämlich implizieren, daß
die Daten sehr wohl eine Messung, sozusagen objektive Wirklichkeit darstellen, welche
durch ein notwendigerweise reduktionistisches Modell eben nicht vollständig erklärt
wird. Eine Meßtheorie zielt aber nicht darauf ab, Daten zu „erklären“, sondern darzustellen, unter welchen Bedingungen (welche die Daten zu erfüllen haben) davon ausgegangen
werden kann, daß eine Messung überhaupt zustandegekommen ist.
Die beiden diskutierten Ansätze werden dieser Anforderung unterschiedlich gerecht. Der
faktorenanalytische Ansatz zur Überprüfung der interkulturellen Validität ist dazu eigentlich nicht in der Lage, da geprüft wird, ob eine Messung äquivalent erfolgt, setzt aber
schlichtweg voraus, daß eine solche tatsächlich gegeben ist. Das Rasch-Modell als Latent
Trait Theory basiertes Meßmodell (und nur dieses) erfüllt hingegen den formulierten Anspruch.
Während Analyseverfahren für substanztheoretische Fragestellungen in der Marketingforschung weit verbreitet und gewissermaßen Bestandteil der Disziplin sind, bleiben
meßtheoretische Betrachtungen so gut wie ausgeschlossen. Es ist daher geboten, den wissenschaftlichen Austausch zwischen methodischen und Anwendungsdisziplinen zu beschleunigen. Yu et al. (1993, S.48) ist voll zuzustimmen, wenn sie meinen, daß „CrossCultural research has in the past utilized very simplistic analyses. More sophisticated
techniques have now been developed, and researchers must, if appropriate, apply those
which can capture subtle differences in how concepts are absorbed in different cultures.“.
235
Die Integration adäquater Verfahren in den Ablauf intra- wie interkultureller Forschungsvorhaben ist zur Zeit nur in Ansätzen zu erkennen. Ein solcher findet sich etwa bei Mintu
et al. (1994), welche „Churchill’s Research Paradigm“ erweitern, um Anforderungen kulturübergreifender Forschung gerecht zu werden. Dabei handelt es sich aber nur um Handlungsempfehlungen (auf dem Stand der Forschung von Douglas und Craig, 1983) und
nicht um methodische Anregungen oder Empfehlungen.
Gelten die formulierten meßtheoretischen Forderungen sowohl für intra- wie für interkulturelle Forschung, so ist für die Entwicklung von Skalen zum Einsatz in der interkulturellen Marketingforschung darüber hinaus die Berücksichtigung eines neuen Gütekriteriums
- die interkulturelle Validität - zu fordern. Im Zuge der Skalenanwendung ist die Überprüfung der interkulturellen Vergleichbarkeit oft aufgrund zeitlicher und finanzieller Restriktionen, sowie aufgrund von Know-how-Mangel nicht möglich. Es ist daher Aufgabe der
Skalen(weiter)entwicklung, interkulturelle Validität zu gewährleisten.
12.2 Plädoyer für eine theoretische Fundierung des Kulturkonstrukts in der interkulturellen Marketingforschung
Wenn Holzmüller (1996) zahlreiche konzeptuelle und methodische Unzulänglichkeiten
in der interkulturellen Forschung ortet, so beziehen sich diese nicht nur auf die meßtheoretische Ebene. Um substanztheoretische Erkenntnisse verallgemeinern und in einen
theoretischen Rahmen einordnen zu können, sind zwei Voraussetzungen zu erfüllen. Zum
einen ist eine kulturbezogene theoretische Basis erforderlich, welche begründete Hypothesen ableiten läßt, welche Kulturen sich auf einem bestimmten Konstrukt unterscheiden. Zum anderen - und damit eng verknüpft - ist das Konstrukt Kultur in geeigneter Form
zu operationalisieren. Kultur als nominalskalierte Variable und mit einer Landesbezeichnung gleichgesetzt, erlaubt zwar die Prüfung statistischer Hypothesen. Die Ergebnisse
bleiben aber letztlich deskriptiv und weitgehend unbegründbar.
Für die Operationalisierung von Kultur stehen zahlreiche Ansätze zur Verfügung (vgl.
Kapitel 3). Wesentlich weniger fortgeschritten ist der State-of-the-Art, wenn es um die
Verknüpfung von Konsumentenverhaltens- und Kulturtheorien geht. Zumeist weisen
Theorien eine implizite Einschränkung des Geltungsbereichs auf den kulturellen Kontext
ihrer Formulierung auf. Im Rahmen der Theoriebildung in der Marketingwissenschaft ist
236
daher die Forderung zu erheben, kulturelle Einflüsse in Zukunft stärker und explizit zu berücksichtigen, wie dies beispielsweise bei McCort und Malhotra (1993) der Fall ist.
12.3 Anwendungsfelder vergleichsbezogener Methoden in der Marketingforschung
Der Vergleich stellt unzweifelhaft eine wesentliche Grundlage des Erkenntnisgewinns in
empirischen Wissenschaften dar. Die Problemstellung vorliegender Untersuchung ist auf
die interkulturelle Marketingforschung fokussiert. Im Falle des Vergleichs von Kulturen
sind Probleme der Vergleichbarkeit und damit die Frage, ob ein Vergleich überhaupt zulässig ist, offensichtlicher als in der intrakulturellen Forschung und werden daher eher
thematisiert. Die Vergleichbarkeit kann jedoch auch in traditionellen, (landes)kulturhomogenen Untersuchungen bedroht sein. So könnten unterschiedliche Organisationskulturen in Unternehmen die Beantwortung von Arbeitszufriedenheitsskalen durch Mitarbeiter
so beeinflussen, daß Vergleiche über Unternehmen hinweg nicht aussagekräftig sind.
Subkulturen innerhalb eines Landes könnten auf Marketingskalen unterschiedlich reagieren und einen Meßbias bedingen. Das vorgestellte Methodeninstrumentarium ist daher
auch für die Überprüfung der Vergleichbarkeit jenseits des Kultureinflusses einsetzbar.
Eine Anwendung des faktorenanalytischen Verfahrens findet sich z.B. bei Salzberger
(1997), welcher die Vergleichbarkeit unterschiedlicher Samplingmethoden in der Zufriedenheitsforschung untersucht.
12.4 Spezielle Anwendungsfelder der Latent Trait Theory in der Marketingforschung
Neben dem diskutierten Einsatz zur Absicherung der Vergleichbarkeit, bestehen weitere,
vielversprechende Anwendungsfelder der Latent Trait Theory in der Marketingforschung, welche hier nur angedeutet und keinesfalls erschöpfend dargestellt werden können. So stellt das polytome Rasch-Modell eine ausgezeichnete Möglichkeit dar,
Hypothesen über Antwortskalen zu überprüfen und die optimale Zahl an Kategorien empirisch zu ermitteln (vgl. Zhu et al., 1997). Die Falsifikation des polytomen Modells der
CETSCALE in Österreich bei gleichzeitiger Bestätigung des dichotomen Modells läßt die
Erforschung einer reduzierten Zahl an Antwortkategorien (zwischen zwei und sieben)
sinnvoll erscheinen. Generalisiert mündet auch die Forderung nach Absicherung der Antwortkategorisierung in das Plädoyer zur stärkeren Gewichtung meßtheoretischer Betrachtungen im Marketing.
237
Abschließend sei auf zwei weitere interessante Anwendungsaspekte der Latent Trait
Theory hingewiesen. Gelegentlich lassen diskrete, qualitative beobachtbare Phänomene
den Eindruck erwecken, als ob diese Manifestationen eines ebenfalls qualitativen, nichtkontinuierlichen latenten Konstrukts seien. Tatsächlich ist es aber durchaus möglich, daß
ein kontinuierlicher latenter Trait qualitativ unterschiedliche Manifestationen hervorruft.
Ein Beispiel aus der Psychologie sind die Phasen der intellektuellen Entwicklung des
Menschen nach Piaget, welche qualitativ unterschiedliche Entwicklungsstufen darstellen.
Bond (1995a, 1995b), sowie Bond und Bunting (1995) zeigen mit Hilfe der Latent Trait
Theory, daß diskontinuierliche Sprünge auf der manifesten Ebene durch kontinuierliche
Zuwächse auf einem latenten Kontinuum erklärbar sind. Ausgangspunkt sind dabei Items,
welche Kindern aus unterschiedlichen Phasen nach Piaget vorgegeben werden. Wenn die
Itemparameter über diese Gruppen hinweg gleich sind, so lassen sich Vergleiche auf der
kontinuierlichen latenten Dimension vornehmen. Im Marketingkontext erscheint dieser
Ansatz beispielsweise im Zusammenhang mit der Marktsegmentierung vielversprechend.
Neue Segmentierungsansätze stellen technographische Kriterien, wie z.B. den Besitz eines PCs, gegenüber demo- und psychographischen Kriterien in den Vordergrund (Eaton,
1997). Die technographisch abgegrenzten Marktsegmente unterscheiden sich auf manifester Ebene qualitativ. Auf latenter Ebene könnten sich diese Segmente unter Umständen
auf einer kontinuierlichen Dimension abbilden lassen.
Eine weitere völlig neue Betrachtungsweise eröffnet die Latent Trait Theory in Bezug auf
die häufig diagnostizierte geringe Korrelation von Einstellung und entsprechendem Verhalten bzw. dem berichteten Verhalten (Kroeber-Riel und Weinberg, 1996, S.172). Das
Rasch-Modell gestattet die Überprüfung, ob sich einstellungs- und verhaltensbezogene
Items auf der gleichen Dimension abbilden lassen, also keine verschiedenen Konstrukte
darstellen. Dabei wird davon ausgegangen, daß die verhaltensbezogene Version eines
Einstellungsitems dieselbe Dimension mißt, aber einen höheren Schwierigkeitsparameter
(und damit einen geringeren Aufforderungscharakter) aufweist. Waugh (1998) prüft diese
Hypothese am Beispiel von Einstellung zum Studium und tatsächlichem (berichteten)
Studierverhalten. Ein Großteil der Items ist modellkonform, und verhaltensbezogene
Items haben durchwegs größere Itemparameter als die entsprechenden Einstellungsitems.
Die Unterschiede sind jedoch über alle Items hinweg nicht konstant, was den geringen li-
238
nearen Zusammenhang von Einstellung und Verhalten in quantitativen empirischen Untersuchungen erklären würde.
Für die Konsumentenverhaltensforschung ergibt sich daraus eine neue Sichtweise der
Problematik von Einstellung und Kaufverhalten. Mit Hilfe der Latent Trait Theory kann
empirisch überprüft werden, ob die Einstellung zu einem Produkt, die damit verbundene
Kaufabsicht und das tatsächliche Kaufverhalten eine einzige Dimension darstellen. Der
Kauf eines Produkts ist demzufolge die verhaltensbezogene Komponente der Einstellung
(Kroeber-Riel und Weinberg, 1996). Bei gegebener Lokation auf der latenten Dimension
(„Einstellung im weiteren Sinne“) wäre die geäußerte Einstellung positiver als die Kaufabsicht bzw. das tatsächliche Kaufverhalten, da die Zustimmung zu Einstellungsitems
leichter fällt als jene zu Kaufabsichts- oder Kaufverhaltensitems. Die Diskrepanz zwischen Einstellung und Kaufverhalten geht damit lediglich auf Itemcharakteristika zurück.
Traditionell werden hingegen situative Faktoren als Erklärung für die Divergenz von Einstellung und Verhalten angeführt bzw. unterschiedliche Konstrukte angenommen.
239
13 Literatur
13 Literatur
Adler, Leonore L. (Hrsg.) (1977): Issues in Cross-Cultural Research, Annals of the New
York Academy of Sciences, New York
Adler, Nancy J. (1983): A Typology of Management Studies Involving Culture, in: Journal of International Business Studies, Fall 1983, S.29-47
Adler, Nancy J. (1991): International Dimensions of Organizational Behavior, Second
Edition, PWS-KENT Publishing, Bosten
Andersen, Erling B. (1977): Sufficient Statistics and Latent Trait Models, in: Psychometrika, Vol. 42, S.69-81
Anderson, James C.; Gerbing, David W. (1988): Structural Equation Modeling in Practice: A Review and Recommended Two-Step Approach, in: Psychological Bulletin,
Vol. 103, Nr. 3, S.411-423
Andersson, Gunnar (1988): Kritik und Wissenschaftsgeschichte, Mohr, Tübingen
Andrich, David (1978a): A Rating Formulation for Ordered Response Categories, in: Psychometrika, Vol. 43, Nr. 4, S.561-573
Andrich, David (1978b): Application of a Psychometric Rating Model to Ordered Categories Which Are Scored with Successive Integers, in: Applied Psychological Measurement, Vol. 2, Nr. 4, S.581-594
Andrich, David (1982): An Index of Person Separation in Latent Trait Theory, the Traditinal KR.20 index, and the Guttman Scale Response Pattern, in: Educational Research and Perspectives, UWA, Vol. 9, Nr. 1, S.95-104
Andrich, David (1985): An Elaboration of Guttman Scaling with Rasch Models for Measurement, in: Brandon-Tuma, N. (Hrsg.): Sociological Methodology, Jossey-Bass,
San Francisco, Chapter 2, S.33-80
Andrich, David (1988a): Rasch Models for Measurement, Sage University Paper Series
on Quantitative Applications in the Social Sciences, 68, Sage Publications, Beverly
Hills
Andrich, David (1988b): A General Form of Rasch’s Extended Logistic Model for Partial
Credit Scoring, in: Applied Measurement in Education, Vol. 1, Nr. 4, S.363-378
Andrich, David (1989): Distinctions between Assumptions and Requirements in Measurement in the Social Sciences, in: Keats, J.A. et al. (Hrsg.): Mathematical and Theoretical Systems, Elsevier Science Publishers B.V., North Holland, S.7-16
Andrich, David (1995a): Distinctive and Incompatible Properties of Two Common Classes of IRT Models for Graded Responses, in: Applied Psychological Measurement,
Vol. 19, Nr. 1, S.101-119
240
13 Literatur
Andrich, David (1995b): Models for Measurement, Precision and the Non-Dichotomization of Graded Responses, in: Psychometrika, Vol. 60, Nr. 1, S.7-26
Andrich, David (1995c): Further Remarks on the Non-Dichotomization of Graded Responses, in: Psychometrika, Vol. 60, Nr. 1, S.37-46
Andrich, David (1997): A Hyperbolic Cosine IRT Model for Unfolding Direct Responses
of Persons to Items, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.399-414
Andrich, David (1998): Advanced Social and Educational Measurement, Unit Materials
E444 Summer 1998, Murdoch University, Perth
Andrich, David; Sheridan, Barry E. (1997): Diagnostic Opportunities with the Rasch Model for Ordered Response Categories, in: Rost, Jürgen; Langeheine, Rolf (Hrsg.):
Applications of Latent Trait and Latent Class Models in the Social Sciences, Waxmann, Münster, S.59-70
Angelmar, Reinhard; Pras, Bernhard (1978): Verbal Rating Scales for Multinational Research, in: European Research, Vol. 6, March, S.62-67
Atteslander, Peter (1995): Methoden der empirischen Sozialforschung, de Gruyter, Berlin
Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff; Weiber, Rolf (1994): Multivariate
Analysemethoden - Eine anwendungsorientierte Einführung, siebente, vollständig
überarbeitete und erweiterte Auflage, Springer, Berlin
Bagozzi, Richard P. (1982): A Field Investigation of Causal Relations among Cognitions,
Affect, Intentions, and Behavior, in: Journal of Marketing Research, Vol. XIX,
S.562-584
Bauer, Erich (1989): Übersetzungsprobleme und Übersetzungsmethoden bei einer multinationalen Marketingforschung, in: Jahrbuch für Absatz- und Verbrauchsforschung, Nr.2, S.174-205
Bauer, Erich (1995): Internationale Marketingforschung, Oldenbourg, München
Baumgartner, Hans; Homburg Christian (1996): Applications of Structural Equation Modeling in Marketing and Consumer Research: A review, in: International Journal of
Research in Marketing, Vol. 13, S.139-161
Baumgartner, Hans; Steenkamp, Jan-Benedict E.M. (1997): Multi-Group Latent Variable
Models for Varying Numbers of Items and Factors with Cross-National and Longitudinal Applications, Workingpaper, Catholic University of Leuven, Belgium
Beatty, Sharon E.; Jeon, Jung-Ok; Albaum, Gerald; Murphy, Brian (1994): A Cross-National Study of Leisure Activities, in: Journal of Cross-Cultural Psychology, Vol.
25, Nr. 3, S.409-422
241
13 Literatur
Bentler, Peter M.; Bonett, Douglas G. (1980): Significance Tests and Goodness of Fit in
the Analysis of Covariance Structures, in: Psychological Bulletin, Vol. 88, Nr. 3,
S.588-606
Berry, John W. (1980): Introduction to Methodology, in: Triandis, Harry C.; Berry, John
W. (Hrsg.): Handbook of Cross-Cultural Psychology, Vol. 2: Methodology, Boston,
MA, S.1-28
Berry, John W. (1990): Imposed Etics, Emics and Derived Etics: Their Conceptual and
Operational Status in Cross-Cultural Psychology, in: Headland, Thomas N.; Pike,
Kenneth L.; Harris, Marvin (Hrsg.): Emics and Etics - The Insider/Outsider Debate,
SAGE Publications, Newbury Park, S.84-99
Berry, John W.; Annis, R.C. (1974): Ecology, Culture, and Psychological Differentiation,
in: International Journal of Psychology, Vol. 9, S.173-193
Berry, John W.; Dasen, D.S. (Hrsg.) (1974): Introduction to Culture and Cognition, Methuen
Birnbaum, Allan (1968): Some Latent Trait Models and Their Use in Inferring an Examinee’s Ability, in: Lord, Frederic M.; Novick, M.R. (Hrsg.): Statistical Theories of
Mental Test Scores (Chapters 17-20), Addison-Wesley, Reading (Mass.)
Bock, R. Darrell (1972): Estimating Item Parameters and Latent Ability when the Responses are Scored in Two or More Nominal Categories, in Psychometrika, Vol. 37,
Nr. 1, S.29-51
Bock, R. Darrell (1997): The Nominal Categories Model, in: van der Linden, Wim J.;
Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer,
New York, S.33-49
Bollen, Kenneth A. (1989): Structural Equations with Latent Variables, Wiley, New York
Bollen, Kenneth A.; Long, J. Scott (1993): Introduction, in: Bollen, Kenneth A.; Long, J.
Scott (Hrsg.): Testing Structural Equation Models, SAGE Publications, Newbury
Park, S.1-9
Bollen, Kenneth A.; Long, J. Scott (Hrsg.) (1993): Testing Structural Equation Models,
SAGE Publications, Newbury Park
Bond, Trevor G. (1995a): Piaget and Measurement I: The Twain Really Do Meet, in: Archives de Psychologie, Vol. 63, S.71-87
Bond, Trevor G. (1995b): Piaget and Measurement II: Empirical Validation of the Piagetian Model, in: Archives de Psychologie, Vol. 63, S.155-185
Bond, Trevor G. & Bunting, Erin (1995): Piaget and Measurement III: Reassessing the
Méthode Clinique, in: Archives de Psychologie, Vol. 63, S.231-255
242
13 Literatur
Bontempo, Robert (1993): Translation Fidelity of Psychological Scales, An Item Response Theory Analysis of an Individualismus-Collectivism Scale, in: Journal of CrossCultural Psychology, Vol. 24, Nr. 2, S.149-166
Boran-Leitner, G.; Franta, R. (1994): Das neue Europa für mich als Lebensmittelhändler,
Information des WIFI Österreich
Bortz, Jürgen (1993): Statistik - Für Sozialwissenschaftler, Springer, Berlin
Brislin, Richard W. (1970): Back-translation for Cross-Cultural Research, in: Journal of
Cross-Cultural Psychology, Vol. 1, No. 3, September 1970, S.185-216
Brislin, Richard W. (1980): Translation and Content Analysis of Oral and Written Material, in: Triandis, Harry C.; Berry, John W. (Hrsg.): Handbook of Cross-Cultural
Psychology, Vol. 2: Methodology, Boston, MA, S.389-444
Brislin, Richard W. (1986): The Wording and Translation of Research Instruments, in:
Lonner, Walter J.; Berry, John W. (Hrsg.): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, SAGE Publications,
Beverly Hills, S.137-164
Brislin, Richard W.; Yoshida, Tomoko (1994): Intercultural Communication Training:
An Introduction, SAGE Publications, Thousand Oaks
Brockhaus (1979): Enzyklopädie; 6. Auflage, Band 3, Wiesbaden
Browne, Michael W.; Cudeck, Robert (1993): Alternative Ways of Assessing Model Fit,
in: Bollen, Kenneth A.; Long, J. Scott (Hrsg.): Testing Structural Equation Models,
Brüch, Andreas; Thomas, Alexander (1995): Beruflich in Südkorea. Interkulturelles Orientierungstraining für Manager, Fach- und Führungskräfte, Asanger, Heidelberg
Burns, Alvin C.; Bush, Ronald F. (1995): Marketing Research, Prentice Hall, Englewood
Cliffs
Byrne, Barbara M.; Shavelson, Richard J.; Muthén, Bengt (1989): Testing for the Equivalence of Factor Covariance and Mean Structures: The Isues of Partial Measurement Invariance, in: Psychological Bulletin, Vol. 105, Nr. 3, S.456-466
Calantone, Roger J.; Schmidt, Jeffrey B.; Song, Michael X. (1996): Controllable Factors
of New Product Success: A Cross-National Comparison, in: Marketing Science,
Vol. 15, Nr. 4, S.341-358
Campbell, D.T. (1961): The Mutual Methodological Relevance of Anthropology and Psychology, in: Hsu, Francis L.K. (Hrsg.): Psychological Anthropology, Dorsey, Homewood
243
13 Literatur
Candell, Gregory L.; Hulin, Charles L. (1987): Cross-Language and Cross-Cultural Comparisons in Scale Translations, Independent Sources of Information About Item Nonequivalence, in: Journal of Cross-Cultural Psychology, Vol. 17, nr. 4, S.417-440
Cavusgil, S. Tamer; Das, Ajay (1997): Methodological Issues in Empirical Cross-Cultural Research: A Survey of the Management Literature and a Framework, in: Management International Review, Vol. 37, 1997/1, S.71-96
Chikudate, Nobuyuki (1997): Exploring the Life-world of Organizations by Linguistic
Oriented Phenomenology in Sub-Cultural Analysis of Organizations: A Comparison between Japanes and U.S. Banks, in: Management International Review, Vol.
37, 1997/2, S.169-183
Chmielewicz, Klaus (1979): Forschungskonzeptionen der Wirtschaftswissenschaft, 2.
Auflage, Poeschel, Stuttgart
Churchill, Gilbert A. Jr. (1995): Marketing Research - Methodological foundations, Sixth
Edition, The Dryden Press, Fort Worth
Clark, Terry (1990): International Marketing and National Character: A Review and Proposal for an Integrative Theory, in: Journal of Marketing, Nr.3, Oktober 1990, S.6679
Cronbach, Lee J.; Gleser, Goldine C.; Nanda, H.; Rajaratnam, N. (1972): The Dependability of Behavioral Measurements, John Wiley, New York
Cui-Chi, Charles (1997): Toward Cross-cultural Measure Equivalence of Conditions of
Inter-personal Trust: A Confirmatory Factor Analysis, in: Harris, Phil; Schuster,
Camille (Hrsg.): The Academy of Marketing/American Marketing Association
Conference, Proceedings of the First Conference, Marketing Across Borders,
S.235-238
Davis, Harry L.; Douglas, Susan P.; Silk, Alvin J. (1981): Measure Unreliability: A Hidden Threat to Cross-National Marketing Research?, in: Journal of Marketing, Vol.
45, Spring 1981, S.98-109
Douglas, Susan P., Craig, Samuel C. (1983): International Marketing Research, PrenticeHall, Englewood Cliffs
Douglas, Susan P., Craig, Samuel C. (1992): Advances in International Marketing, in: International Journal of Research in Marketing, Vol. 9, Nr. 4, S.291-318
Douglas, Susan P.; Craig, Samuel C. (1995): Global Marketing Strategy, McGraw-Hill,
New York
Douglas, Susan P.; Wind, Yoram (1987): The Myth of Globalization, Columbia Journal
of World Business, Winter 1987 19-29
Drasgow, Fritz (1995): Some Comments on Labouvie and Ruetsch, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.83-85
244
13 Literatur
Drasgow, Fritz; Miller, Howard E. (1982): Psychometric and Substantive Issues in Scale
Construction and Validation, in: Journal of Applied Psychology, Vol. 67, Nr. 3,
S.268-279
Du Preez, Johann P; Diamantopoulos, Adamantios; Schlegelmilch, Bodo B. (1994): Product Standardization and Attribute Saliency: A Three-Country Empirical Comparison, in: Journal of International Marketing, Vol. 2, Nr. 1, S.7-28
Durkheim, Emile (1981): Die elementaren Formen des religiösen Lebens, Suhrkamp,
Frankfurt/Main
Durvasula, Srinivas; Andrews, Craig J.; Netemeyer, Richard G. (1997): A Cross-Cultural
Comparison of Consumer Ethnocentrism in the United States and Russia, in: Journal of International Consumer Marketing, Vol. 9, Nr. 4, S.73-93
Eaton, Bill (1997): „Technographics“ May Be the New Research Buzzword, in: Marketing News, Vol. 31, Nr. 19, S.8
Ellis, Barbara B. (1989): Differential Item Functioning: Implications for Test Translations, in: Journal of Applied Psychology, Vol. 74, Nr. 6, S.912-921
Ellis, Barbara B.; Kimmel, Herbert D. (1992): Identification of Unique Cultural Response
Patterns by Means of Item Response Theory, in: Journal of Applied Psychology,
Vol. 77, Nr. 2, S.177-184
Ellis, Barbara B.; Becker, Peter; Kimmel, Herbert D. (1993): An Item Response Theory
Evaluation of an English Version of the Trier Personality Inventory (TPI), in: Journal of Cross-Cultural Psychology, Vol. 24, Nr. 2, S.133-148
Engelhard, Johann (Hrsg.) (1997): Interkulturelles Management : theoretische Fundierung und funktionsbereichsspezifische Konzepte, Gabler, Wiesbaden
Ferrando, Pere J. (1996): Calibration of Invariant Item Parameters in a Continuous Item
Response Model Using the Extended Lisrel Measurement Submodel, in: Multivariate Behavioral Measurement, Vol. 31, Nr. 4, S.419-439
Finifter, B.M. (1977): The Robustness of Cross-Cultural Findings, in: Adler, Leonore
Loeb (Hrsg.) (1977): Issues in Cross-Cultural Research, Annals of the New York
Academy of Sciences, New York, S.151-184
Fischer, Gerhard (1974): Einführung in die Theorie psychologischer Tests, Huber, Bern
Fischer, Gerhard (1989): Spezifische Objektivität: Eine wissenschaftstheoretische Grundlage des Rasch-Modells, in: Kubinger, Klaus (Hrsg.): Moderne Testtheorie - Ein
Abriß samt neuesten Beiträgen, Beltz, Weinheim, S.87-111
Fischer, Gerhard (1995a): Derivations of the Rasch Model, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.15-38
245
13 Literatur
Fischer, Gerhard (1995b): The Derivation of Polytomous Rasch Models, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments,
and Applications, Springer, New York, S.293-305
Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.) (1995): Rasch Models, Foundations Recent
Developments, and Applications, Springer, New York
Freud, Sigmund (1930): Das Unbehagen in der Kultur, in: Fragen der Gesellschaft, Ursprünge der Religion, Studienausgabe Band IX, Fischer Wissenschaft, 1982, S.192270
Frijda, Nico H.; Jahoda, Gustav (1966): On the Scope and Methods of Cross-Cultural Research, in: Journal of International Psychology, Vol. 1, S.110-127
Friedrichs, Jürgen (1990): Methoden empririscher Sozialforschung, 14. Auflage, Westdeutscher Verlag, Opladen
Gerbing, David W.; Hamilton, Janet G. (1996): Viability of Exploratory Factor Analysis
as a Precursor to Confirmatory Factor Analysis, in: Structural Equation Modeling,
Vol. 3, Nr. 1, S.62-72
Glas, Gene V.; Stanley, Julian C. (1970): Statistical Methods in Education and Psychology, Prentice Hall, Englewood Cliffs, N.J.
Goldschmidt, W. (1966): Comparative Functionalism, University of California Press,
Berkeley
Good, Linda K.; Huddleston, Patricia (1995): Ethnocentrism of Polish and Russian Consumers: Are Feelings and Intentions Related?, in: International Marketing Review,
Vol. 12, Nr. 5, S.35-48
Goodenough, Ward H. (1971): Culture, Language and Society, Modular Publications 7,
Addison-Wesley, Reading, MA
Green, Robert; Langeard, Eric (1975): A Cross-National Comparison of Consumer Habits
and Innovator Characteristics, in: Journal of Marketing, 49, S.34-41
Grubitzsch, Siegfried; Rexilius, Günter (1978): Testtheorie - Testpraxis, Voraussetzungen, Verfahren, Formen und Anwendungsmöglichkeiten psychologischer Tests im
kritischen Überblick, Rowolth, Reinbek bei Hamburg
Gullikson, H. (1950): Theory of Mental Tests, Wiley, New York
Guttman, Louis (1950): The Basis of Scalogram Analysis, in: Stouffer, S.A. et al.: Studies
in Social Psychology in World War II, Vol. IV, Princeton University Press, Princeton, N.J. 1950
Hair, Joseph F. Jr.; Anderson, Rolph E.; Tatham, Ronald L.; Black, William C. (1995):
Multivariate Data Analysis with Readings, fourth edition, Prentice-Hall, Englewood Cliffs
246
13 Literatur
Hall, Edward T. (1959): The Silent Language, reprint 1980, Greenwood Press, Westport
Hall, Edward T.; Hall, Mildreed Reed (1990): Understanding Cultural Differences, Intercultural Press, Yarmouth (Maine)
Hambleton, Ronald K.; Swaminathan, Hariharan (1985): Item Response Theory: Principles and Applications, Kluwer Nijhof Publishing, Boston
Hambleton, Ronald K.; Swaminathan, Hariharan; Rogers, Jane H. (1991): Fundamentals
of Item Response Theory, SAGE Publications, Newbury Park
Hancock, Gregory R. (1997): Structural Equation Modeling Methods of Hypothesis Testing of Latent Variable Means, in: Measurement and Evaluation in Counseling and
Development, Vol. 30, July 1997, S.91-105
Hanisch, Kathy A. (1992): The Job Descriptive Index Revisited: Questions About the
Question Mark, in: Journal of Applied Psychology, Vol. 77, Nr. 3,S.377-382
Hänni, R. (1987): Hypothetisches Konstrukt, in: Arnold, Wilhelm; Eysenck, Hans Jürgen;
Meili, Richard (Hrsg.): Lexikon der Psychologie, Zweiter Band, S.946
Headland, Thomas N.; Pike, Kenneth L.; Harris, Marvin (Hrsg.) (1990): Emics and Etics
- the Insider/Outsider Debate, SAGE Publications, Newbury Park
Herkner, Werner (1991): Sozialpsychologie, 5. korrigierte und starkt erweiterte Auflage,
Huber, Bern
Hofstede, Geert (1980): Culture’s Consequences: International Differences in Work-related Values, SAGE Publications, Beverly Hills
Hofstede, Geert (1983): The Cultural Relativity of Organizational Practicies and Theories, in: Journal of International Business Studies, Vol. 14, Nr. 2, S.75-89
Hofstede, Geert (1984): Culture’s Consequences: International Differences in Work-related Values, Abridged Version, SAGE Publications, Newbury Park
Hofstede, Geert (1991): Cultures and Organizations. Software of the Mind. Intercultural
Coperation and its Importance for Survival, McGraw-Hill, London
Hofstede, Geert (1992): Die Bedeutung von Kultur und ihren Dimensionen im Internationalen Management, in: Kumar, B.N.; Haussmann, H. (Hrsg.): Handbuch der Internationalen Unternehmenstätigkeit, München 1992, S.303-324
Hofstede, Geert (1993): Interkulturelle Zusammenarbeit: Kulturen - Organisationen - Management, Gabler, Wiesbaden
Hofstede, Geert; Bond, Michael H. (1984): Hofstede’s Culture Dimensions: An Independent Validation using Rokeach’s Value Survey, in: Journal of Cross-Cultural Psychologie, Vol. 15, Nr. 4, S.417-433
247
13 Literatur
Holzmüller, Hartmut H. (1986): Grenzüberschreitende Konsumentenforschung, in: Marketing ZFP, Heft 1, Februar 1986, S.45-54
Holzmüller, Hartmut H. (1995): Konzeptionelle und methodische Probleme in der interkulturellen Management- und Marketingforschung, Schäffer Poeschel, Stuttgart
Holzmüller, Hartmut H. (1996): How to Avoid Safari Research in Cross-National Marketing Studies, in: Berács, József; Bauer, András; Simon, Judith (Hrsg.): Proceedings
of the EMAC Annual Conference, Budapest University of Economic Sciences, Vol.
2, S.1769-1785
Holzmüller, Hartmut H. (1997): Kulturstandards - ein operationales Konzept zur Entwicklung kultursensitiven Managements, in: Engelhard, Johann (Hrsg.): Interkulturelles Management : theoretische Fundierung und funktionsbereichsspezifische
Konzepte, Gabler, Wiesbaden, S.55-74
Homburg, Christian; Baumgartner, Hans (1995): Beurteilung von Kausalmodellen, Bestandsaufnahme und Anwendungsempfehlungen, in: Marketing ZFP, Heft 3, S.162176
Homburg, Christian; Giering, Annette (1996): Konzeptualisierung und Operationalisierung komplexer Konstrukte: Ein Leitfaden für die Marketingforschung, in: Marketing ZFP, Heft 1, 1996/1, S.5-24
Horn, John L.; McArdle, J.J. (1992): A Practical and Theoretical Guide to Measurement
Invariance in Aging Research, In: Experimental Aging Research, 18 (3), S.117-144
Hsu, Francis L.K. (Hrsg.) (1961): Psychological Anthropology, Dorsey, Homewood
Hsu, Francis L.K. (Hrsg.) (1972): Psychological Anthropology, 2nd edition, Schenkmann, Cambridge, Mass.
Huang, David C.; Church, Timothy A.; Katigbak, Marcia S. (1997): Identifying Cultural
Differences in Items and Traits, Differential Item Functioning in the NEO Personality Inventory, in: Journal of Cross-Cultural Psychology, Vol. 28, Nr. 2, S.192-218
Hubbard, Raymond; Armstrong, Scott J. (1994): Replications and Extensions in Marketing: Rarely Published But Quite Contrary, in: International Journal of Research in
Marketing, Nr. 11, S.233-248
Hulin, Charles L. (1987): A Psychometric Theory of Evaluations of Items and Scale
Translations, Fidelity Across Languages, in: Journal of Cross-Cultural Psychology,
Vol. 18, Nr. 2, S.115-142
Hulin, Charles L.; Mayer, Laura J. (1986): Psychometric Equivalence of a Translation of
the Job Descriptive Index into Hebrew, in: Journal of Applied Psychology, Vol. 71,
Nr. 1, S.83-92
248
13 Literatur
Hulin, Charles L.; Drasgow, Fritz; Komocar, John (1982): Applications of Item Response
Theory to Analysis of Attitude Scale Translations, in: Journal of Applied Psychology, Vol. 67, Nr. 6, S.818-825
Hulin, Charles L.; Drasgow, Fritz; Parsons, Charles K. (1983): Item Response Theory,
Dow Jones-Irwin
Hüttner, Manfred (1989): Grundzüge der Marktforschung, 4. Auflage, deGruyter, Berlin
Idaszak, Jacqueline R.; Bottom, William P.; Drasgow, Fritz (1988): A Test of the Measurement Equivalence of the Revised Job Diagnostic Survey: Past Problems and Current Solutions, in: Journal of Applied Psychology, Vol. 73, Nr. 4, S.647-656
Inkelsen, Alex; Levinson, Daniel J. (1969): National Character: The Study of Modal Personality and Sociocultural Systems, in: Lindzey, G.; Aronson, E. (Hrsg.): The
Handbook of Social Psychology, Vol. 4, 2nd edition, Addison-Wesley 1969
Irvine, Sid. H.; Carroll, William K. (1980): Testing and Assessment across Cultures: Issues in Methodology and Theory, in: Triandis, Harry C.; Berry, John W. (Hrsg.)
Handbook of Cross-Cultural Psychology, Vol. 2: Methodology, Boston, MA,
S.181-244
Iversen, Gudmund R. (1984): Bayesian Statistical Inference, SAGE University Paper
Nr.43, SAGE, Newbury Park
Jain, Subhash C. (1993): International Marketing Management, 4th. edition, Wadsworth
Publishing, Belmont, California
Jöreskog, Karl G. (1971): Simultaneous Factor Analysis in Several Populations, in: Psychometrika, Vol. 36, No. 4, S.409-426
Jöreskog, Karl G.; Sörbom Dag (1993): LISREL 8: Structural Equation Modeling with
the SIMPLIS Command Language, Scientific Software, Mooresville
Kant, Immanuel (1995): Kritik der reinen Vernunft, Ausgabe 1995, Werke in sechs Bänden, Band zwei, Könemann, Köln
Kelderman, Henk (1997): Loglinear Multidimensional Item Response Model for Polytomously Scored Items, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.):
Handbook of Modern Item Response Theory, Springer, New York, S.287-304
Kluckhohn, Fred R.; Strodtbeck, Florence L. (1975): Variations in Value Orientations, 2.
Reprint, Greenwood Press, Westport
Köbben, A. (1970): Comparativists and Non-Comparativists in Anthropology, in: Naroll,
R., Cohen, R. (Eds.): Handbook of Method in Cultural Anthropology, Natural History Press, New York, S.581-596
Kotler, Philip (1994): Marketing Management: Analysis, Planning, Implementation and
Control, Prentice Hall, Englewood Cliffs, NJ
249
13 Literatur
Kroeber, Alfred L.; Kluckhohn, Clyde (1952): Culture: A Critical Review of Concepts
and Definitions, Harvard University Peabody Museum of American Archeology
and Ethnology Papers, 47, H. 1, Cambridge (Mass.)
Kroeber-Riel, Werner (1992): Konsumentenverhalten, 5. überarbeitete und ergänzte Auflage, Vahlen, München
Kroeber-Riel, Werner; Weinberg, Peter (1996): Konsumentenverhalten, 6. völlig überarbeitete Auflage, Vahlen, München
Kuhn, Thomas S. (1997): Die Struktur wissenschaftlicher Revolutionen, 14. Auflage,
Suhrkamp Taschenbuch Wissenschaft Nr. 25, Suhrkamp, Frankfurt am Main
La Du, Terence J.; Tanaka, J.S. (1989): Influence of Sample Size, Estimation Method, and
Model Specification on Goodness-of-Fit Assessments in Structural Equation Models, in: Journal of Applied Psychology, Vol. 74, Nr. 4, S.625-635
Labouvie, Erich; Ruetsch, Charles (1995): Testing for Equivalence of Measurement Scales: Simple Structure and Metirc Invariance Reconsidered, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.63-76
Landis, Dan; Bhagat, Rabi S. (Hrsg.) (1996): Handbook of Intercultural Training, 2nd edition, SAGE, Thousand Oaks
Levitt, Theodore (1983): The Globalization of Markets, Harvard Business Review, MayJune, S.92-102
Lewis, Barbara R.; Cadell, Sebastian D. (1997): Cultural Differences in Expectations and
Perceptions of Service: A Study from the Airline Industry, in: Harris, Phil; Schuster,
Camille (Hrsg.): The Academy of Marketing/American Marketing Association
Conference, Proceedings of the First Conference, Marketing Across Borders, S.3345
Leyhausen, Paul (1951): Einführung in die Eindruckskunde, in: Lorenz, Konrad; Leyhausen, Paul (1968): Antriebe tierischen und menschlichen Verhaltens. Gesammelte
Abhandlungen, Piper, München, S.48-53
Lienert, Gustav A. (1989): Testaufbau und Testanalyse, 4. Auflage, Weinheim, München
Lim, Rodney G.; Drasgow, Fritz (1990): Evaluation of Two Methods for Estimating Item
Response Theory Parameters When Assessing Differential Item Functioning, in:
Journal of Applied Psychology, Vol. 75, Nr. 2, S.164-174
Linton, Ralph (1945): The Cultural Background of Personality, Appleton-Century, New
York
Lonner, Walter J. (1980): The Search for Psychological Universals, in: Triandis, Harry C.;
Lambert, William Wilson (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 1:
Perspectives, Boston, MA, S. 143-204
250
13 Literatur
Lonner, Walter J.; Berry, John W. (Hrsg.) (1986): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, Sage Publications,
Beverly Hills
Lord, Frederic M. (1952): A Theory of Test Scores, Psychometric Monograph Nr. 7, Psychometric Corporation
Lord, Frederic M. (1974): Estimation of Latent Ability and Item Parameters When There
Are Omitted Responses, in: Psychometrika, Vol. 39, S.247-264
Lord, Frederic M.; Novick, M.R. (Hrsg.) (1968): Statistical Theories of Mental Test Scores, Addison-Wesley, Reading (Mass.)
Lorenz, Konrad (1943): Die angeborenen Formen möglicher Erfahrung, in: Zeitschrift für
Tierpsychologie, 5, S.235-409
Lorenz, Konrad; Leyhausen, Paul (1968): Antriebe tierischen und menschlichen Verhaltens. Gesammelte Abhandlungen, Piper, München
Lundstrom, William J.; White, Steven D. (1997): Materialistic Values Across Borders:
France versus The USA, in: Harris, Phil; Schuster, Camille (Hrsg.): The Academy
of Marketing/American Marketing Association Conference, Proceedings of the
First Conference, Marketing Across Borders, S.47-51
Malhotra, Naresh K.; Agarwal, James; Peterson, Mark (1996): Methodological Issues in
Cross-Cultural Marketing Research - A State-of-the-Art Review, in: International
Marketing Review, Vol. 13, No. 5, S.7-43
Malinowski, Bronislaw (1988): Eine wissenschaftliche Theorie der Kultur und andere
Aufsätze , 3. Aufl., Suhrkamp, Frankfurt am Main
Malpass, Roy S.; Poortinga, Ype H. (1986): Strategies for Design and Analysis, in: Lonner, Walter J.; Berry, John W. (Hrsg.): Field Methods in Cross-Cultural Research,
Cross-Cultural Research and Methodology Series Vol. 8, Sage Publications, Beverly Hills, S.47-83
Manrai, L.; Manrai A.K. (1996): Current Issues in the Cross-Cultural and Cross-National
Consumer Research, in: Journal of International Consumer Marketing, Vol. 8, No.
3/4, 1996
Marsh, Herbert W.; Balla, John R.; McDonald, Roderick P. (1988): Goodness-of-Fit Indexes in Confirmatory Factor Analysis: The Effect of Sample Size, in: Psychological Bulletin, Vol. 103, Nr. 3, S.391-410
Masters, Geofferey N. (1982): A Rasch Model for Partial Credit Scoring, in: Psychometrika, Vol. 47, Nr. 2, S.149-174
Masters, Geofferey N. (1988): Item Discrimination: When More is Worse, in: Journal of
Educational Measurement: Issues and Practice, National Council on Measurement
in Education, Vol. 25, Nr. 1, S.15-29
251
13 Literatur
Masters, Geofferey N.; Wright, Benjamin D. (1997): The Partial Credit Model, in: van der
Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response
Theory, Springer, New York, S.101-121
Mazanec, Josef (1979): Probabilistische Meßverfahren in der Marketingforschung, Ein
empirischer Anwendungsversuch zur Planung absatzpolitischer Strategien des
Imagetransfers, in: Marketing ZFP, Nr. 3, S.174-186
McCort, Daniel John; Malhotra, Naresh K. (1993): Culture and Consumer Behavior: Toward an Understanding of Cross-Cultural Consumer Behavior in International Marketing, in: Journal of International Consumer Marketing, Vol. 6, Nr. 2, S.91-127
McDonald, Malcolm H.B. (1989): Marketing Plans, Second Edition, Butterworth-Heinemann, Jordan Hill
McDonald, Roderick P. (1989): Future Directions for Item Response Theory, in: International Journal of Educational Research, Vol. 13, Nr. 1, S.205-220
McDonald, Roderick P. (1995): Testing for Equivalence of Measurement Scales: A Comment, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.87-88
McDonald, Roderick P. (1997): Normal-Ogive Multidimensional Model, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response
Meredith, William (1964): Notes on Factorial Invariance, in: Psychometrika, Vol. 29, No.
2, S.177-185
Meredith, William (1993): Measurement Invariance, Factor Analysis and Factorial Invariance, in: Psychometrika, Vol. 58, No. 4, S.525-543
Meredith, William (1995a): Two Wrongs May Not Make a Right, in: Multivariate Behavioral Research, Vol. 30, No. 1, S.89-94
Meredith, William (1995b): Two Wrongs Still Do Not Make a Right, in: Multivariate Behavioral Research, Vol. 30, No. 1, S.117
Meffert, Heribert (1992): Marketingforschung und Käuferverhalten, 2., vollständig überarbeitete und erweiterte Auflage, Gabler, Wiesbaden
Millsap, Roger E.; Everson, Howard T. (1993): Methodology Review: Statistical Approaches for Assessing Measurement Bias, in: Applied Psychological Measurement,
Vol. 17, Nr. 4, S.297-334
Mintu, Alma T.; Calantone, Roger J.; Gassenheimer, Jule B. (1994): Towards Improving
Cross-Cultural Research: Extending Churchill’s Research Paradigm, in: Journal of
International Consumer Marketing, Vol. 7, Nr. 2, S.5-23
252
13 Literatur
Mokken, Robert J. (1997): Nonparametric Models for Dichotomous Responses, in: van
der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.351-367
Mokken, Robert J.; Lewis, C. (1982): A Nonparametric Approach to the Analysis of Dichotomous Item Responses, in: Applied Psychological Measurement, Vol. 6,
S.417-430
Molenaar, Ivo W. (1995a): Some Background for Item Response Theory and the Rasach
Model, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations
Recent Developments, and Applications, Springer, New York, S.3-14
Molenaar, Ivo W. (1995b): Estimation of Item Parameters, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.39-51
Molenaar, Ivo W. (1997): Nonparametric Models for Polytomous Responses, in: van der
Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response
Mullen, Michael R. (1995): Diagnosing Measurement Equivalence in Cross-National Research, in: Journal of International Business Studies, Third Quarter 1995
Müller, Andrea; Thomas, Alexander (1991): Interkulturelles Orientierungstraining für die
USA: Übungsmaterial zur Vorbereitung auf ein Studium n den Vereinigten Staaten,
Sozialwissenschaftlicher Studienkreis für Internationale Probleme: SSIP-Bulletin
Nr. 62, Breitenbach, Saarbrücken
Müller, Stefan; Kornmeier, Martin (1995): Internationales Marketing im Spannungsfeld
kultureller Einflußfaktoren, in: der Markt, Nr. 134, 1995/3, S.147-158
Myers, J.H.; Warner, W.G. (1968): Semantic Properties of Selected Evaluation Adjectives, in: Journal of Marketing Research, No. 4, S.409-412
Naroll, R. (1970): The Culture-bearing Unit in Cross-Cultural Surveys, in: Naroll, R., Cohen, R. (Hrsg.): Handbook of Method in Cultural Anthropology, Natural History
Press, New York, S.721-756
Naroll, R., Cohen, R. (Eds.) (1970): Handbook of Method in Cultural Anthropology, Natural History Press, New York
Nasif, Ercan G.; Al-Daeai, Hamad; Ebrahimi, Bahman; Thibodeaux, Mary S. (1991): Methodological Problems in Cross-Cultural Research: An Updated Review, in: Management International Review, Vol. 31, 1991/1, S.79-91
Nesselroade, John R. (1995a): „... and Expectation Fainted, Longing for What It Had
Not.“ Comments on Labouvie and Ruetsch’s „Testing for Equivalence ...“, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.95-99
253
13 Literatur
Nesselroade, John R. (1995b): Further Commentary on Labouvie and Ruetsch’s „Testing
for Equivalence ...“, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.119120
Netemeyer, Richard G.; Durvasula, Srinivas; Lichtenstein, Donald R. (1991): A CrossNational Assessment of the Reliability and Validity of the CETSCALE, in: Journal
of Marketing Research, Vol. 28, August 1991, S.320-327
Nunnally, Jum Clarence (1967): Psychometric Theory, McGraw Hill, New York
Ollivier, Alain; Dayan, Armand; Ourset, Roger (1990): Que sais-je? Le marketing international, Presses Universitaires de France, Paris
Osgood, Charles E. (1953): Method and Theory in Experimental Psychology, Oxford
University Press, New York
Osgood, Charles E.; Suci, George J.; Tannenbaum, Percy H. (1957): The Measurement of
Meaning, University of Illinois Press, Urbana
Osgood, Charles E. (1965): Cross-Cultural Comparability in Attitude Measurement via
Multilingual Semantic Differentials, in: Steiner, I.; Fishbein, M. (Hrsg.): Current
studies in social psychology, Holt, Rinehart and Winston, Chicago
Parameswaran, Ravi; Yaprak, Attila (1987): A Cross-National Comparison of Consumer
Research Measures, in: Journal of International Business Studies, Spring 1997,
S.35-48
Parsons, Charles K.; Hulin, Charles L. (1982): An Empirical Comparison of Item Response Theory and Hierarchical Factor Analysis in Applications to the Measurement of
Job Satisfaction, in: Journal of Applied Psychology, Vol. 67, Nr. 6, S.826-834
Pepels, Werner (1995): Käuferverhalten und Marktforschung, Schäffer-Poeschel, Stuttgart
Poortinga, Ype H. (1975): Some Implications of Three Different Approaches to Intercultural Comparison, in: Berry, John W.; Lonner, Walter J. (Hrsg.): Applied CrossCultural Psychology, Swets and Zeitlinger, Amsterdam, S.329-332
Poortinga, Ype H.; Malpass, Roy S. (1986): Making Inferences from Cross-Cultural Data,
in: Lonner, Walter J.; Berry, John W. (Hrsg.): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, Sage Publications,
Beverly Hills, S.17-46
Popper, Karl R. (1963): Conjectures and Refutations, London
Popper, Karl R. (1966): Logik der Forschung, 2., erweiterte Auflage, Mohr, Tübingen
Prim, Rolf; Tilmann, Heribert (1997): Grundlagen einer kritisch-rationalen Sozialwissenschaft, 7. Auflage, Quelle & Meyer, Wiesbaden
254
13 Literatur
Quester, Pascale; Tan, Teng (1997): Consumer Attitude to Anti-Smoking Messages: A
Cross Cultural Study, in: Harris, Phil; Schuster, Camille (Hrsg.): The Academy of
Marketing/American Marketing Association Conference, Proceedings of the First
Conference, Marketing Across Borders, S.53-63
Raju, Nambury S. (1988): The Area between Two Item Characteristic Curves, in: Psychometrika, Vol. 53, Nr. 4, S.495-502
Rasch, Georg (1966): An Individualistic Approach to Item Analysis, in: Lazarsfeld, P.F.;
Henry, N.W. (Hrsg.): Readings in Mathematical Social Science, Science Research
Association, Chicago, S.89-108
Rasch, Georg (1980): Probabilistic Models for Some Intelligence and Attainment Tests,
MESA Press, Chicago, Nachdruck der Originalpublikation aus 1960, Danish Institute for Educational Research
Reckase, Mark D. (1997): A Linear Logistic Multidimensional Item Response Model for
Dichotomous Item Response Data, in: van der Linden, Wim J.; Hambleton, Ronald
(Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.271286
Reise, Steven P. (1990): A Comparison of Item- and Person-Fit Methods of Assessing
Model-Data Fit in IRT, in: Applied Psychological Measurement, Vol. 14, Nr. 2,
S.127-137
Reise, Steven P.; Widaman, Keith F.; Pugh, Robin H. (1993): Confirmatory Factor Analysis and Item Response Theory: Two Approaches for Exploring Measurement Invariance, in: Psychological Bulletin, Vol. 114, Nr.3, S.552-566
Ricks, David A. (1993): Blunders in International Business, Blackwell, Cambridge, Mass.
Riordan, Christine M.; Vandenberg, Robert J. (1994): A Central Question in Cross-Cultural Research: Do Employees of Different Cultures Interpret Work-related Measures in an Equivalent Manner?, in: Journal of Management, Vol. 20, Nr. 3. S.643-671
Robbins, Stephen P. (1996): Organizational Behavior. Concepts, Controversies, Applications, seventh edition, Prentice Hall, Englewood Cliffs
Roberts, J.; Sutton-Smith, B. (1962): Child Training and Game Involvement, in: Ethnology, 1, S.166-185
Roskam, Edward E. (1995): Graded Responses and Joining Categories: A Rejoinder to
Andrich’ „Models for Measurement, Precision, and Nondichotomization of Graded
Responses“, in: Psychometrika, Vol. 60, Nr. 1, S.27-35
Roskam, Edward E. (1997): Models for Speed and Time-Limit Tests, in: van der Linden,
Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory,
Springer, New York, S.187-208
255
13 Literatur
Rost, Jürgen (1988): Quantitative und qualitative probabilistische Testtheorie, Huber,
Bern
Rost, Jürgen; von Davier, Matthias (1994): A Conditional Item Fit Index for Rasch Models, in: Applied Psychological Measurement, Vol. 18, Nr. 2, S.171-182
Salzberger, Thomas (1997): Statistically Equivalent, Yet Different in Meaning: Different
Measurement Model Representations - Shown by Means of the AGGLO-Scale, in:
Reed, Peter W.; Luxton, Sandra L.; Shaw, Michael R. (1997): Proceedings of the
ANZMEC 1997, Australia New Zealand Marketing Educators Conference, Volume
II, Department of Marketing, Monash University, Caulfield East, Vic., Australia,
S.707-728
Salzberger, Thomas; Sinkovics, Rudolf R.; Holzmüller, Hartmut H. (1997): Problems of
Equivalence in Cross-Cultural Marketing Research, in: Wilson, Elizabeth J.; Hair,
Joseph F. (Hrsg.): Developments in Marketing Science, Proceedings of the Annual
Conference of the Academy of Marketing Science, Vol. XX, May 28-31, Coral
Gables, Florida 1997, S.74-78
Schuh, Arnold; Klausegger, Claudia; Schreiber, Michael (1994): Aktuelle Problemfelder
und Strategien österreichischer Unternehmen bei der Marktbearbeitung in MittelOsteuropa, in: der markt, Nr. 131, 1994/4, S. 178-190
Segall, M.H.; Campell, D.T.; Herskovits, M.J. (1966): The Influence of Culture On Visual
Perception, Bobbs-Merril, Indianapolis
Sekaran, Uma (1983): Methodological and Theoretical Issues and Advancements in
Cross-Cultural Research, in: Journal of International Business Studies, Fall 1983,
S.61-73
Sensales, Gilda; Greenfield, Patricia M. (1995): Attitudes Toward Computers, Science,
and Technology, A Cross-Cultural Comparison Between Students in Rome and Los
Angeles, in: Journal of Cross-Cultural Psychology, Vol.26, Nr. 3, S.229-242
Sharma, Subhash; Shimp, Terence A.; Shin, Jeongshin (1995): Consumer Ethnocentrism:
A Test of Antececents and Moderators, in: Journal of the Academy of Marketing
Science, Vol. 23, Nr. 1, S.26-37
Sheridan, Barry; Andrich, David; Luo, Guanzhong (1997): User’s Guide to RUMM,
Rasch Unidimensional Measurement Models, Perth
Shimp, Terence A.; Sharma, Subhash (1987): Consumer Ethnocentrism: Construction
and Validation of the CETSCALE, in: Journal of Marketing Research, Vol. 24, August 1987, S.280-289
Singh, Jagdip (1995): Measurement Issues in Cross-National Research, in: Journal of International Business Studies, Third Quarter 1995, S.597-619
Singh, Jagdip (1996): A Latent Trait Theory Approach to Measurement Issues in Marketing Research: Principles, Relevance and Application, in: Berács, József; Bauer,
256
13 Literatur
András; Simon, Judith (Hrsg.): Proceedings of the EMAC Annual Conference, Budapest University of Economic Sciences, Vol. 1, S.1045-1064
Sinkovics, Rudolf R. (1998): Ethnozentrismus von Konsumenten: Konstruktion und Validierung eines Meßansatzes, Dissertation, Wirtschaftsuniversität Wien
Sinkovics, Rudolf R.; Salzberger, Thomas (1996): Different Approaches Towards Scale
Validation in International Marketing Research: Adopting the CETSCALE to
Include Cultural Characteristics or Focussing on Culturally-Invariant Items?, in:
Proceedings of the II. CEMS Academic Conference, Milano 1996
Sinkovics, Rudolf R.; Salzberger, Thomas; Holzmüller, Hartmut H. (1998): Assessing
Measurement Equivalence in Cross-National Consumer Behaviour Research: Principles, Relevance and Application Issues, in: Balderjahn, Ingo; Mennicken Claudia;
Vernette, Eric (Hrsg.): New Developments and Approaches in Consumer Behaviour Research, Schäffer Poeschel/MacMillan, Stuttgart/Houndmills, S.270-288
Song, Michael X.; Parry, Mark E. (1997): A Cross-National Comparative Study of New
Product Development Processes: Japan and the United States, in: Journal of Marketing, Vol. 61, S.1-18
Sörbom, Dag (1974): A General Method for Studying Differences in Factor Means and
Factor Structure Between Groups, in: British Journal of Mathematical and Statistical Psychology, Vol. 27, S.229-239
Springer, Reiner (1993): Markteintrittsentscheidungen für Osteuropa, in: Marketing ZFP,
Heft 4, S.254-270
Steenkamp, Jan-Benedict E.M.; Baumgartner, Hans (1995): Development and Cross-Cultural Validation of a Short Form of CSI as a Measure of Optimum Stimulation Level, in: International Journal of Research in Marketing, Vol. 12, S.97-104
Steenkamp, Jan-Benedict E.M.; Baumgartner, Hans (1996a): Assessing Measurement Invariance in Cross-National Consumer Research, Workingpaper, Catholic University of Leuven, Belgium
Steenkamp, Jan-Benedict E.M.; Baumgartner, Hans (1996b): Assessing Invariance of
Measurement Instruments in Cross-National Consumer Research, in: Berács, József; Bauer, András; Simon, Judith (Hrsg.): Proceedings of the EMAC Annual Conference, Budapest University of Economic Sciences, S.2111-2117
Steenkamp, Jan-Benedict E.M.; van Trijp, Hans C.M. (1991): The Use of LISREL in Validating Marketing Constructs, in: International Journal of Research in Marketing,
Vol. 8, S.283-299
Steiger, James H. (1990): Structural Model Evaluation and Modification: An Interval
Estimation Approach, in: Multivariate Behavioral Research, Vol. 25, S.173-180
Stewart, David W. (1981): The Application and Misapplication of Factor Analysis in
Marketing Research, in: Journal of Marketing Research, Vol. 18, S.51-62
257
13 Literatur
Steyer, Rolf; Eid, Michael (1993): Messen und Testen, Springer, Berlin
Tajfel, H.; Turner, J.C. (1979): An Integrative Theory of Intergroup Conflict, in: Austin,
W. G.; Worchel, S. (Hrsg.): The Social Psychology of Intergroup Relations,
Brooks/Cole, Monterey, Cal., S.33-47
Tajfel, H.; Turner, J.C. (1986): The Social Identity Theory of Intergroup Behaviour, in:
Worchel, S.; Austin, W. G. (Hrsg.): Psychology of Intergroup Relations, NelsonHall, Chicago, S.7-24
Tanaka, J.S. (1993): Multifaceted Conceptions of Fit in Structural Equation Models, in:
Bollen, Kenneth A.; Long, J. Scott (Hrsg.): Testing Structural Equation Models,
ten Berge, Jos M.F. (1996): The Kaiser, Hunka and Bianchini Factor Similarity Coefficients: A cautionary Note, in: Multivariate Behavioral Research, Vol. 31, Nr. 1,
S.1-6
„The Chinese Culture Connection“ (1987): Chinese Values and the Search for Culturefree Dimensions of Culture, in: Journal of Cross-Cultural Psychology, Vol. 18,
S.143-164
Thissen, David (1982): Marginal Maximum Likelihood Estimation for the One-Parameter
Logistic Model, in: Psychometrika, Vol. 47, Nr. 2, S.175-186
Thissen, David (1991): MULTILOG User’s Guide, Multiple, Categorical Item Analysis
and Test Scoring Using Item Response Theory, Scientific Software, Chicago
Thissen, David; Steinberg, Lynne (1986): A Taxonomy of Item Response Models, in:
Psychometrika, Vol. 51, Nr. 4, S.567-577
Thomas, Alexander (Hrsg.) (1991): Kulturstandards in der internationalen Begegnung,
Breitenbach, Saarbrücken
Thurstone, Louis Leon (1928): Attitudes Can Be Measured, in: American Journal of Sociology, Vol. 23, S.529-554, reproduced in: Thurstone, Louis Leon (1959): The
Measurement of Values, The University of Chicago Press, Chicago, S.215-233
Thurstone, Louis Leon (1931): Multiple Factor Analysis, in: Psychological Review, Vol.
38, S.406-427
Thurstone, Louis Leon (1940): Current Issues in Factor Analysis, in: Psychological Bulletin, Vol. 37, Nr. 4, S.189-235
Thurstone, Louis Leon (1947): Multiple Factor Analysis, University of Chicago Press,
Chicago
Tietz, Bruno (1993a): Die bisherige und künftige Paradigmatik des Marketing in Theorie
und Praxis, Erster Teil: Zur bisherigen Entwicklung und derzeitigen Situation des
Marketing, in: Marketing ZFP, Heft 3, S.149-163
258
13 Literatur
Tietz, Bruno (1993b): Die bisherige und künftige Paradigmatik des Marketing in Theorie
und Praxis, Zweiter Teil: Zur künftigen Entwicklung des Marketing, in: Marketing
ZFP, Heft 4, S.221-236
Tietz, Bruno; Zentes, Joachim (Hrsg.) (1993): Ostmarketing - Erfolgspotentiale osteuropäischer Konsumgütermärkte, Econ, S. 159-190
Toyne, Brian; Walters, Peter G. P. (1989): Global Marketing Management : A Strategic
Perspective, 2. edition, Allyn and Bacon, Boston
Traub, Ross E. (1994): Reliability for the Social Sciences, Theory and Applications,
SAGE Measurement Methods for the Social Sciences Series, Vol. 3, SAGE Publications, Thousand Oaks
Traub, Ross E.; Rowley, Glenn L. (1991): Understanding Reliability, in: Journal of Educational Measurement: Issues and Practice, National Council on Measurement in
Education, Vol. 28, Nr. 1, S.37-45
Triandis, Harry C. (1972): The Analysis of Subjective Culture, New York
Triandis, Harry C. (1980): Introduction to Handbook of Cross-Cultural Psychology, in:
Triandis, Harry C.; Lambert, William Wilson (Hrsg.) Handbook of Cross-Cultural
Psychology, Vol. 1: Perspectives, Boston, MA, S. 1-14
Triandis, Harry C.; Berry, John W. (Hrsg.) Handbook of Cross-Cultural Psychology, Vol.
2: Methodology, Boston, MA
Triandis, Harry C.; Lambert, William Wilson (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 1: Perspectives, Boston, MA
Triandis, Harry C.; Malpass, Roy S.; Davidson, A. (1972): Cross-Cultural Psychology,
Biennial Review of Anthropology
Triandis, Harry C.; Vassilou, V. (1972): A Comparative Analysis of Subjective Culture,
in: Triandis, Harry C.: The Analysis of Subjective Culture, John Wiley, New York
Tucker, L.R.; Lewis, C. (1973): A Reliability Coefficient for Maximum Likelihood Factor Analysis, in: Psychometrika, Vol. 38, S.1-10
Usunier, Jean-Claude (1996): Marketing Across Cultures, second edition, Prentice Hall,
London
Van de Vijver, F.J.R.; Poortinga, Y.H. (1982): Cross-Cultural Generalization and Universality, in: Journal of Cross-Cultural Psychology, 13, S.387-408
van der Linden, Wim J.; Hambleton, Ronald (Hrsg.) (1997): Handbook of Modern Item
Response Theory, Springer, New York
259
13 Literatur
Van Herk, Hester; Verhallen, Theo M. (1995): Equivalence in Empirical International Research in the Food Area, in: Proceedings of the second Conference on the Cultural
Dimension of International Marketing, Odense, S.392-402
van Minden, Jack; Talgic, Tev (1997): Job Satisfaction: Do the Indsales Scales Hold Up
in International Markets?, in: Wilson, Elizabeth J.; Hair, Joseph F. (Hrsg.): Developments in Marketing Science, Proceedings of the Annual Conference of the
Academy of Marketing Science, Vol. XX, May 28-31, Coral Gables, Florida 1997,
S.79-86
Verhelst, Norman D.; Glas, C.A.W.; de Vries, H.H. (1997a): A Steps Model to Analyze
Partial Credit, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook
of Modern Item Response Theory, Springer, New York, S.123-138
Verhelst, Norman D.; Verstralen, Huub H.F.M.; Jansen, M.G.H. (1997b): A Logistic Model for Time-Limit Tests, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.):
Handbook of Modern Item Response Theory, Springer, New York, S.169-185
von Davier, Matthias (1996): WINMIRA V1.68 User Manual, A Program System for
Analyses with the Rasch Model, with the Latent Class Analysis and with the Mixed
Rasch Models, Kiel
von Davier, Matthias; Rost, Jürgen (1995): Polytomous Mixed Rasch Models, in: Fischer,
Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.371-379
Wich, Donald J. (1989): Die Vergleichbarkeit von Befragungen im Rahmen der internationalen Konsumentenforschung, Dr. Kovac, Hamburg
Waugh, Russel F. (1998): A Rasch Measurement Model Analysis of an Approach to Studying Inventory for Students in Higher Education, Paper präsentiert bei The International Conference on Latent Trait Theory: Rasch Measurement, 22.-24. Jänner
1998, University of Western Australia, Perth, Australien
Wright, Benjamin D. (1980a): Foreword, in: Rasch, Georg: Probabilistic Models for
Some Intelligence and Attainment Tests, MESA Press, Chicago, Nachdruck der
Originalpublikation aus 1960, Danish Institute for Educational Research, S.IX-XIX
Wright, Benjamin D. (1980b): Afterword, in: Rasch, Georg: Probabilistic Models for
Some Intelligence and Attainment Tests, MESA Press, Chicago, Nachdruck der
Originalpublikation aus 1960, Danish Institute for Educational Research, S. 185196
Wright, Benjamin D.; Stone Mark H. (1979): Best Test Design, MESA Press, Chicago
Yu, Julie H.; Keown, Charles F.; Jacobs, Laurence W. (1993): Attitude Scale Methodology: Cross-Cultural Implications, in: Journal of International Consumer Marketing,
Vol. 6, Nr. 2, S.45-63
260
13 Literatur
Zhang, Li; Dadzie, Kofi Q. (1994): Validation of Measurement Models in Global Marketing Research: An Empirical Illustration, in: Journal of Global Marketing, Vol. 7,
Nr. 4, S.83-102
Zhu, Weimo; Updyke, Wynn F.; Lewandowski, Cheryl (1997): Post-Hoc Rasch Analysis
of Optimal Categorization of an Ordered-Response Scale, in: Journal of Outcome
Measurement, Vol. 1, Nr. 4, S.286-304
Zwinderman, Aeilko H. (1995): Pairwise Parameter Estimation in Rasch Models, in: Applied Psychological Measurement, Vol. 19, Nr. 4, S.369-375
261
Abbildungsverzeichnis
Abbildung 1: Ableitung der Problemstellung aus der Internationalisierung.............................. 8
Abbildung 2: Kultur- und nationenbezogene Typologie der Marktforschung......................... 19
Abbildung3:GenerierungtheoretischerAussagendesForschersinderquantitativenMarktforschung
20
Abbildung 4: Kultureller Bezugsrahmen der Marktforschung ................................................ 21
Abbildung 5: Probleme der interkulturellen Marketingforschung........................................... 24
Abbildung 6: Kultur als System von Denk- und Verhaltensmustern....................................... 29
Abbildung 7: Abgrenzung von Kultur als hierarchisches System ........................................... 30
Abbildung 8: Formen der Äquivalenz nach Berry (1980) ....................................................... 61
Abbildung 9: Formen der Äquivalenz nach Douglas und Craig (1983) .................................. 63
Abbildung 10: Formen der Äquivalenz nach Toyne und Walters (1989)................................ 69
Abbildung 11: Kategorien der Äquivalenz nach Usunier (1996) ............................................ 72
Abbildung12:BedingungenderÄquivalenzderErhebungsdaten(inAnlehunganBauer,1995,S.52)
77
Abbildung 13: Prozeßmodell kulturübergreifender Forschung
(Cavusgil und Das, 1997, S.89ff) ..................................................................... 80
Abbildung 14: Klassifikation der Universen kulturübergreifender Forschung (Poortinga und
Malpass, 1986, S.25) ........................................................................................ 86
Abbildung 15: Transformation der Skala des hypothetischen Konstrukts und der Meßskala
(Poortinga und Malpass, 1986, S.28) ............................................................... 89
Abbildung 16: Grundgleichung der klassischen Testtheorie (Fischer, 1974, S.36; Rost, 1988, S.81)
89
Abbildung 17: Wahrscheinlichkeit einer Hypothese unter der Bedingung empirischer Daten
nach dem Theorem von Bayes (vgl. Iversen, 1984) ......................................... 95
Abbildung 18: Faktorenanalyse: Beziehungen manifester Variablen (V1 bis V8) zu zwei
latenten Faktoren (F1 und F2) ........................................................................ 102
Abbildung 19: Faktorenanalyse: Anordnung der manifesten Variablen (V1 bis V8) im
zweidimensionalen Raum (definiert durch F1 und F2) .................................. 103
Abbildung20:Faktorenanalyse: CFA-ModellzweierlatenterFaktorenundachtmanifesterVariablen
107
Abbildung 21: Definition des Root Mean Square Error of Approximation nach Steiger (1990)
(vgl. Browne und Cudeck, 1993, S.142ff)...................................................... 112
Abbildung 22: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf die manifeste
Variable (vgl. Backhaus et al., 1994, S.347; Bagozzi, 1982, S.564ff) ........... 113
Abbildung 23: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf die manifeste
Variable, mit Intercept-Parameter
(vgl. Steenkamp und Baumgartner, 1996a, S.4)............................................. 114
Abbildung 24: Faktorenanalyse: Simultane Analyse in zwei Stichproben ohne
stichprobenübergreifende Beschränkungen.................................................... 115
Abbildung 25: Faktorenanalyse: Simultane Analyse in zwei Stichproben mit
stichprobenübergreifenden Beschränkungen.................................................. 116
Abbildung 26: Regression des beobachteten Testscores auf ein Kriterium
(in Anlehnung an Hulin et al., 1983, S.157 und Hancock, 1997, S.99) ......... 122
Abbildung 27: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung
auf Äquivalenz mittels Strukturgleichungsanalysen für mehrere Gruppen (multigroup CFA)..................................................................................................... 129
Abbildung 28: Formale Definition der Reliabilität (Fischer, 1974, S.37) ............................. 135
Abbildung 29: Guttmanpattern für sechs dichotome Items ................................................... 137
262
Abbildung 30: Vergleich der Modelle von Guttman (1950) und Rasch (1980) hinsichtlich der
Wahrscheinlichkeit einer positiven Antwort bei gegebener Differenz von
Personen- und Itemparameter (vgl. dazu Wright und Stone, 1979, S.13) ...... 141
Abbildung 31: Umrechnung von Odds-Quotienten in Wahrscheinlichkeiten (vgl. Andrich,
1988a, S.24ff) ................................................................................................. 142
Abbildung 32: Parametrisierungsformen des Rasch-Modells (vgl. Rasch, 1980, S.187; Fischer,
1974, S.432).................................................................................................... 143
Abbildung 33: Itemcharakteristikkurve(n) ICC für ein Item mit di = 0................................. 145
Abbildung 34: Unabhängigkeit der Wahrscheinlichkeit eines bestimmten Antwortmusters bei
gegebenen Rohscore für zwei dichotome Items (Andrich, 1998, S.68ff; Fischer,
1974, S.214f). ................................................................................................. 148
Abbildung 35: Iteminformationsfunktion I als Produkt der Zustimmungswahrscheinlichkeit
und Ablehnungswahrscheinlichkeit (vgl. dazu Fischer, 1974, S.295). .......... 150
Abbildung 36: Standardschätzfehler S.E. als Funktion der Testinformation I (vgl. dazu
Hambleton et al., 1991, S.94) ......................................................................... 151
Abbildung 37: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item.................... 156
Abbildung 38: Anwendung des dichotomen Rasch-Modells auf ein polytomes Antwortformat (I)
157
Abbildung 39: Anwendung des dichotomen Rasch-Modells auf ein polytomes Antwortformat (II)
158
Abbildung 40: Transformation der non-centralised thresholds in centralised thresholds
(Andrich, 1988b, S.364). ................................................................................ 159
Abbildung 41: Extended logistic model (ELM), allgemeines polytomes Rasch-Modell (vgl.
Andrich, 1988b, S.366)................................................................................... 160
Abbildung 42: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item mit reversed
thresholds (vgl. Andrich et al., 1997, S.62). ................................................... 162
Abbildung 43: Zusammenfassung zweier Kategorien einer fünfstufigen Antwortskala ....... 164
Abbildung 44: Verallgemeinerung des dichotomen Rasch-Modells durch Rasch (Wright,
1980b, S.185).................................................................................................. 164
Abbildung 45: Two-parameter logistic model
(Hambleton et al., 1991, S.14f) ...................................................................... 166
Abbildung 46: ICCs im two-parameter logistic model .......................................................... 166
Abbildung 47: Three-parameter logistic model
(Hambleton et al., 1991, S.17)........................................................................ 170
Abbildung 48: Q1-Index zur statistischen Prüfung der Residuale auf Signifikanz
(Hambleton et al., 1991, S.61; Rost und von Davier, 1994, S.172). .............. 174
Abbildung 49: Prüfgröße für den Unterschied von Itemparameterschätzungen aus
unterschiedlichen Stichproben (Hambleton et al., 1991, S.111). ................... 175
Abbildung 50: Beispiel für nonuniform und uniform DIF..................................................... 176
Abbildung 51: Prüfgröße für Likelihood-basierten Ansatz zur Bestimmung des Item-Fit (Rost
und von Davier, 1994, S.173; Reise, 1993).................................................... 177
Abbildung 52: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung
auf Äquivalenz mittels Latent Trait Theory basiertem Ansatz....................... 179
Abbildung 53: Einordnung der interkulturellen Validität in das System der Gütekriterien der
klassischen Testtheorie ................................................................................... 182
Abbildung 54: Schematischer Ablauf der Untersuchung einer Marketing-Skala auf
interkulturelle Vergleichbarkeit...................................................................... 184
Abbildung 55: Empirische Überprüfung der interkulturellen Validität der CETSCALE am
Beispiel
von
Österreich
und
Südkorea
mittels
konfirmatorischer
Mehrgruppen-Faktorenanalysen
206
263
Abbildung 56: Ablaufplan der empirischen Überprüfung der interkulturellen Validität der
CETSCALE am Beispiel von Österreich und Südkorea mittels Latent Trait
Theory basierter Modelle................................................................................ 209
Abbildung 57: Category characteristic curves (CCCs) für ein polytomes Item (V001) mit sieben
Antwortkategorien .......................................................................................... 214
Abbildung 58: Vergleich von erwarteter Häufigkeit (ICC) und tatsächlicher Häufigkeit
zustimmender Antworten im Rasch-Modell (Item V034).............................. 221
264
Tabellenverzeichnis
Tabellenverzeichnis
Tabelle 1:Kulturelle Dimensionen nach Hall und Hall (1990) ............................................... 31
Tabelle 2:Kulturdimensionen nach Kluckhohn und Strodtbeck (1975) .................................. 39
Tabelle 3:Kulturdimensionen nach Hofstede (1980, 1984) .................................................... 42
Tabelle 4:Konfigurale Invarianz eines zweifaktoriellen Konstrukts
(unstandardisierte Ladungsparameter) ............................................................... 119
Tabelle 5:Metrische Invarianz eines zweifaktoriellen Konstrukts
Tabelle6:ÜberblicküberunterschiedlicheTerminologienimZusammenhangmitderInvarianzprüfung
123
Tabelle 7:Partielle metrische Invarianz eines einfaktoriellen Konstrukts
Tabelle 8:Partielle metrische Invarianz eines einfaktoriellen Konstrukts
unter Einbeziehung von emic Items
Tabelle 9: Datenerhebungs- und Stichprobencharakteristika
in Österreich und Südkorea ................................................................................ 193
Tabelle 10:Österreich und Südkorea auf Hofstedes (1991, 1992) Kulturdimensionen
(Faktorscores, die sich im Bereich von 0 bis 100 verteilen; höhere Werte bedeuten
stärkere Ausprägung im Sinne der Dimensionsbeschreibung) ........................... 195
Tabelle 11:Kalibrierungs- und Validierungssamples ............................................................ 199
Tabelle 12:Fit-Werte der getrennten konfirmatorischen Faktorenanalysen
auf der Basis der 17 CETSCALE-Items ............................................................. 200
Tabelle 13:Fit-Werte der getrennten konfirmatorischen Faktorenanalysen
auf der Basis von zehn CETSCALE-Items ........................................................ 201
Tabelle 14:Fit-Werte des Modells konfiguraler Invarianz auf der Basis von zehn CETSCALE Items
202
Tabelle 15: Schritte der Invarianzprüfung (Kalibrierungssamples) und Kreuzvalidierung
(Validierungssamples) auf der Basis von 10 CETSCALE Items ....................... 204
Tabelle 16: Polytomes Rasch-Modell in Österreich: Test des Item-Fits mittels des Q-Index
(Rost und von Davier, 1994) .............................................................................. 211
Tabelle 17: Threshold-Parameter im Partial Credit Model für 16 Items in Österreich ......... 213
Tabelle 18: Polytomes Rasch-Modell in Südkorea: Test des Item-Fits mittels
des Q-Index (Rost und von Davier, 1994) ......................................................... 214
Tabelle 19: Threshold-Parameter im Partial Credit Model für 13 Items in Korea ............... 215
Tabelle 20:Test auf interkulturelle Vergleichbarkeit von sieben CETSCALE Items in Österreich
und Südkorea mittels des dichotomen Rasch-Modells ....................................... 219
Tabelle 21:Vergleich der Fitstatistiken auf der Basis des one-parameter und des two-parameter
logistic model für sieben nicht Rasch-Modell konforme Items ......................... 222
265
Sachindex
Sachindex
A
Ähnlichkeit
kulturelle 68
Aktivitäten
Tempo und Rhythmus von 35
Aktivitätsorientierung 40
Analysen
linguistische 61
Antwortbias 60, 96
Antwortmuster
omnikulturelle 190
Antwortstile
kulturell bedingte 75
Antwortverweigerung
kulturbedingte 75
Äquivalenz
befragungstaktische 78
der Erhebungsdaten 80–81, 93
der nationalen Erhebungsdaten 76
der Response-Kategorisierungen 79
der Response-Übersetzungen 79
der Stichprobenauswahl 73
der Stichprobenpläne 73
der Untersuchungseinheiten 73, 78
der Untersuchungsmethoden 78
der Untersuchungssachverhalte 77
der Untersuchungssituationen 78
erfahrungsbezogene 70–71
erhebungsmethodische 78
funktionale 58, 63, 68, 70, 77–79
grammatikalisch-syntaktische 70–71
idiomatische 70–71
interkulturelle 58, 185
kategoriale 63–64, 71, 77
konzeptuelle 58, 60–61, 63, 68, 70–71, 77, 79
lexikalische 70–71
meßmethodische 78
metrische 58, 61, 65–66, 72, 81
perzeptive 72
skalare 62
sprachliche 59, 185
temporale 72
von Erhebungsdaten 55
zeitliche 68
Äquivalenz der Erhebungsdaten 98
Überprüfung der 100
Äquivalenzbedingungen
integratives System von 76
Artefakte
meßtheoretische 234
Attributionstheorie 38
266
Sachindex
B
Befragung
kulturkonforme soziale Situation der 74
Begegnung
interkulturelle 37
Bewertungsbegriffe
äquivalente 73
Bias 87, 97, 121, 124–125, 175, 237
kulturbedingter 20
Birnbaum-Model 165
Birnbaum-Modell 166–167, 169–170, 217, 220–222
Botschaften
implizite Formen 28
langsame 31
schnelle 31
C
Career Ability Placement Survey 189
Cassis-de-Dijon-Prinzip 14
Categorie Characteristic Curves 156
Clusteranalyse 104
Consumer Ethnocentric Tendency 192, 223
Consumer Ethnocentric Tendency Scale 185
Consumer Ethnocentrism 185, 192
Culture
high context 32
low context 32
operational 28
D
Datenerhebungsäquivalenz 74
Definitionsäquivalenz 68
Dekodierung
kulturadäquate 37
Dezentrierung
simultane adjektivische 73
Dichotomisierung 189–190, 223–224
Differential
semantisches 60
Differential Item Functioning 175, 181, 218
Differenzenskala 143
Dimension
latente 101, 106, 121, 146
Diskriminanzvalidität 123
Distanz
kulturelle 38, 51
E
Einstellungsmessung
kulturvergleichende 60
Emic 69, 91
Erhebungsdaten
Äquivalenz der 80–81, 93, 98
Überprüfung der Äquivalenz der 100
267
Sachindex
Überprüfung der Äquivalenz von 117
Erhebungsdatenäquivalenz 76, 81
Erschöpfende Statistik 147
Ethnozentrismus 185
der Forschung 21
Etic 69, 91
derived 93
imposed 92
pseudo 92
Experiment
klassisches 49
Ex-post-facto-Experiment 93, 95
F
Faktorenanalyse
explorative 82, 101, 186, 188, 234
Gleichungssysteme der 112
Gütebestimmung 107
konfirmatorische 82, 98, 100, 105, 181, 186–188, 190
multi-group 181, 186–188
simultane für mehrere Gruppen 114
Zielsetzungen der explorativen 102
Falsifizierbarkeit
einer Meßtheorie 139
Forschung
ethnozentrische kulturübergreifende 56
interkulturelle 10, 52, 236
kulturübergreifende 49, 51, 85
kulturvergleichende 49, 60
polyzentrische 56
Prozeßmodell der kulturübergreifenden 79
Forschungsökonomie 22–23
Fremdkultur 28
G
Gemeinsamkeiten
kulturübergreifende 57
Gesellschaft 29
Gleichungssysteme
der Faktorenanalyse 112
Globalisierung 8, 185
Gütebestimmung
Faktorenanalyse 107
Gütekriterien
der klassischen Testtheorie 182
Guttman
formale Darstellung des Meßmodells von 138
Guttmanmodell 138
Guttmanpattern 137, 139
Guttmanskala 137
Guttman-Skalierung 167
H
Höflichkeitsbias 78
268
Sachindex
Hypothese
statistische 93
substantielle 234
substanztheoretische 178
wissenschaftliche 93
Hypothesenprüfung
in der interkulturellen Forschung 93
I
Identität
dimensionale 54
Imperative
verhaltensbezogene 27
Indikator 233
Indikatoren 234
formative 106
reflektive 106
Indikatorvariable 84, 101
Individualismus 40, 46
Informationsalterung 72
Informationsfluß
in und durch Organisationen 36
Informationsfunktion 174, 183
Informationsverhalten 38
Interaktionen
soziale 28
Interaktionsäquivalenz 79
Internationalisierung 8, 14, 23, 185
der Marktforschung 9
Interpretation
von Beobachtungen und Forschungsergebnissen,kulturadäquate 22
Invarianz
auf dem Skalenniveau 126
konfigurale 118
metrische 119, 124
partielle 127
skalare 122, 124
Invarianzebenen 123
Invarianzprüfung 199
Item Bias 175
Item Response Theory 98, 165
Itembias 97
Itemcharakteristik 144
Itemcharakteristikkurve 98, 147
Iteminformation 150
Iteminformationsfunktion 151
Item-Q-Index 173, 216
Itemresponsefunktion 144
J
Ja-sage-Tendenz 190
269
Sachindex
Job Diagnostic Survey 189
Job Discriptive Index 189
K
Kalibrierungsäquivalenz 65, 69, 72
Kalibrierungssample 198
Kategorien
Zusammenfassung von 162, 164
Kategorienäquivalenz 64, 68
Kohorteneffekt 54
Kollektivismus 40
Kommunikation
im kulturellen Kontext 31
Kultur und 30
Kommunikationsmerkmale 32
Kommunikationsnetzwerk
mangelndes 33
Kommunikationsstil 32
Konfidenzintervall 135, 151
Konfundierung
von Meß- und Substanztheorie 178, 234
Kongruenzkoeffizient 105
Konstrukt
dimensionale Identität 88
hypothetisches 89, 91–92, 98
latentes 65, 84
latentes hypothetisches 233
Konstruktäquivalenz 62–63, 65, 77
Konstrukte
nicht beobachtbare 12
Konstruktperationalisierung
formal idente 91
formal unterschiedliche 91
Konstruktvalidierung
intrakulturelle 91
Konstruktvalidität 81
Konsumentenethnozentrismus 195
Konsumentenverhalten
Einflußquellen 23
Konsumentenverhaltens- und Kulturtheorien
Verknüpfung von 236
Kontextäquivalenz 74
Kontextinformation 33
Kreuzvalidierung 163, 198, 204–205
Kultivierung 26
Kultur 25
als nominalskalierte Variable 25, 236
als unabhängige Variable 49
Definition von 27
Kommunikation und 30
Konzeptualisierung von 38
Operationalisierung von 25–26, 46, 50, 195, 236
270
Sachindex
Problematik der Definition von 26
subjektive 27
systembestimmenden Elemente der 29
Kulturdimensionen 41
Kulturelle Ähnlichkeit 68
Kulturelle Orientierung
maskuline versus feminine 43
Kulturelle Überschneidungssituation 14, 192
Kulturelle Vergleiche
als Ex-post-facto-Experimente 50
Kultureller Relativismus
radikaler 57, 92
Kulturen
Ähnlichkeiten zwischen 29
gegenwartsbezogene 35
individualistische 42
kollektivistische 42
monochronische 34–35
polychronische 34–35
repräsentative Auswahl von 67
Kulturübergreifende Forschung
Prozeßmodell der 79
psychologische, Definition 52
L
Latent Trait Modelle 165
Latent Trait Theory 5, 7, 10, 98–99, 165, 179, 181, 183, 189, 191, 208, 218, 223, 227, 230–231,
235, 238–239
Anwendungsfelder in der Marketingforschung 237
Likert-Skala 85, 154
Log-Likelihood-Quotient 216
Lokale stochastische Unabhängigkeit 146, 157, 175
M
Machtdistanz 44, 46
Managementforschung 188
Marketingforschung
internationale 55, 76
Plädoyer für eine meßtheoretische Fundierung der 233
Marketingkonzepte
standardisierte 62
Marktforschung
globale 24
grenzüberschreitende 19
interkulturelle 9, 23–24
internationale 9, 17, 49, 75
quantitative 19
Marktstrukturäquivalenz 68
Maskulinitätsindex 44
Menschliche Natur
Grundeinstellung zur 40
Meßäquivalenz 53, 62, 65, 69, 72
Meßinstrument
271
Sachindex
kultureller Hintergrund 22
kultureller Kontext 22
Meßinstrumente
emische 69
etische 69
Meßmethoden
äquivalente 53
Meßmodell
probabilistisches 139
Meßmodell von Guttman
formale Darstellung 138
Meßtheoretische Fundierung der Marketingforschung
Plädoyer für eine 233
Meßtheorie
Gegenstand der 233
Metaebene der 181
moderne 5
wissenschaftstheoretisch zufriedenstellende 234
Messung
eindimensionale 134
Messungen
parallele 145
Meßwerte
Bedeutung der 66
Methodenartefakt 87
Methodenbias 97–98
Mitarbeiterevaluation 54
Multidimensionalität 168
N
Nationalcharakter 47
Nationalität 25
Netz
nomologisches 61, 178
Netzwerk
nomologisches 81, 185
Nomologisches Netz 61, 178
Nomologisches Netzwerk 81, 185
Non-Response
kulturbedingte 75
Nonverbale Stimuli
kulturtypische Interpretation 66
Normal ogive model 169
Normen
fremdkulturelle 54
O
Objektivität
Bedrohung der spezifischen 168
spezifische 149, 152, 160, 169, 172, 179
Odds 141
One-parameter logistic model 165–166
Organisationskultur 28, 41, 54, 61, 237
Orientierung
272
Sachindex
langfristige versus kurzfristige 45
monochronische 34
polychronische 34
P
Paarvergleich
von Personen und Items 140
Paradigmenwechsel
in der Meßtheorie 191
Parallelität
von Messungen 134, 136
Paralleltestreliabilität 136
Partial-Credit Modell 155
Personalwirtschaft 54
Personenparameter
Standardschätzfehler der 183
Person-Separation-Index 183
Prozeßmodell
der kulturübergreifenden Forschung 79
Psychologische Forschung
kulturübergreifende, Definition 52
psychometrische Eigenschaften
von Daten 61
Q
Q1-Index 174, 216
R
Radikaler kultureller Relativismus 57, 92
Rasch-Model 139
Rasch-Modell 5, 140, 144–146, 149, 152–154, 163–166, 168–169, 172–173, 178–179, 189,
191, 208–209, 216–217, 219–220, 223–224, 230, 232, 235, 238
Parametrisierungsformen 143
polytomes 155, 224, 237
Verallgemeinerungen 153
Rating-Scale Modell 155
Rating-Skala 85, 154
Ratingskala
lexikalische Äquivalenz der 72
Ratingskalenformate
kulturtypische 78
Raum
Anordnung im 33
Konzeptualisierung 40
persönlicher 33
Raumstrukturierung 34
Reize
nonverbale 66
Relativ
empirisches 133–134, 140
numerisches 132, 181
Relativismus
radikaler kultureller 57, 92
Reliabilität 122, 133, 135, 145, 151, 153, 181–182, 231
273
Sachindex
Definition 181
in der Latent Trait Theory 183
Person-Separation-Index 183
Reliabilitätskoeffizient
varianzanalytischer Vergleich von intra- und interkulturellem 187
Replikation
erweiterte 184
Replikationsstudie 96
Response-Kategorisierungen
Äquivalenz der 79
Response-Übersetzungen
Äquivalenz der 79
Rohscore
als erschöpfende Statistik im Rasch-Modell 149
S
Salient Variable Similarity Index 186
Salient Variable Similiarity Index 105
Scoringfunktion 164–165
Semantisches Differential 60
Sensibilisierungsprogramme
kulturelle 28
Sensibilität
interkulturelle 36
Separierbarkeit der Parameter 160, 167
Skalenäquivalenz 69
Skalenentwicklung 235
Skalierung
kulturadäquate 66
Sozialexperiment
kulturelles 50
Sozialisation des Menschen
primäre 28
Sozialisationsprozesse 30
Sozietät 28–29
Spezifische Objektivität 149, 152, 160, 169, 172, 179
Bedrohung 168
Standardisierung 14–15
Standardisierungspotential 14–15, 62
Standards
allgemein-kulturelle 41
fremdkulturelle 37
Standardschätzfehler 174
Statistik
erschöpfende 147
Stichproben
Repräsentativität der 67
Repräsentativität von 70
Stichprobenäquivalenz 62, 67, 70, 73
Stichprobenauswahl
Äquivalenz der 73
Stichprobenpläne
Äquivalenz der 73
274
Sachindex
Stichprobenrepräsentativität 75
Stichprobenselektion
Phasen der 74
Stimulusbias 97
Studie
monokulturelle 22
Studien
Subkultur 29, 51, 54, 237
System
kulturelles 28
Systeme
kulturelle 29
T
Testheorie
klassische 181
Testinformationsfunktion 151
Testmodell
linear-logistisches 189
Testtheorie 89
Grundgleichung der klassischen 89
klassische 5, 10, 89–90, 98–100, 125, 132–134, 136, 139–140, 145, 149, 151, 154, 163, 167,
169, 172, 178, 189, 191, 219, 223–224, 230–234
klassische, Gütekriterien 182
moderne 5
Paradigma der klassischen 231
probabilistische 98–100, 132, 179, 223, 230–232
Theorie
transkulturelle Gültigkeit einer 53
Universalität einer 57
Theoriebildung
in der Marketingwissenschaft 236
Theorieentwicklung
Theorien
Generalisierbarkeit von 23
transkulturelle 24
Theorien des Konsumentenverhaltens 23, 26
Three-parameter logistic model 167, 169, 189–191, 235
Threshold 145, 155, 165, 173, 215
Thresholdparameter
im polytomen Rasch-Modell 158
Thresholds
reversed 161–162, 215
Trainingsprogramme 23
Triebziele 27
Two--parameter logistic model 235
Two-parameter logistic model 165–166, 168–169, 189, 191, 220
U
Übereinstimmung von Modell und Daten
mangelhafte 235
Überschneidungssituation
275
Sachindex
kulturelle 14, 192
Übersetzung
lexikalische 73
symmetrische 59
zentrierte 59
Übersetzungsäquivalenz 58, 65–66, 69–71, 78, 185
Umwelt
Wahrnehmung und Interpretation der 27
Unabhängigkeit
lokale stochastische 146, 157, 175
Unfoldingmodell 147
Ungewißheit
Vermeidung von 44
Universals 55, 58
Universum 84–85, 91
Universumsbias 97
Unternehmenskultur 41
Unterordnung
des Menschen gegenüber der Natur 38
Untersuchung
interkulturelle 22
monokulturelle 22
Untersuchungseinheiten
Äquivalenz der 73, 78
Untersuchungsmethoden
Äquivalenz der 78
Untersuchungssachverhalte
Äquivalenz der 77
Untersuchungssituationen
Äquivalenz der 78
V
Valdierungssample 198
Validierung
nomologische 61
Validität 133, 135–136, 181–182
Definition 181
inhaltliche 130
interkulturelle 24, 132, 183, 192, 197, 235
interkulturelle, als neues Gütekriterium 236
interkulturelle, der CETSCALE 208, 223–224
intrakulturelle 130, 183
nomologische 81
Vorhersagevalidität 130
Variablilität
intrakulturelle 47
Variablität
interkulturelle 47
Verantwortlichkeit 40
Vergleich
als Grundparadigma der wissenschaftlichen Methodik 49
Vergleichbarkeit 181, 183
Begriff der 88
interkulturelle 98, 183, 185, 190, 236
276
Sachindex
interkulturelle, Definition 181
interkulturelle, der CETSCALE 218
Vergleiche
interkulturelle 57
Vergleichsforschung
Verhaltensdeterminanten
kulturbedingte 24
Vermeidung von Ungewißheit 44
Vorhersagevalidität 130
Vorwärts-Rückwärts-Übersetzung 71
Vorwärts-Rückwärts-Übersetzungen 58, 60
W
Wettquotient 141
Wiederholungstestreliabilität 136
Z
Zeit
als nonverbale Kommunikationsform 35
Zeitabschnitte
im Tages- bzw. Jahresverlauf 36
Zeitorientierung 34, 39
polychronische 34
Zeitstrukturierung 34
kulturtypischer Fokus 35
monochronische 34
Zeitvorausplanung
kulturspezifische Usancen der 35
Zeitwahrnehmung 34
Zivilisation 26, 28
277
Autorenindex
Autorenindex
A
Adler 56, 82, 92
Agarwal Siehe Malhotra 21, 124
Albaum Siehe Beatty 186
Andersen 164
Anderson 105
Anderson Siehe Hair 101–102, 108–110, 112
Andersson 11, 226, 232
Andrich 7, 142, 147–148, 155, 158–163, 165, 171, 183, 199, 210, 224
Andrich Siehe Sheridan 152
Angelmar 73, 134
Annis 51
Armstrong 183–184
Atteslander 21
B
Backhaus 101, 103, 106, 108–109, 112–113, 128
Bagozzi 113
Balla Siehe Marsh 108
Bauer 60, 67, 73, 76–82, 134
Baumgartner 6, 108, 110, 112, 114, 116–118, 120, 123–124, 127, 130, 186–187, 192
Beatty 186
Becker Siehe Ellis 170
Bentler 110, 115
Berry 49–52, 54–58, 60–61, 63, 65–66, 69–70, 81, 86–87, 91–92, 100
Bhagat 23
Birnbaum 165
Black Siehe Hair 101–102, 108–110, 112
Bock 154
Bollen 108–109, 118, 122–123, 125
Bond 238
Bonett 115
Bonnet 110
Bontempo 170
Boran-Leitner 14
Bortz 93–94, 101, 103, 105, 108, 305, 315
Bottom Siehe Idaszak 190
Brislin 23, 37, 58, 60–61
Brockhaus 26–29
Browne 108, 110–112
Brüch 23, 196–197
Bunting 238
Burns 76
Bush 76
Byrne 127
C
Cadell 187
Calantone 188
Calantone Siehe Mintu 236
278
Autorenindex
Campbell 50
Candell 189
Carrol 62
Cavusgil 79–80, 82, 124
Chikudate 61
Chmielewicz 10, 50–51, 92–93
Church Siehe Huang 190
Churchill 61, 75
Clark 46
Craig 9, 20, 62–70, 72, 74, 76–77, 80, 82, 185, 236
Cronbach 84
Cudeck 108, 110–112
Cui-Chi 187
D
Dadzie 188
Das 79–80, 82, 124
Dasen 58
Davis 187
Dayan Siehe Ollivier 35
de Jong Siehe Andrich 155, 161–162, 224
de Vries Siehe Verhelst 171
Diamantopoulos Siehe Du Preez 197
Douglas 9, 16, 20, 62–70, 72, 74, 76–77, 80, 82, 185, 236
Douglas Siehe Davis 187
Drasgow 126, 168, 189
Drasgow Siehe Hulin 122, 189
Drasgow Siehe Idaszak 190
Du Preez 197
Durkheim 57
Durvasula Siehe Netemeyer 185, 192
E
Eid 90, 146, 174–175
Einstein 6
Ellis 170, 189–190
Erichson Siehe Backhaus 101, 103, 106, 108–109, 112–113, 128
Everson 173
F
Ferrando 120
Finifter 57
Fischer 89, 98, 132, 134–136, 138–139, 143, 145–152, 155, 167–168
Fisher 147
Franta 14
Freud 27, 43
Friedrichs 19–20
Frijda 54, 58
G
Gassenheimer Siehe Mintu 236
Gerbing 105
Giering 81, 105–106
Glas Siehe Verhelst 171
279
Autorenindex
Glass 133
Gleser Siehe Cronbach 84
Goldschmidt 58
Good 186, 192
Goodenough 27–28
Green 64
Greenfiel 188
Grubitzsch 151
Gullikson 89
Gustafson 6
Guttman 136–137, 139–141
H
Hair 101–102, 108–110, 112
Hall 21, 30–35, 37–39, 41, 47
Hambleton 144, 146, 151–152, 154, 165–166, 169–170, 174–175, 216, 218, 222
Hamilton 105
Hancock 122, 131
Hanisch 189
Hänni 88, 233
Herkner 38
Hofstede 41–46, 74, 195, 197
Holzmüller 6, 18–20, 25, 46, 59–60, 74, 78, 91–92, 178, 180, 236
Holzmüller Siehe Salzberger 192
Holzmüller Siehe Sinkovics 169
Homburg 81, 105–106, 108, 110, 112
Horn 101, 105, 116–118, 123
Hsu 50
Huang 190
Hubbard 183–184
Huddleston 186, 192
Hulin 122, 167, 169, 189
Hüttner 76
I
Idaszak 190
Inkelsen 46–47
Irvine 62
Iversen 94
J
Jacobs Siehe Yu 235
Jahoda 54, 58
Jain 74–76
Jansen Siehe Verhelst 171
Jeon Siehe Beatty 186
Jöreskog 98, 109, 114, 200
K
Kant 34
Katigbak Siehe Huang 190
Kelderman 171
Keown Siehe Yu 235
Kimmel 190
280
Autorenindex
Kimmel Siehe Ellis 170
Klausegger Siehe Schuh 15
Kluckhohn 27, 38–40
Köbben 57
Komocar Siehe Hulin 189
Kornmeier 44, 46
Kotler 23, 48, 52
Kroeber 27
Kroeber-Riel 19, 26–27, 30, 238–239
Kuhn 191, 225–229, 231–232
L
La Du 108
Labouvie 126
Landis 23
Langeard 64
Levinson 46–47
Levitt 8, 15–17, 51, 62, 67
Lewandowski Siehe Zhu 237
Lewis 110, 171, 187
Leyhausen 28
Lichtenstein Siehe Netemeyer 185, 192
Lienert 135, 181–182
Lim 168
Linton 47
Long 108–109
Lonner 49, 55, 87
Lord 89, 144
Lorenz 28
Lundstrom 187
Luo Siehe Sheridan 152
M
Malhotra 21, 124, 237
Malinowski 57
Malpass 6, 26, 49–50, 55–57, 62, 64, 67, 84–93, 95–98
Manrai 9, 23, 49–50, 52
Marsh 108
Masters 155, 167, 210
Mayer 189
Mazanec 189
McArdle 101, 105, 116–118, 123
McCort 237
McDonald 6, 126, 171
McDonald Siehe Marsh 108
Meredith 117–118, 120, 122–123
Miller 189
Millsap 173
Mintu 236
Mokken 171
Molenaar 141, 171
Mullen 90, 124–125
281
Autorenindex
Müller 23, 44, 46
Murphy Siehe Beatty 186
Muthén Siehe Byrne 127
Myers 73
N
Nanda Siehe Cronbach 84
Naroll 46
Nasif 82
Nesselroade 126–127
Netemeyer 185, 192
Newton 139
Novick 89
O
Ollivier 35
Osgood 60
Ourset Siehe Ollivier 35
P
Parameswaran 187
Parry 187
Parsons 169, 189
Parsons Siehe Hulin 122
Pepels 76, 81
Peterson Siehe Malhotra 21, 124
Plinke Siehe Backhaus 101, 103, 106, 108–109, 112–113, 128
Poortinga 6, 26, 49–50, 55–57, 62, 64, 67, 84–93, 95–98
Popper 11, 19, 191, 232
Pras 73, 134
Prim 10
Pugh Siehe Reise 123, 127
Q
Quester 187
R
Rajaratnam Siehe Cronbach 84
Raju 176
Rasch 5–6, 139–143, 147, 163–165
Reckase 171
Reise 123, 127, 172, 177, 216–217
Rexilius 151
Riordan 188
Robbins 38–40, 45
Roberts 61
Rogers Siehe Hambleton 146, 151–152, 154, 165–166, 169–170, 174–175, 216, 218, 222
Roskam 163, 171
Rost 89, 134, 140, 143–144, 156, 173–174, 177, 211–212, 214, 216–217
Rowley 135
Ruetsch 126
S
Salzberger 192, 200, 237
Salzberger Siehe Sinkovics 169
Schlegelmilch Siehe Du Preez 197
282
Autorenindex
Schmidt Siehe Calantone 188
Schreiber Siehe Schuh 15
Schuh 15
Segall 85
Sekaran 82
Sensales 188
Sharma 10, 185, 192–193, 206, 285, 287, 305
Shavelson Siehe Byrne 127
Sheridan 152
Sheridan Siehe Andrich 155, 161–162, 224
Shimp 10, 185, 192–193, 285, 287
Shimp Siehe Sharma 185, 192–193, 206, 285, 305
Shin Siehe Sharma 185, 192–193, 206, 285, 305
Silk Siehe Davis 187
Singh 118, 120, 122–123, 127, 178, 189
Sinkovics 169, 186, 192–193, 206, 285, 287, 305
Sinkovics Siehe Salzberger 192
Song 187
Song Siehe Calantone 188
Sörbom 109, 114, 188, 200
Springer 15
Stanley 133
Steenkamp 62, 112, 114, 116–118, 120, 123–124, 127, 130, 186–187, 192
Steiger 110–112
Steinberg 171
Stewart 101–104
Steyer 90, 146, 174–175
Stone 141
Strodtbeck 38–40
Sutton-Smith 61
Swaminathan Siehe Hambleton 146, 151–152, 154, 165–166, 169–170, 174–175, 216, 218, 222
T
Tajfel 192
Talgic 188
Tan 187
Tanaka 108
Tatham Siehe Hair 101–102, 108–110, 112
ten Berge 105
The Chinese Culture Connection 45
Thissen 152, 171, 221
Thomas 23, 196–197
Thurstone 5, 103, 113, 118
Tietz 15, 229–230
Tilmann 10
Toyne 66, 68–70, 76
Traub 135
Triandis 27, 46–47, 49, 52, 64
Tucker 110
Turner 192
283
Autorenindex
U
Updyke Siehe Zhu 237
Usunier 26, 29, 47–48, 70–76, 82
V
Van de Vijver 55
van der Linden 144
Van Herk 75
van Minden 188
van Trijp 62
Vandenber 188
Vassilou 64
Verhallen 75
Verhelst 171
Verstralen Siehe Verhelst 171
von Davier 152, 156, 173–174, 177, 210–212, 214, 216–217
W
Walters 66, 68–70, 76
Warner 73
Waugh 238
Weiber Siehe Backhaus 101, 103, 106, 108–109, 112–113, 128
Weinberg 238–239
White 187
Wich 92
Widaman Siehe Reise 123, 127
Wind 16
Wright 5, 141, 155, 164
Y
Yapra 187
Yoshida 23, 37
Yu 235
Z
Zentes 15
Zhang 188
Zhu 237
Zwinderman 152
284
Anhang
Anhang
A CETSCALE Items (Shimp und Sharma, 1987)
Die folgende Übersicht gibt die aus 17 Items bestehende CETSCALE von Shimp und
Sharma (1987) in deutscher Übersetzung bezogen auf Österreich (Sinkovics, 1998) wieder. Die Kodierungen stellen die Originalcodes bei Sinkovic (1998) für Österreich bzw.
Sharma et al. (1995) für Südkorea dar.
t5
v031
t1
skalar
v028
metrisch
Sinkovics Sharma et
(1998) al. (1995)
Invarianz
konfigural
Codierung
+
+
-
Der Kauf ausländischer Produkte ist „un-österreichisch“.
+
-
-
Österreicher sollten sich immer für österreichische Produkte entscheiden, anstatt importierte Produkte zu kaufen.
Item
v035
t4
+
-
-
Österreichische Produkte sind das einzig Richtige.
v046
t3
+
+
+
Kauft österreichische Produkte. Sichert unsere Arbeitsplätze!
v048
t2
+
+
+
Es sollten nur jene Produkte importiert werden, die in
Österreich nicht erhältlich sind.
v054
t6
+
+
+
Es ist nicht richtig, ausländische Produkte zu kaufen, weil
dadurch Österreicher arbeitslos werden.
v063
t7
-
-
-
Ein echter Österreicher kauft nur österreichische Produkte.
v075
t12
-
-
-
Es sollte für alle Importe Einfuhrbeschränkungen geben.
v077
t10
+
+
-
Es sollte mit anderen Ländern sehr wenig Warenhandel
oder -einkauf betrieben werden, außer wenn es unbedingt
notwendig ist.
+
-
-
Wir sollten österreichische Produkte kaufen, anstatt es
zuzulassen, daß andere Länder sich auf unsere Kosten
bereichern.
v079
t8
v081
t9
-
-
-
Es ist immer am besten, österreichische Produkte zu kaufen.
v082
t13
-
-
-
Es mag sein, daß es langfristig teurer ist, aber ich ziehe es
vor, österreichische Produkte zu kaufen.
v090
t16
-
-
-
Wir sollten vom Ausland nur jene Produkte kaufen, die
wir im eignen Land nicht bekommen.
v091
t14
-
-
-
Ausländern sollte es nicht erlaubt sein, ihre Produkte auf
unseren Markt zu bringen.
285
Anhang
v103
v106
skalar
v093
metrisch
Sinkovics Sharma et
(1998) al. (1995)
Invarianz
konfigural
Codierung
+
+
+
Österreicher sollten keine ausländischen Schi kaufen,
weil es österreichischen Unternehmen schadet und
Arbeitslosigkeit hervorruft.
+
+
-
Österreichische Konsumenten, die ausländische Produkte
kaufen, sind verantwortlich dafür, daß ihre Mitbürger
arbeitslos werden.
-
-
-
Um die Einfuhr ausländischer Produkte nach Österreich
zu reduzieren, sollten diese stark besteuert werden.
t11
t17
t15
Item
286
Anhang
B CETSCALE Itempool (Shimp und Sharma, 1987; Sinkovics, 1998)
Itemcode
bei
Sinkovics
(1998)
US-Item
(Shimp und Sharma, 1987)
österreichisches Item
(Sinkovics, 1998)
v001
Americans should buy American products,
because charity begins at home
Österreicher sollten österreichische Produkte
kaufen, weil jeder sich selbst der nächste ist.
v002
It is better to purchase American-made products to help the economy and to help more
Americans to have jobs
Es ist besser österreichische Produkte zu kaufen, um der Wirtschaft zu helfen und heimische Arbeitsplätze zu sichern.
v003
It is alright to purchase foreign-made products, because trade with other countries is
necessary
Es ist in Ordnung, daß man ausländische Produkte kauft, denn Handel mit anderen Ländern ist notwendig.
v004
I do not think that a bad company should be
helped just because it is an American company
Ich glaube nicht, daß man einer schlechten
Firma helfen sollte, nur weil es eine österreichische Firma ist.
v005
Ich würde im allgemeinen lieber österreichiI would prefer to purchase goods made in
America, but sometimes workmanship makes sche Produkte kaufen, aber manchmal macht
es die mangelnde Produktqualität schwierig
it difficult to do so
diesem Grundsatz zu folgen.
v006
Foreign-made products are over-rated in
terms of performance and dependability
v007
Everyone is entitled to buy whatever products Es steht jedem frei Produkte seiner Wahl zu
kaufen, ganz egal wo sie herkommen.
they want, regardless of origin of manufacture
v008
Let American manufacturers do better than
foreign competitors if they want American
consumers to purchase their products
v009
Foreign products are engineered to last longer Ausländische Produkte bewähren sich hinan with an eye for quality
sichtlich Lebensdauer und Qualität besser als
heimische.
v010
When Americans buy foreign-made products, Wenn Österreicher ausländische Produkte
they are just taking money away from them- kaufen, dann bringen sie sich bloß um ihr
selves
eigenes Geld.
v011
All Americans would be better off if we
Alle Österreicher wären besser dran, wenn
would purchase products from ourselves rat- wir unsere eigenen statt der ausländischen
her than from other countries
Produkte kaufen würden.
v012
American consumers have an obligation to
purchase foreign-made products since American products have been sold abroad for many
years
287
Ausländische Produkte werden in bezug auf
Leistung und Verläßlichkeit überschätzt.
Wenn einheimische Hersteller wollen, daß
Österreicher ihre Produkte kaufen, dann sollen Sie einfach bessere Produkte produzieren.
Österreichische Konsumenten sollten sich
verpflichtet fühlen, ausländische Produkte zu
kaufen, weil österreichische Produkte auch
schon seit vielen Jahren im Ausland verkauft
werden.
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v013
Import taxes or other restrictions should be
imposed so that foreign products will compare in price on the American market with
items manufactured here
v014
Labor unions are responsible for the high pri- Für die hohen Preise österreichischer Proces of American products compared to for- dukte, verglichen mit den Preisen ausländieign products
scher Produkte sind die Gewerkschaften
verantwortlich.
v016
We should buy American first--it´s the Ame- Wir sollten in erster Linie österreichische
rican way
Produkte kaufen. Das ist die österreichische
Art.
v017
It is the fault of American companies that
they have allowed foreign businesses to
invade the American market
v018
If consumers continue to purchase foreign
Wenn die Konsumenten weiterhin ausländiproducts, American companies will get the
sche Produkte kaufen, dann ist das ein Signal
signal and improve products and lower prices für österreichische Unternehmen, ihre Produkte zu verbessern und die Preise zu senken.
v019
It is morally unwise to purchase foreign
makes of merchandise
Es ist moralisch unklug, ausländische Produkte zu kaufen.
v020
I would rather buy an American-made product, but inferior workmanship in some products has forced me to buy foreign-made
products
Ich würde an sich lieber österreichische Produkte kaufen, aber die geringere Qualität
mancher Produkte hat mich dazu gezwungen,
ausländische Produkte vorzuziehen.
v021
Foreign products are cheap and don´t hold up Ausländische Produkte sind billig und halten
well
wenig aus.
v022
Many products coming to America from
other countries are inferior
v023
We need to get back to our old way of buying Wir sollten endlich wieder österreichische
American-made products
Produkte kaufen, so wie es früher üblich war.
v024
People should buy American products whenever possible, but when foreign-made products cost the same for better quality it is hard
to remain loyal
v025
I do not feel that I am being a traitor if I buy a Ich fühle mich nicht als Verräter, wenn ich ein
foreign-made product
ausländisches Produkt kaufe.
v027
I favor the purchase of American-made products as a matter of principle and patriotism
Aus Prinzip und wegen meines Patriotismus
bevorzuge ich österreichische Produkte.
v028
Purchasing foreign made products is unAmerican
Der Kauf ausländischer Produkte ist "unösterreichisch".
288
Es sollten Einfuhrzölle und andere Einfuhrbeschränkungen eingeführt werden, damit ausländische Produkte in bezug auf ihren
Verkaufspreis mit den einheimischen Produkten vergleichbar sind.
Die österreichischen Firmen sind selbst daran
schuld, daß sie ausländischen Firmen erlaubt
haben, in den österreichischen Markt einzudringen.
Viele ausländische Produkte, die nach Österreich kommen sind minderwertig.
Man sollte, wann immer möglich, österreichische Produkte kaufen, aber wenn ausländische Produkte bei besserer Qualität das
gleiche kosten, ist es schwierig diesem
Grundsatz treu zu bleiben.
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v029
It´s sort of anti-American to buy foreign products, but when expensive purchases are
involved, you have to do what is in your personal interest
In gewisser Weise ist es anti-österreichisch,
ausländische Produkte zu kaufen, aber man
muß in seinem eigenen Interesse handeln, vor
allem wenn es um teure Anschaffungen geht.
v030
Generally I support American products, but
American companies have to improve the
quality of work
Im allgemeinen unterstütze ich österreichische Produkte, aber österreichische Firmen
müssen die Qualität ihrer Produkte noch verbessern.
v031
American people should always buy American-made products instead of imports.
Österreicher sollten sich immer für österreichische Produkte entscheiden, anstatt importierte Produkte zu kaufen.
v032
In a great number of instances, foreign goods Häufig sind ausländische Erzeugnisse besser
are better made and are more attractive
ausgeführt und insgesamt attraktiver.
v033
As an American citizen, you should have the Als österreichischer Staatsbürger sollte man
right to purchase any legal product from any das Recht haben, jedes Produkt aus jedem
country
Land zu kaufen.
v034
Americans should remain loyal to American- Österreicher sollten österreichischen Produkmade goods and should not purchase foreign- ten gegenüber treu bleiben und keine auslänmade products
dischen Produkte kaufen.
v035
American products first, last, and foremost
Österreichische Produkte sind das einzig
Richtige.
v037
I will buy only American-made products,
because I believe in America and its people
Ich kaufe nur österreichische Produkte, weil
ich an Österreich und die Österreicher glaube.
v038
It is very inappropriate for American consumers to purchase foreign products when
workers in this country are out of work
Es ist für österreichische Konsumenten ausgesprochen unangebracht, ausländische Produkte zu kaufen, wenn es in Österreich
Arbeitslose gibt.
v039
It is your freedom of choice to purchase any
product you want, whether or not it is foreign-made
Es ist dein freier Wille jedes beliebige Produkt zu kaufen, egal ob es im Ausland
erzeugt wurde oder nicht.
v041
If we expect to sell products to foreign coun- Wenn wir Produkte exportieren wollen, müstries, we must also import foreign goods
sen wir ebenso ausländische Produkte importieren.
v043
I have no objection to purchasing foreignIch habe nichts dagegen, ausländische Promade goods provided they are of equal or bet- dukte zu kaufen, vorausgesetzt sie sind hinter value than American goods
sichtlich ihrer Qualität gleichwertig oder
preiswerter als österreichische Produkte.
v044
American consumers should spend their dol- Österreichische Konsumenten sollten ihr
lars to get the maximum for the amount spent, Geld so verwenden, daß sie dafür soviel wie
möglich bekommen, unabhängig davon
regardless of the origin of the product
woher die Produkte stammen.
v045
That is what is wrong with America now, too Das Problem mit Österreich ist: Es gibt zu
many foreign products
viele ausländische Produkte.
289
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v046
Buy American-made products. Keep America Kauft österreichische Produkte. Sichert
working
unsere Arbeitsplätze!
v047
Purchasing foreign products gives a sign to
American companies to do a better job
Wenn man ausländische Produkte kauft,
signalisiert man damit den österreichischen
Unternehmungen, sich mehr anzustrengen.
v048
Only those products that are unavailable in
the U.S. should be imported
Es sollten nur jene Produkte importiert werden, die in Österreich nicht erhältlich sind.
v049
I would prefer not to purchase products from Ich würde lieber keine ausländischen Proother countries, but sometimes we are forced dukte kaufen, aber manchmal werden wir
dazu gezwungen.
to
v050
Buying foreign-made products amounts to
fighting our own economy
Wenn wir ausländische Produkte kaufen,
schaden wir letztlich nur unserer eigenen
Wirtschaft.
v051
It is better to buy American-made products,
but sometimes the difference in price causes
us to buy foreign products
Es ist besser österreichische Produkte zu kaufen, aber manchmal veranlaßt uns der Preisunterschied dazu, doch ausländische
Produkte zu kaufen.
v052
If we do not purchase foreign goods, we
cannot expect other countries to buy our
exports
Wenn wir keine ausländischen Produkte kaufen, können wir nicht erwarten, daß andere
Länder unsere Produkte kaufen.
v053
American products are usually superior to
foreign products because they are backed by
our home companies and they give less service and parts problems
Österreichische Produkte sind üblicherweise
ausländischen Produkten weit überlegen, weil
dahinter österreichische Firmen stehen und es
weniger Wartungs- und Ersatzteilprobleme
gibt.
v054
It is not right to purchase foreign products,
because it puts Americans out of jobs
Es ist nicht richtig, ausländische Produkte zu
kaufen, weil dadurch Österreicher arbeitslos
werden.
v055
There should be tariffs on foreign goods,
Man sollte auf ausländische Produkte Zölle
making the price closer to American products einheben, um deren Preise an die österreichischen anzugleichen.
v056
I would much rather buy American goods, but Eigentlich kaufe ich lieber österreichische
not unless they meet my standards
Produkte, aber nur wenn sie meinen Anforderungen entsprechen.
v057
If we can sell our products in other countries, Wenn wir unsere Produkte in anderen Länthen there is nothing wrong with buying their dern verkaufen können, ist nichts dagegen
products
einzuwenden, deren Produkte zu kaufen.
v059
Foreign products are more consistent in performance than American products
Ausländische Produkte sind zuverlässiger als
österreichische Produkte.
v061
If a poor quality American product costs
more and won´t hold up, consumers should
buy foreign products
Wenn ein österreichisches Produkt von
schlechter Qualität viel kostet und wenig aushält, dann sollten Konsumenten ausländische
Produkte kaufen.
290
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v062
American consumers should purchase products based on a satisfaction-per-dollar-spentbasis no matter what country the item is made
in
Österreichische Konsumenten sollten Produkte auf der Basis eines guten Preis- Leistungsverhältnisses kaufen, egal wo das
Produkt erzeugt wurde.
v063
A real American should always buy American-made products
Ein echter Österreicher kauft nur österreichische Produkte.
v064
The poor shape of the economy is largely the Der Grund für die schlechte Wirtschaftslage
liegt größtenteils darin, daß Österreicher ausresult of Americans buying foreign-made
products
ländische Produkte kaufen.
v065
Purchasing foreign-made products promotes
good relations with other countries
v066
I buy foreign products in hopes that American Ich kaufe ausländische Produkte in der Hoffmanufacturers will get the message an
nung, den österreichischen Produzenten
improve product quality
damit einen Denkzettel zu verpassen, sodaß
sie ihre Produkte verbessern.
v067
Buying foreign-made products makes for bet- Der Kauf ausländischer Produkte fördert die
ter international relations
internationalen Beziehungen.
v069
It is not right to purchase any products that
are manufactured outside the United States
Es ist nicht richtig, Produkte zu kaufen, die
nicht in Österreich erzeugt wurden.
v071
I purchase items based on quality, not whether they are American or foreign-made
Ich kaufe Produkte wegen ihrer Qualität und
nicht wegen ihrer Herkunft.
v072
Stronger laws are needed to control imports
of foreign-made products
Wir brauchen strengere Gesetze, um die
Importe ausländischer Produkte zu kontrollieren.
v073
Labor unions with their demands for higher
wages have placed American products in
non- competitive positions
Gewerkschaften mit ihrer Forderung nach
höheren Löhnen, haben die österreichischen
Produkte in eine nachteilige Wettbewerbssituation gebracht.
v074
Foreign companies place more emphasis on
quality than do American firms
Ausländische Firmen legen mehr Wert auf
Qualität als österreichische Firmen.
v075
Curbs should be put on all imports
Es sollte für alle Importe Einfuhrbeschränkungen geben.
v077
There should be very little trading or
purchasing of goods from other countries
unless out of necessity
Es sollte mit anderen Ländern sehr wenig
Warenhandel oder -einkauf betrieben werden,
außer wenn es unbedingt notwendig ist.
v078
I purchase the highest quality products at the Ich kaufe jene Produkte, die die beste Qualilowest prices, disregarding where the product tät zum geringsten Preis bieten, ohne Rückwas made
sicht darauf, wo das Produkt hergestellt
wurde.
v079
We should purchase products manufactured
in America instead of letting other countries
get rich of us
291
Der Kauf ausländischer Produkte fördert die
guten Beziehungen mit anderen Ländern.
Wir sollten österreichische Produkte kaufen,
anstatt es zuzulassen, daß andere Länder sich
auf unsere Kosten bereichern.
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v080
We should buy American-made products if
the price and quality is anywhere equal
Wir sollten österreichische Produkte kaufen,
wenn sie in Preis und Qualität ungefähr
gleich sind.
v081
It is always best to purchase American products
Es ist immer am besten österreichische Produkte zu kaufen.
v082
It may cost me in the long-run, but I prefer to Es mag sein, daß es langfristig teurer ist, aber
support American products
ich ziehe es vor, österreichische Produkte zu
kaufen.
v083
Foreign-made products are usually less
Ausländische Produkte kosten üblicherweise
expensive and are of better quality than Ame- weniger und sind qualitativ hochwertiger als
rican products
österreichische Produkte.
v084
The consumer should purchase foreign-made
products only if they are of much better
value- if the products are equal or very close,
we should choose American products
Der Konsument sollte ausländische Produkte
nur dann kaufen, wenn sie ein wesentlich besseres Preis-Leistungsverhältnis bieten; wenn
die Produkte gleich oder sehr ähnlich sind,
sollten wir zu österreichischen Produkten
greifen.
v085
I do not favor American purchases just to
overpay union workers or to save management from their mistakes
Ich kaufe doch nicht österreichische Produkte, nur um dadurch Gewerkschafter zu
subventionieren oder das Management von
den Folgen seiner Fehler zu verschonen.
v086
I favor buying American-made products, but
only if they are as good or better than foreign-made products
Ich ziehe es vor österreichische Produkte zu
kaufen, aber nur wenn sie gleich gut oder besser sind als ausländische Produkte.
v088
Foreign competition is necessary for the
American economy
Ausländische Konkurrenz ist notwendig für
die österreichische Wirtschaft.
v089
American consumers should purchase Ameri- Österreichische Konsumenten sollten östercan goods and let foreign countries keep their reichische Waren kaufen und fremde Länder
own goods
sollten ihre eigenen Waren behalten.
v090
We should buy from foreign countries only
those products that we cannot obtain within
our own country
v091
Foreigners should not be allowed to put their Ausländern sollte es nicht erlaubt sein, ihre
products on our markets
Produkte auf unseren Markt zu bringen.
v093
Americans should not buy foreign cars,
because this hurts American businesses and
causes unemployment
Österreicher sollten keine ausländischen Schi
kaufen, weil es österreichischen Unternehmen schadet und Arbeitslosigkeit hervorruft.
v094
If a foreign product is better than a domestic
one, it is your right to purchase the foreign
product
Wenn ein ausländisches Produkt besser als
das heimische ist, hat man das Recht, das ausländische Produkt zu kaufen.
v095
Usually American products are superior to
foreign ones
Normalerweise sind österreichische Produkte
ausländischen Produkten überlegen.
292
Wir sollten vom Ausland nur jene Produkte
kaufen, die wir im eigenen Land nicht
bekommen.
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v097
Our country needs our help, and we can help Unser Land braucht unsere Hilfe und wir
by buying only American-made products
können helfen, indem wir nur österreichische
Produkte kaufen.
v098
There should be no quotas set on the number Es sollte keine Mengenbeschränkungen für
of foreign products imported into the U.S.
die Zahl der nach Österreich eingeführten
Produkte geben.
v102
It is unpatriotic to purchase foreign-made
products
v103
American consumers who purchase products Österreichische Konsumenten, die ausländimade in other countries are responsible for
sche Produkte kaufen, sind verantwortlich
putting their fellow Americans out of work
dafür, daß ihre Mitbürger arbeitslos werden.
v104
We must support products produced in our
own country for our own survival
Wir müssen einheimische Produkte unterstützen, um überleben zu können.
v105
We should not purchase anything from foreign countries, and they should not be allowed to purchase anything from us
Wir sollten nichts aus dem Ausland kaufen,
und den Ausländern sollte es untersagt sein,
irgend etwas von uns zu kaufen.
v106
Foreign products should be taxed heavily to
reduce their entry into the U.S.
Um die Einfuhr ausländischer Produkte nach
Österreich zu reduzieren, sollten diese stark
besteuert werden.
v107
American manufacturers will never improve Österreichische Produzenten werden die Quathe quality of their products unless motivated lität ihrer Waren nie verbessern, es sei denn,
by foreign competition
sie werden durch ausländische Konkurrenz
dazu motiviert.
v108
American consumers should not let themselves be cheated in buying inferior Americanmade products because of some sense in
patriotism
v110
American consumers should purchase whate- Österreichische Konsumenten sollten unabver products best fulfill their needs regardless hängig vom Ursprungsland die Produkte kauof where they are produced
fen, die ihre Bedürfnisse am besten
befriedigen.
v111
It is downright unpatriotic to buy anything
except American-made products
Es ist absolut unpatriotisch, irgend etwas
anderes als österreichische Produkte zu kaufen.
v112
You have the right to purchase any product
that suits your needs and your pocketbook,
regardless of where manufactured
Man hat das Recht, jedes Produkt zu kaufen
das seinen Bedürfnissen und der Brieftasche
am besten entspricht, egal wo es erzeugt
wurde.
v113
Wenn österreichische Erzeuger die ProduktIf American manufacturers improved product quality, consumers would not seek goods qualität steigerten, würden die österreichischen Konsumenten nicht Waren aus dem
from other countries
Ausland nachfragen.
293
Es ist unpatriotisch, ausländische Produkte zu
kaufen.
Österreichische Konsumenten sollten sich
nicht von einem gewissen Gefühl des Patriotismus dazu verführen lassen, minderwertige
einheimische Produkte zu kaufen.
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v114
American manufacturers are losing out to for- Österreichische Produzenten verlieren gegeneign competitors due to their own stubborn
über ausländischen Konkurrenten, weil sie es
refusal to change
einfach hartnäckig ablehnen, Änderungen
vorzunehmen.
v115
If you can get a better foreign-made product Wenn man ein besseres ausländisches Proat a lower price, it would be foolish not to buy dukt zu einem günstigeren Preis erstehen
kann, wäre man dumm, es nicht zu kaufen.
it
v116
Americans would buy more American-made
products if they were as good as those made
by foreign companies
v117
American consumers should buy goods of the Österreichische Konsumenten sollten jene
Güter kaufen, die das beste Preis- Leistungsbest value for the price without regard to
where they are made
verhältnis haben, unabhängig davon, wo sie
hergestellt wurden.
Österreicher würden mehr heimische Produkte kaufen, wenn sie so gut wie die ausländischen wären.
PATRIOTISMUS (P) UND POLITIC-ECONOMIC-CONSERVATIVISM (PEC) Subskalen
v026
If a person won´t fight for his country, he
deserves a lot worse than just prison or a
work camp
Wenn jemand nicht für sein Land kämpft,
verdient er schlimmeres als nur Gefängnis
oder Arbeitslager.
v060
People throughout the world may be in need,
but it would be a big mistake to lower our
immigration quotas and allow them to flood
the country
Es mag auf dieser Welt viele Bedürftige
geben, doch es wäre ein grober Fehler, unsere
Einwanderungsquoten zu senken, und sie
unser Land überfluten zu lassen.
v092
The main threat to basic American institutions during this century has come from the
infiltration of foreign ideas, doctrines, and
agitators
Die Hauptbedrohung für den österreichischen
Staat während des letzten Jahrhunderts kam
von fremden Ideen, Lehren und Aufhetzern.
v100
Patriotism and loyalty are the first and most
important requirements of a good citizen
Patriotismus und Loyalität gehören zu den
wichtigsten Voraussetzungen für einen guten
Staatsbürger.
v101
There will always be superior and inferior
nations in the world and, in the interests of all
concerned, it is best that the superior ones be
in control of world affairs
Es wird immer überlegene und unterlegene
Nationen in der Welt geben, und im Interesse
aller Beteiligten ist es das Beste, wenn die
überlegenen Nationen die Kontrolle über das
Weltgeschehen ausüben.
v015
The government should own and operate all Der Staat sollte alle öffentlichen Versorpublic utilities (transportation, gas and elec- gungsunternehmen besitzen und betreiben
tric, railroads, etc.)
(Elektrizität, Gas, Schienenverkehr, Güterverkehr).
v036
Ein Künstler und ein Professor sind für die
The artist and the professor are of just as
much value to society as the businessman and Gesellschaft genauso wertvoll wie ein
Geschäftsmann und ein Unternehmer.
the manufacturer
294
Anhang
Itemcode
bei
Sinkovics
(1998)
US-Item
(Sinkovics, 1998)
v040
It would be dangerous for the U.S. to coope- Es wäre gefährlich für Österreich zu eng mit
rate too closely with Russia
Ländern wie Ungarn zusammenzuarbeiten.
v042
The best political candidate to vote for is the Es ist am besten, die Partei zu wählen, die am
one whose greatest interest is in fighting vice schärfsten gegen Korruption und Bestechung
and graft
auftritt.
v058
Im allgemeinen ist den "Nächsten" am besten
In general, the best wy of aiding our fellow
man is to give time or money to some worthy geholfen, wenn man Zeit oder Geld für wohlcharity
tätige Zwecke zur Verfügung stellt.
v068
Labor unions should become stronger and
have more influence generally
Gewerkschaften sollten stärker werden und
überhaupt mehr Einfluß haben.
v070
It is up to the government to make sure that
everyone has a secure job and a good standard of living
Es ist Sache des Staates, die Arbeitsplätze
und einen guten Lebensstandard zu sichern.
v076
More government controls over business are
needed
Der Staat sollte mehr Kontrolle über die Wirtschaft ausüben.
v087
No one should be allowed to earn more than $ Niemand sollte mehr als öS 200.000,-- im
200,000 a year
Monat verdienen.
v096
Depressions can be prevented by proper
government planning
v099
Poverty could be almost entirely done away Wir könnten die Armut fast vollständig auslöwith if we made certain basic changes in our schen, wenn wir bestimmte grundsätzliche
social and economic system
Veränderungen in unserem sozialen und wirtschaftlichen System durchführen.
v109
America may not be perfect, but the American Way has brought us about as close as
human beings can get to a perfect society
295
Wirtschaftskrisen können durch vernünftiges
Planen öffentlicher Stellen verhindert werden.
Es mag sein, daß Österreich nicht makellos
ist, aber weit von einer perfekten Gesellschaft
sind wir nicht mehr entfernt.
Anhang
C LISREL-Syntax: separate CFA in Österreich und Südkorea
Im folgenden wird die Syntax der Analysen mit Lisrel 8.20 dargestellt. Kursive Angaben
stellen nachträglich eingefügte Kommentare dar und sind nicht Bestandteil der originalen
Syntax. In nachfolgenden Beispielen werden Syntaxteile nur dann kommentiert, wenn
diese nicht bereits in vorangegangenen Beispielen erläutert werden. Sämtliche Angaben
beziehen sich auf die Kalibrierungssamples, stimmen aber syntaktisch völlig überein mit
den Analysen der Validierungssamples.
TI Project: calib. Categorization variable: sample . Group: at
TI separate models for at and kor sample
TI calibration data set
TI CETSCALE
TI AT and KOR
Titelzeilen ohne syntaktische Bedeutung
DA NI=17 NO=548 NG=1 MA=CM
Charakterisierung der Datenanalys: Zahl der Inputvariablen: 17, Zahl der Fälle: 548; Zahl
der simultan betrachteten Gruppen: 1, Matrix: Kovarianzmatrix
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T7’ ’T8’
’T9’ ’T10’ ’T11’ ’T12’ ’T13’ ’T14’ ’T15’ ’T16’
’T17’
Labelzuweisung zur Charakterisierung der manifesten Variablen
CM FI=separ.cov
Dateiangabe zur Kovarianzmatrix
ME FI=separ.cov
Dateiangabe zum Item-Mittelwertsvektor
MO NY=17 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI
Modellspezifikation: Alle manifesten Variablen (17) wurden als Y-Variablen spezifiziert.
Dies ist völlig äquivalent zu einer X-Spezifikation.Eine latente Variable als η spezifiziert.
LE
’gen’
Labelzuweisung zur Charakterisierung der latenten Variablen (hier: gen für Generalfaktor)
VA 1.000 LY(1,1)
Value-Statement: Wertzuweisung zu einem Ladungsparameter zwecks Definition der Varianz
der latenten Variablen
FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) LY(11,1)
FR LY(12,1) LY(13,1) LY(14,1) LY(15,1) LY(16,1)
FR LY(17,1)
Free matrix element-Statement: Spezifikation der Ladungen aller Variablen zum ersten (und
einzigen) Faktor
FR PS(1,1)
Free matrix element-Statement: Spezifikation der Faktorkovarianzen, hier nur ein Faktor,
daher nur Faktorvarianz
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TE(11,11) TE(12,12) TE(13,13) TE(14,14) TE(15,15)
FR TE(16,16) TE(17,17)
Free matrix element-Statement: Spezifikation der zu schätzenden Fehler(ko)varianzen, hier
werden nur Fehlervarianzen geschätzt.
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
FR TY(11) TY(12) TY(13) TY(14) TY(15)
FR TY(16) TY(17)
296
Anhang
Free matrix element-Statement: Spezifikation der zu schätzenden Item-Intercepts.
VA .902 LY(2,1)
VA .670 LY(3,1)
(...)
Startwertvorgabe für Parameterschätzungen. Diese beruhen auf Schätzungen, die im Zuge
von Programmläufen mit restringierten Parametern gewonnen wurden. Diese Vorgangsweise erleichtert die Konvergenz der Lösung. Eine mögliche erste Restriktion besteht in gleichen
Ladungswerten für alle Parameter. Startwerte werden im folgenden nicht mehr dargestellt.
OU ALL ME=ML AD=OFF
Output-Statement: Standardauswahl.
TI Project: calib. Categorization variable: sample . Group: kor
TI separate models for at and kor sample
TI CETSCALE
TI AT and KOR
Titelzeilen als Beginn der Syntax für Stichprobe Südkorea.
Alle weiteren Syntaxzeilen sind ident mit den entsprechenden Zeilen für die österreichische
Stichprobe und werden daher nicht dargestellt.
(...)
297
Anhang
D LISREL-Syntax: konfigurale Invarianz
TI full configural invariance / restricted set
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=fconff.cov
ME FI=fconff.cov
LE
’gen’
VA 1.000 LY(1,1)
FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
VA .841 LY(2,1)
(...)
OU ALL ME=ML AD=OFF
TI full configural invariance / restricted set
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=fconff.cov
ME FI=fconff.cov
LE
’gen’
VA 1.000 LY(1,1)
FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
VA .987 LY(2,1)
(...)
OU ALL ME=ML AD=OFF
298
Anhang
E LISREL-Syntax: volle metrische Invarianz
TI full metric invariance / restricted set
(...)
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=metricf.cov
ME FI=metricf.cov
LE
’gen’
VA 1.000 LY(1,1)
FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
OU ALL ME=ML AD=OFF
TI full metric invariance / restricted set
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=metricf.cov
ME FI=metricf.cov
LE
’gen’
VA 1.000 LY(1,1)
FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
EQ LY(2,2,1) LY(1,2,1)
EQ LY(2,3,1) LY(1,3,1)
EQ LY(2,4,1) LY(1,4,1)
EQ LY(2,5,1) LY(1,5,1)
EQ LY(2,6,1) LY(1,6,1)
EQ LY(2,7,1) LY(1,7,1)
EQ LY(2,8,1) LY(1,8,1)
EQ LY(2,9,1) LY(1,9,1)
EQ LY(2,10,1) LY(1,10,1)
Equality constraints, hier werden alle Ladungen in Gruppe 1 (Österreich) mit jenen in Gruppe 2 (Südkorea) gleichgesetzt
OU ALL ME=ML AD=OFF
299
Anhang
F LISREL-Syntax: partielle metrische Invarianz
TI partial metric invariance / restricted set
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=metrip3.cov
ME FI=metrip3.cov
LE
’gen’
VA 1.000 LY(2,1)
FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
OU ALL ME=ML AD=OFF
TI partial metric invariance / restricted set
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=metrip3.cov
ME FI=metrip3.cov
LE
’gen’
VA 1.000 LY(2,1)
FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
EQ LY(2,3,1) LY(1,3,1)
EQ LY(2,5,1) LY(1,5,1)
EQ LY(2,6,1) LY(1,6,1)
EQ LY(2,8,1) LY(1,8,1)
EQ LY(2,9,1) LY(1,9,1)
EQ LY(2,10,1) LY(1,10,1)
Equality constraints, hier werden Ladungen zum Teil in Gruppe 1 (Österreich) mit jenen in
Gruppe 2 (Südkorea) gleichgesetzt
OU ALL ME=ML AD=OFF
300
Anhang
G LISREL-Syntax: skalare Invarianz
TI partial scalar invariance / restricted set
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=scalar0.cov
ME FI=scalar0.cov
LE
’gen’
VA 1.000 LY(2,1)
FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
OU ALL ME=ML AD=OFF
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=scalar0.cov
ME FI=scalar0.cov
LE
’gen’
VA 1.000 LY(2,1)
FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
FR AL(1)
EQ LY(2,3,1) LY(1,3,1)
EQ LY(2,5,1) LY(1,5,1)
EQ LY(2,6,1) LY(1,6,1)
EQ LY(2,8,1) LY(1,8,1)
EQ LY(2,9,1) LY(1,9,1)
EQ LY(2,10,1) LY(1,10,1)
EQ TY(2,2) TY(1,2)
EQ TY(2,3) TY(1,3)
EQ TY(2,5) TY(1,5)
EQ TY(2,6) TY(1,6)
301
Anhang
EQ TY(2,8) TY(1,8)
EQ TY(2,9) TY(1,9)
EQ TY(2,10) TY(1,10)
Equality constraints, hier werden Item-Intercepts in Gruppe 1 (Österreich) mit jenen in
Gruppe 2 (Südkorea) gleichgesetzt, soweit es sich um metrisch invariante Items handelt.
OU ALL ME=ML AD=OFF TY=scalar0.est AL=scalar0.est C
302
Anhang
H LISREL-Syntax: partielle skalare Invarianz
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=scalar3.cov
ME FI=scalar3.cov
LE
’gen’
VA 1.000 LY(2,1)
FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
OU ALL ME=ML AD=OFF
TI CETSCALE
TI AT and KOR
LA
’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’
’T11’ ’T17’
CM FI=scalar3.cov
ME FI=scalar3.cov
LE
’gen’
VA 1.000 LY(2,1)
FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1)
FR LY(7,1) LY(8,1) LY(9,1) LY(10,1)
FR PS(1,1)
FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5)
FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10)
FR TY(1) TY(2) TY(3) TY(4) TY(5)
FR TY(6) TY(7) TY(8) TY(9) TY(10)
FR AL(1)
EQ LY(2,3,1) LY(1,3,1)
EQ LY(2,5,1) LY(1,5,1)
EQ LY(2,6,1) LY(1,6,1)
EQ LY(2,8,1) LY(1,8,1)
EQ LY(2,9,1) LY(1,9,1)
EQ LY(2,10,1) LY(1,10,1)
EQ TY(2,2) TY(1,2)
EQ TY(2,3) TY(1,3)
EQ TY(2,6) TY(1,6)
EQ TY(2,9) TY(1,9)
303
Anhang
Equality constraints, hier werden Item-Intercepts in Gruppe 1 (Österreich) mit jenen in
Gruppe 2 (Südkorea) gleichgesetzt, für eine Auswahl der metrisch invarianten Items.
OU ALL ME=ML AD=OFF
304
305
t7
t4
t8
V063
V035
V079
+
V093
t11
+
V050
+
V054
t6
-
V097
+
-
+
-
+
t9
V081
+
+
t5
V028
+
-
+
+
-
-
-
-
Basis für
Analyse
Südkorea
V034
+
+
-
-
t1
V031
-
-
Sharma
et al.
(1995)
Item
RaschModell
konform
V037
V038
Sinkovics
(1998)
Itemcodes
n.s./n.s.
n.s./n.s.
n.s./n.s.
n.s./n.s.
n.s. / >.95
n.s. / >.95
>.99 / n.s.
n.s. / n.s.
<.05 / <.05
n.s. / >.99
>.95 / >.95
>.999 / .99
>.99 / >.95
p<.05: Unterdiskriminanz
p>.95: Überdiskriminanz
Q-Index:
p (X>zq)
cal / val
16.21
17.32
7.99
28.98
11.55
9.27
28.27
10.53
13.33
10.94
19.77
36.64
85.88
χ2
p
.06
.04
.54
<.001
.24
.41
<.001
.31
.15
.28
.02
<.001
<.001
Q1-Index
DIF-Items5%: 11
DIF-Items1%: 9
χ2
fett=sig.1%
kursiv=sig.5%
Score
(≤ 6 n= 572
vs. ≥ 7 n=533)
DIF-Items5%: 4
DIF-Items1%: 1
DIF-Items5%: 8
DIF-Items1%: 4
χ2
χ2
fett=sig.1%
fett=sig.1%
kursiv=sig.5%
kursiv=sig.5%
Geschlecht
Alter
(männl. n=556 vs.
(≤ 35a n=556
weibl. n=549)
vs. > 35a n=540)
1.994241386
0.163601443
2.404624776
3.699212935
0.027359487
0.769064283
0.116317108
1.696956736
1.764270779
0.00303796
0.776950751
0.158438508
1.16633782
1.094385911
0.794115925
0.403119538
0.497622566
1.683093981
3.887385209
10.41093054
0.026198532
1.945942814
10.9801484
8.059646259
15.20387317
7.862893712
1.550922745
0.399756846
0.00234055
1.278878312
6.199302682
0.140960031
0.883292681
0.417780934
0.713329525
0.562462981
2.798910086
0.198181652
0.405748097
0.983075718
5.872987255
1.238594684
0.157568905
3.946810862
2.188036098
1.259685834
0.174068744
0.533012292
0.582646102
0.002969174
9.150956275
0.387579667
krit. χ25%,df=1=3.84146; krit. χ21%,df=1=6.6349
DIF-Items5%: 2
DIF-Items1%: -
χ
fett=sig.1%
kursiv=sig.5%
Kalib. - Valid.
(n=553 vs. n=552)
2
I Modellgesamtprüfung: dichotomes Rasch-Modell für 26 Items (österreichischer Datensatz)
∑m z
2
511.72 / n.s.
447.97 / n.s.
520.76 / n.s.
390.76 / n.s.
477.87 / n.s.
465.41 / n.s.
343.89 / n.s
477.27 / n.s
446.54 / n.s
387.12 / n.s
340.44 / n.s
257.25 / n.s
320.11 / n.s.
χ2krit., df=550,α=5%=605.7
(z-Transformation:
Bortz 1993, S.79)
2
χ =
log L – E ( log L )
z = -------------------------------------VAR ( log L )
Likelihood
Anhang
t13
V082
306
+
-
t3
t10
V027
V046
V077
-
-
-
-
-
V095
V001
V021
V062
V010
-
+
+
+
+
Item
RaschModell
konform
V069
V048
t2
t17
V103
V019
Sharma
et al.
(1995)
Sinkovics
(1998)
Itemcodes
-
-
-
-
-
-
-
-
-
-
-
+
+
Basis für
Analyse
Südkorea
<.001 /
<.001
<.001 /
<.001
<.001 /
<.001
n.s. / <.05
n.s. / <.01
<.01 / <.05
n.s./n.s.
n.s./n.s.
n.s./n.s.
n.s./n.s.
n.s./n.s.
n.s./n.s.
n.s./n.s.
p<.05: Unterdiskriminanz
p>.95: Überdiskriminanz
Q-Index:
p (X>zq)
cal / val
38.55
40.12
22.65
21.90
19.22
8.72
28.07
16.54
3.07
5.14
7.96
14.28
15.61
χ2
p
<.001
<.001
.01
.01
.02
.46
<.001
.06
.96
.82
.54
.11
.08
Q1-Index
DIF-Items5%: 11
DIF-Items1%: 9
χ2
fett=sig.1%
kursiv=sig.5%
Score
(≤ 6 n= 572
vs. ≥ 7 n=533)
DIF-Items5%: 4
DIF-Items1%: 1
DIF-Items5%: 8
DIF-Items1%: 4
χ2
χ2
fett=sig.1%
fett=sig.1%
kursiv=sig.5%
kursiv=sig.5%
Geschlecht
Alter
(männl. n=556 vs.
(≤ 35a n=556
weibl. n=549)
vs. > 35a n=540)
1.522823471
0.624330312
2.930496371
4.315311054
0.489014196
0.463239294
0.394268834
0.224765873
0.002167598
0.00034725
0.602423489
1.711899592
4.578146019
16.87437471
34.687373
19.68236509
3.263184484
8.683938963
4.041774947
0.259268697
0.066376109
3.951325013
2.231260862
2.682987088
0.003081162
0.004133254
0.764386399
1.021913999
6.249433677
1.973682993
2.028867194
0.001068461
0.006399774
3.072376769
0.015358425
7.306965801
0.67363358
0.783459327
4.305543671
11.99663207
23.53715804
4.810962863
3.52391529
1.349275423
0.939259949
21.93872259
0.057230071
0.493246277
2.171131525
1.16485414
5.961267515
0.053942588
krit. χ25%,df=1=3.84146; krit. χ21%,df=1=6.6349
DIF-Items5%: 2
DIF-Items1%: -
fett=sig.1%
kursiv=sig.5%
Kalib. - Valid.
(n=553 vs. n=552)
χ2
∑m z
2
832.53 / p<.0001
1709.63 / p<.0001
741.84 / p<.0001
538.64 / n.s.
494.12 / n.s
965.02 / p<.0001
486.99 / n.s.
440.03 / n.s.
602.27 / p=.06
558.59 / n.s.
493.86 / n.s.
472.34 / n.s.
320.80 / n.s.
χ2krit., df=550,α=5%=605.7
(z-Transformation:
Bortz 1993, S.79)
2
χ =
z = -------------------------------------VAR ( log L )
Likelihood
Anhang
-0.021
-0.239
t1
t7
t4
t8
V037
V031
V063
V035
V079
307
t9
V081
t17
t13
V103
V082
0.955
-0.598
V048
V069
1.012
-0.937
V019
t2
-0.278
t11
V093
1.862
-1.009
-0.370
V054
V050
-1.567
V097
t6
1.432
t5
V028
-0.382
-0.145
V034
-0.252
1.192
0.551
0.165
V038
Itemcodes
δ
cal
0.1402070
0.1142486
0.1417512
0.1120593
0.1710978
0.1173739
0.1117487
0.1163731
0.1111117
0.1162386
0.1546592
0.1189945
0.1176795
0.1469326
0.1306540
0.1178357
0.1206656
0.1234883
S.E. (δ)
cal
0.946
-0.595
0.862
-0.729
1.384
-0.509
-0.945
-0.114
-1.264
-0.409
1.249
-0.088
-0.035
0.929
0.561
-0.384
-0.088
0.353
δ
val
0.1330810
0.1134247
0.1313611
0.1127618
0.1436422
0.1139338
0.1120209
0.1170959
0.1116813
0.1146029
0.1400916
0.1173566
0.1179009
0.1327262
0.1258823
0.1147853
0.1173566
0.1226949
S.E. (δ)
val
0.00900
0.00300
0.15000
0.20800
0.47800
0.23100
0.06400
0.25600
0.30300
0.02700
0.18300
0.05700
0.21700
0.26300
0.01000
0.14500
0.06700
0.18800
∆δ
8.1E-05
9E-06
0.0225
0.043264
0.228484
0.053361
0.004096
0.065536
0.091809
0.000729
0.033489
0.003249
0.047089
0.069169
0.0001
0.021025
0.004489
0.035344
(∆δ)2
0.0196580028
0.0130527426
0.0200934027
0.0125572867
0.0292744572
0.0137766324
0.0124877720
0.0135426984
0.0123458099
0.0135114121
0.0239194681
0.0141596910
0.0138484647
0.0215891889
0.0170704677
0.0138852522
0.0145601870
0.0152493602
S.E. (δ) cal
squared
0.017710553
0.012865163
0.017255739
0.012715224
0.020633082
0.012980911
0.012548682
0.01371145
0.012472713
0.013133825
0.019625656
0.013772572
0.013900622
0.017616244
0.015846353
0.013175665
0.013772572
0.015054038
S.E. (δ) val
squared
0.0373685554
0.0259179052
0.0373491413
0.0252725103
0.0499075388
0.0267575432
0.0250364540
0.0272541482
0.0248185226
0.0266452368
0.0435451245
0.0279322626
0.0277490869
0.0392054331
0.0329168212
0.0270609173
0.0283327586
0.0303033987
Summe (S.E.
squared)
0.002167598
0.00034725
0.602423489
1.711899592
4.578146019
1.994241386
0.163601443
2.404624776
3.699212935
0.027359487
0.769064283
0.116317108
1.696956736
1.764270779
0.00303796
0.776950751
0.158438508
1.16633782
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
J Modelltest: Vergleich der Parameter aus Kalibrierungs- und Validierungssample (österreichischer Datensatz)
Anhang
-2.186
t3
t10
V046
V077
0.651
2.068
V021
V062
0.194
-2.043
V001
V010
-0.585
V095
1.550
-1.020
V027
Itemcodes
δ
cal
0.1178357
0.1206656
0.1234883
0.1131885
0.1143508
0.1588229
0.1143017
0.1117021
S.E. (δ)
cal
0.397
1.935
0.353
-1.711
-0.472
1.404
-2.084
-0.945
δ
val
0.1147853
0.1173566
0.1226949
0.1128313
0.1141736
0.1441887
0.1154262
0.1120209
S.E. (δ)
val
0.20300
0.13300
0.29800
0.33200
0.11300
0.14600
0.10200
0.07500
∆δ
0.041209
0.017689
0.088804
0.110224
0.012769
0.021316
0.010404
0.005625
(∆δ)2
0.0138852522
0.0145601870
0.0152493602
0.0128116365
0.0130761055
0.0252247136
0.0130648786
0.0124773591
S.E. (δ) cal
squared
0.013175665
0.013772572
0.015054038
0.012730902
0.013035611
0.020790381
0.013323208
0.012548682
S.E. (δ) val
squared
0.0270609173
0.0283327586
0.0303033987
0.0255425388
0.0261117164
0.0460150948
0.0263880863
0.0250260412
Summe (S.E.
squared)
1.522823471
0.624330312
2.930496371
4.315311054
0.489014196
0.463239294
0.394268834
0.224765873
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
Anhang
308
0.694
0.088
t1
t7
t4
t8
V037
V031
V063
V035
V079
309
t9
V081
t17
t13
V103
V082
0.598
-0.764
V048
-0.855
V019
t2
-0.528
t11
V093
1.572
-0.912
-0.333
V054
V050
-1.384
V097
t6
2.172
t5
V028
-0.245
0.428
V034
-0.176
1.464
1.572
0.856
δ
low
V038
Itemcodes
0.1282798
0.2161991
0.1248597
0.3384112
0.1383768
0.1228121
0.1482092
0.1095724
0.1530307
0.4515044
0.2007844
0.1570787
0.3215106
0.3384112
0.1742351
0.2255644
0.2425222
S.E. (δ)
low
-0.521
0.992
-0.846
1.595
-0.350
-1.057
-0.220
-1.497
-0.482
1.256
-0.294
-0.146
0.992
0.403
-0.482
-0.266
0.122
δ
high
0.1000435
0.1054388
0.1034352
0.1160353
0.0990114
0.1067388
0.0985368
0.1168499
0.0997701
0.1094737
0.0987748
0.0983837
0.1054388
0.0996759
0.0997701
0.0986754
0.0984976
S.E. (δ)
high
0.24300
0.39400
0.00900
0.02300
0.17800
0.14500
0.11300
0.11300
0.23700
0.91600
0.72200
0.03000
0.47200
1.16900
0.57000
0.96000
0.73400
∆δ
0.059049
0.155236
8.1E-05
0.000529
0.031684
0.021025
0.012769
0.012769
0.056169
0.839056
0.521284
0.0009
0.222784
1.366561
0.3249
0.9216
0.538756
(∆δ)2
0.0164557071
0.0467420508
0.0155899447
0.1145221403
0.0191481388
0.0150828119
0.0219659670
0.0120061108
0.0234183951
0.2038562232
0.0403143753
0.0246737180
0.1033690659
0.1145221403
0.0303578701
0.0508792985
0.0588170175
S.E. (δ) low
squared
0.010008702
0.011117341
0.010698841
0.013464191
0.009803257
0.011393171
0.009709501
0.013653899
0.009954073
0.011984491
0.009756461
0.009679352
0.011117341
0.009935285
0.009954073
0.009736835
0.009701777
S.E. (δ) high
squared
0.0264644090
0.0578593914
0.0262887853
0.1279863311
0.0289513961
0.0264759833
0.0316754679
0.0256600100
0.0333724680
0.2158407142
0.0500708364
0.0343530704
0.1144864065
0.1244574253
0.0403119429
0.0606161331
0.0685187947
Summe (S.E.
squared)
K Modelltest: Vergleich der Parameter aus Teilstichproben nach Rohscore (österreichischer Datensatz)
2.231260862
2.682987088
0.003081162
0.004133254
1.094385911
0.794115925
0.403119538
0.497622566
1.683093981
3.887385209
10.41093054
0.026198532
1.945942814
10.9801484
8.059646259
15.20387317
7.862893712
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
Anhang
-1.022
-2.185
t3
t10
V027
V046
V077
-0.268
V010
-0.152
V021
0.694
-2.007
V001
V062
-0.840
V095
0.979
0.553
V069
Itemcodes
δ
low
310
0.1517677
0.2255644
0.1585222
0.1004037
0.1253992
0.2564547
0.0992649
0.1191865
0.2119744
S.E. (δ)
low
0.479
2.237
0.684
-1.719
-0.369
1.544
-2.098
-0.981
1.024
δ
high
0.1001748
0.1332593
0.1018796
0.1238435
0.0991018
0.1149451
0.1390688
0.1054512
0.1058787
S.E. (δ)
high
0.74700
1.54300
0.83600
0.28800
0.47100
0.56500
0.08700
0.04100
0.47100
∆δ
0.558009
2.380849
0.698896
0.082944
0.221841
0.319225
0.007569
0.001681
0.221841
(∆δ)2
0.0230334348
0.0508792985
0.0251292879
0.0100809030
0.0157249594
0.0657690132
0.0098535204
0.0142054218
0.0449331463
S.E. (δ) low
squared
0.010034991
0.017758041
0.010379453
0.015337212
0.009821167
0.013212376
0.019340131
0.011119956
0.011210299
S.E. (δ) high
squared
0.0330684253
0.0686373396
0.0355087408
0.0254181155
0.0255461261
0.0789813892
0.0291936515
0.0253253774
0.0561434454
Summe (S.E.
squared)
16.87437471
34.687373
19.68236509
3.263184484
8.683938963
4.041774947
0.259268697
0.066376109
3.951325013
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
Anhang
-0.089
-0.443
t1
t7
t4
t8
V037
V031
V063
V035
V079
311
t9
V081
t17
t13
V103
V082
1.010
-0.806
V048
-0.901
V019
t2
-0.294
t11
V093
1.816
-0.925
-0.243
V054
V050
-1.325
V097
t6
1.373
t5
V028
-0.590
-0.037
V034
-0.192
1.132
0.623
0.316
δ
female
V038
Itemcodes
0.1119600
0.1334416
0.1117067
0.1558239
0.1147351
0.1116564
0.1151385
0.1115882
0.1128409
0.1422649
0.1170338
0.1155691
0.1361984
0.1259619
0.1136794
0.1165156
0.1212412
S.E. (δ)
female
-0.368
0.852
-0.760
1.362
-0.497
-1.025
-0.235
-1.503
-0.181
1.295
-0.194
-0.084
0.966
0.487
-0.167
-0.014
0.205
δ
male
0.117132
0.1387518
0.1135673
0.1535941
0.1157864
0.1120181
0.1186892
0.1110086
0.1193766
0.1513997
0.1192011
0.1206761
0.1417043
0.1304513
0.1195546
0.1216847
0.1251667
S.E. (δ)
male
0.43800
0.15800
0.14100
0.45400
0.20300
0.10000
0.00800
0.17800
0.40900
0.07800
0.15700
0.10800
0.16600
0.13600
0.27600
0.07500
0.11100
∆δ
0.191844
0.024964
0.019881
0.206116
0.041209
0.01
6.4E-05
0.031684
0.167281
0.006084
0.024649
0.011664
0.027556
0.018496
0.076176
0.005625
0.012321
(∆δ)2
0.0125350416
0.0178066606
0.0124783868
0.0242810878
0.0131641432
0.0124671517
0.0132568742
0.0124519264
0.0127330687
0.0202393018
0.0136969103
0.0133562169
0.0185500042
0.0158664003
0.0129230060
0.0135758850
0.0146994286
S.E. (δ)
female
squared
0.013719905
0.019252062
0.012897532
0.023591148
0.01340649
0.012548055
0.014087126
0.012322909
0.014250773
0.022921869
0.014208902
0.014562721
0.020080109
0.017017542
0.014293302
0.014807166
0.015666703
S.E. (δ) male
squared
0.0262549470
0.0370587226
0.0253759185
0.0478722354
0.0265706336
0.0250152064
0.0273440004
0.0247748357
0.0269838413
0.0431611709
0.0279058126
0.0279189380
0.0386301128
0.0328839419
0.0272163084
0.0283830513
0.0303661314
Summe (S.E.
squared)
L Modelltest: Vergleich der Parameter aus Teilstichproben nach Geschlecht (österreichischer Datensatz)
7.306965801
0.67363358
0.783459327
4.305543671
1.550922745
0.399756846
0.00234055
1.278878312
6.199302682
0.140960031
0.883292681
0.417780934
0.713329525
0.562462981
2.798910086
0.198181652
0.405748097
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
Anhang
-0.842
-2.140
t3
t10
V027
V046
V077
0.373
V010
0.288
V021
2.113
-1.992
V001
V062
-0.638
V095
1.472
0.942
V069
Itemcodes
δ
female
312
0.1220365
0.1668796
0.1208600
0.1149859
0.1126070
0.1450011
0.1163999
0.1118553
0.1319990
S.E. (δ)
female
0.220
1.870
0.743
-1.767
-0.407
1.479
-2.127
-1.119
0.966
δ
male
0.1254259
0.1730143
0.1360877
0.1114821
0.1167071
0.1575913
0.1133942
0.1116343
0.1417043
S.E. (δ)
male
0.15300
0.24300
0.45500
0.22500
0.23100
0.00700
0.01300
0.27700
0.02400
∆δ
0.023409
0.059049
0.207025
0.050625
0.053361
4.9E-05
0.000169
0.076729
0.000576
(∆δ)2
0.0148929073
0.0278488009
0.0146071396
0.0132217572
0.0126803364
0.0210253190
0.0135489367
0.0125116081
0.0174237360
S.E. (δ)
female
squared
0.015731656
0.029933948
0.018519862
0.012428259
0.013620547
0.024835018
0.012858245
0.012462217
0.020080109
S.E. (δ) male
squared
0.0306245637
0.0577827489
0.0331270017
0.0256500158
0.0263008836
0.0458603368
0.0264071813
0.0249738251
0.0375038446
Summe (S.E.
squared)
0.764386399
1.021913999
6.249433677
1.973682993
2.028867194
0.001068461
0.006399774
3.072376769
0.015358425
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
Anhang
0.239
-0.301
t1
t7
t4
t8
V037
V031
V063
V035
V079
313
t9
V081
t17
t13
V103
V082
1.073
-0.722
V048
-0.636
V019
t2
-0.472
t11
V093
1.638
-1.166
-0.136
V054
V050
-1.378
V097
t6
1.545
t5
V028
-0.219
-0.006
V034
-0.150
1.144
0.637
0.207
δ
young
V038
Itemcodes
0.1131307
0.1547324
0.1140807
0.1810617
0.1161354
0.1095498
0.1213879
0.1086137
0.1199451
0.1761223
0.1238126
0.1211384
0.1575718
0.1396547
0.1186252
0.1290658
0.1283321
S.E. (δ)
young
-0.485
0.858
-1.030
1.585
-0.310
-0.783
-0.322
-1.441
-0.548
1.220
-0.196
-0.080
0.996
0.496
-0.310
-0.284
0.316
δ
old
0.1143341
0.125463
0.1141331
0.1388904
0.1149277
0.1139111
0.1148766
0.115724
0.1141845
0.1313576
0.1154486
0.1160831
0.1275377
0.1209069
0.1149277
0.1150338
0.1191017
S.E. (δ)
old
0.23700
0.21500
0.39400
0.05300
0.16200
0.38300
0.18600
0.06300
0.32900
0.32500
0.19000
0.07000
0.14800
0.14100
0.00900
0.52300
0.10900
∆δ
0.056169
0.046225
0.155236
0.002809
0.026244
0.146689
0.034596
0.003969
0.108241
0.105625
0.0361
0.0049
0.021904
0.019881
8.1E-05
0.273529
0.011881
(∆δ)2
0.0127985553
0.0239421156
0.0130144061
0.0327833392
0.0134874311
0.0120011587
0.0147350223
0.0117969358
0.0143868270
0.0310190646
0.0153295599
0.0146745120
0.0248288722
0.0195034352
0.0140719381
0.0166579807
0.0164691279
S.E. (δ)
young
squared
0.013072286
0.015740964
0.013026365
0.019290543
0.013208376
0.012975739
0.013196633
0.013392044
0.0130381
0.017254819
0.013328379
0.013475286
0.016265865
0.014618478
0.013208376
0.013232775
0.014185215
S.E. (δ) old
squared
0.0258708417
0.0396830800
0.0260407706
0.0520738824
0.0266958074
0.0249768974
0.0279316555
0.0251889800
0.0274249271
0.0482738836
0.0286579392
0.0281497981
0.0410947371
0.0341219137
0.0272803143
0.0298907559
0.0306543428
Summe (S.E.
squared)
chi square
fett=sig.1%
2.171131525
1.16485414
5.961267515
0.053942588
0.983075718
5.872987255
1.238594684
0.157568905
3.946810862
2.188036098
1.259685834
0.174068744
0.533012292
0.582646102
0.002969174
9.150956275
0.387579667
= 6.6349
krit.χ21%,df=1
M Modelltest: Vergleich der Parameter aus Teilstichproben nach Altersgruppen (österreichischer Datensatz)
Anhang
-1.006
-1.792
t3
t10
V027
V046
V077
-0.021
V010
0.288
V021
1.347
-1.749
V001
V062
-0.611
V095
1.374
0.875
V069
Itemcodes
δ
young
314
0.1235264
0.1664014
0.1302135
0.1082005
0.1143714
0.1676590
0.1082567
0.1105857
0.1473870
S.E. (δ)
young
0.580
2.488
0.681
-2.054
-0.423
1.585
-2.582
-0.968
1.012
δ
old
0.1218596
0.1661996
0.1230772
0.1212058
0.1145163
0.1388904
0.1293364
0.1140276
0.1277852
S.E. (δ)
old
0.60100
1.14100
0.39300
0.30500
0.18800
0.21100
0.79000
0.03800
0.13700
∆δ
0.361201
1.301881
0.154449
0.093025
0.035344
0.044521
0.6241
0.001444
0.018769
(∆δ)2
0.0152587715
0.0276894259
0.0169555556
0.0117073482
0.0130808171
0.0281095403
0.0117195131
0.0122291970
0.0217229278
S.E. (δ)
young
squared
0.014849762
0.027622307
0.015147997
0.014690846
0.013113983
0.019290543
0.016727904
0.013002294
0.016329057
S.E. (δ) old
squared
0.0301085336
0.0553117330
0.0321035527
0.0263981942
0.0261948001
0.0474000835
0.0284474175
0.0252314906
0.0380519851
Summe (S.E.
squared)
11.99663207
23.53715804
4.810962863
3.52391529
1.349275423
0.939259949
21.93872259
0.057230071
0.493246277
= 6.6349
krit.χ21%,df=1
chi square
fett=sig.1%
Anhang
t5
t9
t6
t11
t17
t13
V081
V054
V093
v103
v082
t8
V079
V028
t4
V035
Itemcodes
0.129
-0.134
-0.070
-0.162
0.218
0.021
+
+
+
+
+
-1.776
1.773
δ
+
+
-
Item
modellkonform
315
0.61273
0.10835
0.83393
0.63102
0.89316
0.59649
0.33916
0.06052
Q-Index:
p (X>zq)
15.15
12.14
17.94
13.26
25.08
6.33
16.40
40.96
χ2
Q1-Index
.06
.14
.02
.10
<.01
.61
.04
<.001
p
∑m z
2
496.52 / n.s.
637.19 / p=.25
431.02 / n.s.
497.96 / n.s.
378.89 / n.s.
500.75 / n.s.
462.98 / n.s.
808.39 / p<.0001
χ2krit., df=665,α=5%=725.1
(z-Transformation:
Bortz, 1993, S.79)
χ =
2
z = -------------------------------------VAR ( log L )
Likelihood
N Modellgesamtprüfung: dichotomes Rasch-Modell für 8 Items (südkoreanischer Datensatz)
Anhang
t8
t5
t9
t6
t11
t17
t13
V079
V028
V081
V054
V093
v103
v082
Itemcodes
316
-1.033
1.594
-0.575
-0.411
-0.575
1.304
-0.305
δ
Österr.
0.0884642
0.1247829
0.0900968
0.0911734
0.0900968
0.1168630
0.0919890
S.E. (δ)
Österr.
0.279
0.482
0.091
0.186
0.120
0.390
-1.548
δ
Südkorea
0.1048771
0.1045643
0.1057042
0.1052242
0.1055460
0.1046306
0.1371086
S.E. (δ)
Südkorea
-1.31200
1.11200
-0.66600
-0.59700
-0.69500
0.91400
1.24300
∆δ
1.721344
1.236544
0.443556
0.356409
0.483025
0.835396
1.545049
(∆δ)2
0.0078259147
0.0155707721
0.0081174334
0.0083125889
0.0081174334
0.0136569608
0.0084619761
S.E. (δ)
Österr.
squared
O Test auf Differential Item Functioning : Vergleich Österreich - Südkorea
0.010999206
0.010933693
0.011173378
0.011072132
0.011139958
0.010947562
0.018798768
S.E. (δ) Südkorea squared
0.0188251208
0.0265044650
0.0192908113
0.0193847211
0.0192573915
0.0246045232
0.0272607443
Summe (S.E.
squared)
91.43866961
46.65417701
22.99312319
18.38607827
25.08257675
33.95294403
56.67669900
= 6.6349
krit.χ21%,df=1
DIF at-korea
chi square,
df=1
fett=sig.1%
Anhang

Die Lösung von Äquivalenzproblemen in der interkulturellen

Transcription

Similar documents

intentionalität

Überprüfung von Messinvarianz mittels CFA und DIF

Kundenkontakt-Management: Qualitätsmessung am Beispiel der

Traditionelle und neue Ansätze zur Schätzung der

Sommersemester 2001 - Fachbereich Politik und

Literaturverzeichnis

Barack Obama - bei Helga Schachinger