Die Lösung von Äquivalenzproblemen in der interkulturellen
Transcription
Die Lösung von Äquivalenzproblemen in der interkulturellen
Dokument-Information Dieses Dokument enthält die 1998 abgeschlossene Dissertation von Dr. Thomas Salzberger mit dem Titel „Die Lösung von Äquivalenzproblemen in der interkulturellen Marketingforschung mittels Methoden der probabilistischen Meßtheorie“. Eine leicht überarbeitete Fassung der Arbeit mit dem Titel „Interkulturelle Marktforschung - Methoden zur Überprüfung der Datenäquivalenz“, wurde im Service Fachverlag (http://www.wuv-verlag.at/) 1999 veröffentlicht (ISBN 3-85428-404-7). In engem Zusammenhang mit der Dissertation stehen folgende Konferenzpapiere bzw. Zeitschriftenbeiträge: Salzberger,T.; Sinkovics,R.; Schlegelmilch,B.B. (2001): Die Bedeutung der Datenäquivalenz in der internationalen Marketing- und Konsumentenforschung, in: GFK Jahrbuch der Absatz- und Verbrauchsforschung, 47 (2), 190-209 Salzberger,T. (2000): An Alternative Way of Establishing Measurement in Marketing Research - Its Implications for Scale Development and Validity, Proceedings of the 2000 Australia and New Zealand Marketing Academy Conference (ANZMAC), Gold Coast, Queensland, Australia, pp.1111-1117 Salzberger,T.; Sinkovics,R.; Schlegelmilch,B.B. (1999): Data Equivalence in Cross-Cultural Research: A Comparison of Classical Test Theory and Latent Trait Theory Based Approaches, in: Australasian Marketing Journal, Vol. 7, Nr. 2, 2338 Salzberger,T. (1999): How the Rasch Model May Shift Our Perspective of Measurement in Marketing Research, Marketing in the Third Millenium: Proceedings of the 1999 Australia and New Zealand Marketing Academy Conference (ANZMAC), Sydney Ein Download dieser Beiträge ist zum Teil unter http://marketing.wu-wien.ac.at/user/salzberger/ (Stand der URL: 11.2.2002) möglich. Doktorat der Sozial- und Wirtschaftswissenschaften 1. Begutachter: Univ.Prof. Dr. Hartmut H. HOLZMÜLLER 2. Begutachter: o.Univ.Prof. Dr. Helmut KASPER Eingereicht am: Die Lösung von Äquivalenzproblemen in der interkulturellen Marketingforschung mittels Methoden der probabilistischen Meßtheorie Dissertation zur Erlangung des akademischen Grades eines Doktors der Sozial- und Wirtschaftswissenschaften an der Wirtschaftsuniversität Wien eingereicht bei Erstbegutachter: Univ.Prof. Dr. Hartmut H. HOLZMÜLLER Zweitbegutachter: o.Univ.Prof. Dr. Helmut. KASPER Fachgebiet: Absatzlehre, Allgemeine Betriebswirtschaftslehre von: Mag. Thomas Salzberger Wien, im Mai 1998 Ich versichere: 1. daß ich die Dissertation selbständig verfaßt, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfe bedient habe. 2. daß ich diese Dissertation weder im In- noch im Ausland in irgendeiner Form als Prüfungsarbeit vorgelegt habe. 3. daß diese Arbeit mit der vom Begutachter beurteilten Arbeit übereinstimmt. Datum Unterschrift Die Lösung von Äquivalenzproblemen in der interkulturellen Marketingforschung mittels Methoden der probabilistischen Meßtheorie Thomas Salzberger Dissertation (Abstract) Wirtschaftsuniversität Wien [English titel: Latent Trait Theory: Approaches Towards Solving Problems of Equivalence in Cross-Cultural Marketing Research] Schlagwörter: Internationale Marktforschung, probabilistische Testtheorie, Item Response Theory, Latent Trait Theory, Konfirmatorische Faktorenanalyse, Ethnozentrismus Abstract: Die Arbeit befaßt sich mit der Lösung methodischer Probleme der internationalen bzw. interkulturellen Marketingforschung. Im Rahmen quantitativer Untersuchungen stellt die interkulturelle Äquivalenz von Erhebungsdaten eine notwendige Voraussetzung für grenzüberschreitende Vergleiche dar. Die aktuelle Marketingforschung läßt diese Problematik oftmals außer acht oder versucht auf der Grundlage der klassischen Meßtheorie, die Äquivalenz durch faktorenanalytische Ansätze, wie die simultane Faktorenanalyse für mehrere Gruppen, zu gewährleisten. Die Kritik an der klassischen Meßtheorie und damit am gegenwärtigen Zutritt der Äquivalenzbestimmung blieb in der Marketingwissenschaft jedoch weitgehend unbeachtet. Das Ziel der Arbeit besteht in der Aufarbeitung von Methoden der probabilistischen Meßtheorie (Latent Trait Theory) zur Lösung der Äquivalenzprobleme. Mit dem Rasch-Modell steht ein Meßmodell sowohl für dichotome als auch für polytome Daten zur Verfügung, welche im Unterschied zur klassischen Meßtheorie, Meßprobleme zufriedenstellend lösen kann. Am Beispiel der "Consumer Ethnocentric Tendencies Scale" (CETSCALE, Shimp und Sharma, 1987; Datensätze aus Österreich, Sinkovics, 1998; und Südkorea, Shimp et al., 1995) werden die klassischen und probabilistischen Verfahren empirisch demonstriert und einander gegenübergestellt. Die Arbeit schließt mit den wissenschaftstheoretischen Konsequenzen eines neuen Meßparadigmas in der Marketingforschung. Latent Trait Theory: Approaches Towards Solving Problems of Equivalence in Cross-Cultural Marketing Research Thomas Salzberger Doctoral Thesis (Abstract) University of Economics and Business Administration [German titel: Die Lösung von Äquivalenzproblemen in der interkulturellen Marketingforschung mittels Methoden der probabilistischen Meßtheorie] Keywords: International Marketing Research, Item Response Theory, Latent Trait Theory, Ethnocentrism, Confirmatory Factor Analysis, Consumer Ethnocentrism Abstract: The dissertation deals with approaches towards a solution of problems in international and intercultural marketing research. For cross-cultural comparisons in quantitative studies, the intercultural equivalence of data is an essential prerequisite. Current marketing research practise often disregards these problems or tries to establish equivalence based on classical measurement theory by applying factor analytic approaches like the simultaneous factor analysis for multiple groups. Classical measurement has been heavily criticized, however, the severe criticism has been left largely unnoticed in marketing research. Consequently, the aim of the dissertation is to investigate methods based on Latent Trait Theory that are appropriate to solve the equivalence problems. The Rasch-model represents a unique measurement model for dichotomous and polytomous data which has proporties that master the fundamental principles of measurement, i.e. the independence of person and item parameters. An empirical example, the "Consumer Ethnocentric Tendencies Scale" (CETSCALE, Shimp and Sharma, 1987; data sets of Austria, Sinkovics, 1998; and South Korea, Shimp et al., 1995) demonstrates both the classical approach and the Latent Trait Theory based approach. The dissertation concludes with the consequences of a new measurement paradigm in marketing research within a framework of the theory of science. Inhaltsverzeichnis Inhaltsverzeichnis Vorwort............................................................................................................................. 5 1 Probleme, Ziele und Positionierung............................................................................... 8 1.1 Problemstellung ..................................................................................................... 8 1.2 Zielsetzung und Vorgangsweise .......................................................................... 10 1.3 Wissenschaftstheoretische Positionierung ........................................................... 10 1.4 Aufbau der Arbeit ................................................................................................ 12 2 Interkulturelle Vergleiche im Marketing ..................................................................... 14 2.1 Internationalisierung im Marketing ..................................................................... 14 2.1.1 Wirtschaftspolitische Veränderungen .......................................................... 14 2.1.2 Internationalisierung und Standardisierung.................................................. 15 2.2 Bedeutung der Marktforschung ........................................................................... 17 2.3 Methodische Probleme der internationalen Marktforschung............................... 18 2.3.1 Abgrenzung internationaler und interkultureller Marktforschung ............... 18 2.3.2 Erkenntnisgewinnung in der interkulturellen Marketingforschung ............. 19 2.3.3 Entdeckungszusammenhang der interkulturellen Marktforschung.............. 23 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur ............................... 25 3.1 Kultur als Nationalität .......................................................................................... 25 3.2 Ursprünge des Begriffs Kultur............................................................................. 26 3.3 Operationalisierung von Kultur ........................................................................... 30 3.3.1 Kultur und Kommunikation (Hall, 1959; Hall und Hall, 1990) ................... 30 3.3.2 Kulturdimensionen nach Kluckhohn und Strodtbeck (1975)....................... 38 3.3.3 Kulturdimensionen nach Hofstede (1980, 1993) ......................................... 41 3.4 Zusammenfassende Betrachtung der Konzepte ................................................... 46 3.5 Interkulturelle und intrakulturelle Variabilität ..................................................... 46 4 Methodische Probleme der kulturübergreifenden Forschung...................................... 49 4.1 Kulturübergreifende (Markt-)Forschung als wissenschaftliche Disziplin ........... 49 4.2 Vergleichbarkeit................................................................................................... 54 4.3 Interkulturelle Äquivalenz ................................................................................... 58 4.3.1 Funktionale Äquivalenz (functional equivalence) ....................................... 58 4.3.2 Konzeptuelle Äquivalenz (conceptual equivalence) .................................... 58 4.3.3 Metrische Äquivalenz (metric equivalence)................................................. 61 4.4 Rezeption in der interkulturellen Marketingforschung........................................ 62 4.4.1 Konzept von Douglas und Craig (1983)....................................................... 62 Konstruktäquivalenz......................................................................................... 63 Meßäquivalenz (measure equivalence) ............................................................ 65 Stichprobenäquivalenz...................................................................................... 67 4.4.2 Erweiterung von Toyne und Walters (1989) ................................................ 68 4.4.3 Erweiterung von Usunier (1996) .................................................................. 70 4.5 Rezeption der Problematik internationaler Marketingforschung in Marktforschungsstandardwerken .......................................................................... 75 4.6 Integratives Schema von Bauer (1995) ................................................................ 76 4.7 Empirische Überprüfung der Äquivalenz ............................................................ 80 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung ......................................................................... 84 5.1 Universum und Messung: Verallgemeinerung von Aussagen............................. 84 5.2 Universum und kulturübergreifende Forschung .................................................. 85 1 Inhaltsverzeichnis 5.3 Operationalisierung von Konstrukten .................................................................. 91 5.4 Interkulturelle Vergleiche .................................................................................... 93 5.5 Biasformen ........................................................................................................... 97 5.6 Verfahren zur Überprüfung der Wirksamkeit von Itembiases............................. 98 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie................................................................................................................ 100 6.1 Grundlegende Ansätze zur Überprüfung der Äquivalenz der Erhebungsdaten . 100 6.2 Explorative Faktorenanalyse.............................................................................. 101 6.2.1 Grundlagen ................................................................................................. 101 6.2.2 Zielsetzungen.............................................................................................. 102 6.2.3 Kritische Betrachtung................................................................................. 104 6.3 Konfirmatorische Faktorenanalyse .................................................................... 105 6.4 Güteindikatoren zur Modellüberprüfung ........................................................... 107 6.5 Gleichungssysteme der konfirmatorischen Faktorenanalyse............................. 112 6.6 Simultane Faktorenanalyse für mehrere Gruppen (Multi-group analysis) ........ 114 6.7 Überprüfung der Datenäquivalenz ..................................................................... 117 6.8 Ebenen der Invarianz ......................................................................................... 117 6.8.1 Konfigurale Invarianz (configural invariance)........................................... 117 6.8.2 Metrische Invarianz (metric invariance) .................................................... 119 6.8.3 Skalare Invarianz (scalar invariance) ......................................................... 121 6.8.4 Invarianz der Fehler- und Faktorvarianzen ................................................ 122 6.8.5 Anforderungen der Meßäquivalenz und Invarianzebenen ......................... 123 6.9 Invarianz auf Skalenebene ................................................................................. 126 6.10 Partielle Invarianz ............................................................................................ 127 6.11 Überblick über den Ablauf der Äquivalenzprüfung der Erhebungsdaten........ 131 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) ............................................................................ 132 7.1 Kritische Betrachtung der klassischen Testtheorie ............................................ 132 7.2 Guttmanskalierung ............................................................................................. 136 7.3 Das probabilistische Testmodell von Rasch (1980)........................................... 139 7.3.1 Übergang von einem deterministischen zu einem probabilistischen Modell...................................................................... 139 7.3.2 Eigenschaften des Rasch-Modells.............................................................. 144 Graphische Darstellung des Modells.............................................................. 144 Voraussetzungen und Konsequenzen des Rasch-Modells.............................. 146 Der Informationsbegriff.................................................................................. 149 7.3.3 Parameterschätzungen ................................................................................ 151 7.3.4 Limitierungen des Rasch-Modells.............................................................. 153 7.3.5 Verallgemeinerung des Rasch-Modells auf polytome Daten..................... 154 7.3.6 Verallgemeinerungen des Rasch-Modells für dichotome Anwendungen .. 165 7.3.7 Weitere Latent Trait Modelle ..................................................................... 171 7.3.8 Modellüberprüfung..................................................................................... 172 Residualstatistiken .......................................................................................... 173 Überprüfung der Invarianz der Parameterschätzungen .................................. 174 Likelihood-basierter Ansatz ........................................................................... 177 7.3.9 Anwendung in der interkulturellen Forschung........................................... 178 7.3.10 Zusammenfassende Betrachtung des Rasch-Modells .............................. 179 2 Inhaltsverzeichnis 8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität .......................................................................................... 181 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung ................................................. 185 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE ... 192 10.1 Consumer-ethnocentric Tendency ................................................................... 192 10.2 Überprüfung der Datenäquivalenz mittels konfirmatorischer MehrgruppenFaktorenanalysen................................................................................................. 198 10.2.1 Teilung der Stichproben ........................................................................... 198 10.2.2 Überprüfung von Faktorenmodellen in beiden Kulturen ......................... 199 10.2.3 Überprüfung der konfiguralen Invarianz.................................................. 201 10.2.4 Überprüfung der vollen metrischen Invarianz.......................................... 202 10.2.5 Partielle metrische Invarianz .................................................................... 202 10.2.6 Überprüfung der vollen skalaren Invarianz.............................................. 203 10.2.7 Partielle skalare Invarianz ........................................................................ 203 10.2.8 Kreuzvalidierung der Ergebnisse ............................................................. 203 10.2.9 Zusammenfassung der Analyseschritte .................................................... 204 10.2.10 Vergleichbarkeit der CETSCALE in Österreich und Südkorea............. 208 10.3 Überprüfung der Datenäquivalenz auf der Basis der Latent Trait Theory ...... 208 10.3.1 Überprüfung des polytomen Rasch-Modells in Österreich...................... 210 10.3.2 Überprüfung des polytomen Rasch-Modells in Südkorea ....................... 214 10.3.3 Überprüfung des dichotomen Rasch-Modells in Österreich .................... 216 10.3.4 Überprüfung des dichotomen Rasch-Modells in Südkorea...................... 217 10.3.5 Überprüfung der interkulturellen Vergleichbarkeit (Österreich - Südkorea) .................................................................................. 218 10.3.6 Exkurs: Überprüfung des dichotomen Birnbaum-Modells in Österreich 220 10.4 Implikation für die interkulturelle Validität der CETSCALE in Österreich und Südkorea.............................................................................................................. 223 10.5 Weiterführende Forschung............................................................................... 224 11 Meßtheoretische Paradigmen................................................................................... 225 11.1 Paradigmen und wissenschaftlicher Fortschritt ............................................... 225 11.2 Meßtheoretische Paradigmen in der Marketingforschung ............................... 229 12 Implikationen für die Marketingforschung.............................................................. 233 12.1 Plädoyer für eine meßtheoretische Fundierung der Marketingforschung........ 233 12.2 Plädoyer für eine theoretische Fundierung des Kulturkonstrukts in der interkulturellen Marketingforschung................................................................... 236 12.3 Anwendungsfelder vergleichsbezogener Methoden in der Marketingforschung .................................................................................. 237 12.4 Spezielle Anwendungsfelder der Latent Trait Theory in der Marketingforschung .................................................................................. 237 13 Literatur ................................................................................................................... 240 Abbildungsverzeichnis.................................................................................................. 262 Tabellenverzeichnis ...................................................................................................... 265 Sachindex...................................................................................................................... 266 Autorenindex ................................................................................................................ 278 3 Inhaltsverzeichnis Anhang A CETSCALE Items (Shimp und Sharma, 1987) ................................................... 285 B CETSCALE Itempool (Shimp und Sharma, 1987; Sinkovics, 1998) .................. 287 C LISREL-Syntax: separate CFA in Österreich und Südkorea ............................... 296 D LISREL-Syntax: konfigurale Invarianz ............................................................... 298 E LISREL-Syntax: volle metrische Invarianz ......................................................... 299 F LISREL-Syntax: partielle metrische Invarianz..................................................... 300 G LISREL-Syntax: skalare Invarianz ...................................................................... 301 H LISREL-Syntax: partielle skalare Invarianz ........................................................ 303 I Modellgesamtprüfung: dichotomes Rasch-Modell für 26 Items (österreichischer Datensatz)............................................................................................................ 305 J Modelltest: Vergleich der Parameter aus Kalibrierungs- und Validierungssample (österreichischer Datensatz) ................................................................................ 307 K Modelltest: Vergleich der Parameter aus Teilstichproben nach Rohscore (österreichischer Datensatz) ................................................................................ 309 L Modelltest: Vergleich der Parameter aus Teilstichproben nach Geschlecht (österreichischer Datensatz) ................................................................................ 311 M Modelltest: Vergleich der Parameter aus Teilstichproben nach Altersgruppen (österreichischer Datensatz) ................................................................................ 313 N Modellgesamtprüfung: dichotomes Rasch-Modell für 8 Items (südkoreanischer Datensatz)............................................................................................................ 315 O Test auf Differential Item Functioning : Vergleich Österreich - Südkorea ......... 316 4 Vorwort Vorwort Als der dänische Mathematiker und Statistiker Georg Rasch 1951 vom Danish Institute for Educational Research beauftragt wurde, meßtheoretische Modelle für Tests zur Leistungsbeurteilung zu entwickeln, sollte damit der Grundstein für die moderne Test- und Meßtheorie gelegt sein. Rasch entwickelte in den folgenden Jahren Meßmodelle, welche den von Thurstone (1928) formulierten Anforderungen eines Instruments zur Messung von Einstellungen gerecht werden: „A measuring instrument must not be seriously affected in its measuring function by the object of measurement. To the extent that its measuring function is so affected, the validity of the instrument is impaired or limited. If a yardstick measured differently because of the fact that it was a rug, a picture, or a piece of paper that was being measured, then to that extent the trustworthiness of that yardstick as a measuring device would be impaired. Within the range of objects for which the measuring instrument is intended, its function must be independent of the object of measurement.“ (Thurstone, 1928/1959, S.228) Thurstones Forderungen konnten und können von der klassischen Testtheorie, zu dessen Mitbegründern Thurstone ohne Zweifel zu zählen ist, nicht erfüllt werden. Raschs Publikation im Jahre 1960 mit dem Titel „Probabilistic Models for Some Intelligence and Attainment Tests“, in welcher er mehrere Modelle für verschiedene Anwendungssituationen vorstellt, ist ein Wendepunkt in der Geschichte der Meßtheorie. Zum ersten Mal wird mit Rasch der Begriff der Messung überhaupt erst definiert, werden Annahmen durch überprüfbare Hypothesen ersetzt. „The psychometric methods introduced in this (Anm.: Rasch’s) book go far beyond measurement in education or psychology. They embody the essential principles of measurement itself, the principles on which objectivity and reproducibility, indeed all scientific knowledge, are based.“ (Wright, 1980a, S.XIX) Das später als Rasch-Modell bezeichnete logistische Testmodell für dichotome Items wurde in der Folge für andere Anwendungssituationen verallgemeinert. Diese Modelle werden heute unter dem Begriff der Latent Trait Theory zusammengefaßt. Ungeachtet seiner Weiterentwicklungen ist das Rasch-Modell aufgrund seiner besonderen psychometrischen Eigenschaften einzigartig. Die theoretischen Entwicklungen der Latent Trait Theory im allgemeinen und des Rasch-Modells im besonderen haben jedoch bislang 5 Vorwort kaum Niederschlag in der wirtschaftswissenschaftlichen Forschung, im speziellen der Marketingwissenschaft, gefunden. Zu stark ist das Paradigma der klassischen Testtheorie verankert. Zu bedeutsam sind allerdings auch die meßtheoretischen Vorzüge des RaschModells, um auf ein „Umlernen“ zu verzichten. Die vorliegende Untersuchung, welche eine grundlegende Auseinandersetzung mit Raschs Meßparadigma in der Marketingforschung vornimmt, geht auf eine Anregung von Hartmut Holzmüller (1995) (Wirtschaftsuniversität Wien1) zurück. Die methodischen Probleme in der kulturübergreifenden Marktforschung sind der Auslöser für eine eingehende Neubetrachtung des methodischen Repertoires der Datenanalyse und Messung im Marketing. Das Äquivalenzproblem der interkulturellen Forschung wird zwar in der Marketingwissenschaft in seiner Existenz erkannt, aber als konzeptuelles Problem betrachtet und nicht als Meßproblem (Malpass und Poortinga, 1986). Diese Untersuchung mit ihrem überwiegend methodischen Schwerpunkt will nicht nur Lösungen anbieten. Vielmehr besteht eine, vielleicht sogar vorrangige, Zielsetzung auch darin, Problembewußtsein zu wecken. In diesem Sinne offeriert diese Arbeit Lösungsvorschläge für Probleme, die oftmals subjektiv zuvor gar nicht bestanden haben. „The formulation of a problem is far more essential than its solution, which may be merely a matter of mathematical and experimental skill. To raise new questions, new possibilities, to regard old problems from a new angle, requires creative imagination.“ (Albert Einstein, zitiert in: McDonald, 1989, S.45) Für die zur Analyse zur Verfügung gestellten Daten sei an dieser Stelle Rudolf Sinkovics (österreichischer Datensatz), Subhash Sharma, Terence Shimp und Jeongshin Shin (koreanischer Datensatz) herzlich gedankt. Ohne sie wäre die empirische Demonstration der vorgestellten Methoden zur Überprüfung der Äquivalenz von Erhebungsdaten in der interkulturellen Marketingforschung nicht möglich gewesen. Hans Baumgartner (The Pennsylvania State University) und Jan-Eric Gustafson (Göteborgs Universitet) haben wertvolle Beiträge für die Aufarbeitung der konfirmatorischen Mehrgruppen-Faktoren- 1. Hartmut Holzmüller folgte 1998 dem Ruf an den Lehrstuhl für Marketing der Universität Dortmund. 6 Vorwort analyse geleistet. David Andrich (Murdoch University, Perth, Western Australia) sei für zahlreiche Anregungen auf dem Gebiet der Latent Trait Theory gedankt. Dank gebührt schließlich Bettina für ihre mentale Unterstützung in allen Phasen der Dissertation und vor allem für das aufgebrachte Verständnis für das forschungsbedingte Zukurzkommen anderer Lebensbereiche. Anmerkung: Bei allen personenbezogenen Bezeichnungen gilt die gewählte Form für beide Geschlechter. Der Autor folgt damit der Bestimmung des §1 Abs. 4 des österreichischen Bundesgesetzes über die Gleichbehandlung von Frau und Mann im Arbeitsleben (Gleichbehandlungsgesetz). 7 1 Probleme, Ziele und Positionierung 1 Probleme, Ziele und Positionierung 1.1 Problemstellung Das ausgehende 20. Jahrhunderts ist durch eine rasante Internationalisierung der wirtschaftlichen Austauschbeziehungen gekennzeichnet. Schlagworte wie „Globalisierung“ (Levitt, 1983) haben bereits Eingang in den allgemeinen Sprachgebrauch gefunden. Politische Umwälzungen (Integration der Märkte in Europa, Nordamerika, Südamerika, usw.) und technologische Entwicklungen (neue Formen der Telekommunikation) haben die hohe Geschwindigkeit der Internationalisierung zum Teil ermöglicht, zum Teil akzeleriert. Internationalisierung Internationalisierung im Marketing Internationalisierung der Marketingforschung Methodische Probleme der internationalen Marketingforschung (Vergleichbarkeit) Exploration der Methoden zur Überprüfung der Vergleichbarkeit Abbildung 1: Ableitung der Problemstellung aus der Internationalisierung Dies hat unzweifelhaft auf alle betrieblichen Funktionsbereiche signifikante Auswirkungen, insbesondere jedoch auf den Marketingbereich. Die Erweiterung der Tätigkeitsfelder des Unternehmens um das internationale Geschäft bzw. eine Intensivierung der internationalen Aktivitäten führt zu einem gesteigerten Informationsbedarf. Die Bewältigung dieses erhöhten Informationsbedarfs erfordert zum einen eine quantitative Ausweitung der Marktforschungsaktivitäten, stellt die Marktforschung zum anderen aber auch vor 8 1 Probleme, Ziele und Positionierung qualitativ neue Probleme, welche sich durch veränderte Rahmenbedingungen ergeben (vgl. Abbildung 1 auf Seite 8). Die Internationalisierung der Marktforschung ist durch erhebliche praktische Herausforderungen gekennzeichnet. Im Zuge der Primärerhebung quantitativer Daten in fremden Ländern gilt es zahlreiche operative Probleme zu bewältigen, etwa Sprachbarrieren zu überwinden oder die sich aus technischen Unzulänglichkeiten (mangelhaftes Telefonsystem, unzureichende infrastrukturelle Erschließung entlegener Gebiete, usw.) ableitenden Schwierigkeiten zu lösen. Die Sekundärmarktforschung hat u.a. mit Problemen der Verfügbarkeit, Aussagekraft und Aktualität von Daten zu kämpfen. All diese Aspekte sind in Marketing-Lehrbüchern ausführlich dokumentiert. Die internationale Marktforschung stößt in vielerlei Hinsicht aber auch auf methodische und analysetechnische Probleme. Die Überschreitung von Kulturgrenzen gestaltet die Analyse von Erhebungsdaten und deren Interpretation weit komplexer, als dies in der traditionellen intrakulturellen Marktforschung der Fall ist - und oftmals auch weit komplexer als dies gegenwärtig in der interkulturellen Marktforschung wahrgenommen wird. Qualitätsstandards von Skalen, wie Reliabilität und Validität, und die Funktionalität von Items werden durch kulturelle Faktoren beeinflußt. Diese Effekte können zu Verzerrungen der Meßergebnisse führen und im ungünstigsten Fall Vergleiche über Kulturgrenzen hinweg bedeutungslos werden lassen (Douglas und Craig, 1992; Manrai und Manrai, 1996). Die dieser Arbeit zugrundeliegende Problemstellung ist die Klärung der Frage, welche Bedingungen erfüllt sein müssen, um aussagekräftige interkulturelle Vergleiche vornehmen zu können. Dazu ist eine Aufarbeitung der Methoden erforderlich, mit welchen diese Bedingungen überprüft werden können. Die Relevanz dieser Fragestellung erhöht sich aufgrund des steigenden Forschungsinteresses an kulturübergreifender Theorieentwicklung und -validierung. Insbesondere Fragen der Generalisierbarkeit von Theorien und der Wirkungsbasis des Kultureinflusses implizieren methodische Probleme, für welche es Lösungsansätze zu erarbeiten gilt. Schließlich erscheint es auch im Sinne der Forschungsökonomie angezeigt, die Übertragbarkeit von kulturbezogenen Meßinstrumenten auf andere Kulturen kritisch zu überprüfen. 9 1 Probleme, Ziele und Positionierung 1.2 Zielsetzung und Vorgangsweise Entsprechend der Problemstellung besteht die Zielsetzung dieser Arbeit in der Ableitung der Bedingungen, welche die Voraussetzung für die Vergleichbarkeit von Erhebungsdaten aus der Marketingforschung über Kulturgrenzen hinweg darstellen. Ansätze aus der überwiegend methodenorientierten interkulturellen Forschung erscheinen in diesem Sinne ebenso vielversprechend und befruchtend für die Marketingforschung wie solche aus der Disziplin der Meß- und Testtheorie. Die Aufarbeitung der methodischen Ansätze zur Bewältigung dieses Problems hat sich zum einen des Analyseinstrumentariums im Rahmen der klassischen Test- und Meßtheorie1 zu bedienen. Zum anderen ist das Potential des moderneren Ansatzes der Latent Trait Theory für die Überprüfung der Vergleichbarkeit zu untersuchen. Auf der Grundlage der Erarbeitung eines Methodeninstrumentariums, welches geeignet ist, die Vergleichbarkeit von Erhebungsdaten aus der interkulturellen Marktforschung empirisch zu überprüfen, sollen die unterschiedlichen Verfahren hinsichtlich ihrer Eignung, Einsetzbarkeit und wissenschaftstheoretischen Adäquanz beurteilt werden. Das erarbeitete methodische Instrumentarium soll schließlich am Beispiel einer Marketing-Skala, der CETSCALE (Shimp und Sharma, 1987), welche in Österreich und Südkorea eingesetzt wurde, exemplarisch demonstriert werden. 1.3 Wissenschaftstheoretische Positionierung Die vorliegende Studie folgt wissenschaftstheoretisch dem kritischen Rationalismus. Dies impliziert, daß gegenständliche - substantielle, wie meßtheoretische - Theorien falsifizierbar sein müssen, um formal als einwandfrei gelten zu können (Chmielewicz, 1979, S.102f). Nach dem Falsifikationsprinzip ist der Wahrheitswert einer empirischen Theorie mit allgemeinen Gültigkeitsanspruch (d.h. bezüglich unendlich vieler Fälle) nie endgültig bestimmbar (Prim und Tilmann, 1997, S.79ff), da dies unendlich viele Verifikationsversuche erfordern würde. Statt dessen werden Nichtfalsifikationen, also Verifikationen im Einzelfall, als Hinweise auf die Gültigkeit einer Theorie betrachtet. Diese Gültigkeit ist jedoch nur eine vorläufige. Empirische Theorien sind somit gültig bis auf Widerruf, wel1. Die Begriffe Testtheorie und Meßtheorie werden im Rahmen dieser Arbeit synonym gebraucht. 10 1 Probleme, Ziele und Positionierung cher Folge einer erfolgreichen Falsifikation wäre. Übereinstimmend mit Popper wird das grundlegende Ziel der Wissenschaft in der Suche nach zufriedenstellenden Erklärungen gesehen (Andersson, 1988, S.17), nicht in der Suche nach Wahrheit. Das Falsifikationsprinzip blieb jedoch nicht unkritisert. Insbesondere Kuhn, Lakatos und Feyerabend (Andersson, 1988) stellen die Eignung dieses Prinzips in Frage. An dieser Stelle wird lediglich auf die Kritik Kuhns (1997, S.156ff) eingegangen. Nach Kuhn sind Theorien immer unvollständig und unvollkommen in der Übereinstimmung mit realen Phänomenen (und dies bedingt erst die Eignung einer Theorie als Ansatzpunkt für wissenschaftliche Problemlösung). Dadurch ließe sich so gut wie jede Theorie leicht falsifizieren. Die wissenschaftsgeschichtliche Betrachtung Kuhns zeigt, daß im Einzelfall falsifizierte Theorien jedoch nicht umgehend verworfen, sondern Modifikationen unterworfen werden (Andersson, 1988, S.41). Wenn aber nur schwerwiegende Abweichungen von theoretischen Vorhersagen als Falsifikation betrachtet werden, so führt dies unweigerlich zum Problem des „Grades der Falsifikation“. Womit genausogut vom „Grad der Verifikation“ gesprochen werden könnte. Vor allem bei der Betrachtung alternativer, konkurrierender Erklärungsversuche sollte, so Kuhn, die Frage gestellt werden, welche Theorie besser zu den Fakten paßt. Ein Beispiel aus der Physik mag dies verdeutlichen. Newtons Mechanik ist für relativ zur Lichtgeschwindigkeit schnell bewegte Objekte widerlegt und wäre nach dem Falsifikationsprinzip als ungültig zu betrachten. Im vertrauten Mesokosmos alltäglicher Erfahrungen liefert Newtons Mechanik aber nach wie vor brauchbare, wenn auch nicht völlig exakte Vorhersagen. Die Ungenauigkeit der Vorhersage ist geringer als die der Messung und somit irrelevant. Die Heranziehung der relativistischen Mechanik Einsteins wäre in diesem Fall nicht vertretbar. Die Falsifikation im Einzelfall muß also nicht dazu führen, die Theorie als solche zu verwerfen. Vielmehr läßt sich die Theorie so umformulieren und ihr Anwendungsbereich so einschränken, daß der Gegenstandsbereich der erfolgreichen Falsifikation nicht mehr im Geltungsbereich der Theorie liegt. Im Bereich des internationalen Marketings würde dies bedeuten, daß eine Konsumentenverhaltenstheorie mit ursprünglich universellem Gültigkeitsanspruch, welche in einer Kultur widerlegt wird, nach wie vor in allen anderen Kulturen als gültig betrachtet werden kann bzw. wird. Gleiches gilt für Falsifikationen innerhalb einer Kultur, welche beispiels- 11 1 Probleme, Ziele und Positionierung weise auf soziodemographische Bedingungen zurückzuführen sind. Letztlich gilt es, den Gültigkeitsbereich - oder mit anderen Worten das Ausmaß der Gültigkeit - einer Theorie zu bestimmen. Ob dabei vom „Ausmaß der Verifikation“ oder vom „Ausmaß der Falsifikation“ gesprochen wird, ist aus dieser Sicht eher belanglos. Die bisherigen Ausführungen bedeuten nicht, daß Theorien, die dem wissenschaftstheoretischen Anspruch des kritischen Rationalismus nicht gerecht werden, hier ohne weiteres nicht betrachtet werden. Vielmehr sollen gegenständliche Theorien - im speziellen Meßtheorien - einander gegenübergestellt und auf der wissenschaftstheoretischen Metaebene beurteilt werden. Eine ausdrückliche Ausgangsannahme dieser Untersuchung besteht in der grundsätzlichen Meßbarkeit von nicht beobachtbaren Konstrukten in der Marketingforschung. Damit ist jedoch keine kritiklose Einstellung zur quantitativen Forschung verbunden. Es wird die Auffassung vertreten, daß die Qualität der Überprüfung substanztheoretischer, quantitativer Hypothesen durch die Qualität der zugrundeliegenden Meßtheorie begrenzt ist. Letztlich sind nur wissenschaftstheoretisch einwandfreie Meßtheorien geeignet, dem eventuellen Vorwurf der leichtfertigen Quantifizierung, der Scheingenauigkeit, des Metrisierens statt Messens wirkungsvoll zu begegnen. 1.4 Aufbau der Arbeit Nach der Klärung der Zielsetzung und Problemstellung wird die Bedeutung interkultureller Vergleiche im Marketing und die sich daraus ergebenden Konsequenzen für die Marktforschung erörtert. Anschließend werden der Begriff Kultur und mögliche Operationalisierungen näher untersucht. Die Exploration methodischer Probleme der interkulturellen Marketingforschung dient der Schärfung des Problembewußtseins und einer intensiven Auseinandersetzung mit dem Problemcharakter. Der darauffolgende Abschnitt behandelt unterschiedliche Formen der Konstruktoperationalisierung und mündet in Anforderungen an Lösungsstrategien für das Problem der Datenäquivalenz. Mit der konfirmatorischen Mehrgruppen-Faktorenanalyse wird vorerst ein Ansatz im Rahmen der klassischen Testtheorie vorgestellt, ohne auf metatheoretischer Ebene eine Kritik der Meßtheorie vorzunehmen. Letztere erfolgt im Anschluß, wenn Verfahren der 12 1 Probleme, Ziele und Positionierung Latent Trait Theory beleuchtet werden. Ein zusammenfassender Referenzrahmen für die Überprüfung der Datenäquivalenz stellt beide Verfahren und den Ablauf der Prüfschritte einander gegenüber. Eine Zusammenstellung von publizierten empirischen Untersuchungen aus der interkulturellen Forschung illustriert die derzeit angewandten Verfahren - dies bewußt in wertender Weise, jedoch unter Bezugnahme auf die vorangegangene Aufarbeitung möglicher Methoden. Die empirische Analyse der interkulturellen Vergleichbarkeit eines Marketinginstruments demonstriert die Anwendung zweier, alternativer meßmethodischer Ansätze. Im Anschluß daran erfolgt ein Vergleich der Methoden aus wissenschaftstheoretischer Sicht. Abschließend werden Implikationen formuliert, welche sich sowohl für die interkulturelle als auch für die intrakulturelle Marketingforschung ergeben. 13 2 Interkulturelle Vergleiche im Marketing 2 Interkulturelle Vergleiche im Marketing 2.1 Internationalisierung im Marketing Die in der Vergangenheit, wie wohl auch in der Zukunft, zunehmende Internationalisierung der wirtschaftlichen Austauschbeziehungen verstärkt die interkulturelle Dimension im Marketing und im Management. Dabei können politische Entwicklungen, wie die Einigung Europas im Rahmen der Europäischen Union oder die Öffnung der ehemals kommunistischen Staaten Mittel- und Osteuropas, akzelerierende Wirkung entfalten. Theoretische Beiträge der wirtschaftswissenschaftlichen Disziplin, wie die Standardisierungsdiskussion (vgl. Levitt, 1983), förden ebenfalls Internationalisierungsbestrebungen. Zugleich entwickeln Praxis und Wissenschaft aber ein „mangelndes Problembewußtsein“ für sich daraus ergebende „kulturelle Überschneidungssituationen“ (Holzmüller, 1997, S.57). Fehler im Management und im Marketing sind die Folge (vgl. z.B. Ricks, 1993). 2.1.1 Wirtschaftspolitische Veränderungen Die letzten beiden Jahrzehnte des 20. Jahrhunderts zeichnen sind durch bedeutsame Veränderungen der politischen und insbesondere ökonomischen Rahmenbedingungen aus. Aus österreichischer, wie auch gesamteuropäischer Perspektive sind in erster Linie zwei höchst bedeutsame Entwicklungen zu nennen: der gemeinsame Markt der Europäischen Union (EU-Binnenmarkt) und die Öffnung der osteuropäischen Märkte. Der gemeinsame Markt in Europa eröffnet neue Perspektiven der Internationalisierung und Standardisierung für Länder der europäischen Union. Dem Cassis-de-Dijon-Prinzip folgend (Boran-Leitner und Franta, 1994, S.11), ist die Konformität eines Produkts mit den nationalen Vorschriften eines Mitgliedslandes ausreichend für eine EU-weite Markteinführung. Dies bedeutet, daß legistische Regelungen in einzelnen Staaten der EU nicht notwendigerweise zu Produktanpassungen führen müssen. International tätige Anbieter können das Standardisierungspotential, welches diese Regelung mit sich bringt, nutzen und in Kostenvorteile umsetzen. Für bislang ausschließlich binnenstaatlich aktive Anbieter, für welche die national unterschiedlichen Regeln, Vorschriften und Normen ein unüberwindbares Hindernis für Internationalisierungsschritte darstellten, eröffnet sich damit die völlig neue Perspektive einer Ausweitung der Absatzmärkte. 14 2 Interkulturelle Vergleiche im Marketing Zeitgleich mit dem Prozeß der europäischen wirtschaftlichen Integration, führt der Zusammenbruch des kommunistischen Systems in der ehemaligen UdSSR und den osteuropäischen Staaten des RGW (Rat für gegenseitige Wirtschaftshilfe) zu einer unerwarteten Öffnung dieser Märkte. Da die wirtschaftliche Umstellung dieser Staaten einen fundamentalen Paradigmenwechsel darstellt, ist insbesondere in der Übergangsphase die Unsicherheit für Unternehmen sehr groß. Probleme ergeben sich aus zum Teil nur rudimentär vorhandenen, oftmals völlig ungewohnten Marktstrukturen, rechtlichen Unsicherheiten im Hinblick auf Eigentumsfragen, Unwägbarkeiten in Währungsfragen bezüglich der Entwicklung von Wechselkursen, Inflationsraten, Gewinntransfers, u.s.w., aber auch aufgrund schlecht einschätzbarer Nachfragemuster der Konsumenten. Dies hat zur Etablierung eines eigenen Osteuropaschwerpunktes in der Marketingdisziplin geführt (vgl. Schuh et al., 1994; Springer, 1993; Tietz und Zentes, 1993). Die Entwicklung einheitlicher Märkte ist jedoch nicht auf Europa beschränkt. Auch in anderen Erdteilen werden einheitliche Wirtschaftsräume gebildet. In Nordamerika, beispielsweise, formen Kanada, die USA und Mexiko mit der NAFTA-Zone das amerikanische Pendant zum EU-Binnenmarkt. Regelmäßig ist der Wegfall von Grenzen und administrativen Hürden jedoch nicht nur mit neuen Chancen verbundenen. „Grenzenlose“ wirtschaftliche Aktivitäten implizieren auch verschärfte Konkurrenz und stellen eine große Herausforderung für die Wettbewerbsfähigkeit dar. Weltwirtschaftlich bedeutet insbesondere die rasant zunehmende Wirtschaftskraft asiatischer Länder, wie Singapur, Malaysia, Korea und nicht zuletzt China, eine Herausforderung für alle Volkswirtschaften, für international und - zunehmend - auch national tätige Unternehmen. 2.1.2 Internationalisierung und Standardisierung Internationaler Erfolg ist gleichbedeutend mit größtmöglicher Realisierung von Standardisierungspotentialen. Die theoretische Fundierung geht auf Levitt (1983) zurück, welcher von einer, zumindest segmentspezifisch wirksamen, weltweiten Annäherung der Nachfragemuster ausgeht. Doch auch bei z.B. kulturell bedingt unterschiedlichen Erwartungen gegenüber Produkten können Standardisierungsstrategien erfolgreich sein. Kostenvorteile der Standardisierung führen zu Preisreduktionen. Der Vorteil des niedrigeren Preises, so die Hypothese, überwiegt den Nachteil, daß das Produkt nicht optimal den lan- 15 2 Interkulturelle Vergleiche im Marketing desspezifischen Erwartungen entspricht. Die drei Grundannahmen von Levitt lassen sich wie folgt zusammenfassen (Douglas und Wind, 1987, S.21): • Die Bedürfnisse und Interessen der Konsumenten nähern sich weltweit an und werden homogener. • Das günstigere Preis-Leistungsverhältnis von „globalen“ Produkten gleicht bestehende Präferenzen hinsichtlich Produktfunktionalität, -ausstattung, -design, u.s.w. aus. • Die Bedienung globaler Märkte führt zu deutlichen Kostenreduktionen aufgrund von Standardisierungen in Produktion und Marketing. Levitt (1983) bietet somit die theoretische Basis für die Vorteile von Strategien, die zum Teil erst durch die skizzierten wirtschaftspolitischen Veränderungen umsetzbar geworden sind. Substantiell bedeutet diese Sichtweise, daß der Fokus der Betrachtung auf das Gemeinsame (gleiche oder ähnliche Erwartungshaltungen, Nachfrage- und Produktverwendungsmuster, etc) gelenkt wird. Die Bedeutung spezifischer Anpassungen des Marketinginstrumentariums tritt dagegen in den Hintergrund. Es ist allerdings fraglich, ob diese Sichtweise unabhängig von Produktkategorie oder Branche notwendigerweise erfolgversprechend ist. Auch die Auswahl der tatsächlich einbezogenen Länder wird für die Gültigkeit bzw. Haltbarkeit der Theorie von Levitt belangreich sein, wenngleich der Begriff global grundsätzlich weltweite Anwendbarkeit unterstellt. Douglas und Wind (1987) sehen für die konkrete Umsetzbarkeit einer globalen Marketingstrategie sowohl externale Hemmnisse als auch internale Barrieren. Letztere bestehen einerseits aufgrund der vorhandenen Ausgestaltung internationaler Aktivitäten. Rechtliche Verpflichtungen im Rahmen von Joint Ventures, Lizenzvereinbarungen, etc. können die kurzfristige Umsetzung globaler Konzepte erschweren. Andererseits sind unternehmensinterne Widerstände denkbar. Die Unterordnung des lokalen Managements unter eine gemeinsame globale Strategie kann zu Motivations- und Identifikationsproblemen führen. Rechtliche und politische Restriktionen, unterschiedliche Marktstrukturen oder Marktentwicklungsstadien stellen externale, vom Unternehmen in der Regel nicht beeinflußbare Rahmenbedingungen dar, die globale Konzepte undurchführbar erscheinen lassen. So 16 2 Interkulturelle Vergleiche im Marketing können unterschiedliche Vorschriften zur Gestaltung von Werbespots einem völlig einheitlichen kommunikationspolitischen Auftritt entgegenstehen. Während bei internalen Barrieren zumindest mittelfristig Handlungsspielräume seitens des Unternehmens existieren, ist dies bei externalen Bedingungen nur sehr beschränkt der Fall. Grundvoraussetzung für die Prüfbarkeit, inwieweit globale Strategien umsetzbar und erfolgsversprechend sind, stellt jedenfalls die profunde Kenntnis von internalen wie externalen Barrieren dar. Während z.B. rechtlichen Rahmenbedingungen bei Länderoder Strategieselektionsmodellen meist prominenter Stellenwert beigemessen wird, treten mögliche bedeutsame Unterschiede in der Marktstruktur oder bei Verhaltens- und Nachfragemustern von Konsumenten oft in den Hintergrund. Ähnlichkeit und Vergleichbarkeit wird zuweilen nur unterstellt. 2.2 Bedeutung der Marktforschung Im Zuge der Internationalisierung steigt der Informationsbedarf im Unternehmen. Die Entscheidungstatbestände im internationalen Marketing sind gegenüber dem nationalen Marketing erweitert. So muß die Marktforschung beispielsweise Informationen bereitstellen, auf deren Grundlage die Länderselektion oder die Wahl von Produktionsstandorten erfolgt. Kernaufgabe der internationalen Marktforschung ist die Beantwortung der Frage, inwieweit sich verschiedene nationale Märkte voneinander unterscheiden bzw. einander ähneln. Dies belegt die strategische Bedeutung der internationalen Marktforschung. Im operativen Marketing sind Fragen der Produkt-, Kommunikations-, Preis- und Distributionspolitik um internationale Problemstellungen auszuweiten. Diese konzentrieren sich auf das notwendige Ausmaß der kulturellen Anpassung bzw. auf den möglichen Grad der Standardisierung. Vor dem Hintergrund der im Gefolge politischer Veränderungen verringerten externalen Hindernisse globaler Strategien und dem theoretischen Konzept von Levitt mag die Erforschung regional bedingter Unterschiede überflüssig weil irrelevant erscheinen. Aufgrund der nicht uneingeschränkten Gültigkeit der Theorie der Standardisierungsvorteile kommt der Markt(er)forschung jedoch weiterhin hohe und vor dem Hintergrund zunehmender Internationalisierung von Unternehmen sogar steigende Bedeutung zu. 17 2 Interkulturelle Vergleiche im Marketing 2.3 Methodische Probleme der internationalen Marktforschung 2.3.1 Abgrenzung internationaler und interkultureller Marktforschung Neben inhaltlichen Problemen, zeichnet sich internationale Marktforschung auch durch methodische Besonderheiten aus. Internationale Marktforschung ist per Definition länderübergreifend („cross-national“). Das Überschreiten von Ländergrenzen bedeutet, zwar nicht notwendigerweise, aber so doch in aller Regel, auch das Überschreiten kultureller Grenzen. Im Falle von nationalen Minderheiten mag dies beispielsweise nicht zutreffen (z.B. deutschsprachige Südtiroler in Italien). Wirtschaftliche Einigungsprozesse und zaghafte Ansätze politischer Einigung in der Europäischen Union haben sich zwar in einem gemeinsamen Markt niedergeschlagen. Über Jahrhunderte ausdifferenzierte Kulturunterschiede in Europa sind dadurch jedoch keineswegs verschwunden. Bedeutsamer als die wenigen Ausnahmen der Regel, wonach Ländergrenzen auch Kulturgrenzen darstellen, sind die Ausnahmen, die mit der Umkehrung der Beziehung verbunden sind. Kulturelle Grenzen sind nicht notwendigerweise mit Ländergrenzen assoziiert. Man muß keine historischen Beispiele, wie die UdSSR zitieren. Länder wie die Schweiz, Belgien oder Kanada, demonstrieren, daß kulturelle Grenzen, in diesen Fällen sprachdefiniert, quer durch nationales Terrain bzw. auch durch die Bevölkerung (zweibzw. mehrsprachige Gebiete) laufen können. Doch selbst für einsprachige Staaten ist die Annahme distinkter Kulturen innerhalb des Staates nicht völlig abwegig, wie das Beispiel von Nord- und Süditalien zeigt. Ob sich dabei „kulturelle“ Unterschiede in unterschiedlichen Produktivitätsraten und damit essentiell in ökonomischen Motiven erschöpfen, kann an dieser Stelle nicht beurteilt oder weiter verfolgt werden. Holzmüller (1986, S.46) unterscheidet die beiden Dimensionen „Grenzüberschreitung“ (ein oder mehrere berücksichtigte Staaten) und Anzahl der einbezogenen Kulturen (eine oder mehrere Gruppen) und kombiniert diese zu vier Anwendungsfeldern der Marktforschung (vgl. Abbildung 2). 18 2 Interkulturelle Vergleiche im Marketing Anzahl der berücksichtigten Staaten ein Staat Anzahl der kulturellen Gruppen eine Gruppe mehrere Gruppen binnenstaatliche Untersuchung mehrere Staaten „cross-national“ „cross-cultural“ Abbildung 2: Kultur- und nationenbezogene Typologie der Marktforschung in Anlehnung an: Holzmüller (1986, S.46) Grenzüberschreitende Marktforschung („cross-national“) ist folglich nicht notwendigerweise auch kulturübergreifend. Bedeutsamer erscheint jedoch, daß Probleme der kulturübergreifenden Forschung auch dann relevant sein können, wenn Grenzen nicht überschritten werden („mehrere Gruppen, ein Staat“). 2.3.2 Erkenntnisgewinnung in der interkulturellen Marketingforschung Doch auch im Falle der binnenstaatlichen Untersuchung ist Kultur als verhaltensprägendes Hintergrundphänomen (Kroeber-Riel, 1992, S.575) präsent. Die Wirksamkeit kultureller Einflüsse wird erst mit dem „Blick auf andere Kulturen“ (Kroeber-Riel, 1992, S.575) bewußt und deutlich. Analog zu in Laborexperimenten konstant gehaltenen „Störvariablen“, ist kulturbedingter Einfluß unter der Bedingung der Invariabilität nicht wahrnehmbar. Erst die Einbeziehung mehrerer Kulturen im Sinne der Einführung von Varianz der Variable „Kultur“ macht kulturbedingte Wirkungen erfahr- und untersuchbar. Die Wahrnehmung von Wirkungen erfolgt allerdings in der Person des Forschers und setzt die Manifestierung der Wirkung voraus, welche seinerseits den Einsatz von Instrumenten oder Verfahren erfordert. In der quantitativen Marktforschung ermöglicht erst die Messung mit Hilfe von Meßinstrumenten die Transformation von Charakteristika im Konsumenten als Untersuchungseinheit (aus dem Universum der essentiellen Realität, vgl. Popper, 1963, zitiert in Friedrichs, 1990, S.70) in „Daten“ (Tatbestände des Universums der beobachtbaren Phänomene), welche durch geeignete Analysetechniken zu erkenntnisbezogenen Aussagen seitens des Forschers im Universum der beschreibenden Sprache und der symbolischen Darstellung führen (vgl. Abbildung 3). In der qualitativen Marktforschung übernehmen entsprechende Verfahren, wie Beobachtung, qualitatives Interview, etc. die Funktion der Transformation. 19 2 Interkulturelle Vergleiche im Marketing Charakteristika von Konsumenten essentielle Realität Meßinstrument Methodik Konsumentendaten Theoretische Aussagen des Forschers beobachtbarePhänomene beschreibende Sprache Abbildung 3: Generierung theoretischer Aussagen des Forschers in der quantitativen Marktforschung Für die Erkenntnisgewinnung im Rahmen der Marktforschung sind somit Charakteristika des Meßinstruments und der angewandten Methodik ebenso bedeutsam, wie Charakteristika der untersuchten Konsumenten. Da die Ableitung von Aussagen aufgrund von Messungen, Beobachtungen, etc. seitens des Forschers und deren Interpretation stets vor einem theoretischen Hintergrund erfolgt (vgl. Friedrichs, 1990, S.27), ist auch die Person des Forschers zu berücksichtigen. In internationalen Marktforschungsprojekten ist stets ein kulturbedingter Bias in bezug auf das Forschungsdesign, auf die Kommunikation der beteiligten Forscher und schließlich der Interpretation der Ergebnisse denkbar. „This occurs because international marketing research typically involves researchers from one cultural environment conducting research in another cultural environment, or communicating with researchers from another cultural environment.“ (Douglas und Craig, 1983, S.145). Die in Abbildung 2 (Seite 19) dargestellte Typologie der Marktforschung knüpft hinsichtlich beider Dimensionen (Anzahl der Staaten, Anzahl der Kulturen) an den Untersuchungseinheiten (z.B. Konsumenten) an. Ergänzt man diese Referenzierung um die Person des Forschers (vgl. Holzmüller, 1995, S.4) und um den kulturellen bzw. nationalen Hintergrund der eingesetzten Meßinstrumente und der Methodik, so erweitert sich der kulturelle Bezugsrahmen um zwei Dimensionen. Abbildung 4 (Seite 21) stellt den kulturellen Bedingungsrahmen der Marktforschung unter Vernachlässigung der einbezogenen Staaten dar, bezieht sich also lediglich auf das Kriterium „cross-cultural“. Damit sind die in Abbildung 3 dargestellten Elemente der Generierung theoretischer Aussagen erfaßt. 20 Forscher 2 Interkulturelle Vergleiche im Marketing kulturelle Übereinstimmung keine kulturelle Übereinstimmung M eß i ns t ru m en t kulturelle Übereinstimmung keine kulturelle Übereinstimmung eine Übereinstimmung mit mehrere kultureller Gruppe Kulturelle Gruppen der der Untersuchungseinheiten Untersuchungseinheiten Abbildung 4: Kultureller Bezugsrahmen der Marktforschung Die explizite Berücksichtigung des Meßinstruments und des Forschers zeigt, daß Marktforschung auch dann interkulturellen Charakter aufweisen kann, wenn die Untersuchungseinheiten einer Kultur angehören. Die Ausdrücke „interkulturelle Studie“ bzw. „cross-cultural study“ sollen allerdings weiterhin nur solche Untersuchungen beschreiben, welche mehrere kulturelle Gruppen von Untersuchungseinheiten einbeziehen. Kulturelle Inkongruenzen von Forscher und Untersuchungseinheiten können zu fehlerhaften bzw. inadäquaten Interpretationen von Beobachtungen und Ergebnissen seitens des Forschers führen. Die unter dem Begriff Ethnozentrismus der Forschung (Atteslander, 1995; S.107) bekannte Problematik besteht darin, daß der Forscher Interpretationen vor dem Hintergrund seiner eigenen Kultur vornimmt und sich der Bedeutung von Beobachtungen entsprechend eigener kultureller Standards bewußt wird („Whether willingly or unconsciously, [scientists] look at any new culture through eyes conditioned from birth to see things in a particular way.“ Hall und Hall, 1990, S.XX). In der interkulturellen Forschungspraxis bedeutet dies, daß der Forscher sich dieser Wirkungen und des Einflusses des self-reference criterion (Malhotra et al., 1996) bewußt werden muß. Auch auf der Ebene der Theorien und Modelle ist Kultur als prägender Einfluß wirksam. Theorien reflektieren den kulturellen Kontext, in welchem sie entstanden sind und erprobt wurden. Dies kann dazu führen, daß kulturgebundene Theorien, Annahmen und Hypothesen in der interkulturellen Forschung die kulturadäquate Wahrnehmung von fremdkulturellen Phänomenen erschweren und Barrieren zwischen Forscher und untersuchter Kultur entstehen (Hall und Hall, 1990). 21 2 Interkulturelle Vergleiche im Marketing Analog zur Person des Forschers, weist auch das eingesetzte Meßinstrument einen kulturellen Hintergrund auf. Eine mangelnde Übereinstimmung des kulturellen Kontexts der Entwicklung des Instruments einerseits und des kulturellen Umfelds der konkreten Anwendung andererseits, kann dazu führen, daß das Meßinstrument inadäquat ist und an Zuverlässigkeit und Gültigkeit verliert. In der Praxis ist diese Problematik von großer Bedeutung. Aufgrund der Forschungsökonomie ist es angezeigt, wennimmer möglich, ein bereits entwickeltes Meßinstrument einem Neuentwurf vorzuziehen. Die Konsumentenforschung zeichnet sich allerdings durch eine Dominanz der Vereinigten Staaten aus. Ein Großteil der in der Marktforschung eingesetzten Skalen sind daher US-amerikanischen Ursprungs. Die Übernahme solcher Meßinstrumente in andere Kulturen ist problematisch. Eine Untersuchung kann somit auch dann eine interkulturelle Fragestellung sein, wenn es sich um eine monokulturelle Studie handelt. Zwischen dem Einsatz eines Meßinstruments aus einem anderen kulturellen Kontext und der Berücksichtigung mehrerer kultureller Gruppen auf Seiten der Untersuchungseinheiten (klassische „cross-cultural“-Studie) bestehen Parallelen. Die Frage der Übereinstimmung des Meßinstruments bezieht sich explizit auf den kulturellen Kontext des Instruments. Die Problematik bei der Einbeziehung verschiedener Kulturen auf Konsumentenseite basiert aber zum Teil ebenfalls auf methodischen Fragestellungen, wie z.B. der Einsetzbarkeit eines einzigen Meßinstruments in mehreren Kulturen. Allerdings impliziert eine interkulturelle Studie Probleme, die über das eigentliche Meßinstrument hinausgehen und sowohl Forschungsgegenstand als auch Forschungsprozeß betreffen. Ein kulturfremdes Meßinstrument in einer monokulturellen Untersuchung stellt folglich einen Spezialfall dar, dessen Diskussion im Rahmen der Problematik interkultureller Untersuchungen Berücksichtigung findet. Demgegenüber stellt die Frage der Person des Forschers aus einer anderen Kultur eine Problematik eigener Art dar, welche weder durch eine Analyse des Forschungsgegenstands, noch durch eine Analyse des Forschungsprozesses unmittelbar erforscht oder gelöst werden kann. Vielmehr kann eine Lösung der Problematik nur in einer kulturellen Sensibilisierung des Forschers liegen. Die kulturadäquate Interpretation von Beobachtungen und Forschungsergebnissen erfordert die Kenntnis und Reflektion der kulturellen Standards der einbezogenen Untersuchungseinheiten. Diese können durch entsprechende 22 2 Interkulturelle Vergleiche im Marketing Trainingsprogramme vermittelt werden, welche z.B. für im Ausland tätige Manager, Studierende oder für Flüchtlinge entwickelt werden (vgl. z.B. Thomas, 1991; Müller und Thomas, 1991; Brislin und Yoshida, 1994; Brüch und Thomas, 1995; Landis und Bhagat, 1996). Die methodischen Ansätze, welche Gegenstand dieser Arbeit sind, können zu einer Bewältigung dieses Problems nicht beitragen. Die Darstellung der Problematik dient lediglich der Abgrenzung des Einsatzbereichs der vorgestellten Methoden. 2.3.3 Entdeckungszusammenhang der interkulturellen Marktforschung Die mit der Internationalisierung von Unternehmen einhergehende methodische Problematik der Vergleichbarkeit soll im Rahmen dieser Untersuchung gelöst werden. Vergleichbarkeit in der interkulturellen Marktforschung ist von hoher praktischer Relevanz. Es ist die Aufgabe der wissenschaftlichen Forschung, die Grundlagen möglicher methodischer Probleme zu erarbeiten und ein praktisch einsetzbares Instrumentarium für deren Bewältigung zur Verfügung zu stellen. Das Potential des methodischen Instrumentariums geht jedoch über die Frage der Vergleichbarkeit hinaus und erstreckt sich auch auf die nationale Marktforschung. Unter dem Aspekt der Forschungsökonomie ist die Übernahme etablierter Meßinstrumente sinnvoller als eine Neuentwicklung. Wird in einem nationalen Marktforschungsprojekt ein Meßinstrument eingesetzt, welches unter anderen kulturellen Rahmenbedingungen entwickelt wurde, so stellt sich die Frage der Übertragbarkeit. Interkulturelle Probleme und vor allem deren Lösung können sich somit auch für nicht kulturübergreifende Studien als relevant erweisen. Schließlich kann Forschungsinteresse auch darin bestehen, die Generalisierbarkeit von Theorien im interkulturellen Kontext zu überprüfen. Für die (Weiter-)Entwicklung theoretischer Konzepte kann die Entdeckung kulturbedingter Inkongruenzen befruchtend wirken. Die bei der Erforschung des Konsumentenverhaltens angewandten Theorien sind zum überwiegenden Teil in der „westlichen“ Welt entwickelt worden. Erst die empirische Validierung in anderen kulturellen Umfeldern kann den tatsächlichen Geltungsbereich der Theorien abstecken (Manrai und Manrai, 1996). Darüber hinausgehend plädieren Manrai und Manrai (1996) für die explizite Berücksichtigung kultureller Einflußfaktoren in neuen Theorien des Konsumentenverhaltens. Auch für Kotler (1994, S.174) stellen kulturelle Faktoren die bedeutsamste Einflußquelle des Konsumentenverhaltens dar („broa23 2 Interkulturelle Vergleiche im Marketing dest and deepest influence“). Kulturbedingte Verhaltensdeterminanten stehen damit hierarchisch über sozialen, persönlichen und psychologischen Faktoren. Die globale bzw. interkulturelle Marktforschung würde durch die Integration kultureller Faktoren entscheidend profitieren. Kultur (Unabhängige Variable) Abhängige Variable Substanztheorie Operationalisierung von Kultur Interkulturelle Vergleichbarkeit Probleme der interkulturellen Marketingforschung Abbildung 5: Probleme der interkulturellen Marketingforschung Sowohl die empirische Validierung vorhandener Theorien, als auch deren Erweiterung um kulturelle Variablen bzw. die Entwicklung neuer transkultureller Theorien erfordern zum einen eine adäquate Operationalisierung von Kultur und zum anderen Meßinstrumente mit interkultureller Validität. Erst diese stellen die Basis für eine potentielle Falsifizierbarkeit bzw. vorläufige Verifizierung der Theorien dar. Die Frage der interkulturellen Validität von Meßinstrumenten nimmt Bezug auf die abhängige(n) Variable(n) einer zugrundeliegenden Substanztheorie (vgl. Abbildung 5). Die Forderung der adäquaten Operationalisierung von Kultur zielt hingegen auf die unabhängige Variable der Substanztheorie ab, deren Wirkung auf die abhängige Variable untersucht wird. Interkulturelle Validität ist ein formales Problem, während die Kulturoperationalisierung ein inhaltliches Problem ist. Letzterem kommt ein hoher Stellenwert zu, da die Lösung des Meßproblems ohne geeignete Kulturoperationalisierung keinen Erkenntnisfortschritt bewirken kann. Es wäre dann zwar geklärt, daß ein Vergleich vorgenommen werden kann, aber nicht auf welche Einflußgröße Unterschiede gegebenenfalls zurückzuführen wären. Aus diesem Grund wird die Operationalisierung von Kultur im nächsten Kapitel verhältnismäßig ausführlich behandelt. 24 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Ils parlent de la mort comme tu parles d’un fruit Ils regardent la mer comme tu regardes un puits Les femmes sont lascives au soleil redouté Et s’il n’y a pas d’hiver cela n’est pas l’été. Jacques Brel, Les Marquises, 1977 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur 3.1 Kultur als Nationalität Hinter der häufig erfolgten Gleichsetzung von interkulturell und international bzw. crosscultural und cross-national steht meist auch eine unreflektierte Identität der Begriffe Kultur und Nationalität. Dies ist aus theoretischer Sicht unbefriedigend. Das Konzept der Kultur wird dabei nicht in seiner inhaltlichen Bedeutung gesehen. Es wird kein Versuch unternommen, der Komplexität von Kultur auch nur annähernd gerecht zu werden. Kultur wird lediglich als klassifizierbare Kategorie betrachtet, deren konkrete Ausprägungen lediglich hinsichtlich ihrer Unterscheidbarkeit analysiert werden. Einzelne Kulturen werden als unterschiedlich dargestellt, ohne darauf Bezug zu nehmen, worin sie sich unterscheiden und worin sie sich gleichen. „Die überwiegende Mehrheit publizierter Forschungsarbeiten berücksichtigt Kultur als unspezifizierte nominalskalierte Variable“ (Holzmüller, 1995, S.75). Die konkrete Operationalisierung von Kultur erfolgt dementsprechend nur auf dem Niveau der nominalen Unterscheidung. Neben der Reduktion von Kultur auf ihre bloße Klassifikation, ist die Gleichsetzung von Kultur und Nationalität darüber hinaus auch inhaltlich problematisch. Wie weiter oben ausgeführt bestehen zwischen den Konzepten Kultur und Nationalität zwar Überschneidungsbereiche, jedoch keine inhaltliche Identität. Nationalität als Staatszugehörigkeit basiert lediglich auf dem legistischen Begriff der Staatsbürgerschaft und ist somit ein (völker-)rechtlicher Terminus, welcher im Rahmen der Marketingforschung zu kurz greift. Die Reduktion von Kultur auf eine nominalskalierte Variable impliziert weiters, daß kulturbedingte Effekte und Unterschiede lediglich beschrieben werden können (vgl. Holzmüller, 1995, S. 76). Es ist nicht möglich, im Sinne von kausal begründbaren Zusammenhängen, Rekurs auf inhaltliche Aspekte des Konzeptes der Kultur zu nehmen. In empirischen Studien nachgewiesene Unterschiede oder Gemeinsamkeiten stellen nur Einzelergebnisse dar, welche jeder Generalisierbarkeit entbehren. Somit sind auch keine 25 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur a priori Vorhersagen im Sinne theoretisch begründbarer Hypothesen in zukünftigen, andere Kulturen einbeziehenden Studien möglich. Die Integration kultureller Einflußfaktoren in Theorien des Konsumentenverhaltens erfordert demzufolge eine über die bloße Unterscheidung hinausgehende Form der Operationalisierung von Kultur. „(...) thinking about ’culture’ as a singular variable that stands in an antecedent relation to specific response variables is destined to be unproductive. Rather, theoretical categories or dimensions that are contained in or which are part of what is called cultural variation are the entities of interest (...) (Poortinga und Malpass, 1986, S.36, eigene Hervorhebungen). 3.2 Ursprünge des Begriffs Kultur Ehe auf konkrete Ansätze zur Operationalisierung von Kultur eingegangen wird, wird die begriffliche Grundlage von Kultur und damit die Basis für Operationalisierungsversuche näher beleuchtet. Für Usunier (1996, S. 3) geht der Begriff der Kultur in der deutschen Sprache auf das abstrakte Konzept der Zivilisation zurück und wird in dieser Bedeutung bereits im 18. Jahrhundert verwendet. Die englische Sprache übernahm zu Beginn des 20. Jahrhunderts diesen Bedeutungsinhalt. Im Französischen wird culture im ausgehenden 19. Jahrhundert als Synonym für „Kultivierung“, „landwirtschaftliche Tätigkeit“ gebraucht. Die Etymologie des Ausdrucks Kultur geht auf lateinischen Ursprung zurück und bedeutet ’Bebauung’, ’Ausbildung’ (Brockhaus, 1979, S.286). Auch im modernen Sprachgebrauch des Deutschen wird der Begriff der Kultur zum Teil in dieser gegenständlichen Bedeutung angewendet (z.B. „künstliche Gründung eines Waldbestandes“, „auf geeigneten Nährböden gezüchtete Bakterien oder Zellarten“, Brockhaus, 1979, S.285). Kultur nimmt somit auf eine der grundlegenden Wurzeln moderner menschlicher Gesellschaften Bezug: dem Landbau bzw. der Landwirtschaft. Erst durch diese Errungenschaft wird die Gattung Mensch zur Zivilisation. Kroeber-Riel (1992, S.575) verwendet die Begriffe Kultur und Zivilisation dementsprechend synonym. Die semantische Begriffsanalyse unterstreicht zwar die Tragweite und fundamentale Bedeutung des Konzepts, welche weit über nationalstaatliche Abgrenzungen hinaus geht, führt aber nicht unmittelbar zu einer brauchbaren Operationalisierung des modernen Konzepts der Kultur. Die Problematik einer allgemein akzeptierten Definition von Kultur liegt in den mannigfaltigen Bedeutungsinhalten mit welchen die Alltagssprache den Begriff belegt. Jeder Definitionsversuch, welcher sich von diesen allgemeinsprachlichen Inhalten loslöst, aber auch jeder Versuch, der (nur) auf einzelne, ausgewählte Aspekte Bezug nimmt, wird auf 26 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Akzeptanzprobleme stoßen (wie dies z.B. auch beim Begriff der „Intelligenz“ der Fall ist, welcher ebenso trivialsprachliche Bedeutungen aufweist). Für die Definition eines wissenschaftlichen Begriffs ist aber weniger die inhaltliche Korrespondenz mit Alltagsbedeutungen entscheidend, als vielmehr die Eignung des Begriffs im Rahmen von Theoriegebäuden. Die wissenschaftliche Definition muß insbesondere die Basis für eine praktikable Operationalisierung darstellen. Als grundlegende Definition kann Kultur als Gemeinsamkeit von Verhaltens- und Denkmustern gesehen werden (Kroeber und Kluckhohn, 1952, zit. in Kroeber-Riel, 1992, S.575; Goodenough, 1971) oder als „Gesamtheit der typischen Lebensformen größerer Gruppen einschließlich ihrer geistigen Aktivitäten, besonders der Werteinstellungen“ (Brockhaus, 1979, S.285). Kultur besteht somit aus von einer abgrenzbaren, aber größeren Gruppe von Individuen geteilten Standards, welche die Wahrnehmung und Interpretation der Umwelt erleichtern, sowie verhaltensbezogene Imperative umfassen. Kultur ist nach dieser Definition ein zentraler, ständig präsenter Einflußfaktor des Denkens und Handels. Sie stellt einen Bezugsrahmen, ein Orientierungssystem dar, innerhalb dessen Wahrnehmungen erfolgen (vgl. den Begriff der „subjektiven Kultur“ nach Triandis, 1972), Erkenntnisse gewonnen, Handlungen bewertet und Verhalten gesetzt werden. Freud (1930) sieht in der Kultur und ihrer Entwicklung Einschränkungen der persönlichen Freiheit. Kultur stellt sich somit gegen den Freiheitsdrang des Individuums, sie ist aber, so scheint es, nicht imstande, die Natur des Individuums „in die eines Termiten umzuwandeln“ (Freud, 1930, S.226). Kultur ist demnach durchaus ambivalent zu sehen. Kulturellen Leistungen, wie höhere psychische Tätigkeiten, wissenschaftliche, künstlerische und ideologische Errungenschaften, stehen eben jene „Kulturversagungen“ (Freud, 1930, S.227) als Einschränkungen persönlicher Freiheit gegenüber, auf denen kulturelle Leistungen als Sublimierung von Triebzielen basieren. „Ein guter Teil des Ringens der Menschheit staut sich um die Aufgabe, einen zweckmäßigen, d.h. beglückenden Ausgleich zwischen diesen individuellen und den kulturellen Massenansprüchen zu finden (...).“ (Freud, 1930, S.226). Kultur ist also ein äußerst komplexes Netzwerk von Regeln, welches das soziale Zusammenleben und die Interaktion von Individuen erst ermöglicht. Die erfolgreiche Interaktion zweier Individuen erfordert ein Mindestmaß an Übereinstimmung betreffend grundlegen- 27 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur der Begriffe der expliziten Sprache, aber auch von grundlegenden nonverbalen Kommunikationselementen als implizite Formen von Botschaften, sowie von Bewertungen von Sachverhalten. Der Erfolg von Sozietäten („Kulturen“ im Sinne der Gesamtheit der Individuen, welche die Gemeinsamkeiten teilen) beruht auf einem Mindestmaß an Übereinstimmung von Handlungszielen und Handlungsformen seitens ihrer Mitglieder. Der moderne Kulturbegriff umfaßt auch materielle Manifestationen menschlicher Aktivitäten und deren technische Grundlagen, wie „Obdach, Kleidung, Werkzeug, Gerät“ (Brockhaus, 1979, S.285). Eine Differenzierung in Kultur als geistige und Zivilisation als technisch-materielle Komponente der menschlichen Gesellschaft gilt als historisch überholt. Kultur ist nach der oben genannten Definition ein individuell verfügbares kognitives System zur Bewältigung sozialer Interaktionen mit Individuen, die sich ebenfalls dieses Systems bedienen. Für Goodenough (1971) bedeutet dies, daß ein Individuum auch über mehrere solche Systeme verfügen kann (Konzept der „operational culture“). In Abhängigkeit von der jeweiligen kulturellen Gruppe, kommt das jeweils adäquate kognitive System zur Anwendung. Kultur bzw. kulturelle Zugehörigkeit ist in diesem Sinne nicht angeboren, sondern vielmehr durch Lernprozesse erworben. Angeborene auslösende Mechanismen (Lorenz, 1943, Leyhausen, 1951) sind demzufolge nicht zum kulturellen System zu zählen. Im Rahmen der primären Sozialisation des Menschen wird (zumindest) ein als Kultur zusammengefaßtes System erlernt. Dieses umfassende Netzwerk an Interpretations- und Verhaltensregeln, Werten und Traditionen setzt den Rahmen, innerhalb dessen Erkenntnisse gewonnen und Handlungen gesetzt werden. Alle zukünftigen Erfahrungen werden vor dem Hintergrund dieses kulturellen Systems interpretiert, es sei denn, es werden weitere kulturelle Systeme und seine Regeln erlernt. Letzteres kann im Rahmen der primären Sozialisation erfolgen im Sinne einer multikulturellen Erziehung (wie dies bei aus unterschiedlichen Kulturkreisen stammenden Elternteilen der Fall sein kann), aber auch im fortgeschrittenen Lebensalter durch Aufenthalte in Fremdkulturen, kulturelle Sensibilisierungsprogramme oder durch den Einfluß von spezifischen Organisationskulturen. 28 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Kultur A Kultur B Kultur C Abbildung 6: Kultur als System von Denk- und Verhaltensmustern Gegenüber der bloß klassifikatorischen Beschreibung von Kultur im Sinne eines nominalen Charakteristikums, welche lediglich die Unterscheidbarkeit gewährleistet, eröffnet die Sichtweise von Kultur als System zumindest prinzipiell die Möglichkeit, die Ähnlichkeit kultureller Systeme anzugeben. Der Grad der Ähnlichkeit ergibt sich aus dem Ausmaß an Übereinstimmung kulturbestimmender Elemente. Ehe jedoch Ähnlichkeiten zwischen Kulturen untersucht werden können, müssen Kulturen abgegrenzt werden. Der kleinste denkbare Umfang einer als Kultur bezeichenbaren Gruppe von Individuen umfaßt aufgrund der Definition von Kultur als System zur Bewältigung von Interaktionen zumindest zwei Personen. Es ist freilich nicht sinnvoll, Gruppen dieses Umfangs als Kultur zu betrachten. Die Erforschung von Kultur zielt auf größere Sozietäten ab („typischen Lebensformen größerer Gruppen“, Brockhaus, 1979, S.285). Die systembestimmenden Elemente der Kultur sind daher allgemeinerer Art. Der Grad der zu wählenden Allgemeinheit und die damit verbundene Abgrenzung kann jedoch nicht willkürlich erfolgen. Stets ist die Frage zu stellen, ob sich die als Kultur abgegrenzte Gruppe tatsächlich von anderen Gruppen hinsichtlich der Denk- und Verhaltensmuster unterscheidet (Usunier, 1996). Ob Unterschiede als relevant zu erachten sind, hängt von der konkreten Forschungsfrage ab, die es zu behandeln gilt. Kulturen, die im Rahmen eines Forschungsprojekts als gleich betrachtet werden, das heißt als eine Kultur, können in einem anderen Projekt als zwei unterschiedliche Kulturen aufgefaßt werden. Kulturen und ihre Abgrenzungen sind folglich auch hierarchisch organisierbar. So zeichnen sich Subkulturen, abgrenzbare Gruppen von Individuen innerhalb einer Gesellschaft, durch ein gemeinsames System an Denk- und Verhaltensmustern aus, worin sie sich von anderen kulturellen Teileinheiten unterscheiden. Subkulturen lassen sich jedoch zu Kulturen auf gesellschaftli- 29 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur cher Ebene zusammenfassen, welche sich von Kulturen anderer Gesellschaften unterscheiden. Kultur A Subkultur Aa Subkultur Ab Abbildung 7: Abgrenzung von Kultur als hierarchisches System Zusammengefaßt eröffnet die Definition von Kultur als komplexes System von Denkund Verhaltensmustern eine enormes Potential für die Marketingforschung, indem kulturelle Wirkungszusammenhänge kausal auf spezifische Bestimmungselemente der Kultur zurückgeführt werden können. Kulturen können durch Beschreibung der Systemelemente und ihrer Beziehungen inhaltlich charakterisiert werden. Verschiedene Kulturen lassen sich aufgrund der partiellen Übereinstimmung der Systemelemente hinsichtlich ihrer Ähnlichkeit analysieren. Einzelne Kulturen können durch das Ausmaß ihrer Homogenität, das heißt individuelle Variabilität der Systeme, beschrieben werden und - abhängig vom nahezu beliebig wählbaren Grad an Homogenität - hierarchisch aufgegliedert werden. Dies setzt jedoch ein operationales Modell der Kultur voraus, die - wie jedes Teilsystem der Realität - in ihrer Gesamtheit nicht erfaßbar ist. 3.3 Operationalisierung von Kultur 3.3.1 Kultur und Kommunikation (Hall, 1959; Hall und Hall, 1990) Kultur ist untrennbar mit Kommunikation verbunden. Zum einen wird Kultur als erlerntes System durch verbale und nonverbale Kommunikation vermittelt. Die Weitergabe von Kultur und deren Charakteristika erfolgt im Rahmen von Sozialisationsprozessen in kleinen Gruppen, in der Regel der Kernfamilie (Kroeber-Riel, 1992, S.576). Zum anderen ist Kommunikation formal und inhaltlich Bestandteil der Kultur. Die Art und Weise, wie in einer Gruppe kommuniziert wird (formaler Aspekt) ist ebenso integraler Teil des kulturellen Systems, wie zum Teil auch die Inhalte, welche in bestimmten Situationen zum Ausdruck kommen oder nicht kommuniziert werden. Hall (1959) und Hall und Hall (1990) basieren ihre Analyse der Struktur von Kultur unter anderem auf Kommunikati- 30 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur onsprozesse. Mitglieder einer Kultur teilen nicht nur Informationen, sondern auch die Art und Weise der Kodierung, Speicherung und Abrufung derselben (Hall und Hall, 1990, S.XIV). Kommunikation als abstrakter Begriff umfaßt die Teilaspekte der verbalen Kommunikation, also Worte und Sprache („the medium of business, politics, and diplomacy“, Hall und Hall, 1990, S.3), materielle Dinge als Indikatoren von Status und Macht, sowie Verhalten. Kommunikation durch Verhalten liefert Aufschlüsse darüber, wie andere fühlen und umfaßt Techniken zur Konfliktvermeidung (Hall und Hall, 1990). Dimension (Extrem-)Ausprägungen Geschwindigkeit von Botschaften langsam - schnell Kontextorientierung low context - high context Raumstrukturierung - Territoriale Anordnung - persönlicher Raum offen - geschlossen wenig umfangreich - umfangreich Zeitstrukturierung - parallele Aktivitäten - zeitlicher Fokus monochronisch - polychronisch Vergangenheit - Gegenwart - Zukunft Zeit als Kommunikation - Tempo, Rhythmus - Bedeutung von Vorausplanung (Scheduling) langsam - schnell gering - hoch Informationsfluß langsam, linear - schnell, diffundierend Ablaufschemata verbindlich - unverbindlich Tabelle 1: Kulturelle Dimensionen nach Hall und Hall (1990) Bei der Analyse der Kommunikation im kulturellen Kontext liegt bei Hall und Hall (1990) der Schwerpunkt auf formalen Aspekten. Es ist demnach weniger bedeutsam, was kommuniziert wird, sondern vielmehr wie etwas kommuniziert wird. Die Geschwindigkeit einer Botschaft bezieht sich auf das Verhältnis von Informationsgehalt zum Umfang der Botschaft. Schnelle Botschaften haben geringen Umfang, ihre Information ist jedoch von geringer Redundanz. Schlagzeilen in Zeitungen, kurze Kommuniqués oder Werbespots im Fernsehen sind Beispiele für schnelle Botschaften. Langsame Botschaften sind im Vergleich dazu länger und weisen geringere Informationsdichte auf. Bücher oder TV-Do- 31 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur kumentationen sind beispielsweise langsame Botschaften. Wesentlich ist, daß die gleichen Inhalte sowohl in langsamer als auch in hoher Geschwindigkeit kommuniziert werden können. Abhängig von Kontext, Situation, Vertrautheit, Medium, etc. besteht auch innerhalb einer Kultur eine Variabilität der Geschwindigkeit. Abweichungen von der kulturtypischen Geschwindigkeit werden als unangebracht, unangenehm oder zumindest als überraschend erlebt. Zusammenhänge bestehen zwischen Kommunikationsgeschwindigkeit und -medium. Die Medien Buch und Kunstwerk (Bild) transportieren sehr langsame Botschaften. Demgegenüber sind Fernsehen und Cartoons typischerweise „schnelle Medien“. Doch auch innerhalb eines Mediums kann Geschwindigkeitsdifferenzierung auftreten. In Nachrichtensendungen des Fernsehens werden relativ schnelle Botschaften erwartet, die rasch einen Überblick verschaffen sollen. In Magazinen hingegen werden langsamere Botschaften transportiert. Trotz aller situationsspezifischer Variabilität unterscheiden sich Kulturen als Ganzes voneinander und können als eher langsam oder eher schnell beschrieben werden. Für die interkulturelle Kommunikation bedeutet dies die Gefahr von Mißverständnissen und Fehlinterpretationen. Das Kennenlernen einer Person ist grundsätzlich ein komplexer, langsam erfolgender Vorgang. Dennoch kommunizieren einige Kulturen, wie z.B. die USA, relativ schnell, um jemanden kennenzulernen. Angehörige europäischer Kulturen dagegen pflegen einen langsameren Kommunikationsstil (Hall und Hall, 1990). Für Europäer im Kontakt mit US-Amerikanern schreitet daher der Prozeß des Sich-kennen-lernens zu schnell voran. Kommunikationsmerkmale wie formlose Anrede (z.B. mit dem Vornamen) oder scheinbar große Vertrautheit kommen für Europäer überraschend und werden vor dem eigenen kulturellen Hintergrund als Zeichen einer Verbundenheit interpretiert, die in diesem Ausmaß tatsächlich nicht besteht. Als Reaktion darauf kommen Verhaltensweisen und Erwartungshaltungen der Europäer, welche vor deren kulturellen Hintergrund der subjektiv wahrgenommenen Vertrautheit entsprechen, wiederum für Amerikaner unerwartet und erscheinen - aus deren Sicht - unbegründet. Bei der inhaltlichen Gestaltung einer kommunikativen Botschaft sind - neben intrakultureller Variabilität - ebenfalls kulturbedingte Präferenzen und Usancen wirksam. Wird der gesamte Inhalt ausdrücklich in der Botschaft kodiert, so sprechen Hall und Hall (1990, S.6ff) von low context culture. Demgegenüber beinhalten die Botschaften einer high context culture wenig explizite Information. Amerikaner, Deutsche, Schweizer und Skandi- 32 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur navier beispielsweise liefern einander explizite, umfangreiche Hintergrundinformationen (low context), während Araber und Mittelmehrkulturen engere Beziehungsgeflechte unterhalten, welche Ihnen hohe Kontextinformation bereitstellen (high context). Tiefgehende explizite Hintergrundinformationen erübrigen sich daher. Fehlen Angehörigen von high context Kulturen entsprechende Hintergrundinformationen, so müssen diese erst beschaffen werden. So möchten Franzosen äußerst umfangreiche Informationen, ehe sie ein bislang unbekanntes Unternehmen bewerten (Hall und Hall, 1990, S.10). Auch die - aus europäischer Sicht - lange Anlaufphase, welche Geschäftsbeziehungen mit Arabern oder Japanern erfordern, kann im Sinne eines Bedürfnisses nach Generierung von Kontextinformation auf Seiten der Geschäftpartner interpretiert werden. Ein weiterer Aspekt des Kommunikationsverhaltens, indem sich Kulturen unterscheiden, ist der persönliche Raum (Hall und Hall, 1990, S.10ff). Dieser umgibt jede Person in unsichtbar angeordneten Schichten von der physischen Hautoberfläche bis hin zu persönlichen Gegenständen und Eigentum. Letztere können einen räumlich weit ausgedehnten Kreis um die Person bilden, zum Beispiel die Grenzen des eigenen Grundstücks. Das Eindringen anderer Personen in diese Schichten hängt von Situation und Vertrautheit ab. Nordeuropäische Kulturen halten beim Gespräch mit fremden Personen entsprechend ihrer Vorstellung der persönlichen Nahsphäre eine größere räumliche Distanz ein als südliche Kulturen. Angehörige südlicher Kulturen dringen folglich in den Augen von Nordeuropäern zu weit in den persönlichen Raum ein. Da das Raumkonzept, ebenso wie andere formale Aspekte der Kommunikation, grundsätzlich nicht als kulturdeterminiert erlebt wird, sondern die eigenen Standards als universell gültig betrachtet werden, wird das Verhalten entsprechend dieser Standards interpretiert und die zu nahe herankommende Person als aggressiv oder aufdringlich erlebt. Die Bedeutung der Anordnung im Raum ist ebenso kulturabhängig. In deutschen und amerikanischen Büros befinden sich die „Chefetagen“ auf höchster Ebene, also in den obersten Stockwerken, wodurch in erster Linie Hierarchie, in zweiter Linie unter Umständen aber auch ein mangelndes Kommunikationsnetzwerk zum Ausdruck kommt. Französische Manager dagegen sind in mittleren Etagen angesiedelt, wodurch deren zentrale Stellung und die hohe Bedeutung einer engen Kommunikation symbolisiert wird, ist doch umfangreicher Informationsstand in der low context Kultur von Frankreich essentiell. 33 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Bereits Kant (1995, S.73ff) erkannte neben dem Raum die Zeit als grundlegende a priori gegebene Kategorie aller Anschauung. Es liegt daher nahe, Kulturen nach dem Kriterium der Zeitstrukturierung und -wahrnehmung zu differenzieren (Hall und Hall, 1990, S.13ff). Zeit und ihre Wahrnehmung und Ordnung läßt sich in mannigfaltige Aspekte gliedern. Der Gegensatz von monochronischer (monochronic time) gegenüber polychronischer Orientierung (polychronic time) einer Kultur bezieht sich auf die Zahl der Tätigkeiten, welche parallel, also gleichzeitig, ausgeführt werden. Monochronische Kulturen konzentrieren sich auf eine Tätigkeit, welche konsequent verfolgt wird. Unterbrechungen, welche nicht dem Zeitplan entsprechen, werden vermieden bzw. als unangenehm erlebt. Die Wurzeln dieser Zeitorientierung gehen auf die Einführung der industriellen Produktionsweise im 17. Jahrhundert in England zurück. Der Einsatz von Maschinen und ein damit verbundener genauer Einsatzplan erforderten die strikte Einhaltung von Arbeitszeiten und die Konzentration auf eine spezifische Tätigkeit. Nach wie vor pflegen moderne westliche Wirtschaftssysteme, wie in den USA, der Schweiz oder Deutschland, die monochronische Zeitstrukturierung. Im Gegensatz dazu gestattet das polychronische System mehrere Tätigkeiten gleichzeitig. Zeitpläne treten in den Hintergrund, sind weniger verbindlich. So werden aktuelle Aktivitäten zugunsten anderer Tätigkeiten unterbrochen oder länger ausgeführt als ursprünglich geplant, wodurch sich nachfolgende Aktivitäten verzögern. Der Fokus liegt auf der Pflege zwischenmenschlicher Interaktionen, welche gegenüber der Einhaltung von starren Zeitplänen höherrangig sind. Als Beispiele polychronischer Zeitorientierung gelten Europas mediterrane Kulturen, arabische Kulturen und solche aus Südamerika. Die Offenheit dieser Kulturen für neue und parallele Aktivitäten und die Bereitschaft, vorgefaßte Zeitpläne zu ändern, schlägt sich auch in der Raumstrukturierung nieder. Während monochronische Kulturen großen Wert auf abgeschlossene, womöglich schalldichte Arbeitsräume legen, welche konzentriertes, störungsfreies Arbeiten gewährleisten sollen, gestalten polychronische Kulturen ihre Arbeitsumgebung offener und geben damit Raum und Gelegenheit zu spontaner Kommunikation. Dadurch ergeben sich ständige Informationsflüsse, welche einen hohen Stand an Kontextwissen ermöglichen. Polychronische Kulturen sind folglich eher high context orientiert. Ebenfalls starke Interdependenzen ergeben sich im Zusammenhang mit der Sichtweise von Gegenständen und Privateigentum. Monochronische Kulturen haben hohen Respekt vor Privateigentum, borgen und leihen eher selten. Kontrastierend sind polychronische Kulturen der Leihe von Gegenständen gegenüber aufgeschlossener. 34 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Ein weiterer Aspekt der Zeitstrukturierung betrifft den kulturtypischen Fokus auf Vergangenheit, Gegenwart oder Zukunft. In Deutschland ist die Vergangenheit der Ausgangspunkt aller Überlegungen und Problemlösungen. Dementsprechend ist es üblich, den historischen Hintergrund ausführlich und - als low context Kultur - explizit zu beleuchten. Dies ist für gegenwartsbezogene Kulturen, wie die USA, ungewöhnlich. Probleme und Sachverhalte werden direkt angesprochen ohne deren Geschichte zu behandeln. High context Kulturen mit Vergangenheitsorientierung, wie z.B. Frankreich oder Japan, legen zwar ebenfalls großen Wert auf eine fundierte historische Basis, bringen dies aber nicht explizit zum Ausdruck, sondern erwarten, daß diese ohnehin bekannt und folglich implizit adressierbar ist. Neben der Zahl der gleichzeitig ausgeführten Tätigkeiten können sich Kulturen auch darin unterscheiden, welches Tempo und welcher Rhythmus den Aktivitäten zugrundeliegt, für Hall und Hall (1990, S.18) ein Aspekt der „Zeit als Kommunikation“. Unterschiedliche Rhythmen erschweren die Zusammenarbeit durch mangelnde Synchronisierung. Eine besonders kritische Phase im internationalen Management ist die der Entscheidungsfindung. Für Amerikaner ist es unverständlich, wenn Deutsche eine lange Zeitspanne benötigen, um eine endgültige Entscheidung zu treffen. Gleiches gilt für Japan. „Au Japon, les décisions en entreprise sont souvent très lentes par souci d’arriver à une expression consensuelle. Mais à une lente maturation préalable à la décision succède par contre une très grande rapidité de mise en oeuvre.“ (Ollivier et al., 1990, S.19). Der Charakter von Zeit als nonverbale Kommunikationsform wird deutlicher bei kulturspezifischen Usancen der Zeitvorausplanung. Unterschiede bestehen in der Bedeutung von Vorausplanung im allgemeinen, welche für die USA oder Deutschland als monochronische Kulturen hoch ist, für Frankreich als polychronische Kultur aber untergeordnet ist. Polychronische Kulturen sind, wie bereits erwähnt, sehr tolerant bezüglich ad hoc Änderungen von Zeitplänen. Ein spontaner Gesprächstermin ist daher bei gegebener Wichtigkeit einer Geschäftsbeziehung durchaus realistisch. In monochronischen Kulturen würde dies eine unerwünschte Unterbrechung darstellen. Spontanität wird demzufolge der genauen Zeitplanung untergeordnet. In den USA ist eine längere Vorausplanung ein Indikator für den hohen Stellenwert, welcher einer Beziehung beigemessen wird. Mit einer kurzen Frist bzw. einem spontanen Termin, wie dies z.B. in Frankreich oder Japan bei wichtigen Geschäften üblich ist, wäre in den USA das Gegenteil, nämlich Unwichtigkeit, zum Ausdruck gebracht. Daraus ist er- 35 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur sichtlich, welch ausgeprägte Inkompatibilität zwischen den Systemen besteht und wie bedeutsam interkulturelle Sensibilität ist. Die strikte Vorausplanung von Aktivitäten in monochronischen Kulturen führt aus Sicht polychronischer Kulturen einerseits zu einer zu langen Anlaufzeit. Andererseits bedeutet eine detaillierte Zeitplanung auch ein vordefiniertes Ende, welches aus monochronischer Sicht unbedingt einzuhalten ist. Für polychronische Kulturen ist dies unverbindlich und wird bei Bedarf neu festgelegt. Monochronische Kulturen geraten dadurch in Verhandlungssituationen leicht unter Zugzwang. Ein weiteres kulturelles Charakteristikum ist die Widmung verschiedener Zeitabschnitte im Tages- bzw. Jahresverlauf. So ist die übliche Dauer von Mahlzeiten im Tagesverlauf sehr unterschiedlich. Zusammenhänge bestehen mit der low versus high context Orientierung und der monochronischen versus polychronischen Ausrichtung. High context Kulturen nutzen die Einnahme von Mahlzeiten für Informationsaustausch und widmen dieser eine entsprechend lange Zeitspanne. Für monochronische Kulturen ist vor allem die Einhaltung des Zeitplans essentiell. Entsprechend der hohen Bedeutung von Zeit in monochronischen Kulturen, kommt der Wahl von Zeitspannen Kommunikationscharakter zu. So signalisiert die Wartezeit, welche ein Gesprächspartner einem anderen auferlegt, die zugeschriebene soziale Stellung und Wertschätzung. Vor allem bürokratische Systeme neigen zu dieser Ausdrucksform von Macht und Unterordnung. Allerdings kann lange Wartezeit auch als Hinweis von Desorganisation verstanden werden. In der interkulturellen Begegnung wesentlich ist jedoch, daß in polychronischen Kulturen Wartezeiten keine symbolische Kommunikationsbotschaft transportieren und entsprechende Interpretationen von seiten monochronischer Kulturen voreilig oder völlig unbegründet sind. Kulturspezifische Muster der Zeitwahrnehmung, Raumstrukturierung und Kontextorientierung implizieren bestimmte Formen des Informationsflusses in und durch Organisationen. Monochronische Kulturen verarbeiten einlangende Informationen nicht unmittelbar, sondern ordnen diese dem Zeitplan unter. Im Zusammenwirken mit einer low context Orientierung erfolgt der Informationsfluß linear in vordefinierter Weise. Polychronische Kulturen verarbeiten viele Informationen spontan und parallel. Die damit verbundene 36 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur high context Ausrichtung bewirkt ein starkes Diffundieren der Information durch viele Bereiche der Organisation gleichzeitig. Dies gewährleistet einen rascheren Informationsfluß und entsprechend schnellere Reaktionen. Bestimmten Schemata, welche die einzelnen Schritte im Ablauf von Aktivitäten regeln, kommt in verschiedenen Kulturen unterschiedliche Stringenz zu. Monochronische Kulturen legen großen Wert auf die genaue Einhaltung der Phasen. Nicht vorgesehene Zwischenschritte, wie ad hoc initiierte Treffen, werden als störende Unterbrechungen erlebt. Änderungen im Ablauf stellen aus monochronischer Sicht die Gesamtplanung in Frage. Für polychronische Kulturen sind Zeit- und Ablaufpläne weniger strikt. Neue Informationen können zu einem raschen Überdenken des vorgefaßten Ablaufs führen. Aufgrund der hohen Kontextinformation aller Mitglieder eines Projekts ist es eher wahrscheinlich, daß ein Beteiligter mit dem Fortgang unzufrieden ist und Änderungen moniert im Vergleich zum fraktionierten Prozeß in einer monochronischen Kultur, wo bis zum vordefinierten Zeitpunkt des Informationsaustausches individuell gearbeitet wird. Die skizzierten Dimensionen von Kultur demonstrieren, wie gegensätzlich Kulturen in ihren Kommunikationsstandards sein können. Die eigenen, von frühester Kindheit an erlernten Verhaltens- und Interpretationsmuster sind in der interkulturellen Begegnung nicht mehr adäquat, führen zu Mißverständnissen und Fehlinterpretationen. Die Aneignung fremdkultureller Standards zum besseren Verständnis kann die Interaktion erleichtern. Während jedoch die eigenkulturellen Muster weitgehend routinisiert und unbewußt wirksam sind, sind neu erlernte Standards kognitive Konzepte, die nicht automatisch ablaufen. Sie helfen bei der kulturadäquaten Dekodierung, dennoch können Emotionen vor dem Hintergrund der Frustration eigener Standards entstehen (vgl. Brislin und Yoshida, 1994, S.55), welche die interkulturelle Kommunikation nichtsdestotrotz zu einer großen Herausforderung machen. So kann ein Interviewer aus einer monochronischen Kultur mit einem festen Zeitplan, welcher in einem polychronischen Umfeld Befragungen durchführen soll, zwar kognitiv verstehen, daß sein Zeitplan nicht einhaltbar ist, weil sich seine polychronischen Interviewpartner leicht ablenken lassen und nicht an vereinbarte Zeiten halten. Dennoch sind emotionale Folgen, wie Verärgerung und Unmut möglich (vgl. dazu ein Beispiel in Hall und Hall, 1990, S.22). Auch wird klar, daß sich die gesamte Organisation kultursensitiv verhalten muß. Ist dies lediglich beim Interviewer der Fall (im Sinne 37 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur einer Akzeptanz polychronischer Rhythmen), so werden die Auftraggeber des Interviewers das Nichteinhalten des Plans nicht nachvollziehen können. Für Hall und Hall (1990, S.26f) gestalten sich interkulturelle Projekte dann besonders schwierig, wenn eine involvierte Kultur (oder die betroffene Branche) hohe Kontextinformation erfordert. Weiters erschwert hohe Komplexität des Projektgegenstandes (Elemente, Ebenen, Stellenwert von menschlichen Aktivitäten) die interkulturelle Kommunikation. Im allgemeinen nimmt die Problematik mit steigender Unterschiedlichkeit der Kulturen (kulturelle Distanz) zu. Einen besonderen Stellenwert bei der Bewältigung nimmt das aktive und passive Informationsverhalten ein. Low context Kulturen erwarten ausführliche und vor allem explizite Informationen. Mitglieder von high context Kulturen müssen dementsprechend Informationen liefern und können nicht auf implizites Wissen vertrauen. Umgekehrt müssen sich high context Kulturen bewußt sein, daß ausdrückliche Informationen in low context Kulturen üblich sind und nicht signalisieren, daß der betreffende Adressat darüber nicht Bescheid wisse. 3.3.2 Kulturdimensionen nach Kluckhohn und Strodtbeck (1975) Ein weiterer Ansatz der Konzeptualisierung von Kultur stammt von Kluckhohn und Strodtbeck (1975, zusammenfassende Darstellung z.B. bei Robbins, 1996) und umfaßt sechs Dimensionen. Die erste bezieht sich auf die Beziehung von Mensch und Natur bzw. Umwelt („relationship to the environment“). Die Ausprägungen auf dieser Dimension reichen von Unterordnung des Menschen gegenüber der Natur, über eine harmonische Beziehung bis hin zur Dominierung der Natur durch den Menschen. Kulturen, die sich Umwelteinflüssen unterordnen bzw. sich als - mehr oder weniger gezwungenermaßen unterordnend erleben, sehen Ereignisse als natur- oder gottgegeben, während die Umwelt dominierende Kulturen sich als die Natur kontrollierend sehen (Robbins, 1996, S.53). Der Ausdruck „kontrollierend“ legt eine Bezugnahme auf das Konzept der Attribution aus der Sozialpsychologie nahe (vgl. exemplarisch Herkner, 1991, S.345). Die Attributionstheorie befaßt sich auf individueller Ebene mit Ursachenzuschreibungen. Vereinfacht können Ereignisse und Ergebnisse von - auch sozialen - Handlungen ursächlich entweder auf die eigene Person zurückgeführt werden (erlebte Kontrollierbarkeit) oder auf äußere Umstände (Zufall, mächtige andere Personen; erlebte Unkontrollierbarkeit). Das Konzept von 38 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Kluckhohn und Strodtbeck sieht in der Kulturzugehörigkeit einen allgemeinen Einflußfaktor des Attributionsstils. Für die Zielsetzung in Organisationen wirkt sich die Ausprägung auf dieser Dimension insoweit aus, als sich unterordnende Kulturen der Setzung von Zielen grundsätzlich eine geringe Bedeutung zuweisen, da deren Erreichung ohnehin nicht auf eigenem Tun basieren kann (Robbins, 1996, S.53). Kulturen in Harmonie mit Umwelteinflüssen setzen zwar Ziele, sind bei deren Erreichung aber flexibel und Zielanpassungen gegenüber aufgeschlossen. Die Natur dominierende Kulturen fixieren Ziele mit hoher Bestandskraft. Die Erreichbarkeit wird als im Vermögen des Betroffenen erlebt, eine Divergenz von Soll- und Isterfüllung dementsprechend der Person angelastet. Die zweite Dimension wird als Zeitorientierung bezeichnet und erinnert an die Dimension des Fokus der zeitlichen Orientierung bei Hall und Hall (1990). Bei Hall und Hall wird mit Zeitorientierung in erster Linie eine zeitliche Schwerpunktsetzung gemeint. Ein vergangenheitsbezogener Fokus bewirkt, daß Probleme und deren Lösungen stets vor ihrer geschichtlichen Genese betrachtet werden, während gegenwartsbezogene und auf die nahe Zukunft gerichtete Kulturen dem historischen Hintergrund nur sehr untergeordnet berücksichtigen. Bei Kluckhohn und Strodtbeck wird auf eine Zeitraumperspektive abgestellt. So weist in diesem Sinne Japan eine langfristige Ausrichtung auf (Robbins, 1996, S.54). Dementsprechend werden beispielsweise Mitarbeiter in langen Intervallen evaluiert und haben oft bis zu 10 Jahre und mehr Zeit, sich zu profilieren. Dagegen sind die USA als kurzfristig orientierte Gesellschaft durch wesentlich kürzere Evaluationszyklen gekennzeichnet, da Zielerreichungen in kurzen Fristen überprüft werden. Dimension (Extrem-)Ausprägungen Relationship to the environment domination - harmony - subjugation Time Orientation past - present - future Nature of People good vs. evil Activity Orientation being - controlling - doing Focus of Responsibility individualistic - group - hierarchical Conception of Space private vs. public Tabelle 2: Kulturdimensionen nach Kluckhohn und Strodtbeck (1975) 39 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Die dritte Dimension im Rahmen des Kulturkonzepts von Kluckhohn und Strodtbeck beschreibt die Grundeinstellung zur menschlichen Natur. Diese kann in ihren Extremausprägungen positiv („gut“) oder negativ („böse“) sein. In Abhängigkeit von diesem grundlegenden Menschenbild sind Präferenzen hinsichtlich von Führungsstilen naheliegend (Robbins, 1996, S.54). Für Kulturen mit negativem Menschenbild erscheinen autokratische Stile vorteilhafter und adäquater. Robbins (1996, S.54) führt als Beispiel Nordkorea an. Kulturen mit mittlerer Ausprägung (nach Robbins, 1996, S.54, z.B. die USA) bevorzugen partitive Führungsstile, allerdings mit Kontroll- und Evaluationsroutinen. Für Gesellschaften mit unbeschränkt positivem Menschenbild erscheinen solche Kontrollmaßnahmen überflüssig, Führungsstile nähern sich dem laissez-faire an. Robbins nennt allerdings kein praktisches Beispiel dazu. Aktivitätsorientierung ist die vierte Dimension des Konzepts. Für diese Dimension werden drei Ausprägungstypen angegeben: Kulturen mit dem Schwerpunkt auf Aktivitäten („doing“), solche die sich auf das Sein, die Existenz des Augenblicks ausrichten („being“) und schließlich solche, die schwerpunktmäßig Kontrolle ausüben wollen („controlling“). Für „doing“-Kulturen wie z.B. die USA (Robbins, 1996, S.55) steht harte Arbeit im Vordergrund mit der Erwartung entsprechender materieller und nichtmaterieller Honorierung. „Being“-Kulturen wie z.B. Mexiko stellen demgegenüber die „Muße des Augenblicks“ in Form einer ausgedehnten Siesta in den Vordergrund. Frankreich als Beispiel einer „controlling“-Kultur wählen demgegenüber einen rationalen und logischen Zutritt. Als Gemeinsamkeit der „controlling“- und der „doing“-Ausrichtung wird die rationale Grundhaltung betrachtet, während „being“-Kulturen Entscheidungen primär emotional fällen (Robbins, 1996, S.55).1 Die Dimension Fokus der Verantwortlichkeit spiegelt den Gegensatz von Individualismus versus Kollektivismus wider. Verantwortlichkeit kann individualistisch (z.B. USA) oder gruppenbezogen (z.B. Malaysia, Israel) sein. Mittlere Ausprägungen werden als hierarchisch bezeichnet (z.B. Frankreich, Großbritannien). Die sechste und abschließende Dimension bei Kluckhohn und Strodtbeck betrifft die Konzeptualisierung des Raumes. 1. Diese Beurteilung ist meines Erachtens mit größter Vorsicht zu betrachten, besteht doch die Gefahr vor dem eigenen kulturellen Hintergrund jede Abweichung davon bei fremden Kulturen als irrational oder emotional einzuordnen. Vor allem aufgrund der wertenden Konnotationen des Begriffs „rational“ sollte dieser wie auch alle anderen Inferiorität einer Kultur vermuten lassende Termini im Bereich der Beschreibung von Kulturen vermieden werden. 40 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Diese kann in ihren Extremen privat oder öffentlich sein und ähnelt der Raumstrukturierung bei Hall und Hall (mehr oder weniger umfangreicher persönlicher Raum und territoriale Anordnung). Öffentlich orientierte Kulturen räumen der Privatsphäre weniger Stellenwert ein. Dementsprechend dominieren in Japan als öffentliche Kultur Großraumbüros, welche hierarchieübergreifend Mitarbeiter beherbergen. In den USA als private Kultur sind abgeschlossene Einzelbüros entsprechend weit verbreitet. Zusammenhänge lassen sich auch mit anderen Dimensionen bei Hall und Hall erkennen. So ist Informationsfluß in öffentlichen Kulturen schneller und weniger linear, wodurch wiederum ein hoher Kontextinformationsstand erzielt wird. 3.3.3 Kulturdimensionen nach Hofstede (1980, 1993) Ein umfassendes, auf umfangreichen empirischen Daten basierendes Konzept des Konstrukts Kultur entwickelte Hofstede (1980, 1993). Als Grundlage dienen Hofstede Datenerhebungen in 64 Ländern (Hofstede, 1992, S.306), wobei über 160 Items in 18 verschiedenen Sprachversionen zum Einsatz kamen (Hofstede, 1984, S.42). Insgesamt wurden in drei Befragungszyklen mehr als 160.000 Personen befragt, welche weltweit in Tochtergesellschaften eines in den USA ansässigen Unternehmens bzw. im Mutterunternehmen selbst tätig sind. Das Unternehmen wird zum Teil nicht namentlich genannt, sondern unter dem Pseudonym Hermes adressiert (Hofstede, 1984, S.62), an anderer Stelle aber als IBM identifiziert (Hofstede, 1993, S.28). Die Datenanalyse zielte auf die Ermittlung von Dimensionen ab, in welchen sich geographisch abgrenzbare Einheiten voneinander unterscheiden. Da der Untersuchung nur ein Unternehmen und damit eine einheitliche Unternehmenskultur zugrunde liegt, wurde der mögliche Einflußfaktor Organisationskultur konstant gehalten. Empirisch festgestellte Unterschiede lassen sich daher auf allgemein-kulturelle Standards zurückführen. Hofstede ermittelte ursprünglich vier Dimensionen, auf welchen sich Kulturen überdauernd unterscheiden. 41 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Dimension Individualismus - Kollektivismus Maskulinität - Femininität Ungewißheitsvermeidung Machtdistanz Langfristige - kurzfristige Orientierunga a. Diese Dimension wurde erst in einer ergänzenden Studie gefunden (Hofstede, 1984). Tabelle 3: Kulturdimensionen nach Hofstede (1980, 1984) Die erste Dimension wird entsprechend ihrer Extremausprägungen als IndividualismusKollektivismus-Dimension bezeichnet. In individualistisch geprägten Kulturen sehen sich Menschen primär als Einzelindividuen mit hoher Wertschätzung für persönliche Selbstbestimmung und Entscheidungsfreiheit. In kollektivistischen Kulturen erleben sich Menschen dagegen in erster Linie als Teil einer Gruppe. Erfolge wie Mißerfolge werden gruppenbezogen attribuiert. Die empirischen Ergebnisse von Hofstede (1991, S.53), basierend auf einem Individualismus-Index, weisen die USA im Rahmen von 53 Ländern und 3 Regionen („arabische Länder“, „Ost-Afrika“ und „West-Afrika“) als die am meisten individualistisch geprägte Kultur aus (mit einem Score von 91 auf einer Skala von 0 bis 100). Diese und alle weiteren Scores stellen allerdings nur relative Positionen der Länder zueinander dar, da die Werte auf Faktorscores beruhen. Die unmittelbar folgenden Kulturen (Australien mit 90, Großbritannien 89, Kanada und Niederland je 80) sind ebenfalls typische Vertreter sogenannter „westlicher“ Kulturen. Österreich liegt mit 55 Punkten im mittleren Bereich der Skala und markiert den Wendepunkt von individualistischen zu kollektivistischen Kulturen. Letztere umfassen asiatische Länder (wie z.B. Malaysia mit 26 Punkten, Hongkong 25, Thailand 20, Südkorea 18 oder Indonesien 14), arabische Staaten (als Region zusammengefaßt mit einem Score von 38), südamerikanische Länder (Kolumbien 13, Ecuador 8 oder Guatemala 6), aber auch südeuropäische Kulturen (Griechenland 35, Portugal 27 und Jugoslawien 27). 42 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Betrachtet man die Dimension Individualismus versus Kollektivismus vor dem Hintergrund Freud’scher Sicht von Kultur (als Einschränkung individueller Freiheit), so könnte man diese Dimension auch als Stärke der Durchsetzung kultureller Normen sehen. Individuelle Freiheit ist kein Kulturgut (Freud, 1930, S.226), sondern vielmehr der Gegenpol von Kultur! Individualistische Kulturen zeichnen sich demnach durch weniger reglementierende Einflüsse, damit in gewisser Weise durch „weniger Kultur“, aus. Kultur ist in diesem, wie auch in jedem anderen, auf den in dieser Arbeit Bezug genommen wird, freilich wertfrei zu sehen. Kultur wird in keiner Weise als Vervollkommnung gesehen (vgl. Freud, 1930, S.226). In kollektivistischen Kulturen dagegen ist das kulturelle Regelwerk umfangreicher, drängt individuelle Freiheit stärker zurück. Dieser Sichtweise folgend, wäre die Dimension Individualismus versus Kollektivismus eine Metadimension gegenüber weiteren Dimensionen, welche die Wirkungsweise der kulturellen Beeinflussung inhaltlich beschreiben. Der Unterschied in der Interpretation liegt darin, daß nach Hofstede in kollektivistischen Kulturen die Individuen stärker gruppenorientiert sind, also die Ziele der Gruppe zu den eigenen, individuellen machen. Legt man die Sichtweise Freuds zugrunde, so sind die Ziele der Individuen in kollektivistischen Kulturen keineswegs andere als in individualistischen Gesellschaften, die Individuen sozusagen keine „Termiten“, sondern allein die Stärke der Durchsetzung und die Mannigfaltigkeit kultureller Einschränkung ist stärker. Die zweite von Hofstede identifizierte Dimension baut auf Charakteristika traditioneller Geschlechtsrollen auf und wird dementsprechend durch ihre Extremausprägungen maskuline versus feminine Orientierung bezeichnet. Im Falle maskuliner Orientierung genießt das Leistungsstreben Vorrang vor zwischenmenschlichen Zielsetzungen, wie Solidarität, soziale Beziehungen und Sensitivität. Feminin orientierte Kulturen verfolgen umgekehrte Prioritäten. Hofstede rechtfertigt die Wahl der Begriffe und vor allem die Zuordnung von maskulin zur „harten“ Rolle und feminin zur „weichen“ Rolle, damit, daß diese Entsprechung soziale Realität ist und keine persönlichen Vorlieben widerspiegelt oder widerspiegeln soll (Hofstede, 1991, S.107, Fußnote 1). Überdies ist auf die Kontinuierlichkeit der Dimension hinzuweisen, das Begriffspaar maskulin und feminin markiert lediglich Extremausprägungen. Weiters bedeutet ein Dimensionswert einer Kultur nicht, daß zwischen den biologischen Geschlechtern keinerlei Unterschiede hinsichtlich ihrer 43 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Wertvorstellungen bestünden (Hofstede, 1991, S.85). Vielmehr stellt der Dimensionswert einer Kultur lediglich ein Durchschnittsniveau dar. Ein Maskulinitätsindex (Skala 0 bis 100) sieht Japan als die am stärksten maskulin geprägte Kultur (95 Punkte, Hofstede, 1991, S.84), gefolgt von Österreich (79) und Venezuela (73). Am entgegengesetzten Pol befinden sich die skandinavischen Staaten (Schweden 3, Norwegen 8 und Dänemark 16), sowie die Niederlande (14). Auffallend ist die hohe Variabilität innerhalb abgeschlossener Weltgegenden. So sind Vertreter Südamerikas unter 50 Ländern und 3 Regionen an 3. Stelle (Venezuela), an 27. Stelle (Brasilien), an 37. Position (Peru), sowie am 46. Rang zu finden, verteilen sich also über das gesamte Skalenspektrum. Gleiches gilt für Asien (Philippinen an 11. Stelle, Thailand an 44.), für Nord- und Südeuropa. Die dritte Kulturdimension nach Hofstede ist die mehr oder weniger stark ausgeprägte Vermeidung von Ungewißheit. Kulturen mit starker Ungewißheitsvermeidungstendenz versuchen, über zukünftige Situationen größtmögliche Klarheit zu gewinnen. Neuartige, ungewohnte Situationen werden als unangenehm erlebt. Dementsprechend werden langfristige Planungen bevorzugt (vgl. Müller und Kornmeier, 1995). Kulturen mit geringerer Vermeidungstendenz für Ungewißheit sind gegenüber Änderungen und neuen Situationen toleranter. Ein entsprechender Index (Hofstede, 1991, S.113) sieht Griechenland (Score 112) als die Kultur mit der größten Unsicherheitsvermeidung. Österreich liegt im Mittelfeld (70 Punkte, 24. Position). Die Länder mit der geringsten Ausprägung sind Singapur (8), Jamaica (13) und Dänemark(23). Die vierte Dimension nach Hofstede bezeichnet die Machtdistanz, welche gesellschaftlich akzeptiert wird. Kulturen mit hoher Machtdistanz sind durch große Unterschiede hinsichtlich der sozialen Stellung der Individuen und des Prestige, welches diese genießen, gekennzeichnet. Organisationen sind dementsprechend streng hierarchisch strukturiert, Entscheidungen werden zentral getroffen (Müller und Kornmeier, 1995, S.149). Hofstedes Analysen weisen Malaysia als die Kultur mit der größten Machdistanz aus, Österreich mit der geringsten. Müller und Kornmeier (1995, S.152) weisen daraufhin, daß Faktorenanalysen von auf Länderniveau aggregierten Daten bei orthogonaler Faktorenrotation lediglich drei Faktoren ergeben. Die Dimensionen Machtdistanz und Individualismus 44 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur versus Kollektivismus werden durch einen Faktor abgebildet. Auch aus einer Gegenüberstellung der beiden entsprechenden Indexwerte bei Hofstede (1991, S.54) ist ein Zusammenhang ersichtlich. Geringe Machtdistanz geht mit Individualismus einher. An anderer Stelle findet sich bei Hofstede (1984, S.63) ebenfalls eine Faktorenanalyse auf länderaggregierter Ebene, welche zum gleichen Ergebnis, also drei Faktoren, kommt. Die vierdimensionale Lösung Hofstedes geht auf die Analyse von Teilstichproben zurück (Hofstede, 1984, S.60). In einer nachfolgenden Studie in 23 Ländern, welche von chinesischen Studenten durchgeführt wurde („The Chinese Culture Connection“, 1987), wurde eine fünfte Dimension identifiziert, welche die zeitliche Orientierung erfaßt und dementsprechend „langfristige versus kurzfristige Orientierung“ genannt wird (Hofstede, 1992, S.310). Unter langfristiger Orientierung werden Wertvorstellungen wie Fleiß und Durchhaltevermögen verstanden (Hofstede, 1992, S.311), kurzfristige Orientierung impliziert Achtung von Traditionen, sozialen Verpflichtungen und das Streben, stets das „Gesicht zu wahren“ (Hofstede, 1992, S.311). Kulturen mit vergleichsweise kurzfristiger Ausrichtung sind Pakistan, die Region Westafrika, die Philippinen, aber auch Kanada und Großbritannien. Langfristig orientiert sind China, Hongkong und Taiwan. Die Tatsache, daß sich diese drei Staaten hinsichtlich ihrer Orientierung nicht unterscheiden, unterstreicht die hohe Bestandkraft kultureller Überlieferung. Weder der Einfluß einer - kurzfristig orientierten Kolonialmacht wie Großbritannien in Hongkong, oder der grundlegende Unterschied im wirtschafts- und gesellschaftspolitischen System zwischen China einerseits und Hongkong, sowie Taiwan andererseits, zeigen Auswirkungen auf diese Kulturdimension. In Darstellungen Hofstedes Konzept der Kulturdimensionen wird jedoch meist nur auf jene vier Dimensionen Bezug genommen, welche in der ursprünglichen Studie (IBM) gefunden wurden (vgl. exemplarisch Robbins,1996, S.56ff). Die Dimension feminine versus maskuline Orientierung wird gelegentlich anders benannt, um einerseits den Anschein einer Dichotomie und andererseits eine Zuordnung der Merkmale zum biologischen Geschlecht zu vermeiden. Robbins (1996, S.57) bezeichnet die Dimension daher als Gegensätzlichkeit von Quantität („money“, maskuliner Pol) und Qualität des Lebens (soziale Beziehungen, femininer Pol). 45 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur 3.4 Zusammenfassende Betrachtung der Konzepte Alle drei behandelten Kulturkonzepte stellen eine sinnvolle und vielversprechende Grundlage dar, die Variable Kultur in Vergleichsstudien weit über die bloße Unterscheidung anhand des Kriteriums „Land“ hinaus einzubeziehen. Zwischen den einzelnen Ansätzen bestehen Überschneidungsbereiche, aber auch Unterschiedlichkeiten der Begriffsdefinitionen, welche es zu beachten gilt, wenn einzelne Komponenten kombiniert werden. Die Wahl von Dimensionen entlang derer eine Operationalisierung von Kultur erfolgen kann, muß vor dem Hintergrund der konkreten Problemstellung beurteilt werden. Holzmüller (1995, S.171f) plädiert für Operationalisierungen, welche „sowohl harte (objektive) als auch weiche (subjektive) Indikatorvariablen einbeziehen“. Als harte Kriterien bieten sich beispielsweise volkswirtschaftliche Daten an (das Pro-Kopf-Bruttosozialprodukt korreliert positiv mit Individualismus, Hofstede, 1993, S.93), oder sozialwirtschaftliche, wie z.B. Frauenbeschäftigungsrate oder Streuung des Bildungsniveaus. Aus theoretischer Sicht besteht ein Defizit hinsichtlich der Integration der verschiedenen Ansätze. Clark (1990) unternimmt den Versuch, mehrere Konzepte in einem gemeinsamen Rahmen zu plazieren (vgl. auch Holzmüller, 1995, S.171). Die drei grundlegenden Bereiche umfassen das Verhältnis zur Autorität, zum Selbst und zum Risiko. Diese gehen in ihrer Charakterisierung auf Arbeiten von Inkelsen und Levinson (1969) zurück. Hofstedes Dimension Machtdistanz behandelt das Verhältnis zur Autorität, die Dimensionen Maskulinität und Individualismus die Beziehung zum Selbst und die Unsicherheitsvermeidungstendenz das Verhältnis zum Risiko. Bereits erwähnte empirische Befunde, wonach die Dimensionen Machtdistanz und Individualismus korrelieren (vgl. Müller und Kornmeier, 1995, S.152) stellen diese Zuordnung allerdings in Frage. 3.5 Interkulturelle und intrakulturelle Variabilität Ein möglicher Ansatz für Kritik an Kulturkonzepten ist die Relevanz interkultureller Unterschiede auf der Basis von länderaggregierten Größen vor dem Hintergrund intrakultureller Variabilität. Je größer die Varianz eines Merkmals innerhalb einer als Kultur abgegrenzten Einheit (Naroll, 1970, zitiert in: Triandis, 1980, S.2; verwendet den Begriff cultunit), desto bedeutungsloser sind Unterschiede der mittleren Ausprägungen zwischen den Einheiten. Aufgrund der hohen Heterogenität der Kulturgruppen sind solche Verglei46 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur che mit konzeptuellen Problemen behaftet (Triandis, 1980). Hall und Hall (1990, S.xx) lösen dieses Problem, in dem sie sich explizit nicht auf die Gesamtheit der Bevölkerung beziehen, sondern auf urbane Geschäftsleute, wie z.B. im Falle Frankreichs auf die Gebiete Paris und Lyon oder in Deutschland auf die Städte Frankfurt, Düsseldorf, Köln oder Hamburg. Diese Subkulturen sind homogener im Vergleich zu Gesamtkulturen. Auch Hofstedes Arbeiten beruhen auf empirischen Erhebungen in einem Unternehmen und sind daher wirtschaftsbezogen. Insoweit erscheint die Übertragbarkeit der Konzepte auf die internationale Managementforschung naheliegender als die Anwendung in der internationalen Konsumentenforschung, entstammen die Ergebnisse und Konzeptualisierungen doch der Managementforschung. Für die empirische Marketingforschung im allgemeinen und der Konsumentenforschung im speziellen ist jedoch gerade die Überprüfung der Übertragbarkeit eine Frage, die es zu beantworten gilt. Nur durch empirische interkulturelle Studien läßt sich beispielsweise überprüfen, inwieweit kulturbedingte Verzerrungen bei Datenerhebungen auftreten und ob Beziehungen zu den genannten kulturellen Dimensionen bestehen. Die Gegenüberstellung von interkultureller und intrakultureller Variabilität muß sich letztlich mit der Frage auseinandersetzen, ob die kulturelle Zugehörigkeit einen direkten Einfluß auf individuelle psychologische Charakteristika (Persönlichkeitseigenschaften) ausübt. Für Verfechter des Konzepts des Nationalcharakters (Inkelsen und Levinson, 1969) bestimmt die kulturelle Zugehörigkeit das durchschnittliche Niveau einer Persönlichkeitseigenschaft. Mitglieder einer Kultur weisen demnach - ungeachtet einer interindividuellen Verteilung - auf einer Persönlichkeitsdimension im Durchschnitt höhere Werte auf als Mitglieder einer anderen Kultur. Die empirische Überprüfung eines solchen Zusammenhangs erfordert daher Meßinstrumente, welche valide Mittelwertsvergleiche erlauben und frei von additiven Biases sind. Das Konzept des Nationalcharakters ist im Hinblick auf seine möglichen Implikationen problematisch. Die - berechtigte oder unberechtigte - Annahme eines als kulturell begründeten Niveaus einer Persönlichkeitseigenschaft, deren Ausprägungen unterschiedlich bewertet werden (wie z.B. Aggressivität, Bestreben zu dominieren, etc.), kann die Basis für nationale Stereotypien und Vorurteile sein. Die Existenz von Nationalcharakteren wurde weder eindeutig bestätigt noch widerlegt (Usunier, 1996, S.15). Linton (1945, zitiert in 47 3 Definition von Kultur und Bedeutung des Einflußfaktors Kultur Usunier, 1996, S.15), ein Vertreter der Gegenposition, geht davon aus, daß Persönlichkeitseigenschaften individueller Natur sind und durch kulturelle Variablen nicht direkt beeinflußt werden. Die Wirkung von Kultur zeige sich zwar auf der Verhaltensebene, wo kulturelle Standards die Integration des Einzelnen in die Gesellschaft formen und bestimmen, nicht aber auf der Ebene von Persönlichkeitsvariablen. Kultur wäre demnach eine das Verhalten moderierende Variable. Eine gleiches Niveau zweier Kulturen auf einer Persönlichkeitseigenschaft ließe demzufolge nicht notwendigerweise auf gleiche Verhaltensweisen schließen. Dies ist konsistent mit Kotlers (1994) Sicht, wonach Kultur vor sozialen, persönlichen und psychologischen Faktoren den stärksten Einfluß auf das Konsumentenverhalten ausübt. Für die internationale Marktforschung bedeutet dies, daß der verhaltensbezogenen Validierung von Skalen ein hoher Stellenwert zukommt. 48 4 Methodische Probleme der kulturübergreifenden Forschung „Given the present state of affairs we would submit that it is unwarranted to ignore the problem of equivalence in intercultural studies. After all, comparing inequivalent data gives misleading outcomes about the nature and extent of cross-cultural differences in behavior.“ Malpass und Poortinga (1986, S.82) 4 Methodische Probleme der kulturübergreifenden Forschung 4.1 Kulturübergreifende (Markt-)Forschung als wissenschaftliche Disziplin Wissenschaftsdisziplinen lassen sich in der Regel durch ihre inhaltliche Domäne definieren bzw. voneinander abgrenzen. Der kulturübergreifenden bzw. kulturvergleichenden Forschung (cross-cultural research) fehlt - abgesehen von der Einbeziehung der Variable Kultur - die inhaltliche Bestimmbarkeit. Sie definiert sich primär durch die angewandten Methoden (Berry, 1980, S.1). „The field of cross-cultural psychology is, to a large extent, defined by its methods.“ (Lonner und Berry, 1986, S.11). Auch für Manrai und Manrai (1996) nimmt die (Weiter-)Entwicklung adäquater Methoden in der internationalen Marketingforschung eine bedeutsame Rolle ein. Eine mögliche Grundlage kulturübergreifender Forschung ist der Vergleich („Cross-cultural refers to comparisons of cultures.“, Triandis, 1980, S.2, Hervorhebung im Original). Der Vergleich ist geradezu ein Grundparadigma der wissenschaftlichen Methodik. Ohne Vergleiche könnten weder Unterschiede und Gemeinsamkeiten, noch Kovariation oder Kausalität beobachtet bzw. erschlossen werden (Berry, 1980, S.2). Kulturübergreifende Forschung bedient sich also keines Methodenfunduses eigener Art, vielmehr ist die Methodologie „(...) the same for comparative research across cultures as for other areas of empirical psychology (...)“ (Poortinga und Malpass, 1986, S.37). Allerdings ergeben sich durch die Einbeziehung der Kultur Unterschiede in den „difficulties, issues and strategies“ (Poortinga und Malpass, 1986, S.37). Kultur ist in diesem Sinne eine unabhängige Variable, deren Auswirkungen auf Verhaltensvariablen untersucht werden. Im Gegensatz zum klassischen Experiment ist dabei die Manipulierbarkeit der unabhängigen Variable durch den Versuchsleiter allerdings naturgemäß nicht gegeben, insoweit es sich folglich um einen quasi-experimentellen Ansatz handelt. „Essentially the method involves comparing two or more naturally occurring cases which differ substantially.“ (Berry, 1980, S.2, Hervorhebung im Original). Der quasiexperimentelle Ansatz birgt die Gefahr der Konfundierung verschiedener Effekte in einer 49 4 Methodische Probleme der kulturübergreifenden Forschung Variablen in sich. Für Campbell (1961, S. 449, zit. in Berry, 1980, S.2) ist „a comparison of a single pair of natural objects (...) nearly uninterpretable“. Diagnostizierte Unterschiede in Abhängigkeit von der Ausprägung der Variable Kultur sind somit nicht eindeutig kausal interpretierbar. „The problem in cross-cultural research is not the identification of differences between groups in some focal aspect of bahavior, but rather to protect the scientific value of these differences by making them interpretable.“ (Poortinga und Malpass, 1986, S.33). Für den Ausschluß alternativer Erklärungsmuster entscheidend ist die Operationalisierungsform von Kultur (vgl. Kapitel 3.3 auf Seite 30). Ein auf mehrere Dimensionen abstellendes Kulturmodell liefert jene Kontextinformationen, die nach Hsu (1972) die Voraussetzung für die Elimination rivalisierender Erklärungsansätze darstellt. In diesem Zusammenhang ist insbesondere die theoretische Fundierung von Hypothesen von großer Relevanz, wie sie auch von Manrai und Manrai (1996) gefordert wird. „With no explicit theory to interpret observed relationships, these cannot be fitted into a cumulative and systematic body of knowledge.“ (Poortinga und Malpass, 1986, S.19). Die theoretische Basis muß einen Zusammenhang zwischen der Ausprägung auf kulturellen Dimensionen einerseits und der Ausprägung auf verhaltens- oder einstellungsbezogenen Konstrukten anderseits schlüssig argumentieren. Werden kulturbedingte Unterschiede theoriegeleitet auf einen kulturellen Aspekt oder eine bestimmte Kombination kultureller Aspekte zurückgeführt und andere Aspekte bei der Auswahl der entsprechenden Kulturen konstant gehalten (Quasi-Manipulation einer Kulturdimension), so ist die ursächliche Rückführung auf diesen Aspekt naheliegend und vertretbar. Kulturelle Vergleiche können auch als Ex-post-facto-Experimente (vgl. Chmielewicz, 1979, S.113) gesehen werden. Im Unterschied zum Labor- und zum Feldexperiment kann der Forscher nicht aktiv die unabhängigen Variablen, die Kulturzugehörigkeit, verändern. Deshalb sollte besser die Bezeichnung „zielgerichtete Beobachtung“ Verwendung finden (Chmielewicz, 1979, S.113). Variationen der Kultur in der Realität werden beobachtet, um vorhandene Hypothesen zu verifizieren oder zu falsifizieren. Wenngleich „es im Prinzip unerheblich ist, ob die Variation durch den Experimentator oder aus anderem Anlaß erfolgt“, ist „im letzteren Fall gleiche oder höhere Sorgfalt anzuwenden“ (Chmielewicz, 1979, S.114). Für die tatsächliche Durchführbarkeit eines kulturellen Sozialexperiments ist neben der logischen Möglichkeit (Widerspruchsfreiheit), vor allem die theoretische 50 4 Methodische Probleme der kulturübergreifenden Forschung Möglichkeit zu prüfen (vgl. Chmielewicz, 1979, S.116). Die theoretische Möglichkeit wird beeinträchtigt, wenn keine prüfbaren Hypothesen vorhanden sind, sich die Sozialsysteme im Zeitablauf ändern und damit wiederholte Experimente zu unterschiedlichen Resultaten führen, sich die Experimentalvariablem von anderen Umwelteinflüssen nicht isolieren lassen, oder wenn der Experimentator die Ergebnisse beeinflußt, etwa durch Interaktionseffekte, die sich daraus ergeben, daß Befragter und Interviewer nicht der selben Kultur angehören. Die inhaltliche Gemeinsamkeit aller kulturübergreifender Forschungsvorhaben liegt, naheliegend, in der Kulturbezogenheit der unabhängigen Variable. Die Variation der unabhängigen Variablen erfolgt auf der Ebene von Nationen oder kultureller Gruppen (Berry, 1980, S.3) und in der Regel nicht auf dem Niveau von Provinzen oder Subkulturen. Aus methodischer Sicht bedeutet die Wahl möglichst distinkter Kulturen eine Maximierung der Varianz der abhängigen Variable. Zielsetzung ist dementsprechend deren kulturbasierte Erklärung. Dazu kontrastierend untersucht der „varianzminimierende“ Forschungsansatz (z.B. Berry und Annis, 1974) die kritische Schwelle der kulturellen Distanz, welche überschritten werden muß, um sich in statistisch bedeutsamen Unterschieden der abhängigen Variable zu manifestieren. Unabhängig von der Zielsetzung - Varianzmaximierung oder Varianzminimierung - erfolgt die Analyse auf der Ebene von (kulturellen) Gruppen und darin begründeter Unterschiede. Individuelle Differenzen sind somit nicht Gegenstand kulturübergreifender Forschung (Berry, 1980, S.3). Wie schon die Betrachtung der Konzeptualisierungen des Phänomens Kultur (vgl. Kapitel 3.3 auf Seite 30) ergab, sind kulturelle Charakteristika stets gruppenbezogen und schließen individuelle Varianz nicht aus. Aus Marketingsicht erscheint eine Kombination von kulturellen Variablen einerseits und psycho-, sowie demographischer Variablen andererseits durchaus zielführend und vielversprechend. So muß die Überprüfung der Hypothese der weltweiten Annäherung der Konsumentenbedürfnisse (Levitt, 1983) im Einzelfall sowohl kulturbezogene als auch persönlichkeitsbezogene und demographische Variablen berücksichtigen. Die Überprüfung der korrekten Identifikation kulturübergreifender, aber homogener Kundensegmente zielt demnach darauf ab, die Unabhängigkeit der Einstellungs- und/oder Verhaltensvaria- 51 4 Methodische Probleme der kulturübergreifenden Forschung blen von der Kulturzugehörigkeit zu bestätigen, gleichzeitig jedoch die Abgrenzbarkeit der Segmente hinsichtlich psycho- und demographischer Variablen nachzuweisen. Die Trennlinien der Segmentierung sind somit nicht kulturbestimmt, sondern verlaufen intrakulturell. Die große Bedeutung der Kulturzugehörigkeit für das Konsumentenverhalten (nach Kotler, 1994, der dominante Einflußfaktor) läßt es jedoch nicht zu, grundsätzlich anzunehmen, daß Kulturzugehörigkeit keine Auswirkung hätte. Dies ist vielmehr empirisch zu überprüfen. Kulturübergreifende Marketingforschung ist demnach nicht per se darauf ausgerichtet, Unterschiede zu bestätigen, sondern vielmehr auch Gemeinsamkeiten nachzuweisen, wenn dies theoriegeleitet plausibel erscheint. Grundvoraussetzung für inhaltliche Aussagen über bestehende Differenzen oder Gemeinsamkeiten ist die formale Gültigkeit der angewendeten Theorie bzw. des Meßmodells. Dies ist konsistent mit der Ansicht von Manrai und Manrai (1996), wonach interkulturelle Forschung die Grundlage für die Verallgemeinerung von Konsumentenverhaltenstheorien darstellt. Die Varianz der abhängigen Variablen kann nur dann vollständig untersucht und erklärt werden, wenn diese durch die Betrachtung mehrerer Kulturen in ihrer Gesamtheit präsent ist (Berry, 1980, S.5). Für kulturübergreifende Marketingforschung ist somit definitionsgemäß die Berücksichtigung des Einflusses der Kulturzugehörigkeit konstituierendes Element, dies impliziert jedoch keine Beschränkung darauf. Triandis et al. (1972, S.1) definieren kulturübergreifende psychologische Forschung folgendermaßen: „Cross-cultural psychology includes studies of subjects from two or more cultures, using equivalent methods of measurement, to determine the limits within which general psychological theories do hold, and the kinds of modifications of these theories that are needed to make them universal.“ Eine Analyse der Elemente dieser auf die kulturübergreifende Marketingforschung übertragbaren Definition läßt sich wie folgt zusammenfassen: • Die betrachteten Untersuchungseinheiten müssen aus mindestens zwei verschiedenen Kulturen stammen. • Der Vergleich über Kulturen hinweg erfordert äquivalente Meßmethoden, welche sinnvolle Aussagen über Unterschiede oder Gemeinsamkeiten ermöglichen. 52 4 Methodische Probleme der kulturübergreifenden Forschung • Das primäre Ziel der Untersuchung ist die Ermittlung der Gültigkeitsgrenzen von Theorien. • Eine weitere Zielsetzung besteht in der Generierung von Ansätzen zu Theorieanpassungen und -modifikationen zur Überwindung der eingeschränkten Gültigkeit von Theorien. Die Zielsetzung kulturübergreifender Forschung ist demnach die Prüfung der transkulturellen Gültigkeit einer Theorie. Dies erfordert zum einen, trivial, die Einbeziehung mehrerer Kulturen, wie dies bereits angesprochen wurde, zum anderen aber auch äquivalente Meßmethoden. Diese Grundvoraussetzung und die sich daraus ergebenden methodischen Probleme sind letztlich das gemeinsame Element aller kulturübergreifenden Forschungsstudien. Meßmethoden gelten in diesem Zusammenhang dann als äquivalent, wenn das Zustandekommen eines Meßwertes unabhängig von der kulturellen Zugehörigkeit in gleicher und damit vergleichbarer Weise erfolgt. Die Forderung äquivalenter Meßmethoden ist allerdings keine spezifische der interkulturellen Forschung. Für jede Form der vergleichenden Forschung ist die Äquivalenz der Meßmethoden eine conditio sine qua non. In der intrakulturellen Forschung wird diese Forderung in der Regel nicht explizit erhoben. Es wird vielmehr davon ausgegangen, daß für anhand demo- und psychographischer Merkmale beschriebener Gruppen meßmethodische Äquivalenz gegeben ist. Die Tatsache, daß diese Forderung im Rahmen der kulturübergreifenden Forschung explizit erhoben wird, und damit deren Überprüfung zum Untersuchungsgegenstand bzw. zur Forschungsfrage wird, liegt in der Besonderheit der Variable Kultur begründet. Für innerhalb einer Kultur differenzierende Variablen wird zwar angenommen, daß diese, forschungslogisch, unabhängigen Variablen kausale Effekte auf abhängige Variablen der Einstellung oder des Verhaltens hin ausüben. Die Unterschiedlichkeit der betrachteten Subjekte manifestiert sich aber nur auf der inhaltlichen Ebene. Es wird jedoch nicht angenommen, daß die verschiedenen Ausprägungen der unabhängigen Variable auf der Metaebene, also auf der Ebene des Meßmodells, unterschiedliche Reaktionsweisen auf das Meßinstrument bedingen. Im Gegensatz dazu impliziert unterschiedliche kulturelle Zugehörigkeit die Möglichkeit unterschiedlicher Reaktionsweisen auf Meßinstrumente (Items, Stimuli) und damit ein nicht äquivalentes Zustandekommen von Meßwerten. Es ist dementsprechend nicht die grundsätzliche Relevanz der Meßäquivalenz, welche intrakulturelle Forschung von intrakultureller unterscheidet, sondern deren besondere Relevanz und 53 4 Methodische Probleme der kulturübergreifenden Forschung die daraus folgende explizite Thematisierung. Zweifelsohne ist die Dringlichkeit der Überprüfung der Meßäquivalenz bei interkulturellen Studien ungleich größer. Doch auch bei intrakulturellen Forschungsvorhaben stellt sich die Frage der Vergleichbarkeit. So ist beispielsweise zu hinterfragen, inwieweit Erhebungsdaten unterschiedlicher Altersgruppen miteinander vergleichbar sind. Es ist denkbar, daß sich die im Lebensaltersverlauf unterschiedlich verteilenden Lernerfahrungen mit Erhebungsinstrumenten, wie z.B. mit innovativen rechnergestützten Erhebungsformen auf der Basis neuer Informationstechnologien (World Wide Web, etc.), aber auch mit klassischen Fragebögen, in Form von Kohorteneffekten manifestieren. Vergleiche, welche ohne Reflexion solcher Effekte vorgenommen werden, beruhen potentiell auf Meßartefakten. Ein weiteres von der Problematik der Vergleichbarkeit besonders betroffenes Feld der Betriebswirtschaftslehre ist, aufgrund unterschiedlicher Formen betrieblicher Organisationskultur, die Personalwirtschaft. Ein beispielsweise zu Mitarbeiterevaluationszwecken durchgeführter Vergleich von Erhebungsdaten über unterschiedliche Organisationskulturen hinweg liefert nur dann valide Ergebnisse, wenn die einzelnen Formen der Organisationskulturen keine spezifischen Reaktionsmuster auf Stimuli des Meßinstruments bedingen. Organisationskulturen unterscheiden sich dabei grundsätzlich von „gewöhnlichen“ Subkulturen. Während Subkulturen innerhalb einer Kultur dieser untergeordnet sind und eine Form der weitergehenden Ausdifferenzierung darstellen, kann eine unternehmensbezogene Organisationskultur auch Elemente aus völlig fremden Kulturen enthalten. Dies ist insbesondere dann zu erwarten, wenn sich ein Unternehmen im ausländischen Eigentum befindet und fremdkulturelle Normen im Unternehmen wirksam werden. 4.2 Vergleichbarkeit Die Voraussetzung für sinnvolle Vergleiche, also für Vergleichbarkeit, ist das äquivalente Zustandekommen von Meßwerten. Berry (1980, S.8) nennt zwei Aspekte der Vergleichbarkeit: „To compare two phenomena, they must share some feature in common; and to compare them to some advantage, they should usually differ on some feature.“ Der erste Aspekt („share some feature in common“) ist gleichbedeutend mit der Forderung, daß die untersuchten Phänomene auf der gleichen Dimension abbildbar sein müssen. Vergleichbarkeit erfordert somit dimensionale Identität (Frijda und Jahoda, 1966). Berry betont, 54 4 Methodische Probleme der kulturübergreifenden Forschung daß die dimensionale Übereinstimmung gezeigt, also empirisch nachgewiesen werden muß. Zwei Wege bieten sich dabei grundsätzlich an. Zum einen können „Universalien“ herangezogen werden; Phänomene, welche in ihrer Existenz aufgrund anthropologischer, biologischer oder sprachlich-linguistischer Erkenntnisse universell, also kulturunabhängig sind (vgl. Lonner, 1980, für einen ausführlichen Überblick). So läßt sich etwa der Ausdruck von Emotionen („affective expression or mood“, Lonner, 1980, S.169) universell auf einer bipolaren Dimension abbilden, die mit „low“ versus „high“ bezeichnet werden kann. Für jede bekannte Kultur und jedes Individuum ist diese universelle Dimension anwendbar. Die Problematik von Universalien im Anwendungskontext der internationalen Marketingforschung liegt in ihrer Abstraktheit. Selten sind Verhaltensweisen Forschungsgegenstand, welche auf so hoher Generalitätsebene angesiedelt sind, daß diese den Anspruch der Universalität erheben könnten. Die alternative Möglichkeit der Gewährleistung von Vergleichbarkeit liegt in der empirischen Überprüfung und Bestätigung der Äquivalenz von Erhebungsdaten. Die Grenzlinie zwischen (echten) Universalien, deren interkulturelle Vergleichbarkeit angenommen werden kann und Phänomenen, deren Vergleichbarkeit empirisch nachgewiesen werden muß, ist allerdings nicht trennscharf. „So-called universals appear to differ particularly in the extent to which they are accessible to objective analysis.“ (Poortinga und Malpass, 1986, S.44). Van de Vijver und Poortinga (1982) klassifizieren Universalien durch vier Kategorien. Konzeptuelle Universalien sind theoretische Konzepte auf hoher Abstraktionsebene, welche aber einer empirischen Analyse nicht unmittelbar zugänglich sind. Schwache („weak“) Universalien sind solche, für die Konstruktvalidität in verschiedenen Kulturen nachgewiesen ist. Starke („strong“) Universalien sind dann gegeben, wenn ein Konzept auf einer Intervallskala meßbar ist und intrakulturelle Unterschiede (z.B. Meßwertedifferenz zwischen zwei Zeitpunkten) kulturübergreifend vergleichbar sind. Strikte („strict“) Universalien bestehen dann, wenn Konzepte auf einer identen Skala kulturübergreifend gemessen werden und folglich absolute Vergleiche aussagekräftig sind. Abgesehen von der Klasse der konzeptuellen Universalien, gründen sich alle Formen der Universalien nach Van de Vijver und Poortinga auf einer empirischen Überprüfung! Dies widerspricht terminologisch der Ansicht von Berry, wonach Universalien a priori und ohne die Notwendigkeit empirischer Überprüfung Vergleichbarkeit gewährleisten. Für die Praxis der interkulturellen Forschung im Marketing ist die terminologische Abgrenzung aber zweitrangig. Die Klassifikation von Van de Vijver und Poortinga unterstreicht vielmehr, daß Vergleichbarkeit nur 55 4 Methodische Probleme der kulturübergreifenden Forschung auf sehr hoher Abstraktionsebene angenommen werden kann. Also auf einer Ebene, die für die empirische Forschung weitgehend bedeutungslos ist. Der zweite von Berry genannte Aspekt der Vergleichbarkeit betrifft die Unterschiedlichkeit der Phänomene („they should usually differ on some feature“). Dieser Aspekt unterscheidet sich grundsätzlich vom ersten Aspekt im Hinblick auf die Ebene der Betrachtung. Die erste Forderung verlangt Identität auf der Metaebene der Dimensionalität und ist damit unabdingbare Voraussetzung für aussagekräftige Vergleiche. Die zweite Forderung zielt auf unterschiedliche Ausprägungen der betrachteten Kulturen auf eben der identen Dimension bzw. den identen Dimensionen ab. Während die erste Forderung ein methodischer Imperativ ist, in Ermangelung dessen Vergleichbarkeit nicht gegeben ist, stellt die zweite Forderung lediglich eine forschungspragmatische und -ökonomische Richtlinie dar. „If such differences were not to be found, then comparative enquiry would soon cease to be worthwile.“ (Berry, 1980, S.8). Werden also Phänomene untersucht, in denen sich Kulturen nicht unterscheiden, so werden damit befaßte Forschungsvorhaben auf Dauer zwecklos sein. Die Voraussetzung für diese Erkenntnis ist allerdings gerade das Vorliegen einer Reihe empirischer Indizien, welche dafür sprechen, daß Unterschiede nicht bestehen. „Cross-cultural psychology is about the explanation of differences - and sometimes similarities - in the behavior of people belonging to different cultures.“ (Poortinga und Malpass, 1986, S.17, eigene Hervorhebung). Erst wenn durch eine Vielzahl von Studien belegt ist, daß keine kulturbedingten Unterschiede hinsichtlich eines Phänomens existieren, berührt ein weiteres Forschungsprojekt keine relevante Forschungsfrage. Für Studien, die bis dahin durchgeführt wurden, ist Vergleichbarkeit allerdings im Sinne dimensionaler Äquivalenz eine Grundvoraussetzung. Für Adler (1983, S.30) ist die Schwerpunktsetzung der Suche nach Gemeinsamkeiten oder nach Unterschieden eine Funktion des grundlegenden Forschungsansatzes. Ethnozentrische kulturübergreifende Forschung geht von Theorien des Ausgangslandes aus und überprüft die Gültigkeit in anderen kulturellen Umfeldern. Die Zielsetzung besteht dabei in der Ausweitung des Gültigkeitsraumes der Theorie, die Suche ist demnach auf Gemeinsamkeiten ausgerichtet. Polyzentrische Forschung geht von keiner Ausgangskultur aus, sondern betrachtet mehrere Kulturen nebeneinander. Der Fokus der Forschung ist auf Unterschiede ausgerichtet. Komparative Forschung stellt ebenfalls Kulturen einander gegenüber, zielt aber sowohl auf Unterschiede als auch auf Gemeinsamkeiten ab. 56 4 Methodische Probleme der kulturübergreifenden Forschung Der zweite Aspekt in Berry’s Formulierung nimmt somit auf die inhaltliche Sinnhaftigkeit eines Forschungsvorhabens Bezug (soll etwas verglichen werden). Der erste Aspekt ist demgegenüber eine formale Forderung (kann etwas verglichen werden) und methodisch weitaus grundlegender. Die Zielsetzung vorliegender Arbeit ist demnach die Beantwortung methodischer Fragestellungen der Vergleichbarkeit, sowie die Erarbeitung ihrer Voraussetzungen. Poortinga und Malpass (1986, S.39) betonen, daß die empirische Prüfung der Universalität einer Theorie gerade erst durch empirische Studien demonstriert werden kann, welche keine Unterschiede zwischen verschiedenen Kulturen zeigen. Die Suche nach kulturübergreifender Gemeinsamkeiten ist in diesem Sinne durchaus ein wertvoller Beitrag zur Prüfung von Theorien. Der Beachtung methodischer Probleme ist dabei höchste Priorität beizumessen. Finifter (1977, S.155, zitiert in: Poortinga und Malpass, 1986, S.39) illustriert die Problematik: „Failure to reproduce a finding in the same culture usually leads the investigator to question the reliability, validity and comparability of the research procedures used in the two studies for possible method artifacts. But failure to corroborate the same finding in a different culture often leads to claims of having discovered ’cultural’ differences.“ Vergleiche über Kulturen hinweg und deren Sinnhaftigkeit werden jedoch auch grundlegend in Frage gestellt. Malinowski (1988) geht davon aus, daß jede Kultur nur in deren eigenen Begriffssystemen verstanden werden kann und jede Art von Institution als Produkt des kulturellen Hintergrunds zu sehen ist („radikaler kultureller Relativismus“, vgl. Poortinga und Malpass, 1986, S.41). Versuche, interkulturelle Vergleiche anzustellen, sind demzufolge a priori zum Scheitern verurteilt. Durkheim (1981) geht ebenfalls davon aus, daß soziale Phänomene nur im Rahmen der sie hervorbringenden kulturellen Rahmenbedingungen interpretierbar sind. Einen Ausweg, welcher diese Bedenken berücksichtigt, sieht Köbben (1970, zitiert in: Berry, 1980, S.9) darin, statt spezifischer Aspekte („single traits“), Komplexe aggregierter Einzelaspekte („complexes of traits“) zu untersuchen und zu vergleichen. Zu weit reichende Abstraktion ist aber ebenso problematisch. „[T]he higher our level of abstraction the greater the danger that our generalizations are commonplace“ (Köbben, 1970, S.585, zitiert in: Berry, 1980, S.9). 57 4 Methodische Probleme der kulturübergreifenden Forschung Die Frage des Abstraktionsniveaus ist demnach von zentraler Bedeutung. Ein zu geringes Allgemeinheitsniveau birgt die Gefahr in sich, Vergleichbarkeit nicht gewährleisten zu können. Ein zu hohes Niveau stellt die anwendungsbezogene Relevanz in Frage. 4.3 Interkulturelle Äquivalenz Wie bereits dargestellt, ist, abgesehen von universellen Phänomenen (Universalien), die Vergleichbarkeit durch interkulturelle Äquivalenz der Erhebungsdaten zu belegen. Für Berry und Dasen (1974) sind drei Arten von Äquivalenz zu demonstrieren: funktionale (functional), konzeptuelle (conceptual) und metrische (metric) Äquivalenz. Jede dieser Formen „[provides] some evidence for dimensional identity“ (Berry, 1980, S.9). 4.3.1 Funktionale Äquivalenz (functional equivalence) Der Begriff der funktionalen Äquivalenz geht auf Frijda und Jahoda (1966), sowie Goldschmidt (1966) zurück. Funktionale Äquivalenz ist nach Berry (1980) dann gegeben, wenn die untersuchten Verhaltensweisen in allen untersuchten Kulturen Reaktionsformen auf ein Problem sind, welches von allen Kulturen geteilt wird. Wenn die untersuchte Verhaltensweise in den betrachteten Kulturen mit unterschiedlichen Problemen assoziiert ist, also eine unterschiedliche Funktionalität aufweist, so sind Vergleiche auf der Basis dieser Verhaltensweise nicht möglich1. 4.3.2 Konzeptuelle Äquivalenz (conceptual equivalence) Konzeptuelle Äquivalenz zielt nach Berry (1980, S.9) auf die Bedeutung der eingesetzten Forschungsmaterialien (Stimuli, Konzepte) und des untersuchten Verhaltens ab. Nur wenn die eingesetzten Reize, wozu auch die in einem Fragebogen verwendeten Items zu zählen sind, in allen in der Untersuchung einbezogenen Kulturen die gleiche Bedeutung haben, sind Vergleiche möglich. Als Möglichkeit, konzeptuelle Äquivalenz zu prüfen, führt Berry die sorgfältige Untersuchung der lokalen Bedeutung von Konzepten im kognitiven System der jeweiligen Kulturen an. Operational erfaßt wird, soweit es sich um sprachliches Material handelt, diese Forderung - zumindest zum Teil - durch die Übersetzungsäquivalenz (translation equivalence). Letztere gilt dann als gegeben, wenn die Vorgangsweise der Vorwärts-Rückwärts-Übersetzung (Brislin, 1970) erfolgreich angewandt 1. Grundsätzlich ist ein Vergleich, auch der sprichwörtliche von Äpfel und Birnen, immer „möglich“. Hier wird unter „möglich“ jedoch nicht die bloße Durchführbarkeit verstanden, sondern die aussagekräftige Interpretierbarkeit eines Vergleichs. 58 4 Methodische Probleme der kulturübergreifenden Forschung wurde. Dabei wird der Text in der Ausgangssprache in die Zielsprache übersetzt und diese Version wieder in die Ausgangssprache rückübersetzt. Für jede der beiden Übersetzungen ist eine zweisprachige Person heranzuziehen. Stimmen die Originalversion und die aus der Zielsprache rückübersetzte Version überein, so ist von sprachlicher Äquivalenz auszugehen. Die Übereinstimmung muß zwar nicht wörtlich sein, jedoch semantisch (vgl. Holzmüller, 1995, S.230). Diese Vorgangsweise ist allerdings in der Praxis mit Problemen behaftet. So ist es beispielsweise denkbar, daß die Übersetzung in die Zielsprache Fehler aufweist, die für die Ausgangssprache typisch sind, z.B. Germanismen in einer englischsprachigen Übersetzung eines deutschen Textes. Solche Fehler werden von versierten Rückübersetzern erkannt. Im Zuge der Rückübersetzung wird der Ausgangstext daher korrekt rekonstruiert, ohne eine entsprechend äquivalente Zielsprachversion zu gewährleisten (vgl. Holzmüller, 1995, S.230). Der Erfolg dieser Strategie hängt somit entscheidend von der Auswahl der zweisprachigen Übersetzer ab. Holzmüller (1995, S.229) tritt für zweisprachige Personen ein, die beide Sprachen in deren jeweiligen kulturellen Umfeldern erlernt haben. Dies gewährleistet eine profunde Kenntnis des kulturellen Kontextes einer Sprache, welche für ein präzises Verständnis der Semantik unabdingbar ist. Bilingualen Personen, welche in ihrem Elternhaus zweisprachig aufgewachsen sind, fehlt der authentische kulturelle Hintergrund, welcher für die Äquivalenz der Übersetzung entscheidend ist. Ein weiterer Prüfschritt zur Gewährleistung sprachlicher Äquivalenz ist die Einschaltung einer Überprüfung der Zielsprachenübersetzung auf Verständlichkeit durch einsprachige Personen, ehe die Rückübersetzung erfolgt (Holzmüller, 1995, S.231). Die Erreichung sprachlicher Äquivalenz kann auch dadurch erleichtert werden, in dem bei der Ausgangsversion sprachliche Anpassungen zugelassen werden. Im Gegensatz zur zentrierten Übersetzung, wo die Ausgangsversion unveränderlich ist, werden bei der denzentrierten oder symmetrischen Übersetzung alle Versionen aufeinander abgestimmt (Holzmüller, 1995, S.231). Dies stellt letztlich einen zusätzlichen Freiheitsgrad für die Übersetzung dar. Unabhängig von der Zulässigkeit der Anpassung des Ausgangstextes, sollte dieser bereits so formuliert werden, daß äquivalente Übersetzungen erleichtert werden. So sollte auf grammatikalische Konstruktionen oder sprachliche Eigentümlichkeiten verzichtet werden, die lediglich in der Ausgangssprache möglich sind, in anderen Sprachen aber keine 59 4 Methodische Probleme der kulturübergreifenden Forschung Entsprechungen finden. Brislin (1980, 1986, vgl. auch Holzmüller, 1995, S.226f) formuliert zwölf Regeln zur Gestaltung des Ausgangstextes. Diesen zufolge soll die Originalversion aus kurzen Sätzen bestehen, Passiv-Konstruktionen sollten ebenso vermieden werden, wie Möglichkeitsformen. Diese Richtlinien sind allerdings auf die englische Sprache ausgerichtet (Holzmüller, 1995, S.227; Bauer, 1989, S.37) und nicht unbedingt auf andere Sprachen anwendbar. Als allgemeine, kultur- und sprachunabhängige Regel schlägt Holzmüller (1995, S.227) den Einsatz multikultureller Teams bei der Entwicklung verbaler Erhebungsinstrumente vor. Ein anderer Ansatz zur Überprüfung der konzeptuellen Äquivalenz nach Berry (1980) ist der Einsatz des semantischen Differentials (Osgood, 1953, 1965; Osgood et al., 1957). Dieses Verfahren dient der Erfassung und Messung der konnotativen Bedeutungen eines Begriffs. Ein vorgegebenes Wort ist dabei auf einer Reihe von bipolaren Skalen, welche durch begrifflich entgegengesetzte Adjektivpaare gebildet werden, durch eine entsprechende Markierung einzustufen. Osgood konnte faktorenanalytisch zeigen, daß sich die Einstufungen zu drei dahinterliegenden, latenten Dimensionen verdichten lassen. Diese Faktoren bezeichnet Osgood mit Bewertung (charakterisiert durch Paare wie gut-schlecht, schön-häßlich, etc.), Aktivierung (indiziert durch Paare wie aktiv-passiv, schnell-langsam, etc.) und Potenz (erfaßt durch Paare wie stark-schwach, hart-weich, etc.). Die durch diese Methodik ermittelte konnotative Bedeutung eines Wortes geht über die semantische Bedeutung im engeren Sinne hinaus. Gerade in der kulturvergleichenden Einstellungsmessung können unterschiedliche Bewertungen eines Begriffs einen substantiellen Antwortbias verursachen. Differenzen zwischen Kulturen reflektieren dann keine realen Unterschiede in der Einstellung, sondern lediglich Bedeutungsunterschiede der eingesetzten Begriffe. Beispielsweise ist der Begriff manipulieren im Deutschen im Vergleich zum englischen manipulate stärker negativ gefärbt. Die Gleichsetzung der Begriffe in der Übersetzung mag zwar semantisch noch korrekt sein, für die kulturvergleichende Forschung aber ungeeignet. Vor allem für Schlüsselbegriffe und solche, in denen die unterschiedlichen Konnotationen nicht so klar sind wie im Beispiel manipulieren-manipulate, bietet sich das Verfahren des semantischen Differentials als Ergänzung zu VorwärtsRückwärts-Übersetzungen an. 60 4 Methodische Probleme der kulturübergreifenden Forschung Ein dritter, von Berry (1980, S.10) angeführter Ansatz zur Analyse der konzeptuellen Äquivalenz setzt an linguistischen Studien an. Entsprechend der kognitiven Anthropologie (auch als ethnoscience bezeichnet, vgl. Brislin, 1980, S.421ff) weist jede Kultur ihre typischen Kategorisierungsmuster für Phänomene und Erfahrungen auf. Diese Muster der Einordnung von Begriffen reflektieren ebenfalls deren konzeptuelle Bedeutung. Weichen die Muster der untersuchten Kulturen stark voneinander ab, so ist davon auszugehen, daß konzeptuelle Äquivalenz nicht besteht. Chikudate (1997) setzt linguistische Untersuchungen im Rahmen eines Vergleichs der Organisationskultur japanischer und amerikanischer Banken ein, um die ethnozentrische Sichtweise bisheriger amerikanischer Studien zu überwinden. („These research attitudes conducted by U.S. behavioural scientists are ethnocentric.“ Chikudate, 1997, S.172) Ebenso wie die funktionale Äquivalenz, ist die, durch Übersetzungsäquivalenz, Untersuchungen mittels semantischer Differentiale und/oder linguistischer Analysen operationalisierte, konzeptuelle Äquivalenz notwendige, für sich allein jedoch nicht hinreichende Bedingung für aussagekräftige Vergleiche. functional equivalence conceptual equivalence translation equivalence semantic differential linguistic analysis metric equivalence subsystem validation scalar equivalence Abbildung 8: Formen der Äquivalenz nach Berry (1980) 4.3.3 Metrische Äquivalenz (metric equivalence) Als dritte Form der Äquivalenz nennt Berry (1980, S.10f) die metrische Äquivalenz. Diese zielt auf die psychometrischen Eigenschaften von Datensätzen ab. Die Überprüfung dieser Äquivalenzform setzt somit Erhebungsdaten voraus, kann also - im Gegensatz zur funktionalen und konzeptuellen Äquivalenz - erst nach der Datenerhebung überprüft werden. Unter psychometrischen Eigenschaften wird die Struktur und die Kohärenz der Daten verstanden. Dies kann zum einen auf das nomologische Netz (Churchill, 1995, S.538) der einbezogenen Konstrukte bezogen werden, zum anderen auf die innere Struktur eines Konstrukts. Im ersten Fall werden Beziehungen unabhängiger und abhängiger Variablen auf ihre kulturelle Invariabilität hin untersucht (von Roberts und Sutton-Smith, 1962, als subsystem validation bezeichnet). Dies entspricht einer nomologischen Validierung (vgl. 61 4 Methodische Probleme der kulturübergreifenden Forschung z.B. Steenkamp und van Trijp, 1991, S.294) der entsprechenden theoretischen Modelle in den einzelnen Kulturen. Im zweiten Fall wird die innere Struktur des Konstrukts in den einzelnen Kulturen verglichen (von Poortinga, 1975, als scalar equivalence bezeichnet, vgl. auch Irvine und Carroll, 1980). Skalare Äquivalenz ist dann gegeben, wenn die Korrelations- bzw. Kovarianzmatrizen innerhalb der Kulturen einander über die Kulturen hinweg ähneln. Für Malpass und Poortinga (1986, S.67) ist es jedoch nicht „immediately clear which conditions have to be satisfied for either confirmation or rejection of this essential equality“. 4.4 Rezeption in der interkulturellen Marketingforschung 4.4.1 Konzept von Douglas und Craig (1983) Das Bewußtsein für die Problematik interkultureller Vergleichsforschung wurde primär in der psychologischen Forschung entwickelt. In der Marketingdisziplin fanden methodologische Aspekte der kulturübergreifenden Forschung nur zögerlich Eingang. Dies mag zum einen am Timelag liegen, der üblicherweise zwischen der Entwicklung von mathematisch-statistischen Methoden und deren Anwendung in den Wirtschaftswissenschaften auftritt. Zum anderen ist die Hinwendung zum internationalen und globalen Marketing ein Phänomen der 80er und 90er Jahre des 20. Jahrhunderts. Mit der kognitiven Wende von der Annahme großer Kulturunterschiede, welche standardisierten Marketingkonzepten entgegenstehen, hin zur Suche nach universellen bzw. kulturübergreifenden Gemeinsamkeiten, welche hohes Standardisierungspotential darstellen, stieg die Zahl interkultureller Marketingforschungsvorhaben. Zeitgleich mit Levitts (1983) Publikation über die Globalisierung der Märkte, sensibilisierten Douglas und Craig (1983) die internationale Marketingforschung für Probleme der Äquivalenz von Daten. Die von Douglas und Craig (1983, S.137ff) vorgeschlagene Systematisierung der Äquivalenzaspekte geht von drei, sodann weiteruntergliederten Bereichen aus: der Konstruktäquivalenz (construct equivalence), der Meßäquivalenz (measure equivalence) und der Stichprobenäquivalenz (sampling equivalence). In „Global Marketing Strategy“ stellen Douglas und Craig (1995, S.68ff) die Äquivalenzaspekte (aus wertender Sicht des Autors: bedauerlicherweise) verkürzt und weniger systematisch dar. 62 4 Methodische Probleme der kulturübergreifenden Forschung Konstruktäquivalenz Konstruktäquivalenz besteht nach Douglas und Craig aus funktionaler (functional), konzeptueller (conceptual) und kategorialer Äquivalenz (category equivalence). Die Bedeutung von funktionaler Äquivalenz bei Douglas und Craig entspricht jener bei Berry (1980). Es muß überprüft werden, „whether a given concept or behavior serves the same function from country to country“ (Douglas und Craig, 1983, S.137). Douglas und Craig führen einige Beispiele für fehlende Äquivalenz an (Douglas und Craig, 983, S.137f). So ist die Funktion eines Fahrrades in den USA in erster Linie eine freizeitbezogene, während in den Niederlanden dem Fahrrad auch Verkehrsmittelcharakter zukommt. Erwachsenenfortbildungskurse sind in den USA vorranging individuell motiviert und werden als Freizeitgestaltung erlebt. Demgegenüber werden solche Kurse in Japan berufsbezogen beurteilt, weisen also eine andere Funktionalität auf. Die persönliche Entscheidung ist daher in den USA am Kriterium „was bringt der Kurs mir persönlich“ ausgerichtet, während in Japan die Frage „was bringt das meiner Firma“ im Mittelpunkt steht. Kulturen unterscheiden sich weiters in der sozialen Funktionalität, die bestimmten Produkten zukommt. So verliert in den USA das Automobil zunehmend an Wert als Indikator des sozialen Status seines Besitzers, während in weniger entwickelten Ländern ein Kraftfahrzeug für einen hohen Stellenwert des Eigentümers spricht. In Mexiko stellen, zumindest Anfang der 80er Jahre, auch Kühlschränke Statussymbole dar und werden dementsprechend im Wohnzimmer plaziert. Schließlich kann die Funktionalität von Objekten in einzelnen Kulturen auch gänzlich auf die soziale Komponente reduziert sein. In afrikanischen Ländern ist, so Douglas und Craig, der Besitz elektrischer Haushaltsgeräte aufgrund des damit verbundenen Sozialprestiges selbst dann attraktiv, wenn der Haushalt über elektrische Energie gar nicht verfügt, die sachliche Funktionalität also nicht gegeben ist. construct equivalence functional equivalence conceptual equivalence category equivalence measure equivalence calibration equivalence translation equivalence metric equivalence sampling equivalence individual versus group sample representativity Abbildung 9: Formen der Äquivalenz nach Douglas und Craig (1983) Die konzeptuelle Äquivalenz stimmt bei Douglas und Craig ebenfalls mit jener bei Berry (1980) überein. Konzeptuelle Äquivalenz ist demnach „concerned with the interpretation that individuals place on objects, stimuli, or behavior, and whether these exist or are ex- 63 4 Methodische Probleme der kulturübergreifenden Forschung pressed in similar ways in different countries and cultures“ (Douglas und Craig, 1983, S.138). Beispielsweis mag das Konzept der Aggressivität in verschiedenen Kulturen unterschiedlich zum Ausdruck kommen und daher auf unterschiedliche Art gemessen werden müssen. Konzepte mögen auch kulturell einzigartig sein und in anderen Kulturen keine Entsprechung finden. „Philotimo“ als Verhalten entsprechend den Erwartungen der Mitglieder der eigenen Gruppe, soll einzigartig für die griechische Kultur sein (Triandis und Vassilou, 1972, zitiert in: Douglas und Craig, 1983, S.138), wenngleich dieses Beispiel intuitiv nicht nachvollziehbar ist und die Bestätigung der Einzigartigkeit eine Analyse sämtlicher Kulturen erfordern würde. Auch für Poortinga und Malpass (1986, S.42) erscheint „the explanation of philotimo (...) to rest on concepts which are not specific to Greek culture.“ Das Konzept der „innovativeness“ illustriert die unterschiedliche Ausdrucksweise eines grundsätzlich gleichen oder sehr ähnlichen Konzepts. „Innovativeness“ wird in den USA durch den Kauf und die Verwendung neuer Produkte ausgedrückt, aber auch durch die Kommunikation über diese Produkte, deren Merkmale und Marken im Freundes- und Familienkreis. Im Gegensatz dazu, wird „innovativeness“ in Frankreich lediglich durch den Produkterwerb charakterisiert. Gespräche über Produkte und Erfahrungen damit sind aber nicht üblich (Green und Langeard, 1975, zitiert in: Douglas und Craig, 1983, S.139). Neben der funktionalen und konzeptuellen Äquivalenz sehen Douglas und Craig (1983, S.123f) in der Kategorienäquivalenz ein Charakteristikum der Konstruktäquivalenz. Der Aspekt der kategorialen Äquivalenz „relates to the category in which objects or other stimuli are placed“ (Douglas und Craig, 1983, S.123). Douglas und Craig zitieren eine Reihe von Beispielen, in denen kategoriale Äquivalenz nicht besteht. So umfaßt die Kategorie der „soft drinks“ abhängig vom Kulturkreis unterschiedliche Getränke, wie Fruchtsäfte, kohlensäurehaltige Limonaden, Konzentrate, unter Umständen aber auch Bier. Ähnliches gilt für den Oberbegriff des Desserts. Im Gegensatz zu europäischen Kulturen, zählen Süßspeisen in China nicht zu den Desserts. Die Art der zu einer Klasse zusammengefaßten Produkte bestimmt letztlich Konkurrenzbeziehungen zwischen diesen Produkten und muß marketingseitig berücksichtigt werden. Auch die Kategorien, nach denen Produkte beurteilt werden, können variieren. So soll in Frankreich für die Einschätzung des Geruchsaromas einer Speise die Kategorie heiß-kalt relevant sein, während dies in den angelsächsischen Ländern nicht der Fall ist. Vergleicht man diese Subdimension der 64 4 Methodische Probleme der kulturübergreifenden Forschung Konstruktvalidität mit dem von Berry (1980) vorgeschlagenem System, so finden sich mit den als Operationalisierungen der konzeptuellen Äquivalenz angeführten Verfahren des semantischen Differentials und der linguistischen Analyse entsprechende Pendants. Die Kategorienäquivalenz ist demnach eher eine Unterform der konzeptuellen Äquivalenz als eigenständiger Aspekt. Meßäquivalenz (measure equivalence) Die neben der Konstruktäquivalenz zweite Form der Äquivalenz nach Douglas und Craig ist die Meßäquivalenz, welche sich in die Kalibrierungsäquivalenz (calibration equivalence), die Übersetzungsäquivalenz (translation equivalence) und die metrische Äquivalenz (metric equivalence) gliedert. Meßäquivalenz ist mit Konstruktäquivalenz „highly interrelated insofar as the measure is an operational definition of the construct“ (Douglas und Craig, 1983, S.140). Douglas und Craig ziehen damit hinsichtlich der Äquivalenz eine deutliche Trennlinie zwischen dem latenten Konstrukt und seiner Operationalisierung durch manifeste Variablen. Sie stehen damit im Gegensatz zu Berry (1980), der die Übersetzungsäquivalenz - und damit die Äquivalenz manifester Stimuli - zur konzeptuellen Äquivalenz zählt. Allerdings beziehen sich auch Douglas und Craig (1983, S.138) bei der konzeptuellen Äquivalenz auf „objects, stimuli, or behavior“, also auf manifeste Variablen. Die Unterschiede in der Systematisierung von Berry (1980) und Douglas und Craig (1983) liegen demnach lediglich im Abstraktionsniveau der Operationalisierung und erscheinen für die praktische Umsetzung der Äquivalenzprüfungen ohne Bedeutung. Mit Kalibrierungsäquivalenz nehmen Douglas und Craig Bezug auf Maßeinheiten im weitesten Sinne, welche bei der Konstruktoperationalisierung relevant sind. Offensichtlich und durch Umrechnungstabellen relativ einfach zu lösen, sind Kompatibilitätsprobleme bei Geldeinheiten, Hohl- und Ausdehnungsmaßen, und dergleichen. Im Einzelfall kann die mathematisch einfache Konvertierung aber auch problematisch sein, wenn etwa „runde“ Ausgangsbeträge in „unrunde“ Werte transformiert werden oder, im Falle von Geldbeträgen, Wechselkurse Kaufkraftunterschiede nicht reflektieren. Weitaus schwieriger gestaltet sich die interkulturell äquivalente Operationalisierung, wenn es sich nicht um physikalische oder monetäre Einheiten handelt. So können an rechtliche Normen anknüpfenden Qualitätsklassen bei der Produktbeschreibung in anderen Kulturen keine oder eine völlig anders geartete Entsprechung aufweisen. Auch auf die Bedeutung von, sowie die perzeptive und sprachliche Differenzierung zwischen Farben ist kulturell unterschiedlich. 65 4 Methodische Probleme der kulturübergreifenden Forschung So sollen afrikanische Kulturen teilweise nicht zwischen grün und blau unterscheiden. Reize, die in einer Kultur als unterschiedlich gesehen werden, können somit in einer anderen Kultur als gleich erlebt werden. Die Übersetzungsäquivalenz wurde bereits im Zuge der Darstellung des Systems von Berry (1980) beschrieben. Douglas und Craig weisen darüber hinaus darauf hin, daß auch nonverbale Reize übersetzungsäquivalent sein müssen. Dabei ist speziell auf die kulturtypische Interpretation von nonverbalen Stimuli Bedacht zu nehmen. Unter metrischer Äquivalenz verstehen Douglas und Craig (1983, S.142) die „scoring or scalar equivalence of the measure used“. Dabei sind zwei Aspekte zu berücksichtigen. Einerseits muß die spezifische Skala und das Scoring vergleichbar sein. Andererseits ist die Äquivalenz der Reaktionen, also der Meßwerte, erforderlich. Naturgemäß ist diese Form der Äquivalenz in der quantitativen Marketingforschung von ungleich größerer Bedeutung als in der qualitativ orientierten Forschung. Die kulturadäquate Skalierung bzw. das Scoring sind wesentlich davon abhängig, mit welchen Skalentypen die Mitglieder der Kultur vertraut sind. In den USA sind fünf- oder siebenstufige Skalen allgemein üblich, während andere Länder mit zehn- oder gar zwanzigstufigen Skalen vertraut sind (Douglas und Craig, 1983, S.142), wobei aber offen bleibt, in welchen Ländern Skalen mit derart vielen Ausprägungen sinnvoll einsetzbar sind. Der Einsatz von Skalen, die für eine Kultur ungewöhnlich sind, „can result initially in uncertainty and frustration and eventually in unintentional response errors“ (Toyne und Walters, 1989, S.206). Der zweite Aspekt metrischer Äquivalenz betrifft die Bedeutung der Meßwerte (Douglas und Craig, 1983, S.142). Um sinnvolle Vergleiche über Kulturen hinweg anstellen zu können, müssen die gleichen Meßwerte gleiche Bedeutung aufweisen und gleich interpretierbar sein. So müssen beispielsweise die einzelnen Antwortmöglichkeiten auf einer Kaufabsichtsskala in allen untersuchten Kulturen mit der gleichen Kaufwahrscheinlichkeit assoziiert sein. Zur Überprüfung der metrischen Äquivalenz schlagen Douglas und Craig den parallelen Einsatz mehrerer Meßmethoden vor, welche, so Douglas und Craig, unterschiedliche potentielle Biases aufweisen. Durch den Vergleich dieser Maße könne Äquivalenz erzielt werden. Allerdings gehen Douglas und Craig nicht näher darauf ein, wie dies konkret möglich ist. Auch die als Alternative ins Treffen geführten statistischen 66 4 Methodische Probleme der kulturübergreifenden Forschung Techniken, wie z.B. das Normalisieren oder Standardisieren von Erhebungsdaten, werden nicht näher ausgeführt, ermöglichen zudem nur „some degree of equivalence“ (Douglas und Craig, 1983, S.142). Die Berücksichtigung standardisierter Meßwerte in Form von Faktorscores (welche typischerweise einer Verteilung mit dem Mittelwert 0 und der Varianz 1 folgen), ist allein nicht geeignet, kulturübergreifende Vergleichbarkeit zu gewährleisten. „Although (...) statistically sophisticated methods are used - where, for example, comparisons are made on the basis of factor scales rather than raw scores - it remains a shortcoming that the possibility of scale bias cannot be ruled out.“ (Poortinga und Malpass, 1986, S.29). Stichprobenäquivalenz Der dritte Aspekt der Äquivalenz ist die Stichprobenäquivalenz (Douglas und Craig, 1983, S.143ff). Diese betrifft zum einen die Frage, welche Personen innerhalb einer Kultur herangezogen werden und zum anderen, wie Repräsentativität der Stichproben erzielt wird. Da die Rollenverteilung kulturabhängig ist, kann die Auswahl der Auskunftspersonen aus den Haushaltsmitgliedern anpassungsbedürftig sein. Auch die Frage, ob Einzelpersonen herangezogen werden sollen oder mehrere Personen ist vor dem kulturellen Hintergrund zu klären. Die Repräsentativität der Stichproben ist beispielsweise in Entwicklungsländern schwierig zu erzielen bzw. zu überprüfen. Fehlende, unzureichend dokumentierte, fehlerhafte oder unvollständige Bevölkerungsdaten erschweren die Bestimmung der Grundgesamtheit, wodurch zuverlässige Quotenpläne nicht erstellt werden können. Infrastrukturelle Defizite können dazu führen, daß ländliche Gebiete nicht oder nur mit unvertretbarem Aufwand erreichbar und dementsprechend in der Stichprobe unterrepräsentiert sind. Schriftliche Datenerhebungen können durch hohe Analphabetismusraten extrem verzerrt werden, ebenso Telefonumfragen aufgrund mangelhafter und ungleichmäßig verteilter Telefonanschlüsse. So weist z.B. Lettland eine Telefonanschlußdichte von nur 0.3 Anschlüssen pro 1000 Einwohnern auf (im Jahre 1990), Ungarn eine von 96.2 (1990), während es in Österreich 409 Anschlüsse auf 1000 Einwohner (1989) sind (Bauer, 1995, S.331f). Douglas und Craig diskutieren neben der repräsentativen Auswahl innerhalb der Kulturen auch die repräsentative Auswahl der Kulturen selbst. Durch steigende Kommunikation und verstärkte Reisetätigkeit, so Douglas und Craig (1983, S.145; vgl. auch Levitt, 1983) gleichen sich Einstellungen, Verhaltensweisen, Lifestyles und Konsummuster innerhalb von Regionen, wie z.B. Europa oder Lateinamerika, an. Erkenntnisse, die in einem Land gewonnen werden, könnten dementsprechend auf 67 4 Methodische Probleme der kulturübergreifenden Forschung andere, ähnliche Länder übertragen werden, wodurch hohe Kosteneinsparungen erzielbar wären. Diese Vorgangsweise ist allerdings nur dann anwendbar, wenn, etwa durch vorangehende empirische Analysen, die kulturelle Ähnlichkeit hinreichend dokumentiert ist. Dies ist umso wahrscheinlicher, je enger das Segment ist, in dessen Rahmen über Ländergrenzen hinweg Verallgemeinerungen getätigt werden. So erscheint die Generalisierung bei Geschäftsleuten weniger problematisch als bei Konsumenten im allgemeinen. 4.4.2 Erweiterung von Toyne und Walters (1989) Die Konzeptualisierung der Äquivalenzproblematik durch Douglas und Craig wurde in der Folge erweitert. Toyne und Walters (1989, S.200ff) ergänzen im Rahmen ihrer Systematisierung der Äquivalenz die Konstruktäquivalenz durch die zeitliche Äquivalenz (temporal equivalence) und die Marktstrukturäquivalenz (market structure equivalence). Die funktionale und die konzeptuelle Äquivalenz bei Douglas und Craig finden sich bei Toyne und Walters unverändert wieder, die Kategorienäquivalenz hat eine Entsprechung als Definitionsäquivalenz (definitional equivalence). Der Begriff der zeitlichen Äquivalenz nimmt Bezug auf die Untersuchungssituation (Toyne und Walters, 1989, S.203). Diese ist vor dem Hintergrund saisonaler, politischer und ökonomischer Faktoren zu sehen. So können Wahlen oder die Bekanntgabe volkswirtschaftlicher Daten die Einstellung zu importierten Gütern kurzfristig beeinflussen. Jahreszeitliche Faktoren können auf das Involvement der Konsumenten wirken und damit die Validität einer Datenerhebung beeinträchtigen. So sind Umfragen zu Wintersportgeräten im Oktober auf der nördlichen Hemisphäre nicht mit solchen auf der Südhalbkugel zu vergleichen. Neben solchen psychologischen Effekten, können besondere jahreszeitliche Erscheinungen, wie Regenzeiten, Sturmzeiten, extreme Kälte- oder Hitzeperioden Datenerhebungen erschweren oder völlig unmöglich machen. Zeitliche Äquivalenz ist darüber hinaus aber auch produktbezogen zu beachten, so z.B. hinsichtlich des landesbezogenen Stadiums im Produktlebenszyklus. Die Marktstrukturäquivalenz zielt auf mögliche kulturbedingte Unterschiede in Konsummustern und Marktreaktionsweisen ab. Marktreaktionen auf den Einsatz von Marketinginstrumenten werden wesentlich durch konsumentenseitige Produktkenntnisse und die Verfügbarkeit von Produkten in Märkten beeinflußt. Die Marktcharakteristika und -institutionen, wie verfügbare Distributionskanäle, Medien und deren Reichweite, Produktsub68 4 Methodische Probleme der kulturübergreifenden Forschung stitute, u.s.w. sind auf Vergleichbarkeit zu untersuchen. Die Marktstrukturäquivalenz ist demzufolge vor allem bei stark anwendungs- und umsetzungsbezogener Marketingforschung höchst bedeutsam. construct equivalence functional equivalence conceptual equivalence definitional equivalence temporal equivalence market structure equivalence measurement equivalence gradation equivalence translation equivalence scale equivalence sampling equivalence population definition sample scope and representativity Abbildung 10: Formen der Äquivalenz nach Toyne und Walters (1989) Der Bereich der Meßäquivalenz (measurement equivalence) entspricht ebenfalls weitgehend dem Konzept von Douglas und Craig. Die Übersetzungsäquivalenz und die Kalibrierungsäquivalenz werden von Toyne und Walters übernommen, letztere allerdings in gradation equivalence (Toyne und Walters, 1989, S.204f) umbenannt. Die metrische Äquivalenz wird in gleicher Weise definiert und als Skalenäquivalenz (scale equivalence) bezeichnet. Toyne und Walters (1989, S.204) diskutieren die Meßäquivalenz vor dem Hintergrund der emic/etic-Problematik. Die Begriffe emic und etic sind der Linguistik entlehnt (Berry, 1980, S.11; 1990, S.88). Phonemics (Phoneme) sind Lautgebilde, die nur in einer Sprache Verwendung finden, Phonetics (phonetische Elemente) sind sprachübergreifende Lauteinheiten. Dementsprechend sind emische Meßinstrumente dazu geeignet, Konstrukte innerhalb einer bestimmten Kultur zu messen, verlieren ihre Gültigkeit aber, wenn sie in anderen Kulturen angewandt werden. Etische Meßinstrumente sind hingegen kulturunabhängig und messen das operationalisierte Konstrukt in allen Kulturen gleichermaßen. Die Möglichkeit, Konstrukte emisch oder etisch zu operationalisieren, wird weiter unten noch ausführlicher behandelt. Der Vorteil etischer Instrumente liegt darin, daß sie nur einmal entwickelt werden müssen und - sieht man von der meist erforderlichen Übersetzung ab - in anderen Kulturen einsetzbar sind. Der Nachteil liegt im großen Aufwand, der zur Entwicklung erforderlich ist. Letztlich muß der etische Charakter eines Meßinstruments durch empirische Prüfung belegt werden. „When the etic approach is adopted, each measurement in the instrument has to be tested to ensure that it is culture free or, at least, culture unbiased.“ (Toyne und Walters, 1989, S.204). Toyne und Walters führen allerdings keine dazu geeigneten Verfahren an. Die bei der praktischen Entwicklung etischer Meßinstrumente auftretenden Probleme führen häufig dazu, Instrumente kulturell 69 4 Methodische Probleme der kulturübergreifenden Forschung anzupassen. Emische Instrumente sind grundsätzlich leichter zu entwickeln, aber nicht kulturell übertragbar. Für die interkulturelle Vergleichsforschung stellt sich die Frage, inwieweit emische Maße sinnvoll einsetzbar sind. Toyne und Walters (1989, S.204) betonen, daß bei der Entwicklung von „emic instruments to measure the same phenomenon across several countries or cultures, the international researcher must be concerned with obtaining gradation, translation, and scale equivalence.“ (Hervorhebungen im Original). Die Anwendbarkeit dieser drei Äquivalenzformen erscheint allerdings im Falle ausschließlich emischer Meßinstrumente fraglich. Wenn das zu untersuchende Phänomen in den einzelnen Kulturen unterschiedlich operationalisiert wird, die Items eines Fragebogens also nicht übereinstimmen, so sind diese nicht durch Übersetzung ineinander überzuführen, insoweit Übersetzungsäquivalenz kein überprüfbares Kriterium sein kann. Abschließend beschreiben Toyne und Walters (1989, S.207f) den Aspekt der Stichprobenäquivalenz in ähnlicher Weise wie Douglas und Craig (1983, S.143ff). Im Hinblick auf die Repräsentativität der Stichproben weisen Toyne und Walters auf den Konflikt Repräsentativität - Vergleichbarkeit hin. Stichproben unterschiedlicher Kulturen, welche nach den jeweiligen Bevölkerungsstrukturen repräsentativ sind, können unter Umständen nicht mehr vergleichbar sein. Die Effekte der unterschiedlichen Zusammensetzung der Stichproben hinsichtlich demographischer Kriterien sind konfundiert mit dem sich aus der Kulturzugehörigkeit ergebenden Effekt. 4.4.3 Erweiterung von Usunier (1996) Usunier (1996, S.140ff) widmet sich ausführlich der kulturübergreifenden Marketingforschung und greift ebenfalls den Ansatz von Douglas und Craig (1983) auf. Usunier weicht jedoch in der Systematisierung ab, indem er sechs Kategorien der Äquivalenz definiert, welche sich zum Teil weiter in insgesamt 16 Subkategorien untergliedern. Die nicht weiter unterteilten Kategorien der konzeptuellen und der funktionalen Äquivalenz entsprechen denen von Douglas und Craig (1983) und Toyne und Walters (1989) und bedürfen daher keiner weiteren Erläuterung. Somit geht auch Usunier davon ab, die Übersetzungsäquivalenz als Form der konzeptuellen Äquivalenz zu verstehen, wie dies bei Berry (1980) der Fall ist. Übersetzungsäquivalenz stellt bei Usunier (1996, S.146ff) eine eigene Kategorie dar, welche sich untergliedert in lexikalische (lexical), idiomatische (idiomatic), grammatikalisch-syntaktische (grammatical-syntactical), sowie erfahrungsbezogene Äquivalenz (experiential equivalence). Lexikalische Äquivalenz ist dann gegeben, wenn 70 4 Methodische Probleme der kulturübergreifenden Forschung Begriffe einander entsprechen. Zur Sicherstellung dieser Form der sprachlichen Äquivalenz werden Wörterbücher herangezogen. Idiomatische Äquivalenz nimmt Bezug auf Idiome. Idiome sind linguistische Einheiten, Redewendungen, die muttersprachlichen Personen geläufig und fixer Sprachbestandteil sind, welche aber nur schwierig und unvollkommen in andere Sprachen übersetzbar sind. Usunier (1995, S.146) führt als Beispiel das englische Idiom „it’s warm“ an, welches nicht eindeutig ins Französische übersetzt werden kann. In der Bedeutung „es ist warm (heute)“ ist die Entsprechung „il fait chaud“, während im Sinne von „es (das Objekt) ist warm“ die korrekte Übersetzung „c’est chaud“ ist. Grammatikalisch-syntaktische Äquivalenz betrifft die zu berücksichtigenden sprachtypischen Satzbauformen, sowie die Wortstellung. Im Englischen steht typischerweise die Aktion am Satzbeginn (Subjekt und Verb), während im Deutschen und im Französischen oftmals Sätze durch erläuternde Umstände in Nebensatzform beginnen. Im Japanischen schließlich stehen Verben erst am Satzende. Da grammatikalische Regeln unbedingt zu beachten sind, können sich daraus Unterschiede in der Schwerpunktsetzung der Betonung ergeben. Die erfahrungsbezogene Äquivalenz betrifft die Bedeutung der Begriffe im Sprachgebrauch. Das französische Adjektiv „chaud“ (warm/heiß) hat im Englischen die Entsprechungen „warm“ und „hot“ (Usunier, 1996, S.147). Eine eindeutige Übersetzung aus dem Französischen ins Englische (und auch nicht ins Deutsche) ist daher nicht möglich. Die Übertragung muß folglich den Kontext berücksichtigen, um vergleichbares Verständnis zu gewährleisten. Aus dem Beispiel ist auch die enge Beziehung von Übersetzungs- und konzeptueller, sowie kategorialer Äquivalenz ersichtlich. Während im Englischen und im Deutschen zwei unterschiedliche Begriffe zur Verfügung stehen, werden diese im Französischen zu einer Klasse zusammengefaßt. Somit besteht ein Unterschied in der Kategorisierung. Übliche Verfahren der Vorwärts-Rückwärts-Übersetzung sind oft nicht in der Lage, erfahrungsbezogene Äquivalenz zu gewährleisten (vgl. Usunier, 1995, S.148). Rein lexikalische Äquivalenz ist allerdings nicht ausreichend. 71 4 Methodische Probleme der kulturübergreifenden Forschung conceptual equivalence functional equivalence translation equivalence lexical equivalence idiomatic equivalence grammat.-syntact. equivalence experiential equivalence measure equivalence perceptual equivalence metric equivalence calibration equivalence temporal equivalence sample equivalence sampling unit equivalence frame equivalence sample selection equivalence data collection equivalence respondents’ cooperation equiv. data colection context equiv. response style equivalence Abbildung 11: Kategorien der Äquivalenz nach Usunier (1996) Zur Meßäquivalenz (measure equivalence) faßt Usunier (1996, S.149ff) die perzeptive (perceptual) und metrische (metric) Äquivalenz, sowie die Kalibrierungsäquivalenz (calibration equivalence) und die temporale (temporal) Äquivalenz zusammen. Die perzeptive Äquivalenz bezieht sich auf kulturbedingte Unterschiede in der physischen Wahrnehmung. Erfahrungsberichte weisen auf zu beachtende sozialisationsbedingte Differenzen der Wahrnehmung und der Interpretation von Farben und Gerüchen hin (Usunier, 1996, S.150). Diese Subkategorie behandeln Douglas und Craig (1983) im Rahmen der Kalibrierungsäquivalenz. Letztere ist auch Bestandteil der Systematisierung von Usunier. Diese Kategorie stimmt mit jener bei Douglas und Craig überein, zielt also beispielsweise auch auf Farbäquivalenzen ab. Die Sinnhaftigkeit einer Aufspaltung der Kalibrierungsäquivalenz bei Douglas und Craig (1983) in die Kategorien perzeptive Äquivalenz und Kalibrierungsäquivalenz bei Usunier (1995) erscheint daher etwas fragwürdig. Mit der temporalen Äquivalenz nimmt Usunier (1995, S.152f) Bezug auf Kalibrierungsaspekte, die im Zusammenhang mit zeitlichen Faktoren stehen. So ist die Informationsalterung hinsichtlich ihrer Dauer kulturell unterschiedlich. Bei Kulturen, die durch Hyperinflation gekennzeichnet sind, müssen monetäre Angaben mit dem exakten Datum versehen werden, während dies in geldwertstabilen Ländern nicht der Fall ist. Für diesen Äquivalenzaspekt gilt das bereits für die perzeptive Äquivalenz gesagte. Die Sinnhaftigkeit, diesen Aspekt eigenständig zu behandeln und nicht der Kalibrierungsäquivalenz unterzuordnen, kann hinterfragt werden. Die metrische Äquivalenz befaßt sich mit der Bedeutung von Ratingskalen. Eine lexikalische Übersetzung der Bezeichnungen bei Ratingskalen gewährleistet die metrische 72 4 Methodische Probleme der kulturübergreifenden Forschung Äquivalenz, also die tatsächliche Bedeutung der so ermittelten Meßwerte, im allgemeinen nicht (Usunier, 1996, S.151). Übersetzungsprobleme treten vor allem dadurch auf, daß einzelne Sprachen nur über sehr wenige Begriffe verfügen (so z.B. das Koreanische, Usunier, 1996, S.151), welche den Grad der Ausprägung bezeichnen, andere wiederum über eine Vielzahl von nahezu synonymen Wörtern (so z.B. das Französische, Usunier, 1996, S.151), welche aber geringe Bedeutungsunterschiede aufweisen. Auch sind die lexikalisch einander entsprechenden Begriffe in ihrer wertenden Bedeutung oftmals unterschiedlich und können demzufolge nicht ohne weiteres zur Bezeichnung von Ratingskalen herangezogen werden. Bauer (1995, S.248ff) beschreibt mit der Methode der simultanen adjektivischen Dezentrierung nach Angelmar und Pras (1978) einen Ansatz zur Gewährleistung der metrischen Äquivalenz. Dabei müssen die Distanzen zwischen den einzelnen Antwortkategorien in allen Sprachen semantisch äquidistant sein. Übersetzungen, die diesem Anspruch gerecht werden, sind nur durch eine dezentrierte Vorgangsweise zu erzielen. Dabei wird auch die ausgangssprachliche Version so lange verändert, bis Äquivalenz besteht. Ein interessanter alternativer, von Bauer (1995, S.252f) empfohlener, Ansatz geht auf Myers und Warner (1968) zurück. Danach werden bewertende Adjektive (z.B. fantastic, outstanding, fine, acceptable, poor, usw.) auf einer 21-stufigen Intervallskala eingestuft (Thurstone-Methode). Adjektive, die in verschiedenen Sprachen gleiche Mittelwerte auf dieser Skala aufweisen und darüber hinaus geringe Varianzen, sind als äquivalente Übersetzungen geeignet. Die Bedingung geringer Varianz ist auch in intrakulturellen Studien beachtenswert. Sie stellt sicher, daß alle befragten Personen die Begriffe ähnlich bewerten. Usunier (1996, S.151) führt einige Beispiele von äquivalenten Bewertungsbegriffen aus dem Englischen und dem Französischen nach Angelmar und Pras (1978) an. So ist fantastic im Englischen äquivalent zu extraordinaire im Französichen, neutral entspricht moyen, bad ist mit remarquablement faible übersetzbar, usw. Das letzte Beispiel illustriert, daß die rein lexikalische Übersetzung von bad zu inäquivalenten Skalen führt. Die Stichprobenäquivalenz (sample equivalence) umfaßt nach Usunier (1996, S.153ff) die Äquivalenz der Untersuchungseinheiten (sampling unit equivalence), die Äquivalenz der Stichprobenpläne (frame equivalence) und die Äquivalenz der Stichprobenauswahl (sample selection equivalence). Im Rahmen der Äquivalenz der Untersuchungseinheiten ist beispielsweise bei Konsumentenbefragungen auf Unterschiede in der familiären Rol- 73 4 Methodische Probleme der kulturübergreifenden Forschung lenverteilung im Kaufentscheidungsprozeß zu achten. Diese Aspekte sind bereits bei Douglas und Craig (1983, S.143) berücksichtigt. Gleiches gilt für die Äquivalenz der Stichprobenpläne (vgl. Douglas und Craig, 1983, S.144). Bezugnehmend auf die Äquivalenz der Stichprobenselektion betont Usunier (1996, S.154), daß „[t]he main problem in the cross-cultural sampling process is the selection of samples that can be considered comparable across countries“. Bei der Stichprobenselektion sind zwei Phasen zu unterscheiden. Im ersten Schritt ist zu entscheiden, welche Kulturen bzw. Länder ausgewählt werden, im zweiten Schritt ist die Zusammensetzung der nationalen Stichproben zu bestimmen. Die Äquivalenzproblematik betrifft zentral den zweiten Schritt. Die Auswahl der Kulturen bzw. Länder im ersten Schritt kann durch unternehmensbezogene Fragestellungen, wie strategische Entscheidungen der Marktselektion, hinreichend begründet sein. Wird Kultur anders als auf der bloßen Unterscheidungsebene operationalisiert (wie z.B. durch die Kulturoperationalisierung nach Hofstede, 1984, 1991), können die dadurch theoretisch fundierten Dimensionen auswahlbestimmend sein. Die letzte Kategorie der Systematisierung nach Usunier (1996, S.156ff) umfaßt die Datenerhebungsäquivalenz (data collection equivalence). Dieser Aspekt gliedert sich in die Subkategorien Äquivalenz der Kooperationsbereitschaft der Respondenten (respondents’ cooperation equivalence), der Kontextäquivalenz (data collection context equivalence) und der Äquivalenz der Antwortstile (response style equivalence). Die Kooperationsbereitschaft und damit die Rate der Antwortverweigerung variiert in Abhängigkeit kulturbedingter Normen der Intimität und der Abgrenzung der Privatsphäre (vgl. auch Jain, 1993, S.392). Ähnliches gilt für Verzerrungen in Form von Antwortbiases (vgl. Holzmüller, 1995, S.123ff). In Skandinavien ist es durchaus kulturkonform, Fremden gegenüber zuzugeben, zuviel Alkohol zu trinken, während dies in Lateinamerika nicht der Fall ist, die Antworten also mutmaßlich verzerrt sind (Usunier, 1996, S.157). Weiters kann die soziale Situation der Befragung nicht kulturkonform sein, etwa im Falle eines männlichen Interviewers und einer weiblichen Befragten. Auch auf kulturspezifische Ressentiments gegenüber bestimmten anderen Nationalitäten ist Rücksicht zu nehmen. Schließlich kann der Charakter eines Interviews als wissenschaftliche Form der objektiven Datengewinnung kulturell nicht verankert sein (Usunier, 1996, S.157). Dies hat Auswirkungen sowohl auf die befragte Person, als auch auf den Interviewer, welchem der Sinn und der Charakter eines Interviews erklärt werden muß. 74 4 Methodische Probleme der kulturübergreifenden Forschung Schließlich können auch Antwortstile, besondere Muster wie Ja-Sage- und Nein-SageTendenzen, Non-response-Muster und Extremantworten, kulturell bedingt mehr oder weniger gehäuft auftreten. In einer Untersuchung zum Kochverhalten griechischer und italienischer Hausfrauen (Van Herk und Verhallen, 1995, zitiert in: Usunier, 1996, S.158) stellte sich heraus, daß griechische Hausfrauen eine starke Ja-Sage-Tendenz aufweisen, was zu einem deutlichen biasbedingten Mittelwertsunterschied führt. Auf das Problem der Antwortverweigerung (Non-response) wurde bereits hingewiesen. Kulturbedingte Unterschiede in der Vorliebe für extreme Antwortstile beeinflußt die Varianzen in den einzelnen Stichproben. So gelten Amerikaner als extremer in ihren Antworten im Vergleich zu Japanern oder Koreanern (Usunier, 1996, S.159). 4.5 Rezeption der Problematik internationaler Marketingforschung in Marktforschungsstandardwerken Die Rezeption der besonderen Problematik internationaler Marketingforschung reicht erstaunlicherweise kaum über jene Lehrbücher hinaus, die ein „international“ oder ein „global“ im Titel führen. Churchill („Marketing Research: Methodological Foundations“, 1995, S.7) beispielsweise weist auf die Fehler hin, die bei Nichtbeachtung von Umfeldfaktoren, zu denen die Kulturzugehörigkeit zu zählen ist, auftreten können („International Missteps Caused by Environmental Differences“). Überraschenderweise geht Churchill in der Folge jedoch weder im Abschnitt „Data Collection Forms“ (S. 396ff), noch in den Kapiteln „Attitude Measurement“ (S.451ff) oder „Sampling Procedures“ (S.574ff) auf Besonderheiten internationaler Marketingforschung ein. Jain („International Marketing Management“, 1993, S.368ff) geht auf Probleme ein, die sich aus der Stichprobenrepräsentativität sowie der Übersetzung von Fragebögen ergeben. Weiters thematisiert Jain (1993, S.392) das Problem der kulturbedingten Antwortverweigerung. So können kulturelle Normen den Umgang mit Fremden verbieten, vor allem für Frauen. In islamischen Ländern ist es daher nicht kulturadäquat, Frauen telefonisch zu befragen. Auch die Abgrenzung der Intimsphäre ist kulturell unterschiedlich. In lateinamerikanischen Ländern ist es nicht opportun, mit Interviewern über Kauf- und Verwendungsverhalten im Hygiene- und Körperpflegebereich zu sprechen. In Japan ist mit großen Widerständen zu rechnen, wenn die persönlichen wirtschaftlichen Verhältnisse angesprochen werden (Einkommen, Vermögen, etc.), das Familienleben oder politische und religiöse Einstellungen. Jain geht allerdings nicht explizit auf Äquivalenzaspekte ein. 75 4 Methodische Probleme der kulturübergreifenden Forschung Burns und Bush („Marketing Research“, 1995, S.6) plädieren dafür, „changes taking place in the social and cultural environment“ zu berücksichtigen. Die in der internationalen Marketingforschung zu lösenden Probleme werden aber nur kurz angesprochen. Immerhin werden die funktionale und konzeptuelle Äquivalenz, die Skalen- sowie die Übersetzungsäquivalenz inhaltlich erwähnt. Auch auf die Bedeutung der Untersuchungssituation (vgl. Jain, 1993, S.392) wird hingewiesen. Meffert („Marketingforschung und Käuferverhalten“, 1992, S.81) geht zwar auf Kultur als kaufverhaltensbeeinflussende Variable ein, nicht jedoch auf Spezifika der interkulturellen Marketingforschung. Ähnliches gilt für Pepels („Käuferverhalten und Marktforschung“, 1995). Hüttner („Grundzüge der Marktforschung“, 1989, S.319ff) geht auf Schwierigkeiten der internationalen Primärforschung exemplarisch ein. So wird die Durchführbarkeit der Erhebungsmethodik diskutiert (schriftliche Befragungen vor dem Hintergrund teilweise hoher Analphabetismusraten, Telefonbefragungen bei ungenügendem Ausbau der Telefoninfrastruktur, etc.). Auch die Bedeutung der Befragungssituation und der Auswahl der Interviewer wird erläutert. Insgesamt wird jedoch keine Systematik der verschiedenen Äquivalenzaspekte angeboten. 4.6 Integratives Schema von Bauer (1995) Bauer (1995, S.51ff) entwirft aufbauend auf Douglas und Craig (1983) ein integratives System von Äquivalenzbedingungen. Während die Ansätze von Douglas und Craig (1983), Toyne und Walters (1989) und Usunier (1996) die einzelnen Aspekte zwar nicht völlig isoliert, so doch getrennt voneinander behandeln, betont Bauer das Zusammenwirken der einzelnen Äquivalenzkategorien. Um dies in der Systematisierung zu implementieren, führt Bauer eine neue Äquivalenzkategorie ein: die Äquivalenz der nationalen Erhebungsdaten einer internationalen Marketingforschung (Erhebungsdatenäquivalenz). Diese Form der Äquivalenz unterscheidet sich grundsätzlich von allen anderen Kategorien. Die Äquivalenz der Erhebungsdaten ist als Funktion aller anderen, untergeordneten Kategorien, von Bauer (1995, S.51) als Strukturelemente der internationalen Marketingforschung bezeichnet, zu sehen. Letztere sind somit notwendige Bedingungen der Erhebungsdatenäquivalenz (vgl. Bauer, 1995, S.51). Insoweit stellt Bauers Ansatz ein hierarchisches System dar. Zwar betonen auch Douglas und Craig (1983), daß Verletzungen einzelner Äquivalenzaspekte letztlich die Vergleichbarkeit der empirischen Daten beeinträchtigen. Die Datenäquivalenz ist bei Douglas und Craig allerdings keine übergeordnete Kategorie, sondern wird im Rahmen der Meßäquivalenz behandelt, welche 76 4 Methodische Probleme der kulturübergreifenden Forschung neben der Konstrukt- und der Stichprobenäquivalenz gleichrangig angeordnet ist. Die besondere Stellung der Erhebungsdatenäquivalenz bei Bauer (1995) ist dadurch gerechtfertigt, daß diese Form der Äquivalenz als Prüfstein für alle Formen der Äquivalenz gesehen werden kann. Dies ergibt sich aus dem Zusammenhang der einzelnen, untergeordneten Kategorien und der Erhebungsdatenäquivalenz. Ist die Äquivalenz der Erhebungsdaten gewährleistet, so besteht Vergleichbarkeit der Ergebnisse. Kann die Erhebungsdatenäquivalenz nicht nachgewiesen werden, so ist mangelnde Äquivalenz in einem oder mehreren Aspekten gegeben. Äquivalenz der nationalen Erhebungsdaten einer internationalen Marketingforschung Äquivalenz der Untersuchungsdatenaufbereitung Äquivalenz der ... Untersuchungsmethoden Untersuchungseinheiten Untersuchungssituationen Äquivalenz der Untersuchungssachverhalte (prinzipielle Anwendbarkeit des Konstrukts; notwendige, aber nicht hinreichende Voraussetzung) Abbildung 12: Bedingungen der Äquivalenz der Erhebungsdaten (in Anlehung an Bauer, 1995, S.52) Die in Abbildung 12 dargestellten Bedingungen der Äquivalenz nach Bauer (1995) lassen sich drei Ebenen zuordnen. Auf der ersten Ebene befindet sich die Äquivalenz der Untersuchungssachverhalte (Bauer, 1995, 53ff). Diese entspricht der Konstruktäquivalenz bei Douglas und Craig (1983) und untergliedert sich daher in funktionale, konzeptuelle und 77 4 Methodische Probleme der kulturübergreifenden Forschung kategoriale Äquivalenz. Die Konstruktäquivalenz ist damit die Grundlage für weiterführende Schritte im Forschungsprozeß, steht sie doch für die grundsätzliche Anwendbarkeit des Konstrukts in allen einbezogenen Kulturen. Nur wenn die Konstruktäquivalenz gegeben ist, sind Äquivalenzaspekte der zweiten Ebene relevant. Es handelt sich dabei um die Operationalisierung des Konstrukts und die Durchführung der Datenerhebung. Die Konstruktoperationalisierung ist Gegenstand der Äquivalenz der Untersuchungsmethoden (Bauer, 1995, S.56ff), welche aus vier Teilaspekten besteht. Die erhebungsmethodische Äquivalenz betrifft die Frage, ob durchgängig in allen Kulturen die gleiche Methodik eingesetzt werden kann oder ob Anpassungen erforderlich sind, wie dies beispielsweise bei schriftlichen Befragungen in Ländern mit hohen Analphabetismusraten der Fall ist. Bei unterschiedlichen Methoden ist so vorzugehen, „daß sowohl eine äquivalente Repräsentanz der einzelnen nationalen Stichproben als auch eine äquivalente interne Validität der nationalen Erhebungsergebnisse erzielt werden kann“ (Bauer, 1995, S.56). Die befragungstaktische Äquivalenz zielt auf kulturbedingte Anpassungen der Frageformen (z.B. offen versus geschlossen), um kulturspezifische Verzerrungen zu vermeiden, die sich z. B. aus einem Höflichkeitsbias ergeben können (Bauer, 1995, S.57; vgl. auch Holzmüller, 1995, S.123ff). Die Übersetzungsäquivalenz betrifft „eine bedeutungsinvariante Übersetzung der verbalen und nonverbalen Stimuli (Bauer, 1995, S.57). Schließlich soll die meßmethodische Äquivalenz den Einsatz vergleichbarer Meßmethoden gewährleisten. Dabei sind kulturtypische Verbreitungen bestimmter Ratingskalenformate zu berücksichtigen. Die Wahl und die Ausgestaltung einer Erhebungsmethode kann mit der Selektion der Untersuchungseinheiten zusammenhängen. Letztere ist Gegenstand der Äquivalenz der Untersuchungseinheiten (Bauer, 1995, S.58f). Zum einen sind die Untersuchungseinheiten empirisch zu definieren, also die Grundgesamtheit der Auskunftspersonen festzulegen. Dabei ist insbesondere auf funktionale Äquivalenz abzustellen. Dies bedeutet, daß in Abhängigkeit von kulturell unterschiedlichen Strukturen und Rollenverteilungen bei Kaufentscheidungsprozessen, unter Umständen hinsichtlich Geschlecht, Alter, etc. verschiedene Personen auszuwählen sind. Zum anderen sind, wenn keine Totalerhebung möglich ist, äquivalente Auswahlverfahren anzuwenden (Auswahläquivalenz). Die Umsetzung der Datenerhebung wird bei Bauer (1995, S.60f) durch die Äquivalenz der Untersuchungssituationen erfaßt. Dabei sind zeitliche Faktoren zu berücksichtigen 78 4 Methodische Probleme der kulturübergreifenden Forschung (zeitablaufbezogene Bedingungen, wie Wertewandel, politische oder wirtschaftliche Prozesse; zeitpunktbezogene Faktoren natürlicher Art, wie Jahreszeiten, klimatische Faktoren, religiöser Art, wie Fastenzeiten, oder wirtschaftlicher Art, wie saisonale Einflüsse). Die Erhebungssituation ist zudem durch eine soziale Interaktion des Interviewers und der befragten Person, sowie unter Umständen auch weiterer anwesender Personen, gekennzeichnet. Auch die sich daraus ergebenden Beeinflussungen der Datenerhebungen sind einer Äquivalenzprüfung zu unterziehen (Interaktionsäquivalenz). Nach erfolgter Datenerhebung ist auf Äquivalenz der Untersuchungsdatenaufbereitung (Bauer, 1995, S.61) zu achten. Problematisch kann diese dann sein, wenn Antworten auf offene Fragen zu übersetzen sind (Äquivalenz der Response-Übersetzungen) und zu Kategorien zu verdichten sind (Äquivalenz der Response-Kategorisierungen). Der konsekutive Charakter der Systematisierung von Bauer wird auch durch ein von Cavusgil und Das (1997) vorgeschlagenes Prozeßmodell der kulturübergreifenden Forschung deutlich. Cavusgil und Das entwerfen einen deskriptiven Überblick über Äquivalenzaspekte, der mit dem Bauers weitgehend übereinstimmt. Das Prozeßmodell umfaßt sieben Schritte (vgl. Abbildung 13). Im ersten Schritt ist das zu untersuchende Konstrukt theoretisch zu spezifizieren und inhaltlich einzugrenzen. Im folgenden Schritt ist die konzeptuelle und funktionale Äquivalenz des Konstrukts, im Sinne Bauers die Äquivalenz der Untersuchungssachverhalte, in den untersuchten Kulturen zu überprüfen. Die Schritte drei und vier, die Entwicklung eines Stichprobenplans und des Meßinstruments, sind eng miteinander verbunden und folglich in Abbildung 12 (Seite 77) auf einer Ebene als Äquivalenz der Untersuchungseinheiten bzw. der Untersuchungsmethoden angesiedelt. Im fünften Schritt erfolgt nach Cavusgil und Das die Datenerhebung, im Zuge deren Administration auf Äquivalenz zu achten ist (Äquivalenz der Untersuchungssituationen). Keine Entsprechung im Prozeßmodell von Cavusgil und Das findet die Datenaufbereitung bei Bauer. Diese ist bei Cavusgil und Das wohl zwischen fünftem und sechstem Schritt einzuordnen. Im sechsten Schritt erfolgt die Datenanalyse, abschließend im siebenten Schritt die Interpretation der Daten. 79 4 Methodische Probleme der kulturübergreifenden Forschung Specifying the theoretical domain of the construct Acquisition and application of substantive knowledge about the conceptual and functional equivalence of the construct Creation of an effective and cost-efficient sampling design Developing a sound instrumentation design Collection of data Data analysis Data interpretation Abbildung 13: Prozeßmodell kulturübergreifender Forschung (Cavusgil und Das, 1997, S.89ff) 4.7 Empirische Überprüfung der Äquivalenz Die übergeordnete Äquivalenz der Erhebungsdaten ist bei Bauer (1995), wie bereits dargestellt, Folge der Gewährleistung der Äquivalenz der Teilaspekte und wird bei Bauer nicht näher hinsichtlich ihrer Prüfbarkeit ausgeführt. Die exakte Überprüfung der Äquivalenz in den Teilaspekten ist zum Teil allerdings mit erheblichen Schwierigkeiten verbunden. Die Äquivalenz der Untersuchungseinheiten bei Bauer (gleichbedeutend mit der Konstruktäquivalenz bei Douglas und Craig) kann zwar durch qualitative Vorstudien untersucht werden. Einer quantitativen Analyse ist dieser Äquivalenzaspekt allerdings nicht zugänglich. Gleiches gilt für die Äquivalenz der Untersuchungsmethoden. Vor Durchführung der Datenerhebung kann aufgrund qualitativer oder auch quantitativer Vorstudien (Probeerhebungen, um die prinzipielle Einsetzbarkeit eines Instruments zu prüfen) und der Analyse anderer Forschungsprojekte die Plausibilität der erhebungsmethodischen und befragungstaktischen Äquivalenz untersucht werden. Die Überprüfung, ob diese Formen der Äquivalenz im gegenständlichen Forschungsvorhaben tatsächlich erreicht werden, kann aber erst nach erfolgter Datenerhebung im Rahmen der Äquivalenz der Erhebungsdaten überprüft werden. Gleiches gilt für die Übersetzungsäquivalenz und die meßmetho- 80 4 Methodische Probleme der kulturübergreifenden Forschung dische Äquivalenz. Eine endgültige Aussage, ob die Übersetzung äquivalent zur Ausgangsversion ist, erlaubt erst die Überprüfung der Erhebungsdatenäquivalenz. Aus diesen Gründen erscheint es höchst wünschenswert, die Äquivalenz der Erhebungsdaten zu überprüfen. Dies bedeutet nicht, daß sich Bestrebungen, in jedem der angeführten Bereiche möglichst hohe Äquivalenz zu erzielen, erübrigen. Im Gegenteil sind diese Bemühungen geradezu eine conditio sine qua non für die Erhebungsdatenäquivalenz. Angesichts der mannigfaltigen, auf kulturelle Faktoren zurückgehenden Einflüsse kann es andererseits nicht als ausreichend angesehen werden, in den einzelnen Aspekte danach zu trachten, Äquivalenz herzustellen und den Erfolg dieser Zielsetzung lediglich durch Plausibilitätsüberlegungen zu untermauern. Die Bestimmung der Erhebungsdatenäquivalenz bietet sich als Objektivierung der Beurteilung an, ob Äquivalenz besteht oder nicht. Hinweise auf methodische Ansätze finden sich bereits bei Berry (1980, S.10) im Zusammenhang mit der metrischen Äquivalenz. Diese „exists when the psychometric properties of two (or more) sets of data from two (or more) cultural groups exhibit esentially the same coherence or structure“ (Berry, 1980, S.10). Wie schon im Rahmen der Diskussion der Systematisierung der Äquivalenz durch Berry (1980) ausgeführt, kann die Erfüllung dieser Forderung einerseits durch eine Überprüfung der Beziehungen des Konstrukts zu vorund nachgelagerten Konstrukten, also zu Antezedenzbedingungen und nachgelagerten Konstrukten, erfolgen. Andererseits ist die innere Struktur des Konstrukts und ihre Unabhängigkeit von kulturellen Faktoren zu überprüfen. Berry (1980, S.10) spricht dabei von einem „requirment (...) of increasing importance“. Berry (1980, S.10f) betont die Besonderheit der metrischen Äquivalenz, die darin besteht, daß sie erst nach erfolgter Datenerhebung überprüfbar ist. Sie entspricht damit, sowie in ihrer inhaltlichen Bedeutung, der Äquivalenz der Erhebungsdaten bei Bauer (1995). Der bei Berry erstgenannte Zugang (Überprüfung der Beziehungen des Konstrukts zu vorund nachgelagerten Konstrukten) basiert auf dem Konzept der nomologischen Validität (vgl. z.B. Homburg und Giering, 1996, S.7; Pepels, 1995, S.280). Äquivalenz zwischen verschiedenen Kulturen besteht dann, wenn das nomologische Netzwerk und die darin definierten Beziehungen der Konstrukte interkulturell übereinstimmen. Dem zweiten Ansatz (Überprüfung der inneren Struktur des Konstrukts) liegt die Konstruktvalidität (vgl. z.B. Pepels, 1995, S.280) zugrunde. Demnach besteht Äquivalenz dann, wenn die Dimen- 81 4 Methodische Probleme der kulturübergreifenden Forschung sionalität und die Operationalisierung der einzelnen Dimensionen unabhängig von der Kulturzugehörigkeit sind. Beiden Ansätzen gemeinsam ist der Vergleich von Strukturen über Kulturen hinweg und die Überprüfung auf Identität dieser Strukturen. Verfahren zur statistischen Überprüfung der Äquivalenz der Erhebungsdaten müssen demzufolge dazu geeignet sein, Unterschiede in den Strukturen auf deren Signifikanz zu prüfen. Ehe entsprechende Verfahren gesucht werden, sind mögliche Operationalisierungsformen von Konstrukten in der interkulturellen Marketingforschung darzustellen. Konkrete Ansatzpunkte finden sich in deskriptiven Systematisierungen der Äquivalenzbedingungen jedoch nicht. Die Standardisierung der Erhebungsdaten, wie sie Douglas und Craig (1983, S.142) vorschlagen, ist kein Garant für interkulturelle Vergleichbarkeit der Daten. Sekaran (1983, S.66) plädiert für eine „higher order factor analysis“ bei der Analyse interkultureller Daten. Adler (1983, S.40) empfiehlt „multivariate techniques“. „Comparative research studies are complex. Univariate statistical techniques are generally inappropriate.“ (Adler, 1983, S.40). Nasif et al. (1991, S.87) beklagen, daß sich die Datenanalyse in der kulturübergreifenden Forschung zumeist in bivariaten Korrelationsanalysen erschöpft. Auf Adler (1983) referenzierend, ist für Nasif et al. (1991, S.87) aufgrund der Komplexität vergleichender Forschung „the univariate statistical technique inappropriate“ (Nasif et al., 1991, S.87). Als „appropriate methods“ schlagen Nasif et al. (1991, S.87) „multivariate and other powerful statistical analyses“ vor. Im Prozeßmodell der kulturübergreifenden Forschung von Cavusgil und Das (1997, S.91) werden ebenfalls multivariate Verfahren vorgeschlagen, speziell der Einsatz konfirmatorischer Faktorenanalysen, die zur Überprüfung bzw. Identifikation dem Konstrukt zugrundeliegender Dimensionen geeignet sind. Der Einsatz explorativer Faktorenanalysen ist bei entsprechenden theoretischen Grundlagen zu vermeiden (Cavusgil und Das, 1997, S.91). Die deskriptive Darstellung der Äquivalenzaspekte betreffend, sind seit Douglas und Craig (1983) deutliche Fortschritte zu verzeichnen (vgl. die Darstellungen bei Bauer, 1995; Usunier, 1996; Nasif et al., 1991; Cavusgil und Das, 1997). Auf die allerdings unzureichende Rezeption in einschlägigen Lehrbüchern wurde bereits an anderer Stelle hinge- 82 4 Methodische Probleme der kulturübergreifenden Forschung wiesen. Nach wie vor deutliche Defizite bestehen in der Integration geeigneter Methoden zur Überprüfung der Äquivalenz der Erhebungsdaten. Konsens besteht hinsichtlich der hohen Komplexität der Aufgabe. Mehr und mehr wird das Potential strukturprüfender Verfahren, wie der konfirmatorischen Faktorenanalyse, erkannt. 83 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung 5.1 Universum und Messung: Verallgemeinerung von Aussagen Abgesehen von deskriptiven Studien, dient die Erhebung von Daten der Generalisierung von Aussagen (vgl. Poortinga und Malpass, 1986, S.21). Wenn eine Vollerhebung nicht möglich ist, und dementsprechend eine Stichprobe aus der Population gezogen werden muß, an welcher eine Messung erfolgt, so interessieren nicht die Meßergebnisse in Bezug auf die spezifische Auswahl an Personen in der Stichprobe, sondern die Verallgemeinerung der Aussagen auf die zugrundeliegende Population. Grundlage der Verallgemeinerbarkeit und damit der Gültigkeit der gewonnenen Aussagen für die Population ist die Repräsentativität der Stichprobe. Das Problem der Verallgemeinerbarkeit ergibt sich aber nicht nur personenbezogen, sondern auch die Elemente der Messung betreffend. Jede Messung ist eine Stichprobe aus einer ganzen Reihe an grundsätzlich möglichen Messungen, die statt dessen vorgenommen werden könnten. Alle möglichen Messungen stellen einen der Population analogen Pool dar. Cronbach et al. (1972, zitiert in: Poortinga und Malpass, 1986, S.22) führten dafür den Begriff des Universums ein. Population und Universum sind einander konzeptuell ähnlich, werden jedoch terminologisch differenziert. „(...) universe refers to a set of conditions for observation or items of measurement, while population is used exclusively for a set of persons.“ (Poortinga und Malpass, 1986, S.22). Die Ziehung von Stichproben aus der Population wurde bereits im Rahmen der Stichprobenäquivalenz behandelt, so daß sie an dieser Stelle nicht weiter verfolgt wird. Im Rahmen der Entwicklung von Meßinstrumenten ist die Analyse des zugrundeliegenden Universums relevant. „A measurement instrument for a particular universe can be constructed by drawing a (random) sample of elements from that universe.“ (Poortinga und Malpass, 1986, S.22). Das Meßinstrument stellt somit einen Auszug aus einer Vielzahl an Elementen dar, dem Universum, welche zur Messung des Konstrukts geeignet sind. Konstrukte bedürfen zur Messung sogenannter Indikatorvariablen, welche als manifeste, beobachtbare Größen Rückschlüsse auf das latente Konstrukt ermöglichen. Meßinstrumente bestehen somit aus Indikatorvariablen. Die Meßskala wird im Falle von Einstellungskonstrukten üblicherweise durch die aufsummierte Anzahl der Zustimmungen zu den einzelnen Indikatorvariablen gebildet. Im 84 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung Falle mehrkategorieller Items (Likert-Skala, Rating-Skala) kann zudem der Grad der Zustimmung berücksichtigt werden. Die Vorgangsweise, aus dem Universum möglicher Einheiten, eine zufällige Auswahl zu treffen, setzt eine präzise, operationale Definition des zu messenden Konstrukts voraus (vgl. Poortinga und Malpass, 1986, S.22). 5.2 Universum und kulturübergreifende Forschung Im Rahmen der kulturübergreifenden Forschung stellt sich die Frage, ob das zu messende Konstrukt in allen untersuchten Kulturen das gleiche Universum an möglichen Indikatoren impliziert. Ein Beispiel für idente Universen stellt das Konstrukt der Differenzierbarkeit reiner Töne (Poortinga und Malpass, 1986, S.23) dar. Das Universum dieses Konstrukts wird durch alle reinen Töne gebildet und kann a priori als universell angesehen werden, da es auf humanphysiologischen und physikalischen Grundlagen basiert und kulturelle Einflüsse weitestgehend auszuschließen sind. Demgegenüber sind die Universen eines Wortschatztestes sprachbezogen (die einzelnen Wörter einer Sprache) und damit in verschiedenen Kulturen, zumindest insoweit es sich um Kulturen unterschiedlicher Sprache handelt, unterschiedlich. Neben der Übereinstimmung der Universen ist die Auswahl der Elemente ein mögliches Unterscheidungskriterium (Poortinga und Malpass, 1986, S.23). Wenn alle Elemente des Universums zur Messung herangezogen werden, so erfolgt diese auf der Ebene des Universums. Dies gilt allerdings auch dann, wenn Elemente repräsentativ ausgewählt werden. In diesem Fall wird der Meßwert nicht wesentlich durch die tatsächliche Wahl der Elemente beeinflußt. Vielmehr führt jede repräsentative Auswahl zum gleichen Ergebnis. Wenn jedoch die Wahl der Elemente entscheidenden Einfluß auf das Meßergebnis hat, so erfolgt der Vergleich verschiedener Kulturen nicht auf der Ebene des Universums, sondern auf der Ebene ausgewählter Elemente. Ein Beispiel dafür sind bestimmte optische Täuschungen, die aus dem Universum aller möglichen optischen Täuschungen ausgewählt werden, um das Konstrukt der Täuschungsanfälligkeit zu messen. Optische Täuschungen können ganz spezifisch durch kulturassoziierte Faktoren, wie z.B. Vertrautheit mit geometrischen Formen, beeinflußt werden (Segall et al., 1966). Schließlich unterscheiden Poortinga und Malpass (1986, S.22f) Universen danach, ob sie attributbezogen oder repertoirebezogen sind. Universen sind dann attributbezogen, wenn 85 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung sie auf mentale Prozesse oder eine Persönlichkeitsmerkmal (engl. Trait) abzielen. Die Elemente attributbezogener Universen sind daher mit Persönlichkeitsmerkmalen assoziiert. Bei repertoirebezogenen Universen besteht eine solche Assoziation nicht, da diese auf ein Verhaltensrepertoire abzielen und keine internalen Persönlichkeitsmerkmale annehmen. Meßinstrumente, die den Wissensstand in bestimmten Gebieten (Geographie, Wortschatz, etc.) messen, nehmen keinen Bezug auf Persönlichkeitsmerkmale, sind daher repertoirebezogen. Konstrukte, die bestimmte Fähigkeiten oder Merkmale einer Person bezeichnen, wie z.B. die Diskriminierbarkeit von Tonhöhen als Fähigkeit oder die Einstellung gegenüber umweltfreundlichen Produkten als Merkmal), haben attributbezogene Universen. Universum Identisches Universum Auswahl der Elemente Repräsentative Auswahl bzw. gesamtes Universum Bezug des Universums Typ repertoire-bezogen A attribut-bezogen B repertoire-bezogen C attribut-bezogen D repertoire-bezogen E attribut-bezogen F repertoire-bezogen G attribut-bezogen H Selektierte Elemente Nicht-Identisches Universum Repräsentative Auswahl bzw. gesamte Universen Selektierte Elemente Abbildung 14: Klassifikation der Universen kulturübergreifender Forschung (Poortinga und Malpass, 1986, S.25) Die Einordnung der Universen einer interkulturellen Vergleichsforschung ist unmittelbar relevant für die Art der möglichen Vergleichsaussagen. Um Vergleiche anstellen zu können, muß eine gemeinsame Skala etabliert werden (Malpass und Poortinga, 1986, S.73; Poortinga und Malpass, 1986, S.24; Berry, 1980, S.8). Sind die Universen ident, ist die Auswahl der Elemente repräsentativ, und handelt es sich um ein repertoirebezogenes 86 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung Konstrukt (vgl. Abbildung 14, Typ A), so ergibt sich die gemeinsame Skala allein durch die Definition des Konstrukts, welches ein Universal (Berry, 1980; Lonner, 1980) darstellt. Kann von einem Universal nicht ausgegangen werden (Vgl. Abbildung 14, Typen B bis D), sind die Universen aber ident, so besteht zwar prinzipiell eine gemeinsame Skala, der Vergleich von Meßwerten auf dieser Skala ist jedoch aufgrund möglicher Biases nicht ohne weiteres möglich. „The definition of a comparison scale does not create major problems when there is an identical universe (...). This does not mean that no systematic errors can be made in the interpretation of actual data.“ (Poortinga und Malpass, 1986, S.26). Systematische Fehler können beispielsweise auf Methodenartefakte, Verständnisprobleme seitens der Respondenten, Interaktionen mit Interviewern oder Drittpersonen, usw. zurückgehen (vgl. dazu die Darstellungen zur Äquivalenzproblematik in Kapitel 4). Sind die Universen nicht ident, so ist die Definition einer gemeinsamen Skala problematisch. Erfolgt die Auswahl der Elemente repräsentativ bzw. werden die gesamten Universen erfaßt, so erscheint die Definition einer gemeinsamen Skala möglich. „As far as nonidentical universes are concerned, a reasonable claim can be made to the effect that a comparison scale can be defined when all the elements in the respective universes are known and either the entire universe, or a representative sample, are used for its measurement.“ (Poortinga und Malpass, 1986, S.26). Im Falle nichtidenter Universen und selektierter Elemente ist bei repertoirebezogenen Konstrukten (vgl. Abbildung 14, Typ G) grundsätzlich von unterschiedlichen Skalen auszugehen und damit Vergleichbarkeit nicht gegeben. So sind Meßergebnisse bezüglich des Wissens über lokale Fauna und Flora nicht unmittelbar vergleichbar (Poortinga und Malpass, 1986, S.24). Ein Versuch, eine gemeinsame Skala zu etablieren, könnte darin liegen, die einzelnen Elemente in einer Kultur und Sprache nicht lexikalisch in einer andere Sprache zu übersetzen, sondern anhand einer, durch Expertenurteile gegebenen, Rangfolge der Wichtigkeit regionaler Pflanzen und Tiere. Für attributbezogene Konstrukte ist die Definition einer gemeinsamen Skala bei nichtidenten Universen und selektierten Elementen (vgl. Abbildung 14, Typ H) ebenfalls äußerst problembehaftet. Gleichzeitig umfaßt diese Kategorie die Mehrzahl der kulturübergreifenden Untersuchungen in der Psychologie (Poortinga und Malpass, 1986, 87 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung S.26), sowie in der Marketingforschung. Die dabei untersuchten Konstrukte (Persönlichkeitsmerkmale, Einstellungen, etc.) sind nicht direkt beobachtbar und damit nicht direkt meßbar. Solche Konstrukte werden als latente, hypothetische Konstrukte bezeichnet (vgl. Hänni, 1987, S.946). Die zur Messung herangezogenen Elemente sind Manifestationen bzw. Indikatoren des Konstrukts. Die Auswahl der Elemente ist in der Regel nicht repräsentativ für das Universum. Diese ist vielmehr „based on a small subset of behaviors, which from a theoretical point of view (or intuitively!) capture the essential aspects of a psychological quality.“ (Poortinga und Malpass, 1986, S.27). Die Vergleichbarkeit verschiedener Kulturen setzt eine gemeinsame Skala voraus, welche die Meßwerte abbildet. Die Definition einer solchen Skala setzt wiederum voraus, daß Identität auf der Konstruktebene besteht. Ist ein Konstrukt in Kultur A eindimensional, in Kultur B aber mehrdimensional, so ist eine gemeinsame Skala schon allein deshalb nicht etablierbar, da keine dimensionale Identität besteht und in Kultur B mehr als eine Skala zur Repräsentation des Konstrukts erforderlich ist. Vergleichbarkeit setzt somit dimensionale Identität des Konstrukts voraus. Die Frage, ob diese notwendige Bedingung für Vergleichbarkeit auch hinreichend ist, hängt davon ab, wie der Begriff der Vergleichbarkeit definiert wird. Wenn sich Vergleichbarkeit lediglich darauf beziehen soll, Aussagen hinsichtlich der dimensionalen Identität treffen zu können, so ergibt sich der hinreichende Charakter der Bedingung trivial aus der Gleichsetzung von dimensionaler Identität und Vergleichbarkeit. Freilich verliert Vergleichbarkeit damit jeden erkenntnisbezogenen Wert, der über den der dimensionalen Identität hinausginge. Für Vergleichbarkeit, verstanden als Zulässigkeit des Vergleichs von Meßwerten über Kulturen hinweg, ist die dimensionale Identität allein nicht ausreichend. Dies erfordert eine gemeinsame Meßskala. Diese ist dann gegeben, wenn die Transformation der hypothetischen Skala des Konstrukts in die Meßskala in allen Kulturen in gleicher Weise erfolgt (Poortinga und Malpass, 1986, S.28). Die hypothetische Skala des Konstrukts ist, dimensionale Identität auf Konstruktebene vorausgesetzt, universell. Diese Skala bildet die latenten, ’wahren’ Werte ab. Die Meßskala bildet die Scores der manifesten Indikatorvariablen (Meßelemente aus dem Universum des Konstrukts) ab. 88 Meßskala 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung Skala des hypothetischen Konstrukts Abbildung 15: Transformation der Skala des hypothetischen Konstrukts und der Meßskala (Poortinga und Malpass, 1986, S.28) Abbildung 15 gibt einige mögliche Transformationsfunktionen wieder. Sinnvolle Messungen setzen (grundsätzlich) streng monoton steigende Funktionsverläufe voraus. Die theoretische Fundierung der Transformation ist Aufgabe der Testtheorie, die der Messung zugrundegelegt wird. Die klassische Testtheorie (vgl. Fischer, 1974, S.26), die axiomatisch auf Gullikson (1950) zurückgeht und später einige Modifikationen erfahren hat (vgl. z.B. Lord und Novick, 1968), definiert die Transformationsfunktion als lineare Funktion. Die Skala des hypothetischen Konstrukts bildet demnach die „true scores“ ab, also die „wahren Werte“1, welche bei der tatsächlichen Messung durch Meßfehler überlagert sind (zu anderen, semantischen, Interpretationen des „wahren Wertes“ in der klassischen Testtheorie vgl. Fischer, 1974, S.27). wobei: X = T+E X ... beobachteter Meßwert T ... wahrer Wert (true score) E ... Meßfehler (random error) Cov (T,E)=0; E(E)=0 Abbildung 16: Grundgleichung der klassischen Testtheorie (Fischer, 1974, S.36; Rost, 1988, S.81) Da jedoch sowohl der „wahre Wert“, als auch der Meßfehler nicht beobachtbare Größen darstellen, wird ein beobachtbarer Wert, der manifeste Meßwert, durch die Summe zweier unbeobachtbarer Werte „erklärt“. Die Grundgleichung der klassischen Testtheorie (vgl. Abbildung 16) ist daher tautologisch und empirisch nicht widerlegbar. 89 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung Ausgehend von der Identität der Skala des hypothetischen Konstrukts unterscheiden Poortinga und Malpass (1986, S.29f) drei mögliche Ansätze zur Interpretation interkultureller Daten. Im ersten Fall werden idente oder weitgehend gleiche Meßinstrumente eingesetzt und die Übereinstimmung der Transformationsfunktionen nicht überprüft, sondern angenommen. „... when comparisons are made in terms of an observed score scale - and this is most common - it is implicitly assumed that the transformation function between the hypothetical construct scale and observed score scale is the same in the cultures which are compared.“ (Poortinga und Malpass, 1986, S.29). Die bloße Annahme identer Transformationsfunktionen und damit die fehlende Überprüfung der Wirksamkeit eines Biases ist allerdings nicht zufriedenstellend. Im zweiten Fall werden ebenfalls gleiche oder nahezu gleiche Meßinstrumente angewandt, die Identität der Transformationsfunktionen wird jedoch durch zusätzliche Analysen geprüft. Poortinga und Malpass (1986, S.30) führen als Beispiel Korrelationsanalysen der kulturspezifischen Itemschwierigkeiten an. Itemschwierigkeiten werden im Rahmen der klassischen Testtheorie bei leistungsbezogenen Meßinstrumenten als Verhältnis der Zahl der Personen definiert, welche ein Item korrekt lösen und der Zahl der Personen insgesamt. Dieses Maß läßt sich für Einstellungsmessungen analog berechnen und könnte Itemaffektivität (Grad, inwieweit ein Item Personen anspricht und zur Zustimmung animiert) genannt werden. Die Aussage- 1. Die formale Definition des beobachteten Werts X als Summe von True Score T und zufälligem Fehler E sagt nichts über die semantische Bedeutung des True Scores oder wahren Werts aus. Man kann den wahren Wert als platonische Idee verstehen, als Ding an sich (Steyer und Eid, 1993), welches unabhängig vom Test existiert. Tatsächlich sollte T auch testunabhängig sein, was allerdings nur für parallele Tests praktisch gelten kann. Andere Sichtweisen „definieren“ den wahren Wert als Differenz des beobachteten Werts X und des Meßfehlers E, was lediglich einer tautologischen Umstellung der Grundformel entspricht. Die statistische Interpretation des wahren Werts als Erwartungswert des beobachteten Werts [T=E(X)] impliziert, daß der Erwartungswert des zufälligen Fehlers E gleich 0 ist. E(E)=0 läßt sich also nicht aus der Grundformel ableiten, sondern ist eine Zusatzannahme, ebenso wie die Zusatzannahme, daß die Fehler verschiedener Testteile i und j unkorreliert sind [COV(Ei;Ej)=0]. Im Mittel entspricht also X gleich T. Gelegentlich wird die Grundformel auch anders angegeben (z.B. bei Mullen, 1995). Der beobachtete Wert X wird als Summe von True Score, systematischem Fehler Es und zufälligem Fehler (random error) Er definiert (X = T + Es + Er). Damit wird jedoch eine beobachtbare Größe durch drei nicht beobachtbare Größen definiert. Weiters führt T=E(X) zu einem Widerspruch, da gilt: T=E(X)=E(T + Es + Er). E(Er)=0, der Erwartungswert des systematischen Fehlers ist aber eine Konstante c [E(Es)=c]. Folglich gilt: T=E(X)=E(T) + c und damit T=T + c. Dieser Widerspruch ist nur dann auflösbar, wenn der systematische Fehler mit dem beobachteten Wert kombiniert wird (X’=X + Es). Die Spezifikation eines systematischen Fehlers ist daher wenig sinnvoll. Insbesondere beeinträchtigt er als Konstante die - als Korrelation definierte! - Validität ohnehin nicht, wie gelegentlich behauptet wird. Sehr wohl relevant ist ein additiver Bias im Falle der simultanen Betrachtung mehrerer Gruppen (vgl. Kapitel 6.6 auf Seite 114). Allerdings ist auch da nur der relative Bias einer Gruppe zu einer Referenzgruppe bestimmbar und nicht der absolute systematische Meßfehler einer Gruppe. 90 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung kraft dieser Größe ist durch ihre Stichprobenabhängigkeit allerdings ernsthaft eingeschränkt. Eine Heranziehung zur Überprüfung der Identität der Transformationsfunktionen erscheint daher problematisch. Im dritten Fall gehen Poortinga und Malpass (1986, S.30) von unterschiedlichen Operationalisierungen in den einzelnen Kulturen aus. Durch intrakulturelle Konstruktvalidierung kann zwar gewährleitet werden, daß das gleiche hypothetische Konstrukt gemessen wird, die Skala der manifesten Meßwerte (Scores) ist aber grundsätzlich unterschiedlich, so daß keine Vergleichbarkeit der Meßwerte besteht. Die Anpassung der Meßinstrumente an die jeweiligen Kulturen erhöht zwar die Zahl der möglichen Instrumente, beschränkt aber die Zahl der Verfahren zur Überprüfung der Identität der Transformationsfunktionen (Poortinga und Malpass, 1986, S.30). 5.3 Operationalisierung von Konstrukten In der interkulturellen Erforschung eines marketingrelevanten Konstrukts ist grundsätzlich davon auszugehen, daß unterschiedliche, kulturabhängige Universen von Elementen, die zur Operationalisierung des Konstrukts geeignet sind, bestehen. Daraus ergibt sich, daß Konstrukte formal ident in allen untersuchten Kulturen oder formal unterschiedlich operationalisiert werden können. Bei der formal identen Operationalisierung werden nur solche Elemente zur Messung des Konstrukts herangezogen, die in allen Universen der an der Untersuchung beteiligten Kulturen enthalten sind. Die einzelnen Elemente unterscheiden sich lediglich sprachlich, wobei die Bedingungen der Übersetzungsäquivalenz erfüllt sein müssen. Bei formal unterschiedlichen Operationalisierungen in den einzelnen Kulturen sind einzelne oder alle Elemente kulturspezifisch und lediglich in einem Universum enthalten. Elemente, die in allen Universen enthalten sind und dementsprechend kulturübergreifend zur Messung geeignet sind, werden als etics bezeichnet (Berry, 1980, S.11f). Kulturspezifische Elemente werden emics genannt. Bestehen die in unterschiedlichen Kulturen eingesetzten Meßinstrumente ausschließlich aus emischen Elementen, so ist ein interkultureller Vergleich nicht möglich (Berry, 1990, S.95; Holzmüller, 1995, S.153). Die Zielsetzung kulturvergleichender Forschung muß demnach auf die Entwicklung - zumindest teilweise - etischer Meßinstrumente gerichtet sein. Die Entwicklung von formal 91 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung identen Elementen im Meßinstrument garantiert allerdings nicht, daß diese Elemente tatsächlich in allen untersuchten Kulturen im Universum des Konstrukts enthalten sind. „There appears to be no clear a priori criterion by which to distinguish the culture-specific from the universal, (...) to distinguish the emic from the etic.“ (Poortinga und Malpass, 1986, S.41). Auch Wich (1989, S.43) betont, „daß Identität (Anm.: der Operationalisierung) nicht immer gleichzeitig Äquivalenz bzw. Vergleichbarkeit zur Folge haben muß“. Die Frage, ob Meßinstrumente grundsätzlich als emisch anzusehen sind oder ob etische Instrumente möglich sind, ist nicht objektiv beurteilbar, sondern hängt wesentlich von der individuellen Grundposition ab. Verschreibt sich der Forscher a priori keiner der beiden Positionen, so können diese als Annahmen bezeichnet werden, als Aussagen, die zwar objektiven Wahrheitswert aufweisen, aber mit keinem subjektiven Wahrheitsanspruch verbunden werden (vgl. Chmielewicz, 1979, S.119). Anhänger des radikalen kulturellen Relativismus (vgl. dazu Poortinga und Malpass, 1986, S.41) gehen davon aus, daß hypothetische Konstrukte jedenfalls vor dem Hintergrund der spezifischen Kultur zu operationalisieren sind und favorisieren damit eine emische Ausrichtung. Adler (1983, S.S.36) bezeichnet diese Sicht als polyzentrische Vorgangsweise („Cultures must be understood in their own terms“). Weniger radikale Positionen nehmen an, daß „[d]ata, concepts, and measurement procedures as they are found in a particular culture may be culture-specific, but they may also be found to be appropriate for more than one culture“ (Poortinga und Malpass, 1986, S.41). Jedenfalls ist die Entwicklung a priori etischer, also universell gültiger, Meßinstrumente nicht möglich. Der etische Charakter eines Elementes in einem Meßinstrument ist vielmehr empirisch zu belegen. Eine mögliche Vorgangsweise (vgl. Berry, 1990, S.95; Holzmüller, 1995, S.153) besteht darin, von einem vorläufig als emisch betrachteten Meßinstrument auszugehen, welches in einer Kultur entwickelt und validiert wurde. Dieses Meßinstrument wird, so weit erforderlich in übersetzter Form, in einer anderen Kultur eingesetzt. Wie bereits dargestellt, wird durch die in beiden Kulturen formal identen Meßinstrumente allein noch kein etisches Instrument etabliert. Die kulturfremden emics werden vielmehr der zweiten Kultur „aufgedrängt“ (imposed etics, auch pseudo etics genannt). Durch weitere Exploration der zweiten Kultur werden dafür spezifische, also emische Aspekte erforscht und berücksichtigt, so daß ein zweites emisches Meßinstrument resultiert. Dieses wird mit dem ursprünglichen emischen Instrument der Ausgangs- 92 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung kultur verglichen. Die Überschneidungsbereiche der beiden emischen Instrumente sind kulturübergreifend einsetzbar. Dennoch kann nicht uneingeschränkt von etischen Instrumenten gesprochen werden, da die Gültigkeit nur für die beteiligten Kulturen nachgewiesen wird. Die entsprechenden Elemente im Überschneidungsbereich werden als derived etics bezeichnet. Die empirische Überprüfung, ob und in welchem Ausmaß ein Überschneidungsbereich existiert, ist von der Zielsetzung ident mit der Überprüfung der Äquivalenz der Erhebungsdaten. Kulturelle Faktoren können einerseits als Antezedenzbedingung die Werte des Konstrukts, also die Ausprägungen auf der Konstruktdimension, beeinflussen. Andererseits bestimmt Kultur die Definition der zur Messung des Konstrukts geeigneten Parameter (Poortinga und Malpass, 1986, S.45). Für quantitative Vergleiche über Kulturen hinweg sind ein gemeinsames Modell (gleiche Struktur) und eine gemeinsame Skala erforderlich (Poortinga und Malpass, 1986, S.43). 5.4 Interkulturelle Vergleiche Die Überprüfung von Hypothesen in der interkulturellen Forschung ist aufgrund des Charakters der Untersuchung als Ex-post-facto-Experiment (Chmielewicz, 1979, S.113ff) problematisch. Unter einer Hypothese sei „eine Aussage verstanden, die objektiv einen Wahrheitswert aufweist, also nach ihrer Form wahr oder falsch sein kann, für die außerdem subjektiv ein Wahrheitsanspruch erhoben wird“ (Chmielewicz, 1979, S.119). Um die Prüfung einer wissenschaftlichen Hypothese durch statistische Verfahren zu gewährleisten, muß diese in eine statistische Hypothese umgewandelt werden (Bortz, 1993, S.105). Letztere soll inhaltlich so genau wie möglich der wissenschaftlichen Hypothese entsprechen. Die statistische Hypothese zielt auf einen spezifischen Testwert ab, der durch das angewendete Verfahren ermittelt wird. Um aufgrund empirischer Daten eine Entscheidung zu treffen, müssen stets zwei, komplementäre statistische Hypothesen formuliert werden. Die eigentlich zu überprüfende Hypothese geht - bei Unterschiedshypothesen von einem Unterschied aus. In statistischer Diktion wird diese Hypothese Alternativhypothese genannt (Bortz, 1993, S.106). Letzterer wird eine Nullhypothese gegenübergestellt. Die Nullhypothese ist logisch komplementär zur Alternativhypothese. Daraus folgt, daß entweder die Alternativhypothese oder die Nullhypothese objektiv wahr ist, nie aber beide wahr oder beide falsch sein können. Das angewandte statistische Verfahren prüft, ob 93 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung die empirischen Daten mit der Nullhypothese noch in Einklang stehen, oder ob die Alternativhypothese als vorläufig gültig anzusehen ist. Im letzteren Fall wird von einem signifikanten Ergebnis gesprochen, der empirisch in einer Stichprobe vorgefundene Unterschied ist also statistisch bedeutsam und auf die Grundgesamtheit verallgemeinerbar. Unabhängig vom Ergebnis der Hypothesenprüfung kann selbige allerdings nur einen subjektiven Wahrheitsanspruch begründen. Denn die Prüfung der Hypothesen ist stets mit der Möglichkeit einer Fehlentscheidung verbunden. Dabei werden zwei Fehlerarten unterschieden. Die fälschliche Zurückweisung der Nullhypothese und damit die Annahme der Alternativhypothese wird als Fehler 1. Art oder α-Fehler bezeichnet. Die fälschliche Beibehaltung der Nullhypothese entspricht einem Fehler 2. Art oder β-Fehler (Bortz, 1993, S.107). Die statistische Hypothesenprüfung erlaubt zwar keine Aussage, ob im konkreten Fall eine Fehlentscheidung getroffen wurde, sie gestattet aber eine Quantifizierung der Wahrscheinlichkeit eines Fehlers. Die Prüfung eines empirischen Ergebnisses auf Signifikanz erfolgt damit auf einem bestimmten, vom Forscher zu wählenden Niveau, dementsprechend Signifikanzniveau bezeichnet. Dieses gibt die Wahrscheinlichkeit an, die Gültigkeit der Nullhypothese auch als solche richtig zu erkennen. Das Signifikanzniveau ist damit komplementär zum Fehler 1. Art. Während der Fehler 1. Art frei wählbar ist, ist der Fehler 2. Art nur für die Annahme eines bestimmten wahren Unterschieds bestimmbar. Das Signifikanzniveau läßt sich formal als bedingte Wahrscheinlichkeit darstellen: P (Beibehaltung der NullhypotheseGültigkeit der Nullhypothese). Aus dieser Wahrscheinlichkeit läßt sich aber ohne weitere Annahmen nicht die Gültigkeit der Nullhypothese unter der Bedingung der empirischen Daten ableiten. Nach dem Theorem von Bayes (Abbildung 17; vgl. Iversen, 1984, S.12), ist die Wahrscheinlichkeit der Nullhypothese unter der Bedingung der Daten dann ableitbar, wenn die a priori Wahrscheinlichkeit der Nullhypothese vom Forscher vorgegeben wird. 94 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung P ( H i ) × P ( D Hi ) P ( H i D ) = --------------------------------------------------------k ∑i = 0 P ( H i ) × P ( D H i ) Hi ... Hypothese i D ... Daten (empirische Ergebnisse) Abbildung 17: Wahrscheinlichkeit einer Hypothese unter der Bedingung empirischer Daten nach dem Theorem von Bayes (vgl. Iversen, 1984) Im Nenner des Bruches (vgl. Abbildung 17 für i=0) sind die Wahrscheinlichkeiten aller möglichen Alternativhypothesen mit den entsprechenden Wahrscheinlichkeiten der Daten zu multiplizieren. Im Zähler ist die Wahrscheinlichkeit der Daten unter der Bedingung der Gültigkeit der Nullhypothese (entspricht dem gewählten Signifikanzniveau) mit der unbedingten a priori Wahrscheinlichkeit der Nullhypothese zu multiplizieren. Malpass und Poortinga (1986, S.48) argumentieren, daß die a priori Wahrscheinlichkeit der Zurückweisung der Nullhypothese in der interkulturellen Vergleichsforschung außerordentlich hoch ist. Die a priori Wahrscheinlichkeit der Zurückweisung der Nullhypothese ist dann hoch, wenn die a priori Wahrscheinlichkeit der Nullhypothese gering ist. Letzteres gilt allerdings nicht, weil bereits eine Reihe empirischer Befunde dafür spräche, sondern weil zahlreiche unkontrollierte Effekte, wie z.B. Antwortbiases, wirksam sind. Für Malpass und Poortinga (1986, S.48) ist die Nullhypothese, welche das Fehlen eines Unterschieds postuliert, daher keine taugliche Alternative zur Forschungshypothese, wonach ein kulturell bedingter Unterschied bestehe. Die Testung einer Alternativhypothese gegen eine Nullhypothese ist nur eine „reasonable presumption in studies where subjects are randomly allocated to different experimental conditions and the differences between these conditions are restricted to changes which are introduced and more or less completely controlled by the investgator(s)“ (Malpass und Poortinga, 1986, S.49). In kulturübergreifenden Studien ist dies in der Regel nicht der Fall, da „the allocation of subjects is determined by their membership in a specific cultural group and the observed differences between cultures follow from antecedent conditions on which the researcher has exercised no influence“ (Malpass und Poortinga, 1986, S.49). Malpass und Poortinga unterstreichen damit die Problematik von Ex-post-facto-Experimenten. Zwei Strategien, die Genauigkeit der Hypothesenprüfung zu steigern, die Erhöhung der Stichprobengröße, sowie die 95 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung Durchführung von Replikationsstudien, versagen in der kulturvergleichenden Forschung. Replikationsstudien und größere Stichprobenumfänge sind dann zur Randomisierung unkontrollierbarer Effekte, wie Antwortbiases, nicht geeignet, wenn diese Effekte in stets gleicher Weise wirksam sind. „To the extent that the ambient factors are themselves stable across subjects or across assessment procedures, larger samples and replications will serve only to increase the stability of the biased estimation of the population difference, since all the data would have the existing biases in common.“ (Malpass und Poortinga, 1986, S.50). Für Malpass und Poortinga ist dementsprechend der „empirical support for many interpretations of observed cross-cultural differences (...) far less established than it appears to be“ (Malpass und Poortinga, 1986, S.49). Aussagekräftige Vergleiche bedingen daher die Eliminierung kleinster systematischer Biases. Dies kann nur durch die Überprüfung der Äquivalenz der Erhebungsdaten erfolgen. Im Falle nicht signifikanter Unterschiede ist es zwar unwahrscheinlich, daß substantielle Biases wirksam sind (Malpass und Poortinga, 1986, S.63). Dennoch ist es unbefriedigend, daraus sowohl die Schlußfolgerung zu ziehen, daß kein Bias besteht, als auch die, daß sich die beiden Kulturen im untersuchten Phänomen nicht unterscheiden. Die Tatsache, daß der Datenäquivalenzprüfung in der interkulturellen Marketingforschung ein viel zu geringer Stellenwert eingeräumt wird, kann auf mehrere Ursachen zurückgeführt werden. Zum einen wird „[e]quivalence (...) often seen as a conceptual rather than a measurement problem“ (Malpass und Poortinga, 1986, S.67). Die Fehleinschätzung des Problemcharakters führt zu inadäquaten, meist auf Plausibilitätsüberlegungen beruhenden „Prüfungen“ der Äquivalenz. Wie bereits dargestellt, ist die Beachtung aller Äquivalenzaspekte von der Konstruktformulierung bis zur Aufbereitung der Daten keine hinreichende Bedingung für die Äquivalenz der Erhebungsdaten. Ein zweiter Grund, Äquivalenzprüfungen zu unterlassen, geht auf inhaltliche bzw. forschungssoziologische Motive zurück. Weist die Prüfung der Äquivalenz der Erhebungsdaten darauf hin, daß keine Vergleichbarkeit der Daten gegeben ist, so besteht aufgrund des Fortschritts der Untersuchung keine Möglichkeit mehr, korrigierend einzugreifen. Dies beeinträchtigt aber wesentlich die Publizierbarkeit der Ergebnisse in wichtigen Zeitschriften. Ähnliches gilt, wenn signifikante Unterschiede postuliert und empirisch nachgewiesen werden, diese aber lediglich auf Methodenartefakten beruhen. Malpass und Poortinga (1986, S.64f) betonen, daß „a failure to find differences is not a negative but a positive research outcome“ 96 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung und daß „the search for no-difference results across divergent cultures may from time to time be a more promising approach than searching for differences“. Schließlich liegt ein möglicher Grund auch darin, daß geeignete Methoden in der wirtschaftswissenschaftlichen Forschergemeinschaft noch nicht entsprechend rezipiert sind. Diesbezügliche Defizite wurden bereits im Zuge der Beschreibung von Systematisierungen der Äquivalenz beklagt. 5.5 Biasformen In der interkulturellen Vergleichsforschung lassen sich drei mögliche Formen von Biases unterscheiden (Malpass und Poortinga, 1986, S.71ff): • Stimulusbias • Methodenbias • Universumsbias Die Wirksamkeit eines Stimulusbias, oder Itembias, ist dann wahrscheinlich, wenn die einzelnen Stimuli (Items) nicht repräsentativ für das Universum möglicher Stimuli sind bzw. das Universum sehr heterogen ist. So wäre ein Item, welches nach dem höchsten Berg der Alpen fragt, zwar für alle Länder im Universum eines Tests europäischer Geographie. Für Schweizer ist die richtige Antwort allerdings viel wahrscheinlicher als für Schweden (Malpass und Poortinga, 1986, S.71). Ein Methodenbias ist wirksam, wenn Umfeldvariablen, wie Interaktionen des Interviewers und des Befragten, Verständnis der Aufgaben, etc., zu kulturell unterschiedlichen Ergebnissen führen. Während Methodenund Stimulusbias meßmethodische Probleme implizieren, referenziert der Universumsbias auf ein theoretisches Problem. Ein Universumsbias besteht dann, wenn die Universen unterschiedlich sind oder Generalisierungen auf unterschiedliche Universen erfolgen. Wenn nicht-idente Universen zu formal unterschiedlichen Meßinstrumenten führen, so besteht keine Möglichkeit, Biases auszuschließen (Malpass und Poortinga, 1986, S.74). In interkulturellen Studien sind in der Regel die Universen nicht zur Gänze bekannt, damit ist auch nicht klar, ob sie sich unterscheiden. Die Prüfung, ob ein Universumsbias vorliegt, kann durch Validitätsprüfungen in Bezug auf das gemeinsame Universum erfolgen. Da die Präsenz eines Universumsbiases in aller Regel aber auch zu Methoden- oder Stimulusbiases führt, gewährleistet die Überprüfung letzterer auch eine Abschätzung eines 97 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung möglichen Universumsbias. Sowohl Methoden- als auch Stimulusbias beeinträchtigen die Äquivalenz auf der Ebene einzelner oder auch aller Items. Werden auf Itemebene keine Biases gefunden, so kann davon ausgegangen werden, daß die Universen übereinstimmen. Werden hingegen einige der Items durch einen Bias beeinflußt, so empfehlen Malpass und Poortinga (1986, S.75), diese von der weitergehenden Analyse auszuschließen. Voraussetzung für diese Vorgangsweise ist allerdings die Plausibilität identer Universen, welche theoretisch zu untermauern ist. Andernfalls reflektieren die ausgeschlossenen Items systematische Unterschiede zwischen den Kulturen. 5.6 Verfahren zur Überprüfung der Wirksamkeit von Itembiases Ein Item ist als biasfrei zu betrachten, wenn die Schwierigkeit bzw. die Affektivität des Items nicht kulturabhängig ist. Auf die Problematik der Itemschwierigkeit im Rahmen der klassischen Testtheorie wurde bereits hingewiesen. Eine Alternative zur klassischen Testtheorie stellt die probabilistische Testtheorie (Fischer, 1974), auch als Latent Trait Theory oder Item Response Theory bezeichnet, dar. Das hypothetische Konstrukt wird dabei auf einer Latent Trait Skala abgebildet. Die Wahrscheinlichkeit der Zustimmung einer Person bei einem Item in Abhängigkeit von der Position auf der Latent Trait Skala formt eine sogenannte Itemcharakteristikkurve (Malpass und Poortinga, 1986, S.77). Für biasfreie Items stimmen die Parameter der Itemcharakteristikkurven in den jeweiligen Kulturen überein. Prüfverfahren, die geeignet sind, Methodenbiases zu entdecken, setzen an Iteminterkorrelationen an (Malpass und Poortinga, 1986, S.78f). Items, die das gleiche Konstrukt messen, müssen korrelieren. Interkulturelle Vergleichbarkeit setzt voraus, daß diese Korrelationen in den betrachteten Kulturen übereinstimmen. Als adäquates Verfahren bietet sich die konfirmatorische Faktorenanalyse (Jöreskog, 1971) an (Malpass und Poortinga, 1986, S.79). Diese basiert auf Itemkovarianzen und berücksichtigt daher alle möglichen Interitembeziehungen simultan. Durch Spezifikation von theoretisch fundierten Beziehungen von Items zu Faktoren, ist eine Prüfung der Struktur der Items simultan in mehreren Kulturen möglich. Somit erscheinen zwei methodische Ansätze zur Überprüfung der Äquivalenz der Erhebungsdaten vielversprechend, zum einen die konfirmatorische Faktorenanalyse, welche 98 5 Operationalisierung und Messung von Konstrukten in der interkulturellen Marketingforschung auf der klassischen (oder traditionellen) Testtheorie (Classical Test Theory, CTT) beruht, zum anderen Verfahren auf der Basis der probabilistischen Testtheorie (Latent Trait Theory, LTT). 99 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie 6.1 Grundlegende Ansätze zur Überprüfung der Äquivalenz der Erhebungsdaten Die endgültige Bewertung der Äquivalenz erfordert die Überprüfung der Äquivalenz der Erhebungsdaten. Ein möglicher Ansatz, welcher Gegenstand dieses Abschnitts ist, basiert auf der konfirmatorischen Faktorenanalyse. Ein alternativer methodischer Zugang beruht auf der probabilistischen Testtheorie, welcher im Abschnitt 7 (S. 132) behandelt wird. Der wesentliche Unterschied der beiden möglichen Ansätze liegt somit in der zugrundeliegenden Meßtheorie und ist dementsprechend fundamental. Der faktorenanalytische Ansatz basiert auf der klassischen, traditionellen Test- und Meßtheorie, deren Grundformel bereits eingeführt wurde (vgl. Abbildung 16 auf Seite 89). Da die klassische Testtheorie die in der Marketingforschung vorherrschende, weithin akzeptierte Meßtheorie darstellt, wird auf ihre Charakteristika und Probleme erst im folgenden Abschnitt eingegangen, wenn diese kontrastierend zur probabilistischen Testtheorie erläutert werden. Gegenstand dieses Kapitels ist daher die Exploration der konfirmatorischen Faktorenanalyse als Instrument der Überprüfung der Äquivalenz der Erhebungsdaten. Die kritische Hinterfragung der meßtheoretischen Grundlagen erfolgt zu einem späteren Zeitpunkt. Bereits Berry (1980) führt die Prüfung der inneren Struktur eines Konstrukts als Verfahren zur Bestimmung der metrischen Äquivalenz an (vgl. Seite 62). Ein Vergleich über Kulturen hinweg erfordert demnach gleiche innere Struktur der Meßmodelle. Die Identität der Strukturen ist aber gleichzeitig auch Voraussetzung für die Erfüllung der Äquivalenz der Erhebungsdaten. Die Faktorenanalyse bietet sich somit als strukturenprüfendes Verfahren an. 100 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie 6.2 Explorative Faktorenanalyse1 6.2.1 Grundlagen Die explorative Faktorenanalyse (EFA) dient der Untersuchung der Struktur, welche den Beziehungen von manifesten Variablen (Items) zugrundeliegt. Die Quantifizierung der Variablenbeziehungen erfolgt in Form von Korrelationskoeffizienten (vgl. Backhaus et al., 1994, S.193). Die Korrelationen aller Variablen formen eine Korrelationsmatrix, welche den Input für die Faktorenanalyse darstellt2. Die Analyse der dahinterliegenden Struktur erfolgt durch die Definition von latenten Dimensionen, welche als Faktoren bezeichnet werden (vgl. z.B. Hair et al., 1995, S.366f). In Abbildung 18 sind zwei latente Faktoren (F1 und F2) dargestellt, welche hinter den Interkorrelationen von acht manifesten Variablen (V1 bis V8) stehen. Die „Verbindung“ eines Faktors und einer manifesten Variable wird als Ladung bezeichnet. Dieser Parameter entspricht der Gewichtung des Faktors bei der Erklärung der Variablen und ist wie eine Korrelation zu interpretieren. Dementsprechend können Faktorladungen Werte zwischen -1 und +1 annehmen. Hohe Absolutwerte (also nahe -1 oder +1) stehen für einen starken Zusammenhang (in Abbildung 18 sei dies durch eine durchgezogene Linie dargestellt), Ladungswerte um 0 stehen für einen sehr geringen bis gar keinen Zusammenhang (in Abbildung 18 durch strichlierte Linien symbolisiert). Da latente Variablen (Faktoren) nicht direkt beobachtbar sind, sondern nur durch manifeste Variablen erfaßbar sind, werden letztere auch Indikatorvariablen genannt. 1. Auf die explorative Faktorenanalyse wird fast ausschließlich unter Weglassung des Begriffs „explorativ“ Bezug genommen. Weiters werden unter dem Begriff Faktorenanalyse, neben anderen, weniger bedeutsamen Verfahren (vgl. dazu z.B. Bortz, 1993, S.515ff), zwei Analysetechniken subsumiert: die Hauptachsenanalyse als Faktorenanalyse i.e.S. und die Hauptkomponentenanalyse. Letztere kann als Schätzverfahren der Faktoren angesehen werden (vgl. z.B. Horn und McArdle, 1992, S.119). In der Praxis unterscheiden sich die Lösungen der Hauptachsenanalyse und der Hauptkomponentenanalyse allerdings nicht substantiell. Zu den unterschiedlichen Anwendungsvoraussetzungen vgl. z.B. Hair et al. (1995, S.375ff). 2. Die Faktorenanalyse baut in der Mehrzahl der Anwendungen auf Korrelationen von Variablen (Items) auf, sogenannte R-type-factor analysis (vgl. Hair et al., 1995, S.369; Stewart, 1981, S.52ff). Daneben besteht die Möglichkeit, Faktorenanalysen auf Korrelationen von Personen (Cases) zu beziehen (Q-type-factor analysis, vgl. Hair et al., 1995, S.369 bzw. S-type-factor analysis, vgl. Stewart, 1981, S.52ff), sowie Wiederholungsmessungen einer einzigen Person oder Messungen an einer einzigen Variablen zu mehreren Zeitpunkten zu berücksichtigen (Ttype-, P-type- bzw. O-type-factor analysis, vgl. Stewart, 1981, S.52ff). 101 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie V1 V2 V3 F1 V4 V5 F2 V6 V7 V8 Abbildung 18: Faktorenanalyse: Beziehungen manifester Variablen (V1 bis V8) zu zwei latenten Faktoren (F1 und F2) 6.2.2 Zielsetzungen Die Zielsetzungen der explorativen Faktorenanalyse lassen sich demnach wie folgt zusammenfassen (Hair et al., 1995, S.368ff; Stewart, 1981, S.51): • Ermittlung der den Variablenbeziehungen zugrundeliegenden Struktur • Identifikation für ein Konstrukt repräsentativer Variablen • Reduktion der Daten Alle drei Zielsetzungen stehen in einem engen Zusammenhang. Die Zielsetzung der Strukturentdeckung ergibt sich unmittelbar aus dem Grundprinzip der Faktorenanalyse. Eine Reihe von Variablen wird in einem Raum angeordnet, dessen konstituierende Achsen durch Faktoren gebildet werden (vgl. Abbildung 19). Diese Raumstruktur ist ein Abbild3 der Datenstruktur. Der Faktorraum ist nicht notwendigerweise orthogonal, das heißt, die Faktoren müssen nicht unkorreliert sein. Im Sinne einer leichteren Interpretierbarkeit werden unkorrelierte Faktoren aber in der Regel bevorzugt. Die Korrelation der Faktoren 102 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie hängt analysetechnisch von der gewählten Rotationsform ab (vgl. dazu z.B. Bortz, 1993, S.506ff). F2 V6 V8 V7 V5 V2 V1 V3 V4 F1 Abbildung 19: Faktorenanalyse: Anordnung der manifesten Variablen (V1 bis V8) im zweidimensionalen Raum (definiert durch F1 und F2) Die Dimensionen des Raumes, also die Faktoren, lassen sich inhaltlich durch die Stärke der Assoziation der Variablen mit der jeweiligen Dimension interpretieren. Variablen die mit einer Dimension sehr stark assoziiert sind, also eine hohe Faktorladung haben, gleichzeitig auf allen anderen Dimensionen nur geringe Ladungen aufweisen, charakterisieren die entsprechende Dimension inhaltlich. Daraus ergibt sich, daß Variablen, die diese Bedingung erfüllen, aus inhaltlichen Gründen zu bevorzugen sind und für eine Dimension des Konstrukts als repräsentativ betrachtet werden können. Der in Abbildung 19 dargestellte Faktor 1 wird gut durch die Variablen V1 bis V4 charakterisiert. V5 lädt zwar ebenso hoch auf Faktor 1, gleichzeitig aber auch auf Faktor 2. Diese Variable läßt sich also nicht auf einen Faktor zurückführen. Das Ziel, eine Faktorenstruktur zu ermitteln, die dieser Vorgabe gerecht wird, läßt sich durch faktorenanalytische Techniken (konkret durch entsprechende Rotationsverfahren, vgl. z.B. Bortz, 1993, S.506ff; Backhaus et al., 1994, S.227ff; Stewart, 1981, S.59) erreichen. Thurstone (1947) hat für diese Struktur den Begriff der Einfachstruktur (simple structure) geprägt. 3. Das Abbild ist allerdings insofern unvollkommen, als die Faktoren nicht die gesamte Varianz der ursprünglichen Variablen erklären können. Das faktorenanalytische Modell impliziert somit einen abstraktionsbedingten Informationsverlust. 103 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Da die Dimensionalität des Faktorenraumes kleiner ist als die des Raumes der ursprünglichen Variablen, ist mit der Faktorenanalyse konsequenterweise eine Reduktion der Daten verbunden. Jede Beobachtungseinheit wird nicht mehr durch die Zahl der ursprünglichen, manifesten Variablen beschrieben, sondern durch die wesentlich geringere Zahl an latenten Dimensionen. Letztere drücken aus, was die ursprünglichen Variablen gemeinsam haben (vgl. Stewart, 1981, S.51). Messen alle Variablen die gleiche Dimension, so läßt sich die Ausprägung einer Beobachtungseinheit durch einen einzigen Wert angeben, den Faktorwert. Freilich ist die Datenreduktion in aller Regel mit einem Informationsverlust verbunden. Die Faktorwerte können nicht mehr die gesamte Varianz reproduzieren, die in den ursprünglichen Variablen enthalten war. Der Verlust an Information ist jedoch stark unterproportional zum Gewinn, der aus der Datenreduktion resultiert4. 6.2.3 Kritische Betrachtung Die explorative Faktorenanalyse zählt zu den in der Marketingforschung am häufigsten angewandten multivariaten Verfahren (Stewart, 1981, S.51). Nicht selten nimmt die Anwendung aber den Charakter eines „blind use“ an, welcher nicht zuletzt auf die leichte Verfügbarkeit von entsprechender Statistiksoftware zurückgeht (Stewart, 1981, S.51). An dieser Stelle interessieren weniger grundsätzliche, konzeptuelle Mißverständnisse (wie z.B. die Verwechslung mit der Clusteranalyse hinsichtlich der Zielsetzung des Verfahrens) oder die Problematik der Anwendung auf ordinal skalierte Variablen, sondern Einschränkungen, die sich im Zuge der konkreten Anwendung der Faktorenanalyse bei der Überprüfung der Datenäquivalenz ergeben. Die Faktorenanalyse zählt zu den strukturentdeckenden Verfahren, ist also explorativer, hypothesengenerierender Natur. Vor allem zu Beginn eines Skalenentwicklungsprozesses ist der Einsatz von Faktorenanalysen daher sinnvoll. Sehr häufig bestehen aber vor Anwendung der Faktorenanalyse durchaus Hypothesen, welche Variablen interkorrelieren und dementsprechend einen Faktor formen und welche Variablen zu welchen Faktoren keine Beziehung und dementsprechend auf diesen Faktoren eine geringe Ladung aufweisen. Die Zielsetzung liegt demnach nicht in der Strukturentdeckung, sondern in der Strukturprüfung. Die explorative Faktorenanalyse geht jedoch davon aus, daß keine a priori Struktur bekannt ist. Ein statistischer Test einer 4. Dies gilt unter der Voraussetzung, daß die Variablen gemeinsame Varianz enthalten und die Daten damit überhaupt zur Faktorenanalyse geeignet sind. Als Maß für die Eignung der Daten kann z.B. das „Kaiser-Meyer-Olkin measure of sampling adequacy“ (vgl. Stewart, 1981, S.57) herangezogen werden. 104 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie strukturellen Hypothese kann somit nicht im Rahmen der explorativen Faktorenanalyse erfolgen. Im Zuge der Überprüfung der Äquivalenz der Erhebungsdaten in der internationalen Marktforschung ist jedoch zu prüfen, ob die vorgegebene Struktur kulturübergreifend nachweisbar ist bzw. ob sich die Strukturen in den einzelnen Stichproben gleichen. Für die Fragestellung des Vergleichs zweier faktorenanalytischer Lösungen wurden zwar Lösungsvorschläge entwickelt (vgl. z.B. Bortz, 1993, S.511f), diese stellen aber durchwegs keine gute Basis für Überprüfungen der strukturellen Identität dar (Horn und McArdle, 1992, S.131). Der „Salient Variable Similarity Index“ (SVSI) (vgl. Horn und McArdle, 1992, S.131) drückt die Übereinstimmung faktorenanalytischer Lösungen hinsichtlich der „herausragenden“, also hohen Ladungen (salient loadings) aus. Der Wert des Index ist aber maßgeblich davon abhängig, welche Grenze für „salient loadings“ - mehr oder weniger willkürlich - definiert wird. Der auf Tucker (vgl. Horn und McArdle, 1992, S.131; Bortz, 1993, S.512) zurückgehende Kongruenzkoeffizient ist ebenfalls ein Maß für die Übereinstimmung zweier Faktoren. Allerdings fehlt die theoretische Grundlage der Zufallsverteilung dieses Koeffizienten, und dementsprechend stehen keine statistisch fundierten Interpretationsregeln zur Verfügung. ten Berge (1996) analysiert weitere Factor Similarity Coefficients von Kaiser, Hunka und Bianchini und kommt zum Schluß, daß auch diese Koeffizienten keine zuverlässige Methode darstellen, die Übereinstimmung von Faktoren zu überprüfen. Diese methodischen Defizite und der strukturprüfende Charakter der Äquivalenzprüfung legen die Anwendung konfirmatorischer Faktorenanalysen nahe (ten Berge, 1996). 6.3 Konfirmatorische Faktorenanalyse Die konfirmatorische Faktorenanalyse (abgekürzt CFA für confirmatory factor analysis) ist ein strukturprüfendes Verfahren im Unterschied zum strukturentdeckenden Charakter der explorativen Faktorenanalyse (vgl. Homburg und Giering, 1996, S.9). Folglich erfordert die CFA ein theoretisch fundiertes Modell, welches die Beziehungen der manifesten Variablen zu latenten Größen spezifiziert5. Ist ein solches nicht vorhanden, so kann die 5. Die Differenzierung in explorative und konfirmatorische Faktorenanalyse ist nicht immer eindeutig (Anderson und Gerbing, 1988, S.411f). Zwar ist eine explorative Faktorenanalyse stets tatsächlich explorativ, eine konfirmatorische Faktorenanalyse kann jedoch - zumindest in Teilbereichen des Modells - durchaus explorativen Charakter annehmen, wenn Beziehungen nicht theoretisch fundiert sind und datengestützt revidiert werden (Gerbing und Hamilton, 1996). Anderson und Gerbing schlagen daher den Begriff der „restricted analysis“ vor, welcher auf die Restriktionen der Parameterschätzungen (typischerweise die der nonsalient loadings auf 0) abstellt. 105 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie explorative Faktorenanalyse als vorangehende Heuristik zur Modellbestimmung herangezogen werden. „When the underlying structure of the measures (indicators) is not well understood, EFA’s lack of a priori specification becomes a relative strength.“ (Gerbing und Hamilton, 1996, S.63). Abbildung 20 stellt ein Modell für zwei Faktoren dar. Latente Variablen werden konventionskonform durch Ellipsen symbolisiert, manifeste Variablen durch Rechtecke (vgl. Backhaus et al., 1994, S.324). Der Faktor F1 steht demnach in Bezug zu vier manifesten Variablen (Indikatoren V1 bis V4). Jede dieser Variablen wird als von F1 beeinflußt gesehen. Wird die Richtung der Beziehung dieser Art spezifiziert, so wird von reflektiven Indikatoren (Homburg und Giering, 1996, S.9) gesprochen. In Abbildung 20 wird die Verbindung von F1 zu V1 bis V4 dementsprechend als Pfeil dargestellt, der von F1 ausgeht. Die Variablen V1 bis V4 sind somit als fehlerbehaftete Messungen des Faktors F1 zu sehen. Der Meßfehler wird durch einen zusätzlichen Pfeil symbolisiert, welcher zur manifesten Variable zeigt. Aus Gründen der einfacheren Darstellung werden die Meßfehler, zumindest in konzeptuellen Modelldarstellungen, zumeist nicht angegeben. Wird die Beziehung von Faktor und manifester Variable umgekehrt, so spricht man von formativen Indikatoren (Homburg und Giering, 1996, S.9). Die latente Dimension wird dann als Funktion der Indikatoren gesehen. Formative Indikatoren sind nur dann sinnvoll, wenn eine taxative Auflistung aller möglichen Indikatoren verfügbar ist und diese den Faktor sozusagen definieren (z.B. das Konstrukt der sozialen Schicht als definitorische Funktion von Ausbildung, Einkommen und Berufsstand). In der Messung von Einstellungen und Persönlichkeitskonstrukten ist die Zahl möglicher Indikatoren (theoretisch) schier unerschöpflich, so daß praktisch ausschließlich reflektive Indikatoren modelliert werden. 106 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie V1 V2 F1 V3 V4 V5 V6 F2 V7 V8 Abbildung 20: Faktorenanalyse: CFA-Modell zweier latenter Faktoren und acht manifester Variablen Für die Variablen V1 bis V4 werden also entsprechende Ladungswerte für F1 geschätzt. Die Variablen V5 bis V8 stehen in keinem Bezug zu F1, die entsprechenden Modellparameter sind somit auf 0 fixiert. Die Entscheidung, welche Ladungen geschätzt und welche auf 0 fixiert werden sollen, ist auf einer theoretischen Basis zu bestimmen. Von 0 verschiedene Ladungen werden auch als salient loadings bezeichnet, die Nulladungen als nonsalient loadings. Eine weitere Besonderheit konfirmatorischer Faktorenanalysen betrifft die Beziehung der Faktoren untereinander. Durch den Ausschluß geringer Ladungen von manifesten Variablen auf anderen Faktoren als dem durch das Item zu messenden Faktor, wird im allgemeinen eine korrelative Beziehung zwischen den Faktoren angenommen (in Abbildung 20 durch einen Doppelpfeil dargestellt). 6.4 Güteindikatoren zur Modellüberprüfung Die Überprüfung, ob die Daten einer angenommenen Modellstruktur entsprechen, ist gleichbedeutend mit der Prüfung der Güte des faktorenanalytischen Modells. Der historisch erste Ansatz der Gütebestimmung (Goodness-of-fit6) sah ein Modell dann als gültig an, wenn sich die Kovarianzen zwischen den einzelnen manifesten Variablen auf der Ba- 6. Neben der Möglichkeit der Bestimmung der Güte des Gesamtmodells können auch einzelne Parameter auf Signifikanz geprüft werden. 107 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie sis der geschätzten Modellparameter (sogenannte implied matrix) von den tatsächlichen Kovarianzen (empirische Matrix) nur stichprobenbedingt unterscheiden (Baumgartner und Homburg, 1996, S.149). Die Differenz der beiden Matrizen ist χ2- verteilt (vgl. z.B. Bollen und Long, 1993, S.3). Ein statistischer Test des Unterschieds der empirischen und der implied Matrix ist daher mittels des χ2-Tests möglich. Der χ2-Test setzt allerdings Normalverteilung aller Variablen voraus. Für Faktorenanalysen auf der Basis einer Korrelationsmatrix ist der Test nicht anwendbar (vgl. Backhaus et al., 1994, S.400). Die Nullhypothese geht von gleichen Kovarianzmatrizen aus, die Alternativhypothese postuliert unterschiedliche Matrizen. Da die Nullhypothese somit für die Gültigkeit des Modells spricht, liegt das „Interesse des Forschers“ in der Nichtverwerfung der Nullhypothese. Die relevante Irrtumswahrscheinlichkeit ist demzufolge die Wahrscheinlichkeit einer irrtümlichen Beibehaltung der Nullhypothese (der Fehler zweiter Art, beta-Fehler, vgl. Bortz, 1993, S.107ff). Diese Wahrscheinlichkeit ist ohne Annahme eines bestimmten Unterschieds nicht quantifizierbar, sie sinkt jedoch mit der Festlegung einer höheren Wahrscheinlichkeit des Fehlers erster Art (alpha-Fehler). Dementsprechend wird die Festlegung eines alpha-Wertes von .1 oder .2 empfohlen, jedenfalls kein geringerer Wert als .05 (vgl. z.B. Hair et al., 1995, S.683). Die Anwendung des χ2-Tests ist jedoch problembehaftet. Die Teststärke (Power) des χ2Tests (vgl. zum Begriff der Teststärke z.B. Bortz, 1993, S.118ff) nimmt mit zunehmendem Stichprobenumfang stark zu, so daß für große Stichproben bereits triviale Abweichungen der Kovarianzmatrizen als signifikant ausgewiesen werden (Bollen und Long, 1993; La Du und Tanaka, 1989; Marsh et al., 1988). Als groß gelten in diesem Zusammenhang Stichproben von etwa 200 Respondenten (vgl. z.B. Hair et al., 1995, S.683). Umgekehrt ist für Stichprobenumfänge von kleiner als 100 die Teststärke so gering, daß Modelle auch dann als akzeptabel ausgewiesen werden, wenn keine der im Modell spezifizierten Beziehungen signifikant ist. Diese Grenzen beruhen allerdings auf Erfahrungswerten und sind nicht mathematisch ableitbar. Für Browne und Cudeck (1993, S.137) reflektiert das einzige statistische Gütemaß, der χ2-Test, sehr oft nur den Stichprobenumfang und nicht die Adäquanz des Modells. In der Praxis bedeutet dies, daß der χ2-Test für Stichproben zwischen 100 und 200 grundsätzlich anwendbar und aussagekräftig ist. Allerdings sind für valide Modelltests zumeist größere Stichproben erforderlich. Bei größe- 108 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie ren Stichproben spricht ein nichtsignifikantes Ergebnis für die Akzeptanz eines Modells, ein signifikantes Ergebnis jedoch nicht notwendigerweise dagegen. Um die Abhängigkeit des χ2-Tests vom Stichprobenumfang zu berücksichtigen, wurde an Stelle der Signifikanzprüfung das Verhältnis von χ2-Wert und Freiheitsgrade als Beurteilungskriterium vorgeschlagen (Normed Chi-square Goodness-of-Fit Measure, Hair et al., 1995, S.690). Allerdings besteht keine Einigkeit über die Grenze, ab welcher ein Modell als inakzeptabel anzusehen ist. Die Empfehlungen streuen von zwei bis fünf mal so großen χ2-Werten in Relation zu den Freiheitsgraden (Bollen und Long, 1993, S.3). Ebenfalls auf die Berücksichtigung der Stichprobengröße abzielend ist der Scaled Noncentrality Parameter SNCP (Hair et al., 1995, S.684). Dieser Parameter baut auf dem Noncentrality Parameter NCP auf, welcher sich als Differenz des χ2-Werts und der Freiheitsgrade berechnet. Der Scaled Noncentrality Parameter dividiert diese Differenz durch den Stichprobenumfang. Es existieren aber keine begründbaren Grenzwerte, anhand derer über die Akzeptanz eines Modells entschieden werden könnte. Die Güteindikatoren Goodness-of-Fit Index GFI und Adjusted Goodness-of-Fit Index AGFI, entwickelt von Jöreskog und Sörbom (1993) und in das Softwareprodukt LISREL integriert, basieren auf quadrierten Residualvarianzen und Residualkovarianzen (vgl. Backhaus et al., 1994, S.401; Hair et al., 1995, S.684, 686) und liegen somit zwischen 0 (kein Fit) und 1 (perfekter Fit). Der AGFI unterscheidet sich vom GFI durch die Berücksichtigung der Freiheitsgrade des Modells in Bezugnahme auf die Freiheitsgrade eines Modells, welches die Unabhängigkeit aller Variablen annimmt. Beide Indikatoren sind unabhängig vom Stichprobenumfang und gelten als robust gegenüber Verletzungen der Normalverteilungsannahme. Da der GFI gleiche Varianzen der Modellvariablen annimmt, ist dieser Indikator nur für Korrelationsmatrizen anwendbar. Der AGFI hingegen ist auch für Kovarianzmatrizen geeignet. Sowohl für den GFI, als auch für den AGFI liegen keine bestimmten Grenzen der Modellakzeptanz vor. Jedoch gelten Werte von mindestens .90 als akzeptabel (Hair et al., 1995, S.686). Der Root Mean Square Residual Wert RMSR baut ebenfalls auf Residualen auf. Im Falle von Kovarianzmatrizen als Input gibt dieses Maß die durchschnittliche Residualkovarianz an, ist aber bei unterschiedlicher Skalierung der Variablen nicht aussagekräftig (Hair 109 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie et al., 1995, S.684). Bei Korrelationsmatrizen gibt der RMSR die durchschnittliche Residualkorrelation an. Da keine allgemein akzeptierten Grenzwerte vorliegen, ist der RMSR nur vor dem Hintergrund der spezifischen Forschungsziele interpretierbar, erlaubt aber keinen objektiven Modelltest. Während sich die bisher genannten Indikatoren (mit Ausnahme des AGFI) auf die absolute Güte von Modellen beziehen (stand-alone Indizes), stellen inkrementale Indikatoren das zu prüfende Modell in Bezug zu einem Referenzmodell (als baseline oder null model bezeichnet, vgl. Baumgartner und Homburg, 1996, S.149). So können unterschiedliche Modelle verglichen werden. Üblicherweise wird als Referenzmodell allerdings ein Modell unkorrelierter manifester Variablen gewählt, wodurch die inkrementalen Indizes auch zur absoluten Gütebestimmung geeignet sind. Die bedeutsamsten inkrementalen Indizes sind der Normed Fit Index NFI und der Nonnormed Fit Index NNFI. Der auf Bentler und Bonnet (1980) zurückgehende NFI (auch als Bentler Bonnet Index BBI bezeichnet, vgl. Baumgartner und Homburg, 1996, S.149) setzt die Differenz der χ2-Werte des null model und des zu prüfenden Modells in Beziehung zum χ2-Wert des null model. Der Indexwert liegt zwischen 0 (kein Fit) und 1 (perfekter Fit) Als untere Grenze für akzeptable Modelle wird .90 empfohlen (Hair et al., 1995, S.686). Der ebenfalls von Bentler und Bonnet (1980) vorgeschlagene NNFI baut auf dem gleichen Quotienten auf wie der NFI, jedoch werden alle χ2-Werte durch die Zahl der Freiheitsgrade dividiert. Theoretisch kann der NNFI auch Werte außerhalb der durch 0 und 1 gegebenen Grenzen annehmen (daher nonnormed, vgl. Tanaka, 1993, S.16). Als untere Grenze der Akzeptanz werden ebenfalls .90 genannt (Hair et al., 1995, S.686). Der NNFI wurde ursprünglich von Tucker und Lewis (1973) für die Gütebestimmung explorativer Faktorenanalysen entwickelt. Der NNFI wird daher sehr häufig auch als Tucker-Lewis-Index TLI bezeichnet. Während sich die bisher angeführten Gütemaße auf die Gegenüberstellung von empirischen Stichproben(ko)varianzen und durch das Modell erklärter (Ko)Varianzen bezogen, zielt der von Steiger (1990) vorgeschlagene Root Mean Square Error of Approximation RSMEA auf die Abweichung der im Modell erklärten Kovarianzen von den Kovarianzen in der Population ab (Hair et al., 1995, S.685). Der Overall Error von Modellen besteht aus zwei Komponenten: dem Error of Approximation und dem Error of Estimation (Browne und Cudeck, 1993, S.141ff). Der Error of Approximation ist die mangelnde 110 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie ˜ Übereinstimmung der Populationskovarianzmatrix Σ 0 und der Kovarianzmatrix Σ 0 , welche sich auf der Basis des gemäß der gewählten Diskrepanzfunktion bestangepaßten Modells ergibt. Die Populationskovarianzmatrix Σ 0 enthält die „wahren“ Kovarianzen, sie ist dementsprechend eine nicht beobachtbare Konstante. Die auf dem gewählten Modell ba˜ sierende Matrix Σ 0 ist unabhängig von konkreten Stichproben, sie ist damit ebenfalls nicht stochastisch, sondern konstant. Der Error of Approximation ist der Fehler, der sich daraus ergibt, daß das Modell die realen Kovarianzen nicht vollständig erklären kann. ˜ Stimmen Σ 0 und Σ 0 überein, so ist der Error of Approximation gleich 0. Im allgemeinen nimmt dieser Fehler mit der Aufnahme zusätzlicher Parameter ab. Der dadurch erzielbaren Fitverbesserung steht allerdings eine geringere Komplexitätsreduktion durch das Modell gegenüber. Der Error of Estimation ist stichprobenbezogen und ergibt sich aus der ˜ Differenz der Kovarianzmatrix Σ 0 (auf der Basis des an die Population bestangepaßten Modells) und der Kovarianzmatrix Σ , welche auf der Basis des an die konkrete Stichpro˜ be bestangepaßten Modells abgeleitet wird. Die Differenz der konstanten Matrix Σ 0 und der stochastischen Matrix Σ ist eine nicht direkt beobachtbare Zufallsvariable. In der praktischen Beurteilung von Modellen ist die stichprobenbedingte Abweichung (also der Error of Estimation) weniger interessant als der populationsbezogene Fehler, der sich aus der Modellierung ergibt (Error of Approximation). Die Schätzung des nicht beobachtbaren Error of Approximation kann auf der Diskrepanz der Stichprobenkovarianzmatrix S und der Kovarianzmatrix Σ basieren. Diese Differenz impliziert jedoch einen bedeutsamen Bias. Als Korrektur bietet sich die Verminderung der Differenz um den Quotienten aus Freiheitsgraden und Stichprobenumfang an (Browne und Cudeck, 1993, S.143).7 Problematisch ist dieser Index, da die zusätzliche Aufnahme von Parametern den Error of Approximation verringert. Die Zielsetzung eines möglichst geringen Fehlers ist somit konfliktär mit der Zielsetzung eines möglichst einfachen Modells, welches auf nur sehr wenigen zu schätzenden Parametern basiert (Parsimony Prinzip). Steigers (1990) RMSEA löst dieses Problem, indem der Fitindex durch die Quadratwurzel der Kovarianzmatrizendifferenz geteilt durch die Zahl der Freiheitsgrade berechnet wird (vgl. Abbildung 21). Zusätzlich geschätzte Parameter, gleichbedeutend mit einer Verringerung der Freiheitsgrade, verringern zwar die Differenz der Kovarianzmatrizen im Zähler des 7. Da dieser Ausdruck negative Werte annehmen kann, wird als Schätzer das Maximum des Ausdrucks und 0 gewählt (Browne und Cudeck, 1993, S.143). 111 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Bruchs, führen aber gleichzeitig zu einer Verkleinerung des Nenners (Freiheitsgrade). Der RMSEA belegt somit zusätzliche Parameterschätzungen mit einem Penalty, wodurch der Fit eines Modells auch abnehmen kann. Die untere Grenze des RMSEA ist 0 (perfekten Fit indizierend). Die Schwelle für die Akzeptanz eines Modells kann einmal mehr F0 ... Error of Approximation F ------o d ˜ F o = F ( Σ o ,Σ o ) RMSEA = ˆ ˆ F = F S ,Σ ˆ ˆ d F o = M ax {F – ---, 0} n ˆ F ... Schätzung aufgrund der Stichprobe (biased) ˆ F0 ... Bias-korrigierte Schätzung d .... Freiheitsgrade des Modells n .... Stichprobenumfang Σ 0 ... Populationskovarianzmatrix ˜ Σ 0 ... Reproduzierte Kovarianzmatrix auf der Basis des an die Population bestangepaßten Modells S .... Kovarianzmatrix der Stichprobe ˆ Σ ... Reproduzierte Kovarianzmatrix auf der Basis des an die Stichprobe bestangepaßten Modells Abbildung 21: Definition des Root Mean Square Error of Approximation nach Steiger (1990) (vgl. Browne und Cudeck, 1993, S.142ff) nicht objektiv angegeben werden. Es haben sich jedoch weithin akzeptierte Grenzwerte etabliert (vgl. Browne und Cudeck, 1993, S.144; Hair et al., 1995, S.685; Homburg und Baumgartner, 1995, S.167; Steenkamp und Baumgartner, 1996a, S.21). Ein RMSEA von .05 und weniger spricht für ein sehr gutes Modell, Werte zwischen .05 und .08 für ein akzeptables Modell. Modelle mit RMSEA-Werten von mehr als .10 sind zu verwerfen. Neben dem TLI hat sich der RMSEA in Simulationsstudien als äußerst effektiv herausgestellt, darüber hinaus sind beide Indizes unabhängig von der Stichprobengröße (vgl. Steenkamp und Baumgartner, 1996a, S.18). 6.5 Gleichungssysteme der konfirmatorischen Faktorenanalyse Faktorenanalytische Modelle lassen sich in Form von Regressionsgleichungen darstellen (vgl. Backhaus et al., 1994, S.3478). Jede manifeste Variable xi (Antwort auf das Item i; i = 1, ..., k) wird repräsentiert durch die Summe der mit den Faktorladungen λij (i Items, j Faktoren, j = 1, ..., m) gewichteten Faktorwerte ξj und dem stochastischen Fehlerterm δi (vgl. Abbildung 22). 112 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie xi ...... manifeste Variable i (i = 1, ..., k) λij ..... Faktorladung des Items i auf Faktor j j = 1, ..., l, ..., m xi = ∑ λ ij ξ j + δ i j=1 ξj ....... Faktorwert (Faktorscore) bei Faktor j m δi ....... stochastischer Fehlerterm Abbildung 22: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf die manifeste Variable (vgl. Backhaus et al., 1994, S.347; Bagozzi, 1982, S.564ff) Üblicherweise werden manifeste Variablen als lediglich durch einen Faktor beeinflußt modelliert9. Die Regressionsgleichung in Abbildung 22 reduziert sich somit auf eine einfache Regression eines Faktors l auf die manifeste Variable xi, da alle λij für j ≠ l gleich 0 sind. Der Parameter λil gibt folglich die Steigung der Geraden an und definiert damit die Metrik (Varianz) der latenten Variablen. Die Definition der Metrik der latenten Variablen ist erforderlich, da diese - wie ihr Mittelwert (vgl. dazu weiter unten) - nicht eindeutig bestimmbar ist. Zum einen kann die Varianz der latenten Variablen gleich 1 gesetzt werden (oder theoretisch auch gleich jedem anderen beliebigen Wert), und damit eine Standardisierung erzielt werden. Zum anderen kann aber auch die Faktorladung eines Items mit 110 fixiert werden (oder theoretisch auch mit einem anderen beliebigen Wert). Aus der Gleichung in Abbildung 22 ist unmittelbar ersichtlich, daß bei einem Faktorladungswert von 1 die Varianz der latenten Variablen durch jene der manifesten definiert wird. Neben der Varianz muß auch der Mittelwert der latenten Variablen definiert werden. Der stochastische Fehlerterm hat einen Erwartungswert von 0 und ist mit allen Faktorwerten, sowie mit Fehlertermen aller anderen Variablen grundsätzlich unkorreliert. Die Regressionsgleichung beschreibt daher eine Gerade, die durch den Nullpunkt verläuft. Der erwar8. Die Beschreibung der konfirmatorischen Faktorenanalyse erfolgt im Rahmen der Behandlung des LISREL-Ansatzes der Kausalanalyse. Kausalanalytische Modelle bestehen aus Regressionen von latenten Variablen. Latente Variablen werden durch Meßmodelle faktorenanalytisch operationalisiert. Konfirmatorische Faktorenanalysen sind somit Bestandteil von Kausalmodellen. 9. Dies entspricht der von Thurstone (1940, 1947) angeregten Einfachstruktur (simple structure). Vgl. dazu Abschnitt 6.8 (Seite 117). 10.Die Fixierung der Faktorladung auf 1 impliziert in diesem Fall keine perfekte Korrelation der manifesten und der latenten Variablen, da die konfirmatorische Faktorenanalyse auf Kovarianzen aufbaut und die Faktorladungen daher unstandardisiert sind. Erst die Parameter der standardisierten Lösung sind auf den Bereich zwischen -1 und 1 beschränkt und als Korrelationen interpretierbar. 113 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie tete Wert für xi für alle ξj = 0 ist daher gleich 0 (vgl. Steenkamp und Baumgartner, 1996a, S.4). Dies kann allerdings durch die Einführung einer Intercept-Konstanten τi geändert werden. xi ...... manifeste Variable i (i = 1, ..., k) τi ..... Intercept-Parameter x i = τ i + λ il ξ l + δ i λij ..... Faktorladung des Items i auf Faktor l ξj ....... Faktorwert (Faktorscore) bei Faktor j δi ....... stochastischer Fehlerterm Abbildung 23: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf die manifeste Variable, mit Intercept-Parameter (vgl. Steenkamp und Baumgartner, 1996a, S.4) Die Intercept-Konstante ist jedoch im allgemeinen nicht eindeutig bestimmbar, da die Gleichung in Abbildung 23 unterdeterminiert ist. Die Addition einer beliebigen Konstanten c zum Intercept-Wert kann durch die Subtraktion von c --λ vom Faktorwert ξ ausgegli- chen werden11. Der Mittelwert der latenten Variablen ist somit nicht eindeutig bestimmbar. Aus diesem Grund wird auf den Intercept-Parameter häufig verzichtet, d.h. dieser wird gleich 0 gesetzt. Werden mehrere Gruppen simultan analysiert, so können die Intercept-Werte in den einzelnen Gruppen gleichgesetzt werden, wodurch die Mittelwerte der latenten Variablen bei g Gruppen in g-1 Gruppen determiniert sind (vgl. dazu Kapitel 6.6.). 6.6 Simultane Faktorenanalyse für mehrere Gruppen (Multi-group analysis) Die simultan durchgeführte Faktorenanalyse für mehrere Gruppen (Jöreskog, 1971; Sörbom, 1974) schätzt die in einem Modell spezifizierten Parameter gleichzeitig in mehreren, voneinander unabhängigen Stichproben. Im Unterschied zu einer wiederholt für mehrere Stichproben durchgeführten Faktorenanalyse, besteht bei der Mehrgruppen-Faktorenanalyse die Möglichkeit, stichprobenübergreifend Beschränkungen (equality constraints) einzuführen.12 So läßt sich beispielsweise der Schätzwert eines Ladungsparameters in allen Stichproben auf den gleichen Wert beschränken. Ohne diese Beschränkung wird der Parameter bei m Stichproben m mal geschätzt. Mit der Beschränkung wird dieser nur ein11.Umgekehrt kann jede Addition einer Konstanten c vom Faktorwert durch die Subtraktion von λc vom Intercept-Wert ausgeglichen werden (Steenkamp und Baumgartner, 1996a, S.6). 114 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie mal geschätzt. Gleiches gilt für alle anderen zu schätzenden Parameter. Die Einführung von Beschränkungen reduziert die Zahl der zu schätzenden Parameter und damit die Komplexität des Modells. Die Übereinstimmung des Modells mit den empirischen Daten, also der Modelfit, wird dementsprechend abnehmen13, da die Schätzungen nicht mehr an die einzelnen Stichproben angepaßt werden, sondern simultan an alle einbezogenen Stichproben. Modelle mit und ohne Beschränkungen stimmen jedoch insoweit überein, wie sie die gleichen manifesten und latenten Variablen enthalten und ident strukturiert sind. In V1 V2 V3 V1 1 2 3 4 V2 F1 V3 V4 5 6 7 8 F1 V4 Stichprobe 2 Stichprobe 1 Abbildung 24: Faktorenanalyse: Simultane Analyse in zwei Stichproben ohne stichprobenübergreifende Beschränkungen Abbildung 24 ist ein Modell ohne Beschränkungen dargestellt (vier manifeste Variablen V1 bis V4 laden auf einem einzigen Faktor F1). Dementsprechend sind acht Ladungsparameter zu schätzen.14 Abbildung 25 stellt das gleiche Modell, allerdings mit Beschränkungen, dar. Die Ladungen der manifesten Variablen müssen übereinstimmen, daher sind nur vier Parameter zu schätzen. Jedes der beiden Modelle kann durch Einführung bzw. Aufgabe von Beschränkungen in das andere übergeführt werden. Die Modelle sind daher ineinandergeschachtelt („nested models“). Der Vergleich der Fitwerte von nested models gibt darüber Aufschluß, ob mit der Einführung von Beschränkungen eine statistisch bedeutsame Verschlechterung des Fits verbunden ist. Als Prüfstatistik kann der χ2-Differenzentest (∆χ2) herangezogen werden (Bentler und Bonett, 1980, S.593). ∆χ2 ergibt sich als Differenz der χ2-Werte der beiden betrachteten Modelle, die Zahl der Freiheitsgrade entspricht der Differenz der Freiheitsgrade der Modelle. Der Vergleich zweier nested models 12.Werden keinerlei Beschränkungen eingeführt, so ist die Mehrgruppen-Faktorenanalyse äquivalent zu einer wiederholt durchgeführten Eingruppenfaktorenanalyse. Die χ2-Statistik der Mehrgruppenfaktorenanalyse ergibt sich in diesem Fall als Summe der χ2-Statistiken der einzelnen Faktorenanalysen. 13.Führen die getrennten Parameterschätzungen zum exakt gleichen Ergebnis in allen Stichproben, so bleibt der Fit bei simultaner Analyse unverändert (Grenzfall). 14.Wird die Varianz der latenten Variablen durch die Varianz einer manifesten Variablen definiert, so sind in beiden Stichproben insgesamt sechs Ladungsparameter zu schätzen. 115 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie V1 V1 1 2 3 4 V2 V3 V2 F1 V3 V4 1 2 3 4 F1 V4 Stichprobe 1 Beschränkungen Stichprobe 2 Abbildung 25: Faktorenanalyse: Simultane Analyse in zwei Stichproben mit stichprobenübergreifenden Beschränkungen hat daher hypothesenprüfenden Charakter (vgl. Horn und McArdle, 1992, S.134). Ein nicht signifikantes ∆χ2 weist darauf hin, daß sich die auf die gleichen Schätzungen beschränkten Parameter in den einzelnen Stichproben nicht signifikant voneinander unterscheiden. Die simultane Faktorenanalyse für mehrere Gruppen ist damit geeignet, die Strukturen latenter Konstrukte in verschiedenen Stichproben auf ihre Identität bzw. Unterschiedlichkeit zu überprüfen. Ein nicht signifikanter ∆χ2-Wert der Modelle in Abbildung 24 bzw. Abbildung 25 spricht dafür, daß die manifesten Variablen in beiden Gruppen eindimensional und gleich stark mit der (im Beispiel einzigen) latenten Variable assoziiert sind. Die simultane Analyse ermöglicht darüber hinaus die Identifizierbarkeit der Item-Intercepts und der Mittelwerte der latenten Variablen (vgl. Abbildung 23 auf Seite 114). Im Eingruppenfall sind diese nicht identifizierbar und werden üblicherweise gleich 0 gesetzt. Im Mehrgruppenfall können die Item-Intercepts in einer Gruppe gleich 0 gesetzt werden15 und in den anderen Gruppen frei geschätzt werden (vgl. Steenkamp und Baumgartner, 1996a, S.6). Auch dabei besteht die Möglichkeit, Modelle ohne Beschränkungen (freie Schätzung der Intercepts in m-1 Gruppen) Modellen mit Beschränkungen (gleiche Intercepts über alle Gruppen) gegenüberzustellen und deren Fitwerte durch den χ2-Differenzentest zu vergleichen. Gleiches gilt für die Mittelwerte der latenten Variablen. 15.Zusätzlich ist der Intercept-Wert eines Items in allen Stichproben gleichzusetzen, um den Ursprung der latenten Variablen zu definieren. Für andere, äquivalente, Möglichkeiten der Identifikation der Intercepts vgl. Steenkamp und Baumgartner (1996a, S.6). 116 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie 6.7 Überprüfung der Datenäquivalenz Gemäß den im Abschnitt 4.7 (Seite 80) dargestellten Bedingungen der empirischen Überprüfung der Äquivalenz von Erhebungsdaten erweist sich die Faktorenanalyse für mehrere Gruppen als geeignetes Verfahren. Die Gruppen entsprechen Stichproben aus unterschiedlichen Kulturen. Durch den Vergleich von Modellen mit und ohne Beschränkungen ist die Überprüfung der Äquivalenz von Meßstrukturen in verschiedenen Kulturen möglich. Erweist sich die Meßstruktur als invariant, so besteht kulturübergreifende Vergleichbarkeit der Messungen. Meßinvarianz besteht dann, wenn die im Meßinstrument enthaltenen manifesten Variablen die latenten Variablen in gleicher Weise indizieren (Horn und McArdle, 1992). Horn und McArdle (1992, S.117) charakterisieren die Problemstellung und ihre Bedeutung folgendermaßen: The general question of invariance of measurement is one of whether or not, under different conditions of observing and studying phenomena, measurement operations yield measures of the same attribute. If there is no evidence indicating presence or absence of measurement invariance - the usual case or there is evidence that such invariance does not obtain, then the basis for drawing scientific inference is severely lacking: findings of differences between individuals and groups cannot be unambiguously interpreted. This point is subtle, but critical. Aufbauend auf dem Konzept der faktoriellen Invarianz (vgl. Meredith, 1964, 1993) operationalisieren Horn und McArdle (1992) die Überprüfung der Meßinvarianz durch den Vergleich von faktorenanalytischen Modellen mit unterschiedlichen Beschränkungen auf drei Ebenen und unterscheiden konfigurale Invarianz, metrische Invarianz und Invarianz unter Einbezug von Mittelwerten. Steenkamp und Baumgartner (1996a, 1996b) folgen dieser Differenzierung, bezeichnen die Invarianz unter Einbezug von Mittelwerten jedoch als skalare Invarianz (Meredith, 1993). 6.8 Ebenen der Invarianz 6.8.1 Konfigurale Invarianz (configural invariance) Die Überprüfung der gruppenübergreifenden Gültigkeit eines Meßmodells erfolgt in mehreren Teilschritten. Jeder dieser Schritte repräsentiert eine Hierarchieebene der Meßäquivalenz. Der Übergang von einer Ebene zur nächsten erfolgt durch die Einführung von Beschränkungen bei der Parameterschätzung. Für die einzelnen Niveaus der Invarianz werden von verschiedenen Autoren unterschiedliche Begriffe gewählt. Tabelle 6 auf 117 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Seite 123 gibt einen diesbezüglichen Überblick. Im folgenden wird auf die Terminologie bei Steenkamp und Baumgartner (1996a, 1996b) Bezug genommen. Das Konzept der konfiguralen Invarianz (Steenkamp und Baumgartner, 1996a, S.8; Meredith, 1993, S.540; Horn und McArdle, 1992, S.126; Singh, 1995, S.604) ist die grundlegendste Form der Invarianz. Diese sieht vor, daß in allen untersuchten Gruppen dieselben Ladungsmuster auftreten. Die latenten Variablen müssen somit die gleichen manifesten Indikatorvariablen aufweisen (von 0 verschiedene, salient loadings). Die Ladungen von manifesten Variablen, die zu einer bestimmten latenten Variable in keiner Beziehung stehen, werden in allen Gruppen gleichermaßen auf 0 fixiert (non-salient loadings), also nicht geschätzt. Diese Vorgaben entsprechen der von Thurstone (1940, 1947) formulierten Einfachstruktur (simple structure). Die Einfachstruktur wurde als Zielvorgabe der explorativen Faktorenanalyse entwickelt, um die Interpretation der Lösung zu erleichtern. Sie ist dann gegeben, wenn Variablen auf Faktoren entweder Ladungen von oder um 0 oder aber hohe16, signifikant von 0 verschiedene Ladungen aufweisen (Horn und McArdle, 1992, S.126). Idealerweise laden manifeste Variablen auf lediglich einem Faktor (Steenkamp und Baumgartner, 1996a, S.8). Konfigurale Invarianz bedeutet somit, daß die gleiche (Einfach-)Struktur in allen Gruppen Gültigkeit besitzt.17 Die zu schätzenden salient loadings müssen jedoch der Höhe nach nicht übereinstimmen, sondern werden für jede Gruppe separat geschätzt. Lediglich die non-salient loadings stimmen in allen Gruppen durch ihre Fixierung auf 0 numerisch überein. Um die Diskriminanzvalidität zu gewährleisten, müssen die Korrelationen der latenten Variablen signifikant kleiner als 1 sein (Steenkamp und Baumgartner, 1996a, S.8). Die konfigurale Invarianz impliziert daher, daß die gleichen Meßmodelle angewendet werden können, die Indikatorvariablen aber unterschiedlich stark mit den latenten Variablen assoziiert sind. Die einzelnen manifesten Variablen messen somit die gleichen latenten Variablen, aber nicht notwendigerweise mit der gleichen Güte bzw. Trennschärfe. Die konfigurale Invarianz ist dementsprechend eine notwendige Voraussetzung der kulturübergreifenden Gültigkeit von Meßinstrumenten. Wird konfigurale Invarianz empirisch 16.Unter einer „hohen“ Ladung ist eine Ladung nahe 1 oder nahe -1 zu verstehen. Das Vorzeichen spielt diesbezüglich keine Rolle. 17.Bollen (1989, S.358) bezeichnet die Hypothese der konfiguralen Invarianz als Hform, da die gleiche „Form“ der Konstrukte Gegenstand der Hypothese ist. Singh (1995, S.604) verwendet dafür den Begriff der „factorial similarity“. 118 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie widerlegt, so bestehen fundamentale Unterschiede in der Meßstruktur, das heißt die manifesten Variablen messen unterschiedliche latente Variablen. Die Gültigkeit des die konfigurale Invarianz spezifizierenden Modells erfolgt mittels der in Abschnitt 6.4 (Seite 107) besprochenen Indikatoren. Kultur A Kultur B manifeste Variable Ladung auf latenter Variablen (Faktor F1) Ladung auf latenter Variablen (Faktor F2) manifeste Variable Ladung auf latenter Variablen (Faktor F1) Ladung auf latenter Variablen (Faktor F2) V1 λ1=1a 0 V1 λ9=1 0 V2 λ2 0 V2 λ10 0 V3 λ3 0 V3 λ11 0 V4 λ4 0 V4 λ12 0 V5 0 λ5=1 V5 0 λ13=1 V6 0 λ6 V6 0 λ14 V7 0 λ7 V7 0 λ15 V8 0 λ8 V8 0 λ16 Tabelle 4: Konfigurale Invarianz eines zweifaktoriellen Konstrukts (unstandardisierte Ladungsparameter) a. Die unstandardisierten Ladungsparameter λ1, λ5, λ9 und λ13 sind mit 1 fixiert, um die Metrik der latenten Variablen F1 und F2 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112). Tabelle 4 stellt die Ladungsmatrizen von 8 manifesten Variablen V1 bis V818 und zwei latenten Variablen, den Faktoren F1 und F2, in zwei Gruppen, bezeichnet als Kultur A und Kultur B, dar. Jeder der beiden Faktoren F1 und F2 wird durch je 4 manifeste Variablen gemessen. Jeweils drei Ladungsparameter pro Faktor und Gruppe werden geschätzt. 6.8.2 Metrische Invarianz (metric invariance) Bei gegebener konfiguraler Invarianz kann das Mehrgruppenmodell auf metrische Invarianz geprüft werden. Das Modell der metrischen Invarianz ist im Vergleich zum Modell 18.Dabei wird davon ausgegangen, daß in beiden Kulturen die gleichen Items in gleicher Zahl eingesetzt werden (etic approach). Die dargestellte Vorgangsweise ist jedoch verallgemeinerbar für eine ungleiche Zahl an Items bzw. die Einbeziehung kulturspezifischer Items (emic approach). Vgl. dazu die Ausführungen zur partiellen Invarianz im Kapitel 6.10 auf Seite 127. 119 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie der konfiguralen Invarianz stringenter, da zusätzliche Beschränkungen eingeführt werden.19 Die Ladungsparameter müssen nun nicht nur in ihrem Muster übereinstimmen, sondern auch der Höhe nach. Es wird somit für jedes Paar von manifester Variable und latenter Variable, für welches ein salient loading spezifiziert wird, nur ein Ladungsparameter geschätzt. Erweist sich das Modell metrischer Invarianz als haltbar, so messen die manifesten Variablen die entsprechenden latenten Variablen in allen einbezogenen Kulturen gleich gut. Die Metrik der Meßwerte stimmt somit überein. Damit sind Differenzscores welche innerhalb der Kulturen gebildet werden, kulturübergreifend vergleichbar (Steenkamp und Baumgartner, 1996a, S.9). Die Überprüfung der metrischen Invarianz erfolgt durch den Vergleich des Modellfits von metrischer und konfiguraler Invarianz mittels des χ2-Differenzentests (vgl. dazu Abschnitt 6.6 auf Seite 114). Nimmt der Modellfit bei metrischer Invarianz nicht signifikant ab, so besteht hinsichtlich aller Items metrische Äquivalenz. Kultur A Kultur B manifeste Variable Ladung auf latenter Variablen (Faktor F1) Ladung auf latenter Variablen (Faktor F2) manifeste Variable Ladung auf latenter Variablen (Faktor F1) Ladung auf latenter Variablen (Faktor F2) V1 λ1=1a 0 V1 λ1=1 0 V2 λ2 0 V2 λ2 0 V3 λ3 0 V3 λ3 0 V4 λ4 0 V4 λ4 0 V5 0 λ5=1 V5 0 λ5=1 V6 0 λ6 V6 0 λ6 V7 0 λ7 V7 0 λ7 V8 0 λ8 V8 0 λ8 Tabelle 5: Metrische Invarianz eines zweifaktoriellen Konstrukts (unstandardisierte Ladungsparameter) a. Die unstandardisierten Ladungsparameter λ1 und λ5 sind mit 1 fixiert, um die Metrik der latenten Variablen F1 und F2 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112). 19.Singh (1995, S.604) bezeichnet metrische Invarianz als „factorial equivalence“, Meredith (1993, S.530) wählt die Bezeichnung „weak measurement invariance“. Bei Ferrando (1996, S.430), welcher zwar Bezug auf die Terminologie von Meredith nimmt, findet sich dafür „partial invariance“. 120 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie In Tabelle 5 sind die der metrischen Invarianz entsprechenden Ladungsmatrizen für das in Tabelle 4 dargestellte Modell angeführt. Die Zahl der zu schätzenden Ladungsparameter reduziert sich (bei zwei Gruppen) auf die Hälfte. 6.8.3 Skalare Invarianz (scalar invariance) Metrische Invarianz stellt hohe Anforderungen an die empirischen Daten. Dennoch ist metrische Invarianz für absolute Vergleiche von Meßwerten über Kulturgrenzen hinweg zwar eine notwendige, aber keine hinreichende Voraussetzung. Metrische Äquivalenz bezieht sich lediglich auf die Ladungsparameter, also auf die Korrelation einer manifesten und einer latenten Variable. Korrelationen werden jedoch durch Lineartransformationen der Variablen nicht beeinflußt. Die Addition einer Konstanten zur manifesten Variable verändert die Korrelation mit der latenten Variable, also den Ladungsparameter, nicht. Dies bedeutet andererseits, daß die Wirksamkeit eines additiven Bias in einer Kultur die Ladungswerte und damit die metrische Äquivalenz nicht beeinflußt. Für interkulturelle Vergleiche, die auf Mittelwertsunterschiede abstellen, ist aber gerade ein additiver Bias äußerst problematisch, da dieser eben nicht auf einen „wahren“ Unterschied auf der zugrundeliegenden latenten Dimension hindeutet, sondern eine kulturspezifische Reaktion auf ein manifestes Item darstellt. Abbildung 26 stellt dies graphisch dar. Auf der x-Achse ist der beobachtete Testscore abgebildet. Die y-Achse steht allgemein für ein Kriterium, wobei es sich um ein Außenkriterium handeln kann, aber auch um den True Score. Im letzteren Fall sind die eingetragenen Geraden die Regressionsgeraden der Regression der beobachteten Testscores auf die True Scores. Zur Vereinfachung ist der Einfluß von Meßfehlern nicht dargestellt. Die exemplarischen Regressionsgeraden für die Kulturen A und B sind parallel, die Assoziation der latenten Dimension (True Score) und des manifesten Scores somit invariant, metrische Invarianz also gegeben. Dennoch entspricht der beobachteten Testscoredifferenz von XA-XB kein Unterschied auf der Ebene der True Scores, da sich die Interceptwerte der Regressionsgeraden IA und IB unterscheiden. 121 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Kriterium (True Score) Kultur A Kultur B TA=TB IA IB Testscore (Observed Score) XA XB Abbildung 26: Regression des beobachteten Testscores auf ein Kriterium (in Anlehnung an Hulin et al., 1983, S.157 und Hancock, 1997, S.99) Die Prüfung auf skalare Invarianz untersucht damit die Wirksamkeit eines additiven Bias. Dabei werden - analog zu den Ladungsparameterschätzungen im Zuge der Prüfung auf metrische Invarianz - die Item-Intercepts in allen untersuchten Kulturen gleichgesetzt, also in der Parameterschätzung mit equality constraints belegt. Erweist sich der ModellFit als nicht signifikant schlechter im Vergleich zum Modell-Fit auf der Basis freier ItemInterceptschätzungen in allen Kulturen, so besteht skalare Invarianz. Mittelwertsvergleiche zwischen den Kulturen sind unter diesen Bedingungen aussagekräftig. Für den Vergleich der Modell-Fitwerte wird analog zur Prüfung der metrischen Invarianz der χ2Differenzentest angewandt. 6.8.4 Invarianz der Fehler- und Faktorvarianzen Aufbauend auf skalarer Invarianz können die Fehlervarianzen und/oder die Faktor(ko)varianzen auf deren Invarianz überprüft werden (Bollen, 1989, S.360ff). Die Identität der Meßfehlervarianzen ist gleichbedeutend mit gleicher Reliabilität20. Dies ist jedoch für Mittelwertsvergleiche nicht unbedingt erforderlich. Gleiches gilt für die Faktorvarianzen, welche die Streuung der latenten Variablen in der jeweiligen Gruppe ausdrücken. Die Überprüfung der Invarianz der Faktorkovarianzen, welche nur bei mehrdimensionalen Konstrukten Anwendung finden kann, stellt eine Möglichkeit dar, die interkulturelle Kon- 20.Singh (1995, S.604) versteht unter „measurement equivalence“ Gleichheit der Faktorladungen (im Sinne der metrischen Invarianz) und Gleichheit der Fehlervarianzen. Bei Singh findet sich jedoch erstaunlicherweise kein Äquivalent zur skalaren Invarianz. Meredith (1993; S.532ff.) bezeichnet skalare Invarianz als „strong factorial invariance“, Invarianz der Fehlervarianzen als „strict factorial invariance“. 122 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie struktvalidität zu überprüfen, indem die Diskriminanzvalidität der Faktoren verglichen wird. Auch diese Form der Invarianz ist keine notwendige Voraussetzung für interkulturelle Vergleichbarkeit der latenten Variablen über Kulturen hinweg, sehr wohl aber eine Frage der intrakulturellen Gültigkeit. Invarianzebene Übereinstimmung der Ladungsmuster (1) (gleiche salient variables, Ladungen der nonsalient variables gleich 0 gesetzt) zusätzlich: Übereinstimmung (2) der Ladungen der salient variables Steenkamp Horn und und McArdle Baumgartner (1992) (1996a, 1996b) konfigurale konfigurale Invarianz Invarianz zusätzlich: Übereinstimmung (4) der Fehlervarianzen zusätzlich: Übereinstimmung (5) der Faktorkovarianzen Singh (1995) Reise et al. (1993) Hform Baseline model Factorial similarity Baseline model Factorial equivalence Full measurement invariance metrische Invarianz Hλ x Weak measurement invariance - skalare Invarianz H λ xκ Strong factorial invariance - - - partielle Invarianz - - Partially restricted model partielle Invarianz - berücksichtigt ohne besondere Bezeichnung HλxΘδ Strict factorial invariance Measurement equivalence - - - der Item-Intercepts Aufhebung von Restriktionen für einzelne Items Meredith (1993) metrische Invarianz zusätzlich: (3) Übereinstimmung Bollen (1989) - berücksichtigt ohne besondere Bezeichnung [ohne (3)] HλxΘδΦ [ohne (3)] [ohne (3)] - Tabelle 6: Überblick über unterschiedliche Terminologien im Zusammenhang mit der Invarianzprüfung 6.8.5 Anforderungen der Meßäquivalenz und Invarianzebenen Zusammenfassend ergeben sich somit drei Invarianzebenen: die konfigurale, die metrische und die skalare Invarianz. Konfigurale Invarianz stellt auf die grundlegende Struktur ab und ist somit Grundvoraussetzung für interkulturelle Vergleiche. Ohne konfigurale Invarianz besteht keine Gemeinsamkeit des Konstrukts. Metrische Invarianz zielt auf die Stärke der Assoziation der manifesten Variablen und der zugrundeliegenden latenten ab. Bei erfüllter metrischer Invarianz besteht kulturübergreifende Meßgüte des Instruments. 123 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Skalare Invarianz schließt die Wirksamkeit eines additiven Biases aus und gewährleistet schließlich die Vergleichbarkeit von Meßwerten und die Aussagekraft von kulturbedingten Unterschieden der Meßwerte. Die besondere Bedeutung der skalaren Invarianz soll an dieser Stelle nochmals unterstrichen werden. Erst durch diese Form der Invarianz sind die Bedingungen der Meßäquivalenz, welche im vorangegangen Kapitel dargestellt wurden, erfüllt. (Einschränkend ist allerdings anzumerken, daß sich die Meßäquivalenz selbst dann auf den der klassischen Testtheorie zugänglichen Erkenntnisraum limitiert.) Bedauerlicherweise sind selbst die derzeit aktuellsten Publikationen im internationalen Marketing in diesem Bereich äußerst „unscharf“. So setzen Malhotra et al. (1996, S. 20) in ihrem „state-of-the-art review“ skalare und metrische Invarianz nach wie vor schlichtweg gleich („[s]calar equivalence, also called metric equivalence“), was zu einem differenzierten Verständnis der Problematik wenig beiträgt. Auch Cavusgil und Das (1997) nehmen in ihrem aktuellen Überblick über Methoden der vergleichenden empirischen Forschung nur auf die Vergleichbarkeit der dimensionalen Struktur Bezug, lassen jedoch die mögliche Wirksamkeit eines additiven Bias außer Betracht. Für Mullen (1995) ist skalare Äquivalenz begrifflich der metrischen Äquivalenz untergeordnet, unterscheidet sich aber von der bloßen Äquivalenz der Faktorladungen. Durch die unterschiedliche Begrifflichkeit allein ergeben sich also keine grundsätzlichen Differenzen zur vorgestellten Invarianzprüfung nach Steenkamp und Baumgartner (1996a, 1996b). Problematisch erscheint allerdings die von Mullen vorgeschlagene empirische Überprüfung der skalaren Invarianz. Mullen stellt den beobachteten Testscore als Summe des True Scores, des unsystematischen Meßfehlers (random error) und des systematischen Meßfehlers dar. Letzterer ist, ebenso wie der unsystematische Meßfehler, mit dem True Score unkorreliert, im Unterschied zum unsystematischen Fehler allerdings konstant. Somit ist der systematische Meßfehlerterm lediglich eine andere Darstellung des Intercept-Terms. Mullen verzichtet jedoch auf die Parametrisierung eines Intercept-Terms und faßt systematischen und unsystematischen Fehlerterm zusammen. In der multi-group-Analyse schlägt Mullen equality constraints bezüglich der Fehlerterme vor und geht davon aus, daß dieser Test „a joint test of the equality of random error variance (...) and systematic ’error’ variance“ ist (Mullen, 1995, S.582). Nach Mullen überprüft die Äquivalenz der unsystematischen Fehlerterme vergleichbare Reliabilität, während die Äquivalenz der systematischen Fehlerterme die Validität überprüft. Diese Argumentation ist aus mehreren Gründen 124 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie problematisch. Zum einen ist fraglich, warum der systematische Fehlerterm im Strukturgleichungsmodell überhaupt im „Gesamtfehlerterm“ (nach Mullen die Summe aus systematischen und unsystematischen Fehler) enthalten sein soll, ist der Erwartungswert des Fehlerterms doch definitionsgemäß gleich 0. Zum anderen stellen Varianzen eben nur auf die Variabilität ab und sind durch additive Konstanten unbeeinflußt21. Mullens Verzicht auf die Item-Intercepts ist folglich nicht zielführend und erlaubt keine Überprüfung der skalaren Invarianz und damit der Bedeutsamkeit von Mittelwertsvergleichen. Auch der bei Mullen zitierte Bollen (1989) betont die diesbezügliche Bedeutung der Intercepts (S.365f). Darüber hinaus ist die Argumentation Mullens, durch Äquivalenztests der systematischen Meßfehler die Validität zu überprüfen, zu hinterfragen. Für Mullen (1995, S.576) ist die Wirksamkeit eines systematischen Meßfehlers, also einer mit dem True Score unkorrelierten Konstanten, eine Bedrohung der Validität. Als Beispiel führt Mullen eine Waage an, welche zwar bei Abwägung eines bestimmten Gegenstandes stets den gleichen Wert anzeigt (und somit reliabel ist), aber den wahren Wert (Gewicht des Gegenstands) um zehn Pfund übertrifft. Der systematische Meßfehler dieser Waage ist somit zehn Pfund und die Validität laut Mullen aus diesem Grund beeinträchtigt. Die Validität im Rahmen der klassischen Testtheorie ist allerdings als Korrelation des Testscores und eines Außenkriteriums definiert (z.B. Fischer, 1974, S.41). Als Außenkriterium kann in diesem Fall das wahre Gewicht oder auch eine andere Waage ohne Bias dienen. Die Korrelation der Meßwerte der Waage und der wahren Werte wird freilich durch den systematischen Fehler von 10 Pfund in keiner Weise beeinträchtigt. Der systematische Fehler verringert also nicht die Validität, sondern impliziert lediglich den Verlust der Verhältnisskaleneigenschaft der Meßwerte, welche einen sinnvollen, natürlichen Nullpunkt voraussetzen würde. Würde man die Waage tatsächlich als invalide betrachten, so wäre durch die simple Subtraktion von 10 Pfund von jedem Meßwert die Waage „plötzlich“ - ohne am Meßinstrument etwas zu ändern - äußerst valide! In der Marketingforschung im allgemeinen und in der Einstellungsforschung ist der Stellenwert von Verhältnisskalen aber ohnehin sehr gering und für Intervallskalen stellt sich die Problematik von vornherein nicht, da diese gegenüber Lineartransformationen invariant sind. 21.Die Varianz der Parameter innerhalb einer Gruppe bezieht sich auf die Abweichung vom Mittelwert der jeweiligen Gruppe und nicht auf einen Gesamtmittelwert über alle Gruppen. 125 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie 6.9 Invarianz auf Skalenebene Einen äußerst kontroversiellen Beitrag zur Äquivalenzdiskussion haben 1995 Labouvie und Ruetsch (1995) geleistet. Labouvie und Ruetsch argumentieren, daß metrische Äquivalenz auf dem Niveau der Gesamtskala für die Vergleichbarkeit ausreichend sei [„(...) the use of multi-item scales requires only that conditions of simple structure and metric invariance be satisfied at the scale level.“ (Labouvie und Ruetsch, 1995, S.63)]. Dieser Ansatz geht davon aus, daß Items von gruppenspezifischen Faktoren beeinflußt sind, welche sich jedoch unter Umständen ausgleichen können.22 Modelltheoretisch bedeutet dies, daß gruppenbezogene Beschränkungen der Parameterschätzungen nicht auf der Ebene einzelner Items vorgenommen werden, sondern daß Invarianz nur „im Durchschnitt“ gegeben sein muß. Dementsprechend wird nur die mittlere Ladung der salient variable gleichgesetzt (mean salient loading). Analog müssen die nonsalient variables lediglich im Durchschnitt gleich 0 sein. Gleiches gilt für die Item-Intercepts. Die Reaktionen auf den Beitrag von Labouvie und Ruetsch sind äußerst kritisch. Meredith (1995a, 1995b) weist nach, daß Invarianz auf dem Skalenniveau nicht ausreichend ist für bedeutungsvolle Vergleiche über Gruppen hinweg. Die Lockerung der Beschränkungen zur Invarianzprüfung führen dazu, daß die als konfirmatorisch ausgewiesene Faktorenanalyse nichts anderes als eine Faktorachsenrotation darstellt, und keine Hypothesenprüfung möglich ist. McDonald (1995) zeigt, daß im skalenbezogenem Ansatz der Äquivalenzprüfung selbst eine Unterscheidung von salient und nonsalient variables nicht vorgenommen wird, wenn das Ladungsmuster in einer Gruppe mit der Form .0 .0 .0 .9 .9 .9 und einer anderen Gruppe mit der Form .9 .9 .9 .0 .0 .0 nicht gegen die Vergleichbarkeit der Mittelwerte dieser sechs Items spricht23. Nesselroade (1995a, S.96) geht möglichen Motiven nach, warum die Beschränkungen der faktoriellen Invarianz auf Itemebene gelockert werden sollten und kommt zum Schluß, daß diese bislang nicht theoretisch untermauert werden konnten und das dahinterliegende Rational wohl nur darin gelegen ist, daß Items „inherently unstable“ sind. Der Vorschlag von Labouvie und Ruetsch ist in diesem 22.Drasgow (1995, S.83) weist darauf hin, daß diese Idee nicht neu ist, sondern bereits zu Beginn der 50er Jahre formuliert wurde. 23.Drasgow (1995)führt ein analoges Beispiel an. Laden in einem Mathematiktest in einer Gruppe Algebra-Items hoch und Arithmetik-Items gering (weil im Unterricht nur Algebra gelehrt wurde) und verhält es sich in einer anderen Gruppe genau umgekehrt, so wäre diese Messung des Mathematikwissens nach Labouvie und Ruetsch invariant und Vergleiche zulässig. 126 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Sinne als Anpassung der Stringenz der Invarianzprüfung an das antizipierte Niveau, welches Daten zu erfüllen imstande sind, zu sehen24. Aus theoretischer Sicht ist dieses „Downgrading“ nicht befriedigend und Nesselroade (1995b) plädiert dafür, metrische Invarianz auf Itemebene als vorrangiges Prüfkriterium beizubehalten. 6.10 Partielle Invarianz Die Darstellung der Invarianzformen und der Möglichkeit zu deren empirischer Überprüfung ist davon ausgegangen, daß die mit der metrischen und skalaren Invarianz verbundenen equality constraints für alle Items eingeführt werden und die Äquivalenzprüfung daher für das gesamte Meßinstrument erfolgt. Ausgehend von einem statistisch haltbarem Modell der konfiguralen Invarianz, wird im ersten Schritt die Modellspezifikation im Sinne der metrischen Invarianzanforderungen stringenter. Im zweiten Schritt erfolgt, unter der Voraussetzung gegebener metrischer Invarianz, abermals eine Reduktion der Zahl der unabhängig zu schätzenden Parameter. Die Erfüllung der Invarianzbedingungen für alle Items ist jedoch in der Praxis äußerst unwahrscheinlich und volle metrische oder skalare Invarianz daher empirisch kaum zu bestätigen. Für die Vergleichbarkeit ist jedoch partielle, also nicht alle Items umfassende Invarianz unter bestimmten Bedingungen ausreichend (Byrne et al., 1989; Reise et al., 1993; Steenkamp und Baumgartner, 1996a; Singh, 1995). Aufbauend auf konfiguraler Invarianz müssen im Zuge der Prüfung der metrischen Invarianz nicht alle Ladungsparameter gleichgesetzt werden. Für einige Parameter können in jeder Gruppe spezifische Schätzungen erfolgen. Äquivalenz und damit Vergleichbarkeit ist dann noch gegeben, wenn neben einem gleichgesetzten Item, welches die Skala der latenten Variablen definiert, mindestens ein weiteres Item invariant ist. Tabelle 7 stellt die zu schätzenden Ladungsparameter für ein einfaktorielles Konstrukt dar. Die manifeste Variable V1 definiert die Varianz der latenten Variablen (Faktor F1). Für die manifesten Variablen V2, V3 und V4 werden gemeinsame Ladungsparameter geschätzt, für V5 und V6 kulturspezifische Parameter. Erweist sich dieses Modell als haltbar, so besteht partielle metrische Invarianz. Die Überprüfung der skalaren Invarianz erfolgt dazu analog, indem nur für einen Teil der Items, für welche allerdings metrische Invarianz gelten muß, die Intercepts kulturübergreifend gleichgesetzt werden. 24.Nesselroade (1995, S.119f) zitiert in diesem Zusammenhang Nunnally (1967): „In another context, Nunnally (1967) argued that adjusting one’s analytic methods „down“ to the perceived quality of the data was neither particularly valuable nor necessarily appropriate.“ 127 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Kultur A Kultur B manifeste Variable Ladung auf latenter Variablen (Faktor F1) manifeste Variable Ladung auf latenter Variablen (Faktor F1) V1 λ1=1a V1 λ1=1 V2 λ2 V2 λ2 V3 λ3 V3 λ3 V4 λ4 V4 λ4 V5 λ5 V5 λ7 V6 λ6 V6 λ8 Tabelle 7: Partielle metrische Invarianz eines einfaktoriellen Konstrukts (unstandardisierte Ladungsparameter) a. Der unstandardisierte Ladungsparameter λ1 ist mit 1 fixiert, um die Metrik der latenten Variablen F1 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112). Für den Ablauf der Invarianzprüfung bedeutet dies, daß aufbauend auf konfiguraler Invarianz zunächst auf volle metrische Invarianz geprüft wird. Erweist sich diese als nicht haltbar, so wird die Stringenz des Modells reduziert, indem einige der gleichgesetzten Ladungsparameter nun weiter freigesetzt werden. Dies bedeutet eine Erhöhung der Zahl der unabhängig zu schätzenden Parameter und damit eine bessere Anpassung des Modells an die Daten. Für die Auswahl der Items, für welche metrische Invarianz nicht länger angenommen wird, werden die Modifikationsindexwerte (vgl. Backhaus et al., 1994, S.421) herangezogen. Diese Werte werden für alle restringierten, also nicht frei geschätzten Parameter ausgewiesen und geben an, wie sich der Fit des Modells verbessern würde, wenn die entsprechenden Parameter freigesetzt werden. Einen Überblick über den Ablauf der Prüfung der Erhebungsdaten auf Äquivalenz und der einzelnen Prüfschritte gibt Abbildung 27 auf Seite 129. Für die praktische Anwendung von partiell äquivalenten Skalen in der interkulturellen Forschung ist allerdings zu beachten, daß der Vergleich von additiven Rohscores (Summe der Itemwerte als Gesamtmaß) nur für jenen Teil der Items möglich ist, welche invariant 128 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie Analyse: CFA in Kultur A Modell-Test (Fit) innerhalb Kultur A Analyse: CFA in Kultur B Modell-Test (Fit) innerhalb Kultur B Falls erforderlich: Elimination von Items Schritt 1: Bestimmung des Modellfits innerhalb der Kulturen (Gruppen) Analyse: multi-group CFA, equality constraints auf non-salient loadings Test auf konfigurale Invarianz Schritt 2: Test auf konfigurale Invarianz Analyse: multi-group CFA, equality constraints auf non-salient und salient loadings Test auf volle metrische Invarianz Einzelne equality constraints auf salient loadings aufgehoben Test auf partielle metrische Invarianz Schritt 3: Test auf metrische Invarianz Analyse: multi-group CFA, zusätzliche equality constraints auf Item-Intercepts Test auf skalare Invarianz Einzelne equality constraints auf Item-Intercepts aufgehoben Test auf partielle skalare Invarianz Schritt 4: Test auf skalare Invarianz partielle skalare Invarianz volle skalare Invarianz Niveau der Datenäquivalenz Abbildung 27: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung auf Äquivalenz mittels Strukturgleichungsanalysen für mehrere Gruppen (multi-group CFA) 129 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie sind. Werden allerdings direkt Mittelwerte der latenten Variablen, also der Faktorwerte, verglichen, so können dabei auch nicht invariante Items einbezogen werden, da diese durch kulturspezifische Parameter mit der gemeinsamen Skala verbunden sind. Vergleiche latenter Variablen lassen sich im Rahmen der multi-group-Analyse vornehmen, indem ein Modell mit gleichgesetzten Mittelwerten mit einem Modell frei geschätzter Mittelwerte hinsichtlich des Fits verglichen wird, wobei wieder der χ2-Differenzentest Anwendung findet. Sinkt der Fit ausgehend von der freien Schätzung bei Einführung eines equality constraints signifikant, so unterscheiden sich die Mittelwerte ebenso signifikant. Das Konzept der partiellen Invarianz eröffnet darüber hinaus interessante Perspektiven hinsichtlich der Einbeziehung kulturspezifischer Items, also von emic Items (Baumgartner und Steenkamp, 1997). Tabelle 8 baut auf Tabelle 7 auf, indem ein Set von vier manifesten Variablen V1, V2, V3 und V4 als kulturübergreifend invariant modelliert ist. Die weiteren Variablen (in Tabelle 8 grau unterlegt) sind jedoch nun kulturspezifisch. V5 und V6 kommen in Kultur A zum Einsatz, V7 und V8 in Kultur B. Aus diesem Grund ist es a priori nicht sinnvoll, die Ladungsparameter z.B. von V5 und V7 gleichzusetzen, da sich diese Items inhaltlich unterscheiden und nur formal im Zuge der Parameterschätzungen als einander entsprechend angesehen werden. Die Zahl der manifesten Variablen muß nicht notwendigerweise in allen Kulturen ident sein. Es kann also in Kultur A ein Set von z.B. 5 zusätzlichen emic Items eingesetzt werden und in Kultur B ein Set von nur drei spezifischen Items. Um die Anwendbarkeit von Standardprogrammen zur Parameterschätzung zu ermöglichen, sind diesfalls jedoch imaginäre manifeste Variablen einzuführen mit Mittelwert 0, Varianz gleich 1 und Kovarianzen mit allen anderen Variablen gleich 0 (Baumgartner und Steenkamp, 1997). Substantiell kann die Einbeziehung von emic Items sinnvoll sein, wenn sie der Erhöhung der intrakulturellen Validität (inhaltliche Validität, Vorhersagevalidität, usw) dient. Es muß stets bedacht werden, daß Vergleichbarkeit als interkulturelle Validität, welche Gegenstand dieser methodologischen Exploration ist, zwar notwendige Voraussetzung für sinn- und bedeutungsvolle interkulturelle Vergleiche ist, die intrakulturelle Validität aber nicht ersetzen kann. Insbesondere das Konzept der partiellen Invarianz birgt die Gefahr in sich, daß Vergleiche von Rohscores auf der Basis einer stark eingeschränkten Itemanzahl 130 6 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der klassischen Testtheorie durchgeführt werden, wodurch die Validität der Messung durch Verdünnung (vgl. Fischer, 1974, S.98f) ernsthaft bedroht sein kann. Die Testung von Unterschiedshypothesen betreffend latenter Mittelwerte (vgl. Hancock, 1997) ist daher, wenn auch technisch aufwendiger, vorzuziehen. Kultur A Kultur B manifeste Variable Ladung auf latenter Variablen (Faktor F1) manifeste Variable Ladung auf latenter Variablen (Faktor F1) V1 λ1=1a V1 λ1=1 V2 λ2 V2 λ2 V3 λ3 V3 λ3 V4 λ4 V4 λ4 V5 λ5 V7 λ7 V6 λ6 V8 λ8 Tabelle 8: Partielle metrische Invarianz eines einfaktoriellen Konstrukts unter Einbeziehung von emic Items (unstandardisierte Ladungsparameter) a. Der unstandardisierte Ladungsparameter λ1 ist mit 1 fixiert, um die Metrik der latenten Variablen F1 zu definieren. Vgl. dazu Abschnitt 6.5 (Seite 112). 6.11 Überblick über den Ablauf der Äquivalenzprüfung der Erhebungsdaten Zusammenfassend erfolgt die Überprüfung der Äquivalenz der Erhebungsdaten in vier Schritten (Abbildung 27 auf Seite 129 stellt diese schematisch dar). Zunächst ist der Modellfit innerhalb der Kulturen zu bestimmen (Schritt 1). Darauf aufbauend wird die konfigurale Invarianz geprüft (Schritt 2). Wenn diese gegeben ist, wird im darauf folgenden, dritten Schritt auf volle metrische Invarianz geprüft. Gegebenenfalls ist die Hypothese metrischer Invarianz für einzelne Items aufzugeben (partielle Invarianz). Im Zuge des vierten Prüfschrittes wird auf volle bzw. partielle skalare Invarianz geprüft und damit das Niveau der Datenäquivalenz bestimmt. 131 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Two philosophers are walking down the street. They see two women leaning out of upper story windows, facing each other across an alley, and arguing. One of them stops to watch and says to the other, ’You know they’ll never agree.’ The other says, ’How on earth can you tell?’ The first one replies, ’They’re arguing from different premises.’ Satire, unbekannte Quelle 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Im vorangegangenen Kapitel wurde versucht, innerhalb des Paradigmas der klassischen Testtheorie eine methodische Vorgangsweise zu beschreiben, die geeignet ist, die interkulturelle Validität im Sinne der Vergleichbarkeit von Messungen empirisch zu überprüfen. Da die klassische Testtheorie nach wie vor das vorherrschende Meßparadigma der Marketingforschung darstellt, erscheint dies sinnvoll und angebracht. In diesem Kapitel soll jedoch das Paradigma selbst kritisch hinterfragt und die Stärken und Schwächen beleuchtet werden. Mit der probabilistischen Testtheorie steht ein alternatives Paradigma zur Verfügung, welches in die Marketingsforschung bislang fast völlig unbeachtet geblieben ist. 7.1 Kritische Betrachtung der klassischen Testtheorie Die bereits eingeführte Grundgleichung der klassischen Testtheorie (vgl. Abbildung 16 auf Seite 89), welche den beobachteten Testwert als Summe eines „wahren“ Werts (True Score) und eines stochastischen Fehlerterms „erklärt“, wurde aus den Naturwissenschaften übernommen. Die Funktion der Meß- bzw. Testtheorie liegt darin, dem empirischen Relativ (vorgegebene Objekte, Meßgegenstände) ein numerisches Relativ (Meßwert) zuzuordnen, welches die zwischen den Meßgegenständen „feststellbaren empirischen Relationen in eine Menge von Zahlen und Relationen zwischen diesen“ (Fischer, 1974, S.115) abbildet. Ein Beispiel der physikalischen Messung der Körpergröße von Personen soll dies verdeutlichen (Fischer, 1974). Die zu messenden Personen können zunächst paarweise verglichen werden, bis eine Rangreihenfolge von einzelnen Größenklassen hergestellt ist (dessen Umfang mindestens eine Person beträgt). Diese paarweisen Vergleiche stellen noch keine Messung dar, da keinerlei Zuordnung von Zahlen als numerisches Relativ zu den festgestellten empirischen Relationen (zwei Personen sind unterschiedlich oder gleich groß) erfolgt. Die empirischen Relationen der einzelnen Größenklassen haben jedoch lediglich den Charakter von kleiner/größer- bzw. gleich-Beziehungen. Werden nun den einzelnen Größenklassen in ansteigender Reihenfolge numerische Werte zugeordnet, 132 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) so nehmen diese Werte den Charakter von Meßwerten an (numerisches Relativ). Diese Werte können die natürlichen Rangzahlen 1,2,3, usw. sein, müssen aber nicht notwendigerweise unmittelbar aufeinanderfolgen. Jede streng monoton ansteigende Zahlenfolge wäre als numerisches Relativ geeignet, da die abzubildenden empirischen Relationen lediglich ordinaler Natur sind. Die so erfolgte Messung würde daher keinerlei Schlußfolgerungen über die Größenunterschiede zwischen einzelnen Personen erlauben. Werden jedoch im nächsten Schritt alle möglichen Größenunterschiede zwischen je zwei Personen (also Differenzen) verglichen, so erlaubt auch das entsprechende numerische Relativ die Interpretation von Differenzen. Womit die Intervallskaleneigenschaft des numerischen Relativs und damit der Messung begründet wird. Die Übertragung dieses Paradigmas der Messung von beobachtbaren Meßgegenständen auf die Messung von unbeobachtbaren Meßobjekten (Einstellungen, Intelligenz, usw.) ist insofern problematisch, als im letzteren Fall empirische Relationen kaum erfaßbar sind. Es ist nicht möglich, die Einstellungen zweier Personen unmittelbar zu vergleichen und eine Rangreihenfolge von Einstellungsklassen zu bilden, zu denen eine Zuordnung von numerischen Werten erfolgen könnte. Ebenso ist es natürlich nicht möglich, Einstellungsunterschiede unmittelbar zu vergleichen. Die Aufgabe einer Meßtheorie liegt nun darin, nichtsdestotrotz eine Zuordnungsvorschrift zu formulieren, die ein bestimmtes Skalenniveau1 impliziert. Kann dies die klassische Testtheorie leisten? Die klassische Testtheorie setzt voraus, daß der beobachtete Meßwert X intervallskaliert ist. Dies ist zwingend erforderlich, betrachtet man beispielsweise die als Varianzverhältnis definierte Testreliabilität oder die als Korrelation definierte Validität. Die Tragfähigkeit dieser Voraussetzung wird jedoch in der klassischen Testtheorie nicht begründet. Der beobachtete Meßwert X wird als Summe der Werte einzelner Items errechnet. Im einfachsten Fall dichotomer Items wird somit aus einer Vielzahl qualitativer Meßwerte auf Itemebene ein quantitativer Meßwert. Geht man davon aus, daß alle Items gleiche Trennschärfe aufweisen, so ist die Summe der positiv beantworteten Items aber lediglich ordinal skaliert. Über die Unterschiede im empirischen Relativ zwischen einzelnen Rohscores als numerisches Relativ sind keinerlei gesicherte Aussagen möglich. Dennoch nimmt die klassische Testtheorie schlichtweg an, die Rohscores seien (wie erforderlich) intervallskaliert. Geht man von der 1. Für einen Überblick über Skalenniveaus und die sich daraus ergebenden Konsequenzen hinsichtlich zulässiger Transformationen vgl. z.B. Glass und Stanley (1970, S.7ff). 133 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Annahme gleicher Itemtrennschärfe ab, so sind die Rohscores auch nicht zwingend ordinal skaliert, da unterschiedliche Antwortmuster, die zum gleichen Rohscore führen, nicht notwendigerweise mit derselben Position am empirischen Relativ verknüpft sind. Für mehrkategorielle Items ist die Problematik verschärft, da eine Addition von Items die Intervallskaleneigenschaft der den Items zugrundeliegenden Antwortskalen voraussetzt.2 Eine weitere Voraussetzung für eine sinnvolle Aufsummierung einzelner Items zu einem Gesamtscore ist die Eindimensionalität der Items. Im Rahmen der Grundgleichung der klassischen Testtheorie wird auch dies einfach als gegeben angenommen. Die Überprüfung dieser Voraussetzung ist ohne Zusatzannahmen über die Parallelität von Messungen nicht möglich. Für eine eindimensionale Messung und damit Homogenität der Items sind gleiche faktorenanalytische Ladungswerte für alle Items erforderlich. Nur unter dieser Bedingung sind Verfahren der Reliabilitätsabschätzung durch Korrelation von Testteilen, wie dies im Zuge der split half Reliabilität oder der Bestimmung der internen Konsistenz durch Cronbach’s Alpha der Fall ist, sinnvoll. Über die weiteren Erfordernisse paralleler Messungen (etwa Gleichheit der Erwartungswerte und Meßwertvarianzen) besteht in der Literatur Uneinigkeit (vgl. dazu Fischer, 1974, S.33ff, S.127). Die Grundlagen der klassischen Testtheorie sind somit äußerst problematisch und die Aussagekraft der Meßwerte, sowie der darauf aufbauenden Testkennwerte zweifelhaft. Die Grundgleichung „erklärt“ einen beobachtbaren Wert als Summe zweier unbeobachtbarer und ist - ohne Zusatzannahmen zur Parallelität von Messungen - dementsprechend tautologisch und empirisch nicht falsifizierbar (Rost, 1988, S.81). Die klassische Testtheorie ist damit in erster Linie von Pragmatik gekennzeichnet, die meßtheoretischen Grundlagen sind unbefriedigend. 2. Auch die Methode der simultanen adjektivischen Dezentrierung von Angelmar und Pras unter Anwendung der Thurstone-Skalierung (vgl. dazu Bauer, 1995, S.248ff) kann dieses Problem nicht grundsätzlich lösen. Diese Methode sieht vor, daß Verbalisierungen von Antwortkategorien auf einer 21-stufigen Bewertungsskala eingestuft werden. Für die tatsächliche Verbalisierung werden jene Begriffe ausgewählt, die auf dieser Bewertungsskala äquidistant sind. Darüber hinaus erlauben die so gewonnenen Bewertungen die Konstruktion von einander entsprechenden Antwortskalen in verschiedenen Sprachen, indem Begriffe nicht wörtlich übersetzt werden, sondern „gleichwertige“ Begriffe gewählt werden. Die Überlegenheit dieser Methode gegenüber einer bloß „gefühlsmäßigen“ Äquidistanz der Begriffe und einer wörtlichen Übersetzung ist unbestreitbar. Die theoretische Schwäche der klassischen Testtheorie ist damit aber aus zwei Gründen nicht überwunden. Zum einen wird für die 21-stufige Bewertungsskala Intervallskalenniveau nur angenommen. Es ist äußerst fragwürdig, ob Personen wirklich in der Lage sind, zwischen 21 Abstufungen äquidistant zu differenzieren. Zum anderen ist die mit dieser Methode entwickelte Antwort(intervall)skala lediglich eine Meßhypothese. Die empirische Überprüfung dieser Hypothese ist eben innerhalb der klassischen Testtheorie nicht möglich. 134 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Einen zentralen Stellenwert innerhalb der klassischen Testtheorie nehmen die Begriffe der Reliabilität und Validität ein. Die Reliabilität eines Tests ist inhaltlich definiert als „Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht“ (Lienert, 1989, S.14). Formal ist die Reliabilität als Verhältnis der Varianz der True Scores T und der Varianz der beobachteten Meßwerte X definiert, was äquivalent zur quadrierten Korrelation von True Scores und manifester Meßwerte ist (vgl. Abbildung 28). 2 σ 2 Rel = -----T- = ρ (X,T) 2 σX Abbildung 28: Formale Definition der Reliabilität (Fischer, 1974, S.37) Aus der Definition der Reliabilität ist unmittelbar ersichtlich, daß diese populationsabhängig ist. Für sehr homogene Populationen bzw. Stichproben ist die True Score Varianz kleiner als für heterogene. Im Extremfall völliger Gleichheit der Personen hinsichtlich des zu messenden Konstrukts ist die True Score Varianz gleich null und die Reliabilität wird ebenfalls gleich null. Somit beschreibt die Reliabilität nicht die Meßgenauigkeit eines Tests unabhängig von den zu messenden Personen, sondern gibt die Meßgenauigkeit in Bezug auf eine gegebene Population an (Fischer, 1974, S.38; Traub und Rowley, 1991, S.40). Die Reliabilität ist also nicht als Eigenschaft des Tests zu sehen, sondern gibt lediglich an, wie gut der Test innerhalb einer bestimmten Population differenziert. Wenn die True Score Varianz und damit die Reliabilität gleich null ist, so bedeutet dies nicht, daß der Test unzuverlässig mißt. Das Unvermögen des Tests, innerhalb dieser Population zu differenzieren, liegt nicht an der Qualität des Tests, sondern daran, daß innerhalb dieser Population hinsichtlich des Testkriteriums nicht differenziert werden kann. Eine weitere mit der Reliabilität verbundene Problematik liegt in ihrer Anwendung zur Berechnung von Konfidenzintervallen für den True Score3. Die Breite des Konfidenzintervalls hängt von der Reliabilität des Meßinstruments ab (vgl. dazu Fischer, 1974, S.40), ist aber für jeden manifesten Meßwert gleich. In der Praxis ist es äußerst unplausibel, daß 3. Bei der Schätzung des True Scores mittels der Regressionsmethode ( ˆτp = ρX X' ⋅ Xp + ( 1 – ρX X' ) ⋅ X = X + ρX X' ⋅ ( Xp – X ) , vgl. Traub, 1994, S.150; Fischer, 1974, S. 40f) ist auch die Punktschätzung von der Reliabilität abhängig. 135 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) ein Meßinstrument in seinen Extrembereichen gleich zuverlässig mißt wie im Mittelbereich. Abgesehen davon hängt die Breite des Konfidenzintervalls für eine bestimmte Person von der Homogenität der Population ab, da letztere die Höhe der Reliabilität mitbestimmt. Mit der Reliabilität sind also eine Reihe theoretischer Probleme verbunden. Aber auch die praktische Bestimmung ist kein triviales Problem. Da die True Scores nicht beobachtbar sind, ist auch deren Varianz nicht bestimmbar. Die Reliabilität ist damit nicht in der Form ermittelbar, in der sie definiert wird. Als Alternative kann der Test wiederholt werden und die Korrelation der beiden Testvorgaben als Wiederholungstestreliabilität zur Abschätzung der Reliabilität herangezogen werden. Der so ermittelte Wert unterschätzt allerdings in der Regel die Reliabilität, da zeitbedingte Faktoren korrelationsreduzierend wirken. Andere Möglichkeiten, die Reliabilität abzuschätzen, erfordern Zusatzannahmen über die Parallelität von Messungen, welche in der Praxis selten erfüllt sind und auch kaum überprüft werden. Für Testhalbierungsmethoden und Paralleltestreliabilitätsbestimmungen müßten die entsprechenden Tests bzw. Testteile gleiche Varianz aufweisen. Für die Bestimmung der Validität als Korrelation der manifesten Testwerte und eines Außenkriteriums gelten analoge Einschränkungen der Aussagekraft aufgrund der Verteilungs- und Populationsabhängigkeit der Korrelation und der Fragwürdigkeit der Intervallskaleneigenschaft der Meßwerte. Auch andere wichtige Parameter, wie zum Beispiel der Schwierigkeitsgrad bzw. der Aufforderungsgrad eines Items definiert als Anteil der richtigen Antworten bzw. Zustimmungen und der Gesamtzahl der untersuchten bzw. befragten Personen, lassen sich im Rahmen der klassischen Testtheorie nicht populationsunabhängig bestimmen. Ein Item eines Einstellungsmeßinstruments wird in einem Sample mit stark positiver Einstellung eine höhere Zustimmungsrate aufweisen als in einem Sample mit überwiegend negativer Einstellung. 7.2 Guttmanskalierung Auf Louis Guttman (vgl. dazu z.B. die Ausführungen bei Fischer, 1974, S.137ff) geht der erste Versuch zurück, die mit der klassischen Testtheorie verbundenen theoretischen Probleme zu überwinden. Wie bereits dargestellt, geht die klassische Testtheorie davon aus (bzw. setzt unüberprüfbar voraus), daß die Summe von dichotomen Items eine intervalls- 136 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) kalierte Meßgröße ergibt. Dies ist im allgemeinen aus meßtheoretischen Gründen nicht haltbar. Bei Items unterschiedlicher Trennschärfe ist jedoch selbst das ordinale Skalenniveau fraglich, da unterschiedliche Antwortmuster nicht ohne weiteres verglichen werden können. Die klassische Testtheorie macht keine Aussage darüber, wie die Antwort auf ein einzelnes Item in Abhängigkeit von der Position auf der latenten Dimension, welche gemessen werden soll, zustandekommt. Das Meßergebnis X (Rohscore) wird mit der Lokation T auf der latenten Dimension bis auf den Meßfehler E gleichgesetzt. Guttman formuliert nun die notwendigen Voraussetzungen auf Itemebene, um ein ordinales Skalenniveau des Rohscores zu begründen. Demnach ist die Aussage, der Rohscore n ist größer als der Rohscore n-1, nur dann zwingend gültig, wenn der Rohscore n dadurch zustande kommt, daß die genau gleichen Items positiv beantwortet werden, wie beim Rohscore n-1, und ein weiteres Item. Ein Rohscore von n, welcher sich dadurch ergibt, daß n-1 andere Items des Meßinstruments und ein weiteres positiv beantworten werden, wäre demnach qualitativ unterschiedlich und die Schlußfolgerung, dieser Rohscore von n wäre größer als der Rohscore von n-1, wäre nicht zulässig. Werden alle Items eines Meßinstruments nach aufsteigender Schwierigkeit (Aufforderungscharakter) gereiht4, so geht die Guttmanskala davon aus, daß die Antwortmuster das sogenannte Guttmanpattern zeigen. Item (Antwortpattern) Rohscore 1 2 3 4 5 6 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 0 0 0 2 1 1 1 0 0 0 3 1 1 1 1 0 0 4 1 1 1 1 1 0 5 1 1 1 1 1 1 6 0 1 0 1 1 0 3 Abbildung 29: Guttmanpattern für sechs dichotome Items 4. Die Rangreihung erfolgt auf der Basis der Itemscores. 137 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Abbildung 29 stellt das Guttmanpattern für sechs dichotome Items5 dar. Jeder mögliche Rohscore impliziert die positive Beantwortung aller Items des nächstgeringeren Rohscores und eines mehr. Das kursiv dargestellte Antwortmuster 010110 führt zwar ebenso wie das Muster 111000 zum Rohscore 3, ist aber mit diesem nicht vergleichbar, da andere Items positiv beantwortet wurden. Da die Items nach ihrer Schwierigkeit geordnet sind, impliziert das Antwortmuster 010110, daß das leichteste und drittleichteste Item nicht bewältigt wurden, was die Rangreihung der Items in Frage stellt. Das Meßmodell von Guttman läßt sich wie folgt formal darstellen (vgl. Fischer, 1974, S.139): • Jedes Item i läßt sich durch einen Schwierigkeitsparameter δi charakterisieren. • Jede Person v läßt sich durch einen Fähigkeits- bzw. Einstellungsparameter βv charakterisieren. • Die Antwort auf ein Item i durch die Person v wird als avi bezeichnet und erhält den Wert 1, wenn die Person positiv antwortet und den Wert 0, wenn die Person negativ antwortet. • Die Beziehung der Parameter δi und βv und der Antwort avi wird formuliert als: avi = 1 wenn die βv ≥ δi avi = 0 wenn die βv < δi Das Guttmanmodell läßt sich alternativ als Wahrscheinlichkeit einer positiven Antwort darstellen: P ( + | v, i) = 1 für βv ≥ δi und P ( + | v, i) = 0 für βv < δi Aus dieser grundlegenden Beziehung geht unmittelbar hervor, daß eine Person v alle Items positiv beantworten muß, deren Itemparameter kleiner oder gleich ihrem Personenparameter sind. Da die Wahrscheinlichkeit einer positiven Antwort nur die Werte 0 und 1 5. Die Guttmanskalierung ist auf mehrkategorielle Antwortverrechnungen verallgemeinerbar. Dabei wird der Maximalwert gleich 1 gesetzt und dazwischen liegende Werte auf entsprechende Werte zwischen 0 und 1 umgerechnet. 138 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) annehmen kann, handelt es sich um ein deterministisches Meßmodell. Aus dem Item- und dem Personenparameter resultiert eindeutig die Antwort. Bereits ein einziges vom Guttmanpattern abweichendes Antwortmuster falsifiziert das Meßmodell. Die Guttmanskalierung hat sich aus diesem Grund in der Praxis nicht durchgesetzt. Für reale Messungen ist das Modell folglich ungeeignet. An dieser Stelle interessiert aber weniger die Praxisrelevanz des Modells, sondern vielmehr eine nähere Betrachtung der fundamentalen Unterschiede der Guttmanskalierung und der klassischen Testtheorie. Das Guttmanmodell formuliert eine Hypothese, wie eine Messung zustandekommt, nämlich als Vergleich einer Person und eines Items bzw. eines Personenparameters und eines Itemparameters. In der klassischen Testtheorie fehlt eine solche Hypothese, dementsprechend ist auch die Falsifizierbarkeit des Meßmodells nicht möglich. Die Guttmanskalierung ist falsifizierbar. Der zentrale Fortschritt in der Meßtheorie liegt also in deren Falsifizierbarkeit. Die Tatsache, daß das Guttmanmodell in der Praxis auch so gut wie immer falsifiziert wird, schmälert diesen Fortschritt keineswegs. Ein weiterer fundamentaler Unterschied liegt in der Unabhängigkeit der Itemparameter von der jeweilig betrachteten Population. Die Guttmanskalierung stellt somit die Grundlage eines Paradigmenwechsels in der Meßtheorie dar.6 Auf dieser Basis hat der dänische Mathematiker und Statistiker Georg Rasch (1960/1980) ein probabilistisches Meßmodell entwickelt, welches als Rasch-Modell in die Literatur eingegangen ist und die Theorie des Messens revolutionierte. 7.3 Das probabilistische Testmodell von Rasch (1980) 7.3.1 Übergang von einem deterministischen zu einem probabilistischen Modell Rasch (1980) baut auf den Überlegungen Guttmans auf, geht jedoch vom deterministischen Element der Messung ab. Rasch (1980, S.11) sieht darin eine Analogie zur Wende in der Physik von der klassischen Physik Newtons zur modernen Physik, welche durch Indetermination und Zufallsprozesse gekennzeichnet ist. 6. Die Bereitschaft der Scientific Community, die mit diesem Paradigmenwechsel verbundene Fundamentalkritik an der klassischen Testtheorie anzuerkennen, war (und ist?) in weiten Teilen von keinem allzu großen Enthusiasmus gekennzeichnet. Erste Publikationsversuche in Psychometrika durch Guttman in den 30er Jahren, wurden von Vertretern der klassischen Testtheorie erfolgreich „abgewehrt“. Zuviele wissenschaftliche Karrieren wurden auf diesem Paradigma aufgebaut. Zuviele wissenschaftliche „Kenntnisse“ wären zu hinterfragen gewesen. So datiert die erste diesbezügliche Publikation erst aus 1950 (Guttman, 1950, zitiert in Fischer, 1974, S.137). 139 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Der Ausgangspunkt des Modells liegt - wie bei Guttman - im Paarvergleich von Personen und Items. Item- und Personenparameter werden als auf einer gemeinsamen latenten Dimension abbildbar angenommen. So hat auf einer Einstellungsdimension jede Person eine bestimmte Position (Lokation), welcher der Einstellung entspricht. Jedes Item des diese Einstellung messenden Instruments hat einen bestimmten Aufforderungscharakter (das Pendant zur Itemschwierigkeit bei Leistungstests), der sich ebenfalls auf dieser Skala abbilden läßt und den Itemparameter darstellt. Item- und Personenparameter sind formal gleichbedeutend. Jedes Item kann daher auch als „Verkörperung“ eines bestimmten Einstellungsniveaus interpretiert werden. Werden nun ein Item und eine Person als Paar verglichen (d.h. das Item wird der Person zur Beantwortung vorgegeben), so entscheiden (nur) die Item- und Personenparameter - so die Modellkonsequenz - ob eine zustimmende oder ablehnende Antwort zustandekommt. Der Vergleich einer bestimmten Person v und eines bestimmten Items i ist daher unabhängig davon, welche Personen sonst noch betrachtet werden oder betrachtet werden könnten und wie sich diese hinsichtlich der latenten Dimension verteilen. Der Vergleich ist weiters unabhängig von den weiteren im Meßinstrument enthaltenen Items. Wichtig ist allerdings festzuhalten, daß der Vergleich eines Items und einer Person weder eine Messung des Itemparameters, noch eine Messung des Personenparameters voraussetzt oder darstellt. Es wird somit von der Annahme der klassischen Testtheorie abgegangen, „die Itemreaktion hätte schon Meßqualität“ (Rost, 1988, S.84). Der Vergleich erfolgt am empirischen Relativ und ist damit analog zum Beispiel des Versuchs der Messung der Körpergröße von Personen, welches im Zuge der Kritik der klassischen Testtheorie angeführt wurde. Der Vergleich zweier Personen hinsichtlich ihrer Körpergröße erfordert keine Messung der Körpergröße, ebensowenig der Vergleich der Einstellung einer Person und der Einstellung, die ein Item verkörpert. Aufgabe der Meßtheorie ist es zu erklären, wie auf der Basis dieser Vergleiche Messungen zustandekommen, das heißt die Beziehung von latenter Dimension und manifester Antwort muß falsifizierbar modelliert werden. Bei Guttman wird diese Beziehung deterministisch modelliert, bei Rasch hingegen probabilistisch7. Das Meßmodell von Rasch (oder kurz: Rasch-Modell8) kann daher als probabilistische Version des deterministischen Modells von Guttman gesehen werden. 140 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Vergleich von Item i und Person v Differenz der Parameter Wahrscheinlichkeit der Itemantwort xvi=1 bei Guttman bei Rasch βv > δi (βv − δi) > 0 P(xvi=1) = 1 P(xvi=1) > ½ βv = δi (βv − δi) = 0 P(xvi=1) = 1 P(xvi=1) = ½ βv < δi (βv − δi) < 0 P(xvi=1) = 0 P(xvi=1) < ½ Abbildung 30: Vergleich der Modelle von Guttman (1950) und Rasch (1980) hinsichtlich der Wahrscheinlichkeit einer positiven Antwort bei gegebener Differenz von Personen- und Itemparameter (vgl. dazu Wright und Stone, 1979, S.13) Abbildung 30 stellt die Ausgangsposition von Rasch dem Modell von Guttman gegenüber. Rasch nimmt für eine positive Differenz von βv und δi im Unterschied zu Guttman nicht an, daß die Antwort zwingend und deterministisch positiv ist, sondern lediglich, daß die Wahrscheinlichkeit einer positiven Antwort größer als ½ ist. Mit zunehmender, positiver Differenz wird die Wahrscheinlichkeit als steigend angenommen und geht für sehr große Differenzen gegen 1. Entsprechen Item- und Personenparameter einander exakt, so beträgt die Wahrscheinlichkeit einer positiven Antwort ½. Für negative Differenzen ist die Wahrscheinlichkeit kleiner als ½ und strebt mit zunehmender Differenz gegen 0. Der Vergleich von Person und Items kann als „Wettstreit“ angesehen werden und die Wahrscheinlichkeit des Ergebnisses als sogenannter Wettquotient angegeben werden. Sind die Chancen einer positiven und einer negativen Antwort gleich, so stehen die „Odds“ 1:1. Dieses Verhältnis kann als der Quotient eines Personenparameters Bv und ei- 7. Es sei vermerkt, daß bezüglich des Ursprungs der probabilistischen Beziehung unterschiedliche Auffassungen vertreten werden. Der stochastic subject view geht davon aus, daß die Antwort innerhalb einer Person stochastisch erfolgt. Der random sampling view hingegen nimmt an, daß für jede fixierte Person die Antwort deterministisch erfolgt und der probabilistische Zusammenhang darauf beruht, daß für unterschiedliche Personen mit dem gleichen Personenparameter die Antwortwahrscheinlichkeiten unterschiedlich sind (vgl. Molenaar, 1995a, S.5f). 8. Da Rasch mehrere Modelle für verschiedene Anwendungen vorgestellt hat, ist diese Bezeichnung, obzwar in der Literatur oft verwendet, nicht eindeutig. Da jedoch im Kontext dieser Arbeit kein anderes Modell von Rasch besprochen wird, besteht keine Verwechslungsgefahr. Präziser wäre die Bezeichnung dichotomes logistisches Modell von Rasch oder one-parameter logistic model. 141 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) nes Itemparameters Di interpretiert werden. Die Odds lassen sich sehr einfach in eine Wahrscheinlichkeit umrechnen (vgl. Abbildung 31)9. Odds Wahrscheinlichkeit Bv ----Di Bv ⁄ Dv P = ------------------------1 + Bv ⁄ Dv Bv=1, Di=1 1--1 1 ⁄ 1 - = 1--P = -----------------1+1⁄1 2 Bv=10, Di=2 10 -----2 5 - = 5--P = ----------1+5 6 Bv=2, Di=3 2--3 2 ⁄ 3 - = 2--P = -----------------1+2⁄3 5 Beispiele Abbildung 31: Umrechnung von Odds-Quotienten in Wahrscheinlichkeiten (vgl. Andrich, 1988a, S.24ff) Die Parametrisierung durch die Personenparameter Bv und Itemparameter Di entspricht den Voraussetzungen von Rasch. Gleichen die Parameter einander exakt (wie im ersten Beispiel in Abbildung 31), so ist die Wahrscheinlichkeit einer Zustimmung genau ½. Ist der Personenparameter größer als der Itemparameter so ist die Wahrscheinlichkeit größer als ½ und geht mit steigendem Quotienten der Parameter gegen 1. Analog gilt, daß bei kleiner werdendem Quotienten die Wahrscheinlichkeit gegen 0 geht. Das Skala der Parameter weist Verhältnisskalenniveau auf. Sowohl Item- als auch Personenparameter können keine negativen Werte annehmen, da negative Odds-Quotienten bedeutungslos sind. Die Skala reicht dementsprechend von 0 bis unendlich. Die Parameterwerte sind bis auf eine multiplikative Konstante eindeutig (eine Multiplikation aller Parameter verändert das Odds-Verhältnis nicht). Daher ist die Skala diesbezüglich zu normieren. Die Addition einer Konstanten ist hingegen nicht möglich, da beispielsweise ein Verhältnis von 1:2 nach Addition von 2 zu allen Parametern nicht ident ist mit einem Verhältnis von 3:4. Aufgrund der Asymmetrie der Verhältniswerte (alle Verhältnisse für Bv < Di liegen zwischen 0 und 1, während alle Verhältnisse für Bv > Di zwischen 1 und unendlich liegen) 9. Die Modelldarstellung durch die Parameter Bv und Di erfolgt gelegentlich nicht als Bruch, sondern als multiplikativer Term (vgl. z.B. Andrich, 1989, S.12). Dabei wird der Itemparameter invertiert und ist inhaltlich daher ein „Leichtigkeitsparameter“. 142 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) werden die Modellparameter im allgemeinen logarithmisch transformiert10. Abbildung 32 gibt beide Parametrisierungsformen des Rasch-Modells und die Transformationsvorschrift wieder.11 Transformation Bv ⁄ Dv P = ------------------------1 + Bv ⁄ Dv β –δ βv = ln Bv e v i P = ----------------------β –δ 1+e v i δi = ln Di β –δ e v i P ( a vi = 1 ) = ----------------------β –δ 1+e v i 1 P ( a vi = 0 ) = ----------------------β –δ 1+e v i B v, β v Personenparameter Di, δi Itemparameter avi Reaktion der Person v auf Item i (0 = Ablehung, 1 = Zustimmung) Abbildung 32: Parametrisierungsformen des Rasch-Modells (vgl. Rasch, 1980, S.187; Fischer, 1974, S.432) Die logarithmisch transformierten Parameter βv und δi sind - wie die ursprünglichen Parameter Bv und Di - auf der gleichen Skala. Die neue Parametrisierung ist nun jedoch gegenüber additiven Transformationen invariant. Wird zu allen Parametern eine additive Konstante hinzugezählt, so verändert dies die Differenz zweier Parameter nicht. Insofern sind die Modellparameter (zumindest) intervallskaliert. Im Unterschied zur Intervallskala, sind die Parameter allerdings gegenüber einer multiplikativen Transformation nicht invariant. Beispielsweise ist die Differenz von (3 - 1) nicht ident mit der Differenz von (62). Das Skalenniveau ist daher höher als jenes der Intervallskala (welche gegenüber jeder Art von Lineartransformation invariant ist), aber geringer als jenes einer Absolutskala (welche gegenüber keinerlei Transformation invariant ist) und wird als Differenzenskala bezeichnet (vgl. Rost, 1988, S.106f). Für die Skala der Modellparameter ist daher der Ur- 10.Dabei wird der natürliche Logarithmus zur Basis der Eulerschen Zahl e angewandt. 11.Wird für die Modelldarstellung durch die Parameter Bv und Di die multiplikative Form gewählt (vgl. Fußnote 9. auf Seite 142), so führt die logarithmische Transformation zu einer Summe (statt einer Differenz) im Exponenten von e. 143 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) sprung zu definieren. Üblicherweise wird dies dadurch vorgenommen, daß der Mittelwert der Itemparameter gleich 0 gesetzt wird (Rost, 1988, S.108). 7.3.2 Eigenschaften des Rasch-Modells Graphische Darstellung des Modells Ehe die besonderen Eigenschaften des Rasch-Modells dargestellt werden, erfolgt zunächst die graphische Repräsentation des Modells. Da die Reaktion avi auf ein Item i durch die Person v lediglich vom Personen- und vom Itemparameter abhängt und letztere auf einer gemeinsamen Skala abbildbar sind, läßt sich die Wahrscheinlichkeit einer positiven Antwort gemäß der logarithmischen Parametrisierung des Rasch-Modells (vgl. Abbildung 32) durch eine Kurve abbilden, welche die Zustimmungswahrscheinlichkeit zu einem bestimmten Item i mit dem Itemparameter δi in Abhängigkeit vom Personenparameter βv angibt. Diese Kurve wird als Itemcharakteristik (item characteristic curve ICC12) oder Itemresponsefunktion (item response function IRF) bezeichnet (Rost, 1988, S.107f; van der Linden und Hambleton, 1997, S.5). Abbildung 33 stellt die Itemcharakteristik für ein Item mit δi=0 dar. Die durchgezogene Linie gibt die Wahrscheinlichkeit einer positiven Antwort an, die strichlierte Linie jene einer negativen Antwort. Da sich die Wahrscheinlichkeit einer negativen Antwort im Fall eines dichotomen Items aus der Wahrscheinlichkeit einer positiven Antwort eindeutig ergibt und somit redundant ist, wird die strichlierte Linie im allgemeinen nicht dargestellt. 12.Diese Bezeichnung findet sich bereits bei Lord (1952, S.7). Die Beziehung von „ability“ und „probability of a correct answer“ basiert dabei jedoch auf dem, mathematisch äußerst komplizierten weil auf Integrationen beruhenden, Normal-Ogive-Modell. Dieses Modell kann als Grundlage oder Vorläufer späterer logistischer Testmodelle gesehen werden. 144 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) P(avi=x | δi, βv ) 1 ICC P(avi=0 | δi=0, βv ) ICC P(avi=1 | δi=0, βv ) 0.5 0 -4 -3 -2 -1 δi = 0 1 2 3 4 δi, βv Abbildung 33: Itemcharakteristikkurve(n) ICC für ein Item mit δi = 0 Für δi = βv (im Beispiel bei βv = 0) ist die Zustimmungswahrscheinlichkeit ebenso wie die Ablehnungswahrscheinlichkeit gleich ½. Für βv < 0 ist die Ablehnung des Items die wahrscheinlichere Alternative, für βv > 0 ist die Zustimmung wahrscheinlicher. Der Parameterwert δi kann daher auch als Schwelle (Threshold) verstanden werden, an welcher die wahrscheinlichste Antwortalternative wechselt. Diese Interpretation ist vor allem für die Verallgemeinerung des Modell auf mehrkategorielle Items von Bedeutung. Aus der Gleichung des Rasch-Modells folgt unmittelbar, daß die ICCs für verschiedene modellkonforme Items parallel sind, sich also nicht überschneiden (vgl. Fischer, 1974, S.199). Inhaltlich bedeutet dies, daß alle Items gleich gut diskriminieren (allerdings in unterschiedlichen Bereichen der zugrundeliegenden latenten Dimension). Gleiche Diskrimination ist also keine zusätzlich getroffene Annahme, sondern ableitbare Konsequenz des Modells. Diese Konsequenz mag aus Sicht des in der klassischen Testtheorie verhafteten Denkens äußerst stringent und unrealistisch erscheinen. Allerdings ist zu bedenken, daß auch in der klassischen Testtheorie so zentrale Kennwerte wie die Reliabilität streng genommen nur dann bestimmbar sind, wenn alle Items bzw. Testteile parallele Messungen darstellen, was gleiche Itemdiskrimination impliziert. 145 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Voraussetzungen und Konsequenzen des Rasch-Modells Das Rasch-Modell sieht, wie gezeigt wurde, eine Trennung von Beobachtungen (Itemreaktionen) und latenter Dimension vor. Beobachtungen stellen keine Messungen, aber Indikatoren der latenten Dimension dar. Die Beziehung von Beobachtungen und latenter Dimension wird probabilistisch modelliert. Kovariationen zwischen Beobachtungen werden „als Resultat ihrer Abhängigkeit von einer gemeinsamen latenten Variable angesehen, nicht als direkte Abhängigkeit zwischen den Verhaltensweisen“ (Beobachtungen) selbst (Fischer, 1974, S.149) erklärt. Dies bedeutet, daß - für eine gegebene und fixierte Position einer Person auf der latenten Dimension - die Itemantworten untereinander unkorreliert sein müssen, da jeglicher Zusammenhang zwischen diesen auf die - nun konstant gehaltene - latente Variable zurückzuführen ist. Dies wird als Prinzip der lokalen (weil auf eine fixierte Position am latenten Kontinuum bezogenen) stochastischen Unabhängigkeit13 bezeichnet (Fischer, 1974). Die Wahrscheinlichkeit, einem bestimmten Item zuzustimmen, ist somit im Modell von Rasch unabhängig von den Antworten auf sonstige Items des Meßinstruments. Diese Modellvoraussetzung kann empirisch überprüft werden (vgl. Fischer, 1974, S.214f). Items deren Beantwortung die positive Beantwortung anderer Items voraussetzt, wie dies z.B. bei Leistungskontrollen mit aufeinander aufbauenden Problemstellungen der Fall ist, sind demnach nicht modellkonform. Enthält die Lösung eines Items hilfreiche Hinweise auf die Lösung eines anderen, so stellt dies ebenfalls eine Verletzung der lokalen stochastischen Unabhängigkeit dar (vgl. Hambleton et al., 1991, S.10). Auch das Streben einer Person nach Konsistenz in einem Einstellungsmeßinstrument kann zu einer Modellverletzung führen. Eine weitere wichtige Voraussetzung des Rasch-Modells ist die Eindimensionalität der Items. Eindimensionalität führt stets zu lokaler stochastischer Unabhängigkeit. Hambleton et al. (1991, S.12) weisen daraufhin, daß die Umkehrung nicht notwendigerweise gilt. Ist z.B. zur Lösung einer Mathematikaufgabe eine bestimmte Lesefähigkeit erforderlich, so mißt der Test zwei Dimensionen: mathematisches Verständnis und Lesefähigkeit. Unterscheiden sich die Personen hinsichtlich der Lesefähigkeit allerdings nicht, so hat diese Konstante keinen Einfluß auf das Testergebnis und die lokale stochastische Unabhängigkeit hält. Eindimensionalität und lokale stocha13.Statt lokaler stochastischer Unabhängigkeit wird auch bedingte stochastische Unabhängigkeit gebraucht (so z.B. bei Steyer und Eid, 1993). Die Bedingung zielt auf den fixierten Personenparameter ab. 146 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) stische Unabhängigkeit sind somit Voraussetztungen für das Modell. Ihre Verletzung führt dazu, daß sich das Modell als nicht haltbar erweist. Eine weitere Voraussetzung des Modells ist die Tragfähigkeit der Hypothese, daß mit zunehmenden Werten des Personenparameters die Wahrscheinlichkeit einer positiven Antwort streng monoton zunimmt. Vor allem in der Einstellungsmessung ist denkbar, daß bei stark positiver Einstellung wie auch bei stark negativer Einstellung ein Item abgelehnt wird, wenn auch aus konträren Motiven. So könnte z.B. in einem Meßinstrument zum Umweltbewußtsein die Frage „Sollen phosphathaltige Waschmittel innerhalb eines Jahres verboten werden?“ von wenig umweltbewußten Personen verneint werden, weil ein solches Verbot als nicht notwendig erachtet wird. Besonders umweltbewußte Personen könnten diese Frage aber ebenso verneinen, weil diese für ein sofortiges Verbot eintreten. Die Itemcharakteristikkurve ist in diesem Fall nicht kumulativ, sondern hat ein Maximum. Spezielle Unfoldingmodelle werden diesen Bedingungen gerecht (vgl. z.B. Andrich, 1997). Ein aus der Modellformulierung folgender höchst bedeutsamer Aspekt ist die Eigenschaft des Rohscores (als einfache Summe der positiv beantworteten Items) als erschöpfende Statistik14 bezüglich des Personenparameters (vgl. die Ableitung für den allgemeinen Fall dichotomer Items bei Fischer, 1974, S.195ff und die Beweisführung bei Fischer, 1995a). Dies bedeutet, daß bei gegebenem Rohscore das diesem Score zugrundeliegende Antwortmuster (welche Items positiv beantwortet wurden) keinerlei weitere Information über die Person enthält, sondern der Rohscore die gesamte verfügbare Information ausdrückt15. Auf die Reproduktion des allgemeinen Beweises wird hier verzichtet. Statt dessen soll ein einfaches, leicht verallgemeinerbares Beispiel zweier Items demonstrieren, 14.Die Bezeichnung „erschöpfende Statistik“ geht auf Ronald Fisher zurück (Rasch, 1980, S21.) 15.Intuitiv mag es unfair erscheinen, alle Items unabhängig von ihrer Schwierigkeit gleich zu gewichten und eine einfache Summe als Rohscore zu bilden. Allerdings müßte bei stärkerer Gewichtung der richtigen Antwort auf ein „schweres“ Item konsequenterweise auch eine falsche Antwort bei einem „leichten“ Item zu einem stärkeren Penalty führen als eine falsche Antwort bei einem schweren Item. Tatsächlich ist die Gewichtung keine Funktion der Itemschwierigkeit, sondern lediglich der Itemdiskriminanzen. Letztere sind im Modell von Rasch jedoch stets gleich. Daher führt die positive Beantwortung eines leichten Items und die gleichzeitige negative Beantwortung eines schweren Items zum gleichen Rohscore von 1 wie die negative Beantwortung eines leichten Items bei gleichzeitiger positiver Beantwortung eines schweren Items. Das gehäufte Auftreten von Antwortmustern, die dem letzteren entsprechen, würde freilich die Gültigkeit des Modells und die Qualität der Itemparameterschätzungen in Frage stellen. 147 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) daß das Antwortmuster lediglich von den Itemparametern abhängt und daher über die Personenparameter keine Information enthält (vgl. Abbildung 34). Gegeben seien zwei Items mit den Itemparametern δ1 und δ2. Die Wahrscheinlichkeiten der Ablehnung und Zustimmung sind daher: 1 P ( a v1 = 0) = -----------------------Ablehnung bei Item 1: β –δ 1+e v 1 β –δ e v 1 P ( a v1 = 1) = -----------------------Zustimmung bei Item 1: β –δ 1+e v 1 Ablehnung bei Item 2: 1 P ( a v2 = 0) = -----------------------β –δ 1+e v 2 β –δ e v 2 P ( a v2 = 1) = -----------------------Zustimmung bei Item 2: β –δ 1+e v 2 Ein Rohscore von 1 kann durch die Antwortmuster 1 0 und 01 zustandekommen. Die Wahrscheinlichkeiten dieser beiden Antwortmuster ergeben sich aufgrund der lokalen stochastischen Unabhängigkeit als Produkt der entsprechenden Wahrscheinlichkeiten auf Itemebene. Zur Vereinfachung wird der Nenner wie folgt ersetzt: γ vi = 1 + e Vereinfachung der Darstellung: Antwortmuster 1 0: P ( ( a v1 = 1 ) ∧ ( a v2 βv – δi β –δ e v 1 1 = 0 ) ) = --------------- ⋅ ------γv1 γ v2 β –δ 1 e v 2 Antwortmuster 1 0: -----P ( ( a v1 = 0 ) ∧ ( a v2 = 1 ) ) = - ⋅ --------------γ v1 γ v2 Für die Wahrscheinlichkeit des Antwortmusters 1 0 unter der Bedingung eines Rohscores von 1 ergibt sich somit: P ( ( a v1 = 1 ) ∧ ( a v2 = 0 ) [ ( a v1 = 1 ) ∧ ( a v2 = 0 ) ] ∨ [ ( a v1 = 0 ) ∧ ( a v2 = 1 ) ]) = 1 - βv – δ1 ------------⋅e βv – δ1 βv – δ1 –δ1 γ v1 γv2 e e e ⋅ e = --------------------------------------------------------------------------- = ------------------------------------ = ----------------------------------------- = -----------------------1 - β v – δ 2 e β v – δ 1 + e β v – δ 2 e β v ⋅ ( e – δ 1 + e –δ 2 ) e –δ 1 + e – δ2 1 - βv – δ1 ------------------------⋅e + ⋅e γ v1 γ v2 γ v1 γ v2 Abbildung 34: Unabhängigkeit der Wahrscheinlichkeit eines bestimmten Antwortmusters bei gegebenem Rohscore für zwei dichotome Items (Andrich, 1998, S.68ff; Fischer, 1974, S.214f). Die Wahrscheinlichkeit eines Antwortmusters unter der Bedingung eines fixierten Rohscores hängt somit nur von den entsprechenden Itemparametern ab und ist von den Personenparametern unabhängig. Folglich enthält das spezifische Antwortmuster keiner- 148 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) lei Informationen zur Person. Der Rohscore hat sich damit als erschöpfende Statistik erwiesen. Die Bedeutung dieser Modelleigenschaft ist fundamental. Der Vergleich zweier Items ist unabhängig von den Personen, welche diese Items beantwortet haben. Gleichermaßen gilt, daß der Vergleich zweier Personen unabhängig von den eingesetzten Items ist. Die Item- und Personenparameter sind somit separierbar. Die Bestimmung der Itemparameter erfolgt daher - zumindest theoretisch16 - unabhängig von der konkreten Stichprobe und auch unabhängig von der Population (Fischer, 1974, S.218ff). In jeder Subpopulation (z.B. Männer und Frauen) muß der Vergleich von Items zum selben Ergebnis führen. Ist dies nicht der Fall, so ist das Modell subpopulationsübergreifend nicht haltbar und Vergleiche zwischen Personen aus unterschiedlichen Subpopulationen sind nicht möglich. Im Unterschied zur klassischen Testtheorie, erfordert das Rasch-Modell keine normalverteilte Referenzpopulation, und - bei Gültigkeit des Modells - sind Vergleiche von Personen unabhängig von der Tatsache welche Personen sonst noch in der Stichprobe oder Population vertreten sind. Auch die konkrete Auswahl von Items aus einem Pool modellkonformer Items ist dabei ohne Belang, insbesondere müssen die ausgewählten Items bei den verglichenen Personen nicht ident sein. Rasch hat für diese Modelleigenschaften den Begriff der spezifischen Objektivität geprägt (Fischer, 1974, S.407; ausführliche Darstellung bei Fischer, 1989). Die Besonderheit des Rasch-Modells liegt darin, daß „[e]s nicht nur ein Modell [ist], das die Eigenschaft der spezifischen Objektivität besitzt, sondern auch das einzige Modell mit dieser Eigenschaft“ (Fischer, 1974, S.407; Hervorhebung im Original). Der Informationsbegriff Aus der Darstellung der ICC in Abbildung 33 auf Seite 145 geht unmittelbar hervor, daß die Antwort einer Person im Punkt δi = βv mit maximaler Unsicherheit verbunden ist. Die 16.In der Praxis beruhen Schätzungen der Parameter selbstverständlich auf bestimmten Stichproben, deren unterschiedliche Zusammensetztungen zu unterschiedlichen Schätzfehlern führen können. Die zuverlässige Schätzung der Modellparameter ist z.B. dann nicht möglich, wenn der Bereich der Personenparameter stark vom Bereich der Itemparameter abweicht, also z.B. nur zu leichte oder zu schwere Items zur Verfügung stehen. Dies hängt unmittelbar mit dem noch einzuführenden Informationsbegriff und der daraus resultierenden Abschätzung des Meßfehlers zusammen. 149 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Antwort ist in keiner Weise vorhersagbar. Mit zunehmender Differenz von βv und δi läßt sich die Antwort jedoch immer besser vorhersagen. Bei einer positiven Differenz von 3 Skaleneinheiten erfolgt mit 95%iger Wahrscheinlichkeit eine Zustimmung, bei einer entsprechenden negativen Differenz mit derselben Wahrscheinlichkeit eine Ablehnung. Die durch die Beobachtung der Itemreaktion gewonnene Information ist daher im Falle δi = βv am größten und nimmt mit zunehmender Differenz von βv und δi ab. Formal ist die Iteminformation durch das Produkt der Wahrscheinlichkeit einer Zustimmung und der Wahrscheinlichkeit einer Ablehnung definiert (vgl. Abbildung 35). Bei einer jeweils 50%igen Wahrscheinlichkeit ist die Iteminformation mit 0.5 ⋅ 0.5 = 0.25 maximal. β –δ e v 1 1 I i = ------------------------ ⋅ -----------------------β –δ β –δ 1+e v 1 1+e v 1 P(avi=x | δi, βv ) 1 ICC 0.5 I 0 -4 -3 -2 -1 δi = 0 1 2 3 4 δi, βv Abbildung 35: Iteminformationsfunktion I als Produkt der Zustimmungswahrscheinlichkeit und Ablehnungswahrscheinlichkeit (vgl. dazu Fischer, 1974, S.295). Die Information aus mehreren Items wird additiv zur Testinformation verknüpft. Die Information zweier Items ist also die Summe der Information jedes Items (Fischer, 1974, S.296). Daraus folgt, daß die Vorgabe zweier Items, deren - im Falle eines Einstellungsmeßinstruments - Aufforderungscharakter sich stark von der Einstellung der Person unterscheidet, weniger Information liefert als der Einsatz von zwei Items, welche mit der Einstellung der Person annähernd übereinstimmen. 150 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Aus der Iteminformationsfunktion bzw. bei Aufsummierung über alle Items aus der Testinformationsfunktion lassen sich Standardschätzfehler ableiten (vgl.Abbildung 36). 1SE = ----I Abbildung 36: Standardschätzfehler S.E. als Funktion der Testinformation I (vgl. dazu Hambleton et al., 1991, S.94) Der Standardschätzfehler ist somit von der Übereinstimmung des Personenparameters und der Itemparameter abhängig. Im Grenzbereich eines Meßinstruments werden die mittleren Differenzen von βv und δi groß und die Testinformation entsprechend gering. Letzteres erhöht den Standardschätzfehler. Konfidenzintervalle für Personenparameter sind daher im Mittelbereich aufgrund der größeren zur Verfügung stehenden Information kleiner als in den Extrembereichen. Inhaltlich ist dies äußerst plausibel, da die Genauigkeit eines Meßinstruments im Mittelbereich als maximal angenommen werden kann. Darüber hinaus hängt die Breite des Konfidenzintervalls für den Parameter einer Person nur von den entsprechenden Items ab. In der klassischen Testtheorie sind Konfidenzintervalle für den True Score unabhängig vom Niveau stets gleich groß und hängen von der - populationsabhängigen - Reliabilität ab. Für die Schätzungen der Itemparameter gelten analoge Zusammenhänge (vgl. dazu Hambleton et al., 1991, S.44f). Je weniger Personen im Bereich eines Items liegen, desto unzuverlässiger wird die Schätzung des Itemparameters. Daher kann bzw. soll die Auswahl einer Stichprobe zur Schätzung der Itemparameter - trotz grundsätzlicher Stichprobenunabhängigkeit - nicht willkürlich erfolgen.17 7.3.3 Parameterschätzungen Für die Schätzung der Modellparameter stehen eine Reihe von Verfahren zur Verfügung, deren Beschreibung im Detail zu weit führen würde. Einen Überblick bieten z.B. Molenaar (1995b), Fischer (1974, S.230ff) und Hambleton et al. (1991, S.32ff). Die Auswahl eines geeigneten Schätzalgorithmus ist zudem jenseits des Einflusses der angewandten Forschung und in erster Linie ein Problem für die Entwicklung von Softwareprodukten. 17.Vgl. dazu die kritischen Anmerkungen zum Rasch-Modell durch Grubitzsch und Rexilius (1978, S.71f). 151 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Dennoch sollen einige Schätzverfahren zumindest erwähnt werden. Einige Methoden bauen auf Likelihoodkonzepten auf, d.h. die Parameter werden so gewählt, daß den Daten maximale Wahrscheinlichkeit zukommt. Die unbedingte Maximum Likelihood Methode (unconditional oder joint log-likelihood) schätzt Item- und Personenparameter simultan, wodurch die Separierbarkeit der Parameter verloren geht. Obendrein sind die Schätzwerte für eine fixierte Zahl an Items nicht biasfrei. Bei geringen Itemzahlen ist das Verfahren äußerst problematisch und theoretisch jedenfalls unbefriedigend (Fischer, 1974, S.258f). Aus diesen Gründen sollte diese Methode vermieden werden. Vor allem ältere Softwareprodukte wenden diesen Algorithmus an (vgl. einen diesbezüglichen Überblick bei Hambleton et al. (1991, S.48ff), der allerdings die derzeit aktuellsten Programme naturgemäß nicht enthält). Die bedingte Maximum-Likelihood-Methode (conditional maximum-likelihood) beruht auf der Bedingung von sogenannten Randsummen der Datenmatrix, also Rohscores der Personen und Itemrohscores. Dieses Verfahren schätzt die Modellparameter für Items und Personen getrennt. Im ersten Schritt werden die Itemparameter geschätzt, deren Schätzfehler aufgrund der geringen Zahl an Items im Vergleich zur Zahl an Personen wesentlich kleiner ist als jener der Personenparameter. Letztere werden geschätzt, nachdem die Itemparameter als bekannt vorausgesetzt werden. Besonders zu betonen ist, daß Schätzformeln der Itemparameter unabhängig von Personenparametern sind, womit das Prinzip der spezifischen Objektivität erhalten bleibt (Fischer, 1974, S.233). WINMIRA (von Davier, 1996) wendet dieses Verfahren an. Analog zur bedingten Maximum-Likelihood schätzt auch das Marginal Maximum-Likelihood Verfahren (Thissen, 1982) zuerst die Itemparameter und dann die Personenparameter. Diese Methode ist auch auf Verallgemeinerungen des Rasch-Modells anwendbar. Eine praktische Umsetzung findet sich bei MULTILOG (Thissen, 1991). Eine auf paarweisen Vergleichen von Items beruhende Methode liegt RUMM (Sheridan et al.,1997) zugrunde (vgl. zur paarweisen Schätzung Zwinderman, 1995). 152 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) 7.3.4 Limitierungen des Rasch-Modells Dem vorgestellten Rasch-Modell liegen einige grundlegende Einschränkungen bezüglich der zu analysierenden Daten zugrunde, welchen den praktischen Einsatz limitieren: • Einschränkung auf dichotome Items • Hypothese der gleichen Diskriminanz aller Items als Konsequenz des Modells • Hypothese der Eindimensionalität Die Einschränkung auf dichotome Items begrenzt die Anwendbarkeit des Modells stark. Vor allem in der Einstellungsforschung sind mehrkategorielle Antwortskalen die Regel und dichotome Kategorien die Ausnahme. Die Verallgemeinerung des Rasch-Modells für mehrkategorielle Antwortformate (polytome Daten) ist daher von hohem Interesse. Der zweite Aspekt, welcher als Einschränkung verstanden werden kann, betrifft die gleiche Diskriminanz aller Items. Diese Eigenschaft des Rasch-Modells verhindert zwar nicht die Anwendung des Modells auf unterschiedlich diskriminierende Items (wie im Falle des dichotomen Modells bei polytomen Daten), die Übereinstimmung des Modells mit Daten und dementsprechend die Gültigkeit des Modells wird dadurch aber herabgesetzt bzw. besteht nicht. Gleiches gilt für Items, deren Beantwortung durch mehr als eine latente Dimension beeinflußt wird. Verallgemeinerungen des Rasch-Modells in bezug auf unterschiedlich diskriminierende Items, sowie mehrdimensionale Modelle, stellen allerdings eine qualitativ andere Richtung der Generalisierung des Modells im Vergleich zu polytomen Modellen dar. Da die Hypothese gleicher Itemdiskriminanz im Rahmen des Rasch-Modells keine Zusatzannahme ist, welche ohne weiteres aufgegeben werden könnte, sondern notwendig aus der Grundgleichung folgt, muß dementsprechend die Grundformel geändert werden. Damit verändern sich aber der Charakter des Modells und seine Eigenschaften fundamental. Dennoch soll auf diesbezügliche Verallgemeinerungen eingegangen werden, da diesen praktische Relevanz zukommt. Schließlich mag die Hypothese gleicher Itemdiskriminanz „realitätsfern“ anmuten. Freilich muß abermals daran erinnert werden, daß die klassische Testtheorie zur Bestimmbarkeit der Reliabilität sehr rigider Annahmen zur Parallelität von Messungen bedarf, welche unter anderem in gleicher Itemdiskriminanz bestehen. Gleiches gilt für die gleichgewichtete Summe der Items als Gesamtscore. Diese Vorgangsweise setzt ebenfalls gleiche Itemdiskriminanz voraus. 153 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) 7.3.5 Verallgemeinerung des Rasch-Modells auf polytome Daten Wennimmer das Antwortformat eines Items mehr als zwei Kategorien umfaßt, ist das dichotome Rasch-Modell nicht anwendbar. Von der Möglichkeit, Kategorien zusammenzufassen, also eine Dichotomisierung der Daten vorzunehmen, soll vorerst noch abgesehen werden. Bei mehr als zwei Kategorien können diese sowohl geordnet als auch ungeordnet sein. Ungeordnete Kategorien liegen dann vor, wenn, zum Beispiel, in einem Multiple choice Verfahren eine Antwort richtig ist, die anderen aber falsch sind, ohne eine Wertigkeit der falschen Antwortkategorien anzunehmen. Folglich handelt es sich hinsichtlich der falschen Antwortalternativen um eine Nominalskala. Die Entwicklung von Modellen für nominal skalierte Items zielt darauf ab, zusätzlich zur „richtig-versus-falsch-Information“ für den Fall einer falschen Antwort aus der Wahl einer bestimmten falschen Kategorie Information zu gewinnen (Hambleton et al., 1991, S.26). Modelle dieser Art gehen auf die Arbeiten von Bock (1972, 1997) zurück (Nominal Response bzw. Nominal Categories Model). Für Marketinganwendungen relevanter sind allerdings Modelle für Antwortskalen, welche eine Ordnung der Kategorien annehmen. Jede Rating- oder Likert-Skala geht davon aus, daß die einzelnen Antwortalternativen (z.B. lehne stark ab - lehne eher ab - stimme eher zu - stimme volle zu) geordnet sind. Die Alternative „lehne eher ab“ steht für eine stärker positive Einstellung als die Alternative „lehne stark ab“, aber für eine stärker negative Einstellung als „stimme eher“ zu. Dieser trivial anmutende Sachverhalt verdient allerdings besondere Reflexion. Im Rahmen der klassischen Testtheorie wird nicht nur regelmäßig angenommen, daß die Antwortkategorien geordnet sind (also Ordinalskaleneigenschaft aufweisen), sondern darüber hinaus auch, daß die Distanzen zwischen den Kategorien gleich sein, somit Intervallskalenniveau gegeben ist. Dies ist zumindest dann zweifelhaft, wenn das Antwortformat mehr als etwa fünf Alternativen vorsieht und die Personen überfordern könnte. Für die Verallgemeinerung des Rasch-Modells wird lediglich davon ausgegangen, daß die Antwortkategorien eine Ordinalskala darstellen. Die Anforderung an die Daten ist daher wesentlich geringer und in aller Regel realistischer. Ein weiterer fundamentaler Unterschied betrifft die Qualität der Aussage, derzufolge die Kategorien geordnet sind. In der klassischen Testtheorie handelt es sich um eine unverzichtbare Voraussetzung, welche aber nicht überprüft wird. Im Rasch-Modell hingegen stellt diese Aussage eine Meßhypothese dar, deren Gültigkeit überprüfbar ist. 154 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Die Entwicklung von Modellen für polytome Daten geht auf Andrich (1978a, 1978b, 1988b), Andrich et al. (1997), Masters (1982) und Masters und Wright (1997) zurück. Andrich (1978a) leitete das sogenannte Rating-Scale Modell ab, welches eine Verallgemeinerung des Rasch-Modells für Rating-Skalen darstellt. Dabei wird angenommen, daß die Abstände18 zwischen jeweils zwei Antwortkategorien bei allen Items gleich sind. Dieses Rational ergibt sich aus der einheitlichen Verbalisierung der Antwortalternativen. Innerhalb der Items können die Distanzen aber variieren. Masters (1982) verallgemeinerte im Partial-Credit Modell19 Andrichs Rating-Scale Modell, indem die Abstände zwischen den Kategorien itemspezifisch modelliert werden. Das Rating-Scale Modell ist demnach ein Spezialfall des Partial-Credit Modells20. Aus diesem Grund wird im folgenden nicht auf diese Unterscheidung eingegangen, sondern die exemplarische Ableitung des allgemeinen Rasch-Modells (Andrich, 1988b) für polytome Daten behandelt, um die entsprechenden Begriffe und Parameter einzuführen. Andrich bezeichnet dieses Modell als „Rasch’s extended logistic model for partial credit scoring“ (ELM). Gegenüber Masters Partial-Credit Modell erlaubt dieses Modell auch die Kombination von Items mit verschiedener Zahl an Kategorien (also auch dichotome und polytome Items) in einem Meßinstrument. Eine ausführliche Ableitung des polytomen Rasch-Modells und eine formale Beweisführung findet sich bei Fischer (1995b). Im dichotomen Modell von Rasch werden zwei Antwortalternativen (als 0 und 1 kodiert) modelliert. Die Wahrscheinlichkeit einer positiven Antwort läßt sich in Form der ICC darstellen (Abbildung 33 auf Seite 145). Die Wahrscheinlichkeit einer negativen Antwort ist dazu komplementär und damit redundant. Die Schwelle zwischen negativer und positiver Antwort als wahrscheinlichste Alternative kann als „Threshold“ bezeichnet werden und ist im dichotomen Fall ident mit dem Itemparameter, welcher - abhängig vom Anwendungsgebiet - die Schwierigkeit bzw. den Aufforderungscharakter des Items wiedergibt. 18.Was genau unter „Abstand“ in diesem Zusammenhang zu verstehen ist, ergibt sich aus den nachfolgenden Darstellungen (vgl. Fußnote 22. auf Seite 156). 19.Die Bezeichnung Partial Credit leitet sich daraus ab, daß - im Unterschied zur dichotomen Kategorisierung des „alles oder nichts“ - für teilrichtige Antworten ein partial credit vergeben wird. 20.Die Interpretation von Masters (1982, S.155), wonach die Person die Beantwortung in Form von „steps“ von einer Kategorie zur nächsten vornimmt, wird von Andrich nicht geteilt. Letzterer geht - wohl vor dem Hintergrund der Leistungstestung - davon aus, daß die Beantwortung in Form eines alle Kategorien simultan einbeziehenden Prozesses erfolgt. Vor allem in der Einstellungsmessung erscheint diese Interpretation plausibler. Es ist nicht anzunehmen, daß eine Person vorerst ein Statement voll ablehnt, um sich dann Gedanken darüber zu machen, ob der nächste „step“ zur nächsthöheren Kategorie erfolgt oder nicht. 155 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Im einfachsten Fall eines polytomen Items stehen drei Antwortkategorien (0, 1 und 221) zur Auswahl (trichotomes Item). Daher ist eine ICC zur Charakterisierung eines Items nicht ausreichend. Statt dessen wird das Item durch sogenannte Categorie Characteristic Curves (CCC) beschrieben (von Davier und Rost, 1995, S.372). Jede CCC beschreibt die Wahrscheinlichkeitsfunktion für eine Antwortalternative. Bei m Antwortalternativen werden daher m CCCs dargestellt, wobei nur m-1 CCCs voneinander unabhängig sind (analog zum dichotomen Fall). Die Schwellen zwischen den einzelnen CCCs werden wieder als Thresholds bezeichnet. Im Falle eines trichotomen Items gilt es daher, zwei Thresholds zu modellieren (vgl. Abbildung 37).22 P(avi=x | τ1,τ2, βv ) 1 0 2 1 0.5 0 -4 -2 τ1 0 τ2 2 4 τi, βv Abbildung 37: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item Für Personenparameter bis zur ersten Threshold τ1 ist die Antwortkategorie 0 am wahrscheinlichsten. Für höhere Werte ist zunächst Antwort 1 am wahrscheinlichsten, für Werte ab der zweiten Threshold τ2 ist die Wahl der Antwort 2 zu erwarten. Diese Abfolge der Antwortkategorien ist äquivalent mit der Ordnungshypothese, wonach die Antwort 2 für mehr des untersuchten latenten Konstrukts steht als Antwort 1, welche wiederum für mehr steht als Antwort 0. 21.Die Kodierung in dieser Form dient nicht nur dazu, den Erfordernissen von Softwareprodukten genüge zu tun, sondern ist, wie noch zu zeigen ist, zwingend erforderlich. 22.Die Distanz zweier Thresholds kann daher als „Abstand“ zwischen zwei Kategorien interpretiert werden (vgl. Fußnote 18. auf Seite 155). 156 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Da jede Threshold lediglich zwischen zwei aufeinanderfolgenden Kategorien differenziert, läßt sich das dichotome Rasch-Modell auf jede einzelne Threshold anwenden. Für ein trichotomes Item ergeben sich daher hypothetisch folgende Antwortmuster (vgl. Abbildung 38, die Nenner der Wahrscheinlichkeitsausdrücke werden durch eine Transformation vereinfacht): Dichotome Ursprüngliches Antwortmuster Antwortformat τ1 τ2 0 0 0 1 0 1 Wahrscheinlichkeit 1 1 1 ------------------------ ⋅ ------------------------ = ---------βv – τ2 β –τ γ 1 γ2 1+e v 1 1+e βv – τ1 β –τ 1 e e v -1 ----------------------- ⋅ ----------------------= -------------β –τ β –τ γ 1 γ2 1+e v 1 1+e v 2 β –τ 0 1 1 1 unmöglich 2 β –τ e v 2 1 e v 2 ------------------------ ⋅ ------------------------ = --------------β –τ β –τ γ1 γ2 1+e v 1 1+e v 2 βv – τ1 βv – τ2 2β v – τ 1 – τ 2 e e e ------------------------ ⋅ ------------------------ = ------------------------β –τ β –τ γ1 γ2 1+e v 1 1+e v 2 Abbildung 38: Anwendung des dichotomen Rasch-Modells auf ein polytomes Antwortformat (I) Das erste Muster bedeutet, daß keine der Thresholds überwunden wird. Im Sinne der ursprünglichen Skala steht dies für die Antwort 0. Beim zweiten Muster wird τ1 überschritten, nicht jedoch τ2. Dies entspricht der Kategorie 1. Das dritte Muster impliziert ein Überschreiten von τ2 , nicht aber von τ1. Im Falle zweier dichotomer Items stünde dieses Muster für die Möglichkeit, ein schweres Item positiv zu beantworten, ein leichtes aber negativ. Im Falle eines trichotomen Items ist dies jedoch nicht möglich, da es nur drei Antwortkategorien gibt. Das vierte Muster schließlich steht für Antwort 2, da beide Thresholds überwunden werden. Die Antwortwahrscheinlichkeiten für die vier theoretisch ableitbaren Muster ergeben sich nach dem Modell von Rasch durch die Multiplikation der jeweiligen Wahrscheinlichkeiten auf Thresholdebene, da diese Wahrscheinlichkeiten nach dem Prinzip der lokalen stochastischen Unabhängigkeit voneinander unabhängig und daher multiplikativ zu verknüpfen sind. Das dritte theoretisch 157 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) mögliche Antwortmuster hat sich als praktisch unmöglich erwiesen. Es ist daher aus den weiteren Betrachtungen auszuscheiden. Dadurch ergänzen sich die Wahrscheinlichkeiten der drei praktisch möglichen Antwortmuster aber nicht länger auf 1. Um dieses Problem zu lösen, werden die verbleibenden drei Wahrscheinlichkeitsausdrücke durch die Summe der Wahrscheinlichkeitsausdrücke ersetzt, wodurch sich die drei verbleibenden Wahrscheinlichkeiten notwendigerweise auf 1 ergänzen. Der Zählerausdruck des ersten Antwortmusters wird modifiziert wiedergegeben, um formale Übereinstimmung mit den Wahrscheinlichkeiten anderer Rohscores zu erzielen. Die Summe der einzelnen Wahrscheinlichkeiten wird vereinfacht durch γ dargestellt (vgl. Abbildung 39). Dichotome Antwortmuster τ1 Score Wahrscheinlichkeit 0 e v --------γ 1 e v 1 ----------------γ 2 e ------------------------γ τ2 0β 0 0 1β – τ 1 0 2β v – τ 1 – τ 2 1 1 1β – τ 0β Wobei: 2β – τ – τ e v e v 1 e v 1 2 γ = ---------- + ----------------- + ------------------------γ1 γ2 γ1 γ2 γ1 γ2 γ1 = 1 + e β v – τ1 γ2 = 1 + e β v – τ2 Abbildung 39: Anwendung des dichotomen Rasch-Modells auf ein polytomes Antwortformat (II) Die Thresholdparameter im polytomen Modell sind in der gleichen Metrik skaliert wie die Itemschwierigkeitsparameter im dichotomen Modell. Dies bedeutet allerdings, daß für ein polytomes Item unmittelbar kein „overall-difficulty“-Parameter angegeben werden kann. Die Position des Items ergibt sich aus allen Thresholdparametern simultan. Andrich (1988b, S.364) schlägt daher eine Reparametrisierung des Modells vor. Das arithmetische 158 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Mittel aller Thresholds wird - in Übereinstimmung mit dem dichotomen Modell - mit δi bezeichnet und kann als Kennwert der „overall-difficulty“ interpretiert werden, da dieser Parameter die Lokation des Items auf der latenten Dimension angibt. Die Thresholdparameter geben sodann die Abweichung der Threshold von diesem Schwierigkeitsparameter δi an. Die Zahl der zu schätzenden Parameter erhöht sich dadurch nicht, da als Nebenbedingung die Summe der Thresholds definitionsgemäß gleich 0 sein muß. Die ursprünglichen Thresholds werden als non-centralised Thresholds bezeichnet, die transformierten als centralised Thresholds. Abbildung 40 gibt die Transformationsvorschriften im Detail wieder. τ ij = δ i + τ' ij m ∑j = 1 τ'ij τij τ'ij δi m = 0 Threshold für Item i zwischen Kategorien j und j-1 (non-centralised threshold) Threshold für Item i zwischen Kategorien j und j-1 (centralised threshold) Itemparameter für Item i („overall-difficulty“) Zahl der Antwortkategorien für Item i Abbildung 40: Transformation der non-centralised thresholds in centralised thresholds (Andrich, 1988b, S.364). Somit ergibt sich das in Abbildung 41 dargestellte allgemeine polytome Modell mit centralised Thresholds (Andrich, 1988b, S.366). Die Wahrscheinlichkeit für die Antwortkategorie 0 wird getrennt dargestellt, da sie sich im Rahmen der allgemeinen Notation nicht integrieren läßt, weil die Threshold τi0 nicht existiert. 159 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) 0 + 0 ⋅ (β – δ ) v i P ( a vi = 0 β v ,τ ij ,j = 1…m ) = e------------------------------ = --1ϒ ϒ ∑ – τ ij + x ⋅ ( β v – δ i ) j=1 x P ( a vi = x β v ,τ ij ,j = 1…m ,0 < x ≤ m ) = e---------------------------------------------------ϒ ϒ = 1+∑ m e ∑ k – τij + k ⋅ ( β v – δ i ) j=1 k=1 Abbildung 41: Extended logistic model (ELM), allgemeines polytomes Rasch-Modell (vgl. Andrich, 1988b, S.366). Da das allgemeine polytome Modell auf der Basis des dichotomen Rasch-Modells abgeleitet wurde, hat das allgemeine Modell alle Eigenschaften des dichotomen Modells (Rohscore als erschöpfende Statistik, Separierbarkeit der Parameter, spezifische Objektivität). Daher ist es zulässig, vom polytomen Rasch-Modell zu sprechen. Das dichotome kann auch als Spezialfall des polytomen Modells angesehen werden. Ein zunächst scheinbar unbedeutender, aber wesentlicher Unterschied besteht jedoch. Bei der Ableitung des polytomen Modells durch Anwendung des dichotomen Modells auf die einzelnen Thresholds (vgl. Abbildung 38 auf Seite 157), wurde im Falle eines trichotomen Items der sich theoretisch ergebende, aber praktisch unmögliche Fall ausgeschlossen, daß die zweite Schwelle überschritten wird, die erste jedoch nicht. Allgemein gilt, daß all jene Kombinationen ausgeschlossen werden (müssen), die nicht dem Guttman-Pattern (bezogen auf die Thresholds) entsprechen (vgl. dazu Andrich, 1995a, S.37). Die Elimination von Kombinationen ist also nicht willkürlich, sondern reflektiert die vermutete Ordnung der einzelnen Kategorien. Somit formuliert das polytome Rasch-Modell die (überprüfbare!) Hypothese, daß die Antwortkategorien geordnet sind.23 Wenn das Ergebnis der Parameterschätzung der Darstellung in Abbildung 37 (Seite 156) entspricht, die Thresholdparameter also entsprechend der Hypothese geordnet sind (τi < τj für alle i < j), so bestätigen die Daten die im Modell formulierte Ordnungshypothese. In der Praxis können jedoch die 23.Es sei an dieser Stelle nochmals auf den fundamentalen Unterschied zur klassischen Testtheorie hingewiesen. Während im klassischen Modell die Antwortkategorien äquidistant sein müssen, und die Erfüllung dieser Voraussetzung praktisch nicht zu überprüfen ist, erfordert das Rasch-Modell lediglich eine ordinale Rangordnung und gestattet die empirische Prüfung dieser Hypothese. 160 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Thresholdparameterschätzungen der angenommenen Ordnung widersprechen (Andrich et al., 1997, S.62). Wenn τi < τj für mindestens ein Paar i,j mit i < j nicht erfüllt ist, so sind die Thresholdparameter nicht hypothesenkonform geordnet (sogenannte „reversed Thresholds“, vgl. Abbildung 42). Inhaltlich bedeutet dies: die zweite Threshold ist „leichter“ als die erste und dementsprechend leichter zu überwinden als die erste.24 Die graphische Darstellung von reversed Thresholds zeigt weiters, daß die betroffene Antwortkategorie 1 in keinem Bereich der latenten Dimension die wahrscheinlichste Antwort ist. Vielmehr geht die wahrscheinlichste Antwort direkt von 0 auf 2 über. Für Personen, deren Parameter im Bereich zwischen den beiden Thresholds liegen, müßte theoretisch die Antwortkategorie 1 am wahrscheinlichsten sein. Tatsächlich ist aber sowohl die Kategorie 0 als auch die Kategorie 2 wahrscheinlicher. „Because the very construction of the model requires an ordering of thresholds, it is argued here that whenever the threshold estimates are reversed, it provides evidence that the ordering is not operating as intended.“ (Andrich et al., 1997, S.68). Die Hypothese der Rangordnung ist somit im Fall von reversed Thresholds empirisch falsifiziert. Beachtenswert ist, daß die Überprüfung der Ordnungshypothese durch statistische Fitprüfverfahren, welche auf Vergleichen von theoretisch zu erwartenden Häufigkeiten (welche sich aus den CCCs ergeben) und empirisch festgestellten Häufigkeiten nicht möglich ist, da die Modellparameter die Umkehr der Ordnung reflektieren. 24.Erläuternd sei hinzugefügt, daß die geringere Schwierigkeit der zweiten Threshold unabhängig von der ersten zu sehen ist. Die Interpretation, der „Schritt“ von der Kategorie 1 auf 2 ist leichter als jener von 0 auf 1 (woraus sich nicht ergäbe, daß die Rangordnung der Kategorien falsifiziert wäre) ist daher nicht zutreffend. 161 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) P(avi=x | τ1,τ2, βv ) 1 0 2 0.5 1 0 -4 -2 τ2 τ1 2 4 τi, βv Abbildung 42: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item mit reversed thresholds (vgl. Andrich et al., 1997, S.62). Die Ursachen dafür, daß die Daten die angenommene Ordnung der Kategorien nicht wiederspiegeln, lassen sich nicht modelltheoretisch oder statistisch begründen. So können reversed Thresholds auf Multidimensionalität der Daten, unterschiedliche Diskriminanz der Thresholds, Überforderung der Personen durch zuviele Antwortkategorien, unzureichende oder verwirrende Instruktion der Personen bzw. sonstige in der Administration gelegene Unzulänglichkeiten oder mangelhafte Begründung der hypothetischen Ordnung der Antwortmöglichkeiten zurückzuführen sein (Andrich et al., 1997). Analog zu jeder anderen Form von Misfit zwischen Modell und Daten, sind die Ursachen durch eine fachlichinhaltliche Inspektion der Items zu klären und revidierte Versionen empirisch zu überprüfen. Modelltheoretisch besteht jedoch die Möglichkeit, auch am gleichen Datensatz eine Revision der Ordnungshypothese zu testen. Im Falle des trichotomen Items aus Abbildung 42 ist die Kategorie 1 offensichtlich nicht zwischen 0 und 2 gelegen und daher als Mittelkategorie nicht sinnvoll, weil meßtheoretisch dysfunktional. Durch eine Zusammenlegung der Mittelkategorie mit einer der beiden anderen Antwortmöglichkeiten (in diesem Fall eine Dichotomisierung) kann die Ordnungshypothese revidiert werden und empirisch überprüft werden. Erweist sich das Item als modellkonform, so kann daraus geschlossen werden, daß die Messung eigentlich - trotz trichotomer Skala - dichotom erfolgt und die Meßgenauigkeit der dreistufigen Skala überschätzt wird. Insbesondere in der Einstellungsforschung erscheint angesichts von fünf- oder mehrstufigen Skalen dieser Sach162 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) verhalt höchst relevant. Eine anschließende Kreuzvalidierung an einem neuen Datensatz unter Einsatz einer revidierten Antwortskala ist jedenfalls angezeigt. Die Zusammenlegung von Kategorien im Falle empirischer Meßprobleme bietet sich als Lösungsmöglichkeit an.25 In der Praxis des Messens in der Marketingforschung stellt sich darüber hinaus grundsätzlich die Frage, unter welchen Umständen Daten dichotomisiert werden können. Im Rahmen der klassischen Testtheorie ist aufgrund des Bezugs auf eine normalverteilte Grundgesamtheit eine Kategorienzusammenfassung dann möglich und zulässig, wenn die Meßinstrumente gleiche Meßgenauigkeit aufweisen (Andrich, 1995a, 1995b, 1995c). Werden zwei benachbarte Antwortkategorien zusammengelegt, so ist zu erwarten, daß die Summe der Häufigkeiten der ursprünglichen Kategorien der Häufigkeit der neuen Kategorie entspricht. Andere, von der Zusammenfassung nicht betroffene Kategorien bleiben davon unberührt. Das Rasch-Modell unterscheidet sich diesbezüglich grundlegend. Ein Blick auf die Modellgleichungen zeigt dies unmittelbar. Die Terme der Wahrscheinlichkeiten der einzelnen Antwortkategorien (vgl. den allgemeinen Fall in Abbildung 41 und das Beispiel in Abbildung 39) weisen im Nenner die Summe der Zähler aller Kategoriewahrscheinlichkeiten auf. Jede Veränderung der Kategorienzahl (also auch eine Zusammenlegung zweier oder mehrerer Kategorien) verändert daher auch den Nenner und beeinflußt folglich die Wahrscheinlichkeit jeder anderen Kategorie. Für die Gültigkeit des Modells bedeutet dies, daß Kategorien nicht willkürlich zusammengefaßt werden dürfen (Andrich, 1988b, S.367). Stimmen die Daten mit den ursprünglichen Kategorien und das entsprechende Rasch-Modell überein, so ist es mathematisch nahezu auszuschließen, daß bei einer Kategorienzusammenfassung das neu formulierte Modell ebensogut paßt. Die Zusammenlegung „tempting as it may be, will usually slur the specific objectivity“ (Rasch, 1966, S.107). Das Rasch-Modell impliziert somit, daß die Person bei ihrer Entscheidung, welche Kategorie sie wählt, die gesamte Skala simultan betrachtet, was durchaus plausibel erscheint. Abbildung 43 stellt exemplarisch eine fünfstufige Antwortskala dar, wie sie in der Marketingforschung eingesetzt werden könnte. Die klassische Testtheorie geht davon aus, 25.Roskam (1995, S.31) argumentiert, daß eine Zusammenlegung von Kategorien nur dann zielführend ist, wenn die Kategorien verbal gekennzeichnet sind und eine semantische Beschreibung der Zusammenfassung mehrerer Kategorien möglich ist. Sind die einzelnen Antwortalternativen aber lediglich durch Zahlen beschrieben, so ist eine Zusammenfassung problematisch. 163 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) daß durch die Zusammenfassung von „ausgezeichnet“ und „sehr gut“ die Häufigkeiten in den anderen drei Kategorien unverändert bleiben. Im Rasch-Modell würden sich die er- sc hl ec ht se hr sc hl ec ht sc hl ec ht se hr sc hl ec ht gu t au sg ez ei ch ne t/s eh gu rg t ut au sg ez ei ch ne se t hr gu t warteten Häufigkeiten (Wahrscheinlichkeiten) jedoch ändern. Abbildung 43: Zusammenfassung zweier Kategorien einer fünfstufigen Antwortskala Zusammenfassend ist festzuhalten, daß sich das dichotome Modell von Rasch ohne Verlust seiner besonderen Eigenschaften auf den Anwendungsfall polytomer Daten verallgemeinern läßt. Weiters hat sich gezeigt, daß aus theoretischer Sicht die Zusammenfassung von Kategorien nur dann zulässig ist, wenn die Kategorien nicht hypothesenkonform gerangreiht sind. Bei Gültigkeit des Modells führt jede Zusammenlegung post hoc zu einer Verschlechterung der Modell-Daten-Übereinstimmung. Abschließend sei noch erwähnt, daß das Scoring der Antwortkategorien durch aufeinanderfolgende ganze Zahlen ebenfalls nicht willkürlich ist, sondern sich notwendig ergibt. Rasch selbst hat auf anderem Wege eine Verallgemeinerung seines dichotomen Modells abgeleitet (Abbildung 44, der Nenner ergibt sich durch die Summe aller Zähler). – κ + φ ⋅ (β – δ ) x x v i P { a vi = x β v ,δ i ,( κ ) ,( φ ) } = e------------------------------------ϒ Abbildung 44: Verallgemeinerung des dichotomen Rasch-Modells durch Rasch (Wright, 1980b, S.185) Dieses Modell enthält einen Kategoriekoeffizienten κ welcher mit zunehmender Kategorie ansteigen soll und eine aus den Daten zu schätzende Scoringfunktion φ, jene Werte, mit denen die einzelnen Kategorien in den Score eingehen. Andersen (1977) konnte später 164 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) zeigen, daß die Werte der Scoringfunktion φ äquidistant sein müssen. Andrich (1978b) demonstriert, daß nur ganze Zahlen 0, 1, 2, usw. die Eigenschaften des Rasch-Modells erhalten. Jede andere Scoringfunktion führt zu unterschiedlichen Diskriminanzen an den Thresholds, wodurch die Separierbarkeit der Parameter verloren geht. Andrich (1978a) demonstrierte, daß die Kategoriekoeffizienten κ als Thresholds zwischen zwei aufeinanderfolgende Kategorien interpretierbar sind. Die von Rasch formulierte Forderung, die Kategoriekoeffizienten müßten mit den einzelnen Kategorien ansteigen ist somit äquivalent mit der Forderung Andrichs, wonach die Thresholds entsprechend geordnet sein müssen. 7.3.6 Verallgemeinerungen des Rasch-Modells für dichotome Anwendungen Wie umfassend dargestellt, geht das Rasch-Modell von einer latenten Dimension (Latent Trait) aus, welche das Antwortverhalten bestimmt und auf welcher sowohl Item- als auch Personenparameter skaliert sind. Aus diesem Grund werden Modelle dieser Art auch als Latent Trait Modelle bezeichnet und die dahinterstehende Meßtheorie als Latent Trait Theory (LTT). Formal synonym mit Latent Trait Theory wird auch Item Response Theory (IRT) verwendet (so z.B. bei Hambleton et al., 1991). Wissenschaftstheoretisch ist damit zumeist ein anderer, behavioristischer, Fokus verbunden, nämlich der auf die Itemantwort (Item Response). Der Begriff der Latent Trait Theory akzentuiert demgegenüber stärker die zu messende latente Dimension. Das Rasch-Modell ist in diesem Sinne lediglich ein Latent Trait (oder Item Response) Modell. Da es nur einen Itemparameter spezifiziert, nämlich den Itemschwierigkeitsparameter δ, wird es auch als one-parameter logistic model bezeichnet (Hambleton et al., 1991, S.12). Wie gezeigt wurde, impliziert dies die Uniformität der Itemdiskriminanzen, gleichbedeutend mit der Parallelität aller ICCs. Weiters nähert sich die Wahrscheinlichkeit einer positiven Antwort für Personenparameter gegen - ∞ asymptotisch 0 an, und für Personenparameter gegen ∞ strebt diese gegen 1. Beide Konsequenzen sind bei einer formalen Verallgemeinerung des Rasch-Modells nicht länger zwingend. Birnbaum stellte 1968 ein two-parameter logistic model26 vor (Birnbaum-Modell), welches einen expliziten Itemdiskriminanzparameter aufweist (Abbildung 45). 26.Die Bezeichnung two-parameter logistic model geht darauf zurück, daß jedes Item mit zwei Parametern, dem Schwierigkeits- und dem Diskriminanzparameter, beschrieben wird. Die Skalierungskonstante D ist kein Parameter, sondern fixiert. 165 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Da ( β – δ ) e i v i P = ---------------------------------Da ( β – δ ) 1+e i v i wobei: P D ai δi βv Wahrscheinlichkeit einer positiven Antwort Skalierungskonstante (1.7) Diskriminanzparameter Itemschwierigkeitsparameter Personenparameter Abbildung 45: Two-parameter logistic model (Hambleton et al., 1991, S.14f) Formal stellt dieses Modell eine Verallgemeinerung des Rasch-Modells dar. Für ai=1und Wahl der Skalierungskonstanten D mit 1 geht das two-parameter logistic model in das one-parameter logistic model von Rasch über. Konsequenterweise ist das Rasch-Modell formal ein Spezialfall des Birnbaum-Modells. Dies mag den Eindruck erwecken, die Modelle unterscheiden sich lediglich quantitativ (in der Zahl von Parametern). Tatsächlich führen das Rasch-Modell und das Birnbaum-Modell zu fundamental unterschiedlichen Konsequenzen. Durch die unterschiedliche Diskriminanz der Items schneiden die ICCs des Birnbaum-Modells einander (Abbildung 46). P(avi=x | δi, βv, ai) 1 Item 1 0.5 Item 2 0 -4 -3 -2 -1 δi = 0 1 2 3 4 δi, βv Abbildung 46: ICCs im two-parameter logistic model Item 1 und Item 2 haben den gleichen Schwierigkeitsparameter von 0, daher ist für beide Items bei 0 die Wahrscheinlichkeit einer positiven Antwort gleich ½. Der Anstieg der ICC ist für Item 1 jedoch steiler, da dieses Item stärker diskriminiert als Item 2. Unmittelbar 166 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) zu erkennen ist die Konsequenz unterschiedlich diskriminierender Items. Die Reihenfolge der Schwierigkeiten der beiden Items ist nun nicht mehr unabhängig von den Personenparametern. Für positive βv ist Item 1 leichter als Item 2, während für negative βv Item 2 leichter ist als Item 1.27 Das Birnbaum-Modell geht somit von der Stichprobenunabhängigkeit und der Separierbarkeit der Parameter ab. Auch der Rohscore ist nicht länger eine erschöpfende Statistik, da es nun relevant ist, ob ein bestimmter Rohscore durch die positive Beantwortung wenig diskriminierender Items oder stark diskriminierender Items zustandekommt. Jeder Itemscore muß daher mit dem Diskriminanzparameter multipliziert werden (Fischer, 1974, S.204). Es erhebt sich die Frage, ob das stärker diskriminierende Item 1 „besser“ ist als Item 2. „In traditional test theory (Anm.: klassische Testtheorie), high discrimination is interpreted as a desirable characteristic of an item and a key indicator of item quality.“ (Masters, 1988, S.15). Auch die Guttman-Skalierung beurteilt die Qualität der Items durch ihre Diskriminanz, indem nur sehr stark diskriminierende - im Idealfall deterministische - Items herangezogen werden. Im Birnbaum-Modell und im noch zu besprechenden three-parameter logistic model werden ebenfalls Items mit hoher Diskriminanz bevorzugt28. Im Sinne des Rasch-Modells ist die Abhängigkeit der Reihenfolge der Itemschwierigkeiten von der Populationsverteilung, welche sich zwingend aus der unterschiedlichen Diskriminanz ergibt, gleichbedeutend damit, daß ein stärker diskriminierendes Item Personen mit hohen Parametern bevorzugen, da dieses für diese Gruppe relativ leichter erscheint (Masters, 1988, S.22). Im Sinne des Rasch-Modells ist daher „Überdiskriminanz“ genauso problematisch wie „Unterdiskriminanz“ und eine 27.Dieses „Paradoxon“ wird auch als „Lord’s Paradox“ bezeichnet (Hulin, 1987, S.117f). Ein Gedankenexperiment soll die Problematik verdeutlichen. Gegeben seien zwei Hanteln A und B. Zu bestimmen seien deren Gewicht bzw. das Verhältnis der Gewichte. Eine Waage stehe nicht zur Verfügung. Statt dessen werden die Hanteln mehreren Personen vorgegeben, welche in der Art des Gewichthebens diese hochstemmen sollen. Die Personen lassen sich in zwei Gruppen gliedern. Die erste ist untrainiert, die zweite besteht aus durchtrainierten, professionellen Gewichthebern. Im Sinne der Latent Trait Theory weist jede Hantel ein latentes, weil nicht direkt beobachtbares Gewicht auf, welches durch den „Itemschwierigkeitsparameter“ ausgedrückt wird. Jede Person hat eine individuelle Fähigkeit, Gewichte zu heben, ausgedrückt durch ihren Personenparameter. Welche Meßergebnisse sind zu erwarten, wenn das two-parameter logistic model gültig ist? In der Gruppe der untrainierten Personen wird die Zahl der Personen, welche eine Hantel, z.B. A, hochstemmen, aber nicht auch die andere Hantel B, wesentlich größer sein als umgekehrt die Zahl der Personen, welche Hantel B hochstemmen, aber nicht auch Hantel A. Die naheliegende Schlußfolgerung daraus wäre wohl, daß Hantel B schwerer ist als Hantel A. Bei Gültigkeit des two-parameter model verhält es sich bei der Gruppe der trainierten Gewichtheber jedoch umgekehrt! Nun ist die Zahl derer, die Hantel B hochstemmen und gleichzeitig nicht auch Hantel A größer als die Zahl jener, bei denen es sich umgekehrt verhält. Die Schlußfolgerung daraus wäre wohl, daß Hantel B leichter ist als Hantel A. Offensichtlich hängt das relative Gewicht von der betrachteten Stichprobe der Personen ab. Ein für naturwissenschaftliche Messungen, wie die des Gewichts, völlig inakzeptables Ergebnis. 167 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Bedrohung der spezifischen Objektivität. Eine mögliche Ursache für zu hohe Diskriminanz kann in der Multidimensionalität eines Items liegen. Sind zum Beispiel für die positive Beantwortung eines schwierigen Items Zusatzinformationen oder besondere Fähigkeiten zusätzlich zur zu messenden Dimension erforderlich, welche empirisch mit dieser Dimension korrelieren, so fällt die Beantwortung für Personen mit hohen Parametern leichter als dies aufgrund der latenten Dimension eigentlich der Fall sein sollte. Zu hohe Diskriminanz spricht vor diesem Hintergrund nicht für hohe Qualität eines Items, sondern für meßtheoretische Probleme.29 Die Schätzung der Parameter gestaltet sich ebenfalls weit schwieriger als im Rasch-Modell, da bei gleichbleibendem Umfang der Beobachtungseinheiten (Antworten auf Items) die Zahl der zu schätzenden Parameter höher ist. Zur Bewältigung der mathematischen Probleme werden daher Verteilungsannahmen bezüglich der Personenparameter getroffen. Die Parameterschätzungen sind aus den genannten Gründen oftmals unbefriedigend und instabil (Fischer, 1974, S.278; vgl. auch Lim und Drasgow, 1990, S.165). Technische Probleme der Modellschätzung treten jedoch gegenüber der theoretischen Problematik in den Hintergrund. Der „Verzicht“ auf spezifische Objektivität der Messung, welche allein im Rasch-Modell gegeben ist, stellt den Fortschritt gegenüber der klassischen Testtheorie in Frage. Tatsächlich kann das Birnbaum-Modell als Versuch verstanden werden, die Parameter der klassischen Testtheorie nachzuempfinden. Der Itemdiskriminanzparameter entspricht dem Faktorladungswert der Faktorenanalyse. (Wobei einmal mehr daran erinnert wird, daß die zur Bestimmung der Reliabilität erforderliche Parallelität von „Messungen“ in strenger Auslegung auf Itemebene gleiche Ladungen voraussetzt.) Die Skalierungskonstante D wird so gewählt, daß die ICC des two-parameter models jener ei28.Die höhere Einschätzung stark diskriminierender Items geht aus der erschöpfenden Statistik für den Personenparameter hervor, da die Scores der Items mit dem jeweiligen Diskriminanzparameter multipliziert werden. 29.Die Wertschätzung stark diskriminierender Items in der klassischen Testtheorie ist freilich ebenfalls zu relativieren. Diskriminanz wird in der klassischen Testtheorie als Korrelation eines Items mit dem Gesamtscore definiert. Weist ein Item hohe Diskriminanz auf, im Idealfall eine Korrelation von 1, so leistet dieses Item keinen Beitrag zur Messung, da die gesamte Information auch in allen anderen Items enthalten ist. Umgekehrt könnte daher auch das stark diskriminierende Item alle anderen ersetzen. Eine ausschließlich an der Itemdiskriminanz orientierte Itemselektion erhöht zwar die ausgewiesene Reliabilität, diese Erhöhung ist aber „künstlich“ im Sinne einer Einengung des Meßbereichs auf eine Facette des zu messenden Konstrukts. Das Prinzip, wonach die Validität mit zunehmender Reliabilität ebenfalls steigt, ist damit nicht länger wirksam. Die künstliche Erhöhung der Reliabilität und deren unreflektierte Interpretation führt daher zu einer „Verdünnung“ des Meßinstruments und zwangsläufig zu einer Verringerung der Validität („Attenuation Paradox“, vgl. Fischer, 1974, S.145). 168 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) nes normal ogive models entspricht, einem logistischen Meßmodell, welches auf einer kumulativen Normalverteilungsannahme der Personenparameter beruht (Hambleton et al., 1991, S.14f) - völlig in der Tradition der klassischen Testtheorie.30 Konsequenterweise ist die Wahl des Meßmodells keine triviale Entscheidung31. Das Rasch-Modell geht von expliziten Voraussetzungen aus, die durch empirische Daten erfüllt sein müssen, um eine Messung im Sinne der spezifischen Objektivität zu konstituieren. Wenn Daten diesen Ansprüchen nicht genügen, ist es scheinbar naheliegend, auf einige dieser Voraussetzungen zu „verzichten“. Die Einführung zusätzlicher Parameter im two-parameter logistic model führt notwendigerweise zu einer besseren Übereinstimmung von Modell und Daten. Meßtheoretisch wird damit aber davon abgegangen, vorab theoretisch zu klären, welche Bedingungen die Daten erfüllen müssen, um eine Messung zu begründen. Vielmehr geht es lediglich darum, Daten durch Modelle zu beschreiben.32 In diesem Sinne ist das Rasch-Modell keine Spezialfall des Birnbaum-Modells, sondern vielmehr ein Modell mit besonderen Eigenschaften, welche durch die Einführung von Diskriminanzparametern verloren gehen. Vor diesem Hintergrund erscheint es nicht angebracht, weitere „Verallgemeinerungen“ einzuführen. Aus Gründen der Vollständigkeit sei darauf hingewiesen, daß das three-pa- 30.Die Annäherung des two-parameter logistic model an die klassische Testtheorie zeigt sich auch in Interpretationen der Modelle durch Anwender des two-parameter logistic model. So stellen z.B. Parsons und Hulin (1982, S.827) fest, daß das faktorenanalytische Modell (klassische Testtheorie) eine lineare Beziehung zwischen „observed variables“ modelliert. An anderer Stelle wird das faktorenanalytische Modell als ein „Item-Response-Model“ bezeichnet, welches eine lineare Beziehung zwischen „item responses und constructs“ annimmt, während das two-parameter logistic model von einer nicht-linearen Beziehung ausgeht - offenbar der einzig wahrgenommene Unterschied. Völlig übersehen wird dabei jedoch, daß das faktorenanalytische Modell unter „item response“ nichts anderes als ein manifestes Attribut „versteht“ und lediglich Attribute korreliert und durch dahinterstehende Faktoren „erklärt“ werden. Demgegenüber wird „item response“ in LTT-Modellen als Vergleich der Person und des Items (bzw. der entsprechenden Parameter) definiert. Klassische Testtheorie und LTT-Modelle unterscheiden sich vielmehr hinsichtlich der Transformation des Rohscores in den latenten Wert der Person. Die Schätzung des True Score erfolgt bei der klassischen Testtheorie als lineare Funktion des Observed Scores (Rohscore), bei LTT-Modellen sind die Personenparameter hingegen nicht-linear verknüpft mit dem Rohscore. 31.Vor diesem Hintergrund greift die Bezeichnung des Rasch-Modells durch Sinkovics et al. (1998, S.276) als „a very simple model“ zu kurz. Zwar ist das Rasch-Modell einfach im formalen Sinne einer geringen Zahl an Parametern (im Vergleich zum two- und three-parameter logistic model). Inhaltlich wäre die Bezeichnung als einfaches Modell jedoch irreführend. 169 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) rameter logistic model das Birnbaum-Modell um einen zusätzlichen Parameter erweitert (Hambleton et al., 1991, S.17f; Abbildung 47). Da ( β – δ ) e i v i P = c i + ( 1 – c i ) --------------------------------Da i ( β v – δ i ) 1+e wobei: P D ai δi ci βv Wahrscheinlichkeit einer positiven Antwort Skalierungskonstante (1.7) Diskriminanzparameter Itemschwierigkeitsparameter Untere asymptotische Wahrscheinlichkeit Personenparameter Abbildung 47: Three-parameter logistic model (Hambleton et al., 1991, S.17) Dieser Parameter gibt jenen Wert an, gegen den die Wahrscheinlichkeit einer positiven Antwort bei gegen - ∞ gehenden Personenparameterwerten asymptotisch strebt (im Falle des Rasch- oder Birnbaum-Modells ist dieser Wert gleich 0). Dieses Wahrscheinlichkeitsniveau wird also nie unterschritten und könnte daher als „Minimalwahrscheinlichkeit“ oder „untere asymptotische Wahrscheinlichkeit“ bezeichnet werden. Bei Leistungstests könnte dies als Ratewahrscheinlichkeit interpretiert werden. Da dieser Wert jedoch die Wahrscheinlichkeit im gesamten Wertebereich beeinflußt, stellt sich die Frage, warum für sehr leistungsfähige Personen bei sehr leichten Aufgaben die Ratewahrscheinlichkeit überhaupt eine Rolle spielen sollte. Dementsprechend ist der Rateparameter in Samples sehr leistungsfähiger Personen nicht zuverlässig schätzbar. Für die Testanwendung wiederum erscheinen Items mit hoher Ratewahrscheinlichkeit gerade für leistungsschwächere Probanden ohnehin völlig ungeeignet, da die Wahrscheinlichkeit der Beantwortung fast völlig unabhängig vom Personenparameter ist. Auch bei diesem Modell geht es also in erster Linie darum, die Daten besser zu beschreiben.33 32.Dies wird in Anwendungen dieses Modells oft in entlarvender Eindeutigkeit evident: „Theoretical expectations led to the prediction that the two-parameter model (...) would provide the best fit.“ (Bontempo, 1993, S.154). Klarer kann nicht zum Ausdruck gebracht werden, daß es dabei nicht um die Konstituierung theoretisch einwandfreier Messung geht, sondern um die Anpassung des Modells an Daten. 33.Auch dazu finden sich interessante Anwendungsfälle. Ellis et al. (1993, S.134) gehen davon aus, daß „[o]ne of the more well-researched IRT models is the three-parameter logistic model“ - offenbar ein ausreichendes Motiv zur Anwendung. 170 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) 7.3.7 Weitere Latent Trait Modelle Die Verallgemeinerungen des Rasch-Modells für polytome Daten und die Erweiterungen des dichotomen Modells um Diskriminanzparameter und Minimalwahrscheinlichkeiten wurden ausführlicher behandelt. Generalisierungen in andere Richtungen werden dagegen nur kurz angerissen. So bestehen Versuche, die Eindimensionalitätsvoraussetzung aufzugeben und multidimensionale Modelle zu entwickeln (McDonald, 1989; 1997). Reckase (1997) stellt ein multidimensionales Modell für dichotome Daten vor, Kelderman (1997) eines für polytome Daten. In der Praxis der Marketingforschung wird allerdings auch bei mehrdimensionalen Konstrukten die eindeutige Zuordnung eines Items zu einer Dimension angestrebt. Die zukünftigen Entwicklungen bleiben diesbezüglich abzuwarten. Andere Forschungsströmungen (z.B. Verhelst et al., 1997a) beschäftigen sich mit den Konsequenzen, welche sich daraus ergeben, daß in Schritten gelöste Aufgaben nicht ohne weiteres mit dem Partial Credit Model analysiert werden können, da dieses davon ausgeht, daß der nächste Schritt nicht bewältigt aber zumindest versucht wird. Die Unabhängigkeit der Itemparameterschätzungen von der Stichprobe kann in RaschModellen dadurch gefährdet werden, daß aufgrund von Zeitlimits bei der Testbearbeitung einige Personen keine Gelegenheit erhalten, die letzten Items des Tests zu bearbeiten. Daher erscheinen diese als schwieriger als sie eigentlich sind. In Marketinganwendungen erscheint dieses Problem allerdings nicht relevant. Modelle für Tests mit Zeitbeschränkung finden sich bei z.B. bei Verhelst et al. (1997b) und Roskam (1997). Sogenannte nichtparametrische Modelle gehen von metrisch skalierten Skalen der latenten Dimension ab und leiten ordinale Skalen ab. Grundlegende Arbeiten gehen auf Mokken und Lewis (1982) und Mokken (1997) zurück, Molenaar (1997) stellt ein entsprechendes Modell für polytome Items vor. Auf Modell für nichtmonotone Itemcharakteristiken (Unfolding Modelle) wurde bereits hingewiesen (z.B. Andrich, 1997). Eine - allerdings nicht mehr völlig aktuelle - Taxonomie von Modellen der Item Response Theory findet sich bei Thissen und Steinberg (1986). 171 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) 7.3.8 Modellüberprüfung Die Behandlung von Methoden zur Überprüfung der Gültigkeit wird auf das Rasch-Modell eingeschränkt. Da es kein bestes Verfahren zur Prüfung der Übereinstimmung (Fit) von Daten und Modell gibt, ist aus einer Reihe von Verfahren und Ansätzen eine Auswahl zu treffen. Für die Praxis bedeutet dies, daß die Modellbeurteilung nicht auf einem Kennwert beruhen sollte, sondern eine Kombination von unterschiedlichen Ansätzen erforderlich ist. Das Vertrauen auf eine singuläre Kenngröße ist aus statistischen Gründen nicht sinnvoll. Auf die Problematik der Sensitivität von χ2-Verfahren für kleinste (und damit unbedeutende) Abweichungen bei größeren Stichproben wurde bereits im Zuge der Prüfung von Strukturgleichungsmodellen hingewiesen. Die Haltbarkeit des Modells kann einerseits darauf beruhen, die Übereinstimmung von Modellvorhersage hinsichtlich der Antwortwahrscheinlichkeit und der tatsächlichen Antworthäufigkeiten zu prüfen (Residualanalyse). Andererseits kann die Modellprüfung auch auf die besonderen Eigenschaften des Rasch-Modells abzielen. So sind die Parameterschätzungen theoretisch unabhängig von der jeweiligen Stichprobe. Der Vergleich von Parameterschätzungen aus unterschiedlichen Teilsamples liefert daher über die Gültigkeit des Modells unmittelbar Aufschluß. Zu diesem Zwecke kann das ursprüngliche Sample auf Zufallsbasis in zwei Subsamples geteilt werden (Vergleich eines Kalibrierungs- und eines Validierungssamples). Diese Vorgangsweise ist auch bei Anwendung von Verfahren im Rahmen der klassischen Testtheorie möglich. Das Rasch-Modell ist allerdings entsprechende Modellgültigkeit vorausgesetzt - auch gegen nichtzufällige Aufteilungen invariant. So dürfen sich die Parameterschätzungen von Frauen und Männern ebenso nur zufällig voneinander unterscheiden, wie jene von Personen mit über- und unterdurchschnittlichem Score. Vor allem der Vergleich letzterer stellt einen äußerst anspruchsvollen Test der Modellgültigkeit dar. Bei signifikant unterschiedlichen Parameterschätzungen ist die spezifische Objektivität der Messung nicht gegeben und die Messung erfolgt nicht populationsunabhängig. Weiters besteht die Möglichkeit, die Likelihood eines Antwortmusters für eine Person zu untersuchen (Likelihood-basierter Ansatz). Diese Verfahren wurden ursprünglich für die Prüfung des Personen-Fits entwickelt. Reise (1990) zeigt, daß dieser Ansatz auch zur Überprüfung des Item-Fits geeignet ist. Die Prüfung des Item-Fits ist deshalb sinnvoll, da 172 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) sich die Verletzung der (für das Rasch-Modell essentiellen) Eindimensionalitätsannahme im Item-Misfit ausdrückt. Schließlich können auch nicht LTT-spezifische Verfahren, wie z.B. die Mantel-HaenszelStatistik (vgl. z.B. Millsap und Everson, 1993), eingesetzt werden. Dieses hier nicht näher erläuterte Verfahren basiert auf dem Vergleich einer Referenzgruppe und einer Fokusgruppe, für welche unterschiedliche Itemparameter vermutet werden. Für Personen mit gleichem Rohscore ist aufgrund der Häufigkeiten dieses Rohscores in der Referenz- und Fokusgruppe eine erwartete Häufigkeit für eine Antwortkategorie ermittelbar, welche mit der tatsächlichen Häufigkeit verglichen wird. Dies resultiert - summiert über alle Rohscores - in einer χ2-verteilten Prüfgröße. Daneben ist ein αMH verfügbar, welches die OddsVerhältnisse der Referenz- und der Fokusgruppe vergleicht. Für weniger als 20 Items ist diese Größe allerdings nicht zuverlässig. Schließlich besteht bei polytomen Modellen die Möglichkeit, die Ordnungshypothese bezüglich der Antwortkategorien zu überprüfen. Dabei werden, wie bereits dargestellt, die Thresholdparameter auf ihre Ordnung hin untersucht. Residualstatistiken Die ICC bzw. CCCs eines Items geben die dem Modell entsprechenden Wahrscheinlichkeiten der Antwortkategorien wieder. Diese Wahrscheinlichkeiten sind gleichbedeutend mit den erwarteten Häufigkeiten in einer Stichprobe. Ein erster Ansatz zum Vergleich erwarteter und tatsächlicher Häufigkeiten stellt der Item-Q-Index von Rost und von Davier (1994) dar. Dieser Kennwert vergleicht tatsächliche Häufigkeiten im Antwortmuster mit dem erwarteten Muster. Dabei kann eine Abweichung in zwei Richtungen auftreten. Ein Item kann stärker diskriminieren als erwartet (das tatsächliche Muster nähert sich dem Guttman-Pattern an) oder schwächer (das beobachtete Muster nähert sich dem Anti-Guttman-Pattern an). Für diesen Fit-Index steht eine Standardisierung zur Verfügung, welche die Prüfgröße in eine asymptotisch normalverteilte Größe transformiert. Letztere ist nach Wahl einer Irrtumswahrscheinlichkeit auf Signifikanz prüfbar. Die Ausscheidung eines Items allein aufgrund eines signifikanten (standardisierten) Q-Index ist allerdings wenig zielführend, da dies den Fit der restlichen Items so verändern kann, daß im nächsten Schritt weitere Items auszuscheiden wären, welche durchaus als modellkonform angesehen werden können. 173 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Eine weitere Möglichkeit, Abweichungen der Häufigkeiten zu überprüfen, bietet der Q1Index (Hambleton et al., 1991, S.60f; Rost und von Davier, 1994, S.172f). Zur Berechnung dieser Größe werden die Differenzen von erwarteter und beobachteter Häufigkeiten in einzelnen Wertebereichen der latenten Dimension (also für bestimmte βv-Parameter) verglichen und quadriert. Diese werden mit der Zahl der Personen im jeweiligen Wertebereich gewichtet (vgl. Abbildung 48). Da der Index eine Summe quadrierter Abweichungen darstellt, ist die Prüfgröße χ2-verteilt. Diese Prüfgröße kann auf alle LTT-Modelle angewendet werden. 2 N j [ P j – E ( P j )] Q1 = ∑ -----------------------------------------= j = 1 E ( Pj ) [ 1 – E ( P j ) ] m m ∑j = 1 z j 2 wobei: Nj ... Zahl der Personen im Bereich j m ... Zahl der Bereiche, in welche das latente Kontinuum unterteilt wird P .... Beobachtete Häufigkeit der Antwort E (P) Erwartete Häufigkeit der Antwort Abbildung 48: Q1-Index zur statistischen Prüfung der Residuale auf Signifikanz (Hambleton et al., 1991, S.61; Rost und von Davier, 1994, S.172). Überprüfung der Invarianz der Parameterschätzungen Aufgrund der Stichproben- und Populationsunabhängigkeit der Itemparameter im RaschModell dürfen sich Schätzungen auf der Basis unterschiedlicher Stichproben nur zufällig unterscheiden. Ein erster Ansatz besteht in der Betrachtung der Reihenfolge der Itemschwierigkeiten in unterschiedlichen Teilstichproben. Diese sind bei Modellgültigkeit stets gleich. Allerdings kann diese Prüfung nur qualitativ erfolgen, es stehen keine statistischen Prüfkriterien zur Verfügung (Steyer und Eid, 1993, S.228). Für den Vergleich zweier Itemparameterschätzungen stehen jedoch relativ einfache Statistiken zur Verfügung. Die Voraussetzung dafür ist eine gleiche Skala der Parameter in beiden Gruppen. Dies kann dadurch erzielt werden, indem in beiden Gruppen der Ursprung der Skala dadurch definiert wird, daß das Mittel aller Itemparameterschätzungen gleich 0 gesetzt wird. Jede andere, theoretisch mögliche Skalendefinition (Fixierung eines beliebigen Parameters oder des Mittels der Personenparameter auf einen bestimmten Wert) führt zu unterschiedlichen Skalen (Hambleton et al., 1991). Für jede Parameterschätzung läßt sich auf der Basis der Informationsfunktion ein Standardschätzfehler (als invertierter Wert der In- 174 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) formationsfunktion) ermitteln (Hambleton et al., 1991, S.44f, 112). Daraus leitet sich eine χ2-verteilte Prüfgröße mit (für das Rasch-Modell) einem Freiheitsgrad ab. Einschränkend ist anzumerken, daß diese Prüfung lokale stochastische Unabhängigkeit voraussetzt, so daß Rasch-Homogenität der Items und lokale stochastische Unabhängigkeit simultan geprüft werden (Steyer und Eid, 1993, S.228). Erweisen sich die Parameter als nicht äquivalent, so wird von Differential Item Functioning (DIF) (Hambleton et al., 1991, S.109ff) oder (früher) von Item Bias (Hambleton und Swaminathan, 1985, S.281ff) gesprochen. Die Items „funktionieren“ in unterschiedlichen (Sub-)Populationen verschieden. Ein Vergleich von Personen aus unterschiedlichen (Sub-)Populationen ist unter diesen Bedingungen nicht möglich (Steyer und Eid, 1993, S.245). ˆ ˆ 2 ˆ 2 ˆ ( δ 1 – δ 2) ( δ 1 – δ 2) χ = --------------------------------------------------- = ---------------------------------------------ˆ ˆ ˆ 2 ˆ 2 VAR ( δ 1) + VAR ( δ 2) SE ( δ 1) + SE ( δ 2) 2 wobei: VAR ... Varianz SE ...... Standardschätzfehler Abbildung 49: Prüfgröße für den Unterschied von Itemparameterschätzungen aus unterschiedlichen Stichproben (Hambleton et al., 1991, S.111). Der Vergleich von Itemparameterschätzungen geht davon aus, daß die entsprechenden Schätzungen zu Wahrscheinlichkeitsverteilungen führen, die mit den tatsächlichen Häufigkeiten in den Gruppen annähernd übereinstimmen. Mit anderen Worten: die Modelle müssen innerhalb der Gruppen gültig sein. Eine mangelnde Übereinstimmung wird als Uniform DIF bezeichnet. Differieren die empirischen Verteilungen, z.B. dadurch, daß ein Item in einer Gruppe stärker diskriminiert als in einer anderen, so handelt es sich um Nonuniform DIF. 175 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) empirische Häufigkeit 1 0.5 0 -4 -3 -2 -1 0 1 2 3 4 2 3 4 δi, βv nonuniform DIF P(avi=x | δi, βv) 1 0.5 0 -4 -3 -2 -1 0 1 δi, βv uniform DIF Abbildung 50: Beispiel für nonuniform und uniform DIF Eine Alternative zur statistischen Prüfung der Parameter auf Gleichheit stellt die Berechnung der Fläche zwischen den ICCs für ein Item auf der Basis unterschiedlicher Stichproben dar (Raju, 1988). Diese Fläche ist bei exakt gleichen Itemparametern gleich 0. Der Vergleich der empirisch festgestellten Fläche und einer zufällig zu erwartenden ist vor allem für das two- und three-parameter logistic model sinnvoll. 176 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Likelihood-basierter Ansatz Der Likelihood-Ansatz (Reise, 1990) zur Prüfung des Item-Fits vergleicht die tatsächlichen Antworten der Personen auf ein Item mit der wahrscheinlichsten Antwort (most likely response). Abbildung 51 gibt die Prüfgröße und die entsprechenden Gleichungen wieder. Die Fit-Statistik ist bei logarithmischer Transformation der Likelihoods und Standardisierung asymptotisch standardnormalverteilt und damit leicht auf Signifikanz prüfbar. Positive Werte sprechen dafür, daß die wahrscheinlichsten Antworten empirisch häufiger auftreten als erwartet, negative Werte der Prüfgröße ergeben sich bei inkonsistenten Antworten (Rost und von Davier, 1994, S.173f; Reise, 1990, S.129). n Li = wobei: ∏v = 1 x p vivi ( 1 – p vi) 1 – x vi Li ... Likelihood für Item i xvi .. Antwort (0,1) der Person v bei Item i pvi .. Wahrscheinlichkeit einer positiven Antwort der Person v bei Item i log L vi = x vi log p vi + ( 1 – x vi )log ( 1 – p vi ) wobei: log Lvi logarithmische Transformation der Likelihood log .... Logarithmus zur Basis e (natürlicher Logarithmus) E vi = p vi log p vi + ( 1 – p vi) log ( 1 – p vi ) V vi = pvi ( 1 – p vi) [ log pvi – log ( 1 – p vi )] 2 wobei: Evi .... Erwartungswert bei Modellgültigkeit Vvi .... Varianz log L vi – E vi z vi = ---------------------------Vvi 2 χi = 2 ∑v zvi Abbildung 51: Prüfgröße für Likelihood-basierten Ansatz zur Bestimmung des Item-Fit (Rost und von Davier, 1994, S.173; Reise, 1993). 177 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) 7.3.9 Anwendung in der interkulturellen Forschung Die bisherige Darstellung des Rasch-Modells legt die Anwendung in der intrakulturellen Marketingforschung nahe (vgl. das nachfolgende Kapitel 7.3.10). Die besonderen Modelleigenschaften lassen gerade in der interkulturellen Forschung eine Modellanwendung interessant erscheinen. Die Variable Kultur kann als Trennkriterium betrachtet werden. Alle einer Kultur angehörigen Personen stellen eine Population dar. Ergeben die Itemparameterschätzungen in zwei (allen) Kulturen gleiche (d.h. nur zufällig verschiedene) Werte, so sind auch die Personenparameter und damit auch deren Mittelwerte dieser (aller) Kulturen vergleichbar. Abbildung 52 gibt den Ablauf der Prüfung der Erhebungsdaten auf interkulturelle Äquivalenz wieder. Die Kulturzugehörigkeit ist damit ein jedem beliebigen Trennkriterium formal gleichgestelltes Kriterium der Modellüberprüfung auf der Basis der Invarianz der Parameterschätzungen. Substantiell unterscheidet sich Kultur allerdings von allen anderen möglichen Kriterien (wie Altersgruppen, Geschlechteraufteilung, Scoregruppen, etc.). Letztere sind hervorragend geeignet zur intrakulturellen Überprüfung des Modells. Es werden diesbezüglich in der Regel keine Unterschiede erwartet bzw. hypothetisch angenommen. Dagegen sind kulturbedingte Einflüsse explizit hypothetisch formuliert und werden entweder vermutet oder zumindest für möglich erachtet. Wichtig ist dabei, zwischen meßtheoretischer Hypothese des Kultureinflusses und substanztheoretischer Hypothese des Kultureinflusses zu unterscheiden (Singh, 1996, S.1047f). Erstere zielt auf das äquivalente Zustandekommen der Messung ab, was die Grundlage der Vergleichbarkeit darstellt. Ist diese gegeben (im Sinne einer Haltbarkeit der meßtheoretischen Nullhypothese), so können substanztheoretische Hypothesen überprüft werden. Letztere können auf Niveauunterschiede auf der latenten Dimension abzielen oder auf unterschiedliche Beziehungen im nomologischen Netz des Konstrukts. Dementsprechend müssen die Begründungen der meßtheoretischen und der substanztheoretischen Hypothese unterschiedlich sein. Im Gegensatz zur klassischen Testtheorie stellt das Rasch-Modell eine Grundlage zur Verringerung der Konfundierung von Meß- und Substanztheorie (vgl. dazu Holzmüller, 1995, S.149f) in der interkulturellen Forschung dar. 178 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) Analyse: LTT-Modell in Kultur A Modell-Test (Fit) innerhalb Kultur A Analyse: LTT-Modell in Kultur B Modell-Test (Fit) innerhalb Kultur B Falls erforderlich: Elimination von Items Schritt 1: Bestimmung des Modellfits innerhalb der Kulturen (Gruppen) Analyse: Vergleich der Modellparameter (Differential Item Functioning) Test auf Gleichheit der Itemparameter (Invarianz) Schritt 2: Test auf Invarianz der Itemparameter Abbildung 52: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung auf Äquivalenz mittels Latent Trait Theory basiertem Ansatz 7.3.10 Zusammenfassende Betrachtung des Rasch-Modells Die Modelle der Latent Trait Theory haben sich gegenüber Ansätzen, die auf der klassischen Testtheorie beruhen, im allgemeinen als meßtheoretisch überlegen erwiesen. Im besonderen weist das Rasch-Modell für dichotome Daten und seine Verallgemeinerung für polytome Antwortformate Eigenschaften auf, welche theoretisch fundiertes Messen ermöglichen. Die Unabhängigkeit von Meßergebnissen von der Tatsache welche Messungen sonst noch erfolgen (spezifische Objektivität), sollte eigentlich eine Selbstverständlichkeit sein. Dennoch hat das Paradigma des Rasch-Modells in die Marketingforschung bislang kaum Eingang gefunden, geschweige denn sich gegen das klassische Meßparadigma durchgesetzt. Dies kann in der Vergangenheit zum Teil auf die ungenügende Verfügbarkeit von Softwareprogrammen zurückgeführt werden. Auch benötigt die Diffusion von in Spezialdisziplinen (zu einer solchen hat sich die Meß- und Testtheorie unzweifelhaft entwickelt) generiertem methodischen Wissen in eine anwendungsorientierte Disziplin wie der Marketingwissenschaft geraume Zeitspannen. Freilich darf nicht übersehen werden, daß der Wechsel von der klassischen zur probabilistischen Testtheorie im Forschungsalltag weit mehr darstellt, als den bloßen Wechsel eines methodischen Instrumentariums. Letzteres würde unter Umständen den Gebrauch des Begriffs Paradigmenwechsel gar nicht rechtfertigen. Sehr wohl einen Paradigmenwechsel stellen 179 7 Überprüfung der Äquivalenz der Erhebungsdaten im Rahmen der probabilistischen Testtheorie (Latent Trait Theory) die Implikationen des Rasch-Modells dar. Messung „passiert“ nicht länger, sondern wird theoretisch begründet und in ihrer Funktionalität statistisch überprüfbar. Unzweifelhaft erfordert die Falsifizierbarkeit und höhere Stringenz der Meßtheorie eine sorgfältigere und damit zeitintensivere Entwicklung von Meßinstrumenten. Die Anwendung von Qualitätsindikatoren der Forschung welche am Output pro Zeiteinheit ansetzen, gehen diesbezüglich nicht nur ins Leere, sondern wirken sich kontraproduktiv aus. Die Überwindung dieser „wissenschaftssoziologischen“ Probleme wäre jedenfalls mit einem enormen Zugewinn an Aussagenqualität in der quantitativ orientierten empirischen Marketingforschung verbunden. Vor allem die mit der Anwendung der klassischen Testtheorie verbundene Konfundierung von Meß- und Substanztheorie (Holzmüller, 1995) in komplexen verhaltenswissenschaftlichen Modellen ist völlig unbefriedigend. 180 8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität 8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität In Kapitel 5 wurden die Bedingungen interkultureller Vergleichbarkeit erarbeitet. Die nachfolgenden Kapitel 6 und 7 widmeten sich der Darstellung methodischer Ansätze zur Überprüfung der Vergleichbarkeit von Erhebungsdaten in der kulturübergreifenden Marketingforschung. Die beiden vorgestellten Ansätze, jener der konfirmatorischen Mehrgruppen-Faktorenanalyse und der Latent Trait Theory basierte Vergleich der Meßfunktionalität (Differential Item Functioning) unterscheiden sich fundamental im zugrundeliegenden Meßparadigma. Die Frage, welcher Ansatz gewählt wird, ist demzufolge auf der Metaebene der Meßtheorie zu entscheiden. Die Zielsetzung dieses Kapitels liegt in einer rekapitulativen Zusammenfassung der Problematik und ihrer Lösung, sowie der Einordnung des Prüfungsgegenstandes in das System der meßtheoretischen Gütekriterien. Sowohl im Rahmen der klassischen Testtheorie als auch in jenem der Latent Trait Theory ist die Frage der Vergleichbarkeit eine formale. Vergleichbarkeit gewährleistet das vergleichbare Zustandekommen der Messung (zumindest im Latent Trait Theory basierten Ansatz) und mehr-weniger Aussagen auf der Ebene des numerischen Relativs in Abhängigkeit von der Kulturzugehörigkeit. Interkulturelle Vergleichbarkeit soll daher - in Anlehnung an die Terminologie von Lienert (1989) - folgendermaßen definiert werden: Die i n t e r k u l t u r e l l e V a l i d i t ä t eines Tests (Meßinstruments) gibt den Grad an, mit dem er (es) in verschiedenen Kulturen das gleiche Persönlichkeits- oder Verhaltenskonstrukt gleich gut mißt, unabhängig davon, ob der Test (das Meßinstrument) dieses Konstrukt auch zu messen beansprucht. Kontrastierend dazu die Definitionen der Reliabilität und Validität bei Lienert (1989): „Unter Reliabilität eines Testes versteht man den G r a d d e r G e n a u i g k e i t , mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig ob er dieses Merkmal auch zu messen beansprucht (welche Frage ein Problem der Validität ist).“ (Lienert, 1989, S.14; Hervorhebung im Original). 181 8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität „Die Validität eines Testes gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich mißt.“ (Lienert, 1989, S.16). Im Unterschied zu Lienerts Formulierungen geht die Definition der interkulturellen Validität von Persönlichkeits- oder Verhaltenskonstrukten aus und vermeidet den Begriff Merkmal, welcher sprachlich zu sehr an manifeste Attribute erinnert. Diese Unterschiedlichkeit soll jedoch nicht weiter eine Rolle spielen. Vielmehr steht die Einordenbarkeit der interkulturellen Validität zur Diskussion. Interkulturelle Validität stimmt mit der Definition der Reliabilität dahingehend überein, daß dieses Gütekriterium unabhängig davon ist, ob der Test mißt, was er zu messen vorgibt. Dies entspricht der Feststellung, daß interkulturelle Vergleichbarkeit auf formale und nicht inhaltliche Aspekte abstellt.1 Interkulturelle Validität unterscheidet sich von der Reliabilität dadurch, daß diese nicht eindeutig gegeben ist, sondern gegenüber einzelnen Kulturen bestehen und gegenüber anderen nicht bestehen kann. In diesem Aspekt herrscht Parallelität zur Validität, welche ebenfalls nicht auf die Validität beschränkt ist, sondern im Bezug zu einem oder mehreren Außenkriterien zu sehen ist. Interkulturelle Validität ist somit ein meßtheoretisches Gütekriterium, welches - im System der Gütekriterien der klassischen Testtheorie - logisch zwischen Reliabilität und Validität einzuordnen ist (vgl. Abbildung 53). Reliabilität in Kultur A Reliabilität in Kultur B Interkulturelle Validität bezüglich Kultur A und B Validität in Kultur A Validität in Kultur B Abbildung 53: Einordnung der interkulturellen Validität in das System der Gütekriterien der klassischen Testtheorie 1. Dies steht nicht im Widerspruch dazu, daß bei nicht gegebener Vergleichbarkeit inhaltliche Ursachen dafür verantwortlich sein können. 182 8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität Die Reliabilität ist ein zentrales Gütekriterium der klassischen Testtheorie. In der Latent Trait Theory kommt der Reliabilität aufgrund des ihr immanenten Bezugs zur Verteilung der Population ein vergleichsweise viel geringerer Stellenwert zu. Tatsächlich ist es möglich, die Formel der Reliabilität aus der klassischen Testtheorie auch im Rahmen der Latent Trait Theory anzuwenden2. Statt der True Score Varianz wird die Varianz der Personenparameter eingesetzt, für die Meßfehlervarianz steht die Varianz der Standardschätzfehler der Personenparameter (welche sich auf der Basis der Informationsfunktion herleiten). Zwar sind Personenparameter und Meßfehler nun nicht voneinander unabhängig (U-förmiger Zusammenhang), aber doch linear unkorreliert. Dieser Index wird jedoch nicht als Reliabilität bezeichnet, sondern als Person-Separation-Index (Andrich, 1982), weil dieser angibt, wie gut der Test zwischen den getesteten Personen diskriminiert. Auch im Paradigma der Latent Trait Theory gilt freilich, daß die interkulturelle Validität die intrakulturelle Validität nicht ersetzen kann, sondern eine Voraussetzung für Vergleichbarkeit ist. Interkulturelle Validität ist keine notwendige Voraussetzung für intrakulturelle Validität. Es ist selbstverständlich möglich, Meßinstrumente aus der Kultur A an eine bestimmte Kultur B anzupassen und emic Items neu zu formulieren, um eine möglichst optimale intrakulturelle Validität zu erreichen. Diese Vorgangsweise strebt jedoch keine Vergleichbarkeit an und kann sie - ohne Überprüfung im Sinne der interkulturellen Validität - auch nicht gewährleisten. Für den auf Vergleichbarkeit abzielenden Einsatz einer Marketingskala ergibt sich der in Abbildung 54 (vereinfacht für zwei Kulturen) dargestellte Ablauf. Der Ausgangspunkt kann in einer Skala liegen, welche in Kultur A entwickelt wurde und nun in Kultur B im Sinne einer Replikation (Hubbard und Armstrong, 1994) eingesetzt wird. Alternativ dazu kann bereits bei der originären Skalenentwicklung auf den zukünftigen interkulturellen Einsatz abgestellt werden. Diese Vorgangsweise führt zwar nicht notwendigerweise zu interkultureller Vergleichbarkeit, erhöht jedoch deren Wahrscheinlichkeit. Unabhängig vom Ausgangspunkt ist die interkulturelle Validität empirisch zu überprüfen. Parallel dazu ist die intrakulturelle Validität in den untersuchten Kulturen zu bestimmen. Die An2. Für die Bestimmung von Konfidenzintervallen für Personenparameter wird die Reliabilität oder ein vergleichbares Maß in der Latent Trait Theory nicht benötigt, da dafür die Standardschätzfehler zur Verfügung stehen. 183 8 Methodischer Referenzrahmen für die Überprüfung der interkulturellen Validität wendung eines ursprünglich auf Kultur A bezogenen Meßinstruments in Kultur B kann allerdings auch in Form einer erweiterten Replikation (Replication and Extension, Hubbard und Armstrong, 1994) erfolgen (in Abbildung 54 punktiert dargestellter Pfad), wenn die intrakulturelle Validität im Vordergrund steht. Der gleiche Weg kann beschritten werden, wenn interkulturelle Validität nicht nachweisbar ist und eine bessere Anpassung an die jeweilige(n) Kultur(en) als Alternative erfolgen soll (in Abbildung 54 punkt-strichliert dargestellter Pfad). Die Abläufe der beiden behandelten Methoden zur Äquivalenzprüfung wurden bereits in Abbildung 27 (Seite 129) bzw. Abbildung 52 (Seite 179) dargestellt. Marketing-Instrument Interkulturelle Entwicklung (für Kulturen A und B) Entwicklung in Kultur A Intrakulturelle Meßgüte: • Objektivität • Reliabilität (klassisch)/ LTT-Modellkonformität • Validität Replikation Erweiterte Replikation Einsatz in Kultur B Anpassung an Kultur B Intrakulturelle Meßgüte: • Objektivität • Reliabilität (klassisch)/ LTT-Modellkonformität • Validität Vergleich von Kultur A und B Interkulturelle Validität („Validität des Vergleichs“) • Klassisch: konfirm. Mehrgruppen-Faktorenanalyse • LTT: Modellkonformität / DIF-Analyse Abbildung 54: Schematischer Ablauf der Untersuchung einer Marketing-Skala auf interkulturelle Vergleichbarkeit 184 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung Internationalisierungs- und Globalisierungstendenzen haben die empirische Marketingforschung stimuliert, sich verstärkt Kultur- und Landesgrenzen überschreitenden Fragestellungen zu widmen. Spätestens seit Douglas und Craig (1983) hat sich die Überzeugung durchgesetzt, daß sprachliche Äquivalenz (Übersetzungsäquivalenz) allein nicht ausreicht. Gleichzeitig haben allerdings methodische Entwicklungen in Spezialdisziplinen, namentlich der Meß- und Testtheorieforschung, die Marketingwissenschaft nicht in dem Ausmaß durchdrungen, wie dies wünschenswert wäre. Nach wie vor finden viele interkulturelle Studien mit qualitativen Argumenten das Auslangen, wenn es um die Begründung interkultureller Vergleichbarkeit geht. Zur Zeit finden sich nur sehr wenige Ansätze, empirische Erhebungsdaten auf deren interkulturelle Äquivalenz zu prüfen. Die Auswahl von methodisch qualitativ mehr oder weniger anspruchsvollen Publikationen erhebt keinen Anspruch auf Systematik oder gar Vollständigkeit, sondern dient lediglich der Illustration. Das von Shimp und Sharma (1987) vorgestellte Konzept des Consumer Ethnocentrism erwies sich als äußerst stimulierend für interkulturelle Forschungsvorhaben. Der Ansatz geht auf das soziologische Phänomen des Ethnozentrismus zurück, wonach Menschen mehr oder weniger dazu neigen, Mitglieder ihrer eigenen Gruppe (z.B. Landsleute) gegenüber Fremdgruppenmitgliedern zu bevorzugen. Angewendet auf das Konsumverhalten geht das Konzept davon aus, daß eine individuelle Neigung besteht, Produkte der eigenen Volkswirtschaft gegenüber importierten Produkten zu favorisieren. Importe sind in diesem Sinne eine Bedrohung für die nationale Volkswirtschaft, tragen zur Arbeitslosigkeit bei und verringern langfristig das Wohlstandsniveau. Shimp und Sharma (1987) haben in den USA ein 17 Items umfassendes Meßinstrument entwickelt - die Consumer Ethnocentric Tendency Scale (CETSCALE) - welches die persönliche Neigung zu ethnozentrischem Konsumverhalten mißt. Das Konstrukt ist in ein nomologisches Netzwerk von Antezedenzbedingungen und nachgelagerten Konstrukten eingebettet und für den US-Kontext, sowie in Südkorea von Sharma et al. (1995) umfassend validiert worden. Netemeyer et al. (1991) haben erstmals die kulturübergreifende Güte der Skala geprüft. In einer multikulturellen Studie, welche neben den USA Frankreich, Japan und die Bundesrepublik Deutschland einschließt, wird die Reliabilität und Validität der 185 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung CETSCALE in diesem Kulturen empirisch analysiert. Eine Überprüfung der interkulturellen Vergleichbarkeit wird jedoch nur eingeschränkt vorgenommen. In einer konfirmatorischen Mehrgruppen-Faktorenanalyse wird die Identität der Ladungsmuster (konfigurale Invarianz) geprüft und bestätigt. Eine weitergehende Prüfung findet allerdings nicht statt. Sinkovics (1998) replizierte die CETSCALE in Österreich. Der umfassende Ansatz geht dabei vom ursprünglichen, der CETSCALE in den USA zugrundeliegenden Itempool aus, welcher aus 117 Fragen besteht. Die Zielsetzung ist fokussiert auf eine optimale Anpassung des Meßinstruments an Österreich, sowie auf die nomologische Validierung innerhalb der österreichischen Kultur. Die Vergleichbarkeit steht daher nicht im Vordergrund. Good und Huddleston (1995) untersuchen den Consumer Ethnocentrism in Polen und Rußland. Bezüglich der Anwendbarkeit des Konstrukts berufen sich die Autorinnen auf den erfolgreichen Einsatz des Meßinstruments in anderen Ländern, beschränken sich hinsichtlich der Äquivalenzaspekte auf die Güte der Übersetzung. Ein methodisch anspruchsvoller Vergleich einer auf zehn Items reduzierten Kurzform der CETSCALE über Kulturgrenzen hinweg findet sich bei Steenkamp und Baumgartner (1996a, 1996b). Der Vergleich von Daten aus Belgien, Großbritannien und Griechenland erfolgt auf der Basis der Mehrgruppen-Faktorenanalyse. Dieser Beitrag ist vor allem methodisch interessant und stimulierend für aussagekräftige interkulturelle Forschung. Einschränkend ist anzumerken, daß ein Rückbezug auf die untersuchten Kulturen im Sinne einer substanztheoretischen Theorie des Einflusses von Kultur auf ethnozentrische Tendenzen nicht erfolgt, was den meßtheoretischen Wert des Beitrags nicht schmälert. Im Bereich der Konsumentenforschung haben Beatty et al. (1994) das Freizeitverhalten untersucht und interkulturelle Vergleiche angestellt. Die Prüfung der Meßäquivalenz basiert lediglich auf explorativen Faktorenanalysen unter Anwendung des Kongruenzkoeffizienten und Cattell’s Salient Variable Similarity Index (vgl. zu diesen Indices die kritischen Anmerkungen im Kapitel 6.2.3 auf Seite 104). Die Argumentation der Vergleichbarkeit fällt dementsprechend unscharf aus: „Four factors were identified, which were reasonably consistent across countries.“ (Beatty et al., 1994, S.412). 186 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung Lewis und Cadell (1997) untersuchen Kulturunterschiede im Dienstleistungsmarketing, namentlich in der Luftfahrtbranche. Die Studie geht der Frage nach, inwieweit Briten und Dänen sich hinsichtlich Erwartungen und Qualitätswahrnehmungen bezüglich des Fluges kulturbedingt unterscheiden (Mittelwertsvergleiche, Korrelationen von Teildimensionen mit Gesamturteil). Äquivalenzaspekte werden nur in Form der Übersetzungsäquivalenz behandelt, welche in Form einer Vorwärts-Rückwärts-Übersetzung gewährleistet wird. Analog ist die Vorgangsweise von Lundstrom und White (1997), welche Materialismus von Konsumenten in Frankreich und in den USA vergleichen. Obwohl Mittelwertsunterschiede interpretiert werden, beschränkt sich die Berücksichtigung von Äquivalenzaspekten auf Übersetzungsfragen. Lundstrom und White (1997, S.49) gehen davon aus, daß „[t]his procedure is consistent with established procedures for conducting international research.“ Die interkulturelle Replikation eines Standardmeßinstruments zum „Optimal stimulation level“ von Steenkamp und Baumgartner (1995) wendet den konfirmatorischen Mehrgruppen-Faktorenanalyseansatz an, allerdings ohne die Berücksichtigung von Item-Intercepts. Ähnlich geht Cui-Chi (1997) bei einem interkulturellen Vergleich des Conditions of Trust Inventory (CTI) vor. Cui-Chi zeigt, daß die Skala im britischen und im chinesischen Kulturkontext nicht völlig äquivalent mißt. Quester und Tan (1997) liefern einen kulturvergleichenden Beitrag im Non-Profit-Bereich. Die Einstellung von Konsumenten aus Australien gegenüber Anti-Rauch-Werbung wird der Einstellung von Konsumenten aus Malaysia gegenübergestellt. Die Datenerhebung erfolgt in Form einer Fragebogens. Äquivalenzaspekte werden in keiner Weise angesprochen, selbst die Sprachversionen der Fragebögen bleiben unklar. Zahlreiche Studien konzentrieren sich (nach wie vor) auf Reliabilitätsaspekte unter Bezugnahme auf Davis et al. (1981). Vergleichbarkeit ist damit allerdings nicht notwendig gewährleistet. Parameswaran und Yaprak (1987) nehmen im Rahmen einer interkulturellen Studie zur Produkteinstellung einen varianzanalytischen Vergleich von intra- und interkulturellen Reliabilitätskoeffizienten vor. Jüngere Beispiele für diese Strategie stammen von Song und Parry (1997), welche die Vergleichbarkeit von Daten aus Japan 187 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung und den USA bezüglich eines Produktentwicklungsprozesses auf einen Vergleich der Reliabilität stützen. Im personalwirtschaftlichen Anwendungsbereich gehen van Minden und Talgic (1997) bei der interkulturellen „Validierung“ der INDSALES, einer Skala zur Jobzufriedenheit, ähnlich vor und begründen die Vergleichbarkeit mit der gleichen Rangordnung der Reliabilitäten der einzelnen Subskalen. Die interkulturelle Studie zur Einstellung gegenüber Marketingaktivitäten von Zhang und Dadzie (1994) basiert auf konfirmatorischen Mehrgruppen-Faktorenanalysen, jedoch ohne Einbeziehung von Item-Intercepts. Ebenso gehen Calantone et al. (1996) vor. Das interkulturelle Forschungsvorhaben zu Erfolgsfaktoren der Produktneuentwicklung zielt ausdrücklich jedoch nicht auf Mittelwertsvergleiche ab, sondern fokussiert auf die nomologische Validierung innerhalb der einzelnen betrachteten Kulturen. Auch in der Managementforschung finden sich methodisch analoge Vorgangsweisen. Riordan und Vandenberg (1994) untersuchen kulturspezifische Interpretionsmuster von arbeitsbezogenen Skalen und gründen Vergleichbarkeit auf metrische Invarianz. Zumindest inkonsequent mutet die Untersuchung von Sensales und Greenfield (1995) an. Die Studie befaßt sich mit der Einstellung gegenüber Computern und dem Einsatz von Technologie in der Wissenschaft und basiert auf Datenerhebungen unter Studenten in Rom und Los Angeles. Mittelwertsvergleiche werden auf der Basis von Rohscores aller einbezogenen Items vorgenommen (und interpretiert). In anschließenden explorativen Faktorenanalysen werden jedoch einzelne dieser Items aufgrund konzeptueller Probleme ausgeschieden. Resümierend ist festzustellen, daß die Vergleichbarkeit von Daten aus der interkulturellen Forschung auf methodisch höchst unterschiedlichem Niveau geprüft wird. Vor allem Item-Intercepts berücksichtigende Anwendungen finden sich auch 1998 - 24 Jahre nach dem Beitrag von Sörbom (1974) - nur äußerst selten. Zahlreiche auf Mittelwertsvergleichen beruhende Erkenntnisse aus der interkulturellen Forschung sind daher in ihrer Gültigkeit bedroht und bedürfen einer sorgfältigen Reanalyse. Alle bisher zitierten Arbeiten 188 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung basieren auf der klassischen Testtheorie, Anwendungen der Latent Trait Theory in der Wirtschaftswissenschaft sind, abgesehen von personalwirtschaftlichen Untersuchungen, praktisch nicht vorhanden. Mazanec (1979) stellt eine Ausnahme dar und hat bereits sehr früh die Einsatzmöglichkeit einer Variante des Rasch-Modells - des linear-logistischen Testmodells - in der Marketingforschung geprüft und ist - mit eigenen Worten - „gescheitert“1. Singh (1996) liefert einen neuen Impuls zum Einsatz von Latent Trait Theory Ansätzen in der Marketingforschung. Er untersucht die Anwendbarkeit des two-parameter logistic model. Aus meßtheoretischer Sicht impliziert dieses Modell jedoch den Verzicht auf die besonderen Eigenschaften des Rasch-Modells. In personalwirtschaftlichen Studien mit interkulturellen Aspekten finden sich zahlreiche Anwendungen der Latent Trait Theory. Ellis (1989) prüft die Vergleichbarkeit der Career Ability Placement Survey (CAPS) mittels des three-parameter logistic model. Eine Fülle von Studien befaßt sich mit der interkulturellen Anwendbarkeit und psychometrischen Äquivalenz des Job Discriptive Index (JDI) (z.B. Hulin et al., 1982; Parsons und Hulin, 1982; Drasgow und Miller, 1982; Hulin und Mayer, 1986; Candell and Hulin, 1987; Hanisch, 1992). Durchwegs werden dabei Modelle mit zwei oder drei Itemparametern eingesetzt. Zwar weisen beispielsweise Candell and Hulin (1987, S.421) darauf hin, daß „[t]he choice of the IRT model is not trivial“, es wird jedoch kein Verfahren angegeben, welches als Entscheidungsgrundlage der Modellwahl dienen könnte. Die Wahl des twoparameter logistic model wird damit begründet, daß dieses Modell „accurate approximations to item response data“ liefert. Einmal mehr wird somit das Modell den Daten angepaßt und die Modellwahl nicht meßtheoretisch begründet. Aus heutiger Sicht problematisch erscheint weiters die vorgenommene Dichotomisierung der Daten. Diese war zur Zeit der Veröffentlichung schon allein aus datenverarbeitungstechnischen Gründen (Verfügbarkeit entsprechender Analyseprogramme) unumgänglich. Unabhängig davon unbefriedigend ist allerdings die Codierung von „weiß nicht“-Antworten und fehlenden Angaben („missing“) als Ablehnung eines Statements. Die Anwendung der unconditional maximum likelihood Schätzung der Parameter ist aus heutiger Sicht ebenfalls nicht optimal. Schließlich werden auch andere arbeitsbezogene Skalen auf ihre interkulturelle Gültig- und Vergleichbarkeit untersucht, so z.B. die Job Diagnostic Survey (JDS) 1. Im Sinne einer Nichtentsprechung von Modell und Daten. 189 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung von Idaszak et al. (1988), wobei konfirmatorische Faktorenanalysen (ohne Item-Intercepts) durchgeführt werden. Die historische Verbundenheit der meß- und testtheoretischen Disziplin (wenn man diese bereits als solche bezeichnen will) und der psychologischen Wissenschaftsdisziplin drückt sich in einer großen Zahl methodisch anspruchsvoller Studien aus. Huang et al. (1997) haben die interkulturelle Vergleichbarkeit eines Persönlichkeitskonstrukts geprüft und berichten, daß signifikante Mittelwertsunterschiede auf der Basis von Rohscores nach einer Purifikation der Skala (mit Hilfe des three-parameter logistic model) nicht mehr gegeben sind. Ellis und Kimmel (1992) widmen sich der interkulturellen Überprüfung einer Skala zur „Attitude towards mental health“. Ziel der Analyse ist nicht nur eine Begründung der Vergleichbarkeit hinsichtlich der drei betrachteten Kulturen, sondern die Ermittlung kulturspezifischer Abweichungen von omnikulturellen Antwortmustern. Die an sich sehr interessante Zielsetzung ist allerdings, so räumen auch die Autoren ein, nicht konsequent umsetzbar, da die Ermittlung omnikultureller Antwortmuster ein ebenfalls omnikulturelles Sample erfordern würde. Da dieses bei Ellis und Kimmel nicht verfügbar ist, werden die einzelnen kulturhomogenen Samples mit einem kulturheterogenen Sample verglichen, welches aus eine Auswahl aus den drei einbezogenen Kulturen besteht. Damit ist aber das kulturheterogene Sample nicht wirklich omnikulturell und einzelne Personen kommen im Zuge des Vergleichs in beiden Samples vor. Auch bei Ellis und Kimmel ist die Begründung der Modellwahl problematisch. Da eine leichte Tendenz zur Zustimmung vermutet wird (Ja-sage-Tendenz) wird das three-parameter logistic model gewählt. Diese Argumentation ist nicht völlig nachvollziehbar, da sich eine Ja-sage-Tendenz im gesamten Skalenbereich in einer Verschiebung des Itemschwierigkeitsparameters niederschlagen müßte. Insbesondere sind gerade kulturspezifische Unterschiede der Ja-sage-Tendenz höchst relevant. Der dritte Itemparameter, der die untere asymptotische Zustimmungswahrscheinlichkeit angibt, ist jedoch der am schwierigsten zuverlässig zu schätzende Parameter. Schließlich wird die Wahl eines dichotomen Modells (welche die Dichotomisierung der Daten impliziert) damit begründet, daß Modelle für polytome Daten nicht so gut erforscht wären. Die willkürliche Dichotomisierung polytomer Daten bedroht aber die Aussagekraft der Ergebnisse. 190 9 Behandlung der Äquivalenzproblematik in der empirischen, quantitativen interkulturellen Marketingforschung Zusammenfassend ist zu sagen, daß der Einsatz adäquater Methoden in der interkulturellen Forschung über weite Strecken nicht zufriedenstellend ist. Augenscheinlich ist freilich eine Tendenz zu anspruchsvolleren Analysetechniken sowohl in psychologischen als auch in wirtschaftswissenschaftlichen Untersuchungen, wobei letztere jedoch auf einem geringeren meßmethodischen Niveau erfolgen. So sind Anwendungen von Modellen der Latent Trait Theory fast ausschließlich der psychologischen Forschung vorbehalten. Der mit den LTT Modellen verbundene Paradigmenwechsel im Sinne von Kuhn (1997) in der Meßtheorie oder - weniger drastisch formuliert - die Einführung eines parallelen Paradigmas neben dem der klassischen Testtheorie ist in der wirtschaftswissenschaftlichen Forschung bislang nicht erfolgt. Betrachtet man die LTT Anwendungen in der Psychologie näher, so stellt man fest, daß diese fast ausschließlich auf das two- oder three-parameter logistic model zurückgreifen und damit der klassischen Testtheorie genauso nahe stehen wie dem Rasch-Modell. Der Hintergrund liegt in einer fast durchgängig zu verzeichnenden Ausrichtung der Forschung auf die bestmögliche Erklärung von Daten. Die wissenschaftstheoretisch adäquate Vorgangsweise (im Sinne von Popper, 1966) des Ableitens von Bedingungen aus einer - in diesem Fall - Meß-Theorie, welche die Daten empirisch überprüfbar (falsifizierbar) zu erfüllen haben, wird damit ins Gegenteil verkehrt. Unzulänglichkeiten der Daten werden vielmehr - entweder ex post im Zuge des Einsatzes mehrerer Modelle und anschließender Wahl des „besten“ oder ex ante in „Antizipation“ möglicher Probleme - in ein kompliziertes Modell absorbiert. 191 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE 10.1 Consumer-ethnocentric Tendency Die beiden Lösungsansätze zur empirischen Überprüfung der interkulturellen Validität sollen im folgenden exemplarisch dargestellt werden. Das bereits vorgestellte Konzept des Consumer Ethnocentrism (Shimp und Sharma, 1987) eignet sich dazu sowohl in meßtheoretischer als auch in inhaltlicher Hinsicht. Das meßtheoretische Interesse liegt in der Fülle an Anwendungen der CETSCALE zur Messung der Consumer Ethnocentric Tendency in kulturellen Überschneidungssituationen (z.B. Netemeyer et al., 1991; Sharma et al., 1995; Good und Huddleston, 1995; Steenkamp und Baumgartner, 1996a, 1996b; Sinkovics, 1998), welche unterschiedlichen Standards der Überprüfung der interkulturellen Validität gerecht werden. Das inhaltliche Interesse liegt im Stellenwert des Konstrukts für internationale Marketingstrategien (Salzberger et al., 1997; Sinkovics und Salzberger, 1996). Die historischen Wurzeln des Ethnozentrismusbegriffs reichen bis an den Beginn des 20. Jahrhunderts zurück (vgl. die ausführliche Darstellung des Ethnozentrismus bei Sinkovics, 1998). Das in der Soziologie und Anthropologie entwickelte Konzept wurde (und wird) als Erklärungsansatz für Gruppenkonflikte auf nationaler Ebene herangezogen. Psychologie und Psychoanalyse offerieren einerseits zahlreiche, konkurrierende oder einander ergänzende Theorien zur Erklärung der Genese des Ethnozentrismus. Die psychologische Forschung hat andererseits aber auch das Konzept als solches aufgegriffen und weiterentwickelt (so z.B. im Rahmen der Theorie der sozialen Identität von Tajfel und Turner, 1979, 1986) und damit gewissenmaßen „individualisiert“. Die Theorie der sozialen Identität verwendet zwar den Begriff des Ethnozentrismus nicht explizit, weist mit dem Konstrukt der „sozialen Identität“ aber eine Entsprechung auf. Die soziale Identität eines Individuums als inneres Spiegelbild seiner Position in gesellschaftlichen Systemen von in-groups (denen die Person selbst angehört) und out-groups (Fremdgruppen) wird als einstellungs- und verhaltensbeeinflussende Größe gesehen und nimmt damit den Charakter einer zeitlich überdauernden Persönlichkeitseigenschaft1 (Trait) an. Shimp und Sharma (1987) folgen dieser Sichtweise, wenn sie ethnozentristische Tendenzen mit dem Konstrukt der Consumer-ethnocentric Tendency auf kaufverhaltensrelevante Tatbestände 192 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE einschränken. Shimp und Sharma gehen davon aus, daß eine Persönlichkeitsvariable die Bereitschaft, ausländische Produkte zu kaufen, beeinflußt. Zur Messung dieser latenten, weil nicht direkt beobachtbaren, Variablen wurde von Shimp und Sharma (1987) in den USA die CETSCALE entwickelt. Aus einem ursprünglich 117 Items umfassenden Pool wurden schließlich auf der Basis von Purifikationsstudien (Shimp und Sharma, 1987, S.281ff) 17 Items ausgewählt, welche das Meßinstrument konstituieren. Für den Einsatz der Skala in anderen Kulturen als jener der USA stellt sich somit die Frage der Güte der Skala in jenen Kulturen und - wenn ein Vergleich unterschiedlicher Kulturen angestellt werden soll - die der interkulturellen Validität. Die exemplarische Darstellung der Prüfung der Äquivalenz der Erhebungsdaten (und damit die Begründung interkultureller Validität) erfolgt am Beispiel einer Replikation der CETSCALE in Österreich (Sinkovics, 1998) und in Südkorea (Sharma et al., 1995). Tabelle 10 gibt einen Überblick über die Stichproben und deren Charakteristika in Österreich und Südkorea. Geographisches Anwendungsgebiet Sinkovics (1998) Sharma et al. (1995) Österreich Südkorea Landessprache Gewährleistung der Übersetzungsäquivalenz deutsch Vorwärts-Rückwärtsübersetzung koreanisch Vorwärts-Rückwärtsübersetzung Eingesetztes Instrument CETSCALE; ursprünglicher Itempool der US-Studie von Shimp und Sharma (1987) (117 Items) CETSCALE; 17 Items umfassende Skala von Shimp und Sharma (1987) Antwortskala siebenstufige LikertSkala, Endpunkte verbalisiert siebenstufige LikertSkala, Endpunkte verbalisiert Tabelle 9: Datenerhebungs- und Stichprobencharakteristika in Österreich und Südkorea 1. Auf eine mögliche kritische Hinterfragung sei an dieser Stelle nur hingewiesen. Die Ausprägung auf der Persönlichkeitseigenschaft könnte gerade in diesem Beispiel durchaus auch gesellschaftlich mitdeterminiert sein. Der Trait wäre demnach eine Funktion von Person und Gesellschaft, ethnozentrische Tendenzen (zum Teil) die Internalisierung sozialer Normen. Insoweit wäre bei einer Änderung des sozialen Umfelds der zeitlich überdauernde Charakter der Persönlichkeitseigenschaft (welche dann besser nicht so bezeichnet werden sollte) in Frage gestellt. Das tatsächlich persönliche Element wäre die individuelle Abweichung von einem sozial determinierten Mittelwert. 193 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Sinkovics (1998) Sharma et al. (1995) Stichprobenziehung „questionnaire-drop-in“Technika; Quotensampling nach Geschlecht, Alter und Schulbildung „questionnaire-drop-in“Technik, mail surveyb; Quotensampling nach Geschlecht („questionnaire-drop-in“) und Alter und Einkommen (mail survey) Stichprobenumfang n=1105 n=667c Stichprobencharakteristika Repräsentativität Zielsetzung Einschränkungen landesweit landesweit Bias bezüglich Ostöster- Bias bezüglich städtireich (Wien, Niederöster- scher Ballungsräumed reich und Burgenland überrepräsentiert) Skala siebenstufige LikertSkala, Endpunkte verbalisiert siebenstufige LikertSkala, Endpunkte verbalisiert Erhebungszeitraum Oktober - Dezember 1993 1992/93 Tabelle 9: (Forts.) Datenerhebungs- und Stichprobencharakteristika in Österreich und Südkorea a. Studenten wurden beauftragt, nach Quotenvorgaben den Fragebogen zu distribuieren. b. 700 Fragebögen wurden an Studenten ausgegeben, 1.500 Personen wurden postalisch kontaktiert. c. 125 Datensätze entstammen der mail survey, 542 Datensätze wurden im Rahmen des questionnaire-drop-in erhoben. d. Dieser ergibt sich aus der Konzentration des questionnaire-drop-in auf Seoul und eine weitere, nicht namentlich genannte Stadt. Die Problematik des Vergleichs von Daten aus Südkorea und Österreich folgt unmittelbar aus der trivial ersichtlichen Unterschiedlichkeit der beiden Kulturen. Bei der konkreten Betrachtung der kulturellen Merkmale ist jedoch auf eine Trennung substanztheoretischer Sachverhalte und solcher, welche zu Meßartefakten führen könnten, also meßtheoretischer Aspekte, zu achten. Obwohl diese aufgrund des Betrachtungswinkels dieser Untersuchung nicht im Vordergrund stehen, soll auch auf substanztheoretische Überlegungen eingegangen werden. 194 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Kulturdimension Österreich Südkorea Individualismus (IDV score) 55 18 Machtdistanz (PDI score) 11 60 Maskulinität (MAS score) 79 39 Unsicherheitsvermeidung (UAI score) 70 85 Tabelle 10: Österreich und Südkorea auf Hofstedes (1991, 1992) Kulturdimensionen (Faktorscores, die sich im Bereich von 0 bis 100 verteilen; höhere Werte bedeuten stärkere Ausprägung im Sinne der Dimensionsbeschreibung) Als brauchbare Operationalisierung von Kultur bieten sich die Kulturdimensionen von Hofstede (1991, 1992) an (vgl. zu der Bedeutung der Dimensionen Kapitel 3.3 auf Seite 30). Hinsichtlich des Individualismus-Kollektivismus unterscheiden sich Österreich und Südkorea deutlich. Österreich weist darin einen Score von 55 auf und liegt damit im Mittelfeld aller von Hofstede betrachteten Kulturen. Südkorea zählt mit einem Score von 18 dagegen zu den kollektivistischen Kulturen. Substanztheoretisch führt dieser Gegensatz zur Hypothese, wonach Südkorea von einem stärkeren Konsumentenethnozentrismus geprägt ist als Österreich. Begründen läßt sich diese Vermutung damit, daß ethnozentrische Motive (Importe schaden der Volkswirtschaft, erhöhen Arbeitslosigkeit bzw. tragen dazu bei) per definitionem kollektivbezogen sind. Der Erwerb eines importierten, aber billigeren Produkts statt eines aus heimischer Produktion, verschafft dem Individuum einen ökonomischen Vorteil, welcher - bei Annahme gleicher Qualität - in der Preisdifferenz der beiden Produkte besteht. Gesamtgesellschaftlich führt dies - folgt man der Argumentation des Ethnozentrismus - zu einem Schaden, welcher allerdings nicht unmittelbar das Individuum betrifft. Konsumentenethnozentrismus ist also unmittelbar mit der Abwägung individueller und gesamtgesellschaftlicher Nutzenaspekte verbunden. Auf der Dimension Machtdistanz zählt Österreich zu den Kulturen mit der geringsten Machtdistanz, während Südkorea einen sehr hohen Score aufweist. Da hohe Machtdistanz hohe Durchsetzbarkeit sozialer Normen impliziert, spricht auch der Unterschied auf dieser Dimension für stärkeren Konsumentenethnozentrismus in Südkorea. Auf die auch theoretisch enge Verbundenheit von Individualismus-Kollektivismus und Machtdistanz wurde bereits früher hingewiesen. 195 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Südkorea weist auf der Dimension Maskulinität einen deutlich geringeren Wert auf als Österreich, legt also vergleichsweise mehr Gewicht auf Solidarität und Gemeingefühl. Auch dies stützt die Hypothese höheren Ethnozentrismus in Südkorea. Schließlich ist die Tendenz zur Unsicherheitsvermeidung in Südkorea etwas, aber nicht deutlich höher als in Österreich. Eine Implikation für die substanztheoretische Hypothese des kulturellen Einflusses ergibt sich aus dieser Dimension daher nicht. Auch die Kulturstandards (Thomas, 1991) Südkoreas belegen die auf Hofstede beruhenden Schlußfolgerungen. Brüch und Thomas (1995, S.31) bezeichnen starke Hierarchieorientierung als „das dominante Ordnungsprinzip der koreanischen Gesellschaft“ und bestätigen damit die hohe Machtdistanz des Landes. Die Ursache dafür liegt in der langen konfuzianischen Tradition als Philosophie und Staatsdoktrin unter der Yi-Dynastie (1392-1910). Südkorea betont weiters sehr stark den Kulturstandard der Beziehungsorientierung (Brüch und Thomas, 1995, S.74). Auch dies hat Wurzeln im Konfuzianismus. Im koreanischen wird die Haltung des Menschen, Werte des Kollektivs vor individuellen Werten zu stellen, als Ui bezeichnet. Verbundenheit mit seinen Mitmenschen ist tugendhafter als kurzfristiges Profitstreben. Eng damit verbunden ist ein ausgeprägtes Harmoniestreben, ein Streben nach Eintracht und gemütlicher Atmosphäre. Mit individuellen Zielen, welche auf Kosten anderer erreicht werden, ist nach koreanischer Auffassung eigentlich nichts erreicht. Auch dies spricht deutlich für die Annahme stärkerer konsumentenethnozentrischer Tendenzen im Vergleich zu mitteleuropäischen Kulturen. Die Kulturstandards der Gruppenorientierung und der Loyalität verstärken die Basis dieser Hypothese. Koreaner sehen das Individuum stets als Element von Gruppen. „Dadurch kommt es allgemein zu einer starken Unterscheidung zwischen Personen, die Mitglied in der eigenen Gruppe sind, und solchen, die es nicht sind.“ (Brüch und Thomas, 1995, S.89). Aufgrund der exponierten geographischen Lage, wurde Korea in der Geschichte regelmäßig von fremden Mächten (China, Japan) bedroht und angegriffen (in der Zeit der Yi-Dynastie im Schnitt alle 1.44 Jahre!). Daraus resultieren starke und nach wie vor wirksame Unsicherheitsgefühle gegenüber Fremden. Der Aufbau von Vertrauen ist dementsprechend schwierig. Der Standard der Loyalität schließlich bewertet gegenseitige Hilfsbereitschaft, Unterstützung und Förderung als äußerst positiv (Brüch und Thomas, 1995, S.99). 196 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Auch andere Befunde sprechen für grundlegende Unterschiede zwischen den beiden betrachteten Kulturen und bestätigen die Ergebnisse von Hofstede, sowie von Brüch und Thomas (1995). Du Preez et al. (1994) beschreiben Südkorea als typisches ostasiatisches Land und Verbindungsglied von Asien und Japan. Zahlreiche aus westlicher Sicht japanische Kulturwerte gehen tatsächlich auf koreanische Ursprünge zurück. Südkorea zeichnet sich durch ein traditionell starkes, ökonomisch aktives Staatswesen aus, die Gesellschaft teilt ausgeprägte national(istisch)e Gefühle. Wirtschaftlich bedeutsam ist Südkoreas Fertigungsindustrie. So erreichte die Jahresproduktion der exportstarken Automobilindustrie 1990 bereits fast die Millionengrenze (987.000 Fahrzeuge, wobei 340.000 davon exportiert wurden). Den hohen Exportzahlen stand bis 1987 allerdings ein völliges Einfuhrverbot für Kraftfahrzeuge gegenüber. Nach wie vor behindern tarifäre Handelshemmnisse den Import äußerst effektvoll (im Jahre 1994 beliefen sich Einfuhrzölle für Autos auf etwa 100% des Warenwerts). Zusammenfassend ergibt sich eine inhaltlich gut fundierte Hypothese, wonach Südkorea durch höheren Konsumentenethnozentrismus charakterisiert ist als Österreich. Diese Überlegungen geben jedoch keinerlei Aufschluß darüber, welche spezifischen meßtheoretischen Faktoren die Vergleichbarkeit bedrohen könn(t)en. Tatsächlich sind inhaltlich-fundierte meßtheoretische Hypothesen wesentlich schwieriger zu entwickeln als substanztheoretische. In aller Regel ist dies nicht weiter problematisch. Die meßtheoretische Zielsetzung unterscheidet sich von der substanztheoretischen fundamental dadurch, daß auf der Substanzebene Unterschiede hypothetisch angenommen werden und Forschungsprojekte darauf abzielen, diese Unterschiede empirisch zu belegen. In der Terminologie des statistischen Hypothesentestens ist die Alternativhypothese quasi die „Wunschhypothese“. Ein statistisch bedeutsamer Unterschied ohne inhaltlich fundierte Hypothese, typisch für exploratives Vorgehen, ist nicht viel mehr als ein „Exemplar einer Schmetterlingssammlung“, und eine Einbindung der empirischen Erkenntnis in einen theoretischen Rahmen ist unmittelbar nicht möglich. Bei der meßtheoretischen Prüfung dagegen ist die Nullhypothese, wonach kein Unterschied der Meßfunktionalität besteht (Biasfreiheit der Messung, gleiche Eignung der Items zur Charakterisierung des Konstrukts, usw.), die „bevorzugte“ Hypothese. Die Prüfung der interkulturellen Validität zielt eben darauf ab, einen empirischen Beleg zu fin- 197 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE den, daß die Messung in den betrachteten Kulturen äquivalent erfolgt. Explizite a priori Hypothesen, warum die Meßäquivalenz nicht gegeben sein sollte, erscheinen daher nicht unbedingt erforderlich. Im Falle der Falsifikation der interkulturellen Validität ist jedoch eine Ursachenexploration angezeigt, um Verbesserungen im Meßinstrument, dem Erhebungs- und/oder Forschungsdesign vornehmen zu können. Ausdrückliche meßtheoretische Alternativhypothesen sind dann sinnvoll und notwendig, wenn der Fokus auf meßtheoretische Fragestellungen gerichtet ist. Eine solche könnte z.B. darin bestehen, die Eignung einer 10-stufigen Skala in zwei Kulturen zu untersuchen, wobei eine Kultur stärker mit 10-stufigen Skalen vertraut ist (etwa aufgrund des Schulnotensystems) als die andere. Im folgenden werden die beiden behandelten methodischen Ansätze zur Bestimmung der Datenäquivalenz exemplarisch dargestellt. 10.2 Überprüfung der Datenäquivalenz mittels konfirmatorischer Mehrgruppen-Faktorenanalysen Die Prüfung der Datenäquivalenz erfolgt entlang folgender Schritte (vgl. Abbildung 55 auf Seite 206): • Teilung der Stichproben Österreich und Südkorea in ein Kalibrierungs- und in ein Validierungssample • Überprüfung von Faktorenmodellen in beiden Kulturen (Kalibrierungssamples) • Überprüfung der konfiguralen Invarianz (Mehrgruppenanalyse) • Überprüfung der vollen metrischen Invarianz • Fakultativ: Einschränkung auf partielle metrische Invarianz • Überprüfung der vollen skalaren Invarianz • Fakultativ: Einschränkung auf partielle skalare Invarianz • Überprüfung der Ergebnisse an den Validierungssamples 10.2.1 Teilung der Stichproben Die Teilung der Stichproben in ein Kalibrierungssample und ein Validierungssample dient der Überprüfbarkeit der Ergebnisse im Sinne einer Kreuzvalidierung. Die Parameterschätzung und Testung der Invarianz erfolgt anhand der Kalibrierungssamples. Das 198 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Endergebnis wird an den Validierungssamples kreuzvalidiert. Diese Vorgangsweise ist angezeigt, da die Invarianzprüfung Schritte beinhaltet, welche eine Anpassung des Modells an die Daten vorsehen. So bestehen keine a priori Hypothesen, welche Items nicht metrisch invariant sind und deren Parameter daher im Zuge der partiellen metrischen Invarianz nicht gruppenübergreifend geschätzt werden. Konkret wird eine zwischen 0 und 100 gleichverteilte Zufallsvariable zur Teilung der beiden Stichproben am jeweiligen Median herangezogen.2 Land Österreich Südkorea Median der Zufallsvariable Stichprobenumfang Stichprobenumfang (insgesamt) (unter Berücksichtigung von fehlenden Werten) Kalibrierungssample n=553 n=548 Validierungssample n=552 n=548 Kalibrierungssample n=333 n=323 Validierungssample n=334 n=334 Stichprobe 50.939 51.247 Tabelle 11: Kalibrierungs- und Validierungssamples 10.2.2 Überprüfung von Faktorenmodellen in beiden Kulturen Die Invarianzprüfung basiert auf einem Vergleich von stringenteren Modellen mit einem Basismodell der konfiguralen Invarianz. Die Haltbarkeit des Basismodells hängt neben der gleichen Ladungsstruktur in den beiden Kulturen auch von der Güte des Modells innerhalb der Kulturen ab. Aus diesem Grund werden in beiden Stichproben vorerst getrennt konfirmatorische Faktorenanalysen durchgeführt, um die Eindimensionalität der Daten zu prüfen und gegebenenfalls durch die Ausscheidung von Items zu gewährleisten. Zwar ist Eindimensionalität nicht als absoluter Begriff zu sehen, sondern vielmehr „a relative matter“ (Andrich, 1988a, S.9) und hängt vom Anwendungsfall ab. Im konkreten Fall ist eine Bestimmung der Eindimensionalität durch eine konfirmatorische Faktorenanalyse aber essentiell, da Folgeschritte eben auf letzterer aufbauen. Da die Prüfung der 2. Der SPSS 7.5 Befehl dazu lautet: [COMPUTE random = RV.UNIFORM(0,100)]. 199 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE konfiguralen Invarianz auf denselben Items beruhen soll, wird darauf geachtet, bei der Ausscheidung von Items in beiden Kulturen analog vorzugehen. Diese Prüfung und alle folgenden basieren auf Parameterschätzungen und Modell-Fit-Bestimmungen im Rahmen von Lisrel Version 8.14 (Jöreskog und Sörbom, 1993)3. Modell-Fit der 17 CETSCALE Items Richtwert für guten Modell-Fit Österreich Südkorea 361.84b (119) <.01 χ2 (df) p (n.s.)a 681.85 (119) <.01 RMSEA < .08 .09 .08 AGFI > .90 .80 .85 NFI > .90 .85 .85 NNFI = TLI > .90 .86 .88 Tabelle 12: Fit-Werte der getrennten konfirmatorischen Faktorenanalysen auf der Basis der 17 CETSCALE-Items a. Im Idealfall ist der χ2-Wert nicht signifikant. Zu beachten sind jedoch die in Kapitel 6.4 auf Seite 107 behandelten Einschränkungen. An dieser Stelle werden auch alle anderen Fit-Indikatoren erläutert. b. Der geringere χ2-Wert in Südkorea ist lediglich durch den kleineren Stichprobenumfang zu erklären. Die in Tabelle 12 ausgewiesenen Fit-Werte zeigen, daß die Eindimensionalität im Sinne der faktorenanalytischen Ergebnisse nicht als gesichert gelten kann. Die Modifikationsindexwerte bezüglich der Fehlerkovarianzen geben Aufschluß über mögliche Verbesserungen des Modells. Zwar ist es im Prinzip möglich, Fehlerkovarianzen einzuführen, diese als zu schätzen, aus theoretischer ist dies allerdings nicht zufriedenstellend (vgl. Salzberger, 1997), da mögliche Mehrdimensionalität dadurch maskiert werden könnte. Aus inhaltlichen Überlegungen erscheint es andererseits nicht sinnvoll, vom Konzept der Eindimensionalität im Falle der CETSCALE abzuweichen. Eine nähere Betrachtung der Items, deren Kovarianzen betroffen sind, zeigt, daß diese Items inhaltlich hochgradig übereinstimmen, also die gleiche Facette des Konstrukt ausdrücken.4 Die hohe Übereinstimmung im Gehalt des Items führt offensichtlich zu einer über die auf die latente Di3. Die Syntax der Modelle wird für diese und alle weiteren Ebenen der Invarianzprüfung in Anhang C bis H angegeben. 200 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE mension zurückzuführende Gemeinsamkeit hinausgehende Kovarianz. Das zweite Item liefert keine Information, die auch nicht schon im ersten Item vorhanden ist. Aus diesem Grund wird das zweite (im Instrument später folgende) Item ausgeschieden. Die Plausibilität dieser Entscheidung ist auch dadurch begründet, daß bei Konsistenzneigung der befragten Personen, die zweite Antwort von der ersten abhängt und nicht umgekehrt. Nach der Ausscheidung eines Items wurden die Faktorenanalysen wiederholt und die FitWerte neu berechnet. In der Folge erweist sich die Eliminierung von sechs weiteren Items als erforderlich, um akzeptable Modelle zu erhalten (vgl. Tabelle 13). Somit basiert die weiterführende Analyse auf 10 CETSCALE Items5. Modell-Fit der 10 CETSCALE Items Richtwert für guten Modell-Fit Österreich Südkorea 83.19 (35) <.01 χ2 (df) p (n.s.) 126.74 (35) <.01 RMSEA < .08 .07 .07 AGFI > .90 .93 .93 NFI > .90 .94 .91 NNFI = TLI > .90 .95 .93 Tabelle 13: Fit-Werte der getrennten konfirmatorischen Faktorenanalysen auf der Basis von zehn CETSCALE-Items 10.2.3 Überprüfung der konfiguralen Invarianz Auf der Grundlage der zehn ausgewählten CETSCALE-Items erfolgt die Überprüfung der konfiguralen Invarianz. Die χ2-Statistik ergibt sich logisch zwingend aus der Summe der entsprechenden Statistiken der getrennten Modelle. Diese Größe dient als Referenzwert für Vergleiche mit Modellen metrischer und skalarer Invarianz. Die neuberechneten Fit-Werte RMSEA, NFI und NNFI erweisen sich als zufriedenstellend. Dementsprechend 4. Als Beispiel seien die signifikanten Modifikationsindexwerte von 88.44 in Österreich bzw. 32.05 in Südkorea (Werte über 3.84 gelten als signifikant) für zwei Items angeführt, welche einerseits die Meinung „Es sollten nur Produkte importiert werden, die nicht in Österreich/ Korea erhältlich sind.“ und andererseits die Aussage „Man sollte nur jene ausländischen Produkte kaufen, die nicht im eigenen Land verfügbar sind.“ zum Inhalt haben. 5. Die Darstellung der Items in Anhang A gibt Auskunft darüber, welche Items ausgeschieden werden. 201 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE kann von einer grundlegenden interkulturellen Übereinstimmung von zehn CETSCALE Items ausgegangen werden. Modell-Fit der 10 CETSCALE Items Richtwert für guten Modell-Fit Konfigurale Invarianz (Österreich-Südkorea) χ2 (df) p (n.s.) 209.93 (70) <.01 RMSEA < .08 .07 NFI > .90 .93 NNFI = TLI > .90 .94 Tabelle 14: Fit-Werte des Modells konfiguraler Invarianz auf der Basis von zehn CETSCALE Items 10.2.4 Überprüfung der vollen metrischen Invarianz Auf der Grundlage des Modells der konfiguralen Invarianz werden nun die Ladungsparameter aller Items gruppenübergreifend gleichgesetzt. Dadurch wird die Stringenz des Modells erhöht und der Modell-Fit im allgemeinen verringert. Die Signifikanz der ModellFit-Verschlechterung wird mittels χ2-Differenzentest geprüft. Im konkreten Fall verschlechtert sich der χ2-Wert von 209.93 (df=70) auf 259.89 (df=79). Somit ergibt sich ein ∆χ2 von 49.96 (df=9). Die kritische Grenze liegt bei einem Signifikanzniveau von 5% bei 16.92, die Fit-Verringerung ist also statistisch bedeutsam und das Modell der vollen metrischen Invarianz nicht haltbar. 10.2.5 Partielle metrische Invarianz Die Modifikationswerte der Ladungsparameter geben einen Hinweis darauf, für welche Items metrische Invarianz nicht besteht. Das Konzept der partiellen Invarianz sieht vor, für diese Items die Beschränkung gleicher Parameterschätzungen aufzuheben. Im Beispiel wird schrittweise vorgegangen und nach der Aufhebung der Beschränkung für ein Item eine Bestimmung des Modell-Fits vorgenommen. Schließlich wird für drei Items6 die Hypothese metrischer Invarianz verworfen, gleichbedeutend mit der Haltbarkeit der metrischen Invarianz für sieben CETSCALE Items. Die Prüfstatistik ∆χ2 ist mit 10.22 bei 6. Anhang A gibt Aufschluß, um welche Items es sich dabei handelt. 202 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE df=6 geringer als der kritische Wert χ25%=12.59. Darüber hinaus ist nun kein Modifikationsindexwert signifikant. 10.2.6 Überprüfung der vollen skalaren Invarianz Da drei Items metrisch nicht invariant sind, bezieht sich die Prüfung der „vollen“ skalaren Invarianz nur auf die verbleibenden sieben Items. Lediglich für diese werden nun die Item-Intercepts auf den gleichen Schätzwert restringiert. Das resultierende ∆χ2=307.37 bei df=12 übertrifft den kritischen Wert χ25%=21.03 deutlich, die Fit-Verschlechterung erweist sich somit als signifikant. 10.2.7 Partielle skalare Invarianz Analog zur partiellen metrischen Invarianz werden nun für einzelne Items die Intercepts frei, d.h. in beiden Gruppen getrennt, geschätzt. Wieder liefern die Modifikationsindexwerte Anhaltspunkte zur Auswahl dafür relevanter Items. Nach iterativer Vorgangsweise (Itemauswahl, Fitbestimmung, Itemauswahl, usw.) werden die Beschränkungen für drei Item-Intercepts7 aufgehoben. Für vier Items ist die Hypothese der skalaren Invarianz haltbar. Die Fitdifferenz ∆χ2 beträgt 12.66 bei df=9 und liegt unter dem kritischen Wert χ25%=16.92. 10.2.8 Kreuzvalidierung der Ergebnisse Die Wiederholung der Analysen mit den Validierungssamples bestätigt alle Ergebnisse, welche auf der Basis der Kalibrierungssamples abgeleitet worden sind. Die Resultate im Detail, sowie eine Zusammenfassung der Prüfschritte der Invarianzprüfung gibt Tabelle 15 wieder. Abbildung 55 stellt den Ablaufplan der Untersuchung dar. Die dabei verwendeten Item-Codes sind im Anhang A erläutert. 7. Anhang A gibt Aufschluß, um welche Items es sich dabei handelt. 203 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Samples Kalibrierung χ2 ∆χ2 χ25% (df) (df) (df) Konfigurale Invarianza 209.93 - - Volle metrische Invarianz 259.89 49.96 16.92 (79) (9) (9) 220.15 10.22 12.59 (76) (6) (6) Skalare Invarianzb 517.30 307.37 21.03 (82) (12) (12) Partielle skalare Invarianz 222.59 12.66 16.92 (79) (9) (9) 253.07 - - 262.38 9.31 12.59 (76) (6) (6) 264.48 11.41 16.92 (79) (9) (9) Modell Partielle metrische Invarianz Validierung Konfigurale Invarianz (70) (70) Partielle metrische Invarianz Partielle skalare Invarianz Tabelle 15: Schritte der Invarianzprüfung (Kalibrierungssamples) und Kreuzvalidierung (Validierungssamples) auf der Basis von 10 CETSCALE Items a. Basismodell b. Auf der Basis der partiellen metrischen Invarianz 10.2.9 Zusammenfassung der Analyseschritte Abbildung 55 stellt die Analyseschritte des faktorenanalytischen Ansatzes und deren Zielsetzungen zusammenfassend dar. Zunächst erfolgt eine Teilung der Stichproben, um eine Kreuzvalidierung der Ergebnisse zu ermöglichen. Konfirmatorische Faktorenanalysen, welche unabhängig voneinander für den österreichischen und den südkoreanischen Datensatz vorgenommen werden, dienen dazu, die Eindimensionalität der Items zu gewährleisten. Im konkreten Fall der CETSCALE führt dies zu einer Reduktion der ursprünglich 17 Items auf zehn. Daran anschließend erfolgt die Schätzung des Basismodells der konfiguralen Invarianz. Dieses Modell wird simultan für beide Kulturen geprüft. Der χ2-Wert (209.93) dient als Vergleichswert der Modellgüte für Modelle der metrischen und skalaren Invarianz. Aufbauend auf einer übereinstimmenden Struktur wird die volle metrische Invarianz der zehn Items geprüft. Für drei Items wird die Hypothese der metrischen Invarianz zurückgewiesen, volle metrische Invarianz somit nicht bestätigt. Für sieben metrisch invariante Items erfolgt abschließend die Prüfung auf skalare Invarianz durch Gleichsetzung der Item-Intercepts. 204 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Für drei Items läßt sich skalare Invarianz nicht bestätigen, vier Items erweisen sich als skalar invariant. Die partielle skalare Invarianz bezieht sich daher auf vier Items, drei weitere sind nur metrisch invariant und ebenfalls drei Items nur konfigural invariant. Die Kreuzvalidierung überprüft die Modelle der konfiguralen, partiell metrischen und partiell skalaren Invarianz und bestätigt die Ergebnisse auf allen drei Ebenen. 205 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Ziele und Analysen Datenbasis CETSCALE 17 Südkorea (KOR) (Sharma et al., 1995) 17 Items, n=667 Ziel: Test auf interkulturelle Vergleichbarkeit: Test auf konfigurale, metrische und skalare Invarianz CETSCALE 17 Österreich (AT) (Sinkovics, 1998) 17 Items, n=1105 n=333 n=553 Split in: Split in: n=334 n=552 KalibrierungsKalibrierungssample Validierungs- sample Validierungssample sample Validierungssamples konfirmator. Faktorenanalyse (CFA) für AT und KOR separat Ziel: Test auf Eindimensionalität der CETSCALE Kalibrierungssamples Items eliminiert: t16, t12, t15, t7, t13, t9, t14 Südkorea 10 Items eindimensional RMSEA=.065 graduelle Elimination von Items Ziel: akzeptabler Goodness-of-Fit der eindimensionalen Modelle Österreich 10 Items eindimensional RMSEA=.069 Kriterium: Modifikationsindices multi-group CFA (AT und KOR) Constraints auf non-salient loadings Ziel: Test auf konfigurale Invarianz konfigurale Invarianz bestätigt (10 Items) RMSEA=.068 Basismodell mit χ2=209.93, df=70 multiple-group CFA equality constraints auf salient loadings Ziel: Test auf metrische Invarianz volle metrische Invarianz nicht bestätigt ∆χ2=49.96, df=9, p<.05 equality constraints aufgehoben: t8, t1, t4 multi-group CFA einige equality constraints aufgehoben Ziel: Test auf partielle metrische Invarianz partielle metr. Invarianz bestätigt (7 Items) ∆χ2=10.22, df=6, p>.05 Kriterium: Modifikationsindices Abbildung 55: Empirische Überprüfung der interkulturellen Validität der CETSCALE am Beispiel von Österreich und Südkorea mittels konfirmatorischer Mehrgruppen-Faktorenanalysen 206 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Ziele und Analysen Datenbasis Validierungssamples Metrische Invarianz multi-group CFA equality constraints auf Item-Intercepts Ziel: Test auf skalare Invarianz skalare Invarianz nicht bestätigt ∆χ2=307.36, df=12, p<.05 equality constraints aufgehob.: t10, t17, t5 multi-group CFA einige equality constraints aufgehoben Ziel: Test auf partielle skalare Invarianz partielle skalare Invariance bestät. (4 Items) ∆χ2=12.66, df=9, p>.05 Kriterium: Modifikationsindices Validierungssamples konfigurale Invarianz bestätigt (10 Items) RMSEA=.077 Basismodell mit χ2=253.07, df=70 multi-group CFA (AT und KOR) Constraints auf non-salient loadings Ziel: Test auf konfigurale Invarianz, Kreuzvalidierung multi-group CFA, partielle equality constraints auf Ladungen Ziel: Test auf partielle metrische Invarianz, Kreuzvalidierung partielle metrische Invar. bestät. (7 Items) ∆χ2=9.31, df=6, p>.05 multi-group CFA, partielle equality constraints auf Item-Intercepts Ziel: Test auf partielle skalare Invarianz, Kreuzvalidierung partielle skalare Invarianz bestät. (4 Items) ∆χ2=11.41, df=9, p>.05 Abbildung 55: (Forts.) Empirische Überprüfung der interkulturellen Validität der CETSCALE am Beispiel von Österreich und Südkorea mittels konfirmatorischer Mehrgruppen-Faktorenanalysen 207 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE 10.2.10 Vergleichbarkeit der CETSCALE in Österreich und Südkorea Die Überprüfung der interkulturellen Validität der CETSCALE für Österreich und Südkorea auf der Basis der Faktorenanalyse stützt die Hypothese der Vergleichbarkeit und Aussagekraft von Mittelwertsvergleichen über Kulturen hinweg. Zehn Items erfüllen die Bedingung konfiguraler Invarianz, sieben davon sind darüber hinaus metrisch, vier auch skalar invariant. Mittelwertsvergleiche auf der Basis von Rohscores sind nur für skalar invariante Items zulässig. Um eine Beschränkung auf vier Items (und damit unweigerlich eine Reduktion von Reliabilität und in der Folge Validität der Skala) zu vermeiden, wird die substanztheoretische Hypothese eines Mittelwertsunterschieds ebenfalls im Rahmen der konfirmatorischen Mehrgruppen-Faktorenanalyse geprüft. Ausgehend vom Modell der partiellen skalaren Invarianz wird eine weitere Beschränkung der Parameterschätzung - hinsichtlich des Mittelwerts der latenten Variable, also des Faktors - eingeführt und damit die Nullhypothese repräsentiert. Führt diese Beschränkung auf die gleiche Parameterschätzung zu einer signifikanten Fitverschlechterung, so sind die latenten Mittelwerte verschieden. Sowohl die Kalibrierungs- als auch die Validierungsdaten führen zur Verwerfung der Nullhypothese. Die Verschlechterung des Fits ist in beiden Fällen signifikant (∆χ2=183.06, df=1, p<.0001 bzw. ∆χ2=212.90, df=1, p<.0001). Südkorea weist also höhere Werte des Konsumentenethnozentrismus auf als Österreich. 10.3 Überprüfung der Datenäquivalenz auf der Basis der Latent Trait Theory Aufgrund der in Kapitel 7 ausführlich beschriebenen besonderen Eigenschaften des Rasch-Modells wird die Anwendbarkeit von Latent Trait Theory basierten Modellen vorerst auf dieses Modell eingeschränkt. Als Ausgangspunkt der Analysen dient der österreichische Datensatz, wobei die erste Zielsetzung in der Überprüfung der Modellkonformität der Daten besteht. Erweisen sich die Daten nämlich als nicht durch das Rasch-Modell beschreibbar, so ist eine Überprüfung der Datenäquivalenz auf der Basis des betrachteten Latent Trait Theory Modells nicht möglich. Wenn und nur wenn polytome Modelle falsifiziert werden, können allerdings Antwortkategorien zusammengefaßt werden, um die Tauglichkeit dichotomer Modelle zu prüfen. Die Wahl des österreichischen Datensatzes ist darin begründet, daß dieser aus mehr, nämlich jenen 117 Items besteht, welche den ursprünglichen Itempool zur Entwicklung der CETSCALE in den USA darstellen. Die Modellprüfung zielt daher nicht nur auf die Prüfung der Modellkonformität der 17 Items umfassenden CETSCALE als notwendige Voraussetzung für Vergleiche mit dem südko- 208 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE reanischen Datensatz ab, sondern auch auf die Entwicklung eines, möglicherweise, umfassenderen Rasch-Modell-konformen Instruments für Österreich. Die zweite Zielsetzung der Analysen besteht in der Überprüfung der südkoreanischen Daten auf deren Übereinstimmung mit dem Rasch-Modell. Schließlich besteht die darauf aufbauende dritte Zielsetzung in der Analyse der Vergleichbarkeit der Daten. Abbildung 56 gibt die konkreten Ablaufschritte wieder. Überprüfung des polytomen Rasch-Modells in Österreich Überprüfung des polytomen Rasch-Modells in Südkorea für modellkonforme Items wenn Zusammenfassung von Kategorien erforderlich für modellkonforme Items Vergleich der Modell-Parameter in Österreich und Südkorea wenn Zusammenfassung von Kategorien erforderlich Überprüfung des dichotomen Rasch-Modells in Österreich für nicht modellkonforme Items Überprüfung des dichotomen Rasch-Modells in Südkorea für modellkonforme Items für modellkonforme Items Vergleich der Modell-Parameter in Österreich und Südkorea One-parameter model von Rasch Überprüfung des Modells von Birnbaum in Österreich Two-parameter model von Birnbaum Abbildung 56: Ablaufplan der empirischen Überprüfung der interkulturellen Validität der CETSCALE am Beispiel von Österreich und Südkorea mittels Latent Trait Theory basierter Modelle 209 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE 10.3.1 Überprüfung des polytomen Rasch-Modells in Österreich Da die einzelnen Antwortkategorien der CETSCALE Items (einschließlich derer im ursprünglichen Itempool) nicht verbalisiert sind8, sondern lediglich die Endpunkte der Skala, wird keine itemübergreifende Einschränkung hinsichtlich der Thresholds vorgenommen (wie dies beim Rating-Scale-Modell der Fall ist). Statt dessen wird das allgemeinste Rasch-konforme Modell für polytome Daten, das Partial Credit Model (Masters, 1982; Andrich, 1988b), der Analyse zugrundegelegt. Somit ist für alle Items die meßtheoretische Hypothese formuliert, daß die Antwortkategorien geordnet sind, also Ordinalskalenniveau aufweisen. Es wird weder davon ausgegangen, daß die Abstände zwischen zwei aufeinanderfolgende Kategorien innerhalb eines Items gleich sind, noch daß Abstände zwischen zwei bestimmten Kategorien für alle Items gleich sind. Im Vergleich zur klassischen Testtheorie, wo Äquidistanz innerhalb aller und über alle Items angenommen wird, sind die hier getroffenen Voraussetzungen deutlich weniger anspruchsvoll und - vor allem - empirisch überprüfbar. Alle Parameterschätzungen werden mit WINMIRA (von Davier, 1996) vorgenommen. Da das Rasch-Modell von der Eindimensionalität der Items ausgeht, wird vorerst der gesamte Itempool (117 Items) einer explorativen Faktorenanalyse (Hauptachsenmethode) unterzogen9. Es wird keine Rotation der Lösung vorgenommen, da kein mehrdimensionales Konstrukt abgeleitet werden soll. Alle Items, deren Ladungswert auf dem ersten Faktor kleiner als .5 ist, werden aus der weiteren Betrachtung ausgeschlossen. Auf der Basis dieses Kriteriums verbleiben 44 Items10 für eine anschließende konfirmatorische Faktorenanalyse, um die Eindimensionalität zu prüfen. Analog zur Vorgangsweise im Zuge der Prüfung der Datenäquivalenz mittels konfirmatorischer Mehrgruppen-Faktorenanalysen, werden solange Items ausgeschieden, bis kein signifikanter Modifikationsindex bezüglich Fehlerkovarianzen mehr besteht und der Modellfit zufriedenstellend ist. Schließlich wird ein Set von 26 Items ausgewählt, welches die Grundlage für die Prüfung der Anwendbarkeit des polytomen Rasch-Modells darstellt. Darin sind 13 der 17 CETSCALE-Items, sowie alle zehn CETSCALE Items enthalten, welche der Aus8. Wenn alle Kategorien verbalisiert sind (z.B. mit stimme stark zu, stimme zu, stimme eher zu, lehne eher ab, lehne ab, lehne voll ab), so ist es plausibel anzunehmen, daß diese Skala über alle Items gleiche Funktionalität, also insbesondere gleiche Abstände über alle Items, aufweist. 9. Da die konfirmatorische Faktorenanalyse aller 117 Items keine Konvergenz zeigte, wurde diese Analyse vorgeschalten. 10.Darin sind alle 17 CETSCALE Items enthalten. 210 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE gangspunkt der konfirmatorischen Mehrgruppen-Faktorenanalysen war. Für die Modellprüfung werden die Daten wieder in ein Kalibrierungs- und in ein Validierungssample geteilt, um bei Modellkonformität eine Kreuzvalidierung zu ermöglichen. Q-Index: p(x>zq) Itemlabel Analyse auf der Basis von ... 26 Items 17 Items 16 Items V038 0.99842 - - V037 0.99946 - - V031 0.99652 - - V063 0.99657 - - V035 0.99669 - - V079 0.93016 0.89182 0.84786 V034 0.96605 0.88934 0.87448 V028 0.90840 0.70071 0.64246 V081 0.83738 0.85464 0.83061 V097 0.88564 0.92888 0.92305 V054 0.59058 0.60559 0.53556 V050 0.67457 0.71893 0.60548 V093 0.28255 0.35156 0.28631 V103 0.96193 0.79963 0.74242 V082 0.69625 0.74743 0.71604 V019 0.04639 0.02447 0.01576 V048 0.01739 0.00904 V069 0.10227 0.08771 0.05641 V027 0.36616 0.59742 0.61271 V046 0.31276 0.42925 0.42067 V077 0.00058 V095 0.11714 0.07405 - 0.03933 Tabelle 16: Polytomes Rasch-Modell in Österreich: Test des Item-Fits mittels des Q-Index (Rost und von Davier, 1994) 211 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Q-Index: p(x>zq) Itemlabel Analyse auf der Basis von ... 26 Items 17 Items 0.27988 16 Items V001 0.16782 0.23221 V021 0.00208 - - V062 0.00000 - - V010 0.00003 - - Tabelle 16: (Forts.) Polytomes Rasch-Modell in Österreich: Test des Item-Fits mittels des Q-Index (Rost und von Davier, 1994) Die Modellprüfung erfolgt in zwei Teilschritten. Ehe die Ordnungshypothese überprüft wird, wird zu Beginn der Item-Fit analysiert, wobei ausschließlich der Q-Index (Rost und von Davier, 1994) herangezogen wird11. Items, welche entweder zu stark diskriminieren (Wahrscheinlichkeit des Q-Index über 99%12) oder zu geringe Diskriminanz aufweisen (Wahrscheinlichkeit des Q-Index unter 1%), werden ausgeschieden. Die Modellschätzung wird wiederholt und der Item-Fit von neuem geprüft. Im konkreten Anwendungsfall erweisen sich zunächst fünf Items (V038, V037, V031, V063 und V035) als überdiskriminierend und vier Items (V077, V021, V062 und V010) als unterdiskriminierend. Die Werte nicht modellkonformer Items sind in Tabelle 16 kursiv dargestellt. In der daran anschließenden Analyse der verbleibenden 17 Items wird ein weiteres Item (V048) ausgeschieden. Die restlichen 16 Items erweisen sich als modellkonform und bilden die Grundlage für die Überprüfung der Ordnungshypothese. Tabelle 17 gibt die ThresholdParameter dieser Items wieder. Sämtliche Items weisen zumindest einmal, in der Regel jedoch zwei- oder mehrmals sogenannte reversed Thresholds auf (Thresholds, welche Parameter aufweisen, die kleiner als die von vorangegangenen Thresholds sind, sind kursiv dargestellt). Damit muß die Ordnungshypothese als falsifiziert gelten! Die sieben Antwortkategorien weisen kein Ordinalskalenniveau auf. Aus diesem Grund werden für weiterführende Analysen die Daten dichotomisiert. Dies mag - aus der Perspektive der klassischen Testtheorie - wie ein Verzicht auf Information aussehen. Aus der Sicht der 11.Die ausschließliche Verwendung dieses Index beruht zum einen - pragmatisch - darauf, daß WINMIRA diesen als einzigen ausgibt und die Berechnung anderer Fitwerte im polytomen Fall sehr komplex ist, zum anderen aber darauf, daß die Überprüfung der Ordnungshypothese im Vordergrund steht. 12.Das Signifikanzniveau wird mit 1% gewählt, da bei einem höheren Niveau die Gefahr besteht, durchaus modellkonforme Items auszuscheiden. 212 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Latent Trait Theory ist dieser Schritt allerdings als Konsequenz daraus zu interpretieren, daß die Ordnung der Thresholds nicht gegeben ist und die scheinbar gegebene Präzision der siebenstufigen Skala faktisch nicht gewährleistet ist. Abbildung 57 stellt die CCCs für ein ausgewähltes Item dar. Itemlabel Threshold 1 Threshold 2 Threshold 3 Threshold 4 Threshold 5 Threshold 6 V079 -0.135 -0.093 -0.792 0.021 0.743 0.240 V034 0.163 0.249 -0.800 0.210 -0.265 1.560 V028 0.857 0.381 -0.871 1.261 0.482 1.519 V081 -0.200 0.090 -1.008 0.422 -0.322 0.715 V097 -0.732 -0.505 -0.962 -0.733 0.179 0.992 V054 -0.511 -0.247 -0.630 0.011 0.300 1.087 V050 -0.890 -0.333 -0.948 -0.179 0.155 0.528 V093 0.172 -0.094 -1.078 0.308 0.347 0.110 V103 0.621 0.567 -0.161 1.020 1.070 1.509 V082 -0.817 -0.300 -1.017 -0.210 0.246 1.029 V019 0.795 0.361 -1.117 0.909 0.798 0.932 V069 0.207 0.483 -0.604 0.843 0.288 1.350 V027 0.240 -0.118 -1.429 -0.165 0.031 0.461 V046 -1.429 -0.608 -1.255 -0.645 -0.258 -0.022 V095 -0.169 -0.562 -1.659 0.541 -0.045 0.988 V001 -0.765 -0.565 -1.016 -0.467 -0.736 0.071 Tabelle 17: Threshold-Parameter im Partial Credit Model für 16 Items in Österreich Zuvor wird jedoch überprüft, ob das polytome Rasch-Modell und damit die Ordnungshypothese für den südkoreanischen Datensatz haltbar ist. 213 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE P(avi=x | τi, βv) 1 1 7 0.5 6 2 5 4 3 τi, βv 0 Abbildung 57: Category characteristic curves (CCCs) für ein polytomes Item (V001) mit sieben Antwortkategorien 10.3.2 Überprüfung des polytomen Rasch-Modells in Südkorea Um die Parallelität der Analysen des österreichischen und des südkoreanischen Datensatzes zu bewahren, werden jene 13 CETSCALE Items herangezogen, welche im 26 Items umfassenden Set enthalten sind, welches die Grundlage der entsprechenden Untersuchungen in Österreich war. Die Analyse erfolgt völlig analog zu jener in Österreich. Der QIndex gibt im Falle Südkoreas keinerlei Hinweise, daß Items unter- oder überdiskriminieren (vgl. Tabelle 18). Q-Index: p(x>zq) Itemlabel t1 0.53267 t2 0.07105 t3 0.65068 t4 0.08934 t5 0.70915 t6 0.79415 t7 0.91073 Tabelle 18: Polytomes Rasch-Modell in Südkorea: Test des Item-Fits mittels des Q-Index (Rost und von Davier, 1994) 214 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Q-Index: p(x>zq) Itemlabel t8 0.64594 t9 0.57535 t10 0.04010 t11 0.86109 t13 0.63695 t17 0.26651 Tabelle 18: (Forts.) Polytomes Rasch-Modell in Südkorea: Test des Item-Fits mittels Die Inspektion der Threshold-Parameter ergibt jedoch ein ähnliches Bild, wie es bereits bei der Analyse des österreichischen Datensatzes festgestellt wurde. Jedes Items zeichnet sich durch zumindest zwei reversed Thresholds aus (vgl. Tabelle 19). Das polytome Modell erweist sich damit weder für Österreich, noch für Südkorea als tragfähig. Die Eignung von mehrstufigen Antwortskalen ist - zumindest im vorliegenden Fall der CETSCALE äußerst fragwürdig. Die befragten Personen sind offensichtlich nicht in der Lage, zwischen diesen Kategorien ordinal zu differenzieren. Für die Anwendung klassischer Verrechnungsmuster (Addition aller Antworten zu einem Gesamtscore) stellt dieser Befund eine fundamentale Bedrohung dar. Itemlabel Threshold 1 Threshold 2 Threshold 3 Threshold 4 Threshold 5 Threshold 6 t1 0.043 -0.825 -1.009 1.016 -0.270 -0.061 t2 -0.264 0.370 -0.754 0.980 0.309 0.065 t3 -1.971 -0.439 -0.993 -0.081 -0.250 -0.165 t4 -0.260 0.123 -0.230 1.458 1.492 0.756 t5 0.369 -1.025 -0.542 1.054 0.031 1.057 t6 -0.446 -0.574 -0.151 0.563 0.311 0.630 t7 -0.842 -0.167 -0.399 0.786 -0.019 0.898 t8 -0.068 -1.938 -1.121 0.322 -0.755 0.400 t9 1.095 -0.821 -0.718 0.575 0.342 0.798 t10 -1.013 0.165 -0.535 0.540 -0.369 0.266 Tabelle 19: Threshold-Parameter im Partial Credit Model für 13 Items in Korea 215 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Itemlabel Threshold 1 Threshold 2 Threshold 3 Threshold 4 Threshold 5 Threshold 6 t11 -0.320 -0.449 -0.426 0.615 0.162 1.154 t13 -0.783 -0.446 -0.478 0.542 0.215 1.068 t17 -0.120 -0.511 -0.656 0.471 0.948 1.279 Tabelle 19: (Forts.) Threshold-Parameter im Partial Credit Model für 13 Items in 10.3.3 Überprüfung des dichotomen Rasch-Modells in Österreich Da sich das polytome Modell bei keinem Item als tragfähig erwiesen hat, werden die Daten nun dichotomisiert13, um die Übereinstimmung mit dem dichotomen Rasch-Modell zu überprüfen. Analog zu den Prüfschritten für das polytome Modell, bildet der 26 Items umfassende Datensatz aus Österreich den Ausgangspunkt der Analysen. Diese 26 Items sind im Sinne der konfirmatorischen Faktorenanalysen als eindimensional zu betrachten. Die Modellübereinstimmung jedes Items wird anhand folgender Kriterien beurteilt: • Item-Q-Index von Rost und von Davier (1994) • Log-Likelihood-Quotient (Reise, 1990) • Q1-Index (Hambleton et al., 1991) • Invarianz der Itemparameterschätzung für eine Stichprobenteilung nach Kalibrierungs/Validierungssample, Geschlecht, Score und Alter der Personen Der Item-Q-Index gibt Aufschluß darüber, ob das Item über- oder unterdiskriminiert. Dieser Index wird von WINMIRA (von Davier, 1996) ausgegeben. Der Log-LikelihoodQuotient stellt einen Vergleich der wahrscheinlichsten, theoretisch erwarteten, und der tatsächlichen Itemantwort dar, der Q1-Index prüft die Residuen (Abweichungen der tatsächlichen Antwortwahrscheinlichkeiten von den theoretischen) auf Signifikanz. Diese beiden Kennwerte werden gemäß ihrer Definition mittels Microsoft Excel berechnet. Die Invarianzprüfung basiert auf der Stichprobenunabhängigkeit des Rasch-Modells, wonach die Parameterschätzungen stets gleich sein müssen und nur zufällig voneinander abweichen dürfen. Die empirische Überprüfung entspricht daher einem Test auf Differential Item Functioning und beruht auf einer χ2-verteilten Prüfgröße. Auch diese Berechnung wird mittels Microsoft Excel durchgeführt14. Der Vergleich der beiden auf Zufallsbasis 13.Die originalen Itemkodierungen 1 bis 4 und 5 bis 7 wurden jeweils zusammengefaßt. 14.Die entsprechenden Teilergebnisse sind in Anhang J bis M angeführt. 216 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE geteilten Samples (Kalibrierungs- und Validierungsstichprobe) stellt dabei den Test mit der geringsten Macht (im statistischen Sinne) dar, da beide Stichproben die gleiche Verteilung haben. Anspruchsvoller sind die Vergleiche von Männern und Frauen, sowie von Personen unter bzw. über 35 Jahren. Am empfindlichsten auf Modellverletzungen reagiert der Vergleich der Personen mit hohem Rohscore mit solchen mit geringem Rohscore (Scoregruppen). Bei Gültigkeit des Rasch-Modells müssen sich nichtsdestotrotz gleiche Parameterschätzungen ergeben. Im Birnbaum-Modell, welches unterschiedliche Diskriminanzen zuläßt, ist dies praktisch auszuschließen. Alle angeführten Fit-Statistiken sind in Anhang I wiedergegeben. Die Selektion nicht modellkonformer Items erfolgt durch simultane Betrachtung der Fit-Indikatoren. Keiner der Kennwerte kann als singuläres Entscheidungskriterium herangezogen werden, da jeweils unterschiedliche Formen von Misfit angezeigt werden15. Im ersten Schritt werden neun Items16 ausgeschieden, welche beim Vergleich der Scoregruppen signifikant (α=1%) unterschiedliche Parameterschätzungen aufweisen. Bei all diesen Items ist auch zumindest ein Item-Q-Index in der Kalibrierungs- oder Validierungsstichprobe signifikant. Aufgrund signifikanter (α=1%) Q1-Indexwerte oder signifikanter Invarianztests werden vier weitere Items17 als nicht modellkonform ausgeschlossen. Schließlich wird ein Item18 wegen signifikanter Q1-Indexwerte im Kalibrierungs- und im Validierungssample, sowie gleichzeitig signifikantem Likelihood-Quotienten ausgeschieden. Somit verbleiben zwölf Items, welche dem dichotomen Rasch-Modell in Österreich entsprechen. Acht dieser Items sind Bestandteil der CETSCALE, vier Items entstammen dem erweiterten Itempool. 10.3.4 Überprüfung des dichotomen Rasch-Modells in Südkorea Im nächsten Prüfschritt werden jene acht in Österreich modellkonformen CETSCALE Items auf ihre Modellübereinstimmung in Südkorea untersucht. Als Kriterium dienen der Item-Q-Index von Rost und von Davier (1994), der Log-Likelihood-Quotient (Reise, 15.Die Situation ist ähnlich der der Fitbeurteilung in Strukturgleichungsmodellen. Die einzelnen Indikatoren sollten daher nicht überbewertet werden. Aus diesem Grund wird das Signifikanzniveau mit 1% festgesetzt. 16.Es sind dies die Items V038, V037, V031=t1, V063=t7, V034, V095, V021, V062 und V010. 17.Es handelt sich um V097, V048=t2, V046=t3 und V001. 18.Item V077=t10 217 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE 1990) und der Q1-Index (Hambleton et al., 1991). Die entsprechenden Statistiken sind Anhang N zu entnehmen. Bei lediglich einem Item19 bestehen deutliche Hinweise auf mangelnde Modellkonformität. Der Likelihood-Quotient, sowie der Q1-Index sind signifikant, der Item-Q-Index weist tendenziell auf Unterdiskriminanz hin. Dieses Item wird folglich ausgeschieden. Sieben der acht CETSCALE Items gelten somit als dem RaschModell entsprechend und bilden die Grundlage für die Überprüfung der interkulturellen Vergleichbarkeit. 10.3.5 Überprüfung der interkulturellen Vergleichbarkeit (Österreich - Südkorea) Die interkulturelle Vergleichbarkeit der CETSCALE Daten auf der Basis der Latent Trait Theory (eingeschränkt auf sieben Items) ist dann gegeben, wenn die geschätzten Itemparameter in beiden Kulturen übereinstimmen. Sind die Schätzwerte hingegen signifikant verschieden, so unterliegen diese Items einer unterschiedlichen, kulturabhängigen Meßfunktionalität (Differential Item Functioning, DIF). DIF kann zwei Formen annehmen (vgl. Abbildung 50 auf Seite 176). Zum einen können die Items in verschiedenen Kulturen zwar den gleichen Aufforderungscharakter haben, aber unterschiedlich diskriminieren (nonuniform DIF). Zum anderen kann bei gleicher Diskriminanz der Aufforderungscharakter nicht übereinstimmen (uniform DIF). Da die Items intrakulturell dem Rasch-Modell entsprechen, bestehen im konkreten Anwendungsfall keine Abweichungen der empirischen und der erwarteten Itemdiskriminanz, nonuniform DIF ist daher auszuschließen. Der Vergleich der Itemparameter prüft somit, inwieweit uniform DIF besteht. Vor der Analyse werden die Itemparameter in Österreich und in Südkorea neu geschätzt20. Ein erstes Prüfkriterium der Invarianz der Parameterschätzungen stellt die Reihenfolge der Items nach deren Schwierigkeitsparameter dar. Tabelle 2021 enthält die Itemparameter in Österreich und Südkorea, sowie die jeweilige Rangzahl22. Die Rangreihenfolge differiert offensichtlich stark. Beispielsweise nimmt das in Österreich „leichteste“ Item in 19.Item V035=t4. 20.Die Übernahme von Itemparametern aus vorangegangenen Kalibrierungen ist aus zwei Gründen nicht möglich. Erstens beeinflussen nicht modellkonforme Items die Schätzungen der Parameter, zweitens ist der Ursprung der Skala der Itemparameter durch den Mittelwert der Itemparameter definiert. Ein Vergleich von Parametern setzt jedoch die gleiche Skala voraus. Daher müssen die Schätzungen in Österreich und in Südkorea auf der gleichen Itemanzahl basieren. 21.Eine ausführlichere Auflistung befindet sich im Anhang O. 22.Bei einer Rangteilung wurde ein mittlerer Rang vergeben. 218 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Südkorea den fünften Rangplatz ein. Insgesamt korrelieren die beiden Rangfolgen nicht signifikant (Spearman’s rho, r=.41, p=.36). δ Österreich Itemcodes Wert δ Südkorea Rang Wert DIF χ2 df=1 fett=sig.1% Rang krit.χ21%,df=1= 6.6349 v082 t13 -1.033 1 0.279 5 91.44 V081 t9 -0.575 2.5 0.120 3 25.08 V093 t11 -0.575 2.5 0.091 2 22.99 V054 t6 -0.411 4 0.186 4 18.39 V079 t8 -0.305 5 -1.548 1 56.68 V028 t5 1.304 6 0.390 6 33.95 v103 t17 1.594 7 0.482 7 46.65 Tabelle 20: Test auf interkulturelle Vergleichbarkeit von sieben CETSCALE Items in Österreich und Südkorea mittels des dichotomen Rasch-Modells Die deutlich unterschiedliche Rangfolge weist bereits darauf hin, daß eine interkulturelle Vergleichbarkeit offenbar nicht besteht. Die χ2-Prüfstatistik bestätigt dies: bei sämtlichen Items unterscheiden sich die Parameter signifikant. Dieser Befund stellt die Frage in den Raum, warum die sieben CETSCALE Items so unterschiedlich charakterisiert sind. Es wäre naheliegend, die mangelnde Vergleichbarkeit auf die „hohen und irrealen Anforderungen des Rasch-Modells“ zurückzuführen. Doch diese Attribution ist aus zweierlei Gründen unzutreffend. Zum einen impliziert auch die klassische Testtheorie zum Teil sehr stringente, aber eben unüberprüfte Voraussetzungen. Zum anderen haben sich immerhin zwölf Items in Österreich und sieben der acht darin enthaltenen CETSCALE Items in Südkorea als modellkonform erwiesen. Das Rasch-Modell ist also nicht prinzipiell unanwendbar. Offensichtlich ist die Meßfunktionalität so weit beeinflußt, daß Vergleiche nicht zulässig sind. Ob dies tatsächlich kulturbedingt ist oder auf eine unterschiedliche Administration der Datenerhebung zurückzuführen ist, ist unmittelbar nicht zu beantworten. Dies bedarf einer sorgfältigen Analyse der Datenerhebungen und eines Rekurses auf alle möglichen Quellen mangelnder Äquivalenz. 219 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Die CETSCALE stellt diesen Befunden zufolge keine Basis für Vergleiche von Österreich und Korea dar. Der erfolgreiche Einsatz der Skala in zahlreichen Kulturen (u.a. in Österreich und Südkorea) weist jedoch darauf hin, daß die Skala grundsätzlich geeignet ist, das Phänomen des Konsumentenethnozentrismus inhaltlich valide zu messen. Die mangelnde Vergleichbarkeit zeigt, daß die Messung im Sinne einer Überbrückung des empirischen und des numerischen Relativs nicht äquivalent erfolgt. 10.3.6 Exkurs: Überprüfung des dichotomen Birnbaum-Modells in Österreich Die bisherigen Analysen basieren allesamt auf dem Rasch-Modell (one-parameter logistic model), welches gleiche Diskriminanz aller Items (bzw. aller Thresholds im Falle polytomer Items) impliziert. Die Aufgabe dieser Eigenschaft führt notwendigerweise zur Aufgabe des Rasch-Modells. Kritiker der uniformen Diskriminanz favorisieren daher das Birnbaum-Modell (two-parameter logistic model), welches neben der Itemschwierigkeit einen weiteren Parameter vorsieht, welcher die tatsächliche Diskriminanz erfaßt. Das vorangegangene Kapitel 9 hat gezeigt, daß die Mehrzahl der Anwendungen der probabilistischen Testtheorie auf das Birnbaum-Modell zurückgreifen. Da damit der Boden objektiven Messens (im Sinne der spezifischen Objektivität) verlassen wird, erfolgt die Betrachtung des Birnbaum-Modells in Form eines Exkurskapitels. Ziel des Kapitels ist die Klärung der Frage, ob ein flexibleres Modell die Zahl der modellkonformen Items im Falle der CETSCALE erhöhen kann. Ausgangspunkt der Analyse ist abermals der 26 Items umfassende österreichische Datensatz. Zwölf dieser Items sind mit dem Rasch-Modell vereinbar. Für diese Items ist daher die Berücksichtigung eines Diskriminanzparameters weder erforderlich, noch sinnvoll.23 Für die verbleibenden 14 Items erfolgt eine genaue Inspektion der tatsächlichen Antworthäufigkeiten in Abhängigkeit vom Trait im Vergleich zu den theoretischen Antworthäufigkeiten (ausgedrückt durch die ICC). Läßt die tatsächliche Antwortverteilung ein Muster erkennen, welches darauf hindeutet, daß das Item über- oder unterdiskriminiert, so ist eine Berücksichtigung im Rahmen des Birnbaum-Modells sinnvoll. Abbildung 58 stellt die Antwortverteilung eines offensichtlich überdiskriminierenden Items dar. Wenn 23.Da im Zuge der Schätzung des Birnbaum-Modells per definitionem ein Diskriminanzparameter spezifiziert wird, bedeutet dies, daß für die Diskriminanzparameter für diese Items auf den gleichen Schätzwert fixiert werden (im Sinne eines equality constraints). 220 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE die Verteilung hingegen lediglich zufällig um die ICC streut (abwechselnd positive und negative Residuale), so ist auch das Birnbaum-Modell nicht geeignet. P(avi=x | δi, βv) 1 tatsächliche Häufigkeit 0.5 erwartete Häufigkeit δi, βv 0 Abbildung 58: Vergleich von erwarteter Häufigkeit (ICC) und tatsächlicher Häufigkeit zustimmender Antworten im Rasch-Modell (Item V034) Tatsächlich zeigen sieben Items empirische Antwortverläufe, die auf unterschiedliche Diskriminanz hindeuten. Vier24 davon diskriminieren schlechter (dies drückt sich auch im Item-Q-Index aus), drei25 diskriminieren stärker als erwartet (ebenfalls durch den Item-Q-Index angezeigt). Die Analyse mittels des Birnbaum-Modells wird mit MULTILOG (Thissen, 1991) durchgeführt. Insgesamt werden 19 Items einbezogen, für zwölf werden die Diskriminanzparameter gleichgesetzt (Rasch-Modell konforme Items), für sieben werden diese Parameter frei geschätzt. Zum Vergleich erfolgt eine Parameterschätzung für über alle Items gleichgesetzte Diskriminanzparameter. Die Überprüfung, ob das Birnbaum-Modell im Falle der sieben nicht uniform diskriminierenden Items besser mit den Daten übereinstimmt, erfolgt anhand eines Vergleichs der Fitstatistiken aus diesen beiden Schätzungen (vgl. Tabelle 21). 24.Es sind dies die Items V038, V037, V031=t1 und V034. 25.Es sind dies die Items V010, V062 und V021. 221 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE + : Überdiskriminanz Itemcodes - : Unterdiskriminanz Diskriminanz im RaschModell Q1-Indexa χ2 (dfb) / p one-parameter model two-parameter model ∆χ2 (dfc) / p V038 + 22.56 (11) / .02 7.79 (10) / n.s. 14.77 (1) / <.001 V037 + 59.91 (11) / <.0001 12.78 (10) / n.s. 47.13 (1) / <.0001 + 26.38 (11) / <.01 11.92 (10) / n.s. 14.46 (1) / <.001 V034 + 37.45 (11) / <.0001 14.44 (10) / n.s. 23.01 (1) / <.0001 V021 - 67.23 (11) / <.0001 37.16 (10) / <.0001 30.07 (1) / <.0001 V062 - 190.41 (11) / <.0001 26.17 (10) / <.01 164.24 (1) / <.0001 V010 - 80.45 (11) / <.0001 35.39 (10) / <.001 45.06 (1) / <.0001 V031 t1 Tabelle 21: Vergleich der Fitstatistiken auf der Basis des one-parameter und des twoparameter logistic model für sieben nicht Rasch-Modell konforme Items a. Dieser Fitindex ist als Vergleichsgrundlage geeignet, da er die Abweichung der theoretischen von der tatsächlichen Antworthäufigkeit ausdrückt. b. Die Freiheitsgrade ergeben sich aus m-k, wobei m die Zahl der Intervallzusammenfassungen der Personenparameter als Grundlage des Vergleichs theoretischer und tatsächlicher Antworthäufigkeiten angibt und k für die Zahl der zu schätzenden Itemparameter steht (Hambleton et al., 1991, S.61). Im Beispiel beträgt m=12, k ist für das one-parameter model gleich 1, für das two-parameter model gleich 2. c. Da das one-parameter model aus dem two-parameter model durch Einführung einer Beschränkung hervorgeht, ist der Freiheitsgrad gleich 1. Für alle sieben Items ist die Übereinstimmung von Modellerwartung und Daten im Falle des Birnbaum-Modells (two-parameter model) signifikant (α=1%) besser als im RaschModell (one-parameter model) (vgl. den χ2-Differenzentest in Tabelle 21). Absolut gesehen ist der Fit der drei unterdiskriminierenden Items aber auch im Birnbaum-Modell nicht zufriedenstellend. Für diese Items wird die Modellübereinstimmung zwar verbessert, ist aber immer noch ungenügend. Im Gegensatz dazu weisen die überdiskriminierenden Item auch absolut gesehen im Rahmen des Birnbaum-Modells guten Fit auf. Die Wahl des Birnbaum-Modells führt daher zu einem insgesamt 16 Items umfassenden Meßinstrument. Es soll aber auch an dieser Stelle nochmals betont werden, daß mit dem Birnbaum- 222 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Modell lediglich eine bessere Anpassung des Modells an die Daten erfolgt. Aus meßtheoretischer Sicht ist dies problematisch. 10.4 Implikation für die interkulturelle Validität der CETSCALE in Österreich und Südkorea Zur Überprüfung der interkulturellen Validität der CETSCALE wurden zwei Methoden vorgestellt und demonstriert. Die Ergebnisse sind unterschiedlich. Der faktorenanalytische Ansatz spricht für eine - zwar nur partielle, aber doch gegebene - meßtheoretische Übereinstimmung der CETSCALE in Österreich und Südkorea. Vier Items sind skalar, weitere drei metrisch invariant. Für insgesamt zehn Items besteht konfigurale Invarianz. Die Vergleichbarkeit der Daten ist diesem Ansatz zufolge also gewährleistet. Der Latent Trait Theory basierte Ansatz hingegen kommt zum gegenteiligen Schluß. Zwar erfüllen sieben Items nach Dichotomisierung der Daten die Modellanforderungen in Österreich und in Südkorea, die Modelle stimmen jedoch interkulturell nicht überein. Aussagen über Unterschiede in der Consumer-ethnocentric Tendency in Österreich und in Südkorea sind demzufolge nicht möglich. Wann immer alternative Methoden zu divergierenden Schlußfolgerungen Anlaß geben, stellt sich die Frage, welchem Ansatz nun eher zu „vertrauen“ ist. Innerhalb der unterschiedlichen Methoden ist diese Frage allerdings grundsätzlich nicht zu beantworten. Erst die wissenschaftstheoretische Betrachtung der den Methoden zugrundeliegenden Theorien, in diesem Fall Meßtheorien, auf einer Metaebene kann substantiell zu einer Klärung beitragen. Die Entscheidung, welcher Methode (und damit welchem Ergebnis!) vertraut wird, ist somit eine Frage des gewählten Meßparadigmas. Die Aufarbeitung der klassischen und der probabilistischen Testtheorie (Latent Trait Theory) hat gezeigt, daß letztere - zumindest im Falle des Rasch-Modells - wissenschaftstheoretisch deutlich anspruchsvoller und zufriedenstellender ist. Aus diesem Grund sollte der probabilistischen Testtheorie der Vorzug gegeben werden. Dies ist als Plädoyer zu verstehen und keinesfalls als endgültige materielle Schlußfolgerung aus einem metatheoretischen Vergleich von klassischer und probabilistischer Testtheorie. Letztlich bleibt es jedem Forscher überlassen, welche Methoden er einsetzt, solange er diese Wahl argumentativ begründet. 223 10 Bestimmung der Äquivalenz der Erhebungsdaten am Beispiel der CETSCALE Ein formaler wissenschaftstheoretischer Imperativ besteht jedoch darin, vorab fundiert eine Methode bzw. eine Meßtheorie zu wählen und alle inhaltlichen Schlußfolgerungen auf der Basis dieser Methode bzw. Theorie abzuleiten. In diesem Sinne darf die Vorgangsweise dieser Untersuchung - parallele Analyse mittels zweier meßtheoretischer Ansätze - nicht als Empfehlung mißverstanden werden. Die Wahl der Methode nach der Inspektion der Ergebnisse wäre wissenschaftstheoretisch nicht haltbar. Eine solche ist auch nicht Gegenstand dieser Studie. Vielmehr sollte die Anwendung beider Ansätze demonstriert und auf die fundamentalen Unterschiede hingewiesen werden. Versucht man ungeachtet der wissenschaftstheoretisch damit verbundenen Probleme, aus den inhaltlichen Ergebnissen beider Analysen zu einer gemeinsamen Schlußfolgerung zu gelangen, so könnte die Anwendung des polytomen Rasch-Modells als Ausgangspunkt dienen. Sowohl in Österreich, als auch in Südkorea wurden polytome Modelle durch die Daten falsifiziert. Damit ist die Ordnungshypothese der einzelnen Antwortkategorien zu verwerfen. Die klassische Testtheorie geht aber davon aus, daß die Itemantworten nicht nur ordinal-, sondern intervallskaliert sind. Im Lichte der zurückzuweisenden Ordnungshypothese erscheint daher der Ansatz der klassischen Testtheorie problematisch und unzuverlässig. Demzufolge bestehen keine gesicherten Hinweise auf die interkulturelle Validität der CETSCALE bzw. einzelner Items für die Anwendung in Österreich und Südkorea. 10.5 Weiterführende Forschung Einen Ansatzpunkt zu weiterführender Forschung stellt das dichotome Rasch-Modell dar. Sowohl in Österreich, als auch in Südkorea sind einzelne Items nach Dichotomisierung modellkonform. Diese Ergebnisse sind in der Zukunft durch die Erhebung originär dichotomer Daten zu überprüfen (Andrich et al., 1997). Auch die Einschränkung der Antwortskala auf weniger als sieben, aber mehr als zwei Kategorien erscheint sinnvoll. 224 11 Meßtheoretische Paradigmen „[D]ie normale Wissenschaft [hält sich] gewöhnlich die Philosophie vom Leibe, und wahrscheinlich aus gutem Grund. Solange die normale Forschungsarbeit unter Verwendung des Paradigmas als eines Vorbildes ausgeführt werden kann, brauchen Regeln und Annahmen nicht eigens herausgestellt zu werden.“ Thomas Kuhn (1997, S.101) 11 Meßtheoretische Paradigmen Im Rahmen der Darstellung der Grundlagen der klassischen und der probabilistischen Meßtheorie wurde bereits der Begriff des wissenschaftlichen Paradigmas (Kuhn, 1997) verwendet. Die Frage, ob nun empirischen Ergebnissen auf der Grundlage der klassischen Meßtheorie oder jenen auf der Basis unterschiedlicher probabilistischer Modelle eher zu trauen ist, oder mit anderen Worten welche Theorie als überlegen gelten kann, wurde mit dem Hinweis auf die unterschiedlichen paradigmatischen Grundlagen der Theorien als unbeantwortbar zurückgewiesen. Es ist nicht möglich, die Frage im Sinne einer logischen Ableitung zu klären. Demzufolge stellt sich - neben einer begrifflichen Klärung des wissenschaftlichen Paradigmas - die Frage, ob und, wenn ja, welche meßtheoretischen Paradigmen in der Marketingforschung bestehen, welches das vorherrschende Paradigma ist und wie zugunsten eines anderen entschieden werden könnte. Dies erfordert zunächst eine Darstellung der wissenschaftstheoretischen Sichtweise von Kuhn (1997). 11.1 Paradigmen und wissenschaftlicher Fortschritt Nach Kuhn (1997) stehen am Beginn der Entwicklung jeder wissenschaftliche Disziplin zahlreiche Schulen, welche mehr oder weniger konkurrierenden spekulativen Theorien bzw. Ansichten über die Natur anhängen. Keine dieser Theorien genießt ein besonderes Vorrecht im Sinne allgemeiner Akzeptanz. Erweist sich eine Theorie in der Folge als überlegen, so wird diese allgemein anerkannt und zur Paradigmentheorie erklärt. Es wird davon ausgegangen, daß das Paradigma „die meisten Beobachtungen und Experimente, welche für die Fachleute jener Wissenschaft leicht zugänglich sind, erfolgreich erklärt“ (Kuhn, 1997, S.77). Ein Paradigma besteht aus einem Bündel von Verfahren, Anwendungen, Gesetzen und Theorien. Eine spezifische Fachterminologie, von Kuhn als „esoterisches Vokabular“ bezeichnet, erleichtert die wissenschaftliche Kommunikation, führt aber auch zu einem Verlust der Allgemeinverständlichkeit. Eine wichtige Funktion des Paradigmas besteht in der Klärung wissenschaftlicher Begriffe. Die explizite Bezugnahme auf grundlegende Theorien erübrigt sich damit. „Wenn der 225 11 Meßtheoretische Paradigmen einzelne Wissenschaftler ein Paradigma als gegeben betrachten kann, braucht er bei seinen Hauptwerken nicht mehr zu versuchen, sein Fachgebiet von den Grundprinzipien aus unter Rechtfertigung jedes neu eingeführten Begriffs neu aufzubauen.“ (Kuhn, 1997, S.34). Ein Paradigma bestimmt aber nicht nur was untersucht und wie dies untersucht wird, sondern auch wie die Realität interpretiert wird (Andersson, 1988).1 Mit der Annahme eines ersten Paradigmas ist für Kuhn das Stadium einer reifen Wissenschaft erreicht. Paradigmen als Systeme von allgemein anerkannten Theorien und Begriffen2 stecken den Bereich ab, in dem normalwissenschaftliche Forschung möglich ist. Normalwissenschaftlich ist „eine Forschung, die fest auf einer oder mehreren wissenschaftlichen Leistungen der Vergangenheit beruht, Leistungen, die von einer bestimmten wissenschaftlichen Gemeinschaft eine Zeitlang als Grundlagen für ihre weitere Arbeit anerkannt werden“ (Kuhn, 1997, S.25). Mit der Festlegung eines Paradigmas ist allerdings auch Erstarrung verbunden. Der Forscher ist bestrebt, die „Natur in die vorgeformte und relativ starre Schublade, welche das Paradigma darstellt, hineinzuzwängen. In keiner Weise ist es das Ziel der normalen Wissenschaft, neue Phänomene zu finden; und tatsächlich werden die nicht in die Schublade hineinpassenden oft überhaupt nicht gesehen. Normalerweise erheben die Wissenschaftler auch nicht den Anspruch, neue Theorien zu finden, und oft genug sind sie intolerant gegenüber den von anderen gefundenen. Normalwissenschaftliche Forschung ist vielmehr auf die Verdeutlichung der vom Paradigma bereits vertretenen Phänomene und Theorien ausgerichtet.“ (Kuhn, 1997, S.38). 1. Kuhn (1997, S.127f) führ als Beispiel die Entdeckung des Planeten Uranus an. Die Entdekkung wird William Herschel zugeschrieben und mit 1781 datiert. Tatsächlich wurde Uranus im Jahrhundert zuvor mindestens siebzehn Mal beobachtet, jedoch als Fixstern eingestuft. Erst verbesserte Teleskope haben Herschel dazu geführt, Uranus aufgrund seines für einen Fixstern ungewöhnlichen Durchmessers als - Kometen zu sehen. Erst als Versuche gescheitert waren, Uranus eine Kometenbahn anzupassen, wurde Uranus als Planet erkannt. 2. Paradigmen müssen jedoch nicht notwendigerweise auf expliziten Regeln und Begriffen basieren (Kuhn, 1997, S.60ff). Wesentlich ist die forschungsleitende Funktion des Paradigmas. Kuhn führt drei Gründe dazu an. Erstens ist es gelegentlich gar nicht möglich, ausdrückliche Regeln zu formulieren. So ist es auch nicht möglich, Regeln dafür aufzustellen, was ein Sessel ist und zu gewährleisten, daß jedes Objekt, das für gewöhnlich als Sessel bezeichnet wird, tatsächlich damit erfaßt wird und gleichzeitig jedes Objekt, das für gewöhnlich nicht als Sessel bezeichnet wird, dadurch ausgeschlossen wird. Zweitens werden Paradigmen in der Regel implizit gelernt. Theorien und Begriffe werden im Anwendungskontext didaktisch aufbereitet und sind in der Folge ausdrücklich gar nicht bewußt. Drittens ist eine explizite Paradigmenformulierung dann nicht erforderlich, wenn alle wissenschaftlichen Erkenntnisse vorbehaltlos anerkannt werden. Erst wenn dies nicht mehr der Fall ist, liegt eine Bedrohung für das Paradigma vor. 226 11 Meßtheoretische Paradigmen Paradigmata bestimmen die Regeln der Wissenschaft, nach denen eine Lösung eines Problems, Kuhn verwendet den Begriff des Rätsels, als zulässig zu betrachten ist. „Derjenige, der ein Instrument für die Bestimmung optischer Wellenlängen baut, darf sich nicht mit einem Gerät zufriedengeben, das lediglich bestimmte Zahlen bestimmten Spektrallinien zuordnet. (...) [E]r muß durch die Analyse seines Apparates im Rahmen der anerkannten optischen Theorie zeigen, daß die von seinem Instrument gelieferten Zahlenwerte diejenigen sind, die in der Theorie als Wellenlängen auftreten. Wenn eine restliche Unklarheit in der Theorie oder ein nicht analysierter Teil seines Instruments ihn daran hindert, diesen Nachweis vollständig zu liefern, können seine Kollegen zu dem Schluß kommen, er habe gar nichts gemessen.“ (Kuhn, 1997, S.53). Erst wenn eine theoretische Grundlage vorhanden ist, deren Vorhersagen mit den gemessenen Werten übereinstimmen, ist tatsächlich ein Problem gelöst. Diese Problematik ist für Natur- wie Sozialwissenschaften gleichermaßen relevant. Wenn substantielle Theorien quantitative Voraussagen ermöglichen (z.B. ein bestimmter Zusammenhang von Konsumentenethnozentrismus und Kaufabsicht gegenüber importierten Produkten), so geben diese Theorien im Zuge der empirischen Überprüfung Anlaß zu Messungen. Ohne theoretische Grundlagen werden keine Messungen vorgenommen oder dennoch vorgenommene nicht als solche anerkannt. Die Qualität der Messung der Konstrukte hängt von der zugrundeliegenden Meßtheorie ab. Nur eine Meßtheorie, welche das empirische und das numerische Relativ in zufriedenstellender Weise verknüpft, begründet einwandfreie Messungen. Auf die besondere Schwierigkeit in den Sozialwissenschaften, zumeist mit unbeobachtbaren empirischen Relativen konfrontiert zu sein, wurde bereits hingewiesen. Meßtheoretische Probleme verschärfen sich dadurch, sind aber, wie die Latent Trait Theory zeigt, nicht prinzipiell unlösbar. Die bisherige Darstellung kann leicht den Eindruck erwecken, wissenschaftlicher Erkenntniszugewinn sei ein kumulativer Prozeß. In der Tat trifft dies auf normalwissenschaftliche Forschung, also jene innerhalb eines Paradigmas, auch zu. Gelegentlich erbringen jedoch Forschungen Ergebnisse, welche nicht im Einklang mit dem herrschenden Paradigma stehen und dieses in seiner Existenz bedrohen. „Die normale Wissenschaft unterdrückt (...) oft fundamentale Neuerungen, weil diese notwendigerweise ihre Grundpositionen erschüttern. Und trotzdem, solange diese noch ein Element der Willkür enthal- 227 11 Meßtheoretische Paradigmen ten, bietet gerade das Wesen der normalen Forschung die Gewähr dafür, daß das Neue nicht sehr lange unterdrückt wird.“ (Kuhn, 1997, S.20). Kuhn sieht zwei Gründe für neuartige, außerordentliche Untersuchungen. Zum einen können normale Probleme widerstehen, durch bekannte Regeln und Verfahren lösbar zu sein. Zum anderen kann ein „für die normale Forschung entwickeltes Ausrüstungsstück“ nicht in der erwarteten Weise arbeiten und Anomalien erkennen lassen. Wenn die „Fachwissenschaft den die bestehende Tradition wissenschaftlicher Praxis untergrabenden Anomalien nicht länger ausweichen kann“, dann erfolgen neue außerordentliche Untersuchungen (Kuhn, 1997, S.20). Diese setzen das Paradigma ab und führen schließlich zu einem neuen Paradigma, welches in Wettstreit mit dem vorangegangen tritt. Die Wissenschaft gerät in eine Krise. Die Umwandlung der Paradigmata erfolgt in Form wissenschaftlicher Revolutionen, welche das übliche Entwicklungsschema einer reifen Wissenschaft sind (Kuhn, 1997, S.27). Wissenschaftlicher Fortschritt ist demzufolge kein Prozeß der bloßen Wissensanhäufung, sondern ist durch Diskontinuitäten, durch grundlegende Umbrüche gekennzeichnet. Eine wissenschaftliche Revolution fordert „von der Gemeinschaft, eine altehrwürdige wissenschaftliche Theorie zugunsten einer anderen, nicht mit ihr zu vereinbarenden, zurückzuweisen“. (Kuhn, 1997, S.20f). Der Prozeß des Paradigmenwechsels ist regelmäßig ein mühsamer und durch Widerstände gekennzeichneter. „Für [Forscher des traditionellen Paradigmas] bedeutet die neue Theorie eine Änderung der Regeln, die bislang die Praxis der normalen Wissenschaft beherrschten. Zwangsläufig wirkt sie sich daher auf umfangreiche, schon erfolgreich abgeschlossene wissenschaftliche Arbeiten aus. Insofern ist eine neue Theorie, sei ihr Anwendungsbereich auch noch so speziell, selten oder nie nur ein Baustein, der dem schon Bekannten hinzugefügt würde. Ihre Anerkennung erfordert die Umarbeitung einer früheren Theorie und die Neubewertung früherer Fakten, einen wahrhaft revolutionären Vorgang, der selten von einem einzigen Menschen und niemals von heute auf morgen zu Ende geführt werden kann.“ (Kuhn, 1997, S.21). Die Welt des Wissenschaftlers wird nicht nur „quantitativ bereichert“, sondern auch „qualitativ umgewandelt“ (Kuhn, 1997, S.22). Die Resistenz von Paradigmen gegen ihre Ablösung ist jedoch nicht funktionslos. Erst diese Widerstandskraft gewährleistet, daß Paradigmen, welche sich immerhin für geraume Zeit als erfolgreich und sinnvoll erwiesen haben, leichtfertig aufgegeben werden (Kuhn, 1997, S.77). Neue Theorien kommen nur dann zum Zug, wenn „normale Problem- 228 11 Meßtheoretische Paradigmen lösungstätigkeit offensichtlich versagt hat“ (Kuhn, 1997, S.87). Der Wechsel eines Paradigmas ist „eine Extravaganz, die auf die unbedingt notwendigen Fälle beschränkt bleiben soll“ (Kuhn, 1997, S.89). Ein Paradigma kann nur dann verworfen werden, wenn ein neues zur Verfügung steht. Die Beurteilung, ob das neue angenommen oder das alte beibehalten werden soll, kann sich nicht auf eine Überprüfung der Theorien mit der Natur beschränken. Jede Theorie ist unvollkommen und steht gelegentlich mit der Natur in Widerspruch3. Das Urteil muß sich vielmehr auf einen „Vergleich beider Paradigmata mit der Natur und untereinander“ stützen. In der Übergangsphase von einem Paradigma zum anderen sind zahlreiche Probleme durch beide Paradigmen lösbar. Das alte Paradigma hat sich geraume Zeit als brauchbar erwiesen und bleibt dies für die eine oder andere Anwendung. Darüber hinaus setzen zahlreiche Forscher, deren Ausbildung auf dem traditionellen Paradigma beruht hatte, weiter auf dieses. 11.2 Meßtheoretische Paradigmen in der Marketingforschung Es stellt sich zunächst die Frage, ob die klassische und die probabilistische Testtheorie überhaupt als unterschiedliche Paradigmen in der Marketingforschung bezeichnet werden können oder sollen. Tietz (1993a, 1993b) widmet sich der Analyse der Paradigmatik des Marketing und diagnostiziert drei historische Paradigmen der Marketingwissenschaft (Tietz, 1993a, S.158f). Das erste war prägend für die 50er Jahre und sieht die Aufgaben des Marketing, welches damals noch nicht so bezeichnet wurde, im Absatz von Produkten. Angesichts einer produktionsfokusierten Betrachtung und des Vorherrschens von Verkäufermärkten stehen technische Probleme des Absatzes im Vordergrund. Mit Beginn der 60er Jahre tritt eine Wende ein. Märkte wandeln sich von Verkäufer- zu Käufermärkten, Konsumenten werden erstmals als Forschungsgegenstand interessant. Neue Forschungsfelder, wie Marktsegmentierung, Marketingprognostik, usw. werden eröffnet. Mitte der 70er Jahre ist erneut eine Wende festzustellen. Die moderne Datenverarbeitungstechnik hält Einzug ins Marketing. Externe Effekte werden berücksichtigt, Umwelt- 3. Wissenschaften für die das nicht der Fall ist (Kuhn, 1997, S.92, führt das Beispiel der geometrischen Optik an), hören schnell auf, entsprechende Problemstellungen zu offerieren und nehmen daher den Charakter einer Technologie an. 229 11 Meßtheoretische Paradigmen marketing und Stakeholder-Marketing sind die Folge. Neue Spezialisierungsformen, wie Rechtsmarketing, sektorales Marketing und nicht zuletzt internationales Marketing treten in Erscheinung. Im Vergleich zu diesem inhaltlich geprägten Paradigmenbegriff, ist eine Meßtheorie zweifelsohne kein Marketingparadigma. Meßtheorien sind allerdings grundsätzlich keine Marketingtheorien4, sondern werden, ebenso wie mathematische oder statistische Theorien und Methoden, unterstützend herangezogen, wenn quantitative Voraussagen empirisch zu überprüfen sind. Sieht man in der Meß- und Testtheorie jedoch eine eigenständige wissenschaftliche Disziplin - und die hohe Spezialisierung spricht dafür - , so erscheint es durchaus angemessen, die klassische Testtheorie als erstes allgemein anerkanntes Paradigma der Disziplin zu bezeichnen und die Latent Trait Theory bzw. probabilistischen Testtheorie als alternatives Paradigma. Die nähere Analyse der Modelle auf der Grundlage der Latent Trait Theory hat zudem gezeigt, daß mit dem Rasch-Modell ein Modell mit besonderen Eigenschaften aus der Modellfamilie herausragt. Während dieses den Schwerpunkt auf die theoretische Darstellung legt, welche Eigenschaften Daten aufweisen müssen, um als Messungen gelten zu können, verfolgen mehrparametrische Modelle der Latent Trait Theory den umgekehrten Weg und gehen davon aus, daß Modelle gegebene Daten bestmöglich zu erklären haben. Auf die unüberbrückbaren Differenzen, die sich aus diesen unterschiedlichen Prämissen ergeben, wurde hingewiesen. Aus diesem Grund erscheint es ebenso angemessen, von verschiedenen Paradigmen innerhalb der Latent Trait Theory zu sprechen. Die Bedeutung des vorherrschenden Paradigmas der Meßtheorie für die Marketingwissenschaft ist jedenfalls kaum zu unterschätzen. Die Zuverlässigkeit aller auf Messungen beruhender materieller Erkenntnisse der Marketingwissenschaft hängt von der Qualität der jeweiligen Messungen ab. Der Befund von Tietz (1993b, S.229), wonach vor allem die Konsumentenforschung durch einen Explorationsfetischismus gekennzeichnet ist, und anspruchsvolle statistische Methoden oft unreflektiert angewandt werden, unterstreicht die Relevanz der Meßtheorie im Marketing. Ohne vernünftige Messungen sind nachfolgende aufwendige, multivariate Analyseverfahren nicht zielführend. 4. Im Rahmen der Marktforschung wird meßtheoretischen Grundlagen und statistischen Analysetechniken zwar breiter Raum gewidmet, jedoch in der Regel unter Anwendungsaspekten. 230 11 Meßtheoretische Paradigmen Jedes der beiden angesprochenen Paradigmen stellt einen methodologischen Rahmen bereit, innerhalb dessen Messungen erfolgen. Der Wert des Paradigmas liegt also zum einen darin, Messungen zu ermöglichen, zum anderen - und dies ist mindestens ebenso wichtig - darin, in Forschungsvorhaben auf meßtheoretische Begriffe zurückgreifen zu können und diese weder erklären, noch hinterfragen zu müssen. Als Beispiel mag in der klassischen Testtheorie der Begriff der Reliabilität dienen. Die angewandte Forschung, welche sich des Paradigmas der klassischen Testtheorie bedient, gibt den Kennwert der Reliabilität an, ohne ihn üblicherweise näher zu erläutern oder gar zu definieren. Selbst die Bezugnahme auf allgemein akzeptierte Lehrbücher kann sich erübrigen, wenn angenommen werden kann, daß das esoterische Vokabular aller Forscher innerhalb dieses Paradigmas den Begriff umfaßt. Im Kapitel 4.5 wurde untersucht, inwieweit die Problematik internationaler Marktforschung und möglicher Lösungen in Marketing-Lehrbüchern rezipiert ist. Dabei wurde festgestellt, daß die Problematik bei weitem nicht in voller Tragweite dargestellt wird. „Schnellere“ Medien wissenschaftlicher Erkenntnisse, wie Zeitschriftenartikel und Konferenzbeiträge lassen jedoch einen deutlichen Trend erkennen, daß sich die wissenschaftliche Gemeinschaft im Marketing der Problematik bewußt wird. Weniger ermutigend ist der Befund im Hinblick auf Lösungsszenarien, wie Kapitel 9 illustriert. In Lehrbüchern der Marketingdisziplin sind Hinweise auf oder gar Aufarbeitungen der Latent Trait Theory praktisch nicht zu finden. Nach Kuhn (1997) besteht die Funktion von Lehrbüchern darin, Uneingeweihte in das herrschende Paradigma einzuführen. Eine kritische Betrachtung der klassischen Testtheorie in Lehrbüchern ist daher auch gar nicht zu erwarten. Die quantitative Marketingforschung ist fest im Paradigma der klassischen Testtheorie verankert. Retrospektiv betrachtet, spiegelt sich dies auch im Aufbau dieser Untersuchung wider. In Kapitel 6 wurde ein methodischer Ansatz zur Bestimmung der interkulturellen Validität auf der Basis der klassischen Testtheorie erläutert. Dabei wurde diese Basis in keiner Weise kritisch hinterfragt. Dies ist in der normalen Wissenschaft (im Sinne Kuhns) auch gar nicht angebracht. Vielmehr ging es in diesem Abschnitt lediglich darum, eine Verfeinerung des methodologischen Rüstzeugs vorzunehmen. Im Gegensatz dazu eröffnete Kapitel 7 mit einer kritischen Betrachtung der klassischen Testtheorie, ehe mit der probabilistischen Testtheorie eine Alternative vorgestellt wird. Die kritische Analyse wurde vom Gefühl geleitet, daß die klassische Testtheorie nicht in der Weise „funktionie- 231 11 Meßtheoretische Paradigmen re“, wie man es von einer Meßtheorie eigentlich erwarten würde. Tatsächlich haben sich fundamentale Parameter als äußerst problematisch herausgestellt. Noch weitaus bedrohlicher war der Befund, daß Messung auf der Basis der klassischen Testtheorie nicht falsifizierbar ist. Im Sinne Poppers liegt damit gar keine wissenschaftliche Theorie vor, kommt der klassischen Testtheorie kein Erklärungswert zu (vgl. Andersson, 1988, S.17). Diese Erkenntnis scheint das Potential zu bergen, jene Krise heraufzubeschwören, welche nach Kuhn (1997) die notwendige Voraussetzung für die Ablöse eines herrschenden Paradigmas durch ein neues darstellt. Als Kandidaten für letzteres stehen die probabilistische Testtheorie in Form des Rasch-Modells bzw. in Form mehrparametrischer Modelle zur Verfügung. Dennoch sind in der quantitativen Marketingforschung kaum Anzeichen für eine solche Krise zu erkennen. Nach wie vor stellt die klassische Testtheorie weitgehend unwidersprochen die Grundlage quantitativer Forschung dar. Entwicklungen in der Meßtheorie werden entweder nicht wahrgenommen oder als die Marketingdisziplin nicht betreffend erlebt. Tatsächlich hat sich die Meßtheorie zu einer eigenständigen Disziplin entwickelt, und die Versuchung ist verlockend, Erkenntnisse dieser Disziplin aus der eigenen, der Marketing-Disziplin, auszugrenzen. Pragmatisch betrachtet, ist diese Strategie durchaus sinnvoll. Die klassische Testtheorie hat sich als das erste wissenschaftliche Meßparadigma über Jahrzehnte hinweg als erfolgreich erwiesen - zumindest vom Standpunkt dieses Paradigmas aus. Eine leichtfertige Aufgabe wäre daher völlig absurd. Wissenschaftssoziologisch ist auch stark zu bezweifeln, daß die etablierte wissenschaftliche Gemeinschaft der Marketingforschung ihre Grundlagen bereitwillig verwirft und den Wert ihrer eigenen Erkenntnisse in Frage stellt. Wenn diese Untersuchung den Leser stimuliert hat, darüber zu reflektieren, daß die Probleme der klassischen Testtheorie so grundlegend sind, daß eine Verwerfung oder zumindest ein Überdenken des herrschenden Paradigmas alles andere als leichtfertig wäre, dann ist diese Arbeit erfolgreich gewesen. Für das 21. Jahrhundert erscheint ein meßtheoretischer Paradigmenwechsel in der Marketingforschung, wie auch in vielen anderen Bereichen der Betriebswirtschaftslehre, wo Theorien quantitative Voraussagen ermöglichen und daher Messungen zu deren Überprüfung bedingen, als durchaus realistisch. 232 12 Implikationen für die Marketingforschung 12 Implikationen für die Marketingforschung Die aus dieser Untersuchung ableitbaren Implikationen lassen sich in folgende Bereiche gliedern: • Plädoyer für eine meßtheoretische Fundierung der Marketingforschung • Plädoyer für eine theoretische Fundierung des Konstrukts Kultur in der interkulturellen Marketingforschung • Anwendungsfelder vergleichsbezogener Methoden in der Marketingforschung • Spezielle Anwendungsfelder der Latent Trait Theory in der Marketingforschung 12.1 Plädoyer für eine meßtheoretische Fundierung der Marketingforschung Ein bedeutsamer Gegenstand der Marketingforschung besteht in der Messung sogenannter latenter hypothetischer Konstrukte. Letztere stellen die substanztheoretische Basis der Messung dar, geben sie doch erst Anlaß zur Messung (Hänni, 1987, S.946). Die Entwicklung von Indikatoren als Manifestationen eines latenten Konstrukts setzen die Annahme des Konstrukts voraus. Die Frage, wie gut diese Indikatoren das Konstrukt messen bzw. die Frage, ob sie dies überhaupt tun, ist Gegenstand der Meßtheorie. Die Aufgabe der Meßtheorie liegt also darin, auf axiomatischer Basis deduktiv abzuleiten, welche Eigenschaften Daten aufweisen müssen, um eine Messung zu konstituieren. Eine Meßtheorie, soll sie dem Anspruch einer Theorie gerecht werden, muß prinzipiell falsifizierbar sein. In der Praxis der Marketingforschung werden meßtheoretische Grundlagen kaum reflektiert. Das Konzept der klassischen Testtheorie wird weitgehend unkommentiert unterstellt. Zwar widmen sich Marketing-Lehrbücher dem Modell der klassischen Testtheorie, dies erfolgt jedoch nicht auf einer methodenkritischen Ebene, sondern lediglich auf deskriptivem Niveau (vgl. Kapitel 12). Nicht zufällig sind die ins Treffen geführten Beispiele zumeist aus den Naturwissenschaften entlehnt (physikalische Maße der Körpergröße, des Körpergewichts, der Temperatur, etc.). Die Problematik der Anwendung dieser Meßtheorie im Bereich der Sozial- und Wirtschaftswissenschaften wird hingegen kaum thematisiert. 233 12 Implikationen für die Marketingforschung Es stellt sich die Frage, welche Konsequenzen diese von hoher Pragmatik gekennzeichnete Vorgangsweise der empirischen, quantitativen Marketingforschung mit sich bringt. Die Ignorierung möglicher meßtheoretischer Probleme führt nicht dazu, daß diese nicht weiter existieren. Vielmehr werden diese von der meßtheoretischen in die substanztheoretische Ebene quasi importiert, freilich ohne auf letzterer als solche erkennbar zu sein! Wenn meßtheoretische Unzulänglichkeiten bestehen (und dies ist keinesfalls als die Ausnahme zu sehen), so sind Meßwerte nicht aussagekräftig und statistisch scheinbar gut abgesicherte Schlußfolgerungen auf der Substanzebene (z.B. signifikante Ergebnisse eines t-Tests, einer Varianz- oder Regressionsanalyse) unter Umständen meßtheoretische Artefakte. Die Prüfung substantieller Hypothesen ist durch Scheingenauigkeit bedroht, indem errechnete p-Werte unzuverlässig und formal ausgewiesene Signifikanzniveaus inkorrekt sind. Die Konfundierung von Meß- und Substanztheorie kann nur dadurch gelöst werden, daß eine wissenschaftstheoretisch zufriedenstellende Meßtheorie zugrunde gelegt wird. Jeder Kompromiß auf der Meßebene im Sinne einer reduzierten Zuverlässigkeit1 der Messung beschränkt notwendigerweise die Aussagekraft substanztheoretischer Schlußfolgerungen. Unglücklicherweise werden meßtheoretische Probleme im Rahmen der klassischen Testtheorie nicht immer offenkundig. Im Sinne eines inhaltlichen Fortschritts der Wissenschaftsdisziplin Marketingforschung ist nichtsdestotrotz eine stärkere Gewichtung der Meßtheorie in empirischen Studien zu fordern. Auch der Ablauf von Forschungsprojekten kann eine Quelle meßmethodischer Probleme darstellen. In der Praxis wird nicht selten das Meßproblem umgekehrt. Anstelle eines Konstrukts, zu dessen Messung Indikatoren gesucht werden, dienen Indikatoren - oder besser: manifeste Variablen - als Ausgangspunkt. Durch explorative Faktorenanalysen wird untersucht, was denn eigentlich damit gemessen wird. Die Konstrukte werden datengesteuert abgeleitet. Die Marketingdisziplin, wie jede andere empirische Wissenschaft auch, kann und soll auf solche explorative, induktive Ansätze nicht verzichten. Durch ausschließlich deduktive Schritte kann der Erkenntnisraum der Disziplin letztlich nicht erweitert werden. Problematisch wird diese Vorgangsweise jedoch dann, wenn an ein und 1. Unter Zuverlässigkeit ist in diesem Zusammenhang nicht das Konzept der Reliabilität zu verstehen, sondern die Frage, ob und wie eine Messung überhaupt zustande kommt. 234 12 Implikationen für die Marketingforschung demselben Datensatz Konstrukte „abgeleitet“ und „gemessen“, sowie darauf aufbauend substanztheoretische Hypothesen geprüft werden. Bei der Entwicklung von Meßinstrumenten ist daher eine strikte Trennung induktiver und deduktiver Schritte zu fordern. Auf explorative Analysen müssen konfirmatorische folgen, um eine meßtheoretische Hypothesenprüfung zu ermöglichen. Der Ablaufplan einer Skalenentwicklung soll jedoch nicht auf die Erhebung neuer Datensätze und der Testung neuer Modelle beschränkt bleiben. Bei Meßproblemen sind auch die konkreten Operationalisierungen zu überdenken und Items gegebenenfalls neu zu formulieren. Eine Anpassung von Modellen an mangelhafte Daten, wie dies im Rahmen des two- und three-parameter logistic model erfolgt, ist keine dazu gleichwertige Alternative. Bei mangelhafter Übereinstimmung von Modell und Daten, ist in erster Linie die Messung und damit das Zustandekommen der Daten zu hinterfragen. Der gegenteilige Schluß - das Modell ist falsch - würde nämlich implizieren, daß die Daten sehr wohl eine Messung, sozusagen objektive Wirklichkeit darstellen, welche durch ein notwendigerweise reduktionistisches Modell eben nicht vollständig erklärt wird. Eine Meßtheorie zielt aber nicht darauf ab, Daten zu „erklären“, sondern darzustellen, unter welchen Bedingungen (welche die Daten zu erfüllen haben) davon ausgegangen werden kann, daß eine Messung überhaupt zustandegekommen ist. Die beiden diskutierten Ansätze werden dieser Anforderung unterschiedlich gerecht. Der faktorenanalytische Ansatz zur Überprüfung der interkulturellen Validität ist dazu eigentlich nicht in der Lage, da geprüft wird, ob eine Messung äquivalent erfolgt, setzt aber schlichtweg voraus, daß eine solche tatsächlich gegeben ist. Das Rasch-Modell als Latent Trait Theory basiertes Meßmodell (und nur dieses) erfüllt hingegen den formulierten Anspruch. Während Analyseverfahren für substanztheoretische Fragestellungen in der Marketingforschung weit verbreitet und gewissermaßen Bestandteil der Disziplin sind, bleiben meßtheoretische Betrachtungen so gut wie ausgeschlossen. Es ist daher geboten, den wissenschaftlichen Austausch zwischen methodischen und Anwendungsdisziplinen zu beschleunigen. Yu et al. (1993, S.48) ist voll zuzustimmen, wenn sie meinen, daß „CrossCultural research has in the past utilized very simplistic analyses. More sophisticated techniques have now been developed, and researchers must, if appropriate, apply those which can capture subtle differences in how concepts are absorbed in different cultures.“. 235 12 Implikationen für die Marketingforschung Die Integration adäquater Verfahren in den Ablauf intra- wie interkultureller Forschungsvorhaben ist zur Zeit nur in Ansätzen zu erkennen. Ein solcher findet sich etwa bei Mintu et al. (1994), welche „Churchill’s Research Paradigm“ erweitern, um Anforderungen kulturübergreifender Forschung gerecht zu werden. Dabei handelt es sich aber nur um Handlungsempfehlungen (auf dem Stand der Forschung von Douglas und Craig, 1983) und nicht um methodische Anregungen oder Empfehlungen. Gelten die formulierten meßtheoretischen Forderungen sowohl für intra- wie für interkulturelle Forschung, so ist für die Entwicklung von Skalen zum Einsatz in der interkulturellen Marketingforschung darüber hinaus die Berücksichtigung eines neuen Gütekriteriums - die interkulturelle Validität - zu fordern. Im Zuge der Skalenanwendung ist die Überprüfung der interkulturellen Vergleichbarkeit oft aufgrund zeitlicher und finanzieller Restriktionen, sowie aufgrund von Know-how-Mangel nicht möglich. Es ist daher Aufgabe der Skalen(weiter)entwicklung, interkulturelle Validität zu gewährleisten. 12.2 Plädoyer für eine theoretische Fundierung des Kulturkonstrukts in der interkulturellen Marketingforschung Wenn Holzmüller (1996) zahlreiche konzeptuelle und methodische Unzulänglichkeiten in der interkulturellen Forschung ortet, so beziehen sich diese nicht nur auf die meßtheoretische Ebene. Um substanztheoretische Erkenntnisse verallgemeinern und in einen theoretischen Rahmen einordnen zu können, sind zwei Voraussetzungen zu erfüllen. Zum einen ist eine kulturbezogene theoretische Basis erforderlich, welche begründete Hypothesen ableiten läßt, welche Kulturen sich auf einem bestimmten Konstrukt unterscheiden. Zum anderen - und damit eng verknüpft - ist das Konstrukt Kultur in geeigneter Form zu operationalisieren. Kultur als nominalskalierte Variable und mit einer Landesbezeichnung gleichgesetzt, erlaubt zwar die Prüfung statistischer Hypothesen. Die Ergebnisse bleiben aber letztlich deskriptiv und weitgehend unbegründbar. Für die Operationalisierung von Kultur stehen zahlreiche Ansätze zur Verfügung (vgl. Kapitel 3). Wesentlich weniger fortgeschritten ist der State-of-the-Art, wenn es um die Verknüpfung von Konsumentenverhaltens- und Kulturtheorien geht. Zumeist weisen Theorien eine implizite Einschränkung des Geltungsbereichs auf den kulturellen Kontext ihrer Formulierung auf. Im Rahmen der Theoriebildung in der Marketingwissenschaft ist 236 12 Implikationen für die Marketingforschung daher die Forderung zu erheben, kulturelle Einflüsse in Zukunft stärker und explizit zu berücksichtigen, wie dies beispielsweise bei McCort und Malhotra (1993) der Fall ist. 12.3 Anwendungsfelder vergleichsbezogener Methoden in der Marketingforschung Der Vergleich stellt unzweifelhaft eine wesentliche Grundlage des Erkenntnisgewinns in empirischen Wissenschaften dar. Die Problemstellung vorliegender Untersuchung ist auf die interkulturelle Marketingforschung fokussiert. Im Falle des Vergleichs von Kulturen sind Probleme der Vergleichbarkeit und damit die Frage, ob ein Vergleich überhaupt zulässig ist, offensichtlicher als in der intrakulturellen Forschung und werden daher eher thematisiert. Die Vergleichbarkeit kann jedoch auch in traditionellen, (landes)kulturhomogenen Untersuchungen bedroht sein. So könnten unterschiedliche Organisationskulturen in Unternehmen die Beantwortung von Arbeitszufriedenheitsskalen durch Mitarbeiter so beeinflussen, daß Vergleiche über Unternehmen hinweg nicht aussagekräftig sind. Subkulturen innerhalb eines Landes könnten auf Marketingskalen unterschiedlich reagieren und einen Meßbias bedingen. Das vorgestellte Methodeninstrumentarium ist daher auch für die Überprüfung der Vergleichbarkeit jenseits des Kultureinflusses einsetzbar. Eine Anwendung des faktorenanalytischen Verfahrens findet sich z.B. bei Salzberger (1997), welcher die Vergleichbarkeit unterschiedlicher Samplingmethoden in der Zufriedenheitsforschung untersucht. 12.4 Spezielle Anwendungsfelder der Latent Trait Theory in der Marketingforschung Neben dem diskutierten Einsatz zur Absicherung der Vergleichbarkeit, bestehen weitere, vielversprechende Anwendungsfelder der Latent Trait Theory in der Marketingforschung, welche hier nur angedeutet und keinesfalls erschöpfend dargestellt werden können. So stellt das polytome Rasch-Modell eine ausgezeichnete Möglichkeit dar, Hypothesen über Antwortskalen zu überprüfen und die optimale Zahl an Kategorien empirisch zu ermitteln (vgl. Zhu et al., 1997). Die Falsifikation des polytomen Modells der CETSCALE in Österreich bei gleichzeitiger Bestätigung des dichotomen Modells läßt die Erforschung einer reduzierten Zahl an Antwortkategorien (zwischen zwei und sieben) sinnvoll erscheinen. Generalisiert mündet auch die Forderung nach Absicherung der Antwortkategorisierung in das Plädoyer zur stärkeren Gewichtung meßtheoretischer Betrachtungen im Marketing. 237 12 Implikationen für die Marketingforschung Abschließend sei auf zwei weitere interessante Anwendungsaspekte der Latent Trait Theory hingewiesen. Gelegentlich lassen diskrete, qualitative beobachtbare Phänomene den Eindruck erwecken, als ob diese Manifestationen eines ebenfalls qualitativen, nichtkontinuierlichen latenten Konstrukts seien. Tatsächlich ist es aber durchaus möglich, daß ein kontinuierlicher latenter Trait qualitativ unterschiedliche Manifestationen hervorruft. Ein Beispiel aus der Psychologie sind die Phasen der intellektuellen Entwicklung des Menschen nach Piaget, welche qualitativ unterschiedliche Entwicklungsstufen darstellen. Bond (1995a, 1995b), sowie Bond und Bunting (1995) zeigen mit Hilfe der Latent Trait Theory, daß diskontinuierliche Sprünge auf der manifesten Ebene durch kontinuierliche Zuwächse auf einem latenten Kontinuum erklärbar sind. Ausgangspunkt sind dabei Items, welche Kindern aus unterschiedlichen Phasen nach Piaget vorgegeben werden. Wenn die Itemparameter über diese Gruppen hinweg gleich sind, so lassen sich Vergleiche auf der kontinuierlichen latenten Dimension vornehmen. Im Marketingkontext erscheint dieser Ansatz beispielsweise im Zusammenhang mit der Marktsegmentierung vielversprechend. Neue Segmentierungsansätze stellen technographische Kriterien, wie z.B. den Besitz eines PCs, gegenüber demo- und psychographischen Kriterien in den Vordergrund (Eaton, 1997). Die technographisch abgegrenzten Marktsegmente unterscheiden sich auf manifester Ebene qualitativ. Auf latenter Ebene könnten sich diese Segmente unter Umständen auf einer kontinuierlichen Dimension abbilden lassen. Eine weitere völlig neue Betrachtungsweise eröffnet die Latent Trait Theory in Bezug auf die häufig diagnostizierte geringe Korrelation von Einstellung und entsprechendem Verhalten bzw. dem berichteten Verhalten (Kroeber-Riel und Weinberg, 1996, S.172). Das Rasch-Modell gestattet die Überprüfung, ob sich einstellungs- und verhaltensbezogene Items auf der gleichen Dimension abbilden lassen, also keine verschiedenen Konstrukte darstellen. Dabei wird davon ausgegangen, daß die verhaltensbezogene Version eines Einstellungsitems dieselbe Dimension mißt, aber einen höheren Schwierigkeitsparameter (und damit einen geringeren Aufforderungscharakter) aufweist. Waugh (1998) prüft diese Hypothese am Beispiel von Einstellung zum Studium und tatsächlichem (berichteten) Studierverhalten. Ein Großteil der Items ist modellkonform, und verhaltensbezogene Items haben durchwegs größere Itemparameter als die entsprechenden Einstellungsitems. Die Unterschiede sind jedoch über alle Items hinweg nicht konstant, was den geringen li- 238 12 Implikationen für die Marketingforschung nearen Zusammenhang von Einstellung und Verhalten in quantitativen empirischen Untersuchungen erklären würde. Für die Konsumentenverhaltensforschung ergibt sich daraus eine neue Sichtweise der Problematik von Einstellung und Kaufverhalten. Mit Hilfe der Latent Trait Theory kann empirisch überprüft werden, ob die Einstellung zu einem Produkt, die damit verbundene Kaufabsicht und das tatsächliche Kaufverhalten eine einzige Dimension darstellen. Der Kauf eines Produkts ist demzufolge die verhaltensbezogene Komponente der Einstellung (Kroeber-Riel und Weinberg, 1996). Bei gegebener Lokation auf der latenten Dimension („Einstellung im weiteren Sinne“) wäre die geäußerte Einstellung positiver als die Kaufabsicht bzw. das tatsächliche Kaufverhalten, da die Zustimmung zu Einstellungsitems leichter fällt als jene zu Kaufabsichts- oder Kaufverhaltensitems. Die Diskrepanz zwischen Einstellung und Kaufverhalten geht damit lediglich auf Itemcharakteristika zurück. Traditionell werden hingegen situative Faktoren als Erklärung für die Divergenz von Einstellung und Verhalten angeführt bzw. unterschiedliche Konstrukte angenommen. 239 13 Literatur 13 Literatur Adler, Leonore L. (Hrsg.) (1977): Issues in Cross-Cultural Research, Annals of the New York Academy of Sciences, New York Adler, Nancy J. (1983): A Typology of Management Studies Involving Culture, in: Journal of International Business Studies, Fall 1983, S.29-47 Adler, Nancy J. (1991): International Dimensions of Organizational Behavior, Second Edition, PWS-KENT Publishing, Bosten Andersen, Erling B. (1977): Sufficient Statistics and Latent Trait Models, in: Psychometrika, Vol. 42, S.69-81 Anderson, James C.; Gerbing, David W. (1988): Structural Equation Modeling in Practice: A Review and Recommended Two-Step Approach, in: Psychological Bulletin, Vol. 103, Nr. 3, S.411-423 Andersson, Gunnar (1988): Kritik und Wissenschaftsgeschichte, Mohr, Tübingen Andrich, David (1978a): A Rating Formulation for Ordered Response Categories, in: Psychometrika, Vol. 43, Nr. 4, S.561-573 Andrich, David (1978b): Application of a Psychometric Rating Model to Ordered Categories Which Are Scored with Successive Integers, in: Applied Psychological Measurement, Vol. 2, Nr. 4, S.581-594 Andrich, David (1982): An Index of Person Separation in Latent Trait Theory, the Traditinal KR.20 index, and the Guttman Scale Response Pattern, in: Educational Research and Perspectives, UWA, Vol. 9, Nr. 1, S.95-104 Andrich, David (1985): An Elaboration of Guttman Scaling with Rasch Models for Measurement, in: Brandon-Tuma, N. (Hrsg.): Sociological Methodology, Jossey-Bass, San Francisco, Chapter 2, S.33-80 Andrich, David (1988a): Rasch Models for Measurement, Sage University Paper Series on Quantitative Applications in the Social Sciences, 68, Sage Publications, Beverly Hills Andrich, David (1988b): A General Form of Rasch’s Extended Logistic Model for Partial Credit Scoring, in: Applied Measurement in Education, Vol. 1, Nr. 4, S.363-378 Andrich, David (1989): Distinctions between Assumptions and Requirements in Measurement in the Social Sciences, in: Keats, J.A. et al. (Hrsg.): Mathematical and Theoretical Systems, Elsevier Science Publishers B.V., North Holland, S.7-16 Andrich, David (1995a): Distinctive and Incompatible Properties of Two Common Classes of IRT Models for Graded Responses, in: Applied Psychological Measurement, Vol. 19, Nr. 1, S.101-119 240 13 Literatur Andrich, David (1995b): Models for Measurement, Precision and the Non-Dichotomization of Graded Responses, in: Psychometrika, Vol. 60, Nr. 1, S.7-26 Andrich, David (1995c): Further Remarks on the Non-Dichotomization of Graded Responses, in: Psychometrika, Vol. 60, Nr. 1, S.37-46 Andrich, David (1997): A Hyperbolic Cosine IRT Model for Unfolding Direct Responses of Persons to Items, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.399-414 Andrich, David (1998): Advanced Social and Educational Measurement, Unit Materials E444 Summer 1998, Murdoch University, Perth Andrich, David; Sheridan, Barry E. (1997): Diagnostic Opportunities with the Rasch Model for Ordered Response Categories, in: Rost, Jürgen; Langeheine, Rolf (Hrsg.): Applications of Latent Trait and Latent Class Models in the Social Sciences, Waxmann, Münster, S.59-70 Angelmar, Reinhard; Pras, Bernhard (1978): Verbal Rating Scales for Multinational Research, in: European Research, Vol. 6, March, S.62-67 Atteslander, Peter (1995): Methoden der empirischen Sozialforschung, de Gruyter, Berlin Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff; Weiber, Rolf (1994): Multivariate Analysemethoden - Eine anwendungsorientierte Einführung, siebente, vollständig überarbeitete und erweiterte Auflage, Springer, Berlin Bagozzi, Richard P. (1982): A Field Investigation of Causal Relations among Cognitions, Affect, Intentions, and Behavior, in: Journal of Marketing Research, Vol. XIX, S.562-584 Bauer, Erich (1989): Übersetzungsprobleme und Übersetzungsmethoden bei einer multinationalen Marketingforschung, in: Jahrbuch für Absatz- und Verbrauchsforschung, Nr.2, S.174-205 Bauer, Erich (1995): Internationale Marketingforschung, Oldenbourg, München Baumgartner, Hans; Homburg Christian (1996): Applications of Structural Equation Modeling in Marketing and Consumer Research: A review, in: International Journal of Research in Marketing, Vol. 13, S.139-161 Baumgartner, Hans; Steenkamp, Jan-Benedict E.M. (1997): Multi-Group Latent Variable Models for Varying Numbers of Items and Factors with Cross-National and Longitudinal Applications, Workingpaper, Catholic University of Leuven, Belgium Beatty, Sharon E.; Jeon, Jung-Ok; Albaum, Gerald; Murphy, Brian (1994): A Cross-National Study of Leisure Activities, in: Journal of Cross-Cultural Psychology, Vol. 25, Nr. 3, S.409-422 241 13 Literatur Bentler, Peter M.; Bonett, Douglas G. (1980): Significance Tests and Goodness of Fit in the Analysis of Covariance Structures, in: Psychological Bulletin, Vol. 88, Nr. 3, S.588-606 Berry, John W. (1980): Introduction to Methodology, in: Triandis, Harry C.; Berry, John W. (Hrsg.): Handbook of Cross-Cultural Psychology, Vol. 2: Methodology, Boston, MA, S.1-28 Berry, John W. (1990): Imposed Etics, Emics and Derived Etics: Their Conceptual and Operational Status in Cross-Cultural Psychology, in: Headland, Thomas N.; Pike, Kenneth L.; Harris, Marvin (Hrsg.): Emics and Etics - The Insider/Outsider Debate, SAGE Publications, Newbury Park, S.84-99 Berry, John W.; Annis, R.C. (1974): Ecology, Culture, and Psychological Differentiation, in: International Journal of Psychology, Vol. 9, S.173-193 Berry, John W.; Dasen, D.S. (Hrsg.) (1974): Introduction to Culture and Cognition, Methuen Birnbaum, Allan (1968): Some Latent Trait Models and Their Use in Inferring an Examinee’s Ability, in: Lord, Frederic M.; Novick, M.R. (Hrsg.): Statistical Theories of Mental Test Scores (Chapters 17-20), Addison-Wesley, Reading (Mass.) Bock, R. Darrell (1972): Estimating Item Parameters and Latent Ability when the Responses are Scored in Two or More Nominal Categories, in Psychometrika, Vol. 37, Nr. 1, S.29-51 Bock, R. Darrell (1997): The Nominal Categories Model, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.33-49 Bollen, Kenneth A. (1989): Structural Equations with Latent Variables, Wiley, New York Bollen, Kenneth A.; Long, J. Scott (1993): Introduction, in: Bollen, Kenneth A.; Long, J. Scott (Hrsg.): Testing Structural Equation Models, SAGE Publications, Newbury Park, S.1-9 Bollen, Kenneth A.; Long, J. Scott (Hrsg.) (1993): Testing Structural Equation Models, SAGE Publications, Newbury Park Bond, Trevor G. (1995a): Piaget and Measurement I: The Twain Really Do Meet, in: Archives de Psychologie, Vol. 63, S.71-87 Bond, Trevor G. (1995b): Piaget and Measurement II: Empirical Validation of the Piagetian Model, in: Archives de Psychologie, Vol. 63, S.155-185 Bond, Trevor G. & Bunting, Erin (1995): Piaget and Measurement III: Reassessing the Méthode Clinique, in: Archives de Psychologie, Vol. 63, S.231-255 242 13 Literatur Bontempo, Robert (1993): Translation Fidelity of Psychological Scales, An Item Response Theory Analysis of an Individualismus-Collectivism Scale, in: Journal of CrossCultural Psychology, Vol. 24, Nr. 2, S.149-166 Boran-Leitner, G.; Franta, R. (1994): Das neue Europa für mich als Lebensmittelhändler, Information des WIFI Österreich Bortz, Jürgen (1993): Statistik - Für Sozialwissenschaftler, Springer, Berlin Brislin, Richard W. (1970): Back-translation for Cross-Cultural Research, in: Journal of Cross-Cultural Psychology, Vol. 1, No. 3, September 1970, S.185-216 Brislin, Richard W. (1980): Translation and Content Analysis of Oral and Written Material, in: Triandis, Harry C.; Berry, John W. (Hrsg.): Handbook of Cross-Cultural Psychology, Vol. 2: Methodology, Boston, MA, S.389-444 Brislin, Richard W. (1986): The Wording and Translation of Research Instruments, in: Lonner, Walter J.; Berry, John W. (Hrsg.): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, SAGE Publications, Beverly Hills, S.137-164 Brislin, Richard W.; Yoshida, Tomoko (1994): Intercultural Communication Training: An Introduction, SAGE Publications, Thousand Oaks Brockhaus (1979): Enzyklopädie; 6. Auflage, Band 3, Wiesbaden Browne, Michael W.; Cudeck, Robert (1993): Alternative Ways of Assessing Model Fit, in: Bollen, Kenneth A.; Long, J. Scott (Hrsg.): Testing Structural Equation Models, SAGE Publications, Newbury Park, S.136-162 Brüch, Andreas; Thomas, Alexander (1995): Beruflich in Südkorea. Interkulturelles Orientierungstraining für Manager, Fach- und Führungskräfte, Asanger, Heidelberg Burns, Alvin C.; Bush, Ronald F. (1995): Marketing Research, Prentice Hall, Englewood Cliffs Byrne, Barbara M.; Shavelson, Richard J.; Muthén, Bengt (1989): Testing for the Equivalence of Factor Covariance and Mean Structures: The Isues of Partial Measurement Invariance, in: Psychological Bulletin, Vol. 105, Nr. 3, S.456-466 Calantone, Roger J.; Schmidt, Jeffrey B.; Song, Michael X. (1996): Controllable Factors of New Product Success: A Cross-National Comparison, in: Marketing Science, Vol. 15, Nr. 4, S.341-358 Campbell, D.T. (1961): The Mutual Methodological Relevance of Anthropology and Psychology, in: Hsu, Francis L.K. (Hrsg.): Psychological Anthropology, Dorsey, Homewood 243 13 Literatur Candell, Gregory L.; Hulin, Charles L. (1987): Cross-Language and Cross-Cultural Comparisons in Scale Translations, Independent Sources of Information About Item Nonequivalence, in: Journal of Cross-Cultural Psychology, Vol. 17, nr. 4, S.417-440 Cavusgil, S. Tamer; Das, Ajay (1997): Methodological Issues in Empirical Cross-Cultural Research: A Survey of the Management Literature and a Framework, in: Management International Review, Vol. 37, 1997/1, S.71-96 Chikudate, Nobuyuki (1997): Exploring the Life-world of Organizations by Linguistic Oriented Phenomenology in Sub-Cultural Analysis of Organizations: A Comparison between Japanes and U.S. Banks, in: Management International Review, Vol. 37, 1997/2, S.169-183 Chmielewicz, Klaus (1979): Forschungskonzeptionen der Wirtschaftswissenschaft, 2. Auflage, Poeschel, Stuttgart Churchill, Gilbert A. Jr. (1995): Marketing Research - Methodological foundations, Sixth Edition, The Dryden Press, Fort Worth Clark, Terry (1990): International Marketing and National Character: A Review and Proposal for an Integrative Theory, in: Journal of Marketing, Nr.3, Oktober 1990, S.6679 Cronbach, Lee J.; Gleser, Goldine C.; Nanda, H.; Rajaratnam, N. (1972): The Dependability of Behavioral Measurements, John Wiley, New York Cui-Chi, Charles (1997): Toward Cross-cultural Measure Equivalence of Conditions of Inter-personal Trust: A Confirmatory Factor Analysis, in: Harris, Phil; Schuster, Camille (Hrsg.): The Academy of Marketing/American Marketing Association Conference, Proceedings of the First Conference, Marketing Across Borders, S.235-238 Davis, Harry L.; Douglas, Susan P.; Silk, Alvin J. (1981): Measure Unreliability: A Hidden Threat to Cross-National Marketing Research?, in: Journal of Marketing, Vol. 45, Spring 1981, S.98-109 Douglas, Susan P., Craig, Samuel C. (1983): International Marketing Research, PrenticeHall, Englewood Cliffs Douglas, Susan P., Craig, Samuel C. (1992): Advances in International Marketing, in: International Journal of Research in Marketing, Vol. 9, Nr. 4, S.291-318 Douglas, Susan P.; Craig, Samuel C. (1995): Global Marketing Strategy, McGraw-Hill, New York Douglas, Susan P.; Wind, Yoram (1987): The Myth of Globalization, Columbia Journal of World Business, Winter 1987 19-29 Drasgow, Fritz (1995): Some Comments on Labouvie and Ruetsch, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.83-85 244 13 Literatur Drasgow, Fritz; Miller, Howard E. (1982): Psychometric and Substantive Issues in Scale Construction and Validation, in: Journal of Applied Psychology, Vol. 67, Nr. 3, S.268-279 Du Preez, Johann P; Diamantopoulos, Adamantios; Schlegelmilch, Bodo B. (1994): Product Standardization and Attribute Saliency: A Three-Country Empirical Comparison, in: Journal of International Marketing, Vol. 2, Nr. 1, S.7-28 Durkheim, Emile (1981): Die elementaren Formen des religiösen Lebens, Suhrkamp, Frankfurt/Main Durvasula, Srinivas; Andrews, Craig J.; Netemeyer, Richard G. (1997): A Cross-Cultural Comparison of Consumer Ethnocentrism in the United States and Russia, in: Journal of International Consumer Marketing, Vol. 9, Nr. 4, S.73-93 Eaton, Bill (1997): „Technographics“ May Be the New Research Buzzword, in: Marketing News, Vol. 31, Nr. 19, S.8 Ellis, Barbara B. (1989): Differential Item Functioning: Implications for Test Translations, in: Journal of Applied Psychology, Vol. 74, Nr. 6, S.912-921 Ellis, Barbara B.; Kimmel, Herbert D. (1992): Identification of Unique Cultural Response Patterns by Means of Item Response Theory, in: Journal of Applied Psychology, Vol. 77, Nr. 2, S.177-184 Ellis, Barbara B.; Becker, Peter; Kimmel, Herbert D. (1993): An Item Response Theory Evaluation of an English Version of the Trier Personality Inventory (TPI), in: Journal of Cross-Cultural Psychology, Vol. 24, Nr. 2, S.133-148 Engelhard, Johann (Hrsg.) (1997): Interkulturelles Management : theoretische Fundierung und funktionsbereichsspezifische Konzepte, Gabler, Wiesbaden Ferrando, Pere J. (1996): Calibration of Invariant Item Parameters in a Continuous Item Response Model Using the Extended Lisrel Measurement Submodel, in: Multivariate Behavioral Measurement, Vol. 31, Nr. 4, S.419-439 Finifter, B.M. (1977): The Robustness of Cross-Cultural Findings, in: Adler, Leonore Loeb (Hrsg.) (1977): Issues in Cross-Cultural Research, Annals of the New York Academy of Sciences, New York, S.151-184 Fischer, Gerhard (1974): Einführung in die Theorie psychologischer Tests, Huber, Bern Fischer, Gerhard (1989): Spezifische Objektivität: Eine wissenschaftstheoretische Grundlage des Rasch-Modells, in: Kubinger, Klaus (Hrsg.): Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen, Beltz, Weinheim, S.87-111 Fischer, Gerhard (1995a): Derivations of the Rasch Model, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.15-38 245 13 Literatur Fischer, Gerhard (1995b): The Derivation of Polytomous Rasch Models, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.293-305 Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.) (1995): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York Freud, Sigmund (1930): Das Unbehagen in der Kultur, in: Fragen der Gesellschaft, Ursprünge der Religion, Studienausgabe Band IX, Fischer Wissenschaft, 1982, S.192270 Frijda, Nico H.; Jahoda, Gustav (1966): On the Scope and Methods of Cross-Cultural Research, in: Journal of International Psychology, Vol. 1, S.110-127 Friedrichs, Jürgen (1990): Methoden empririscher Sozialforschung, 14. Auflage, Westdeutscher Verlag, Opladen Gerbing, David W.; Hamilton, Janet G. (1996): Viability of Exploratory Factor Analysis as a Precursor to Confirmatory Factor Analysis, in: Structural Equation Modeling, Vol. 3, Nr. 1, S.62-72 Glas, Gene V.; Stanley, Julian C. (1970): Statistical Methods in Education and Psychology, Prentice Hall, Englewood Cliffs, N.J. Goldschmidt, W. (1966): Comparative Functionalism, University of California Press, Berkeley Good, Linda K.; Huddleston, Patricia (1995): Ethnocentrism of Polish and Russian Consumers: Are Feelings and Intentions Related?, in: International Marketing Review, Vol. 12, Nr. 5, S.35-48 Goodenough, Ward H. (1971): Culture, Language and Society, Modular Publications 7, Addison-Wesley, Reading, MA Green, Robert; Langeard, Eric (1975): A Cross-National Comparison of Consumer Habits and Innovator Characteristics, in: Journal of Marketing, 49, S.34-41 Grubitzsch, Siegfried; Rexilius, Günter (1978): Testtheorie - Testpraxis, Voraussetzungen, Verfahren, Formen und Anwendungsmöglichkeiten psychologischer Tests im kritischen Überblick, Rowolth, Reinbek bei Hamburg Gullikson, H. (1950): Theory of Mental Tests, Wiley, New York Guttman, Louis (1950): The Basis of Scalogram Analysis, in: Stouffer, S.A. et al.: Studies in Social Psychology in World War II, Vol. IV, Princeton University Press, Princeton, N.J. 1950 Hair, Joseph F. Jr.; Anderson, Rolph E.; Tatham, Ronald L.; Black, William C. (1995): Multivariate Data Analysis with Readings, fourth edition, Prentice-Hall, Englewood Cliffs 246 13 Literatur Hall, Edward T. (1959): The Silent Language, reprint 1980, Greenwood Press, Westport Hall, Edward T.; Hall, Mildreed Reed (1990): Understanding Cultural Differences, Intercultural Press, Yarmouth (Maine) Hambleton, Ronald K.; Swaminathan, Hariharan (1985): Item Response Theory: Principles and Applications, Kluwer Nijhof Publishing, Boston Hambleton, Ronald K.; Swaminathan, Hariharan; Rogers, Jane H. (1991): Fundamentals of Item Response Theory, SAGE Publications, Newbury Park Hancock, Gregory R. (1997): Structural Equation Modeling Methods of Hypothesis Testing of Latent Variable Means, in: Measurement and Evaluation in Counseling and Development, Vol. 30, July 1997, S.91-105 Hanisch, Kathy A. (1992): The Job Descriptive Index Revisited: Questions About the Question Mark, in: Journal of Applied Psychology, Vol. 77, Nr. 3,S.377-382 Hänni, R. (1987): Hypothetisches Konstrukt, in: Arnold, Wilhelm; Eysenck, Hans Jürgen; Meili, Richard (Hrsg.): Lexikon der Psychologie, Zweiter Band, S.946 Headland, Thomas N.; Pike, Kenneth L.; Harris, Marvin (Hrsg.) (1990): Emics and Etics - the Insider/Outsider Debate, SAGE Publications, Newbury Park Herkner, Werner (1991): Sozialpsychologie, 5. korrigierte und starkt erweiterte Auflage, Huber, Bern Hofstede, Geert (1980): Culture’s Consequences: International Differences in Work-related Values, SAGE Publications, Beverly Hills Hofstede, Geert (1983): The Cultural Relativity of Organizational Practicies and Theories, in: Journal of International Business Studies, Vol. 14, Nr. 2, S.75-89 Hofstede, Geert (1984): Culture’s Consequences: International Differences in Work-related Values, Abridged Version, SAGE Publications, Newbury Park Hofstede, Geert (1991): Cultures and Organizations. Software of the Mind. Intercultural Coperation and its Importance for Survival, McGraw-Hill, London Hofstede, Geert (1992): Die Bedeutung von Kultur und ihren Dimensionen im Internationalen Management, in: Kumar, B.N.; Haussmann, H. (Hrsg.): Handbuch der Internationalen Unternehmenstätigkeit, München 1992, S.303-324 Hofstede, Geert (1993): Interkulturelle Zusammenarbeit: Kulturen - Organisationen - Management, Gabler, Wiesbaden Hofstede, Geert; Bond, Michael H. (1984): Hofstede’s Culture Dimensions: An Independent Validation using Rokeach’s Value Survey, in: Journal of Cross-Cultural Psychologie, Vol. 15, Nr. 4, S.417-433 247 13 Literatur Holzmüller, Hartmut H. (1986): Grenzüberschreitende Konsumentenforschung, in: Marketing ZFP, Heft 1, Februar 1986, S.45-54 Holzmüller, Hartmut H. (1995): Konzeptionelle und methodische Probleme in der interkulturellen Management- und Marketingforschung, Schäffer Poeschel, Stuttgart Holzmüller, Hartmut H. (1996): How to Avoid Safari Research in Cross-National Marketing Studies, in: Berács, József; Bauer, András; Simon, Judith (Hrsg.): Proceedings of the EMAC Annual Conference, Budapest University of Economic Sciences, Vol. 2, S.1769-1785 Holzmüller, Hartmut H. (1997): Kulturstandards - ein operationales Konzept zur Entwicklung kultursensitiven Managements, in: Engelhard, Johann (Hrsg.): Interkulturelles Management : theoretische Fundierung und funktionsbereichsspezifische Konzepte, Gabler, Wiesbaden, S.55-74 Homburg, Christian; Baumgartner, Hans (1995): Beurteilung von Kausalmodellen, Bestandsaufnahme und Anwendungsempfehlungen, in: Marketing ZFP, Heft 3, S.162176 Homburg, Christian; Giering, Annette (1996): Konzeptualisierung und Operationalisierung komplexer Konstrukte: Ein Leitfaden für die Marketingforschung, in: Marketing ZFP, Heft 1, 1996/1, S.5-24 Horn, John L.; McArdle, J.J. (1992): A Practical and Theoretical Guide to Measurement Invariance in Aging Research, In: Experimental Aging Research, 18 (3), S.117-144 Hsu, Francis L.K. (Hrsg.) (1961): Psychological Anthropology, Dorsey, Homewood Hsu, Francis L.K. (Hrsg.) (1972): Psychological Anthropology, 2nd edition, Schenkmann, Cambridge, Mass. Huang, David C.; Church, Timothy A.; Katigbak, Marcia S. (1997): Identifying Cultural Differences in Items and Traits, Differential Item Functioning in the NEO Personality Inventory, in: Journal of Cross-Cultural Psychology, Vol. 28, Nr. 2, S.192-218 Hubbard, Raymond; Armstrong, Scott J. (1994): Replications and Extensions in Marketing: Rarely Published But Quite Contrary, in: International Journal of Research in Marketing, Nr. 11, S.233-248 Hulin, Charles L. (1987): A Psychometric Theory of Evaluations of Items and Scale Translations, Fidelity Across Languages, in: Journal of Cross-Cultural Psychology, Vol. 18, Nr. 2, S.115-142 Hulin, Charles L.; Mayer, Laura J. (1986): Psychometric Equivalence of a Translation of the Job Descriptive Index into Hebrew, in: Journal of Applied Psychology, Vol. 71, Nr. 1, S.83-92 248 13 Literatur Hulin, Charles L.; Drasgow, Fritz; Komocar, John (1982): Applications of Item Response Theory to Analysis of Attitude Scale Translations, in: Journal of Applied Psychology, Vol. 67, Nr. 6, S.818-825 Hulin, Charles L.; Drasgow, Fritz; Parsons, Charles K. (1983): Item Response Theory, Dow Jones-Irwin Hüttner, Manfred (1989): Grundzüge der Marktforschung, 4. Auflage, deGruyter, Berlin Idaszak, Jacqueline R.; Bottom, William P.; Drasgow, Fritz (1988): A Test of the Measurement Equivalence of the Revised Job Diagnostic Survey: Past Problems and Current Solutions, in: Journal of Applied Psychology, Vol. 73, Nr. 4, S.647-656 Inkelsen, Alex; Levinson, Daniel J. (1969): National Character: The Study of Modal Personality and Sociocultural Systems, in: Lindzey, G.; Aronson, E. (Hrsg.): The Handbook of Social Psychology, Vol. 4, 2nd edition, Addison-Wesley 1969 Irvine, Sid. H.; Carroll, William K. (1980): Testing and Assessment across Cultures: Issues in Methodology and Theory, in: Triandis, Harry C.; Berry, John W. (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 2: Methodology, Boston, MA, S.181-244 Iversen, Gudmund R. (1984): Bayesian Statistical Inference, SAGE University Paper Nr.43, SAGE, Newbury Park Jain, Subhash C. (1993): International Marketing Management, 4th. edition, Wadsworth Publishing, Belmont, California Jöreskog, Karl G. (1971): Simultaneous Factor Analysis in Several Populations, in: Psychometrika, Vol. 36, No. 4, S.409-426 Jöreskog, Karl G.; Sörbom Dag (1993): LISREL 8: Structural Equation Modeling with the SIMPLIS Command Language, Scientific Software, Mooresville Kant, Immanuel (1995): Kritik der reinen Vernunft, Ausgabe 1995, Werke in sechs Bänden, Band zwei, Könemann, Köln Kelderman, Henk (1997): Loglinear Multidimensional Item Response Model for Polytomously Scored Items, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.287-304 Kluckhohn, Fred R.; Strodtbeck, Florence L. (1975): Variations in Value Orientations, 2. Reprint, Greenwood Press, Westport Köbben, A. (1970): Comparativists and Non-Comparativists in Anthropology, in: Naroll, R., Cohen, R. (Eds.): Handbook of Method in Cultural Anthropology, Natural History Press, New York, S.581-596 Kotler, Philip (1994): Marketing Management: Analysis, Planning, Implementation and Control, Prentice Hall, Englewood Cliffs, NJ 249 13 Literatur Kroeber, Alfred L.; Kluckhohn, Clyde (1952): Culture: A Critical Review of Concepts and Definitions, Harvard University Peabody Museum of American Archeology and Ethnology Papers, 47, H. 1, Cambridge (Mass.) Kroeber-Riel, Werner (1992): Konsumentenverhalten, 5. überarbeitete und ergänzte Auflage, Vahlen, München Kroeber-Riel, Werner; Weinberg, Peter (1996): Konsumentenverhalten, 6. völlig überarbeitete Auflage, Vahlen, München Kuhn, Thomas S. (1997): Die Struktur wissenschaftlicher Revolutionen, 14. Auflage, Suhrkamp Taschenbuch Wissenschaft Nr. 25, Suhrkamp, Frankfurt am Main La Du, Terence J.; Tanaka, J.S. (1989): Influence of Sample Size, Estimation Method, and Model Specification on Goodness-of-Fit Assessments in Structural Equation Models, in: Journal of Applied Psychology, Vol. 74, Nr. 4, S.625-635 Labouvie, Erich; Ruetsch, Charles (1995): Testing for Equivalence of Measurement Scales: Simple Structure and Metirc Invariance Reconsidered, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.63-76 Landis, Dan; Bhagat, Rabi S. (Hrsg.) (1996): Handbook of Intercultural Training, 2nd edition, SAGE, Thousand Oaks Levitt, Theodore (1983): The Globalization of Markets, Harvard Business Review, MayJune, S.92-102 Lewis, Barbara R.; Cadell, Sebastian D. (1997): Cultural Differences in Expectations and Perceptions of Service: A Study from the Airline Industry, in: Harris, Phil; Schuster, Camille (Hrsg.): The Academy of Marketing/American Marketing Association Conference, Proceedings of the First Conference, Marketing Across Borders, S.3345 Leyhausen, Paul (1951): Einführung in die Eindruckskunde, in: Lorenz, Konrad; Leyhausen, Paul (1968): Antriebe tierischen und menschlichen Verhaltens. Gesammelte Abhandlungen, Piper, München, S.48-53 Lienert, Gustav A. (1989): Testaufbau und Testanalyse, 4. Auflage, Weinheim, München Lim, Rodney G.; Drasgow, Fritz (1990): Evaluation of Two Methods for Estimating Item Response Theory Parameters When Assessing Differential Item Functioning, in: Journal of Applied Psychology, Vol. 75, Nr. 2, S.164-174 Linton, Ralph (1945): The Cultural Background of Personality, Appleton-Century, New York Lonner, Walter J. (1980): The Search for Psychological Universals, in: Triandis, Harry C.; Lambert, William Wilson (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 1: Perspectives, Boston, MA, S. 143-204 250 13 Literatur Lonner, Walter J.; Berry, John W. (Hrsg.) (1986): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, Sage Publications, Beverly Hills Lord, Frederic M. (1952): A Theory of Test Scores, Psychometric Monograph Nr. 7, Psychometric Corporation Lord, Frederic M. (1974): Estimation of Latent Ability and Item Parameters When There Are Omitted Responses, in: Psychometrika, Vol. 39, S.247-264 Lord, Frederic M.; Novick, M.R. (Hrsg.) (1968): Statistical Theories of Mental Test Scores, Addison-Wesley, Reading (Mass.) Lorenz, Konrad (1943): Die angeborenen Formen möglicher Erfahrung, in: Zeitschrift für Tierpsychologie, 5, S.235-409 Lorenz, Konrad; Leyhausen, Paul (1968): Antriebe tierischen und menschlichen Verhaltens. Gesammelte Abhandlungen, Piper, München Lundstrom, William J.; White, Steven D. (1997): Materialistic Values Across Borders: France versus The USA, in: Harris, Phil; Schuster, Camille (Hrsg.): The Academy of Marketing/American Marketing Association Conference, Proceedings of the First Conference, Marketing Across Borders, S.47-51 Malhotra, Naresh K.; Agarwal, James; Peterson, Mark (1996): Methodological Issues in Cross-Cultural Marketing Research - A State-of-the-Art Review, in: International Marketing Review, Vol. 13, No. 5, S.7-43 Malinowski, Bronislaw (1988): Eine wissenschaftliche Theorie der Kultur und andere Aufsätze , 3. Aufl., Suhrkamp, Frankfurt am Main Malpass, Roy S.; Poortinga, Ype H. (1986): Strategies for Design and Analysis, in: Lonner, Walter J.; Berry, John W. (Hrsg.): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, Sage Publications, Beverly Hills, S.47-83 Manrai, L.; Manrai A.K. (1996): Current Issues in the Cross-Cultural and Cross-National Consumer Research, in: Journal of International Consumer Marketing, Vol. 8, No. 3/4, 1996 Marsh, Herbert W.; Balla, John R.; McDonald, Roderick P. (1988): Goodness-of-Fit Indexes in Confirmatory Factor Analysis: The Effect of Sample Size, in: Psychological Bulletin, Vol. 103, Nr. 3, S.391-410 Masters, Geofferey N. (1982): A Rasch Model for Partial Credit Scoring, in: Psychometrika, Vol. 47, Nr. 2, S.149-174 Masters, Geofferey N. (1988): Item Discrimination: When More is Worse, in: Journal of Educational Measurement: Issues and Practice, National Council on Measurement in Education, Vol. 25, Nr. 1, S.15-29 251 13 Literatur Masters, Geofferey N.; Wright, Benjamin D. (1997): The Partial Credit Model, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.101-121 Mazanec, Josef (1979): Probabilistische Meßverfahren in der Marketingforschung, Ein empirischer Anwendungsversuch zur Planung absatzpolitischer Strategien des Imagetransfers, in: Marketing ZFP, Nr. 3, S.174-186 McCort, Daniel John; Malhotra, Naresh K. (1993): Culture and Consumer Behavior: Toward an Understanding of Cross-Cultural Consumer Behavior in International Marketing, in: Journal of International Consumer Marketing, Vol. 6, Nr. 2, S.91-127 McDonald, Malcolm H.B. (1989): Marketing Plans, Second Edition, Butterworth-Heinemann, Jordan Hill McDonald, Roderick P. (1989): Future Directions for Item Response Theory, in: International Journal of Educational Research, Vol. 13, Nr. 1, S.205-220 McDonald, Roderick P. (1995): Testing for Equivalence of Measurement Scales: A Comment, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.87-88 McDonald, Roderick P. (1997): Normal-Ogive Multidimensional Model, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.258-269 Meredith, William (1964): Notes on Factorial Invariance, in: Psychometrika, Vol. 29, No. 2, S.177-185 Meredith, William (1993): Measurement Invariance, Factor Analysis and Factorial Invariance, in: Psychometrika, Vol. 58, No. 4, S.525-543 Meredith, William (1995a): Two Wrongs May Not Make a Right, in: Multivariate Behavioral Research, Vol. 30, No. 1, S.89-94 Meredith, William (1995b): Two Wrongs Still Do Not Make a Right, in: Multivariate Behavioral Research, Vol. 30, No. 1, S.117 Meffert, Heribert (1992): Marketingforschung und Käuferverhalten, 2., vollständig überarbeitete und erweiterte Auflage, Gabler, Wiesbaden Millsap, Roger E.; Everson, Howard T. (1993): Methodology Review: Statistical Approaches for Assessing Measurement Bias, in: Applied Psychological Measurement, Vol. 17, Nr. 4, S.297-334 Mintu, Alma T.; Calantone, Roger J.; Gassenheimer, Jule B. (1994): Towards Improving Cross-Cultural Research: Extending Churchill’s Research Paradigm, in: Journal of International Consumer Marketing, Vol. 7, Nr. 2, S.5-23 252 13 Literatur Mokken, Robert J. (1997): Nonparametric Models for Dichotomous Responses, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.351-367 Mokken, Robert J.; Lewis, C. (1982): A Nonparametric Approach to the Analysis of Dichotomous Item Responses, in: Applied Psychological Measurement, Vol. 6, S.417-430 Molenaar, Ivo W. (1995a): Some Background for Item Response Theory and the Rasach Model, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.3-14 Molenaar, Ivo W. (1995b): Estimation of Item Parameters, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.39-51 Molenaar, Ivo W. (1997): Nonparametric Models for Polytomous Responses, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.369-380 Mullen, Michael R. (1995): Diagnosing Measurement Equivalence in Cross-National Research, in: Journal of International Business Studies, Third Quarter 1995 Müller, Andrea; Thomas, Alexander (1991): Interkulturelles Orientierungstraining für die USA: Übungsmaterial zur Vorbereitung auf ein Studium n den Vereinigten Staaten, Sozialwissenschaftlicher Studienkreis für Internationale Probleme: SSIP-Bulletin Nr. 62, Breitenbach, Saarbrücken Müller, Stefan; Kornmeier, Martin (1995): Internationales Marketing im Spannungsfeld kultureller Einflußfaktoren, in: der Markt, Nr. 134, 1995/3, S.147-158 Myers, J.H.; Warner, W.G. (1968): Semantic Properties of Selected Evaluation Adjectives, in: Journal of Marketing Research, No. 4, S.409-412 Naroll, R. (1970): The Culture-bearing Unit in Cross-Cultural Surveys, in: Naroll, R., Cohen, R. (Hrsg.): Handbook of Method in Cultural Anthropology, Natural History Press, New York, S.721-756 Naroll, R., Cohen, R. (Eds.) (1970): Handbook of Method in Cultural Anthropology, Natural History Press, New York Nasif, Ercan G.; Al-Daeai, Hamad; Ebrahimi, Bahman; Thibodeaux, Mary S. (1991): Methodological Problems in Cross-Cultural Research: An Updated Review, in: Management International Review, Vol. 31, 1991/1, S.79-91 Nesselroade, John R. (1995a): „... and Expectation Fainted, Longing for What It Had Not.“ Comments on Labouvie and Ruetsch’s „Testing for Equivalence ...“, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.95-99 253 13 Literatur Nesselroade, John R. (1995b): Further Commentary on Labouvie and Ruetsch’s „Testing for Equivalence ...“, in: Multivariate Behavioral Research, Vol. 30, Nr. 1, S.119120 Netemeyer, Richard G.; Durvasula, Srinivas; Lichtenstein, Donald R. (1991): A CrossNational Assessment of the Reliability and Validity of the CETSCALE, in: Journal of Marketing Research, Vol. 28, August 1991, S.320-327 Nunnally, Jum Clarence (1967): Psychometric Theory, McGraw Hill, New York Ollivier, Alain; Dayan, Armand; Ourset, Roger (1990): Que sais-je? Le marketing international, Presses Universitaires de France, Paris Osgood, Charles E. (1953): Method and Theory in Experimental Psychology, Oxford University Press, New York Osgood, Charles E.; Suci, George J.; Tannenbaum, Percy H. (1957): The Measurement of Meaning, University of Illinois Press, Urbana Osgood, Charles E. (1965): Cross-Cultural Comparability in Attitude Measurement via Multilingual Semantic Differentials, in: Steiner, I.; Fishbein, M. (Hrsg.): Current studies in social psychology, Holt, Rinehart and Winston, Chicago Parameswaran, Ravi; Yaprak, Attila (1987): A Cross-National Comparison of Consumer Research Measures, in: Journal of International Business Studies, Spring 1997, S.35-48 Parsons, Charles K.; Hulin, Charles L. (1982): An Empirical Comparison of Item Response Theory and Hierarchical Factor Analysis in Applications to the Measurement of Job Satisfaction, in: Journal of Applied Psychology, Vol. 67, Nr. 6, S.826-834 Pepels, Werner (1995): Käuferverhalten und Marktforschung, Schäffer-Poeschel, Stuttgart Poortinga, Ype H. (1975): Some Implications of Three Different Approaches to Intercultural Comparison, in: Berry, John W.; Lonner, Walter J. (Hrsg.): Applied CrossCultural Psychology, Swets and Zeitlinger, Amsterdam, S.329-332 Poortinga, Ype H.; Malpass, Roy S. (1986): Making Inferences from Cross-Cultural Data, in: Lonner, Walter J.; Berry, John W. (Hrsg.): Field Methods in Cross-Cultural Research, Cross-Cultural Research and Methodology Series Vol. 8, Sage Publications, Beverly Hills, S.17-46 Popper, Karl R. (1963): Conjectures and Refutations, London Popper, Karl R. (1966): Logik der Forschung, 2., erweiterte Auflage, Mohr, Tübingen Prim, Rolf; Tilmann, Heribert (1997): Grundlagen einer kritisch-rationalen Sozialwissenschaft, 7. Auflage, Quelle & Meyer, Wiesbaden 254 13 Literatur Quester, Pascale; Tan, Teng (1997): Consumer Attitude to Anti-Smoking Messages: A Cross Cultural Study, in: Harris, Phil; Schuster, Camille (Hrsg.): The Academy of Marketing/American Marketing Association Conference, Proceedings of the First Conference, Marketing Across Borders, S.53-63 Raju, Nambury S. (1988): The Area between Two Item Characteristic Curves, in: Psychometrika, Vol. 53, Nr. 4, S.495-502 Rasch, Georg (1966): An Individualistic Approach to Item Analysis, in: Lazarsfeld, P.F.; Henry, N.W. (Hrsg.): Readings in Mathematical Social Science, Science Research Association, Chicago, S.89-108 Rasch, Georg (1980): Probabilistic Models for Some Intelligence and Attainment Tests, MESA Press, Chicago, Nachdruck der Originalpublikation aus 1960, Danish Institute for Educational Research Reckase, Mark D. (1997): A Linear Logistic Multidimensional Item Response Model for Dichotomous Item Response Data, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.271286 Reise, Steven P. (1990): A Comparison of Item- and Person-Fit Methods of Assessing Model-Data Fit in IRT, in: Applied Psychological Measurement, Vol. 14, Nr. 2, S.127-137 Reise, Steven P.; Widaman, Keith F.; Pugh, Robin H. (1993): Confirmatory Factor Analysis and Item Response Theory: Two Approaches for Exploring Measurement Invariance, in: Psychological Bulletin, Vol. 114, Nr.3, S.552-566 Ricks, David A. (1993): Blunders in International Business, Blackwell, Cambridge, Mass. Riordan, Christine M.; Vandenberg, Robert J. (1994): A Central Question in Cross-Cultural Research: Do Employees of Different Cultures Interpret Work-related Measures in an Equivalent Manner?, in: Journal of Management, Vol. 20, Nr. 3. S.643-671 Robbins, Stephen P. (1996): Organizational Behavior. Concepts, Controversies, Applications, seventh edition, Prentice Hall, Englewood Cliffs Roberts, J.; Sutton-Smith, B. (1962): Child Training and Game Involvement, in: Ethnology, 1, S.166-185 Roskam, Edward E. (1995): Graded Responses and Joining Categories: A Rejoinder to Andrich’ „Models for Measurement, Precision, and Nondichotomization of Graded Responses“, in: Psychometrika, Vol. 60, Nr. 1, S.27-35 Roskam, Edward E. (1997): Models for Speed and Time-Limit Tests, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.187-208 255 13 Literatur Rost, Jürgen (1988): Quantitative und qualitative probabilistische Testtheorie, Huber, Bern Rost, Jürgen; von Davier, Matthias (1994): A Conditional Item Fit Index for Rasch Models, in: Applied Psychological Measurement, Vol. 18, Nr. 2, S.171-182 Salzberger, Thomas (1997): Statistically Equivalent, Yet Different in Meaning: Different Measurement Model Representations - Shown by Means of the AGGLO-Scale, in: Reed, Peter W.; Luxton, Sandra L.; Shaw, Michael R. (1997): Proceedings of the ANZMEC 1997, Australia New Zealand Marketing Educators Conference, Volume II, Department of Marketing, Monash University, Caulfield East, Vic., Australia, S.707-728 Salzberger, Thomas; Sinkovics, Rudolf R.; Holzmüller, Hartmut H. (1997): Problems of Equivalence in Cross-Cultural Marketing Research, in: Wilson, Elizabeth J.; Hair, Joseph F. (Hrsg.): Developments in Marketing Science, Proceedings of the Annual Conference of the Academy of Marketing Science, Vol. XX, May 28-31, Coral Gables, Florida 1997, S.74-78 Schuh, Arnold; Klausegger, Claudia; Schreiber, Michael (1994): Aktuelle Problemfelder und Strategien österreichischer Unternehmen bei der Marktbearbeitung in MittelOsteuropa, in: der markt, Nr. 131, 1994/4, S. 178-190 Segall, M.H.; Campell, D.T.; Herskovits, M.J. (1966): The Influence of Culture On Visual Perception, Bobbs-Merril, Indianapolis Sekaran, Uma (1983): Methodological and Theoretical Issues and Advancements in Cross-Cultural Research, in: Journal of International Business Studies, Fall 1983, S.61-73 Sensales, Gilda; Greenfield, Patricia M. (1995): Attitudes Toward Computers, Science, and Technology, A Cross-Cultural Comparison Between Students in Rome and Los Angeles, in: Journal of Cross-Cultural Psychology, Vol.26, Nr. 3, S.229-242 Sharma, Subhash; Shimp, Terence A.; Shin, Jeongshin (1995): Consumer Ethnocentrism: A Test of Antececents and Moderators, in: Journal of the Academy of Marketing Science, Vol. 23, Nr. 1, S.26-37 Sheridan, Barry; Andrich, David; Luo, Guanzhong (1997): User’s Guide to RUMM, Rasch Unidimensional Measurement Models, Perth Shimp, Terence A.; Sharma, Subhash (1987): Consumer Ethnocentrism: Construction and Validation of the CETSCALE, in: Journal of Marketing Research, Vol. 24, August 1987, S.280-289 Singh, Jagdip (1995): Measurement Issues in Cross-National Research, in: Journal of International Business Studies, Third Quarter 1995, S.597-619 Singh, Jagdip (1996): A Latent Trait Theory Approach to Measurement Issues in Marketing Research: Principles, Relevance and Application, in: Berács, József; Bauer, 256 13 Literatur András; Simon, Judith (Hrsg.): Proceedings of the EMAC Annual Conference, Budapest University of Economic Sciences, Vol. 1, S.1045-1064 Sinkovics, Rudolf R. (1998): Ethnozentrismus von Konsumenten: Konstruktion und Validierung eines Meßansatzes, Dissertation, Wirtschaftsuniversität Wien Sinkovics, Rudolf R.; Salzberger, Thomas (1996): Different Approaches Towards Scale Validation in International Marketing Research: Adopting the CETSCALE to Include Cultural Characteristics or Focussing on Culturally-Invariant Items?, in: Proceedings of the II. CEMS Academic Conference, Milano 1996 Sinkovics, Rudolf R.; Salzberger, Thomas; Holzmüller, Hartmut H. (1998): Assessing Measurement Equivalence in Cross-National Consumer Behaviour Research: Principles, Relevance and Application Issues, in: Balderjahn, Ingo; Mennicken Claudia; Vernette, Eric (Hrsg.): New Developments and Approaches in Consumer Behaviour Research, Schäffer Poeschel/MacMillan, Stuttgart/Houndmills, S.270-288 Song, Michael X.; Parry, Mark E. (1997): A Cross-National Comparative Study of New Product Development Processes: Japan and the United States, in: Journal of Marketing, Vol. 61, S.1-18 Sörbom, Dag (1974): A General Method for Studying Differences in Factor Means and Factor Structure Between Groups, in: British Journal of Mathematical and Statistical Psychology, Vol. 27, S.229-239 Springer, Reiner (1993): Markteintrittsentscheidungen für Osteuropa, in: Marketing ZFP, Heft 4, S.254-270 Steenkamp, Jan-Benedict E.M.; Baumgartner, Hans (1995): Development and Cross-Cultural Validation of a Short Form of CSI as a Measure of Optimum Stimulation Level, in: International Journal of Research in Marketing, Vol. 12, S.97-104 Steenkamp, Jan-Benedict E.M.; Baumgartner, Hans (1996a): Assessing Measurement Invariance in Cross-National Consumer Research, Workingpaper, Catholic University of Leuven, Belgium Steenkamp, Jan-Benedict E.M.; Baumgartner, Hans (1996b): Assessing Invariance of Measurement Instruments in Cross-National Consumer Research, in: Berács, József; Bauer, András; Simon, Judith (Hrsg.): Proceedings of the EMAC Annual Conference, Budapest University of Economic Sciences, S.2111-2117 Steenkamp, Jan-Benedict E.M.; van Trijp, Hans C.M. (1991): The Use of LISREL in Validating Marketing Constructs, in: International Journal of Research in Marketing, Vol. 8, S.283-299 Steiger, James H. (1990): Structural Model Evaluation and Modification: An Interval Estimation Approach, in: Multivariate Behavioral Research, Vol. 25, S.173-180 Stewart, David W. (1981): The Application and Misapplication of Factor Analysis in Marketing Research, in: Journal of Marketing Research, Vol. 18, S.51-62 257 13 Literatur Steyer, Rolf; Eid, Michael (1993): Messen und Testen, Springer, Berlin Tajfel, H.; Turner, J.C. (1979): An Integrative Theory of Intergroup Conflict, in: Austin, W. G.; Worchel, S. (Hrsg.): The Social Psychology of Intergroup Relations, Brooks/Cole, Monterey, Cal., S.33-47 Tajfel, H.; Turner, J.C. (1986): The Social Identity Theory of Intergroup Behaviour, in: Worchel, S.; Austin, W. G. (Hrsg.): Psychology of Intergroup Relations, NelsonHall, Chicago, S.7-24 Tanaka, J.S. (1993): Multifaceted Conceptions of Fit in Structural Equation Models, in: Bollen, Kenneth A.; Long, J. Scott (Hrsg.): Testing Structural Equation Models, SAGE Publications, Newbury Park, S.10-39 ten Berge, Jos M.F. (1996): The Kaiser, Hunka and Bianchini Factor Similarity Coefficients: A cautionary Note, in: Multivariate Behavioral Research, Vol. 31, Nr. 1, S.1-6 „The Chinese Culture Connection“ (1987): Chinese Values and the Search for Culturefree Dimensions of Culture, in: Journal of Cross-Cultural Psychology, Vol. 18, S.143-164 Thissen, David (1982): Marginal Maximum Likelihood Estimation for the One-Parameter Logistic Model, in: Psychometrika, Vol. 47, Nr. 2, S.175-186 Thissen, David (1991): MULTILOG User’s Guide, Multiple, Categorical Item Analysis and Test Scoring Using Item Response Theory, Scientific Software, Chicago Thissen, David; Steinberg, Lynne (1986): A Taxonomy of Item Response Models, in: Psychometrika, Vol. 51, Nr. 4, S.567-577 Thomas, Alexander (Hrsg.) (1991): Kulturstandards in der internationalen Begegnung, Breitenbach, Saarbrücken Thurstone, Louis Leon (1928): Attitudes Can Be Measured, in: American Journal of Sociology, Vol. 23, S.529-554, reproduced in: Thurstone, Louis Leon (1959): The Measurement of Values, The University of Chicago Press, Chicago, S.215-233 Thurstone, Louis Leon (1931): Multiple Factor Analysis, in: Psychological Review, Vol. 38, S.406-427 Thurstone, Louis Leon (1940): Current Issues in Factor Analysis, in: Psychological Bulletin, Vol. 37, Nr. 4, S.189-235 Thurstone, Louis Leon (1947): Multiple Factor Analysis, University of Chicago Press, Chicago Tietz, Bruno (1993a): Die bisherige und künftige Paradigmatik des Marketing in Theorie und Praxis, Erster Teil: Zur bisherigen Entwicklung und derzeitigen Situation des Marketing, in: Marketing ZFP, Heft 3, S.149-163 258 13 Literatur Tietz, Bruno (1993b): Die bisherige und künftige Paradigmatik des Marketing in Theorie und Praxis, Zweiter Teil: Zur künftigen Entwicklung des Marketing, in: Marketing ZFP, Heft 4, S.221-236 Tietz, Bruno; Zentes, Joachim (Hrsg.) (1993): Ostmarketing - Erfolgspotentiale osteuropäischer Konsumgütermärkte, Econ, S. 159-190 Toyne, Brian; Walters, Peter G. P. (1989): Global Marketing Management : A Strategic Perspective, 2. edition, Allyn and Bacon, Boston Traub, Ross E. (1994): Reliability for the Social Sciences, Theory and Applications, SAGE Measurement Methods for the Social Sciences Series, Vol. 3, SAGE Publications, Thousand Oaks Traub, Ross E.; Rowley, Glenn L. (1991): Understanding Reliability, in: Journal of Educational Measurement: Issues and Practice, National Council on Measurement in Education, Vol. 28, Nr. 1, S.37-45 Triandis, Harry C. (1972): The Analysis of Subjective Culture, New York Triandis, Harry C. (1980): Introduction to Handbook of Cross-Cultural Psychology, in: Triandis, Harry C.; Lambert, William Wilson (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 1: Perspectives, Boston, MA, S. 1-14 Triandis, Harry C.; Berry, John W. (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 2: Methodology, Boston, MA Triandis, Harry C.; Lambert, William Wilson (Hrsg.) Handbook of Cross-Cultural Psychology, Vol. 1: Perspectives, Boston, MA Triandis, Harry C.; Malpass, Roy S.; Davidson, A. (1972): Cross-Cultural Psychology, Biennial Review of Anthropology Triandis, Harry C.; Vassilou, V. (1972): A Comparative Analysis of Subjective Culture, in: Triandis, Harry C.: The Analysis of Subjective Culture, John Wiley, New York Tucker, L.R.; Lewis, C. (1973): A Reliability Coefficient for Maximum Likelihood Factor Analysis, in: Psychometrika, Vol. 38, S.1-10 Usunier, Jean-Claude (1996): Marketing Across Cultures, second edition, Prentice Hall, London Van de Vijver, F.J.R.; Poortinga, Y.H. (1982): Cross-Cultural Generalization and Universality, in: Journal of Cross-Cultural Psychology, 13, S.387-408 van der Linden, Wim J.; Hambleton, Ronald (Hrsg.) (1997): Handbook of Modern Item Response Theory, Springer, New York 259 13 Literatur Van Herk, Hester; Verhallen, Theo M. (1995): Equivalence in Empirical International Research in the Food Area, in: Proceedings of the second Conference on the Cultural Dimension of International Marketing, Odense, S.392-402 van Minden, Jack; Talgic, Tev (1997): Job Satisfaction: Do the Indsales Scales Hold Up in International Markets?, in: Wilson, Elizabeth J.; Hair, Joseph F. (Hrsg.): Developments in Marketing Science, Proceedings of the Annual Conference of the Academy of Marketing Science, Vol. XX, May 28-31, Coral Gables, Florida 1997, S.79-86 Verhelst, Norman D.; Glas, C.A.W.; de Vries, H.H. (1997a): A Steps Model to Analyze Partial Credit, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.123-138 Verhelst, Norman D.; Verstralen, Huub H.F.M.; Jansen, M.G.H. (1997b): A Logistic Model for Time-Limit Tests, in: van der Linden, Wim J.; Hambleton, Ronald (Hrsg.): Handbook of Modern Item Response Theory, Springer, New York, S.169-185 von Davier, Matthias (1996): WINMIRA V1.68 User Manual, A Program System for Analyses with the Rasch Model, with the Latent Class Analysis and with the Mixed Rasch Models, Kiel von Davier, Matthias; Rost, Jürgen (1995): Polytomous Mixed Rasch Models, in: Fischer, Gerhard; Molenaar, Ivo W. (Hrsg.): Rasch Models, Foundations Recent Developments, and Applications, Springer, New York, S.371-379 Wich, Donald J. (1989): Die Vergleichbarkeit von Befragungen im Rahmen der internationalen Konsumentenforschung, Dr. Kovac, Hamburg Waugh, Russel F. (1998): A Rasch Measurement Model Analysis of an Approach to Studying Inventory for Students in Higher Education, Paper präsentiert bei The International Conference on Latent Trait Theory: Rasch Measurement, 22.-24. Jänner 1998, University of Western Australia, Perth, Australien Wright, Benjamin D. (1980a): Foreword, in: Rasch, Georg: Probabilistic Models for Some Intelligence and Attainment Tests, MESA Press, Chicago, Nachdruck der Originalpublikation aus 1960, Danish Institute for Educational Research, S.IX-XIX Wright, Benjamin D. (1980b): Afterword, in: Rasch, Georg: Probabilistic Models for Some Intelligence and Attainment Tests, MESA Press, Chicago, Nachdruck der Originalpublikation aus 1960, Danish Institute for Educational Research, S. 185196 Wright, Benjamin D.; Stone Mark H. (1979): Best Test Design, MESA Press, Chicago Yu, Julie H.; Keown, Charles F.; Jacobs, Laurence W. (1993): Attitude Scale Methodology: Cross-Cultural Implications, in: Journal of International Consumer Marketing, Vol. 6, Nr. 2, S.45-63 260 13 Literatur Zhang, Li; Dadzie, Kofi Q. (1994): Validation of Measurement Models in Global Marketing Research: An Empirical Illustration, in: Journal of Global Marketing, Vol. 7, Nr. 4, S.83-102 Zhu, Weimo; Updyke, Wynn F.; Lewandowski, Cheryl (1997): Post-Hoc Rasch Analysis of Optimal Categorization of an Ordered-Response Scale, in: Journal of Outcome Measurement, Vol. 1, Nr. 4, S.286-304 Zwinderman, Aeilko H. (1995): Pairwise Parameter Estimation in Rasch Models, in: Applied Psychological Measurement, Vol. 19, Nr. 4, S.369-375 261 Abbildungsverzeichnis Abbildungsverzeichnis Abbildung 1: Ableitung der Problemstellung aus der Internationalisierung.............................. 8 Abbildung 2: Kultur- und nationenbezogene Typologie der Marktforschung......................... 19 Abbildung3:GenerierungtheoretischerAussagendesForschersinderquantitativenMarktforschung 20 Abbildung 4: Kultureller Bezugsrahmen der Marktforschung ................................................ 21 Abbildung 5: Probleme der interkulturellen Marketingforschung........................................... 24 Abbildung 6: Kultur als System von Denk- und Verhaltensmustern....................................... 29 Abbildung 7: Abgrenzung von Kultur als hierarchisches System ........................................... 30 Abbildung 8: Formen der Äquivalenz nach Berry (1980) ....................................................... 61 Abbildung 9: Formen der Äquivalenz nach Douglas und Craig (1983) .................................. 63 Abbildung 10: Formen der Äquivalenz nach Toyne und Walters (1989)................................ 69 Abbildung 11: Kategorien der Äquivalenz nach Usunier (1996) ............................................ 72 Abbildung12:BedingungenderÄquivalenzderErhebungsdaten(inAnlehunganBauer,1995,S.52) 77 Abbildung 13: Prozeßmodell kulturübergreifender Forschung (Cavusgil und Das, 1997, S.89ff) ..................................................................... 80 Abbildung 14: Klassifikation der Universen kulturübergreifender Forschung (Poortinga und Malpass, 1986, S.25) ........................................................................................ 86 Abbildung 15: Transformation der Skala des hypothetischen Konstrukts und der Meßskala (Poortinga und Malpass, 1986, S.28) ............................................................... 89 Abbildung 16: Grundgleichung der klassischen Testtheorie (Fischer, 1974, S.36; Rost, 1988, S.81) 89 Abbildung 17: Wahrscheinlichkeit einer Hypothese unter der Bedingung empirischer Daten nach dem Theorem von Bayes (vgl. Iversen, 1984) ......................................... 95 Abbildung 18: Faktorenanalyse: Beziehungen manifester Variablen (V1 bis V8) zu zwei latenten Faktoren (F1 und F2) ........................................................................ 102 Abbildung 19: Faktorenanalyse: Anordnung der manifesten Variablen (V1 bis V8) im zweidimensionalen Raum (definiert durch F1 und F2) .................................. 103 Abbildung20:Faktorenanalyse: CFA-ModellzweierlatenterFaktorenundachtmanifesterVariablen 107 Abbildung 21: Definition des Root Mean Square Error of Approximation nach Steiger (1990) (vgl. Browne und Cudeck, 1993, S.142ff)...................................................... 112 Abbildung 22: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf die manifeste Variable (vgl. Backhaus et al., 1994, S.347; Bagozzi, 1982, S.564ff) ........... 113 Abbildung 23: Faktorenanalyse: Regressionsgleichung der latenten Variablen auf die manifeste Variable, mit Intercept-Parameter (vgl. Steenkamp und Baumgartner, 1996a, S.4)............................................. 114 Abbildung 24: Faktorenanalyse: Simultane Analyse in zwei Stichproben ohne stichprobenübergreifende Beschränkungen.................................................... 115 Abbildung 25: Faktorenanalyse: Simultane Analyse in zwei Stichproben mit stichprobenübergreifenden Beschränkungen.................................................. 116 Abbildung 26: Regression des beobachteten Testscores auf ein Kriterium (in Anlehnung an Hulin et al., 1983, S.157 und Hancock, 1997, S.99) ......... 122 Abbildung 27: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung auf Äquivalenz mittels Strukturgleichungsanalysen für mehrere Gruppen (multigroup CFA)..................................................................................................... 129 Abbildung 28: Formale Definition der Reliabilität (Fischer, 1974, S.37) ............................. 135 Abbildung 29: Guttmanpattern für sechs dichotome Items ................................................... 137 262 Abbildungsverzeichnis Abbildung 30: Vergleich der Modelle von Guttman (1950) und Rasch (1980) hinsichtlich der Wahrscheinlichkeit einer positiven Antwort bei gegebener Differenz von Personen- und Itemparameter (vgl. dazu Wright und Stone, 1979, S.13) ...... 141 Abbildung 31: Umrechnung von Odds-Quotienten in Wahrscheinlichkeiten (vgl. Andrich, 1988a, S.24ff) ................................................................................................. 142 Abbildung 32: Parametrisierungsformen des Rasch-Modells (vgl. Rasch, 1980, S.187; Fischer, 1974, S.432).................................................................................................... 143 Abbildung 33: Itemcharakteristikkurve(n) ICC für ein Item mit di = 0................................. 145 Abbildung 34: Unabhängigkeit der Wahrscheinlichkeit eines bestimmten Antwortmusters bei gegebenen Rohscore für zwei dichotome Items (Andrich, 1998, S.68ff; Fischer, 1974, S.214f). ................................................................................................. 148 Abbildung 35: Iteminformationsfunktion I als Produkt der Zustimmungswahrscheinlichkeit und Ablehnungswahrscheinlichkeit (vgl. dazu Fischer, 1974, S.295). .......... 150 Abbildung 36: Standardschätzfehler S.E. als Funktion der Testinformation I (vgl. dazu Hambleton et al., 1991, S.94) ......................................................................... 151 Abbildung 37: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item.................... 156 Abbildung 38: Anwendung des dichotomen Rasch-Modells auf ein polytomes Antwortformat (I) 157 Abbildung 39: Anwendung des dichotomen Rasch-Modells auf ein polytomes Antwortformat (II) 158 Abbildung 40: Transformation der non-centralised thresholds in centralised thresholds (Andrich, 1988b, S.364). ................................................................................ 159 Abbildung 41: Extended logistic model (ELM), allgemeines polytomes Rasch-Modell (vgl. Andrich, 1988b, S.366)................................................................................... 160 Abbildung 42: Kategoriecharakteristikkurven (CCC) für ein trichotomes Item mit reversed thresholds (vgl. Andrich et al., 1997, S.62). ................................................... 162 Abbildung 43: Zusammenfassung zweier Kategorien einer fünfstufigen Antwortskala ....... 164 Abbildung 44: Verallgemeinerung des dichotomen Rasch-Modells durch Rasch (Wright, 1980b, S.185).................................................................................................. 164 Abbildung 45: Two-parameter logistic model (Hambleton et al., 1991, S.14f) ...................................................................... 166 Abbildung 46: ICCs im two-parameter logistic model .......................................................... 166 Abbildung 47: Three-parameter logistic model (Hambleton et al., 1991, S.17)........................................................................ 170 Abbildung 48: Q1-Index zur statistischen Prüfung der Residuale auf Signifikanz (Hambleton et al., 1991, S.61; Rost und von Davier, 1994, S.172). .............. 174 Abbildung 49: Prüfgröße für den Unterschied von Itemparameterschätzungen aus unterschiedlichen Stichproben (Hambleton et al., 1991, S.111). ................... 175 Abbildung 50: Beispiel für nonuniform und uniform DIF..................................................... 176 Abbildung 51: Prüfgröße für Likelihood-basierten Ansatz zur Bestimmung des Item-Fit (Rost und von Davier, 1994, S.173; Reise, 1993).................................................... 177 Abbildung 52: Ablauf der Prüfung der Erhebungsdaten aus der kulturübergreifenden Forschung auf Äquivalenz mittels Latent Trait Theory basiertem Ansatz....................... 179 Abbildung 53: Einordnung der interkulturellen Validität in das System der Gütekriterien der klassischen Testtheorie ................................................................................... 182 Abbildung 54: Schematischer Ablauf der Untersuchung einer Marketing-Skala auf interkulturelle Vergleichbarkeit...................................................................... 184 Abbildung 55: Empirische Überprüfung der interkulturellen Validität der CETSCALE am Beispiel von Österreich und Südkorea mittels konfirmatorischer Mehrgruppen-Faktorenanalysen 206 263 Abbildungsverzeichnis Abbildung 56: Ablaufplan der empirischen Überprüfung der interkulturellen Validität der CETSCALE am Beispiel von Österreich und Südkorea mittels Latent Trait Theory basierter Modelle................................................................................ 209 Abbildung 57: Category characteristic curves (CCCs) für ein polytomes Item (V001) mit sieben Antwortkategorien .......................................................................................... 214 Abbildung 58: Vergleich von erwarteter Häufigkeit (ICC) und tatsächlicher Häufigkeit zustimmender Antworten im Rasch-Modell (Item V034).............................. 221 264 Tabellenverzeichnis Tabellenverzeichnis Tabelle 1:Kulturelle Dimensionen nach Hall und Hall (1990) ............................................... 31 Tabelle 2:Kulturdimensionen nach Kluckhohn und Strodtbeck (1975) .................................. 39 Tabelle 3:Kulturdimensionen nach Hofstede (1980, 1984) .................................................... 42 Tabelle 4:Konfigurale Invarianz eines zweifaktoriellen Konstrukts (unstandardisierte Ladungsparameter) ............................................................... 119 Tabelle 5:Metrische Invarianz eines zweifaktoriellen Konstrukts (unstandardisierte Ladungsparameter) ............................................................... 120 Tabelle6:ÜberblicküberunterschiedlicheTerminologienimZusammenhangmitderInvarianzprüfung 123 Tabelle 7:Partielle metrische Invarianz eines einfaktoriellen Konstrukts (unstandardisierte Ladungsparameter) ............................................................... 128 Tabelle 8:Partielle metrische Invarianz eines einfaktoriellen Konstrukts unter Einbeziehung von emic Items (unstandardisierte Ladungsparameter) ............................................................... 131 Tabelle 9: Datenerhebungs- und Stichprobencharakteristika in Österreich und Südkorea ................................................................................ 193 Tabelle 10:Österreich und Südkorea auf Hofstedes (1991, 1992) Kulturdimensionen (Faktorscores, die sich im Bereich von 0 bis 100 verteilen; höhere Werte bedeuten stärkere Ausprägung im Sinne der Dimensionsbeschreibung) ........................... 195 Tabelle 11:Kalibrierungs- und Validierungssamples ............................................................ 199 Tabelle 12:Fit-Werte der getrennten konfirmatorischen Faktorenanalysen auf der Basis der 17 CETSCALE-Items ............................................................. 200 Tabelle 13:Fit-Werte der getrennten konfirmatorischen Faktorenanalysen auf der Basis von zehn CETSCALE-Items ........................................................ 201 Tabelle 14:Fit-Werte des Modells konfiguraler Invarianz auf der Basis von zehn CETSCALE Items 202 Tabelle 15: Schritte der Invarianzprüfung (Kalibrierungssamples) und Kreuzvalidierung (Validierungssamples) auf der Basis von 10 CETSCALE Items ....................... 204 Tabelle 16: Polytomes Rasch-Modell in Österreich: Test des Item-Fits mittels des Q-Index (Rost und von Davier, 1994) .............................................................................. 211 Tabelle 17: Threshold-Parameter im Partial Credit Model für 16 Items in Österreich ......... 213 Tabelle 18: Polytomes Rasch-Modell in Südkorea: Test des Item-Fits mittels des Q-Index (Rost und von Davier, 1994) ......................................................... 214 Tabelle 19: Threshold-Parameter im Partial Credit Model für 13 Items in Korea ............... 215 Tabelle 20:Test auf interkulturelle Vergleichbarkeit von sieben CETSCALE Items in Österreich und Südkorea mittels des dichotomen Rasch-Modells ....................................... 219 Tabelle 21:Vergleich der Fitstatistiken auf der Basis des one-parameter und des two-parameter logistic model für sieben nicht Rasch-Modell konforme Items ......................... 222 265 Sachindex Sachindex A Ähnlichkeit kulturelle 68 Aktivitäten Tempo und Rhythmus von 35 Aktivitätsorientierung 40 Analysen linguistische 61 Antwortbias 60, 96 Antwortmuster omnikulturelle 190 Antwortstile kulturell bedingte 75 Antwortverweigerung kulturbedingte 75 Äquivalenz befragungstaktische 78 der Erhebungsdaten 80–81, 93 der nationalen Erhebungsdaten 76 der Response-Kategorisierungen 79 der Response-Übersetzungen 79 der Stichprobenauswahl 73 der Stichprobenpläne 73 der Untersuchungseinheiten 73, 78 der Untersuchungsmethoden 78 der Untersuchungssachverhalte 77 der Untersuchungssituationen 78 erfahrungsbezogene 70–71 erhebungsmethodische 78 funktionale 58, 63, 68, 70, 77–79 grammatikalisch-syntaktische 70–71 idiomatische 70–71 interkulturelle 58, 185 kategoriale 63–64, 71, 77 konzeptuelle 58, 60–61, 63, 68, 70–71, 77, 79 lexikalische 70–71 meßmethodische 78 metrische 58, 61, 65–66, 72, 81 perzeptive 72 skalare 62 sprachliche 59, 185 temporale 72 von Erhebungsdaten 55 zeitliche 68 Äquivalenz der Erhebungsdaten 98 Überprüfung der 100 Äquivalenzbedingungen integratives System von 76 Artefakte meßtheoretische 234 Attributionstheorie 38 266 Sachindex B Befragung kulturkonforme soziale Situation der 74 Begegnung interkulturelle 37 Bewertungsbegriffe äquivalente 73 Bias 87, 97, 121, 124–125, 175, 237 kulturbedingter 20 Birnbaum-Model 165 Birnbaum-Modell 166–167, 169–170, 217, 220–222 Botschaften implizite Formen 28 langsame 31 schnelle 31 C Career Ability Placement Survey 189 Cassis-de-Dijon-Prinzip 14 Categorie Characteristic Curves 156 Clusteranalyse 104 Consumer Ethnocentric Tendency 192, 223 Consumer Ethnocentric Tendency Scale 185 Consumer Ethnocentrism 185, 192 Culture high context 32 low context 32 operational 28 D Datenerhebungsäquivalenz 74 Definitionsäquivalenz 68 Dekodierung kulturadäquate 37 Dezentrierung simultane adjektivische 73 Dichotomisierung 189–190, 223–224 Differential semantisches 60 Differential Item Functioning 175, 181, 218 Differenzenskala 143 Dimension latente 101, 106, 121, 146 Diskriminanzvalidität 123 Distanz kulturelle 38, 51 E Einstellungsmessung kulturvergleichende 60 Emic 69, 91 Erhebungsdaten Äquivalenz der 80–81, 93, 98 Überprüfung der Äquivalenz der 100 267 Sachindex Überprüfung der Äquivalenz von 117 Erhebungsdatenäquivalenz 76, 81 Erschöpfende Statistik 147 Ethnozentrismus 185 der Forschung 21 Etic 69, 91 derived 93 imposed 92 pseudo 92 Experiment klassisches 49 Ex-post-facto-Experiment 93, 95 F Faktorenanalyse explorative 82, 101, 186, 188, 234 Gleichungssysteme der 112 Gütebestimmung 107 konfirmatorische 82, 98, 100, 105, 181, 186–188, 190 multi-group 181, 186–188 simultane für mehrere Gruppen 114 Zielsetzungen der explorativen 102 Falsifizierbarkeit einer Meßtheorie 139 Forschung ethnozentrische kulturübergreifende 56 interkulturelle 10, 52, 236 kulturübergreifende 49, 51, 85 kulturvergleichende 49, 60 polyzentrische 56 Prozeßmodell der kulturübergreifenden 79 Forschungsökonomie 22–23 Fremdkultur 28 G Gemeinsamkeiten kulturübergreifende 57 Gesellschaft 29 Gleichungssysteme der Faktorenanalyse 112 Globalisierung 8, 185 Gütebestimmung Faktorenanalyse 107 Gütekriterien der klassischen Testtheorie 182 meßtheoretische 181 Guttman formale Darstellung des Meßmodells von 138 Guttmanmodell 138 Guttmanpattern 137, 139 Guttmanskala 137 Guttman-Skalierung 167 H Höflichkeitsbias 78 268 Sachindex Hypothese meßtheoretische 178 statistische 93 substantielle 234 substanztheoretische 178 wissenschaftliche 93 Hypothesenprüfung in der interkulturellen Forschung 93 meßtheoretische 235 I Identität dimensionale 54 Imperative verhaltensbezogene 27 Indikator 233 Indikatoren 234 formative 106 reflektive 106 Indikatorvariable 84, 101 Individualismus 40, 46 Informationsalterung 72 Informationsfluß in und durch Organisationen 36 Informationsfunktion 174, 183 Informationsverhalten 38 Interaktionen soziale 28 Interaktionsäquivalenz 79 Internationalisierung 8, 14, 23, 185 der Marktforschung 9 Interpretation von Beobachtungen und Forschungsergebnissen,kulturadäquate 22 Invarianz auf dem Skalenniveau 126 konfigurale 118 metrische 119, 124 partielle 127 skalare 122, 124 Invarianzebenen 123 Invarianzprüfung 199 Item Bias 175 Item Response Theory 98, 165 Itembias 97 Itemcharakteristik 144 Itemcharakteristikkurve 98, 147 Iteminformation 150 Iteminformationsfunktion 151 Item-Q-Index 173, 216 Itemresponsefunktion 144 J Ja-sage-Tendenz 190 269 Sachindex Job Diagnostic Survey 189 Job Discriptive Index 189 K Kalibrierungsäquivalenz 65, 69, 72 Kalibrierungssample 198 Kategorien Zusammenfassung von 162, 164 Kategorienäquivalenz 64, 68 Kohorteneffekt 54 Kollektivismus 40 Kommunikation im kulturellen Kontext 31 interkulturelle 32, 37 Kultur und 30 Kommunikationsmerkmale 32 Kommunikationsnetzwerk mangelndes 33 Kommunikationsstil 32 Konfidenzintervall 135, 151 Konfundierung von Meß- und Substanztheorie 178, 234 Kongruenzkoeffizient 105 Konstrukt dimensionale Identität 88 hypothetisches 89, 91–92, 98 latentes 65, 84 latentes hypothetisches 233 Konstruktäquivalenz 62–63, 65, 77 Konstrukte nicht beobachtbare 12 Konstruktperationalisierung formal idente 91 formal unterschiedliche 91 Konstruktvalidierung intrakulturelle 91 Konstruktvalidität 81 Konsumentenethnozentrismus 195 Konsumentenverhalten Einflußquellen 23 Konsumentenverhaltens- und Kulturtheorien Verknüpfung von 236 Kontextäquivalenz 74 Kontextinformation 33 Kreuzvalidierung 163, 198, 204–205 Kultivierung 26 Kultur 25 als nominalskalierte Variable 25, 236 als unabhängige Variable 49 Definition von 27 Kommunikation und 30 Konzeptualisierung von 38 Operationalisierung von 25–26, 46, 50, 195, 236 270 Sachindex Problematik der Definition von 26 subjektive 27 systembestimmenden Elemente der 29 Kulturdimensionen 41 Kulturelle Ähnlichkeit 68 Kulturelle Orientierung maskuline versus feminine 43 Kulturelle Überschneidungssituation 14, 192 Kulturelle Vergleiche als Ex-post-facto-Experimente 50 Kultureller Relativismus radikaler 57, 92 Kulturen Ähnlichkeiten zwischen 29 gegenwartsbezogene 35 individualistische 42 kollektivistische 42 monochronische 34–35 polychronische 34–35 repräsentative Auswahl von 67 Kulturübergreifende Forschung Prozeßmodell der 79 psychologische, Definition 52 L Latent Trait Modelle 165 Latent Trait Theory 5, 7, 10, 98–99, 165, 179, 181, 183, 189, 191, 208, 218, 223, 227, 230–231, 235, 238–239 Anwendungsfelder in der Marketingforschung 237 Likert-Skala 85, 154 Log-Likelihood-Quotient 216 Lokale stochastische Unabhängigkeit 146, 157, 175 M Machtdistanz 44, 46 Managementforschung 188 Marketingforschung internationale 55, 76 kulturübergreifende 52 Plädoyer für eine meßtheoretische Fundierung der 233 Marketingkonzepte standardisierte 62 Marktforschung globale 24 grenzüberschreitende 19 interkulturelle 9, 23–24 internationale 9, 17, 49, 75 quantitative 19 Marktstrukturäquivalenz 68 Maskulinitätsindex 44 Menschliche Natur Grundeinstellung zur 40 Meßäquivalenz 53, 62, 65, 69, 72 Meßinstrument 271 Sachindex kultureller Hintergrund 22 kultureller Kontext 22 Meßinstrumente emische 69 etische 69 Meßmethoden äquivalente 53 Meßmodell probabilistisches 139 Meßmodell von Guttman formale Darstellung 138 Meßtheoretische Fundierung der Marketingforschung Plädoyer für eine 233 Meßtheorie Gegenstand der 233 Metaebene der 181 moderne 5 wissenschaftstheoretisch zufriedenstellende 234 Messung eindimensionale 134 Messungen parallele 145 Meßwerte Bedeutung der 66 Methodenartefakt 87 Methodenbias 97–98 Mitarbeiterevaluation 54 Multidimensionalität 168 N Nationalcharakter 47 Nationalität 25 Netz nomologisches 61, 178 Netzwerk nomologisches 81, 185 Nomologisches Netz 61, 178 Nomologisches Netzwerk 81, 185 Non-Response kulturbedingte 75 Nonverbale Stimuli kulturtypische Interpretation 66 Normal ogive model 169 Normen fremdkulturelle 54 O Objektivität Bedrohung der spezifischen 168 spezifische 149, 152, 160, 169, 172, 179 Odds 141 One-parameter logistic model 165–166 Organisationskultur 28, 41, 54, 61, 237 Orientierung 272 Sachindex langfristige versus kurzfristige 45 monochronische 34 polychronische 34 P Paarvergleich von Personen und Items 140 Paradigmenwechsel in der Meßtheorie 191 Parallelität von Messungen 134, 136 Paralleltestreliabilität 136 Partial-Credit Modell 155 Personalwirtschaft 54 Personenparameter Standardschätzfehler der 183 Person-Separation-Index 183 Prozeßmodell der kulturübergreifenden Forschung 79 Psychologische Forschung kulturübergreifende, Definition 52 psychometrische Eigenschaften von Daten 61 Q Q1-Index 174, 216 R Radikaler kultureller Relativismus 57, 92 Rasch-Model 139 Rasch-Modell 5, 140, 144–146, 149, 152–154, 163–166, 168–169, 172–173, 178–179, 189, 191, 208–209, 216–217, 219–220, 223–224, 230, 232, 235, 238 Parametrisierungsformen 143 polytomes 155, 224, 237 Verallgemeinerungen 153 Rating-Scale Modell 155 Rating-Skala 85, 154 Ratingskala lexikalische Äquivalenz der 72 Ratingskalenformate kulturtypische 78 Raum Anordnung im 33 Konzeptualisierung 40 persönlicher 33 Raumstrukturierung 34 Reize nonverbale 66 Relativ empirisches 133–134, 140 numerisches 132, 181 Relativismus radikaler kultureller 57, 92 Reliabilität 122, 133, 135, 145, 151, 153, 181–182, 231 273 Sachindex Definition 181 in der Latent Trait Theory 183 Person-Separation-Index 183 Reliabilitätskoeffizient varianzanalytischer Vergleich von intra- und interkulturellem 187 Replikation erweiterte 184 Replikationsstudie 96 Response-Kategorisierungen Äquivalenz der 79 Response-Übersetzungen Äquivalenz der 79 Rohscore als erschöpfende Statistik im Rasch-Modell 149 S Salient Variable Similarity Index 186 Salient Variable Similiarity Index 105 Scoringfunktion 164–165 Semantisches Differential 60 Sensibilisierungsprogramme kulturelle 28 Sensibilität interkulturelle 36 Separierbarkeit der Parameter 160, 167 Skalenäquivalenz 69 Skalenentwicklung 235 Skalierung kulturadäquate 66 Sozialexperiment kulturelles 50 Sozialisation des Menschen primäre 28 Sozialisationsprozesse 30 Sozietät 28–29 Spezifische Objektivität 149, 152, 160, 169, 172, 179 Bedrohung 168 Standardisierung 14–15 Standardisierungspotential 14–15, 62 Standards allgemein-kulturelle 41 fremdkulturelle 37 Standardschätzfehler 174 Statistik erschöpfende 147 Stichproben Repräsentativität der 67 Repräsentativität von 70 Stichprobenäquivalenz 62, 67, 70, 73 Stichprobenauswahl Äquivalenz der 73 Stichprobenpläne Äquivalenz der 73 274 Sachindex Stichprobenrepräsentativität 75 Stichprobenselektion Phasen der 74 Stimulusbias 97 Studie monokulturelle 22 Studien interkulturelle 47, 185 Subkultur 29, 51, 54, 237 System kulturelles 28 Systeme kulturelle 29 T Testheorie klassische 181 Testinformationsfunktion 151 Testmodell linear-logistisches 189 Testtheorie 89 Grundgleichung der klassischen 89 klassische 5, 10, 89–90, 98–100, 125, 132–134, 136, 139–140, 145, 149, 151, 154, 163, 167, 169, 172, 178, 189, 191, 219, 223–224, 230–234 klassische, Gütekriterien 182 moderne 5 Paradigma der klassischen 231 probabilistische 98–100, 132, 179, 223, 230–232 Theorie transkulturelle Gültigkeit einer 53 Universalität einer 57 Theoriebildung in der Marketingwissenschaft 236 Theorieentwicklung kulturübergreifende 9 Theorien Generalisierbarkeit von 23 transkulturelle 24 Theorien des Konsumentenverhaltens 23, 26 Three-parameter logistic model 167, 169, 189–191, 235 Threshold 145, 155, 165, 173, 215 Thresholdparameter im polytomen Rasch-Modell 158 Thresholds reversed 161–162, 215 Trainingsprogramme 23 Triebziele 27 Two--parameter logistic model 235 Two-parameter logistic model 165–166, 168–169, 189, 191, 220 U Übereinstimmung von Modell und Daten mangelhafte 235 Überschneidungssituation 275 Sachindex kulturelle 14, 192 Übersetzung lexikalische 73 symmetrische 59 zentrierte 59 Übersetzungsäquivalenz 58, 65–66, 69–71, 78, 185 Umwelt Wahrnehmung und Interpretation der 27 Unabhängigkeit lokale stochastische 146, 157, 175 Unfoldingmodell 147 Ungewißheit Vermeidung von 44 Universals 55, 58 Universum 84–85, 91 Universumsbias 97 Unternehmenskultur 41 Unterordnung des Menschen gegenüber der Natur 38 Untersuchung interkulturelle 22 monokulturelle 22 Untersuchungseinheiten Äquivalenz der 73, 78 Untersuchungsmethoden Äquivalenz der 78 Untersuchungssachverhalte Äquivalenz der 77 Untersuchungssituationen Äquivalenz der 78 V Valdierungssample 198 Validierung nomologische 61 Validität 133, 135–136, 181–182 Definition 181 inhaltliche 130 interkulturelle 24, 132, 183, 192, 197, 235 interkulturelle, als neues Gütekriterium 236 interkulturelle, der CETSCALE 208, 223–224 intrakulturelle 130, 183 nomologische 81 Vorhersagevalidität 130 Variablilität intrakulturelle 47 Variablität interkulturelle 47 Verantwortlichkeit 40 Vergleich als Grundparadigma der wissenschaftlichen Methodik 49 Vergleichbarkeit 181, 183 Begriff der 88 interkulturelle 98, 183, 185, 190, 236 276 Sachindex interkulturelle, Definition 181 interkulturelle, der CETSCALE 218 Vergleiche interkulturelle 57 Vergleichsforschung interkulturelle 62, 70 Verhaltensdeterminanten kulturbedingte 24 Vermeidung von Ungewißheit 44 Vorhersagevalidität 130 Vorwärts-Rückwärts-Übersetzung 71 Vorwärts-Rückwärts-Übersetzungen 58, 60 W Wettquotient 141 Wiederholungstestreliabilität 136 Z Zeit als nonverbale Kommunikationsform 35 Zeitabschnitte im Tages- bzw. Jahresverlauf 36 Zeitorientierung 34, 39 polychronische 34 Zeitstrukturierung 34 kulturtypischer Fokus 35 monochronische 34 Zeitvorausplanung kulturspezifische Usancen der 35 Zeitwahrnehmung 34 Zivilisation 26, 28 277 Autorenindex Autorenindex A Adler 56, 82, 92 Agarwal Siehe Malhotra 21, 124 Albaum Siehe Beatty 186 Andersen 164 Anderson 105 Anderson Siehe Hair 101–102, 108–110, 112 Andersson 11, 226, 232 Andrich 7, 142, 147–148, 155, 158–163, 165, 171, 183, 199, 210, 224 Andrich Siehe Sheridan 152 Angelmar 73, 134 Annis 51 Armstrong 183–184 Atteslander 21 B Backhaus 101, 103, 106, 108–109, 112–113, 128 Bagozzi 113 Balla Siehe Marsh 108 Bauer 60, 67, 73, 76–82, 134 Baumgartner 6, 108, 110, 112, 114, 116–118, 120, 123–124, 127, 130, 186–187, 192 Beatty 186 Becker Siehe Ellis 170 Bentler 110, 115 Berry 49–52, 54–58, 60–61, 63, 65–66, 69–70, 81, 86–87, 91–92, 100 Bhagat 23 Birnbaum 165 Black Siehe Hair 101–102, 108–110, 112 Bock 154 Bollen 108–109, 118, 122–123, 125 Bond 238 Bonett 115 Bonnet 110 Bontempo 170 Boran-Leitner 14 Bortz 93–94, 101, 103, 105, 108, 305, 315 Bottom Siehe Idaszak 190 Brislin 23, 37, 58, 60–61 Brockhaus 26–29 Browne 108, 110–112 Brüch 23, 196–197 Bunting 238 Burns 76 Bush 76 Byrne 127 C Cadell 187 Calantone 188 Calantone Siehe Mintu 236 278 Autorenindex Campbell 50 Candell 189 Carrol 62 Cavusgil 79–80, 82, 124 Chikudate 61 Chmielewicz 10, 50–51, 92–93 Church Siehe Huang 190 Churchill 61, 75 Clark 46 Craig 9, 20, 62–70, 72, 74, 76–77, 80, 82, 185, 236 Cronbach 84 Cudeck 108, 110–112 Cui-Chi 187 D Dadzie 188 Das 79–80, 82, 124 Dasen 58 Davis 187 Dayan Siehe Ollivier 35 de Jong Siehe Andrich 155, 161–162, 224 de Vries Siehe Verhelst 171 Diamantopoulos Siehe Du Preez 197 Douglas 9, 16, 20, 62–70, 72, 74, 76–77, 80, 82, 185, 236 Douglas Siehe Davis 187 Drasgow 126, 168, 189 Drasgow Siehe Hulin 122, 189 Drasgow Siehe Idaszak 190 Du Preez 197 Durkheim 57 Durvasula Siehe Netemeyer 185, 192 E Eid 90, 146, 174–175 Einstein 6 Ellis 170, 189–190 Erichson Siehe Backhaus 101, 103, 106, 108–109, 112–113, 128 Everson 173 F Ferrando 120 Finifter 57 Fischer 89, 98, 132, 134–136, 138–139, 143, 145–152, 155, 167–168 Fisher 147 Franta 14 Freud 27, 43 Friedrichs 19–20 Frijda 54, 58 G Gassenheimer Siehe Mintu 236 Gerbing 105 Giering 81, 105–106 Glas Siehe Verhelst 171 279 Autorenindex Glass 133 Gleser Siehe Cronbach 84 Goldschmidt 58 Good 186, 192 Goodenough 27–28 Green 64 Greenfiel 188 Grubitzsch 151 Gullikson 89 Gustafson 6 Guttman 136–137, 139–141 H Hair 101–102, 108–110, 112 Hall 21, 30–35, 37–39, 41, 47 Hambleton 144, 146, 151–152, 154, 165–166, 169–170, 174–175, 216, 218, 222 Hamilton 105 Hancock 122, 131 Hanisch 189 Hänni 88, 233 Herkner 38 Hofstede 41–46, 74, 195, 197 Holzmüller 6, 18–20, 25, 46, 59–60, 74, 78, 91–92, 178, 180, 236 Holzmüller Siehe Salzberger 192 Holzmüller Siehe Sinkovics 169 Homburg 81, 105–106, 108, 110, 112 Horn 101, 105, 116–118, 123 Hsu 50 Huang 190 Hubbard 183–184 Huddleston 186, 192 Hulin 122, 167, 169, 189 Hüttner 76 I Idaszak 190 Inkelsen 46–47 Irvine 62 Iversen 94 J Jacobs Siehe Yu 235 Jahoda 54, 58 Jain 74–76 Jansen Siehe Verhelst 171 Jeon Siehe Beatty 186 Jöreskog 98, 109, 114, 200 K Kant 34 Katigbak Siehe Huang 190 Kelderman 171 Keown Siehe Yu 235 Kimmel 190 280 Autorenindex Kimmel Siehe Ellis 170 Klausegger Siehe Schuh 15 Kluckhohn 27, 38–40 Köbben 57 Komocar Siehe Hulin 189 Kornmeier 44, 46 Kotler 23, 48, 52 Kroeber 27 Kroeber-Riel 19, 26–27, 30, 238–239 Kuhn 191, 225–229, 231–232 L La Du 108 Labouvie 126 Landis 23 Langeard 64 Levinson 46–47 Levitt 8, 15–17, 51, 62, 67 Lewandowski Siehe Zhu 237 Lewis 110, 171, 187 Leyhausen 28 Lichtenstein Siehe Netemeyer 185, 192 Lienert 135, 181–182 Lim 168 Linton 47 Long 108–109 Lonner 49, 55, 87 Lord 89, 144 Lorenz 28 Lundstrom 187 Luo Siehe Sheridan 152 M Malhotra 21, 124, 237 Malinowski 57 Malpass 6, 26, 49–50, 55–57, 62, 64, 67, 84–93, 95–98 Manrai 9, 23, 49–50, 52 Marsh 108 Masters 155, 167, 210 Mayer 189 Mazanec 189 McArdle 101, 105, 116–118, 123 McCort 237 McDonald 6, 126, 171 McDonald Siehe Marsh 108 Meredith 117–118, 120, 122–123 Miller 189 Millsap 173 Mintu 236 Mokken 171 Molenaar 141, 171 Mullen 90, 124–125 281 Autorenindex Müller 23, 44, 46 Murphy Siehe Beatty 186 Muthén Siehe Byrne 127 Myers 73 N Nanda Siehe Cronbach 84 Naroll 46 Nasif 82 Nesselroade 126–127 Netemeyer 185, 192 Newton 139 Novick 89 O Ollivier 35 Osgood 60 Ourset Siehe Ollivier 35 P Parameswaran 187 Parry 187 Parsons 169, 189 Parsons Siehe Hulin 122 Pepels 76, 81 Peterson Siehe Malhotra 21, 124 Plinke Siehe Backhaus 101, 103, 106, 108–109, 112–113, 128 Poortinga 6, 26, 49–50, 55–57, 62, 64, 67, 84–93, 95–98 Popper 11, 19, 191, 232 Pras 73, 134 Prim 10 Pugh Siehe Reise 123, 127 Q Quester 187 R Rajaratnam Siehe Cronbach 84 Raju 176 Rasch 5–6, 139–143, 147, 163–165 Reckase 171 Reise 123, 127, 172, 177, 216–217 Rexilius 151 Riordan 188 Robbins 38–40, 45 Roberts 61 Rogers Siehe Hambleton 146, 151–152, 154, 165–166, 169–170, 174–175, 216, 218, 222 Roskam 163, 171 Rost 89, 134, 140, 143–144, 156, 173–174, 177, 211–212, 214, 216–217 Rowley 135 Ruetsch 126 S Salzberger 192, 200, 237 Salzberger Siehe Sinkovics 169 Schlegelmilch Siehe Du Preez 197 282 Autorenindex Schmidt Siehe Calantone 188 Schreiber Siehe Schuh 15 Schuh 15 Segall 85 Sekaran 82 Sensales 188 Sharma 10, 185, 192–193, 206, 285, 287, 305 Shavelson Siehe Byrne 127 Sheridan 152 Sheridan Siehe Andrich 155, 161–162, 224 Shimp 10, 185, 192–193, 285, 287 Shimp Siehe Sharma 185, 192–193, 206, 285, 305 Shin Siehe Sharma 185, 192–193, 206, 285, 305 Silk Siehe Davis 187 Singh 118, 120, 122–123, 127, 178, 189 Sinkovics 169, 186, 192–193, 206, 285, 287, 305 Sinkovics Siehe Salzberger 192 Song 187 Song Siehe Calantone 188 Sörbom 109, 114, 188, 200 Springer 15 Stanley 133 Steenkamp 62, 112, 114, 116–118, 120, 123–124, 127, 130, 186–187, 192 Steiger 110–112 Steinberg 171 Stewart 101–104 Steyer 90, 146, 174–175 Stone 141 Strodtbeck 38–40 Sutton-Smith 61 Swaminathan Siehe Hambleton 146, 151–152, 154, 165–166, 169–170, 174–175, 216, 218, 222 T Tajfel 192 Talgic 188 Tan 187 Tanaka 108 Tatham Siehe Hair 101–102, 108–110, 112 ten Berge 105 The Chinese Culture Connection 45 Thissen 152, 171, 221 Thomas 23, 196–197 Thurstone 5, 103, 113, 118 Tietz 15, 229–230 Tilmann 10 Toyne 66, 68–70, 76 Traub 135 Triandis 27, 46–47, 49, 52, 64 Tucker 110 Turner 192 283 Autorenindex U Updyke Siehe Zhu 237 Usunier 26, 29, 47–48, 70–76, 82 V Van de Vijver 55 van der Linden 144 Van Herk 75 van Minden 188 van Trijp 62 Vandenber 188 Vassilou 64 Verhallen 75 Verhelst 171 Verstralen Siehe Verhelst 171 von Davier 152, 156, 173–174, 177, 210–212, 214, 216–217 W Walters 66, 68–70, 76 Warner 73 Waugh 238 Weiber Siehe Backhaus 101, 103, 106, 108–109, 112–113, 128 Weinberg 238–239 White 187 Wich 92 Widaman Siehe Reise 123, 127 Wind 16 Wright 5, 141, 155, 164 Y Yapra 187 Yoshida 23, 37 Yu 235 Z Zentes 15 Zhang 188 Zhu 237 Zwinderman 152 284 Anhang Anhang A CETSCALE Items (Shimp und Sharma, 1987) Die folgende Übersicht gibt die aus 17 Items bestehende CETSCALE von Shimp und Sharma (1987) in deutscher Übersetzung bezogen auf Österreich (Sinkovics, 1998) wieder. Die Kodierungen stellen die Originalcodes bei Sinkovic (1998) für Österreich bzw. Sharma et al. (1995) für Südkorea dar. t5 v031 t1 skalar v028 metrisch Sinkovics Sharma et (1998) al. (1995) Invarianz konfigural Codierung + + - Der Kauf ausländischer Produkte ist „un-österreichisch“. + - - Österreicher sollten sich immer für österreichische Produkte entscheiden, anstatt importierte Produkte zu kaufen. Item v035 t4 + - - Österreichische Produkte sind das einzig Richtige. v046 t3 + + + Kauft österreichische Produkte. Sichert unsere Arbeitsplätze! v048 t2 + + + Es sollten nur jene Produkte importiert werden, die in Österreich nicht erhältlich sind. v054 t6 + + + Es ist nicht richtig, ausländische Produkte zu kaufen, weil dadurch Österreicher arbeitslos werden. v063 t7 - - - Ein echter Österreicher kauft nur österreichische Produkte. v075 t12 - - - Es sollte für alle Importe Einfuhrbeschränkungen geben. v077 t10 + + - Es sollte mit anderen Ländern sehr wenig Warenhandel oder -einkauf betrieben werden, außer wenn es unbedingt notwendig ist. + - - Wir sollten österreichische Produkte kaufen, anstatt es zuzulassen, daß andere Länder sich auf unsere Kosten bereichern. v079 t8 v081 t9 - - - Es ist immer am besten, österreichische Produkte zu kaufen. v082 t13 - - - Es mag sein, daß es langfristig teurer ist, aber ich ziehe es vor, österreichische Produkte zu kaufen. v090 t16 - - - Wir sollten vom Ausland nur jene Produkte kaufen, die wir im eignen Land nicht bekommen. v091 t14 - - - Ausländern sollte es nicht erlaubt sein, ihre Produkte auf unseren Markt zu bringen. 285 Anhang v103 v106 skalar v093 metrisch Sinkovics Sharma et (1998) al. (1995) Invarianz konfigural Codierung + + + Österreicher sollten keine ausländischen Schi kaufen, weil es österreichischen Unternehmen schadet und Arbeitslosigkeit hervorruft. + + - Österreichische Konsumenten, die ausländische Produkte kaufen, sind verantwortlich dafür, daß ihre Mitbürger arbeitslos werden. - - - Um die Einfuhr ausländischer Produkte nach Österreich zu reduzieren, sollten diese stark besteuert werden. t11 t17 t15 Item 286 Anhang B CETSCALE Itempool (Shimp und Sharma, 1987; Sinkovics, 1998) Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v001 Americans should buy American products, because charity begins at home Österreicher sollten österreichische Produkte kaufen, weil jeder sich selbst der nächste ist. v002 It is better to purchase American-made products to help the economy and to help more Americans to have jobs Es ist besser österreichische Produkte zu kaufen, um der Wirtschaft zu helfen und heimische Arbeitsplätze zu sichern. v003 It is alright to purchase foreign-made products, because trade with other countries is necessary Es ist in Ordnung, daß man ausländische Produkte kauft, denn Handel mit anderen Ländern ist notwendig. v004 I do not think that a bad company should be helped just because it is an American company Ich glaube nicht, daß man einer schlechten Firma helfen sollte, nur weil es eine österreichische Firma ist. v005 Ich würde im allgemeinen lieber österreichiI would prefer to purchase goods made in America, but sometimes workmanship makes sche Produkte kaufen, aber manchmal macht es die mangelnde Produktqualität schwierig it difficult to do so diesem Grundsatz zu folgen. v006 Foreign-made products are over-rated in terms of performance and dependability v007 Everyone is entitled to buy whatever products Es steht jedem frei Produkte seiner Wahl zu kaufen, ganz egal wo sie herkommen. they want, regardless of origin of manufacture v008 Let American manufacturers do better than foreign competitors if they want American consumers to purchase their products v009 Foreign products are engineered to last longer Ausländische Produkte bewähren sich hinan with an eye for quality sichtlich Lebensdauer und Qualität besser als heimische. v010 When Americans buy foreign-made products, Wenn Österreicher ausländische Produkte they are just taking money away from them- kaufen, dann bringen sie sich bloß um ihr selves eigenes Geld. v011 All Americans would be better off if we Alle Österreicher wären besser dran, wenn would purchase products from ourselves rat- wir unsere eigenen statt der ausländischen her than from other countries Produkte kaufen würden. v012 American consumers have an obligation to purchase foreign-made products since American products have been sold abroad for many years 287 Ausländische Produkte werden in bezug auf Leistung und Verläßlichkeit überschätzt. Wenn einheimische Hersteller wollen, daß Österreicher ihre Produkte kaufen, dann sollen Sie einfach bessere Produkte produzieren. Österreichische Konsumenten sollten sich verpflichtet fühlen, ausländische Produkte zu kaufen, weil österreichische Produkte auch schon seit vielen Jahren im Ausland verkauft werden. Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v013 Import taxes or other restrictions should be imposed so that foreign products will compare in price on the American market with items manufactured here v014 Labor unions are responsible for the high pri- Für die hohen Preise österreichischer Proces of American products compared to for- dukte, verglichen mit den Preisen ausländieign products scher Produkte sind die Gewerkschaften verantwortlich. v016 We should buy American first--it´s the Ame- Wir sollten in erster Linie österreichische rican way Produkte kaufen. Das ist die österreichische Art. v017 It is the fault of American companies that they have allowed foreign businesses to invade the American market v018 If consumers continue to purchase foreign Wenn die Konsumenten weiterhin ausländiproducts, American companies will get the sche Produkte kaufen, dann ist das ein Signal signal and improve products and lower prices für österreichische Unternehmen, ihre Produkte zu verbessern und die Preise zu senken. v019 It is morally unwise to purchase foreign makes of merchandise Es ist moralisch unklug, ausländische Produkte zu kaufen. v020 I would rather buy an American-made product, but inferior workmanship in some products has forced me to buy foreign-made products Ich würde an sich lieber österreichische Produkte kaufen, aber die geringere Qualität mancher Produkte hat mich dazu gezwungen, ausländische Produkte vorzuziehen. v021 Foreign products are cheap and don´t hold up Ausländische Produkte sind billig und halten well wenig aus. v022 Many products coming to America from other countries are inferior v023 We need to get back to our old way of buying Wir sollten endlich wieder österreichische American-made products Produkte kaufen, so wie es früher üblich war. v024 People should buy American products whenever possible, but when foreign-made products cost the same for better quality it is hard to remain loyal v025 I do not feel that I am being a traitor if I buy a Ich fühle mich nicht als Verräter, wenn ich ein foreign-made product ausländisches Produkt kaufe. v027 I favor the purchase of American-made products as a matter of principle and patriotism Aus Prinzip und wegen meines Patriotismus bevorzuge ich österreichische Produkte. v028 Purchasing foreign made products is unAmerican Der Kauf ausländischer Produkte ist "unösterreichisch". 288 Es sollten Einfuhrzölle und andere Einfuhrbeschränkungen eingeführt werden, damit ausländische Produkte in bezug auf ihren Verkaufspreis mit den einheimischen Produkten vergleichbar sind. Die österreichischen Firmen sind selbst daran schuld, daß sie ausländischen Firmen erlaubt haben, in den österreichischen Markt einzudringen. Viele ausländische Produkte, die nach Österreich kommen sind minderwertig. Man sollte, wann immer möglich, österreichische Produkte kaufen, aber wenn ausländische Produkte bei besserer Qualität das gleiche kosten, ist es schwierig diesem Grundsatz treu zu bleiben. Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v029 It´s sort of anti-American to buy foreign products, but when expensive purchases are involved, you have to do what is in your personal interest In gewisser Weise ist es anti-österreichisch, ausländische Produkte zu kaufen, aber man muß in seinem eigenen Interesse handeln, vor allem wenn es um teure Anschaffungen geht. v030 Generally I support American products, but American companies have to improve the quality of work Im allgemeinen unterstütze ich österreichische Produkte, aber österreichische Firmen müssen die Qualität ihrer Produkte noch verbessern. v031 American people should always buy American-made products instead of imports. Österreicher sollten sich immer für österreichische Produkte entscheiden, anstatt importierte Produkte zu kaufen. v032 In a great number of instances, foreign goods Häufig sind ausländische Erzeugnisse besser are better made and are more attractive ausgeführt und insgesamt attraktiver. v033 As an American citizen, you should have the Als österreichischer Staatsbürger sollte man right to purchase any legal product from any das Recht haben, jedes Produkt aus jedem country Land zu kaufen. v034 Americans should remain loyal to American- Österreicher sollten österreichischen Produkmade goods and should not purchase foreign- ten gegenüber treu bleiben und keine auslänmade products dischen Produkte kaufen. v035 American products first, last, and foremost Österreichische Produkte sind das einzig Richtige. v037 I will buy only American-made products, because I believe in America and its people Ich kaufe nur österreichische Produkte, weil ich an Österreich und die Österreicher glaube. v038 It is very inappropriate for American consumers to purchase foreign products when workers in this country are out of work Es ist für österreichische Konsumenten ausgesprochen unangebracht, ausländische Produkte zu kaufen, wenn es in Österreich Arbeitslose gibt. v039 It is your freedom of choice to purchase any product you want, whether or not it is foreign-made Es ist dein freier Wille jedes beliebige Produkt zu kaufen, egal ob es im Ausland erzeugt wurde oder nicht. v041 If we expect to sell products to foreign coun- Wenn wir Produkte exportieren wollen, müstries, we must also import foreign goods sen wir ebenso ausländische Produkte importieren. v043 I have no objection to purchasing foreignIch habe nichts dagegen, ausländische Promade goods provided they are of equal or bet- dukte zu kaufen, vorausgesetzt sie sind hinter value than American goods sichtlich ihrer Qualität gleichwertig oder preiswerter als österreichische Produkte. v044 American consumers should spend their dol- Österreichische Konsumenten sollten ihr lars to get the maximum for the amount spent, Geld so verwenden, daß sie dafür soviel wie möglich bekommen, unabhängig davon regardless of the origin of the product woher die Produkte stammen. v045 That is what is wrong with America now, too Das Problem mit Österreich ist: Es gibt zu many foreign products viele ausländische Produkte. 289 Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v046 Buy American-made products. Keep America Kauft österreichische Produkte. Sichert working unsere Arbeitsplätze! v047 Purchasing foreign products gives a sign to American companies to do a better job Wenn man ausländische Produkte kauft, signalisiert man damit den österreichischen Unternehmungen, sich mehr anzustrengen. v048 Only those products that are unavailable in the U.S. should be imported Es sollten nur jene Produkte importiert werden, die in Österreich nicht erhältlich sind. v049 I would prefer not to purchase products from Ich würde lieber keine ausländischen Proother countries, but sometimes we are forced dukte kaufen, aber manchmal werden wir dazu gezwungen. to v050 Buying foreign-made products amounts to fighting our own economy Wenn wir ausländische Produkte kaufen, schaden wir letztlich nur unserer eigenen Wirtschaft. v051 It is better to buy American-made products, but sometimes the difference in price causes us to buy foreign products Es ist besser österreichische Produkte zu kaufen, aber manchmal veranlaßt uns der Preisunterschied dazu, doch ausländische Produkte zu kaufen. v052 If we do not purchase foreign goods, we cannot expect other countries to buy our exports Wenn wir keine ausländischen Produkte kaufen, können wir nicht erwarten, daß andere Länder unsere Produkte kaufen. v053 American products are usually superior to foreign products because they are backed by our home companies and they give less service and parts problems Österreichische Produkte sind üblicherweise ausländischen Produkten weit überlegen, weil dahinter österreichische Firmen stehen und es weniger Wartungs- und Ersatzteilprobleme gibt. v054 It is not right to purchase foreign products, because it puts Americans out of jobs Es ist nicht richtig, ausländische Produkte zu kaufen, weil dadurch Österreicher arbeitslos werden. v055 There should be tariffs on foreign goods, Man sollte auf ausländische Produkte Zölle making the price closer to American products einheben, um deren Preise an die österreichischen anzugleichen. v056 I would much rather buy American goods, but Eigentlich kaufe ich lieber österreichische not unless they meet my standards Produkte, aber nur wenn sie meinen Anforderungen entsprechen. v057 If we can sell our products in other countries, Wenn wir unsere Produkte in anderen Länthen there is nothing wrong with buying their dern verkaufen können, ist nichts dagegen products einzuwenden, deren Produkte zu kaufen. v059 Foreign products are more consistent in performance than American products Ausländische Produkte sind zuverlässiger als österreichische Produkte. v061 If a poor quality American product costs more and won´t hold up, consumers should buy foreign products Wenn ein österreichisches Produkt von schlechter Qualität viel kostet und wenig aushält, dann sollten Konsumenten ausländische Produkte kaufen. 290 Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v062 American consumers should purchase products based on a satisfaction-per-dollar-spentbasis no matter what country the item is made in Österreichische Konsumenten sollten Produkte auf der Basis eines guten Preis- Leistungsverhältnisses kaufen, egal wo das Produkt erzeugt wurde. v063 A real American should always buy American-made products Ein echter Österreicher kauft nur österreichische Produkte. v064 The poor shape of the economy is largely the Der Grund für die schlechte Wirtschaftslage liegt größtenteils darin, daß Österreicher ausresult of Americans buying foreign-made products ländische Produkte kaufen. v065 Purchasing foreign-made products promotes good relations with other countries v066 I buy foreign products in hopes that American Ich kaufe ausländische Produkte in der Hoffmanufacturers will get the message an nung, den österreichischen Produzenten improve product quality damit einen Denkzettel zu verpassen, sodaß sie ihre Produkte verbessern. v067 Buying foreign-made products makes for bet- Der Kauf ausländischer Produkte fördert die ter international relations internationalen Beziehungen. v069 It is not right to purchase any products that are manufactured outside the United States Es ist nicht richtig, Produkte zu kaufen, die nicht in Österreich erzeugt wurden. v071 I purchase items based on quality, not whether they are American or foreign-made Ich kaufe Produkte wegen ihrer Qualität und nicht wegen ihrer Herkunft. v072 Stronger laws are needed to control imports of foreign-made products Wir brauchen strengere Gesetze, um die Importe ausländischer Produkte zu kontrollieren. v073 Labor unions with their demands for higher wages have placed American products in non- competitive positions Gewerkschaften mit ihrer Forderung nach höheren Löhnen, haben die österreichischen Produkte in eine nachteilige Wettbewerbssituation gebracht. v074 Foreign companies place more emphasis on quality than do American firms Ausländische Firmen legen mehr Wert auf Qualität als österreichische Firmen. v075 Curbs should be put on all imports Es sollte für alle Importe Einfuhrbeschränkungen geben. v077 There should be very little trading or purchasing of goods from other countries unless out of necessity Es sollte mit anderen Ländern sehr wenig Warenhandel oder -einkauf betrieben werden, außer wenn es unbedingt notwendig ist. v078 I purchase the highest quality products at the Ich kaufe jene Produkte, die die beste Qualilowest prices, disregarding where the product tät zum geringsten Preis bieten, ohne Rückwas made sicht darauf, wo das Produkt hergestellt wurde. v079 We should purchase products manufactured in America instead of letting other countries get rich of us 291 Der Kauf ausländischer Produkte fördert die guten Beziehungen mit anderen Ländern. Wir sollten österreichische Produkte kaufen, anstatt es zuzulassen, daß andere Länder sich auf unsere Kosten bereichern. Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v080 We should buy American-made products if the price and quality is anywhere equal Wir sollten österreichische Produkte kaufen, wenn sie in Preis und Qualität ungefähr gleich sind. v081 It is always best to purchase American products Es ist immer am besten österreichische Produkte zu kaufen. v082 It may cost me in the long-run, but I prefer to Es mag sein, daß es langfristig teurer ist, aber support American products ich ziehe es vor, österreichische Produkte zu kaufen. v083 Foreign-made products are usually less Ausländische Produkte kosten üblicherweise expensive and are of better quality than Ame- weniger und sind qualitativ hochwertiger als rican products österreichische Produkte. v084 The consumer should purchase foreign-made products only if they are of much better value- if the products are equal or very close, we should choose American products Der Konsument sollte ausländische Produkte nur dann kaufen, wenn sie ein wesentlich besseres Preis-Leistungsverhältnis bieten; wenn die Produkte gleich oder sehr ähnlich sind, sollten wir zu österreichischen Produkten greifen. v085 I do not favor American purchases just to overpay union workers or to save management from their mistakes Ich kaufe doch nicht österreichische Produkte, nur um dadurch Gewerkschafter zu subventionieren oder das Management von den Folgen seiner Fehler zu verschonen. v086 I favor buying American-made products, but only if they are as good or better than foreign-made products Ich ziehe es vor österreichische Produkte zu kaufen, aber nur wenn sie gleich gut oder besser sind als ausländische Produkte. v088 Foreign competition is necessary for the American economy Ausländische Konkurrenz ist notwendig für die österreichische Wirtschaft. v089 American consumers should purchase Ameri- Österreichische Konsumenten sollten östercan goods and let foreign countries keep their reichische Waren kaufen und fremde Länder own goods sollten ihre eigenen Waren behalten. v090 We should buy from foreign countries only those products that we cannot obtain within our own country v091 Foreigners should not be allowed to put their Ausländern sollte es nicht erlaubt sein, ihre products on our markets Produkte auf unseren Markt zu bringen. v093 Americans should not buy foreign cars, because this hurts American businesses and causes unemployment Österreicher sollten keine ausländischen Schi kaufen, weil es österreichischen Unternehmen schadet und Arbeitslosigkeit hervorruft. v094 If a foreign product is better than a domestic one, it is your right to purchase the foreign product Wenn ein ausländisches Produkt besser als das heimische ist, hat man das Recht, das ausländische Produkt zu kaufen. v095 Usually American products are superior to foreign ones Normalerweise sind österreichische Produkte ausländischen Produkten überlegen. 292 Wir sollten vom Ausland nur jene Produkte kaufen, die wir im eigenen Land nicht bekommen. Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v097 Our country needs our help, and we can help Unser Land braucht unsere Hilfe und wir by buying only American-made products können helfen, indem wir nur österreichische Produkte kaufen. v098 There should be no quotas set on the number Es sollte keine Mengenbeschränkungen für of foreign products imported into the U.S. die Zahl der nach Österreich eingeführten Produkte geben. v102 It is unpatriotic to purchase foreign-made products v103 American consumers who purchase products Österreichische Konsumenten, die ausländimade in other countries are responsible for sche Produkte kaufen, sind verantwortlich putting their fellow Americans out of work dafür, daß ihre Mitbürger arbeitslos werden. v104 We must support products produced in our own country for our own survival Wir müssen einheimische Produkte unterstützen, um überleben zu können. v105 We should not purchase anything from foreign countries, and they should not be allowed to purchase anything from us Wir sollten nichts aus dem Ausland kaufen, und den Ausländern sollte es untersagt sein, irgend etwas von uns zu kaufen. v106 Foreign products should be taxed heavily to reduce their entry into the U.S. Um die Einfuhr ausländischer Produkte nach Österreich zu reduzieren, sollten diese stark besteuert werden. v107 American manufacturers will never improve Österreichische Produzenten werden die Quathe quality of their products unless motivated lität ihrer Waren nie verbessern, es sei denn, by foreign competition sie werden durch ausländische Konkurrenz dazu motiviert. v108 American consumers should not let themselves be cheated in buying inferior Americanmade products because of some sense in patriotism v110 American consumers should purchase whate- Österreichische Konsumenten sollten unabver products best fulfill their needs regardless hängig vom Ursprungsland die Produkte kauof where they are produced fen, die ihre Bedürfnisse am besten befriedigen. v111 It is downright unpatriotic to buy anything except American-made products Es ist absolut unpatriotisch, irgend etwas anderes als österreichische Produkte zu kaufen. v112 You have the right to purchase any product that suits your needs and your pocketbook, regardless of where manufactured Man hat das Recht, jedes Produkt zu kaufen das seinen Bedürfnissen und der Brieftasche am besten entspricht, egal wo es erzeugt wurde. v113 Wenn österreichische Erzeuger die ProduktIf American manufacturers improved product quality, consumers would not seek goods qualität steigerten, würden die österreichischen Konsumenten nicht Waren aus dem from other countries Ausland nachfragen. 293 Es ist unpatriotisch, ausländische Produkte zu kaufen. Österreichische Konsumenten sollten sich nicht von einem gewissen Gefühl des Patriotismus dazu verführen lassen, minderwertige einheimische Produkte zu kaufen. Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v114 American manufacturers are losing out to for- Österreichische Produzenten verlieren gegeneign competitors due to their own stubborn über ausländischen Konkurrenten, weil sie es refusal to change einfach hartnäckig ablehnen, Änderungen vorzunehmen. v115 If you can get a better foreign-made product Wenn man ein besseres ausländisches Proat a lower price, it would be foolish not to buy dukt zu einem günstigeren Preis erstehen kann, wäre man dumm, es nicht zu kaufen. it v116 Americans would buy more American-made products if they were as good as those made by foreign companies v117 American consumers should buy goods of the Österreichische Konsumenten sollten jene Güter kaufen, die das beste Preis- Leistungsbest value for the price without regard to where they are made verhältnis haben, unabhängig davon, wo sie hergestellt wurden. Österreicher würden mehr heimische Produkte kaufen, wenn sie so gut wie die ausländischen wären. PATRIOTISMUS (P) UND POLITIC-ECONOMIC-CONSERVATIVISM (PEC) Subskalen v026 If a person won´t fight for his country, he deserves a lot worse than just prison or a work camp Wenn jemand nicht für sein Land kämpft, verdient er schlimmeres als nur Gefängnis oder Arbeitslager. v060 People throughout the world may be in need, but it would be a big mistake to lower our immigration quotas and allow them to flood the country Es mag auf dieser Welt viele Bedürftige geben, doch es wäre ein grober Fehler, unsere Einwanderungsquoten zu senken, und sie unser Land überfluten zu lassen. v092 The main threat to basic American institutions during this century has come from the infiltration of foreign ideas, doctrines, and agitators Die Hauptbedrohung für den österreichischen Staat während des letzten Jahrhunderts kam von fremden Ideen, Lehren und Aufhetzern. v100 Patriotism and loyalty are the first and most important requirements of a good citizen Patriotismus und Loyalität gehören zu den wichtigsten Voraussetzungen für einen guten Staatsbürger. v101 There will always be superior and inferior nations in the world and, in the interests of all concerned, it is best that the superior ones be in control of world affairs Es wird immer überlegene und unterlegene Nationen in der Welt geben, und im Interesse aller Beteiligten ist es das Beste, wenn die überlegenen Nationen die Kontrolle über das Weltgeschehen ausüben. v015 The government should own and operate all Der Staat sollte alle öffentlichen Versorpublic utilities (transportation, gas and elec- gungsunternehmen besitzen und betreiben tric, railroads, etc.) (Elektrizität, Gas, Schienenverkehr, Güterverkehr). v036 Ein Künstler und ein Professor sind für die The artist and the professor are of just as much value to society as the businessman and Gesellschaft genauso wertvoll wie ein Geschäftsmann und ein Unternehmer. the manufacturer 294 Anhang Itemcode bei Sinkovics (1998) US-Item (Shimp und Sharma, 1987) österreichisches Item (Sinkovics, 1998) v040 It would be dangerous for the U.S. to coope- Es wäre gefährlich für Österreich zu eng mit rate too closely with Russia Ländern wie Ungarn zusammenzuarbeiten. v042 The best political candidate to vote for is the Es ist am besten, die Partei zu wählen, die am one whose greatest interest is in fighting vice schärfsten gegen Korruption und Bestechung and graft auftritt. v058 Im allgemeinen ist den "Nächsten" am besten In general, the best wy of aiding our fellow man is to give time or money to some worthy geholfen, wenn man Zeit oder Geld für wohlcharity tätige Zwecke zur Verfügung stellt. v068 Labor unions should become stronger and have more influence generally Gewerkschaften sollten stärker werden und überhaupt mehr Einfluß haben. v070 It is up to the government to make sure that everyone has a secure job and a good standard of living Es ist Sache des Staates, die Arbeitsplätze und einen guten Lebensstandard zu sichern. v076 More government controls over business are needed Der Staat sollte mehr Kontrolle über die Wirtschaft ausüben. v087 No one should be allowed to earn more than $ Niemand sollte mehr als öS 200.000,-- im 200,000 a year Monat verdienen. v096 Depressions can be prevented by proper government planning v099 Poverty could be almost entirely done away Wir könnten die Armut fast vollständig auslöwith if we made certain basic changes in our schen, wenn wir bestimmte grundsätzliche social and economic system Veränderungen in unserem sozialen und wirtschaftlichen System durchführen. v109 America may not be perfect, but the American Way has brought us about as close as human beings can get to a perfect society 295 Wirtschaftskrisen können durch vernünftiges Planen öffentlicher Stellen verhindert werden. Es mag sein, daß Österreich nicht makellos ist, aber weit von einer perfekten Gesellschaft sind wir nicht mehr entfernt. Anhang C LISREL-Syntax: separate CFA in Österreich und Südkorea Im folgenden wird die Syntax der Analysen mit Lisrel 8.20 dargestellt. Kursive Angaben stellen nachträglich eingefügte Kommentare dar und sind nicht Bestandteil der originalen Syntax. In nachfolgenden Beispielen werden Syntaxteile nur dann kommentiert, wenn diese nicht bereits in vorangegangenen Beispielen erläutert werden. Sämtliche Angaben beziehen sich auf die Kalibrierungssamples, stimmen aber syntaktisch völlig überein mit den Analysen der Validierungssamples. TI Project: calib. Categorization variable: sample . Group: at TI separate models for at and kor sample TI calibration data set TI CETSCALE TI AT and KOR Titelzeilen ohne syntaktische Bedeutung DA NI=17 NO=548 NG=1 MA=CM Charakterisierung der Datenanalys: Zahl der Inputvariablen: 17, Zahl der Fälle: 548; Zahl der simultan betrachteten Gruppen: 1, Matrix: Kovarianzmatrix LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T7’ ’T8’ ’T9’ ’T10’ ’T11’ ’T12’ ’T13’ ’T14’ ’T15’ ’T16’ ’T17’ Labelzuweisung zur Charakterisierung der manifesten Variablen CM FI=separ.cov Dateiangabe zur Kovarianzmatrix ME FI=separ.cov Dateiangabe zum Item-Mittelwertsvektor MO NY=17 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI Modellspezifikation: Alle manifesten Variablen (17) wurden als Y-Variablen spezifiziert. Dies ist völlig äquivalent zu einer X-Spezifikation.Eine latente Variable als η spezifiziert. LE ’gen’ Labelzuweisung zur Charakterisierung der latenten Variablen (hier: gen für Generalfaktor) VA 1.000 LY(1,1) Value-Statement: Wertzuweisung zu einem Ladungsparameter zwecks Definition der Varianz der latenten Variablen FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) LY(11,1) FR LY(12,1) LY(13,1) LY(14,1) LY(15,1) LY(16,1) FR LY(17,1) Free matrix element-Statement: Spezifikation der Ladungen aller Variablen zum ersten (und einzigen) Faktor FR PS(1,1) Free matrix element-Statement: Spezifikation der Faktorkovarianzen, hier nur ein Faktor, daher nur Faktorvarianz FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TE(11,11) TE(12,12) TE(13,13) TE(14,14) TE(15,15) FR TE(16,16) TE(17,17) Free matrix element-Statement: Spezifikation der zu schätzenden Fehler(ko)varianzen, hier werden nur Fehlervarianzen geschätzt. FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) FR TY(11) TY(12) TY(13) TY(14) TY(15) FR TY(16) TY(17) 296 Anhang Free matrix element-Statement: Spezifikation der zu schätzenden Item-Intercepts. VA .902 LY(2,1) VA .670 LY(3,1) (...) Startwertvorgabe für Parameterschätzungen. Diese beruhen auf Schätzungen, die im Zuge von Programmläufen mit restringierten Parametern gewonnen wurden. Diese Vorgangsweise erleichtert die Konvergenz der Lösung. Eine mögliche erste Restriktion besteht in gleichen Ladungswerten für alle Parameter. Startwerte werden im folgenden nicht mehr dargestellt. OU ALL ME=ML AD=OFF Output-Statement: Standardauswahl. TI Project: calib. Categorization variable: sample . Group: kor TI separate models for at and kor sample TI calibration data set TI CETSCALE TI AT and KOR Titelzeilen als Beginn der Syntax für Stichprobe Südkorea. Alle weiteren Syntaxzeilen sind ident mit den entsprechenden Zeilen für die österreichische Stichprobe und werden daher nicht dargestellt. (...) 297 Anhang D LISREL-Syntax: konfigurale Invarianz TI Project: calib. Categorization variable: sample . Group: at TI full configural invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=548 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=fconff.cov ME FI=fconff.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(1,1) FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) VA .841 LY(2,1) (...) OU ALL ME=ML AD=OFF TI Project: calib. Categorization variable: sample . Group: kor TI full configural invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=323 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=fconff.cov ME FI=fconff.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(1,1) FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) VA .987 LY(2,1) (...) OU ALL ME=ML AD=OFF 298 Anhang E LISREL-Syntax: volle metrische Invarianz TI Project: calib. Categorization variable: sample . Group: at TI full metric invariance / restricted set (...) TI AT and KOR DA NI=10 NO=548 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=metricf.cov ME FI=metricf.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(1,1) FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) OU ALL ME=ML AD=OFF TI Project: calib. Categorization variable: sample . Group: kor TI full metric invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=323 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=metricf.cov ME FI=metricf.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(1,1) FR LY(2,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) EQ LY(2,2,1) LY(1,2,1) EQ LY(2,3,1) LY(1,3,1) EQ LY(2,4,1) LY(1,4,1) EQ LY(2,5,1) LY(1,5,1) EQ LY(2,6,1) LY(1,6,1) EQ LY(2,7,1) LY(1,7,1) EQ LY(2,8,1) LY(1,8,1) EQ LY(2,9,1) LY(1,9,1) EQ LY(2,10,1) LY(1,10,1) Equality constraints, hier werden alle Ladungen in Gruppe 1 (Österreich) mit jenen in Gruppe 2 (Südkorea) gleichgesetzt OU ALL ME=ML AD=OFF 299 Anhang F LISREL-Syntax: partielle metrische Invarianz TI Project: calib. Categorization variable: sample . Group: at TI partial metric invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=548 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=metrip3.cov ME FI=metrip3.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(2,1) FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) OU ALL ME=ML AD=OFF TI Project: calib. Categorization variable: sample . Group: kor TI partial metric invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=323 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=metrip3.cov ME FI=metrip3.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(2,1) FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) EQ LY(2,3,1) LY(1,3,1) EQ LY(2,5,1) LY(1,5,1) EQ LY(2,6,1) LY(1,6,1) EQ LY(2,8,1) LY(1,8,1) EQ LY(2,9,1) LY(1,9,1) EQ LY(2,10,1) LY(1,10,1) Equality constraints, hier werden Ladungen zum Teil in Gruppe 1 (Österreich) mit jenen in Gruppe 2 (Südkorea) gleichgesetzt OU ALL ME=ML AD=OFF 300 Anhang G LISREL-Syntax: skalare Invarianz TI Project: calib. Categorization variable: sample . Group: at TI partial scalar invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=548 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=scalar0.cov ME FI=scalar0.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(2,1) FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) OU ALL ME=ML AD=OFF TI Project: calib. Categorization variable: sample . Group: kor TI partial scalar invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=323 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=scalar0.cov ME FI=scalar0.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(2,1) FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) FR AL(1) EQ LY(2,3,1) LY(1,3,1) EQ LY(2,5,1) LY(1,5,1) EQ LY(2,6,1) LY(1,6,1) EQ LY(2,8,1) LY(1,8,1) EQ LY(2,9,1) LY(1,9,1) EQ LY(2,10,1) LY(1,10,1) EQ TY(2,2) TY(1,2) EQ TY(2,3) TY(1,3) EQ TY(2,5) TY(1,5) EQ TY(2,6) TY(1,6) 301 Anhang EQ TY(2,8) TY(1,8) EQ TY(2,9) TY(1,9) EQ TY(2,10) TY(1,10) Equality constraints, hier werden Item-Intercepts in Gruppe 1 (Österreich) mit jenen in Gruppe 2 (Südkorea) gleichgesetzt, soweit es sich um metrisch invariante Items handelt. OU ALL ME=ML AD=OFF TY=scalar0.est AL=scalar0.est C 302 Anhang H LISREL-Syntax: partielle skalare Invarianz TI Project: calib. Categorization variable: sample . Group: at TI partial scalar invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=548 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=scalar3.cov ME FI=scalar3.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(2,1) FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) OU ALL ME=ML AD=OFF TI Project: calib. Categorization variable: sample . Group: kor TI partial scalar invariance / restricted set TI calibration data set TI CETSCALE TI AT and KOR DA NI=10 NO=323 NG=2 MA=CM LA ’T1’ ’T2’ ’T3’ ’T4’ ’T5’ ’T6’ ’T8’ ’T10’ ’T11’ ’T17’ CM FI=scalar3.cov ME FI=scalar3.cov MO NY=10 NE=1 LY=FU,FI PS=SY,FI TE=SY,FI TY=DI,FI AL=DI,FI LE ’gen’ VA 1.000 LY(2,1) FR LY(1,1) LY(3,1) LY(4,1) LY(5,1) LY(6,1) FR LY(7,1) LY(8,1) LY(9,1) LY(10,1) FR PS(1,1) FR TE(1,1) TE(2,2) TE(3,3) TE(4,4) TE(5,5) FR TE(6,6) TE(7,7) TE(8,8) TE(9,9) TE(10,10) FR TY(1) TY(2) TY(3) TY(4) TY(5) FR TY(6) TY(7) TY(8) TY(9) TY(10) FR AL(1) EQ LY(2,3,1) LY(1,3,1) EQ LY(2,5,1) LY(1,5,1) EQ LY(2,6,1) LY(1,6,1) EQ LY(2,8,1) LY(1,8,1) EQ LY(2,9,1) LY(1,9,1) EQ LY(2,10,1) LY(1,10,1) EQ TY(2,2) TY(1,2) EQ TY(2,3) TY(1,3) EQ TY(2,6) TY(1,6) EQ TY(2,9) TY(1,9) 303 Anhang Equality constraints, hier werden Item-Intercepts in Gruppe 1 (Österreich) mit jenen in Gruppe 2 (Südkorea) gleichgesetzt, für eine Auswahl der metrisch invarianten Items. OU ALL ME=ML AD=OFF 304 305 t7 t4 t8 V063 V035 V079 + V093 t11 + V050 + V054 t6 - V097 + - + - + t9 V081 + + t5 V028 + - + + - - - - Basis für Analyse Südkorea V034 + + - - t1 V031 - - Sharma et al. (1995) Item RaschModell konform V037 V038 Sinkovics (1998) Itemcodes n.s./n.s. n.s./n.s. n.s./n.s. n.s./n.s. n.s. / >.95 n.s. / >.95 >.99 / n.s. n.s. / n.s. <.05 / <.05 n.s. / >.99 >.95 / >.95 >.999 / .99 >.99 / >.95 p<.05: Unterdiskriminanz p>.95: Überdiskriminanz Q-Index: p (X>zq) cal / val 16.21 17.32 7.99 28.98 11.55 9.27 28.27 10.53 13.33 10.94 19.77 36.64 85.88 χ2 p .06 .04 .54 <.001 .24 .41 <.001 .31 .15 .28 .02 <.001 <.001 Q1-Index DIF-Items5%: 11 DIF-Items1%: 9 χ2 fett=sig.1% kursiv=sig.5% Score (≤ 6 n= 572 vs. ≥ 7 n=533) DIF-Items5%: 4 DIF-Items1%: 1 DIF-Items5%: 8 DIF-Items1%: 4 χ2 χ2 fett=sig.1% fett=sig.1% kursiv=sig.5% kursiv=sig.5% Geschlecht Alter (männl. n=556 vs. (≤ 35a n=556 weibl. n=549) vs. > 35a n=540) 1.994241386 0.163601443 2.404624776 3.699212935 0.027359487 0.769064283 0.116317108 1.696956736 1.764270779 0.00303796 0.776950751 0.158438508 1.16633782 1.094385911 0.794115925 0.403119538 0.497622566 1.683093981 3.887385209 10.41093054 0.026198532 1.945942814 10.9801484 8.059646259 15.20387317 7.862893712 1.550922745 0.399756846 0.00234055 1.278878312 6.199302682 0.140960031 0.883292681 0.417780934 0.713329525 0.562462981 2.798910086 0.198181652 0.405748097 0.983075718 5.872987255 1.238594684 0.157568905 3.946810862 2.188036098 1.259685834 0.174068744 0.533012292 0.582646102 0.002969174 9.150956275 0.387579667 krit. χ25%,df=1=3.84146; krit. χ21%,df=1=6.6349 DIF-Items5%: 2 DIF-Items1%: - χ fett=sig.1% kursiv=sig.5% Kalib. - Valid. (n=553 vs. n=552) 2 I Modellgesamtprüfung: dichotomes Rasch-Modell für 26 Items (österreichischer Datensatz) ∑m z 2 511.72 / n.s. 447.97 / n.s. 520.76 / n.s. 390.76 / n.s. 477.87 / n.s. 465.41 / n.s. 343.89 / n.s 477.27 / n.s 446.54 / n.s 387.12 / n.s 340.44 / n.s 257.25 / n.s 320.11 / n.s. χ2krit., df=550,α=5%=605.7 (z-Transformation: Bortz 1993, S.79) 2 χ = log L – E ( log L ) z = -------------------------------------VAR ( log L ) Likelihood Anhang t13 V082 306 + - t3 t10 V027 V046 V077 - - - - - V095 V001 V021 V062 V010 - + + + + Item RaschModell konform V069 V048 t2 t17 V103 V019 Sharma et al. (1995) Sinkovics (1998) Itemcodes - - - - - - - - - - - + + Basis für Analyse Südkorea <.001 / <.001 <.001 / <.001 <.001 / <.001 n.s. / <.05 n.s. / <.01 <.01 / <.05 n.s./n.s. n.s./n.s. n.s./n.s. n.s./n.s. n.s./n.s. n.s./n.s. n.s./n.s. p<.05: Unterdiskriminanz p>.95: Überdiskriminanz Q-Index: p (X>zq) cal / val 38.55 40.12 22.65 21.90 19.22 8.72 28.07 16.54 3.07 5.14 7.96 14.28 15.61 χ2 p <.001 <.001 .01 .01 .02 .46 <.001 .06 .96 .82 .54 .11 .08 Q1-Index DIF-Items5%: 11 DIF-Items1%: 9 χ2 fett=sig.1% kursiv=sig.5% Score (≤ 6 n= 572 vs. ≥ 7 n=533) DIF-Items5%: 4 DIF-Items1%: 1 DIF-Items5%: 8 DIF-Items1%: 4 χ2 χ2 fett=sig.1% fett=sig.1% kursiv=sig.5% kursiv=sig.5% Geschlecht Alter (männl. n=556 vs. (≤ 35a n=556 weibl. n=549) vs. > 35a n=540) 1.522823471 0.624330312 2.930496371 4.315311054 0.489014196 0.463239294 0.394268834 0.224765873 0.002167598 0.00034725 0.602423489 1.711899592 4.578146019 16.87437471 34.687373 19.68236509 3.263184484 8.683938963 4.041774947 0.259268697 0.066376109 3.951325013 2.231260862 2.682987088 0.003081162 0.004133254 0.764386399 1.021913999 6.249433677 1.973682993 2.028867194 0.001068461 0.006399774 3.072376769 0.015358425 7.306965801 0.67363358 0.783459327 4.305543671 11.99663207 23.53715804 4.810962863 3.52391529 1.349275423 0.939259949 21.93872259 0.057230071 0.493246277 2.171131525 1.16485414 5.961267515 0.053942588 krit. χ25%,df=1=3.84146; krit. χ21%,df=1=6.6349 DIF-Items5%: 2 DIF-Items1%: - fett=sig.1% kursiv=sig.5% Kalib. - Valid. (n=553 vs. n=552) χ2 ∑m z 2 832.53 / p<.0001 1709.63 / p<.0001 741.84 / p<.0001 538.64 / n.s. 494.12 / n.s 965.02 / p<.0001 486.99 / n.s. 440.03 / n.s. 602.27 / p=.06 558.59 / n.s. 493.86 / n.s. 472.34 / n.s. 320.80 / n.s. χ2krit., df=550,α=5%=605.7 (z-Transformation: Bortz 1993, S.79) 2 χ = log L – E ( log L ) z = -------------------------------------VAR ( log L ) Likelihood Anhang -0.021 -0.239 t1 t7 t4 t8 V037 V031 V063 V035 V079 307 t9 V081 t17 t13 V103 V082 0.955 -0.598 V048 V069 1.012 -0.937 V019 t2 -0.278 t11 V093 1.862 -1.009 -0.370 V054 V050 -1.567 V097 t6 1.432 t5 V028 -0.382 -0.145 V034 -0.252 1.192 0.551 0.165 V038 Itemcodes δ cal 0.1402070 0.1142486 0.1417512 0.1120593 0.1710978 0.1173739 0.1117487 0.1163731 0.1111117 0.1162386 0.1546592 0.1189945 0.1176795 0.1469326 0.1306540 0.1178357 0.1206656 0.1234883 S.E. (δ) cal 0.946 -0.595 0.862 -0.729 1.384 -0.509 -0.945 -0.114 -1.264 -0.409 1.249 -0.088 -0.035 0.929 0.561 -0.384 -0.088 0.353 δ val 0.1330810 0.1134247 0.1313611 0.1127618 0.1436422 0.1139338 0.1120209 0.1170959 0.1116813 0.1146029 0.1400916 0.1173566 0.1179009 0.1327262 0.1258823 0.1147853 0.1173566 0.1226949 S.E. (δ) val 0.00900 0.00300 0.15000 0.20800 0.47800 0.23100 0.06400 0.25600 0.30300 0.02700 0.18300 0.05700 0.21700 0.26300 0.01000 0.14500 0.06700 0.18800 ∆δ 8.1E-05 9E-06 0.0225 0.043264 0.228484 0.053361 0.004096 0.065536 0.091809 0.000729 0.033489 0.003249 0.047089 0.069169 0.0001 0.021025 0.004489 0.035344 (∆δ)2 0.0196580028 0.0130527426 0.0200934027 0.0125572867 0.0292744572 0.0137766324 0.0124877720 0.0135426984 0.0123458099 0.0135114121 0.0239194681 0.0141596910 0.0138484647 0.0215891889 0.0170704677 0.0138852522 0.0145601870 0.0152493602 S.E. (δ) cal squared 0.017710553 0.012865163 0.017255739 0.012715224 0.020633082 0.012980911 0.012548682 0.01371145 0.012472713 0.013133825 0.019625656 0.013772572 0.013900622 0.017616244 0.015846353 0.013175665 0.013772572 0.015054038 S.E. (δ) val squared 0.0373685554 0.0259179052 0.0373491413 0.0252725103 0.0499075388 0.0267575432 0.0250364540 0.0272541482 0.0248185226 0.0266452368 0.0435451245 0.0279322626 0.0277490869 0.0392054331 0.0329168212 0.0270609173 0.0283327586 0.0303033987 Summe (S.E. squared) 0.002167598 0.00034725 0.602423489 1.711899592 4.578146019 1.994241386 0.163601443 2.404624776 3.699212935 0.027359487 0.769064283 0.116317108 1.696956736 1.764270779 0.00303796 0.776950751 0.158438508 1.16633782 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% J Modelltest: Vergleich der Parameter aus Kalibrierungs- und Validierungssample (österreichischer Datensatz) Anhang -2.186 t3 t10 V046 V077 0.651 2.068 V021 V062 0.194 -2.043 V001 V010 -0.585 V095 1.550 -1.020 V027 Itemcodes δ cal 0.1178357 0.1206656 0.1234883 0.1131885 0.1143508 0.1588229 0.1143017 0.1117021 S.E. (δ) cal 0.397 1.935 0.353 -1.711 -0.472 1.404 -2.084 -0.945 δ val 0.1147853 0.1173566 0.1226949 0.1128313 0.1141736 0.1441887 0.1154262 0.1120209 S.E. (δ) val 0.20300 0.13300 0.29800 0.33200 0.11300 0.14600 0.10200 0.07500 ∆δ 0.041209 0.017689 0.088804 0.110224 0.012769 0.021316 0.010404 0.005625 (∆δ)2 0.0138852522 0.0145601870 0.0152493602 0.0128116365 0.0130761055 0.0252247136 0.0130648786 0.0124773591 S.E. (δ) cal squared 0.013175665 0.013772572 0.015054038 0.012730902 0.013035611 0.020790381 0.013323208 0.012548682 S.E. (δ) val squared 0.0270609173 0.0283327586 0.0303033987 0.0255425388 0.0261117164 0.0460150948 0.0263880863 0.0250260412 Summe (S.E. squared) 1.522823471 0.624330312 2.930496371 4.315311054 0.489014196 0.463239294 0.394268834 0.224765873 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% Anhang 308 0.694 0.088 t1 t7 t4 t8 V037 V031 V063 V035 V079 309 t9 V081 t17 t13 V103 V082 0.598 -0.764 V048 -0.855 V019 t2 -0.528 t11 V093 1.572 -0.912 -0.333 V054 V050 -1.384 V097 t6 2.172 t5 V028 -0.245 0.428 V034 -0.176 1.464 1.572 0.856 δ low V038 Itemcodes 0.1282798 0.2161991 0.1248597 0.3384112 0.1383768 0.1228121 0.1482092 0.1095724 0.1530307 0.4515044 0.2007844 0.1570787 0.3215106 0.3384112 0.1742351 0.2255644 0.2425222 S.E. (δ) low -0.521 0.992 -0.846 1.595 -0.350 -1.057 -0.220 -1.497 -0.482 1.256 -0.294 -0.146 0.992 0.403 -0.482 -0.266 0.122 δ high 0.1000435 0.1054388 0.1034352 0.1160353 0.0990114 0.1067388 0.0985368 0.1168499 0.0997701 0.1094737 0.0987748 0.0983837 0.1054388 0.0996759 0.0997701 0.0986754 0.0984976 S.E. (δ) high 0.24300 0.39400 0.00900 0.02300 0.17800 0.14500 0.11300 0.11300 0.23700 0.91600 0.72200 0.03000 0.47200 1.16900 0.57000 0.96000 0.73400 ∆δ 0.059049 0.155236 8.1E-05 0.000529 0.031684 0.021025 0.012769 0.012769 0.056169 0.839056 0.521284 0.0009 0.222784 1.366561 0.3249 0.9216 0.538756 (∆δ)2 0.0164557071 0.0467420508 0.0155899447 0.1145221403 0.0191481388 0.0150828119 0.0219659670 0.0120061108 0.0234183951 0.2038562232 0.0403143753 0.0246737180 0.1033690659 0.1145221403 0.0303578701 0.0508792985 0.0588170175 S.E. (δ) low squared 0.010008702 0.011117341 0.010698841 0.013464191 0.009803257 0.011393171 0.009709501 0.013653899 0.009954073 0.011984491 0.009756461 0.009679352 0.011117341 0.009935285 0.009954073 0.009736835 0.009701777 S.E. (δ) high squared 0.0264644090 0.0578593914 0.0262887853 0.1279863311 0.0289513961 0.0264759833 0.0316754679 0.0256600100 0.0333724680 0.2158407142 0.0500708364 0.0343530704 0.1144864065 0.1244574253 0.0403119429 0.0606161331 0.0685187947 Summe (S.E. squared) K Modelltest: Vergleich der Parameter aus Teilstichproben nach Rohscore (österreichischer Datensatz) 2.231260862 2.682987088 0.003081162 0.004133254 1.094385911 0.794115925 0.403119538 0.497622566 1.683093981 3.887385209 10.41093054 0.026198532 1.945942814 10.9801484 8.059646259 15.20387317 7.862893712 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% Anhang -1.022 -2.185 t3 t10 V027 V046 V077 -0.268 V010 -0.152 V021 0.694 -2.007 V001 V062 -0.840 V095 0.979 0.553 V069 Itemcodes δ low 310 0.1517677 0.2255644 0.1585222 0.1004037 0.1253992 0.2564547 0.0992649 0.1191865 0.2119744 S.E. (δ) low 0.479 2.237 0.684 -1.719 -0.369 1.544 -2.098 -0.981 1.024 δ high 0.1001748 0.1332593 0.1018796 0.1238435 0.0991018 0.1149451 0.1390688 0.1054512 0.1058787 S.E. (δ) high 0.74700 1.54300 0.83600 0.28800 0.47100 0.56500 0.08700 0.04100 0.47100 ∆δ 0.558009 2.380849 0.698896 0.082944 0.221841 0.319225 0.007569 0.001681 0.221841 (∆δ)2 0.0230334348 0.0508792985 0.0251292879 0.0100809030 0.0157249594 0.0657690132 0.0098535204 0.0142054218 0.0449331463 S.E. (δ) low squared 0.010034991 0.017758041 0.010379453 0.015337212 0.009821167 0.013212376 0.019340131 0.011119956 0.011210299 S.E. (δ) high squared 0.0330684253 0.0686373396 0.0355087408 0.0254181155 0.0255461261 0.0789813892 0.0291936515 0.0253253774 0.0561434454 Summe (S.E. squared) 16.87437471 34.687373 19.68236509 3.263184484 8.683938963 4.041774947 0.259268697 0.066376109 3.951325013 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% Anhang -0.089 -0.443 t1 t7 t4 t8 V037 V031 V063 V035 V079 311 t9 V081 t17 t13 V103 V082 1.010 -0.806 V048 -0.901 V019 t2 -0.294 t11 V093 1.816 -0.925 -0.243 V054 V050 -1.325 V097 t6 1.373 t5 V028 -0.590 -0.037 V034 -0.192 1.132 0.623 0.316 δ female V038 Itemcodes 0.1119600 0.1334416 0.1117067 0.1558239 0.1147351 0.1116564 0.1151385 0.1115882 0.1128409 0.1422649 0.1170338 0.1155691 0.1361984 0.1259619 0.1136794 0.1165156 0.1212412 S.E. (δ) female -0.368 0.852 -0.760 1.362 -0.497 -1.025 -0.235 -1.503 -0.181 1.295 -0.194 -0.084 0.966 0.487 -0.167 -0.014 0.205 δ male 0.117132 0.1387518 0.1135673 0.1535941 0.1157864 0.1120181 0.1186892 0.1110086 0.1193766 0.1513997 0.1192011 0.1206761 0.1417043 0.1304513 0.1195546 0.1216847 0.1251667 S.E. (δ) male 0.43800 0.15800 0.14100 0.45400 0.20300 0.10000 0.00800 0.17800 0.40900 0.07800 0.15700 0.10800 0.16600 0.13600 0.27600 0.07500 0.11100 ∆δ 0.191844 0.024964 0.019881 0.206116 0.041209 0.01 6.4E-05 0.031684 0.167281 0.006084 0.024649 0.011664 0.027556 0.018496 0.076176 0.005625 0.012321 (∆δ)2 0.0125350416 0.0178066606 0.0124783868 0.0242810878 0.0131641432 0.0124671517 0.0132568742 0.0124519264 0.0127330687 0.0202393018 0.0136969103 0.0133562169 0.0185500042 0.0158664003 0.0129230060 0.0135758850 0.0146994286 S.E. (δ) female squared 0.013719905 0.019252062 0.012897532 0.023591148 0.01340649 0.012548055 0.014087126 0.012322909 0.014250773 0.022921869 0.014208902 0.014562721 0.020080109 0.017017542 0.014293302 0.014807166 0.015666703 S.E. (δ) male squared 0.0262549470 0.0370587226 0.0253759185 0.0478722354 0.0265706336 0.0250152064 0.0273440004 0.0247748357 0.0269838413 0.0431611709 0.0279058126 0.0279189380 0.0386301128 0.0328839419 0.0272163084 0.0283830513 0.0303661314 Summe (S.E. squared) L Modelltest: Vergleich der Parameter aus Teilstichproben nach Geschlecht (österreichischer Datensatz) 7.306965801 0.67363358 0.783459327 4.305543671 1.550922745 0.399756846 0.00234055 1.278878312 6.199302682 0.140960031 0.883292681 0.417780934 0.713329525 0.562462981 2.798910086 0.198181652 0.405748097 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% Anhang -0.842 -2.140 t3 t10 V027 V046 V077 0.373 V010 0.288 V021 2.113 -1.992 V001 V062 -0.638 V095 1.472 0.942 V069 Itemcodes δ female 312 0.1220365 0.1668796 0.1208600 0.1149859 0.1126070 0.1450011 0.1163999 0.1118553 0.1319990 S.E. (δ) female 0.220 1.870 0.743 -1.767 -0.407 1.479 -2.127 -1.119 0.966 δ male 0.1254259 0.1730143 0.1360877 0.1114821 0.1167071 0.1575913 0.1133942 0.1116343 0.1417043 S.E. (δ) male 0.15300 0.24300 0.45500 0.22500 0.23100 0.00700 0.01300 0.27700 0.02400 ∆δ 0.023409 0.059049 0.207025 0.050625 0.053361 4.9E-05 0.000169 0.076729 0.000576 (∆δ)2 0.0148929073 0.0278488009 0.0146071396 0.0132217572 0.0126803364 0.0210253190 0.0135489367 0.0125116081 0.0174237360 S.E. (δ) female squared 0.015731656 0.029933948 0.018519862 0.012428259 0.013620547 0.024835018 0.012858245 0.012462217 0.020080109 S.E. (δ) male squared 0.0306245637 0.0577827489 0.0331270017 0.0256500158 0.0263008836 0.0458603368 0.0264071813 0.0249738251 0.0375038446 Summe (S.E. squared) 0.764386399 1.021913999 6.249433677 1.973682993 2.028867194 0.001068461 0.006399774 3.072376769 0.015358425 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% Anhang 0.239 -0.301 t1 t7 t4 t8 V037 V031 V063 V035 V079 313 t9 V081 t17 t13 V103 V082 1.073 -0.722 V048 -0.636 V019 t2 -0.472 t11 V093 1.638 -1.166 -0.136 V054 V050 -1.378 V097 t6 1.545 t5 V028 -0.219 -0.006 V034 -0.150 1.144 0.637 0.207 δ young V038 Itemcodes 0.1131307 0.1547324 0.1140807 0.1810617 0.1161354 0.1095498 0.1213879 0.1086137 0.1199451 0.1761223 0.1238126 0.1211384 0.1575718 0.1396547 0.1186252 0.1290658 0.1283321 S.E. (δ) young -0.485 0.858 -1.030 1.585 -0.310 -0.783 -0.322 -1.441 -0.548 1.220 -0.196 -0.080 0.996 0.496 -0.310 -0.284 0.316 δ old 0.1143341 0.125463 0.1141331 0.1388904 0.1149277 0.1139111 0.1148766 0.115724 0.1141845 0.1313576 0.1154486 0.1160831 0.1275377 0.1209069 0.1149277 0.1150338 0.1191017 S.E. (δ) old 0.23700 0.21500 0.39400 0.05300 0.16200 0.38300 0.18600 0.06300 0.32900 0.32500 0.19000 0.07000 0.14800 0.14100 0.00900 0.52300 0.10900 ∆δ 0.056169 0.046225 0.155236 0.002809 0.026244 0.146689 0.034596 0.003969 0.108241 0.105625 0.0361 0.0049 0.021904 0.019881 8.1E-05 0.273529 0.011881 (∆δ)2 0.0127985553 0.0239421156 0.0130144061 0.0327833392 0.0134874311 0.0120011587 0.0147350223 0.0117969358 0.0143868270 0.0310190646 0.0153295599 0.0146745120 0.0248288722 0.0195034352 0.0140719381 0.0166579807 0.0164691279 S.E. (δ) young squared 0.013072286 0.015740964 0.013026365 0.019290543 0.013208376 0.012975739 0.013196633 0.013392044 0.0130381 0.017254819 0.013328379 0.013475286 0.016265865 0.014618478 0.013208376 0.013232775 0.014185215 S.E. (δ) old squared 0.0258708417 0.0396830800 0.0260407706 0.0520738824 0.0266958074 0.0249768974 0.0279316555 0.0251889800 0.0274249271 0.0482738836 0.0286579392 0.0281497981 0.0410947371 0.0341219137 0.0272803143 0.0298907559 0.0306543428 Summe (S.E. squared) chi square fett=sig.1% 2.171131525 1.16485414 5.961267515 0.053942588 0.983075718 5.872987255 1.238594684 0.157568905 3.946810862 2.188036098 1.259685834 0.174068744 0.533012292 0.582646102 0.002969174 9.150956275 0.387579667 = 6.6349 krit.χ21%,df=1 M Modelltest: Vergleich der Parameter aus Teilstichproben nach Altersgruppen (österreichischer Datensatz) Anhang -1.006 -1.792 t3 t10 V027 V046 V077 -0.021 V010 0.288 V021 1.347 -1.749 V001 V062 -0.611 V095 1.374 0.875 V069 Itemcodes δ young 314 0.1235264 0.1664014 0.1302135 0.1082005 0.1143714 0.1676590 0.1082567 0.1105857 0.1473870 S.E. (δ) young 0.580 2.488 0.681 -2.054 -0.423 1.585 -2.582 -0.968 1.012 δ old 0.1218596 0.1661996 0.1230772 0.1212058 0.1145163 0.1388904 0.1293364 0.1140276 0.1277852 S.E. (δ) old 0.60100 1.14100 0.39300 0.30500 0.18800 0.21100 0.79000 0.03800 0.13700 ∆δ 0.361201 1.301881 0.154449 0.093025 0.035344 0.044521 0.6241 0.001444 0.018769 (∆δ)2 0.0152587715 0.0276894259 0.0169555556 0.0117073482 0.0130808171 0.0281095403 0.0117195131 0.0122291970 0.0217229278 S.E. (δ) young squared 0.014849762 0.027622307 0.015147997 0.014690846 0.013113983 0.019290543 0.016727904 0.013002294 0.016329057 S.E. (δ) old squared 0.0301085336 0.0553117330 0.0321035527 0.0263981942 0.0261948001 0.0474000835 0.0284474175 0.0252314906 0.0380519851 Summe (S.E. squared) 11.99663207 23.53715804 4.810962863 3.52391529 1.349275423 0.939259949 21.93872259 0.057230071 0.493246277 = 6.6349 krit.χ21%,df=1 chi square fett=sig.1% Anhang t5 t9 t6 t11 t17 t13 V081 V054 V093 v103 v082 t8 V079 V028 t4 V035 Itemcodes 0.129 -0.134 -0.070 -0.162 0.218 0.021 + + + + + -1.776 1.773 δ + + - Item modellkonform 315 0.61273 0.10835 0.83393 0.63102 0.89316 0.59649 0.33916 0.06052 Q-Index: p (X>zq) 15.15 12.14 17.94 13.26 25.08 6.33 16.40 40.96 χ2 Q1-Index .06 .14 .02 .10 <.01 .61 .04 <.001 p ∑m z 2 496.52 / n.s. 637.19 / p=.25 431.02 / n.s. 497.96 / n.s. 378.89 / n.s. 500.75 / n.s. 462.98 / n.s. 808.39 / p<.0001 χ2krit., df=665,α=5%=725.1 (z-Transformation: Bortz, 1993, S.79) χ = 2 log L – E ( log L ) z = -------------------------------------VAR ( log L ) Likelihood N Modellgesamtprüfung: dichotomes Rasch-Modell für 8 Items (südkoreanischer Datensatz) Anhang t8 t5 t9 t6 t11 t17 t13 V079 V028 V081 V054 V093 v103 v082 Itemcodes 316 -1.033 1.594 -0.575 -0.411 -0.575 1.304 -0.305 δ Österr. 0.0884642 0.1247829 0.0900968 0.0911734 0.0900968 0.1168630 0.0919890 S.E. (δ) Österr. 0.279 0.482 0.091 0.186 0.120 0.390 -1.548 δ Südkorea 0.1048771 0.1045643 0.1057042 0.1052242 0.1055460 0.1046306 0.1371086 S.E. (δ) Südkorea -1.31200 1.11200 -0.66600 -0.59700 -0.69500 0.91400 1.24300 ∆δ 1.721344 1.236544 0.443556 0.356409 0.483025 0.835396 1.545049 (∆δ)2 0.0078259147 0.0155707721 0.0081174334 0.0083125889 0.0081174334 0.0136569608 0.0084619761 S.E. (δ) Österr. squared O Test auf Differential Item Functioning : Vergleich Österreich - Südkorea 0.010999206 0.010933693 0.011173378 0.011072132 0.011139958 0.010947562 0.018798768 S.E. (δ) Südkorea squared 0.0188251208 0.0265044650 0.0192908113 0.0193847211 0.0192573915 0.0246045232 0.0272607443 Summe (S.E. squared) 91.43866961 46.65417701 22.99312319 18.38607827 25.08257675 33.95294403 56.67669900 = 6.6349 krit.χ21%,df=1 DIF at-korea chi square, df=1 fett=sig.1% Anhang