Play & Predict:  
Entwicklung und Untersuchung eines 

Verhaltensankersystems zur 
Beurteilung überfachlicher 

Fähigkeiten im Kontext eines 
kooperativen Videospiels  

 
BACHELOR THESIS 
 
 
Mai 2025 
 
 
Autor 
Luca Streich 

 
Betreuungsperson 
Dr. Serge Petralito 

 
Praxispartner 
Netzwerk Grenchen, LevelHub 

Cristina Gerber 
 
 
Abstract 
Hintergrund: In einer zunehmend vernetzten und kollaborativen Arbeitswelt gewinnen 
überfachliche Fähigkeiten wie Entscheidungsfindung, Teamarbeit und Führung an Bedeutung. 

Die sozialunternehmerische Initiative LevelHub nutzt kooperative Videospiele zur Beobachtung 

und Förderung solcher Kompetenzen. Zur Erfassung fehlten jedoch bisher standardisierte 

Instrumente. Ziel dieser Studie war die Entwicklung und Evaluation eines verhaltensbasierten 

Bewertungssystems (VAS-KOOP) zur Einschätzung überfachlicher Fähigkeiten im Kontext eines 

kooperativen Spiels. 

Methode: Basierend auf dem Rahmenmodell Non-Technical Skills for Surgeons (NOTSS) 

wurden mittels Critical Incident Technique (CIT) spezifische Verhaltensindikatoren für drei 

Hauptkategorien (Entscheidungsfindung, Kommunikation & Teamarbeit und Führung) definiert. 

In einer Untersuchung mit 30 Proband:innen erfolgte eine strukturierte videogestützte 

Fremdeinschätzung durch zwei unabhängige Bewertende sowie eine ergänzende 

Selbsteinschätzung. Evaluationskriterien waren die interne Konsistenz, Interrater-Reliabilität und 
Konstruktvalidität des Instruments. 

Resultate: Die Analyse der Items zeigt eine gute interne Konsistenz. Die Fremdeinschätzungen 

zweier unabhängiger Bewertenden erwiesen sich als konsistent, während die Zusammenhänge 

mit den Selbsteinschätzungen gering ausfielen. 

Schlussfolgerung: Das VAS-KOOP kann als strukturiertes und reliables Instrument zur 

Beobachtung überfachlicher Kompetenzen im Kontext eines kooperativen Spiels eingesetzt 

werden. Es eignet sich für Anwendungen in der Teamentwicklung, Personalbeurteilung und zur 

Kompetenzentwicklung. 

 
Keywords: Verhaltensankersystem, überfachliche Fähigkeiten, kooperative Videospiele,  

game-based Assessments 

 
Anzahl Zeichen inkl. Leerzeichen (ohne Anhang): 107’890 

  
Inhaltsverzeichnis 
1 Einleitung .................................................................................................................................. 5 

1.1 Ausgangslage ..................................................................................................................... 5 
1.2 Problemstellung .................................................................................................................. 6 
1.3 Zielsetzung und Fragestellung ............................................................................................ 6 
1.4 Aufbau der Arbeit ................................................................................................................ 7 

2 Theoretische Grundlagen ......................................................................................................... 8 
2.1 LevelHub ............................................................................................................................. 8 

2.1.1 Vorgehensweise ....................................................................................................... 8 
2.1.2 Warum Videospiele? ............................................................................................... 10 
2.1.3 Game-based Assessment ....................................................................................... 10 

2.2 Verhaltensankersysteme ................................................................................................... 11 
2.2.1 Definition ................................................................................................................ 11 
2.2.2 Evidenzbasis und Anwendungsbereiche ................................................................. 11 
2.2.3 Non-Technical Skills for Surgeons .......................................................................... 12 

3 Methode ................................................................................................................................... 15 
3.1 Entwicklung des VAS-KOOP ............................................................................................. 15 

3.1.1 Recherche zu passenden Modellen und Fähigkeiten .............................................. 15 
3.1.2 Modifikation eines etablierten Instruments .............................................................. 16 
3.1.3 Verhaltensankersystem VAS-KOOP ....................................................................... 19 

3.2 Datenerhebung ................................................................................................................. 20 
3.2.1 Stichprobe .............................................................................................................. 20 
3.2.2 Ablauf der Datenerhebung ...................................................................................... 21 
3.2.3 Videogestützte Beobachtungsanalyse .................................................................... 23 

3.3 Datenauswertung .............................................................................................................. 25 
4 Ergebnisse .............................................................................................................................. 27 

4.1 Deskriptiv Analyse ............................................................................................................. 27 
4.2 Interne Konsistenz ............................................................................................................ 29 
4.3 Interrater-Reliabilität .......................................................................................................... 30 
4.4 Vergleich Fremd- und Selbsteinschätzung ........................................................................ 31 
4.5 Zusammenfassung der Ergebnisse ................................................................................... 31 

5 Diskussion ............................................................................................................................... 32 
5.1 Zusammenfassung der Arbeit ............................................................................................ 32 
5.2 Interpretation der Ergebnisse ............................................................................................ 33 
5.3 Limitationen der Untersuchung .......................................................................................... 37 

6 Schlussfolgerung .................................................................................................................... 39 
6.1 Implikationen für LevelHub ................................................................................................ 39 
6.2 Implikationen für Teamentwicklung und Personalbeurteilung ............................................. 39 
6.3 Perspektiven für zukünftige Forschung .............................................................................. 40 
6.4 Fazit .................................................................................................................................. 41 

7 Literaturverzeichnis ................................................................................................................ 42 
8 Abbildungsverzeichnis ........................................................................................................... 48 
9 Tabellenverzeichnis ................................................................................................................ 48 
10 Hilfsmittelverzeichnis mit Verwendungszweck ..................................................................... 49 
 

Abkürzungsverzeichnis 

BARS Behaviorally Anchored Rating Scale 

CIT  Critical Incident Technique  

GBA Game-based Assessment 

GBL Game-based Learning 

NOTSS Non-Technical Skills for Surgeons 

OECD Organisation for Economic Co-operation and Development 

VAS-KOOP  Verhaltensankersystems im Kontext eines kooperativen Videospiels 

 
1 Einleitung    |    Ausgangslage 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    5 

Play & Predict 

1 Einleitung 

1.1 Ausgangslage 
Was passiert eigentlich, wenn Menschen gemeinsam ein Videospiel spielen – und woran 

lässt sich erkennen, wie gut sie zusammenarbeiten? Solche Spielsituationen werfen nicht nur 

spannende Fragen zur Teamdynamik auf, sondern berühren auch zentrale Anforderungen an 

das Arbeiten der Zukunft. In einer zunehmend komplexen und dynamischen Arbeitswelt 

gewinnen überfachliche Fähigkeiten wie Kommunikation, Kollaboration, Entscheidungsfindung 

oder Problemlösen stark an Bedeutung. Studien zeigen, dass solche Kompetenzen nicht nur für 
die berufliche Leistungsfähigkeit zentral sind, sondern auch die persönliche Entwicklung und 

gesellschaftliche Teilhabe fördern (Griffin & Care, 2015; Schulz, 2008). Internationale 

Organisationen wie die OECD (2023) und das World Economic Forum (2025) betonen die 

Notwendigkeit, diese Schlüsselkompetenzen gezielt zu fördern und systematisch zu bewerten, 

um Menschen auf die Anforderungen des digitalen und kollaborativen Arbeitens vorzubereiten. 

Traditionelle Bildungsansätze greifen dabei oft zu kurz – es braucht innovative Formate, die 

solche Fähigkeiten praxisnah entwickeln und sichtbar machen. 

LevelHub setzt an der Förderung dieser zukunftsrelevanten Kompetenzen an. Sie nutzen 

Videospiele in Workshops, um Fähigkeiten wie Kooperation, Entscheidungsfindung oder 

Führungsverhalten spielerisch sichtbar zu machen. Spezifische ausgewählte Spiele erfordern 

beobachtbare kooperative Problemlöseprozesse, die im Anschluss gemeinsam reflektiert und 

mit entsprechenden Lerninhalten verknüpft werden. Die spielerische Lernarena fördert schnelle 

Erfolgserlebnisse und stärkt so die Offenheit für anschliessende Selbstreflexionen. Die 
LevelHub-Methodik hat sich bereits im Bereich der Arbeitsintegration als wirkungsvoll erwiesen, 

indem persönliche Stärken und Potenziale bewusst gemacht wurden. Auch Studien belegen 

positive Effekte von Videospielen auf die Entwicklung berufsrelevanter Kompetenzen (Beigi, 

Ayoobzadeh & Shirmohammadi, 2025; Connolly, Boyle, MacArthur, Hainey & Boyle, 2012; 

Granic, Lobel & Engels, 2014).  

Nach diversen Pilotversuchen und gesammelten Erfahrungen sieht LevelHub weiteres 

Potenzial in der Vorgehensweise. Neue Einsatzgebiete sollen erschlossen werden, 

beispielsweise im Bereich der Personalbeurteilung oder Teamentwicklung. Für eine solche 

Ausweitung ist jedoch eine Standardisierung und Skalierung der Methodik erforderlich, um die 

Vergleichbarkeit und Qualität der Beobachtungen langfristig zu sichern. 

Gaming zählt heute zu den beliebtesten Freizeitaktivitäten und wird zunehmend in der 

Kompetenzdiagnostik genutzt. Game-based Assessments (GBA) nutzen Videospiele gezielt zur 

Erfassung von Kompetenzen, Fähigkeiten oder Wissen und gelten als motivierende Alternative 

zu klassischen Verfahren (Gomez, Ruipérez-Valiente & Clemente, 2023). In der Forschung 

konzentrieren sich viele Studien auf die Messung sozialer Kompetenzen mithilfe spielerischer 

Elemente (Bhatia & Ryan, 2018; Chamorro-Premuzic, Winsborough, Sherman & Hogan, 2016; 


1 Einleitung    |    Problemstellung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    6 

Play & Predict 

Landers & Sanchez, 2022). Erste Erkenntnisse bestätigen das Potenzial von GBAs für die 

Erfassung berufsrelevanter Fähigkeiten. 

Dennoch besteht eine Forschungslücke im Hinblick auf die Bewertung überfachlicher 

Fähigkeiten in kooperativen Spielsituationen (Hussein, Ow, Elaish & Jensen, 2022). Es fehlen 

bislang standardisierte Verfahren, um das beobachtbare Verhalten von Menschen, die 

gemeinsam vor einem Bildschirm ein kooperatives Spiel spielen, systematisch, objektiv und 

reliabel zu erfassen. 

An dieser Stelle setzt die Herausforderung von LevelHub an. Um die Methodik 

weiterzuentwickeln und in neue Kontexte wie Teamentwicklung oder Personalbeurteilung zu 

übertragen, bedarf es validierter Bewertungsinstrumente.  

1.2 Problemstellung 
Aktuell mangelt es der Vorgehensweise von LevelHub an objektiven 

Bewertungsverfahren. Die Einschätzungen beruhen überwiegend auf subjektiven 

Beobachtungen, was die Vergleichbarkeit einschränkt und die Aussagekraft reduziert. 

Vor dem Hintergrund einer geplanten Standardisierung und Skalierung der Methode ist es 
zentral, objektive Verhaltensankersysteme bereitzustellen – insbesondere bei der 

unkonventionellen Nutzung von Videospielen im Diagnostik- und Trainingskontext. Nur so 

lassen sich beobachtete Fähigkeiten zuverlässig und glaubwürdig erfassen. 

Verhaltensankersysteme bieten hierfür eine geeignete Grundlage, da sie konkrete 

Beobachtungskriterien bereitstellen, subjektive Verzerrungen minimieren und die 

Vergleichbarkeit ermöglichen. Trotz zunehmender Anwendung von GBAs fehlen bislang 
etablierte Instrumente zur systematischen Erfassung von Verhalten im Kontext kooperativer 

Videospiele. 

1.3 Zielsetzung und Fragestellung 
Ziel dieser Arbeit ist die Entwicklung und Überprüfung eines beobachtungsbasierten 

Verhaltensankersystems (VAS-KOOP) zur Erfassung überfachlicher Fähigkeiten im Kontext 

eines kooperativen Videospiels. Das Instrument soll es ermöglichen, kooperative 

Verhaltensweisen systematisch zu beobachten und vergleichbar zu machen, um subjektive 

Verzerrungen zu reduzieren und die Aussagekraft zu erhöhen. Damit leistet die Arbeit einen 

Beitrag zur Weiterentwicklung der LevelHub-Methodik und unterstützt die angestrebte 

Standardisierung.  

Als theoretische Grundlage dient das System Non-Technical Skills for Surgeons (NOTSS), 

das im chirurgischen Setting zur Bewertung nicht-technischer Fähigkeiten eingesetzt wird (Yule, 

Flin, Paterson-Brown, Maran & Rowley, 2006). Mithilfe der Critical Incident Technique (CIT) 

nach Flanagan (1954) sollen die Verhaltensindikatoren das bestehende Instrument auf den 

Kontext eines kooperativen Videospiels angepasst werden.  


1 Einleitung    |    Aufbau der Arbeit 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    7 

Play & Predict 

Die empirische Überprüfung umfasst die Analyse der internen Konsistenz sowie der 

Interrater-Reliabilität zweier unabhängiger Bewertender. Ergänzend wird die Konstruktvalidität 

durch den Vergleich von Fremd- und Selbsteinschätzungen geprüft.  

Aus der beschriebenen Zielsetzung ergibt sich folgende Forschungsfrage sowie zwei 

untergeordnete Fragestellungen: 

- Lässt sich ein bestehendes Verhaltensankersystem zur Bewertung nicht-technischer 
Fähigkeiten in adaptierter Form für die Anwendung des VAS-KOOP im Kontext eines 

kooperativen Videospiels übertragen? 

1) Wie hoch ist die Interrater-Reliabilität der Fremdeinschätzungen bei der Anwendung 

des VAS-KOOP im Kontext eines kooperativen Videospiels? 

2) In welchem Zusammenhang stehen Fremd- und Selbsteinschätzungen bei der 

Anwendung des VAS-KOOP im Kontext eines kooperativen Videospiels? 

Ausgehend von der Zielsetzung und den Fragestellungen wird im nächsten Kapitel der 

Aufbau der Arbeit skizziert, um die Struktur und den roten Faden der Untersuchung aufzuzeigen. 

1.4 Aufbau der Arbeit 
Das Kapitel 2 vermittelt den theoretischen Hintergrund und umfasst eine Einführung in die 

LevelHub-Methodik (2.1) und in Verhaltensankersysteme (2.2). Die Forschungsmethode im 
Kapitel 3 beginnt mit der Entwicklung des VAS-KOOP (3.1), beschreibt die Durchführung der 

Datenerhebung (3.2) sowie das methodische Vorgehen bei der Datenauswertung (3.3). Kapitel 4 

legt die Ergebnisse dar, darunter deskriptive Daten (4.1), die Prüfung der internen Konsistenz 

(4.2), die Analyse der Interrater-Reliabilität (4.3) sowie den Vergleich der Fremd- mit den 

Selbsteinschätzungen (4.4). Im Kapitel 5 folgt die Diskussion mit einer Zusammenfassung (5.1) 

und Interpretation der Ergebnisse (5.2), wobei die Limitationen der Untersuchung (5.3) diskutiert 

werden. Kapitel 6 zeigt die Schlussfolgerungen auf, beinhaltet Implikationen für LevelHub (6.1) 
sowie für praktische Anwendungen (6.2), Perspektiven für zukünftige Forschungen (6.3) und 

schliesst mit einem Fazit (6.4) ab. 

  
2 Theoretische Grundlagen    |    LevelHub 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    8 

Play & Predict 

2 Theoretische Grundlagen 
Im Zentrum dieser Arbeit steht die Frage, wie sich überfachliche Kompetenzen in 

kooperativen Videospielsituationen strukturiert erfassen lassen – insbesondere mithilfe eines 

standardisierten Verhaltensankersystems. Um dieses Vorhaben theoretisch zu verorten, führt 

das Kapitel in zentrale Konzepte ein: Kapitel 2.1 stellt die Initiative LevelHub und deren 

methodischen Ansatz vor. Kapitel 2.2 beleuchtet die Grundlagen von Verhaltensankersystemen 

als Instrument zur strukturierten Erfassung überfachlicher Kompetenzen und stellt NOTSS 

ausführlich vor. Gemeinsam bilden diese theoretischen Grundlagen das Fundament für die 
Entwicklung und Anwendung des VAS-KOOP. 

2.1 LevelHub 
LevelHub ist eine sozialunternehmerische Initiative des Netzwerk Grenchen, die sich 

darauf spezialisiert hat, überfachliche Kompetenzen mithilfe von Videospielen sichtbar und 

entwickelbar zu machen. Nach erfolgreichen Pilotprojekten im Bereich der Arbeitsintegration 

wird die Methodik derzeit für weitere Anwendungsfelder wie Personalbeurteilung und 

Teamentwicklung ausgebaut. Ziel ist es, durch eine Standardisierung die Qualität und 

Vergleichbarkeit der Beobachtungen zu sichern und so neue Einsatzfelder zu erschliessen. 

Kapitel 2.1.1 erläutert den praktischen Ablauf der typischen Vorgehensweise, 2.1.2 erklärt, 

warum Videospiele für authentische Verhaltensbeobachtungen besonders geeignet sind, und 

2.1.3 verortet die Methode theoretisch im Rahmen von GBA. 

2.1.1 Vorgehensweise 
Die LevelHub-Methodik nutzt konventionelle Videospiele, um Verhaltensmuster auf 

unkonventionelle Weise sichtbar zu machen. Die Abbildung 1 zeigt in modellhaft, wie sich ein 

beispielhafter Tag gestaltet. 

 
Abbildung 1.  Ablauf eines typischen LevelHub-Tages: Vom definierten Ziel über die Auswahl passender 

Spiele, Spielphasen und Reflexionen bis hin zum individuellen Take-away (LevelHub). 

 
Teilnehmende spielen ein kooperatives Videospiel, das je nach Ziel unterschiedliche 

Fähigkeiten erfordert. Beispielsweise kann ein Spiel in einer Gruppe kollaborative 
Problemlöseprozesse, Entscheidungsfindung sowie Führungsverhalten sichtbar machen. Eine 

erste Game-Session dient dem Kennenlernen der Steuerung und der Mitspielenden. 

Mitarbeitende von LevelHub nehmen dabei eine beobachtende Rolle ein und notieren 

Auffälligkeiten (siehe Abbildung 2). 


2 Theoretische Grundlagen    |    LevelHub 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    9 

Play & Predict 

  
Abbildung 2.  Links: Modellhafte Darstellung einer klassischen Game-Session, wobei mehrere Teams 
gleichzeitig spielen und Beobachtungen gemacht werden. Rechts: eine symbolische Dastellung eines 

erfolgreichen kooperativen Prozesses (LevelHub). 

 
Anschauliche Situationen werden danach im Plenum aufgenommen und bilden in 

Peergroup-Diskussionen oder Instant-Feedback die gemeinsame Grundlage für den 

Reflexionsloop. Es werden beobachtete Verhaltensmuster angesprochen und Strategien 
erarbeitet, wie damit umgegangen werden könnte. In der zweiten Game-Session sollen 

persönliche oder teambasierte Strategien direkt ausprobiert und geprüft werden. In vielen Fällen 

können durch die spielerisch ungezwungene Situation Erfolgserlebnisse erlebt werden, was für 

weitere Selbstreflexionsprozess förderlich sein kann. Kernelement der Methodik ist der 

anschliessende Transfer in den Berufsalltag, um die persönlichen Erkenntnisse nachhaltig zu 

festigen.  

 
Abbildung 3.  Vierstufiges Wirkmodell der Vorgehensweise – von der Beobachtung über Reflexion und 

Anwendung bis zum Transfer in den Alltag (LevelHub). 

Die Beobachtung stellt dabei den Ausgangspunkt eines mehrstufigen Lernprozesses 

(Abbildung 3) dar, in dem beispielsweise kooperative Verhaltensweisen zunächst sichtbar 

gemacht und anschliessend durch Reflexion, Anwendung und Transfer weiterentwickelt werden. 

Während in der vorliegenden Untersuchung der Fokus auf der Beobachtungsebene liegt, wird im 

Kapitel 2.1.3 detaillierter auf GBAs eingegangen.  

Beobachtung (game-based Assessment)

Reflexion

Anwendung

Transfer (game-based Learning)


2 Theoretische Grundlagen    |    LevelHub 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    10 

Play & Predict 

2.1.2 Warum Videospiele?  
Obwohl Gaming häufig mit negativen Stereotypen assoziiert wird, zeigen Studien 

zunehmend positive Effekte, insbesondere im Hinblick auf überfachliche Fähigkeiten (Bailey, 

Pearson, Gkatzidou & Green, 2006; Beigi et al., 2025; Connolly et al., 2012; Granic et al., 2014; 

Trespalacios, Chamberlin & Gallagher, 2011). Professionell entwickelte Videospiele bieten durch 
ihre anspruchsvoll gestalteten virtuellen Welten und interaktive Steuerung die Möglichkeit tiefer 

Immersion. In diesem Zustand tritt das Bewusstsein in den Hintergrund, während die Spielenden 

ganz im Geschehen aufgehen (Sweetser & Wyeth, 2005). 

Durch die kognitive Beanspruchung und den entstehenden Flow-Zustand 

(Csikszentmihalyi, 1990) stehen nur begrenzt mentale Ressourcen zur Verfügung, um die 
eigene Wirkung auf andere gezielt zu steuern (Goffman, 1959). Soziale Erwünschtheit tritt 

zurück, was nach Einschätzung durch LevelHub authentische Verhaltensbeobachtungen 

ermöglicht, die für spätere Reflexionen besonders aufschlussreich sein können. Zudem steigern 

interaktive Lernumgebungen nachweislich das Engagement (Moreno & Mayer, 2007) und damit 

die Bereitschaft zur Selbstreflexion – ein zentrales Element der LevelHub-Methodik.  

Videospiele rücken zunehmend als diagnostisches Instrument in den Fokus. Im folgenden 

Kapitel wird der Einsatz von GBA näher betrachtet wird. 

2.1.3 Game-based Assessment 
GBA bezeichnet die systematische Erfassung von Kompetenzen, Fähigkeiten oder 

Persönlichkeitsmerkmalen anhand von beobachtbarem Verhalten in interaktiven 

Spielsituationen. Im Unterschied zu klassischen Tests oder Fragebögen erfolgt die 

Datenerhebung nicht durch Selbstberichte, sondern durch die Analyse von Handlungen 

innerhalb eines Spiels (Landers, 2015). Wichtig ist die Abgrenzung von verwandten Konzepten: 
Während game-based Learning (GBL) den Fokus auf das Entwickeln von Kompetenzen durch 

Spiele legt, also didaktische Inhalte vermittelt, zielt GBA auf die diagnostische Auswertung von 

Verhalten. Auch Gamification unterscheidet sich von GBA, da sie lediglich einzelne 

Spielelemente in spielfremde Kontexte einbettet, ohne ein vollständiges Spiel zu nutzen 

(Landers & Sanchez, 2022). 

In der Praxis wird GBA insbesondere im Personalbereich eingesetzt (Ellison, Johnson, 

Tomczak, Siemsen & Gonzalez, 2020; Ohlms, Melchers & Kanning, 2024). Auch in schulischen 

und universitären Kontexten finden sich Anwendungen, beispielsweise zur Bewertung von Soft 

Skills (Gomez et al., 2023). 

GBA gilt als besonders motivierend, da das Spielen in der Regel als weniger bedrohlich 
empfunden wird als klassische Testsituationen. Studien zeigen, dass sich dies positiv auf die 

Akzeptanz der Verfahren auswirkt (Landers, 2015). Darüber hinaus erlaubt die Spielsituation 

eine reichhaltige Datenerfassung. Neben den Endresultaten können Interaktionshäufigkeiten 

oder Kommunikationsverhalten ausgewertet werden (Bhatia & Ryan, 2018). 

Allerdings ist die Umsetzung komplex. Eine valide und faire Konstruktion erfordert 
sorgfältige Testentwicklung, fundierte psychometrische Analysen und den Nachweis 


2 Theoretische Grundlagen    |    Verhaltensankersysteme 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    11 

Play & Predict 

kontextbezogener Validität (Ellison et al., 2020). Zudem ist die Entwicklung eigener Spiele mit 

hohen technischen und finanziellen Anforderungen verbunden, sodass die Nutzung 

konventioneller Spiele einen Vorteil sein kann (Landers, 2015). 

Für die vorliegende Arbeit ist GBA zentral, weil kooperative Videospiele als 

Beobachtungsszenario genutzt werden, um überfachliche Fähigkeiten wie Teamarbeit oder 

Entscheidungsfindung zu erfassen. Dabei wird das beobachtbare Verhalten durch ein 

Verhaltensankersystem strukturiert ausgewertet.  

2.2 Verhaltensankersysteme 
Die Bewertung individueller Fähigkeiten innerhalb der LevelHub-Methodik – insbesondere 

in simulationsbasierten Gruppenprozessen – erfordert strukturierte und objektive Verfahren. 

Gerade soziale und kognitive Kompetenzen wie Teamfähigkeit, Kommunikationsstärke oder 

Problemlösungsvermögen lassen sich nicht direkt messen. 

Verhaltensankersysteme haben sich hier als wirksames Instrument etabliert. Sie ermöglichen 

es, latente Merkmale über beobachtbares Verhalten systematisch zu erschliessen (Dietz et al., 2014; 

Manser, Schmutz & Perry, 2018). Dabei wird das Verhalten nicht willkürlich, sondern unter 

kontrollierten Bedingungen beobachtet, um fundierte Aussagen über relevante Fähigkeiten treffen zu 

können (Höft & Kersting, 2018). 

2.2.1 Definition 
Ein Verhaltensankersystem ist ein strukturiertes Beobachtungsinstrument, das 

spezifische, beobachtbare Verhaltensindikatoren nutzt, um soziale und kognitive Kompetenzen 

objektiv und nachvollziehbar zu bewerten (Ellison et al., 2020; Ohlms et al., 2024). Diese 

Indikatoren fungieren als Ankerpunkte auf einer Skala, die typischerweise Verhalten mit 

niedriger, mittlerer und hoher Ausprägung beschreibt (Kleinmann, 2016).  

Der Vorteil: Die kognitiven Anforderungen an Beobachtende werden reduziert, und der 

Beobachtungsprozess wird strukturierter (Hennessy, Mabey & Warr, 1998). Besonders in 

Gruppensettings eignen sich diese Systeme gut, um Teamfähigkeit objektiver zu erfassen – 

vorausgesetzt, die Beobachtenden sind geschult (Flin & Martin, 2001; Obermann, 2002). Die 

Objektivität kann zusätzlich erhöht werden, wenn beispielsweise Psycholog:innen in die 

Beobachtung eingebunden werden (Kleinmann, 2016). 

Dank ihrer Spezifität ermöglichen Verhaltensankersysteme ein standardisiertes Vokabular 

für Bewertung und Rückmeldungen. Damit wird auch eine differenzierte Nachbesprechung 

möglich – mit klaren Beschreibungen der Dimensionen (Fletcher et al., 2003; Yule, Flin, 

Paterson-Brown & Maran, 2006). 

2.2.2 Evidenzbasis und Anwendungsbereiche 
Verhaltensankersysteme verfügen insbesondere im Gesundheitsbereich über eine gut 

dokumentierte empirische Fundierung. Laut einer umfassenden Übersichtsarbeit von Dietz et al. 
(2014) weisen 75 % der analysierten Systeme Nachweise zur Reliabilität und 70 % zur Validität 


2 Theoretische Grundlagen    |    Verhaltensankersysteme 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    12 

Play & Predict 

auf. Dabei wird betont, dass sich die Gültigkeit eines Instruments nicht generalisieren lässt, 

sondern kontextbezogen zu bewerten ist – abhängig vom jeweiligen Anwendungsfeld und der 

Zielsetzung. 

In der klinischen Praxis konnten verschiedene Studien die Eignung dieser Systeme zur 

strukturierten Erfassung nicht-technischer Kompetenzen bestätigen. So belegen Untersuchungen 

zur Konstruktvalidität, Anwendbarkeit und Beobachtungsgenauigkeit, dass 

Verhaltensankersysteme auch in komplexen, teamintensiven Situationen verlässliche Ergebnisse 

liefern – sowohl in simulierten als auch in realitätsnahen Settings (Fletcher et al., 2003; Mitchell et 

al., 2012; Yule et al., 2018). 

Neben dem medizinischen Bereich finden Verhaltensankersysteme auch in anderen 

sicherheitskritischen Bereichen Anwendung – etwa in der Luftfahrt (Flin & Martin, 2001) oder der 

Schifffahrt (da Conceição, Mendes, Teodoro & Dahlman, 2019). In jüngerer Zeit nimmt auch der 

Einsatz in kooperativen Videospielen zu, wobei besonders Teamarbeit simuliert werden soll 

(Farah, Dorneich & Gilbert, 2022). Ebenso sind Verhaltensankersysteme fester Bestandteil 

eignungsdiagnostischer Verfahren wie Assessment- und Development-Center, wo sie zur 
Beurteilung überfachlicher Fähigkeiten herangezogen werden (Kleinmann, 2016; Obermann, 

2002). 

Aufgrund ihrer breiten Anwendbarkeit und empirischen Fundierung eignen sich 

Verhaltensankersysteme auch für innovative Einsatzbereiche wie im Kontext kooperativer 

Videospiele. Im folgenden Kapitel wird deshalb das NOTSS-System (Yule et al., 2018) als 
Referenzmodell näher betrachtet, das für die vorliegende Studie adaptiert wurde. 

2.2.3 Non-Technical Skills for Surgeons 
Für die vorliegende Arbeit wurde ein Verhaltensankersystem basierend auf dem 

validierten Beobachtungssystem NOTSS (Yule et al., 2018) entwickelt. Das ursprüngliche 

System wurde in Schottland von einem interdisziplinären Team aus chirurgischem, 

psychologischem und anästhetischem Fachpersonal entwickelt, um die beobachtbaren 

Verhaltensaspekte im Operationssaal systematisch zu erfassen. Es wurde anfänglich als 

strukturiertes Feedbackinstrument für chirurgische Trainingssituationen genutzt und ermöglicht 
eine gezielte Rückmeldung zu beobachtbarem Verhalten in realen oder simulierten Situationen 

(Yule, Flin, Paterson-Brown & Maran, 2006).  

Nach der Prüfung ähnlicher Systeme wie Observational Teamwork Assessment for Surgery 

(Undre, Sevdalis, Healey, Darzi & Vincent, 2007) oder Scrub Practitioners' List of Intraoperative 

Non-Technical Skills System (Mitchell et al., 2012) wurde NOTSS (Yule, Flin, Paterson-Brown, 
Maran, et al., 2006) aufgrund seiner Übersichtlichkeit, seiner passenden Dimensionen zur 

Spielsituation sowie der klar definierten und beobachtbaren Verhaltensmarker ausgewählt. 

Während viele der geprüften Systeme auf Effektivität von Teams eingestellt sind oder zu viele 

Dimensionen gleichzeitig messen, bietet NOTSS eine generischere und dennoch valide 

Grundlage (Yule et al., 2018) für die Übertragung auf die simulierte kooperative Spielsituationen. 

Die Auswahl des Systems wurde getroffen, weil sie die kooperativen Anforderungen in 


2 Theoretische Grundlagen    |    Verhaltensankersysteme 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    13 

Play & Predict 

Spielsettings gut abbilden und gleichzeitig zentrale Aspekte überfachlicher Fähigkeiten 

beinhalten. 

Die Taxonomie (Abbildung 4) gliedert nicht-technische Fähigkeiten in vier Hauptkategorien: 

Situationsbewusstsein, Entscheidungsfindung, Kommunikation & Teamarbeit sowie Führung. Jede 

Kategorie umfasst spezifische Dimensionen. Situationsbewusstsein beinhaltet das Sammeln und 

Verstehen von Informationen sowie die antizipierende Einschätzung zukünftiger Entwicklungen. Die 

Entscheidungsfindung umfasst das Abwägen von Handlungsoptionen, die Auswahl und 

Kommunikation einer Option sowie deren Umsetzung und Reflexion. Kommunikation & Teamarbeit 

beziehen sich auf den Informationsaustausch, das Schaffen eines gemeinsamen Verständnisses 

sowie die Koordination von Teamaktivitäten. Die Kategorie Führung beinhaltet das Setzen und 
Einhalten von Standards, die Unterstützung anderer sowie den konstruktiven Umgang mit 

Drucksituationen. 

 
Abbildung 4.  Originale Skill-Taxonomie des NOTSS (Yule, Flin, Paterson-Brown, Maran & Rowley, 2006). 

Für die Bewertung der nicht-technischen Fähigkeiten kam eine vierstufige Skala zum Einsatz: 
schwach (1), grenzwertig (2), akzeptabel (3), gut (4). Sie diente der strukturierten Einschätzung 

beobachtbarer Verhaltensweisen auf Dimensions- und Kategorieebene. Die Skala ermöglicht eine 

differenzierte und vergleichbare Bewertung von nicht-technischen Fähigkeiten (Yule, Flin, 

Paterson-Brown & Maran, 2006). 

Die Anwendung des NOTSS wurde ursprünglich im OP-Kontext zur Fremdbeobachtung 
genutzt, eignet sich aber laut Yule et al. (2018) auch für Forschung und Bildung, um nicht-

technische Fähigkeiten systematisch zu erfassen. In der Anwendung zeigt sich jedoch, dass 

eine Einführung in die Systematik sowie praktische Übung erforderlich sind, um valide und 

vergleichbare Einschätzungen treffen zu können. Dies gilt insbesondere für die zuverlässige 

Beurteilungen durch geschulte Bewertende. Die klare Struktur des Systems unterstützt sowohl 

Diskussionen als auch Selbsteinschätzung (Yule, Flin, Paterson-Brown & Maran, 2006). Studien 

zeigen zudem, dass chirurgische Fachpersonen zwar in der Lage sind, ihre technischen 
Kompetenzen einzuschätzen, ihre nicht-technischen Fähigkeiten jedoch deutlich schwerer 


2 Theoretische Grundlagen    |    Verhaltensankersysteme 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    14 

Play & Predict 

selbstbewerten können (Arora et al., 2011). Dies spricht für eine kontinuierliche Verbesserung 

solcher strukturierten Verhaltensankersysteme. 

Aufgrund der breiteren Anwendbarkeit im Kontext psychologischer Forschung und Bildung 

wird im weiteren Verlauf dieser Arbeit der Begriff überfachliche Fähigkeiten anstelle von nicht-

technischen Fähigkeiten verwendet. Für die Entwicklung des Verhaltensankersystem im Kontext 

eines kooperativen Videospiels wurden leichte Anpassungen an der Taxonomie vorgenommen. 

Im Kapitel 3.1.2 wird die Adaption des Modells ausführlicher dargestellt. 

  
3 Methode    |    Entwicklung des VAS-KOOP 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    15 

Play & Predict 

3 Methode 
Zur Beantwortung der Forschungsfrage wurde ein mehrstufiges methodisches Vorgehen 

gewählt, das sowohl die Entwicklung als auch die Überprüfung eines neuen 

Verhaltensankersystems umfasst. Ziel war die Entwicklung eines Instrumentes, das 

überfachliche Fähigkeiten im Kontext eines kooperativen Videospiels systematisch und 

nachvollziehbar erfassen kann.  

Das vorliegende Kapitel gliedert sich in drei Teile: Zunächst wird die Entwicklung des 

VAS-KOOP beschrieben (Kapitel 3.1), gefolgt von der Dokumentation der Datenerhebung 

(Kapitel 3.2) und der geplanten statistischen Auswertung (Kapitel 3.3). 

3.1 Entwicklung des VAS-KOOP 
Im Rahmen dieses Schritts wurde ein bestehendes, validiertes Beobachtungssystem aus 

dem medizinischen Kontext namens NOTSS (Yule, Flin, Paterson-Brown, Maran, et al., 2006) 

analysiert und gezielt für den Einsatz in kooperativen Spielszenarien weiterentwickelt. Kapitel 

3.1.1 beschreibt die Auswahl geeigneter Modelle und Fähigkeiten. In Kapitel 3.1.2 werden die 

systematische Modifikation des Instruments sowie die Entwicklung kontextangepasster 

Verhaltensindikatoren dokumentiert. Im abschliessenden Kapitel 3.1.3 wird das finale Instrument 
VAS-KOOP mit seinen Anwendungsformen vorgestellt. 

3.1.1 Recherche zu passenden Modellen und Fähigkeiten 
Zur Entwicklung eines geeigneten Verhaltensankersystems für kooperative Spielsituationen 

wurde zunächst eine umfassende Recherche zu bestehenden Verhaltensankersystemen 

durchgeführt. Ziel war es, ein etabliertes Modell zu identifizieren, das sich sowohl methodisch 

bewährt hat als auch jene Fähigkeiten abbildet, die in der geplanten Spielsituation relevant sind. 

Grundlage hierfür bildete ein exploratives Gespräch mit Prof. Dr. Tanja Manser, Direktorin 

Hochschule für Angewandte Psychologie FHNW, die als Expertin im Bereich der 
Verhaltensbeobachtung in Gesundheitsberufen gilt. Das Gespräch diente der ersten Orientierung 

im Themenfeld sowie der Vermeidung häufiger methodischer Fehler bei der Systementwicklung. 

Im Zentrum der Recherche stand die Frage, welche Fähigkeiten in kooperativen 

Spielsituationen besonders relevant sind. Dabei zeigten sich insbesondere folgende Aspekte im 

Spielverhalten von Bedeutung: Informationsverarbeitung (z. B. das Teilen und Bestätigen von 
Informationen), Aufgabenmanagement (z. B. Priorisierung und Koordination), Stress- und 

Konfliktmanagement, Führung, Unterstützungsverhalten sowie der Umgang mit Fehlern. Weitere 

übergeordnete Fähigkeiten wie Anpassungsfähigkeit und Durchsetzungsvermögen wurden 

zunächst ebenfalls als wichtig betrachtet. Gleichzeitig musste darauf geachtet werden, die Anzahl 

beobachteter Dimensionen zu begrenzen, um eine praktikabel und valide Bewertung zu 

gewährleisten. 

Im Rahmen der Literaturanalyse wurden verschiedene etablierte Verhaltensankersysteme 

geprüft (da Conceição et al., 2019; Mitchell et al., 2012; Undre et al., 2007). Nach eingehender 

Analyse sowie Rücksprache mit dem Praxispartner fiel die Wahl auf NOTSS (Yule, Flin, 


3 Methode    |    Entwicklung des VAS-KOOP 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    16 

Play & Predict 

Paterson-Brown, Maran, et al., 2006), das ursprünglich für den chirurgischen Kontext entwickelt 

wurde. Es zeichnete sich jedoch durch eine klare, übersichtliche Struktur und potenzielle 

Übertragbarkeit auf das spielerische Setting aus. Andere geprüften Systeme fokussierten 

entweder stärker auf Effektivität von Teams oder erfassten zu viele Dimensionen gleichzeitig. 

Die Auswahl des Systems wurde getroffen, da es die kooperativen Anforderungen in 

Spielsettings gut abbildet und zentrale Aspekte zukunftsrelevanter Fähigkeiten (z.B. 

Kommunikation und Kollaboration) beinhaltet.  

3.1.2 Modifikation eines etablierten Instruments 
Im Rahmen dieser Arbeit wurde NOTSS (Yule, Flin, Paterson-Brown, Maran, et al., 2006) 

übersetzt (Anhang A) und gezielt auf die Anforderungen eines kooperativen Videospiels 
angepasst. Das Ziel war, ein Instrument zur Erfassung überfachlicher Fähigkeiten im 

Spielkontext zu entwickeln. 

Anpassung der Kategorien und Dimensionen 
Das ursprüngliche NOTSS (Yule, Flin, Paterson-Brown, Maran, et al., 2006) umfasste vier 

Hauptkategorien: Situationsbewusstsein, Entscheidungsfindung, Kommunikation & Teamarbeit 

sowie Führung. Die Kategorie Situationsbewusstsein wurde für den Einsatz in diesem Projekt 

bewusst ausgeschlossen. Zum einen erschien das Beobachtungssystem mit vier Kategorien zu 

umfangreich für eine valide Anwendung im Spielsetting. Zum anderen bestand die Annahme, 
dass insbesondere spielerfahrene Personen in dieser Kategorie signifikant höhere Bewertungen 

erhalten würden, was zu Verzerrungen im Vergleich zu weniger spielerfahrenen Teilnehmenden 

führen könnte. Der Fokus wurde daher auf die drei verbleibenden Kategorien gelegt. 

Innerhalb der Kategorie Führung wurde zudem die ursprüngliche Dimension Festlegen 

und Einhalten von Standards durch die Dimension Ermutigung anderer ersetzt. Diese 
Entscheidung basiert auf Überlegungen aus der Theorie der transformationalen Führung, nach 

der das Fördern und Ermutigen von Teammitgliedern – auch in spielerischen Kontexten – als 

wirksames Führungsverhalten gilt (Podsakoff, MacKenzie, Moorman & Fetter, 1990; 

Schaubroeck, Lam & Cha, 2007). Die übrigen Dimensionen blieben inhaltlich unverändert, 

sodass sich das angepasste Verhaltensankersystem nun wie in Tabelle 1 gliedert. 

 
Tabelle 1  

Adaptierte Taxonomie mit den drei Hauptkategorien und jeweils drei Unterdimensionen 

Entscheidungsfindung Kommunikation & Teamarbeit Führung 

Betrachten von Optionen Informationsaustausch Ermutigung anderer 

Auswahl und Kommunikation einer Option Gemeinsames Verständnis herstellen Unterstützung anderer 

Umsetzung und Überprüfung von Entscheidungen Koordinierung von Teamaktivitäten Umgang mit Druck 

 
3 Methode    |    Entwicklung des VAS-KOOP 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    17 

Play & Predict 

Entwicklung der Verhaltensindikatoren mittels CIT 
Ein zentraler Bestandteil der Modifikation war die Entwicklung kontextspezifischer 

Verhaltensindikatoren für jede der neun Dimensionen. Hierzu wurde die CIT nach Flanagan 

(1954) angewendet – ein bewährtes, offenes Verfahren zur Anforderungsanalyse, das 

insbesondere in der Personalpsychologie eingesetzt wird. Ziel der CIT ist es, erfolgskritische 
Verhaltensweisen zu identifizieren, die zum Gelingen oder Misslingen einer bestimmten Tätigkeit 

beitragen. Die Technik erlaubt sowohl retrospektive als auch prospektive Betrachtungen und 

eignet sich zur Ableitung beobachtbarer Indikatoren für bestimmte Fähigkeiten. 

Der Ablauf folgte den fünf von Flanagan (1954) vorgeschlagenen Schritten:  

- Zielbestimmung (1): Im Spielkontext galt das Erreichen gemeinsamer Spielziele (z. B. 

Sterne sammeln) sowie die Förderung von Spielfreude.  

- Planung (2): Es wurde ein Beobachtungsworkshop vorbereitet, Fragen entwickelt, 

Personen eingeladen und Rollen verteilt.  

- Datenerhebung (3): Beobachtende sammelten positive und negative 
Verhaltensbeispiele während der Spielsituationen im Spiel Overcooked! 2 (Team17 & 

Ghost Town Games, 2018) mithilfe von Reflexionsfragen auf einer PowerPoint-

Vorlage.  

- Datenanalyse (4): Die gesammelten Verhaltensbeispiele wurden systematisch den 
angepassten Dimensionen zugeordnet.  

- Deutung und Bericht (5): Die Ergebnisse flossen in die Interpretation im Diskussionsteil 
(Kapitel 5.3) ein. 

 
Der CIT-Workshop wurde am 18. Februar 2025 im LevelHub durchgeführt. Trotz 
kurzfristiger Absagen konnte der Workshop mit drei Spielenden und zwei Beobachtenden 

umgesetzt werden. Die Spielphasen wurden bewusst strukturiert: Nach je einem kurzen Warm-

up-Level wurden nacheinander die Dimensionen Entscheidungsfindung, Kommunikation & 

Teamarbeit sowie Führung fokussiert beleuchtet. Zwischen den Levels erfolgten jeweils 4-

minütige Gruppendiskussionen, in denen Strategien zur Leistungssteigerung erarbeitet wurde. 

Die beobachteten Verhaltensweisen wurden mithilfe von Leitfragen (Anhang B) gemeinsam, auf 

einer Matrix als positiv oder negativ zugeordnet und als Grundlage für die Adaption der 

Verhaltensindikatoren dokumentiert (siehe Abbildung 5). 

 
3 Methode    |    Entwicklung des VAS-KOOP 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    18 

Play & Predict 

 
Abbildung 5.  Verhaltensindikatoren für den Kontext eines kooperativen Videospiels, die mittels CIT 

gesammelt und den negativen oder positiven Polen zugewiesen wurden (eigene Abbildung). 

 
Der CIT-Workshop lieferte wertvolle Erkenntnisse. Es zeigt sich, dass 

Entscheidungsfindung und Führung vor allem in der Gruppendiskussion beobachtbar waren. Die 

Formulierung konkreter, beobachtbarer Verhaltensweisen erwies sich jedoch als 
herausfordernd, da häufig bereits weiterführende Interpretationen dominierten. Der Einsatz einer 

Stoppuhr (je 5 Minuten pro Unterdimension) erwies sich als hilfreich, wenngleich knapp 

bemessen.  

Anpassung der Bewertungsskala 
Die ursprünglich vierstufige Bewertungsskala des NOTSS-Systems (Yule, Flin, Paterson-

Brown, Maran, et al., 2006) wurde modifiziert. Statt der Bezeichnungen poor (1), marginal (2), 

acceptable (3) und good (4) wurde eine fünfstufige Skala eingeführt (siehe Abbildung 6). Diese 
Skala orientiert sich ausschliesslich an beobachtbarem Verhalten und verzichtet auf deskriptive 

Ausprägungen, um eine Vermischung der Skalen zu vermeiden. Sie ist angelehnt an ein 

checklistenbasiertes System nach Obermann (2002) und differenziert klar zwischen negativen 

(1) und positiven (5) Verhaltensweisen. Dies fördert eine objektivere und nachvollziehbare 

Bewertung einzelner Beobachtungen. 

 
3 Methode    |    Entwicklung des VAS-KOOP 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    19 

Play & Predict 

 
Abbildung 6.  Ausschnitt aus dem VAS-KOOP zur Selbsteinschätzung mit angepasster Bewertungsskala 

(eigene Abbildung). 

Durch die gezielte Reduktion und Adaption der NOTSS-Kategorien sowie die Entwicklung 

kontextspezifischer Verhaltensindikatoren mittels CIT entstand ein praxisnahes 

Beobachtungsinstrument für kooperative Spielsituationen. Im folgenden Kapitel wird das finale 

Verhaltensankersystem VAS-KOOP in seiner Gesamtheit vorgestellt. 

3.1.3 Verhaltensankersystem VAS-KOOP 
Das entwickelte Verhaltensankersystem VAS-KOOP ist für die Anwendung in Forschung, 

Workshops und eignungsdiagnostischen Kontexten gedacht – speziell im Rahmen kooperativer 

Videospiele wie Overcooked! 2 (Team17 & Ghost Town Games, 2018). Es dient der 

systematischen Beobachtung, dem Vergleich von Verhaltensweisen sowie der anschliessenden 

Reflexion überfachlicher Fähigkeiten. 

Das System liegt in zwei Versionen vor: einer Fremdeinschätzung durch geschulte 

Beobachtende sowie einer Selbsteinschätzung durch die Proband:innen. Diese Dualität erlaubt 

eine methodische Triangulation, durch die ergänzende Perspektiven auf das beobachtete 

Verhalten gewonnen werden können. Ziel ist es, neben der externen Beobachtungen auch das 

subjektive Erleben der Proband:innen zu erfassen und beide Datenquellen miteinander in 

Beziehung zu setzen. 

 
Abbildung 7.  Ausschnitt aus dem VAS-KOOP zur Fremdeinschätzung mit Kategorien, Definitionen sowie 

positiven und negativen Verhaltensindikatoren pro Dimensionen (eigene Abbildung). 


3 Methode    |    Datenerhebung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    20 

Play & Predict 

 
Das VAS-KOOP umfasst neun Dimensionen, aufgeteilt auf drei Kategorien überfachlicher 
Fähigkeiten: Entscheidungsfindung, Kommunikation & Teamarbeit sowie Führung (siehe Tabelle 1). 

Für jede Dimension wurden sowohl negative (1) als auch positive (2) Verhaltensindikatoren 

definiert (siehe Abbildung 4). Diese Anker wurden auf Basis der CIT abgeleitet und in strukturierter 

Form in eine 5-stufige Skala überführt. Die Skalenpole sind explizit formuliert, um Bewertung des 

beobachteten Verhaltens möglichst objektiv und nachvollziehbar zu machen. 

Die Selbsteinschätzung (siehe Abbildung 3) erfolgt direkt im Anschluss an die kooperative 

Spielsituation. Dabei wurden die Verhaltensanker in Ich-Formulierungen übersetzt, um eine 

intuitive und klare Selbsteinschätzung zu ermöglichen. Die Proband:innen füllen den Bogen 

individuell aus, ohne Rücksprache mit anderen. 

Die Fremdeinschätzung (siehe Abbildung 4) wird hingegen retrospektiv anhand von 

Videomaterial vorgenommen. Die Beobachtenden tragen ihre Bewertungen direkt in eine 
vorbereitete Excel-Matrix ein, in der alle Dimensionen, Kategorien und Sitzplätze zugeordnet 

sind. Die Fremdeinschätzung beinhaltet zusätzlich Definitionshilfen und strukturierte Kategorien, 

um eine möglichst konsistente Bewertung sicherzustellen. 

Das vollständige VAS-KOOP – sowohl für Selbst- als auch Fremdeinschätzung – ist im 

Anhang C (Selbsteinschätzung) und Anhang D (Fremdeinschätzung) dokumentiert. 

3.2 Datenerhebung 
Zur Erprobung des entwickelten Verhaltensankersystem VAS-KOOP wurde ein 

methodisch kombinierter Zugang gewählt. Die Datenerhebung fand im Rahmen des Videospiels 
Overcooked! 2 (Team17 & Ghost Town Games, 2018) auf einer Nintendo Switch statt. Dabei 

spielten Gruppen à drei bis vier Personen gemeinsam, diskutierten und füllten anschliessend 

eine Selbsteinschätzung aus. Ziel war eine beobachtungsbasierte Erfassung überfachlicher 

Fähigkeiten. 

Das Kapitel gliedert sich in drei Abschnitte: Zunächst wird die Stichprobe (3.2.1) beschrieben, 
gefolgt vom konkreten Ablauf der Datenerhebung (3.2.2), in welchem die Durchführung der 

Sessions detailliert dargestellt wird. Der dritte Abschnitt (3.2.3) widmet sich der videogestützten 

Beobachtungsanalyse, die im Anschluss an die Erhebung zur Bewertung eingesetzt wurde. 

3.2.1 Stichprobe 
Die angestrebte Stichprobe umfasst 30 volljährige Personen mit grundlegenden 

Deutschkenntnissen. Die Rekrutierung erfolgt über das Netzwerk Grenchen, das diverse 

Angebote für Arbeitsintegrations-Massnahmen anbietet. Vier Abteilungsleitende wurden mithilfe 
von Informationsmaterial (Anhang E) gebeten, Gruppen mit drei bis vier Personen für die 

Teilnahme an festgelegten Zeitfenstern zu organisieren. Dafür wurde ein Terminplan (Anhang F) 

mit freien Zeiträumen vorbereitet, in dem die Zuweisenden einschreiben konnten, wann und wie 

viele Proband:innen teilnehmen würden.  


3 Methode    |    Datenerhebung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    21 

Play & Predict 

Der grösste Teil der Stichprobe bestand aus Teilnehmenden von Arbeitsintegrations-

Programmen. Zusätzlich nahmen auch festangestellte Mitarbeitende des Netzwerk Grenchen an 

der Erhebung teil. Gruppen mit weniger als drei Personen wurden von der Teilnahme 

ausgeschlossen, da das untersuchte Verhalten in einem interaktiven Gruppensetting stattfinden 

musste. Es wurden keine weiteren Einschluss- oder Ausschlusskriterien definiert, um eine 
möglichst vielfältige Stichprobe zu erhalten. Zusätzliche personenbezogenen Daten wie Alter oder 

Geschlecht wurden nicht erhoben, da diese für das Forschungsinteresse der Studie nicht relevant 

waren. 

3.2.2 Ablauf der Datenerhebung 
Die Datenerhebung erfolgte in mehreren klar strukturierten Schritten (siehe Abbildung 8). 

Der Ablauf in vollständiger Form ist im Anhang G ersichtlich. Ziel war es, mit dem entwickelten 

Beobachtungsinstrument VAS-KOOP kooperative Verhaltensweisen in einer gemeinsamen 

Spielsituation zu erfassen.  

 
Dabei wurde betont, dass es sich um die Erprobung eines neuen Instruments handelt und 

alle Daten vollständig anonymisiert erhoben werden – eine Rückführung auf einzelne Personen 

ist somit ausgeschlossen. Im Zentrum stand das beobachtbare Verhalten innerhalb der Gruppe. 

Um eine entspannte Atmosphäre zu schaffen, wurde ausdrücklich darauf hingewiesen, dass es 

sich nicht um einen Leistungstest handelt und sich die Proband:innen möglichst natürlich 

verhalten sollen.  

Zu Beginn wurde den Proband:innen das Ziel der Studie erklärt. Danach erfolgte die 

Übergabe der Einverständniserklärung, die von allen nach dem Lesen unterzeichnet wurde. 

Anschliessend wurde der Ablauf der gesamten Erhebung erläutert: Die Proband:innen wurden 

informiert, dass zwei Game-Sessions mit einer dazwischenliegenden kurzen Gruppendiskussion 

stattfinden würden. Zusätzlich wurde die Selbsteinschätzung am Ende erwähnt und auf die 

Videoaufnahme während der Spielphasen hingewiesen. Offene Fragen konnten an dieser Stelle 
geklärt werden. 

Spiel- 
anleitung 

Game-
Session 1 

Game- 
Session 2 

Gruppen-
diskussion 

Selbst-
einschätzung 

Abbildung 8.  Ablauf der Datenerhebung mit den zentralen und videodokumentierten Phasen (eigene 

Abbildung). 


3 Methode    |    Datenerhebung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    22 

Play & Predict 

Vor Beginn des Spiels wurde die Aufgabe anhand Abbildung 9 erklärt: Gemeinsam sollte 

in einer kooperativen Spielsituation eine Suppe mit drei Zwiebeln gekocht werden. Dazu 

gehörten das Holen und Schneiden von Zwiebeln, das Kochen der Suppe und das 

anschliessende Servieren. Vor Spielbeginn wurde die Steuerung des Spiels erklärt, 

insbesondere die Funktion der verschiedenen Knöpfe auf dem Controller. 

 
Abbildung 9.  Leveldesign des durchgeführten Level 1 in Overcooked! 2 (Team17 & Ghost Town Games, 

2018) mit Darstellung sämtlicher Utensilien, Bestellungen, Punktestand und Zeitangaben (Screenshot). 

Anschliessend wurde die Videoaufnahme gestartet. Während der 1. Game-Session 

lernten die Proband:innen das Spiel und dessen Funktionen kennen, wobei sie sich bei Fragen 

melden konnten. Danach folgte eine etwa vierminütige Gruppendiskussion. In dieser Zeit sollten 

die Proband:innen gemeinsam Strategien entwickeln, um die Spielaufgabe gemeinsam 

effizienter zu bewältigen – mit dem Ziel, in der nächsten Runde mehr Punkte zu erreichen. Im 
Anschluss startete die 2. Game-Session, in der die Gruppe erneut das gleiche Level absolvierte. 

Nach Beendigung der Spielsitzung wurde die Aufnahme gestoppt. 

Es folgte eine kurze Reflexionsrunde mit offenen Fragen wie: «Wie hat es sich 

angefühlt?» oder «Was habt ihr bemerkt?». Danach erhielten die Proband:innen den 

Fragebogen zur Selbsteinschätzung, der erklärt und später gemeinsam am Tisch ausgefüllt 
wurde. Dabei konnten Rückfragen gestellt und Unklarheiten geklärt werden. Zum Abschluss 

bedankte sich der Versuchsleiter, beantwortete letzte Fragen und überreichte LevelHub-Sticker 

als Dank für die Teilnahme. 

 
3 Methode    |    Datenerhebung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    23 

Play & Predict 

 
Abbildung 10.  Station der Datenerhebung mit eingerichteter Konsole, Videokamera und angeschriebenen 

Sitzplätzen (eigenes Foto). 

Die Erhebung erfolgte in einem eigens dafür eingerichteten Raum mit vorbereiteter Station 

(siehe Abbildung 10). Den Proband:innen wurden nummerierte Sitzplätze (A-D) zugewiesen, um 

eine anonyme Zuordnung zwischen Selbsteinschätzungen und Videodaten zu ermöglichen.  

Die ebenfalls zu der Datenerhebung gehörende videogestützte Beobachtungsanalyse wird im 

nächsten Kapitel ausführlicher beschrieben. 

3.2.3 Videogestützte Beobachtungsanalyse 
Zur Erfassung der kooperativen Verhaltensweisen im Spiel wurde eine videogestützte 

Beobachtungsanalyse durchgeführt. Dieses Verfahren ermöglichte eine differenzierte und 

rekonstruierbare Bewertung des Gruppengeschehens im Nachgang der Spielsitzungen und 
bildet eine zentrale Datengrundlage der vorliegenden Untersuchung. 

Beobachtung von Verhaltensweisen 
Die Beobachtung stellt eine zentrale Methode zur Erfassung sozialer und interaktiver 

Prozesse dar. In Abgrenzung zur alltäglichen Beobachtung ist wissenschaftliche Beobachtung 

durch einen systematischen, regelgeleiteten und dokumentierten Ablauf charakterisiert (Bortz & 

Döring, 2006). Sie zielt auf die Erhebung ausgewählter, psychologisch relevanter 

Verhaltensweisen und erfordert einen zuvor definierten Beobachtungsplan. Darin sollte 

festgelegt sein, was beobachtet wird, wann, wo und wie lange die Beobachtung stattfindet und 
wie mit Interpretationsspielräumen umzugehen ist (Hussy, Schreier & Echterhoff, 2013). 

Gleichzeitig ist die Beobachtung kognitiv anspruchsvoll: Beobachtende müssen in Echtzeit 

eine Vielzahl paralleler Verhaltensprozesse wahrnehmen, gewichten und einordnen – 

insbesondere, wenn mehrere Personen gleichzeitig interagieren. Dabei kann es zu 

Verzerrungen durch persönliche Erfahrungen und Erwartungen kommen (Higgins & Bargh, 
1987; Kleinmann, 2016). Die visuelle Wahrnehmung ist stets selektiv, sodass eine vollständige 

und objektive Erfassung kaum möglich ist (Kleinmann, 2016).  


3 Methode    |    Datenerhebung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    24 

Play & Predict 

Einsatz videogestützter Verfahren 
Um diesen Herausforderungen zu begegnen, werden in der psychologischen Forschung 

vermehrt videogestützte Beobachtungsanalysen eingesetzt. Sie ermöglichen es, komplexe 

Situationen mehrfach, aus unterschiedlichen Perspektiven und unter kontrollierten Bedingungen 

auszuwerten. Wie verschiedene Studien belegen, eignet sich die Videoanalyse zur Evaluation 
von Kompetenzen – sowohl im medizinisch-pädagogischen Kontext als auch in 

simulationsbasierten Lernumgebungen (Brimble, 2008; Campbell, Howie & Murray, 1995; Hays, 

Jones, Adkins & McKain, 1990). Die videogestützte Beobachtungsanalyse erfordert jedoch gute 

Planung, Schulung und Instrumentenwahl, um reliable Ergebnisse zu liefern (Haidet, Tate, 

Divirgilio-Thomas, Kolanowski & Happ, 2009). 

In der vorliegenden Untersuchung wurde die videogestützte Beobachtungsanalyse 

gewählt, um der komplexen Dynamik kooperativer Spielsituationen gerecht zu werden. Sie 

erlaubt eine objektivere und rekonstruierbare Bewertung von Verhaltenssequenzen und stellt 

eine praktikable Methode zur systematischen Erfassung von Interaktionen dar. 

Die videogestützte Datenerhebung erfolgte mithilfe einer 360°-Kamera, die so positioniert 
wurde, dass sowohl die Proband:innen als auch der Bildschirm erfasst wurden. Die 

Aufzeichnung startete mit Spielbeginn und lief während der gesamten Spieldauer sowie der 

zwischengelagerten Gruppendiskussion. Dadurch konnte der gesamte Kommunikations- und 

Entscheidungsprozess innerhalb des Spiels festgehalten werden. 

Für die nachträgliche Analyse wurde das Programm Insta360 Studio (Arashi Vision Inc., 
2023) verwendet, welches eine flexible Navigation innerhalb der 360°-Perspektive erlaubt. Dies 

ermöglichte es den Bewertenden, situationsspezifisch zwischen Bildschirm- und 

Gruppeninteraktionen zu wechseln. Dies war insbesondere für die Bewertung komplexer 

Teamprozesse entscheidend, da sowohl die Spielhandlungen als auch die dazugehörige 

Kommunikation simultan nachvollzogen werden konnten. 

Bewertung mittels VAS-KOOP  
Die Fremdeinschätzung der beobachteten Verhaltensweisen erfolgte durch zwei 

unabhängige Personen aus dem LevelHub-Team. Eine der Bewertenden verfügte über 
Vorerfahrung in der Verhaltensbeobachtung, während die zweite Person neu im Team war und 

bisher kaum entsprechende Erfahrungen mitbrachte. Letztere wurde vom Versuchsleiter 

ausführlich in die Bewertungsdimensionen, Skalen und das Vorgehen eingeführt. 

Die aufgezeichneten Videosequenzen wurden mithilfe des Verhaltensankersystems VAS-

KOOP für Fremdeinschätzungen (Anhang D) ausgewertet. Zur Unterstützung wurde das 
ursprünglich für die Selbsteinschätzung konzipierte VAS-KOOP-Instrument in ein Excel-

Dokument überführt und um Definitionen sowie Beschreibungen der einzelnen Dimensionen 

ergänzt. Dies diente als Grundlage für die strukturierte Bewertung. 

Während der Bewertung konnten die Videos beliebig pausiert, zurückgespult oder erneut 

abgespielt werden. Die Beurteilungen wurden systematisch in eine Matrix (Anhang H) 
eingetragen, die eine eindeutige Zuordnung nach Gruppe, Sitzplatz und Bewertungsdimension 


3 Methode    |    Datenauswertung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    25 

Play & Predict 

ermöglichte. Nicht belegte Sitzplätze wurden mit einem «X» markiert. Abschliessend wurden die 

beiden ausgefüllten Bewertungsmatrizen zusammengeführt und für die statistische Analyse 

vorbereitet. 

Das angepasste Beobachtungsinstrument VAS-KOOP bildet somit die konzeptionelle 

Grundlage der vorliegenden Untersuchung. Das folgende Kapitel zeigt auf, welche 

Evaluationskriterien statistisch geprüft wurden, um die Qualität und Aussagekraft des 

entwickelten Instruments systematisch zu bewerten. 

3.3 Datenauswertung 
Zur Überprüfung der Anwendbarkeit des entwickelten Verhaltensankersystems VAS-

KOOP wurden drei zentrale Evaluationskriterien herangezogen: interne Konsistenz, Interrater-

Reliabilität sowie die Konstruktvalidität durch Selbst- und Fremdeinschätzung (siehe Tabelle 2). 

Diese Auswahl orientiert sich an ähnlichen Evaluationsstudien (Arora et al., 2011; Mitchell et al., 

2012; Yule et al., 2018), die ein systematisches Vorgehen zur Prüfung von 
Verhaltensankersystemen beschreiben.  

 
Tabelle 2  

Zentrale Evaluationskriterien der Untersuchung mit Bewertungsfragen und Datenquellen 

 Test Evaluationsfrage Datenquelle  

Reliabilität Interne 
Konsistenz 

Stimmen die Bewertungen auf 
Elementebene mit den zugehörigen 
Kategoriebewertungen überein? 

Berechnung der mittleren absoluten Differenz 
zwischen den Bewertungen der Einzelelemente 
und der jeweiligen Kategorie. 

 Interrater-
Reliabilität 

Inwieweit stimmen die Beurteilungen 
zweier unabhängiger Bewertenden bei 
der Anwendung des VAS-KOOP 
überein? 

Berechnung des Pearson-
Korrelationskoeffizienten zur Erfassung des 
Zusammenhangs zwischen beiden Bewertenden. 

Validität Konstrukt-
validität 

In welchem Ausmass stimmen die 
Selbstbewertungen der Proband:innen 
mit den Fremdeinschätzungen durch die 
Bewertende überein? 

Berechnung des Pearson-
Korrelationskoeffizienten zur Analyse des 
Zusammenhangs zwischen Selbst- und 
Fremdeinschätzung. 

 
Zur Überprüfung der internen Konsistenz des VAS-KOOP wurde Cronbachs α berechnet, 
basierend auf den drei Elementbewertungen innerhalb jeder Kategorie. Werte im Bereich von 

0.71 bis 0.80 gelten gemäss etablierter Empfehlungen als ausreichend zuverlässig, um den 

Anforderungen an Validität und Messgenauigkeit gerecht zu werden (Yule et al., 2018). 

Die Interrater-Reliabilität wurde berechnet, um die Übereinstimmung zwischen den 

Bewertungen der beiden unabhängigen Beobachtenden zu quantifizieren. Sie spielt besonders 
für Verhaltensbeobachtungen eine zentrale Rolle (Bakeman & Gottman, 1997). Hierzu wurde 

der Übereinstimmungskoeffizienten rwg berechnet (James, Demaree & Wolf, 1993). Dieses 

Verfahren wurde gewählt, da es bereits in einer Evaluationsstudie (Mitchell et al., 2012) 

eingesetzt wurde. Darin wurde ein Wert von > 0.7 als akzeptabler Grad der Übereinstimmung 

definiert.  


3 Methode    |    Datenauswertung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    26 

Play & Predict 

Zur Überprüfung der Konstruktvalidität wurde der Pearson-Korrelationskoeffizient 

zwischen der Fremdeinschätzung durch die Bewertenden und der Selbsteinschätzung der 

Proband:innen berechnet. Ein solcher Vergleich ist zulässig, sofern beide Erhebungsverfahren 

dasselbe theoretische Konstrukt abbilden (Schmidt-Atzert, Krumm & Amelang, 2021). Ziel 

dieses Vorgehens war es, neben der Fremdeinschätzung einen weiteren Bezugspunkt 
einzubeziehen und so eine fundierte Grundlage für weiterführende Reflexionen zu schaffen. 

Methodisch orientiert sich der Ansatz an Arora et al. (2011), die einen ähnlichen Vergleich im 

Kontext nicht-technischer Fähigkeiten vorgenommen haben. 

Für alle Bewertungen kamen deskriptive Statistiken (Mittelwerte, Standardabweichungen) 

sowie Korrelationsanalysen zum Einsatz. Die Datenanalyse wurde mit der Statistiksoftware 
Jamovi (The jamovi project, 2025) durchgeführt. 

Zusammenfassend erfolgte die Datenauswertung entlang etablierter Gütekriterien, um die 

Aussagekraft und Anwendbarkeit des VAS-KOOP systematisch zu prüfen. Das folgende Kapitel 

präsentiert die konkreten Ergebnisse dieser Analysen. 

  
4 Ergebnisse    |    Deskriptiv Analyse 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    27 

Play & Predict 

4 Ergebnisse 
Das folgende Kapitel stellt die Ergebnisse der statistischen Auswertung vor. Ziel war es, die 

Qualität und Aussagekraft des entwickelten Beobachtungsinstruments VAS-KOOP zu prüfen. 

Dazu wurden zentrale Gütekriterien wie interne Konsistenz (4.2), Interrater-Reliabilität (4.3) sowie 

die Konstruktvalidität anhand von Selbst- und Fremdeinschätzungen (4.4) untersucht. 

4.1 Deskriptiv Analyse 
Für die statistische Analyse wurden sämtliche erhobene Daten berücksichtigt. Diese 

wurden in Jamovi (The jamovi project, 2025) integriert und den Sitzplätzen entsprechend dem 

Spielzeitpunkt systematisch zugeordnet (z. B. 1A, 1B, 2A, 2B). Insgesamt wurden 27 Variablen 

erfasst, verteilt auf drei Perspektiven (Bewertung A, Bewertung B und Selbsteinschätzung) 

sowie neun Dimensionen, die den drei Hauptkategorien Entscheidungsfindung, Kommunikation 
& Teamarbeit und Führung zugeordnet sind.  

Die Benennung der Variablen folgte einem festen Schema (z. B. e1A: 

Entscheidungsfindung, Unterdimension 1, Bewertung A). Zur Berechnung der 

Korrelationskoeffizienten wurden anschliessend für jede Kategorie Mittelwerte gebildet, wodurch 

neun Variablen (z. B. MEAN_eA, MEAN_kA) entstanden. Sämtliche Items weisen metrische 
Werte auf. Die niedrigste Ausprägung (1) und die höchste Ausprägung (5) entsprechen jeweils 

den negative und positiven Verhaltensindikatoren pro Dimension. 

Die Abbildung 11 zeigt die Mittelwerte der drei Kategorien Entscheidungsfindung, 

Kommunikation & Teamarbeit sowie Führung aus der Sicht von Bewertung A, Bewertung B und 

der Selbsteinschätzung. Die Werte liegen zwischen 3.79 und 4. Auffällig ist, dass die 
Selbsteinschätzungen in allen Kategorien leicht über den Fremdeinschätzungen liegen – 

besonders deutlich in den Kategorien Entscheidungsfindung sowie Kommunikation & 

Teamarbeit. Zudem weist Bewertung B durchgehend die niedrigsten Werte auf. 

 
Abbildung 11.  Mittelwerte der gemessenen Kategorien: Entscheidungsfindung, Kommunikation & 

Teamarbei sowie Führung über die drei Perspektiven hinweg; N = 30. 


4 Ergebnisse    |    Deskriptiv Analyse 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    28 

Play & Predict 

Die Tabelle 3 zeigt die Mittelwerte und Standardabweichungen für alle Kategorien sowie 

deren untergeordnete Dimensionen aus den Perspektiven von Bewertung A, Bewertung B und der 

Selbsteinschätzung. In nahezu allen Fällen liegen die Werte der Selbsteinschätzung leicht über 

denen der beiden Fremdeinschätzungen, besonders deutlich bei Betrachten von Optionen (M = 

4.30, SD = 0.70) und Informationsaustausch (M = 4.20, SD = 0.81). Bewertung B weist mehrfach 
die niedrigsten Mittelwerte auf, etwa bei Ermutigung anderer (M = 3.53, SD = 0.82). Die 

geringsten Abweichungen zwischen den drei Perspektiven zeigen sich in der Kategorie Führung. 

Die Standardabweichungen der drei Kategorien reichen von 0.55 bis 0.86, wobei die 

Selbsteinschätzungen die geringste Streuungen aufweisen. 

 
Tabelle 3  

Darstellung der Mittelwerte und Standardabweichungen sämtlicher gemessenen Dimensionen und 

Kategorien über die drei Perspektiven hinweg 

 Bewertung A  Bewertung B  Selbsteinschätzung 

 M SD  M SD  M SD 

Entscheidungsfindung 3.97 0.69  3.90 0.74  4.13 0.60 

  Betrachten von Optionen 3.97 0.85  3.80 0.89  4.30 0.70 

  Auswahl und Kommunikation einer Option 4.00 0.83  3.87 0.78  3.87 0.78 

  Umsetzung & Überprüfung von Entscheidungen 3.93 0.83  4.03 0.85  4.23 0.86 

Kommunikation & Teamarbeit 3.83 0.69  3.82 0.86  4.00 0.55 

  Informationsaustausch 3.90 0.80  3.93 0.87  4.20 0.81 

  Gemeinsames Verständnis herstellen 3.73 0.91  3.83 0.99  4.00 0.83 

  Koordinierung von Teamaktivitäten 3.87 0.82  3.70 0.99  3.80 0.66 

Führung 3.82 0.73  3.79 0.78  3.83 0.70 

  Ermutigung anderer 3.73 0.79  3.53 0.82  3.63 0.89 

  Unterstützung anderer 3.80 0.89  3.97 0.89  3.90 0.92 

  Umgang mit Druck 3.93 0.87  3.87 0.90  3.97 0.93 

Anmerkungen. M für Mittelwerte; SD für Standardabweichungen; N = 30. 

 
Zur Prüfung der Normalverteilung wurde der Shapiro-Wilk-Test angewendet. Sechs der 

neun untersuchten Variablen zeigen keine signifikante Abweichung und gelten damit als 
normalverteilt. Drei Variablen – die Selbsteinschätzung der Entscheidungsfindung, die 

Bewertung B in der Kategorie Kommunikation & Teamarbeit sowie die Bewertung A in der 

Kategorie der Entscheidungsfindung – weichen signifikant ab und sind nicht normalverteilt. 

Diese Ergebnisse werden bei der Interpretation entsprechend vorsichtig berücksichtigt. 

  
4 Ergebnisse    |    Interne Konsistenz 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    29 

Play & Predict 

4.2 Interne Konsistenz 
Die interne Konsistenz des VAS-KOOP-Instruments wurde über Cronbachs α für die drei 

Hauptkategorien und deren Items berechnet – jeweils getrennt für Bewertung A, Bewertung B 

und die Selbsteinschätzung (siehe Tabelle 4). 

 
Tabelle 4  

Reliabilität des VAS-KOOP-Instruments zur Bewertung überfachlicher Fähigkeiten in drei Kategorien 

 Bewertung A  Bewertung B  Selbsteinschätzung 

 αa αb  αa αb  αa αb 

Entscheidungsfindung 0.77   0.86   0.65  

  Betrachten von Optionen  0.75   0.81   0.41 

  Auswahl und Kommunikation einer Option  0.70   0.79   0.43 

  Umsetzung & Überprüfung von Entscheidungen  0.61   0.79   0.78 

Kommunikation & Teamarbeit 0.76   0.89   0.51  

  Informationsaustausch  0.63   0.89   0.47 

  Gemeinsames Verständnis herstellen  0.71   0.79   0.34 

  Koordinierung von Teamaktivitäten  0.69   0.86   0.41 

Führung 0.82   0.88   0.66  

  Ermutigung anderer  0.82   0.78   0.61 

  Unterstützung anderer  0.73   0.86   0.38 

  Umgang mit Druck  0.72   0.85   0.67 

Anmerkungen. aα für die jeweilige VAS-KOOP-Kategorie, basierend auf den drei zugehörigen Elementen; bα für die 
Kategorie, sofern das jeweilige Element entfernt würde; N = 30. 

 
Die α-Werte für die Bewertungen A und B lagen in allen drei Kategorien im Bereich 

zwischen 0.76 und 0.89, was auf eine insgesamt stabile interne Konsistenz hinweist. Die 

zugehörigen Elemente zeigten ebenfalls durchweg α-Werte im mittleren bis hohen Bereich. Die 
Gesamtreliabilität des VAS-KOOP über alle Kategorien hinweg betrug für Bewertung A α = 0.90 

und für Bewertung B α = 0.96. 

Bei den Selbsteinschätzungen fielen die Werte für die interne Konsistenz insgesamt 

niedriger aus. Die berechneten α-Werte auf Kategoriebene lagen zwischen 0.51 und 0.66. 

Einzelanalysen der Items zeigten jedoch, dass durch die Entfernung bestimmter Elemente eine 
Verbesserung der internen Konsistenz möglich wäre. So würde beispielsweise der α-Wert der 

Kategorie Entscheidungsfindung von 0.65 auf 0.78 ansteigen, wenn die Dimension Umsetzung 

& Überprüfung von Entscheidungen entfernt würde. Die Gesamtreliabilität über alle Kategorien 

hinweg betrug für die Selbsteinschätzung α = 0.84. 

  
4 Ergebnisse    |    Interrater-Reliabilität 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    30 

Play & Predict 

4.3 Interrater-Reliabilität 
Mit der Berechnung der Interrater-Reliabilität sollte unter anderem die Annahme geprüft 

werden, ob die Beurteilungen zweier unabhängigen Bewertenden miteinander übereinstimmen. 

Dazu wurde der rwg als Mass für die Within-Group Agreement (James et al., 1993) bzw. der 

Pearson-Korrelationskoeffizient berechnet. Die Analyse umfasste drei Vergleichspaare: 

Bewertung A und Bewertung B, Bewertung A und Selbsteinschätzung sowie Bewertung B und 

Selbsteinschätzung. Die Ergebnisse dieser Gruppenvergleiche sind in Tabelle 5 dargestellt. 

 
Tabelle 5  

Übereinstimmung der erhobenen Kategorien innerhalb der Gruppe (rwg) über drei Vergleichspaare hinweg 

 Bewertung A 
Bewertung B 

 Bewertung A 
Selbsteinschätzung 

 Bewertung B 
Selbsteinschätzung 

 rwg  rwg  rwg 

Entscheidungsfindung 0.65***  0.60***  0.12 

Kommunikation & Teamarbeit 0.69***  0.29  0.29 

Führung 0.70***  0.34  0.02 

Anmerkungen. *** p <. 001; rwg: Pearson-Korrelation für Within-Group Agreement; N = 30. 

 
Für die Fremdeinschätzungen von Person A und Person B zeigten alle drei Kategorien 

signifikante hohe Übereinstimmungen:  

- Entscheidungsfindung: rwg = .65, p < .001, 90% KI für rwg [0.42, 0.80] 

- Kommunikation & Teamarbeit: rwg = .69, p < .001, 90% KI für rwg [0.49, 0.82] 

- Führung: rwg = .70, p < .001, 90% KI für rwg [0.50, 0.83] 

Die Abbildung 12 illustriert die Einzelergebnisse der beiden Bewertenden für alle der 30 

Proband:innen, getrennt nach den drei. Jede Linie repräsentiert eine Bewertungsperspektive in 

einer spezifischen Kategorie. Die Verläufe der sechs Kurven zeigen weitgehend Ähnlichkeiten 

mit wenigen sichtbaren Abweichungen bei einzelnen Fällen. 

 
Abbildung 12.  Mittelwerte der Bewertungen A und B getrennt nach den Kategorien Entscheidungsfindung, 
Kommunikation & Teamarbeit und Führung; N = 30 (erstellt mit datatab.de). 


4 Ergebnisse    |    Vergleich Fremd- und Selbsteinschätzung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    31 

Play & Predict 

4.4 Vergleich Fremd- und Selbsteinschätzung 
In einem weiteren Schritt wurde überprüft, inwieweit die Selbsteinschätzungen der 

Proband:innen mit den Fremdeinschätzungen übereinstimmen. Ziel war es, die Annahme zu 

prüfen, ob sie Fremd- und Selbsteinschätzungen miteinander in Verbindung stehen. 

Dazu wurde rwg als Mass der Übereinstimmung zwischen den jeweiligen Bewertungen 
berechnet. Untersucht wurden mithilfe des Pearson-Korrelationskoeffizients die 

Zusammenhänge zwischen der Selbsteinschätzung und den Fremdeinschätzungen durch 

Person A bzw. Person B über alle drei Hauptkategorien hinweg. Tabelle 6 gibt einen detaillierten 

Überblick zu den Übereinstimmungswerten der jeweiligen Vergleichspaare.  

Zwischen Bewertung A und der Selbsteinschätzung zeigte sich lediglich in der Kategorie 
Entscheidungsfindung ein signifikanter Zusammenhang:  

- Entscheidungsfindung: rwg = .60, p < .001, 90% KI für rwg [0.35, 0.76] 

- Kommunikation & Teamarbeit: rwg = .29, p = .116  

- Führung: rwg = .34, p = .07 

Die Korrelationen zwischen Bewertung B und der Selbsteinschätzung fielen geringer aus 

und bewegten sich ebenfalls im nicht signifikanten Bereich: 

- Entscheidungsfindung: rwg = .12, p = .535 

- Kommunikation & Teamarbeit: rwg = .29, p = .127 

- Führung: rwg = .02, p = .898. 

4.5 Zusammenfassung der Ergebnisse 
Die interne Konsistenz des entwickelten Instruments VAS-KOOP wurde mithilfe von 

Cronbachs α für drei Hauptkategorien sowie deren zugehörige Items analysiert. Die Ergebnisse 

zeigten für die beiden Fremdeinschätzungen α-Werte zwischen 0.76 und 0.89, was auf eine 

durchweg stabile Reliabilität hinweist. Die Selbsteinschätzungen ergaben geringere α-Werte im 

Bereich von 0.51 bis 0.66. Die Gesamtreliabilität lag bei α = 0.90 für Bewertung A, bei α = 0.96 
für Bewertung B und bei α = 0.84 für die Selbsteinschätzung. 

Zur Erfassung der Interrater-Reliabilität wurde die Übereinstimmung der Beurteilungen 

zweier unabhängiger Bewertender analysiert. Alle drei Kategorien erreichten dabei signifikante 

Werte zwischen rwg 0.65 und 0.70. Diese Ergebnisse deuten auf eine hohe Übereinstimmung 

zwischen den beiden Bewertenden hin. 

Die Übereinstimmung zwischen Selbst- und Fremdeinschätzungen fiel deutlich 

schwächer aus. Nur in der Kategorie Entscheidungsfindung wurde in einer Kombination 

zwischen Bewertung A und Selbsteinschätzung ein signifikanter Zusammenhang ermittelt 

(rwg = .60, p < .001, 90% KI für rwg [0.35, 0.76]). Aufgrund der nicht vorhanden 

Normalverteilung dieser Kategorien gilt es, diese Korrelation jedoch mit Vorsicht zu 
interpretieren. In den übrigen Kategorien blieben die Werte unterhalb der Signifikanzgrenze.  


5 Diskussion    |    Zusammenfassung der Arbeit 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    32 

Play & Predict 

5 Diskussion 
Die Ergebnisse der vorliegenden Untersuchung liefern erste Hinweise darauf, dass 

überfachliche Fähigkeiten in kooperativen Spielsituationen strukturiert beobachtet und bewertet 

werden können – ein zentrales Anliegen, das bereits in der Ausgangslage dieser Arbeit 

formuliert wurde. Vor dem Hintergrund der zunehmenden Relevanz überfachlicher Kompetenzen 

in Bildung, Arbeitswelt und Gesellschaft wurde mit dem VAS-KOOP ein Instrument entwickelt, 

das diesen Anforderungen auf innovative Weise begegnet. Die Kombination aus spielerischem 

Setting und standardisierter Verhaltensbeobachtung schliesst dabei eine bislang wenig 
erforschte Lücke in der diagnostischen Praxis mit GBAs. Das folgende Kapitel diskutiert die 

zentralen Ergebnisse vor diesem Hintergrund, reflektiert methodische Aspekte kritisch und leitet 

Implikationen für Forschung und Anwendung ab. 

5.1 Zusammenfassung der Arbeit 
Ausgangspunkt dieser Arbeit war die bestehende Herausforderung, kooperatives 

Spielverhalten im Rahmen der LevelHub-Methodik systematisch und objektiv zu erfassen. 

Bisher beruhte die Bewertung von LevelHub primär auf subjektiven Beobachtungen, was die 

Vergleichbarkeit erschwerte und die Reliabilität einschränkte. Ziel der vorliegenden 

Untersuchung war daher die Entwicklung und Überprüfung eines Verhaltensankersystems zur 

systematischen Beurteilung überfachlicher Fähigkeiten in kooperativen Spielsituationen. 

 Der theoretische Rahmen der Arbeit stützte sich auf drei zentrale Bausteine: 

1. Die LevelHub-Methodik, die überfachliche Kompetenzen wie Kollaboration in 

spielerischen Gruppensettings beobachtbar macht.  

2. Das Konzept des GBA, das interaktive Spielsituationen zur Erfassung von 

beobachtbarem Verhalten nutzt.  

3. Strukturierte Verhaltensankersysteme wie NOTSS, das auf Basis konkreter 
Verhaltensindikatoren eine objektive Einschätzung überfachlicher Fähigkeiten erlaubt 

und für diese Arbeit adaptiert wurde. 

Das Instrument VAS-KOOP wurde In einem mehrstufigen Vorgehen entwickelt: Zunächst 

wurden durch eine Recherche und ein Experteninterview geeignete Modelle identifiziert. 

Anschliessend erfolgte die Modifikation des bestehenden Modells, wobei die CIT zur 
Entwicklung kontextspezifischer Verhaltensindikatoren eingesetzt wurde. Das finale System 

umfasst neun Items, verteilt auf die drei Hauptkategorien Entscheidungsfindung, Kommunikation 

& Teamarbeit und Führung. Es wurde sowohl für die Selbst- als auch für die Fremdeinschätzung 

operationalisiert. 

Die empirische Überprüfung erfolgte im Rahmen einer Datenerhebung mit insgesamt 30 
Proband:innen. Die Beobachtungen wurden videogestützt dokumentiert und retrospektiv durch 

zwei unabhängige Bewertende eingeschätzt. Ergänzend füllten die Proband:innen nach den 

Gaming-Sessions eine Selbsteinschätzung aus.  


5 Diskussion    |    Interpretation der Ergebnisse 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    33 

Play & Predict 

Die Ergebnisse zeigen eine gute interne Konsistenz des Instruments und eine hohe 

Übereinstimmung zwischen den beiden Bewertenden (Interrater-Reliabilität). Für die 

Konstruktvalidität ergaben sich nur schwache Hinweise. Lediglich in der Kategorie 

Entscheidungsfindung bei einer der Bewertenden konnte ein signifikanter Zusammenhang mit 

der Selbsteinschätzung festgestellt werden, was jedoch mit Vorsicht zu bewerten ist. 

5.2 Interpretation der Ergebnisse 
Die vorliegenden Ergebnisse zeigen, dass das entwickelte Verhaltensankersystem VAS-

KOOP erfolgreich auf kooperative Videospielsituationen übertragen werden konnte. Die 
zentrale Forschungsfrage – ob ein bestehendes System wie NOTSS (Yule, Flin, Paterson-

Brown, Maran, et al., 2006) auf ein Spielsetting anwendbar ist – lässt sich grundsätzlich 

bejahen. Mithilfe etablierter methodischer Verfahren konnte ein reliables Instrument zur 

Bewertung überfachlicher Fähigkeiten im Spielkontext entwickelt werden. 

Das VAS-KOOP erwies sich dabei als praktikables System zur Einschätzung von 
überfachlichen Fähigkeiten wie Entscheidungsfindung, Teamarbeit und Führung. Besonders 

hervorzuheben ist die hohe Übereinstimmung beider unabhängigen Bewertenden, die auf 

eine gute Objektivierbarkeit des Instruments hinweist. Gleichzeitig zeigen die Ergebnisse 

niedrige Zusammenhänge zwischen Selbst- und Fremdeinschätzungen. Hier ergeben sich 

jedoch neue Chancen: Die beobachteten Diskrepanzen liefern Hinweise auf blinde Flecken 

und damit wertvolle Anknüpfungspunkte für Entwicklungs- und Reflexionsprozesse. In 

Summe lässt sich festhalten, dass das VAS-KOOP erfolgreich auf den spielerischen, 

kooperativen Kontext übertragen wurde und eine solide Grundlage für weitere Forschung 
sowie praktische Anwendungen bietet. 

Interne Konsistenz als Qualitätsmerkmal 
Die gute interne Konsistenz des VAS-KOOP deutet darauf hin, dass die Items innerhalb 

der jeweiligen Dimensionen zuverlässig ein gemeinsames Konstrukt erfassen. Eine mögliche 

Erklärung hierfür liegt in der Orientierung am etablierten NOTSS-System (Yule et al., 2018), das 

bereits validierte Kategorien nicht-technischer Fähigkeiten bereitstellt. Die klare Gliederung in 

drei thematisch fokussierte Kategorien – Entscheidungsfindung, Kommunikation & Teamarbeit 
sowie Führung – stärkt die Messqualität des Instruments. Die Übernahme und Anpassung dieser 

Struktur unterstützten die Entwicklung inhaltlich konsistenter Items. Verhaltensindikatoren mit 

Fokus auf weniger gleichzeitig zu beobachtende Aspekte könnten zu einer besseren 

Orientierung führen, Interpretationsspielräume reduzieren und die Reliabilität zusätzlich erhöhen 

(Kleinmann, 2016; Obermann, 2002). 

Objektivität durch Interrater-Reliabilität 
Die Analyse der Interrater-Reliabilität zeigt, dass die Beurteilungen der beiden 

unabhängigen Bewertenden in einem statistisch signifikanten Zusammenhang stehen. Für 
die Dimensionen Entscheidungsfindung, Kommunikation & Teamarbeit sowie Führung 

wurden jeweils signifikante Korrelationen festgestellt, die auf eine weitgehende 


5 Diskussion    |    Interpretation der Ergebnisse 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    34 

Play & Predict 

Übereinstimmung in den Beurteilungen hinweisen. Auch wenn die Werte knapp unter der von 

Yule et al. (2018) empfohlenen Schwelle für Zuverlässigkeit liegen, sprechen sie dennoch für 

eine gute Anwendbarkeit und Verständlichkeit des Verhaltensankersystems. Eine 

verlässliche Interrater-Reliabilität ist wesentlich, um die Objektivität der Beobachtungsdaten 

zu sichern und deren Aussagekraft zu gewährleisten (Tinsley & Weiss, 1975), was durch 
diese Ergebnisse grundsätzlich gestützt wird. 

Diskrepanz zwischen Selbst- und Fremdwahrnehmung 
Die Übereinstimmung zwischen Selbst- und Fremdeinschätzungen im VAS-KOOP fiel 

insgesamt gering aus. Ein signifikanter Zusammenhang wurde lediglich in der Dimension 

Entscheidungsfindung mit einer der beiden Bewertenden festgestellt. Die Konstruktvalidität des 

Instruments fällt somit ungenügend aus. In den meisten Fällen bildete das VAS-KOOP in der 

Fremdeinschätzung nicht das gleiche Bild wie in der Selbsteinschätzung ab. Solche Diskrepanzen 

sind aus der Forschung bekannt und lassen sich dadurch erklären, dass Selbstbeurteilungen auf 
subjektive, nicht sichtbare Informationen wie Gedanken, Absichten oder Gefühle basieren 

(Falchikov & Boud, 1989). Studien zeigen daher häufig geringe Übereinstimmungen (Bieri 

Buschor & Schuler Braunschweig, 2011; Clausen, Möller & Strauß, 2000).  

Während Selbsteinschätzungen eine relevante prognostische Funktion für individuelle 

Entwicklungsprozesse haben (Braun, Sheikh & Hannover, 2011), gilt beobachtbares Verhalten als 
verlässlicher Prädiktor für zukünftiges Verhalten (Ouellette & Wood, 1998; Wernimont & 

Campbell, 1968). Die Diskrepanz zwischen beiden Perspektiven sollte daher nicht nur als 

Schwäche gewertet werden. Sie kann vielmehr als Ausgangspunkt für gezielte Reflexions- und 

Lernprozesse genutzt werden. 

Blinde Flecken und verzerrte Selbstwahrnehmung 
Ein bewährtes Modell zur Veranschaulichung der Unterschiede zwischen Selbst- und 

Fremdwahrnehmung ist das Johari-Fenster (Luft & Ingham, 1955). Es beschreibt den 
sogenannten blinden Fleck – jene Persönlichkeits- oder Verhaltensaspekte, die von aussen 

wahrgenommen werden, einem selbst jedoch nicht bewusst sind. Durch strukturierte 

Fremdeinschätzungen kann dieser Bereich sichtbar gemacht werden – ein Prozess, der gerade 

im Hinblick auf die Entwicklung überfachlicher Fähigkeiten zentral ist. 

In der vorliegenden Erhebung fielen die Selbsteinschätzungen insgesamt höher aus als 
die Fremdeinschätzungen. Dies könnte – im Sinne des Dunning-Kruger-Effekts (Kruger & 

Dunning, 1999) – darauf hinweisen, dass Personen mit geringerer Ausprägung in bestimmten 

überfachlichen Fähigkeiten ihre Kompetenzen überschätzen. Besonders relevant ist dies im 

Kontext arbeitsintegrativer Massnahmen, aus denen ein Grossteil der Stichprobe stammt. In 

solchen Settings sind Themen wie Selbstbild, Selbstwirksamkeit und soziale 

Vergleichsprozesse besonders präsent. Forschende verweisen darauf, dass durch biografische 

Brüche, Misserfolgserfahrungen oder fehlende Rückmeldestrukturen verzerrte 

Selbstwahrnehmungen begünstigt werden können (Dewe, 2009; Galuske & Müller, 2002). 
Diese Beobachtung wird durch Einschätzungen von Abteilungsleitenden der 


5 Diskussion    |    Interpretation der Ergebnisse 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    35 

Play & Predict 

Integrationsmassnahmen im Netzwerk Grenchen gestützt. Gleichzeitig könnten die 

retrospektive Fremdeinschätzungen anhand der Videoaufnahmen zu kritischeren Urteilen 

geführt haben, da Situationen mehrfach betrachtet und genauer analysiert werden konnten. 

Die Diskrepanz zwischen Selbst- und Fremdwahrnehmung war somit nicht nur erwartbar, 

sondern bietet einen wertvollen Ansatzpunkt für gezielte Reflexions- und Entwicklungsprozesse. 

Das VAS-KOOP kann in diesem Sinne zur Sichtbarmachung blinder Flecken beitragen und 

einen Impuls für Veränderungsprozesse setzen. 

Erklärungen zur Übereinstimmung in der Entscheidungsfindung 
Da sowohl die Selbsteinschätzung als auch die Fremdeinschätzung in der Kategorie 

Entscheidungsfindung signifikant von der Normalverteilung abweichen, sind die Ergebnisse mit 
Vorsicht zu interpretieren. Die auffällig hohe Übereinstimmung zwischen Fremd- und 

Selbsteinschätzung in dieser Kategorie könnte teilweise durch das Setting begünstigt worden sein. 

Das kooperative Videospiel sowie die anschliessende Gruppendiskussion fordern explizite 

Entscheidungen und machen entsprechendes Verhalten besonders sichtbar. 

Entscheidungsverhalten äussert sich oft in konkreten Handlungen oder verbalen Äusserungen, was 

die Beobachtung möglicherweise erleichtert (Salas, Shuffler, Thayer, Bedwell & Lazzara, 2015). Im 

Gegensatz dazu beinhalten die Dimensionen Kommunikation & Teamarbeit sowie Führung 

komplexere relationale Aspekte, die stärker im Zusammenspiel mit anderen Personen stehen und 
dadurch eine isolierte Beobachtung erschweren. Zudem ist zu berücksichtigen, dass der 

signifikante Zusammenhang nur bei einer der beiden bewertenden Personen festgestellt wurde, 

was die Aussagekraft zusätzlich relativiert. 

Qualitätssicherung durch Schulung der Bewertenden 
Die Analyse der Fremdeinschätzungen zeigte Unterschiede zwischen den beiden 

Bewertenden. Person A, die mit der Entwicklung des Verhaltensankersystem vertraut war, erzielte 

höhere Übereinstimmungen mit den Selbsteinschätzungen als Person B. Letztere erhielt vor der 
Bewertung lediglich eine kurze Einführung in die Messung mit VAS-KOOP. Ihre Einschätzungen 

stimmten weniger mit den Selbsteinschätzungen überein, besonders in den Dimensionen Führung. 

Obwohl die Korrelationen nicht signifikant sind, deuten die Unterschiede darauf hin, dass 

Vorbereitung und Schulung die Qualität der Beobachtungsdaten massgeblich beeinflussen können. 

Um die Objektivität und Reliabilität des Instruments zu sichern, sind gezielte Trainings 
notwendig. Obermann (2002) empfiehlt Trainingsformate, die sowohl Selbstreflexion als auch 

gemeinsame Definitionsarbeit an Bewertungsdimensionen beinhalten. Dies unterstützt 

Beobachtende dabei, Wahrnehmungsverzerrungen zu erkennen und ein gemeinsames 

Verständnis der Bewertungsstandards zu entwickeln. Kleinmann (2016) schlägt eine 

Kombination aus Verhaltensbeobachtungstraining und Bezugsrahmentraining vor. Während 

ersteres die Trennung von Beobachtung und Bewertung fördert, veranschaulicht zweiteres durch 

realistische Verhaltensbeispiele die Bandbreite möglicher Ausprägungen. Beide Trainingsformen 

zusammen verbessern nachweislich die Beurteilungsgenauigkeit und reduzieren typische 
Beobachtungsfehler. 


5 Diskussion    |    Interpretation der Ergebnisse 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    36 

Play & Predict 

Potenzial als diagnostisches Instrument 
Die Ergebnisse deuten darauf hin, dass sich die LevelHub-Methodik grundsätzlich als GBA 

für Personalbeurteilungen oder Teamentwicklung eignet. Das strukturierte Verhaltensankersystem 

macht überfachliche Kompetenzen wie Entscheidungsfindung, Teamarbeit oder Führung in 

realitätsnahen Spielsituationen sichtbar und kann die Testmotivation erhöhen. In diagnostischen 
Kontexten steht häufig die Bewertung anhand eines festgelegten Kriteriums im Vordergrund, was 

deutlich höhere Anforderungen an die Validität des Verfahrens stellt. Um diesem Anspruch 

gerecht zu werden, müsste das Instrument mit etablierten, validierten Verfahren kombiniert und im 

Hinblick auf Kriteriumsvalidität geprüft werden (Kanning, 2019; Schmidt-Atzert et al., 2021). 

Förderung überfachlicher Kompetenzen durch GBL 
Überfachliche Kompetenzen wie Kollaboration oder Entscheidungsfindung gelten als 

zentrale Erfolgsfaktoren vor dem Hintergrund gesellschaftlicher und arbeitsweltbezogener 

Herausforderungen. Die gezielte Förderung dieser Fähigkeiten mittels GBL bietet einen 
niederschwelligen und motivierenden Ansatz. Studien belegen positive Effekte von Videospielen 

auf die Entwicklung sozialer und kognitiver Kompetenzen (Bailey et al., 2006; Beigi et al., 2025; 

Connolly et al., 2012; Granic et al., 2014). Zudem deuten Ergebnisse aus simulationsbasierten 

Trainings auf einen mittelfristigen Erhalt solcher Kompetenzen hin (Yule et al., 2018). Mit ihrer 

spielbasierten Methodik leistet LevelHub in diesem Kontext einen innovativen Beitrag zur 

Entwicklung überfachlicher Fähigkeiten. 

 
Zusammenfassend lässt sich festhalten, dass das entwickelte Instrument VAS-KOOP als 

praktikables und reliables Instrument zur Bewertung überfachlicher Fähigkeiten in kooperativen 

Spielsettings eingesetzt werden kann. Die gute interne Konsistenz und Interrater-Reliabilität 
sprechen für eine solide Messqualität. Gleichzeitig weist die geringe Übereinstimmung zwischen 

Selbst- und Fremdeinschätzung auf wichtige Entwicklungspotenziale hin – sowohl inhaltlich als 

auch methodisch. Das Instrument bietet somit nicht nur eine Basis zur systematischen 

Verhaltensbeobachtung, sondern auch Anknüpfungspunkte für Reflexionsprozesse und 

weiterführende Anwendungen, etwa im Rahmen von GBA oder Kompetenzförderung mittels GBL.  

 
5 Diskussion    |    Limitationen der Untersuchung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    37 

Play & Predict 

5.3 Limitationen der Untersuchung 
Trotz dieser positiven Befunde sind für die vorliegende Untersuchung verschiedene 

Limitationen zu berücksichtigen, die sowohl die Aussagekraft der Ergebnisse einschränken als 

auch Hinweise für zukünftige Optimierungen liefern. Im Folgenden werden methodische, 

inhaltliche und kontextbezogene Einschränkungen diskutiert. 

Begrenzungen in der Entwicklung und Auswahl der Beobachtungskriterien 
Die Verhaltensindikatoren zur Entwicklung des Instruments erfolgte überwiegend durch 

LevelHub-Teammitglieder, die mit der Methodik vertraut waren. Dies birgt das Risiko verzerrter 
Einschätzungen.  

Zudem konzentriert sich das entwickelte Instrument lediglich auf drei überfachliche 

Fähigkeiten, die wiederum nur mit je drei Unterdimensionen erfasst wurden. Eine zu geringe 

Anzahl an Items oder Facetten kann die inhaltliche Validität eines Tests gefährden (Moosbrugger 

& Kelava, 2020). Die eingeschränkte Abbildung der Fähigkeiten ist daher kritisch zu betrachten. 
Weitere Kompetenzen wie Kreativität, Problemlösungsfähigkeit oder Anpassungsfähigkeit, die laut 

OECD (2018) und World Economic Forum (2025) zu wichtigen Zukunftskompetenzen zählen, 

wurden nicht berücksichtigt. Obwohl sie für den Umgang mit einer zunehmend komplexen und 

dynamischen Arbeitswelt entscheidend sind. 

Unschärfe der Indikatoren und Optimierung der Bewertungsskala 
Einige Dimensionen vereinten in den Verhaltensindikatoren eine Vielzahl teils heterogener 

Einzelaspekte, darunter z.B.: «überprüft Aktivitäten», «schafft Übersicht», «priorisiert», «sorgt 

für Effizienz und zeitliche Abstimmung» und «klärt Missverständnisse». Diese Vielzahl 
erschwerte eine klare Fokussierung und Gewichtung im Bewertungsprozess. 

Weiter wurden nur die Extrempole der Skala verbal beschrieben. Mittlere Ausprägungen 

blieben unkonkret, was bei den Bewertenden zu Unsicherheiten führen konnte. Zudem handelte 

es sich nicht um eine sogenannte Behaviorally Anchored Rating Scale (BARS), bei der jeder 

Skalenwert mit konkreten Verhaltensbeispielen verknüpft ist. Der Einsatz solcher Skalen kann 
die Objektivität und Vergleichbarkeit der Bewertungen erhöhen (Kleinmann, 2016; Smith & 

Kendall, 1963). Eine noch strukturiertere Alternative stellen Verhaltens-Checklisten dar, die sich 

zunächst auf das Vorhandensein klar definierter Verhaltensweisen konzentrieren und daraus 

eine zusammenfassende Bewertung ableiten. Dadurch lassen sich vorschnelle Globalurteile 

vermeiden und die Konstruktvalidität erhöhen (Obermann, 2002). 

Retrospektive Bewertung und Schulungsbedarf 
Die videogestützte, retrospektive Analyse erlaubte eine wiederholte Betrachtung von 

Sequenzen, wodurch differenzierte Einschätzungen möglich wurden. Bei einer Anwendung in 

Echtzeit-Settings – etwa direkt während Workshops – ist dies nicht gleichermassen umsetzbar. Die 

simultane Bewertung von neun Dimensionen bei mehreren Personen erfordert hohe kognitive 

Ressourcen von Beobachtenden. Für den praktischen Einsatz scheint eine Reduktion auf zentrale 

Kerndimensionen sowie eine modulare Anwendung des Instruments sinnvoll.  


5 Diskussion    |    Limitationen der Untersuchung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    38 

Play & Predict 

Zusätzlich zeigte sich, dass eine kurze Einführung in die Systematik nicht ausreicht. Eine 

zuverlässige Anwendung des VAS-KOOP erfordert ein gezieltes Training (Kleinmann, 2016; 

Obermann, 2002). Für weitere Erhebungen sollte der Fokus stärker auf Instruktionen vor der 

Erhebung gelegt werden. Dies könnte helfen, Bewertungsstandards zu klären, Beobachtungsfehler 

zu reduzieren und die Beurteilungsgenauigkeit zu verbessern. 

Stichprobeneigenschaften und fehlende Rückmeldung zur Anwendbarkeit 
Die Stichprobe bestand aus 30 Personen, überwiegend aus arbeitsintegrativen Massnahmen. 

Eine breitere Rekrutierung aus unterschiedlichen beruflichen Kontexten wäre für eine grössere 

Übertragbarkeit der Ergebnisse wünschenswert gewesen. Darüber hinaus wurden keine 

personenbezogenen Variablen wie Alter, Spielerfahrung oder subjektives Stresslevel erfasst – 

obwohl diese Faktoren potenziell Einfluss auf das beobachtete Verhalten haben könnten.  

Ebenso fehlt eine systematische Erhebung zur Akzeptanz und Nutzbarkeit des VAS-KOOP 

aus Sicht der Proband:innen. Angaben zur Verständlichkeit der Items oder zur Handhabung hätten 

wertvolle Hinweise für die nutzerorientierte Weiterentwicklung des Instruments liefern können.  


6 Schlussfolgerung    |    Implikationen für LevelHub 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    39 

Play & Predict 

6 Schlussfolgerung 
Die vorliegende Arbeit verfolgte das Ziel, ein systematisches Beobachtungsinstrument zur 

Erfassung überfachlicher Fähigkeiten im Kontext eines kooperativen Videospiels zu entwickeln 

und zu erproben. Aufbauend auf den Ergebnissen und der Diskussion werden in diesem Kapitel 

zentrale Implikationen, praktische Einsatzmöglichkeiten sowie Ansatzpunkte für die 

Weiterentwicklung des VAS-KOOP skizziert. 

6.1 Implikationen für LevelHub 
Mit dem VAS-KOOP wurde ein praxisnahes Beobachtungsinstrument entwickelt, das die 

systematische Erfassung überfachlicher Fähigkeiten in kooperativen Spielsituationen ermöglicht. 

Das Instrument trägt zur Qualitätssicherung der LevelHub-Methodik bei, indem es subjektive 

Einschätzungen durch klar definierte Verhaltensindikatoren ergänzt und so die Beobachtung 
standardisiert. Durch die Fokussierung auf ausgewählte Kategorien – wie Entscheidungsfindung, 

Kommunikation & Teamarbeit sowie Führung – wird die Beobachtbarkeit zentraler Kompetenzen 

erleichtert und eine Vergleichbarkeit zwischen Teilnehmenden ermöglicht. 

Darüber hinaus kann die transparente Anwendung des VAS-KOOP als strukturierte 

Reflexionshilfe dienen. Die Offenlegung der Verhaltensindikatoren kann die Auseinandersetzung 
mit dem eigenen Handeln anregen und eine fundierte Basis für Feedback- und Lernprozesse 

schaffen. Die Sichtbarmachung von blinden Flecken kann dazu beitragen und gezielte 

Entwicklungsimpulse setzen. 

Insgesamt stärkt das Instrument die Anschlussfähigkeit der LevelHub-Methodik für neue 

Einsatzbereiche – insbesondere im Kontext von Teamentwicklung und Personalbeurteilung, wo 
die gezielte Beobachtung überfachlicher Kompetenzen zunehmend an Bedeutung gewinnt. 

6.2 Implikationen für Teamentwicklung und Personalbeurteilung 
Das entwickelte VAS-KOOP zeigt vielversprechende Ansätze für die praktische 

Anwendung in teambasierten Lernformaten. Im Rahmen von Teamentwicklungsworkshops bietet 

das Instrument einen strukturierten Zugang zur Reflexion überfachlicher Fähigkeiten. Denkbar 

ist etwa, dass eine spezifische Kategorie wie Teamarbeit & Kommunikation als inhaltlicher 

Fokus eines Tagesziels definiert wird. Die Teilnehmenden setzen sich dabei im Spiel und in der 

anschliessenden Reflexion bewusst mit ihrem Verhalten in kollaborativen Problemlöseprozessen 

auseinander. Das spielerische Setting kann dabei eine gewisse Lockerheit schaffen, die es 

erleichtert, über eigene Verhaltensmuster zu sprechen und konstruktiv zu reflektieren. 

Die Besonderheit des Instruments liegt in der Verwendung klar formulierter 

Verhaltensindikatoren, die als Grundlage für systematische Rückmeldungen dienen. Dies 

ermöglicht differenzierte Diskussionen im Anschluss an die Spielphase und erleichtert die 

Übertragung in reale Arbeitskontexte. Zudem lassen sich Entwicklungsverläufe über mehrere 

Workshops hinweg nachvollziehen und mit gezielten Massnahmen fördern. 


6 Schlussfolgerung    |    Perspektiven für zukünftige Forschung 

Luca Streich    |    Hochschule für Angewandte Psychologie FHNW    |    40 

Play & Predict 

Auch im Bereich der Personalbeurteilung eröffnet VAS-KOOP neue Möglichkeiten. Es 

könnte als ergänzendes Instrument in Auswahlverfahren eingesetzt werden – insbesondere zur 

Beobachtung überfachlicher Kompetenzen in realitätsnahen, kooperativen Settings. 

Voraussetzung dafür wäre, dass das eingesetzte Spiel inhaltlich zum beruflichen 

Anforderungsprofil passt. So könnte beispielsweise das Videospiel Overcooked! 2 (Team17 & 
Ghost Town Games, 2018), das auf effektive Kommunikation und Teamkoordination angewiesen 

ist, in Auswahlverfahren für Berufe mit hohen Anforderungen an Kooperationsfähigkeit – etwa in 

der Flugsicherung oder im Operationssaal – eingesetzt werden. Zwar ist die direkte 

Übertragbarkeit der Ergebnisse auf den Berufsalltag begrenzt, doch können die beobachteten 

Verhaltensweisen als Impuls für vertiefende Gespräche und Einschätzungen dienen. 

Die LevelHub-Methodik mit dem VAS-KOOP vereint spielerisches Lernen mit strukturierter 

Verhaltensbeobachtung und eröffnet so neue Wege für Kompetenzdiagnostik. In 

Teamentwicklung wie Personalbeurteilung kann es neben klassischen Methoden als innovatives 

Instrument beigezogen werden – vorausgesetzt, es wird kontextgerecht eingesetzt. 

6.3 Perspektiven für zukünftige Forschung 
Für eine Weiterentwicklung des VAS-KOOP bieten sich mehrere Ansatzpunkte an. Eine 

Kombination des Instruments mit weiteren diagnostischen Verfahren – etwa psychometrisch 

validierten Skalen zu überfachlichen Kompetenzen wie Entscheidungsfindung, Teamarbeit oder 

Führung – könnte die Konstruktvalidität stärken und helfen, Abweichungen zwischen Selbst- und 

Fremdwahrnehmung differenzierter zu verstehen. Auch eine erneute Prüfung der Reliabilität mit 

einer grösseren Zahl an Bewertenden erscheint sinnvoll, um die Generalisierbarkeit der bisherigen 
Ergebnisse zu erhöhen. 

Darüber hinaus lohnt sich die Erprobung des Instruments mit weiteren kooperativen 

Videospielen (Farah et al., 2022). Dies könnte Aufschluss über die Skalierbarkeit des 

Instruments liefern – insbesondere in Hinblick auf den wachsenden Einsatzbereich als GBA. 

Ein weiterer Forschungsschwerpunkt sollte auf der Erweiterung der Verhaltensin