Psychologie-Abschlussarbeiten in der HCI USE-AG

Thema 1: Einfluss der Zielprävalenz auf die visuelle Suche bei verschiedenen Display-Typen

In realen Anwendungskontexten sind Zielobjekte oft sehr selten. Forschung zeigt, dass niedrige Zielprävalenz die Fehlerrate drastisch erhöht (Wolfe et al., 2005). In dieser Arbeit soll untersucht werden, ob monochrome Displays diesen Prävalenz-Effekt verstärken und ob KI-Hervorhebungsmethoden den Effekt unterschiedlich kompensieren können.

Forschungsfragen:

  • Verstärken monochrome Displays den negativen Einfluss niedriger Zielprävalenz im Vergleich zu Farbdisplays?
  • Können räumliche Hervorhebungsmethoden (Bounding Boxes, Blur) den Prävalenzeffekt auf monochromen Displays abmildern?
  • Wie verändern sich Suchstrategien und Abbruchkriterien bei niedriger Prävalenz je nach Display-Typ?
     

Thema 2: Einfluss der Systemzuverlässigkeit auf Vertrauen und Suchleistung

Die Zuverlässigkeit von KI-Systemen beeinflusst maßgeblich, wie Nutzende mit automatisierten Empfehlungen umgehen. Zu hohes Vertrauen führt zu Automation Bias, zu niedriges Vertrauen zu Disuse (Parasuraman & Riley, 1997). Chavaillaz et al. (2018) zeigten bei der Gepäckkontrolle, dass räumliche Hinweisreize nur bei hoher Systemzuverlässigkeit die Leistung verbessern. Bei niedriger Zuverlässigkeit war die Leistung mit automatischer Unterstützung nicht besser als ohne. In realen Einsatzszenarien kann die KI-Zuverlässigkeit zudem aufgrund wechselnder Umgebungsbedingungen schwanken, wobei Menschen Schwierigkeiten haben, ihr Vertrauen entsprechend anzupassen (Wiegmann et al., 2001).

Fokus A: Statische Zuverlässigkeitsunterschiede (Between-Subjects)

  • Wie unterscheiden sich Compliance und Reliance bei hoher vs. niedriger KI-Zuverlässigkeit?
  • Passen Nutzende ihr Vertrauen angemessen an die tatsächliche Systemleistung an (Vertrauenskalibration)?
  • Unterscheiden sich die Zuverlässigkeitseffekte zwischen verschiedenen Hervorhebungsmethoden?

Fokus B: Dynamische Zuverlässigkeitsänderungen (Within-Subjects)

  • Wie schnell passen Nutzende ihr Vertrauen an, wenn die KI-Zuverlässigkeit während der Aufgabe sinkt oder steigt?
  • Zeigen sich asymmetrische Effekte (schnellerer Vertrauensverlust vs. langsamerer Vertrauensaufbau)?
  • Welche Hervorhebungsmethode ermöglicht die optimalste Vertrauenskalibration bei dynamischer Zuverlässigkeit?

Thema 3: Einfluss von Unsicherheitskommunikation auf Entscheidungsverhalten bei verschiedenen Hervorhebungsmethoden

KI-Systeme liefern neben Empfehlungen auch Konfidenzwerte, die Aufschluss über die Unsicherheit der Vorhersage geben. Kneusel und Mozer (2018) zeigten, dass graduelle Unsicherheitskommunikation effektiver sein kann als binäre Darstellungen. Je nach Hervorhebungsmethode kann Unsicherheit unterschiedlich visualisiert werden: Bei Bounding Boxes über Liniendicke oder Transparenz, bei kontextuellem Blur über die Stärke der Unschärfe. Alternativ kann Unsicherheit explizit numerisch (z.B. Prozentwert) kommuniziert werden. In dieser Arbeit soll untersucht werden, wie diese unterschiedlichen Kommunikationsformate das Entscheidungsverhalten beeinflussen.

Forschungsfragen:

  • Nutzen Menschen implizite Unsicherheitsinformationen (Liniendicke, Blur-Stärke) oder benötigen sie explizite numerische Angaben?
  • Unterscheidet sich die Nutzung von Unsicherheitsinformationen zwischen Bounding Boxes und kontextuellem Blur?
  • Führt implizite vs. explizite Unsicherheitskommunikation zu unterschiedlicher Compliance bei niedrigen vs. hohen Konfidenzwerten?
  • Welches Kommunikationsformat ermöglicht die beste Vertrauenskalibration?
     

Thema 4: Einfluss mehrerer KI-Markierungen auf die visuelle Suche bei verschiedenen Hervorhebungsmethoden

  • In realen Szenarien markieren KI-Systeme häufig mehrere potenzielle Ziele pro Bild. Schwartz et al. (2020) zeigten bei der Mammographie-Interpretation, dass jede zusätzliche Markierung die Interpretationszeit erhöht, was darauf hindeutet, dass jede Markierung aktiv evaluiert werden muss.  Unklar ist, wie sich verschiedene Hervorhebungsmethoden auf die Suchstrategie auswirken, wenn mehrere Regionen gleichzeitig als potenzielle Ziele hervorgehoben werden. Bounding Boxes erzeugen mehrere diskrete Aufmerksamkeitsziele, während kontextuelles Blur bei mehreren Markierungen größere Bereiche scharf darstellt.
  • Forschungsfragen:
  • Wie verändert sich die Suchstrategie bei unterschiedlicher Anzahl von Markierungen?
  • Unterscheiden sich Bounding Boxes und kontextuelles Blur in ihrer Wirkung auf Entscheidungszeit und Genauigkeit bei mehreren Markierungen?
  • Führen mehrere Markierungen zu erhöhter kognitiver Belastung und wie unterscheidet sich dies zwischen Methoden?
  • Wie beeinflusst die Anzahl der Markierungen das Vertrauen in das System?

     

Art der Abschlussarbeit

Status der Arbeit

Hintergrundinformationen zu der Arbeit

Projekt POSAIDON:

Im Projekt POSAIDON werden KI-gestützte Entscheidungsunterstützungssysteme für die Seenotrettung aus der Luft entwickelt. Weitere Informationen: https://www.imis.uni-luebeck.de/de/forschung/projekte/posaidon

Seenotrettung zählt zu den sicherheitskritischen Systemen, bei denen Fehler zum Verlust von Menschenleben führen können (Knight, 2002). Operateure müssen unter Zeitdruck in komplexen Umgebungen mit unvollständigen oder unzuverlässigen Informationen schnelle und akkurate Entscheidungen treffen (Klein et al., 1986; Orasanu & Connolly, 1993). Moderne KI-Systeme können dabei unterstützen und erreichen in der Luftbildanalyse Erkennungsraten von 70-90% (Martinez-Esteso et al., 2025). Allerdings kann Systemzuverlässigkeit in dynamischen Einsatzumgebungen nie vollständig garantiert werden (Cummings, 2006), und höhere Trefferraten gehen zwangsläufig mit mehr Fehlalarmen einher (D'Orsi, 2001).

Diese Unzuverlässigkeit hat Konsequenzen für die Mensch-KI-Interaktion: Unangemessenes Vertrauen führt entweder zu Automation Bias (übermäßige Abhängigkeit von der KI) oder zu Disuse (Nichtnutzung des Systems; Parasuraman & Riley, 1997). Eine zusätzliche Herausforderung stellen die in vielen sicherheitskritischen Bereichen verwendeten monochromen Displays dar, die aufgrund von geringerem Stromverbrauch, höherer Zuverlässigkeit und bestehender Systeminfrastruktur weiterhin im Einsatz sind (Samei, 2005; Krupinski, 2007). Ohne Farbe als Unterscheidungsmerkmal verschiebt sich die visuelle Suche hin zu einer aufwändigeren seriellen Verarbeitung (Treisman & Gelade, 1980; Maltz & Shinar, 2003). Ob und wie KI-basierte Hinweisreize diese Einschränkungen kompensieren können, hängt von den perzeptuellen Anforderungen ab: Bei schwierigen Suchbedingungen (z.B. Infrarotbildern) verbessern sie die Erkennung, bei einfachen Bedingungen (z.B. Farbbildern) können sie die Leistung sogar beeinträchtigen (Maltz & Shinar, 2003). Dabei zeigen räumliche Hinweisreize bei hoher Systemzuverlässigkeit bessere Leistungen als indirekte, textbasierte Hinweise (Chavaillaz et al., 2018).

Darauf aufbauend ergeben sich verschiedene Forschungsfragen für studentische Abschlussarbeiten in der Psychologie bzw. Masterarbeiten in der Medieninformatik. Die folgenden Themen stellen eine Auswahl dar und können nach Absprache angepasst oder durch eigene Ideen ergänzt werden.

Literatur

  • Chavaillaz, A., Schwaninger, A., Michel, S., & Sauer, J. (2018). Automation in Visual Inspection Tasks: X-Ray Luggage Screening Supported by a System of Direct, Indirect or Adaptable Cueing with Low and High System Reliability. Ergonomics, 61(10), 1395–1408. https://doi.org/10.1080/00140139.2018.1481231
  • Cummings, M. L. (2006). Automation and Accountability in Decision Support System Interface Design. Journal of Technology Studies, 32(1), 23–31. https://doi.org/10.21061/jots.v32i1.a.4
  • D’Orsi, C. J. (2001). Computer-aided Detection: There Is No Free Lunch. Radiology, 221(3), 585–586. https://doi.org/10.1148/radiol.2213011476
  • Klein, G. A., Calderwood, R., & Clinton-Cirocco, A. (1986). Rapid Decision Making on the Fire Ground. Proceedings of the Human Factors Society Annual Meeting, 30(6), 576–580. https://doi.org/10.1177/154193128603000616
  • Kneusel, R. T., & Mozer, M. C. (2018). Improving Human-Machine Cooperative Visual Search With Soft Highlighting. ACM Transactions on Applied Perception, 15(1), 1–21. https://doi.org/10.1145/3129669
  • Knight, J. C. (2002). Safety critical systems: Challenges and directions. Proceedings of the 24th International Conference on Software Engineering  - ICSE ’02, 547. https://doi.org/10.1145/581339.581406
  • Orasanu, J., & Connolly, T. (1993). The Reinvention of Decision Making. In G. A. Klein, J. Orasanu, R. Calderwood, & C. E. Zsambok (Hrsg.), Decision making in action: Models and methods (S. 3–20). Ablex Pub.
  • Parasuraman, R., & Riley, V. (1997). Humans and Automation: Use, Misuse, Disuse, Abuse. Human Factors: The Journal of the Human Factors and Ergonomics Society, 39(2), 230–253. https://doi.org/10.1518/001872097778543886
  • Schwartz, T. M., Hillis, S. L., Sridharan, R., Lukyanchenko, O., Geiser, W., Whitman, G. J., Wei, W., & Haygood, T. M. (2020). Interpretation time for screening mammography as a function of the number of computer-aided detection marks. Journal of Medical Imaging, 7(02), 1. https://doi.org/10.1117/1.JMI.7.2.022408
  • Wiegmann, D. A., Rich, A., & Zhang, H. (2001). Automated Diagnostic Aids: The Effects of Aid Reliability on Users’ Trust and Reliance. Theoretical Issues in Ergonomics Science, 2(4), 352–367. https://doi.org/10.1080/14639220110110306
  • Wolfe, J. M., Horowitz, T. S., & Kenner, N. M. (2005). Rare Items Often Missed in Visual Searches. Nature, 435(7041), 439–440. https://doi.org/10.1038/435439a

Zitation kopiert