Multimodal Cross-Attention Mechanism-Based Algorithm for Elderly Behavior Monitoring and Recognition

Liu Hao; Feng Zhiquan; Guo Qingbei

doi:10.23919/cje.2023.00.263

Hao Liu, Zhiquan Feng, and Qingbei Guo, “Multimodal cross-attention mechanism-based algorithm for elderly behavior monitoring and recognition,” Chinese Journal of Electronics, vol. 34, no. 1, pp. 309–321, 2025. DOI: 10.23919/cje.2023.00.263

Citation:

Multimodal Cross-Attention Mechanism-Based Algorithm for Elderly Behavior Monitoring and Recognition

Graphical Abstract

Graphical Abstract

Abstract

Abstract

In contrast to the general population, behavior recognition among the elderly poses increased specificity and difficulty, rendering the reliability and usability aspects of safety monitoring systems for the elderly more challenging. Hence, this study proposes a multi-modal perception-based solution for an elderly safety monitoring recognition system. The proposed approach introduces a recognition algorithm based on multi-modal cross-attention mechanism, innovatively incorporating complex information such as scene context and voice to achieve more accurate behavior recognition. By fusing four modalities, namely image, skeleton, sensor data, and audio, we further enhance the accuracy of recognition. Additionally, we introduce a novel human-robot interaction mode, where the system associates directly recognized intentions with robotic actions without explicit commands, delivering a more natural and efficient elderly assistance paradigm. This mode not only elevates the level of safety monitoring for the elderly but also facilitates a more natural and efficient caregiving approach. Experimental results demonstrate significant improvement in recognition accuracy for 11 typical elderly behaviors compared to existing methods.