Auswahl der Algorythmen:
Über ein (lokales) neuronales Netzwerk sollen die Stimmen so klassifiziert werden, daß die einzelnen Sprecher identifiziert werden können. In den 2000er Jahren wurden hierzu noch statistische Modelle (GMM) entworfen. Erst ab 2020 wurden x-Vektoren und Deep-Learning-Modelle mit verbesserter Genauigkeit entwicklet. In diesem Gaget wurde ein leistungsfähiger ESP32 P4 mit RISC-Architektur verwendet, der ein TDNN – Netzwerk nutzt um die Stimmen zu „erkennen“.