Enhancing the Measurify IoT data management platform with high performance, edge-optimized deep learning models for time series processing

Fresta, Matteo

doi:10.15167/fresta-matteo_phd2026-05-26

This thesis presents an end-to-end workflow for the management, analysis, and deployment of time series-based machine learning systems in IoT and Edge AI applications. Modern systems continuously generate large volumes of time series data describing the temporal evolution of physical processes. To manage this time series data effectively, workflows must cover data acquisition, storage, model training, and deployment on embedded hardware. In literature, these steps are often treated separately, resulting in fragmented solutions, limiting reproducibility, scalability, and real-world applicability. This thesis addresses this fragmentation by proposing a unified workflow that spans the entire lifecycle of time series data, from acquisition on edge devices to real-time inference on resource-constrained platforms. Rather than focusing on isolated algorithms or individual application domains, the work adopts a system-level perspective, integrating data management, machine learning, and deployment-oriented evaluation into a coherent and reusable methodology. The proposed workflow is built around Measurify, an open-source, measurement-oriented IoT data management framework. Throughout the thesis, Measurify is extended to support large-scale time-series ingestion through robust CSV-based workflows, semantic data modeling, experiment metadata management, and a Model Registry for datasets, algorithms, and trained models. These extensions enable reproducible experimentation and consistent dataset handling across heterogeneous application domains. Building on this infrastructure, the thesis investigates a range of lightweight machine learning models specifically tailored for time series processing under realistic embedded constraints. The proposed models include compact convolutional and recurrent architectures (such as 1D-CNN and LSTM), efficient feature-based methods (such as MiniRocket), and highly compressed neural networks (such as binary neural networks), evaluated not only in terms of predictive accuracy but also with respect to latency, memory footprint, energy consumption, and robustness. This evaluation highlights practical trade-offs that are often overlooked in purely algorithmic studies. A central aspect of the proposed workflow is the explicit consideration of heterogeneous target hardware platforms. Throughout the thesis, models are designed and evaluated across a spectrum of embedded devices, ranging from low-end microcontroller-class platforms such as Arduino and STM-based systems, to single-board computers including Raspberry Pi and NVIDIA Jetson Nano, and up to Field-Programmable Gate Arrays (FPGAs) for hardware-accelerated deployment. The methodology is applied and validated across multiple application domains, including human and sport activity recognition, structural health monitoring, and driver distraction detection. For each domain, the existing literature is analyzed and the proposed solutions advance the state-of-the-art by achieving competitive or improved performance under more realistic evaluation settings, while explicitly accounting for deployability constraints. Overall, this thesis demonstrates that combining time series data management, lightweight machine learning, and embedded deployment within a unified workflow enables both scientific progress and practical applicability, bridging the gap between machine learning research and real-world Edge AI systems.

Questa tesi presenta un workflow end-to-end per la gestione, l’analisi e il deployment di sistemi di machine learning basati su serie temporali in applicazioni IoT ed Edge AI. I sistemi moderni generano continuamente grandi volumi di dati temporali che descrivono l’evoluzione nel tempo di processi fisici. Per gestire efficacemente questi dati, è necessario disporre di soluzioni che coprano l’intero ciclo di vita dei dati, dall’acquisizione alla memorizzazione, dall’addestramento dei modelli, fino al deployment su sistemi hardware. Tuttavia, nella letteratura e nella pratica applicativa, queste fasi sono spesso affrontate in modo disgiunto, dando origine a soluzioni frammentate che limitano la riproducibilità, la scalabilità e l’effettiva applicabilità nel mondo reale. La tesi affronta questa frammentazione proponendo un workflow unificato che integra gestione dei dati, machine learning e valutazione orientata al deployment, coprendo l’intero ciclo di vita delle serie temporali: dall’acquisizione su dispositivi lato edge fino all’esecuzione in tempo reale su piattaforme a risorse limitate. Piuttosto che concentrarsi su singoli algoritmi o su casi di studio isolati, il lavoro adotta una prospettiva a livello di sistema, in cui i modelli vengono progettati e valutati come componenti di sistemi embedded soggetti a vincoli reali di latenza, memoria ed energia. All’interno di questo contesto, Measurify viene adottato come infrastruttura di riferimento per la gestione dei dati. Measurify è un framework open-source e orientato alle misure per applicazioni IoT, che nel corso della tesi è stato esteso per supportare l’ingestione di serie temporali su larga scala tramite workflow robusti basati su CSV, modellazione semantica dei dati, gestione dei metadati sperimentali e un Model Registry per dataset, algoritmi e modelli addestrati. Tali estensioni consentono sperimentazioni riproducibili e una gestione coerente dei dati in domini applicativi eterogenei. A partire da questa infrastruttura, la tesi analizza e sviluppa modelli di machine learning leggeri, specificamente progettati per l’elaborazione di serie temporali in contesti embedded. I modelli considerati includono architetture convoluzionali e ricorrenti (come 1D-CNN e LSTM), metodi efficienti basati su feature (come MiniRocket) e reti neurali fortemente compresse (come le Reti Neurali Binarie). Le prestazioni vengono valutate non solo in termini di accuratezza, ma anche considerando latenza, occupazione di memoria, consumo energetico e robustezza, mettendo in evidenza compromessi progettuali spesso trascurati negli studi puramente algoritmici. Un elemento centrale del lavoro è la valutazione su piattaforme hardware eterogenee. I modelli sono testati su un ampio spettro di dispositivi embedded, che include microcontrollori a bassissime risorse come Arduino e sistemi basati su STM, single-board computer come Raspberry Pi e NVIDIA Jetson Nano, fino a FPGA per il deployment con accelerazione hardware. La metodologia proposta è validata in diversi domini applicativi, tra cui il riconoscimento di attività umane e sportive, il monitoraggio della salute strutturale e il rilevamento della distrazione del conducente. In ciascun dominio, le soluzioni proposte avanzano lo stato dell’arte ottenendo prestazioni competitive o migliorative in condizioni di valutazione più realistiche, tenendo esplicitamente conto dei vincoli di applicabilità. Nel complesso, questa tesi dimostra che l’integrazione di gestione delle serie temporali, machine learning e deployment embedded all’interno di un workflow coerente consente di colmare il divario tra la ricerca sul machine learning e lo sviluppo di sistemi Edge AI realmente utilizzabili in contesti industriali e IoT.