Il set di dati HA4M: Multi

Notizia

CasaCasa / Notizia / Il set di dati HA4M: Multi

May 16, 2023

Il set di dati HA4M: Multi

Dati scientifici volume 9, numero articolo: 745 (2022) Cita questo articolo 2558 Accessi 1 Dettagli metriche alternative Questo documento introduce il monitoraggio multimodale dell'azione umana nel settore manifatturiero (HA4M)

Dati scientifici volume 9, numero articolo: 745 (2022) Citare questo articolo

2558 accessi

1 Altmetrico

Dettagli sulle metriche

Questo articolo introduce il dataset Human Action Multi-Modal Monitoring in Manufacturing (HA4M), una raccolta di dati multimodali relativi alle azioni eseguite da diversi soggetti che costruiscono un treno di ingranaggi epiciclici (EGT). In particolare, 41 soggetti hanno eseguito diverse prove del compito di assemblaggio, che consiste di 12 azioni. I dati sono stati raccolti in uno scenario di laboratorio utilizzando un Microsoft® Azure Kinect che integra una fotocamera di profondità, una fotocamera RGB ed emettitori a infrarossi (IR). Per quanto a conoscenza degli autori, il set di dati HA4M è il primo set di dati multimodale su un'attività di assemblaggio contenente sei tipi di dati: immagini RGB, mappe di profondità, immagini IR, immagini allineate da RGB a profondità, nuvole di punti e scheletro dati. Questi dati rappresentano una buona base per sviluppare e testare sistemi avanzati di riconoscimento delle azioni in diversi campi, tra cui la visione artificiale e l’apprendimento automatico, e domini applicativi come la produzione intelligente e la collaborazione uomo-robot.

Misurazione(i)

azioni umane nel contesto produttivo

Tipi di tecnologia

Fotocamera Kinect di Microsoft Azure

Il riconoscimento dell'azione umana è un argomento attivo di ricerca nel campo della visione artificiale1,2 e dell'apprendimento automatico3,4 e nell'ultimo decennio è stato svolto un vasto lavoro di ricerca, come visto nella letteratura esistente5. Inoltre, la recente diffusione di sistemi di telecamere a basso costo, comprese le telecamere di profondità6, ha rafforzato lo sviluppo di sistemi di osservazione in una varietà di domini applicativi come la videosorveglianza, la sicurezza e la sicurezza domestica intelligente, la domotica ambientale, la sanità -cura e così via. Tuttavia, è stato fatto poco lavoro nel riconoscimento dell’azione umana per l’assemblaggio produttivo7,8,9 e la scarsa disponibilità di set di dati pubblici limita lo studio, lo sviluppo e il confronto di nuovi metodi. Ciò è dovuto principalmente a questioni impegnative come la somiglianza tra le azioni, la complessità delle azioni, la manipolazione di strumenti e parti, la presenza di movimenti fini e operazioni complesse.

Il riconoscimento delle azioni umane nel contesto della produzione intelligente è di grande importanza per vari scopi: migliorare l’efficienza operativa8; promuovere la cooperazione uomo-robot10; assistere gli operatori11; sostenere la formazione dei dipendenti9,12; aumentare la produttività e la sicurezza13; o per promuovere la buona salute mentale dei lavoratori14. In questo articolo, presentiamo il set di dati Human Action Multi-Modal Monitoring in Manufacturing (HA4M), che è un set di dati multimodale acquisito da una telecamera RGB-D durante l'assemblaggio di un treno di ingranaggi epiciclici (EGT) (vedere Fig. 1) .

Componenti coinvolti nell'assemblaggio del treno di ingranaggi epicicloidali. Il modello CAD dei componenti è disponibile al pubblico su44.

Il set di dati HA4M fornisce una buona base per lo sviluppo, la convalida e il test di tecniche e metodologie per riconoscere le azioni di assemblaggio. La letteratura è ricca di set di dati RGB-D per il riconoscimento delle azioni umane15,16,17 acquisiti prevalentemente in ambienti non vincolati interni/esterni. Sono per lo più legati ad azioni quotidiane (come camminare, saltare, agitare, piegarsi, ecc.), condizioni mediche (come mal di testa, mal di schiena, barcollare, ecc.), interazioni tra due persone (come abbracciare, scattare una foto , puntare il dito, dare oggetti, ecc.) o azioni di gioco (come pugni in avanti, servizio nel tennis, swing nel golf, ecc.). La tabella 1 riporta alcuni dei set di dati RGB-D più famosi e comunemente utilizzati sul riconoscimento delle azioni umane descrivendone le principali peculiarità.

Per quanto a conoscenza degli autori, esistono pochi set di dati basati sulla visione nel contesto dell'assemblaggio di oggetti. I ricercatori solitamente costruiscono i propri set di dati su dati video privati7,18. La tabella 2 confronta il set di dati HA4M proposto con i set di dati esistenti sul riconoscimento delle azioni di assemblaggio. Come mostrato nella Tabella 2, la proposta HA4M presenta vari contributi principali: