(Versión en español abajo)
IMDEA Networks Institute’s #Data Transparency Group has already started producing relevant papers about #FederatedLearning (FL) in top CS venues. Last March 2023, our colleague Tianyue Chu presented the paper “Securing Federated Sensitive Topic Classification against Poisoning Attacks“ (https://lnkd.in/dRUVze9A) at the Network and Distributed System Security Symposium (NDSS) conference (ranked A* according to CORE2023) in San Diego, California. This paper relates to the FedSecure research component of MLEDGE Project, which will test the solution on Acuratio’s FL platform.
The paper presents an FL-based solution for building a distributed classifier capable of detecting URLs containing sensitive content (i.e., content related to categories such as health, political beliefs, sexual orientation, etc), and develops a robust aggregation scheme based on subjective logic and residual-based attack detection of malicious users disseminating faulty model updates. Employing a combination of theoretical analysis, trace-driven simulation, as well as experimental validation with a prototype and real users, the work shows that the classifier can detect sensitive content with high accuracy, learn new labels fast, and remain robust in view of poisoning attacks from malicious users, as well as imperfect input from non-malicious ones.
__________
El Grupo de Transparencia de los Datos de IMDEA Networks Institute Networks ya ha empezado a producir artículos relevantes sobre aprendizaje federado (FL) en los principales foros de ciencias de la computación. El pasado marzo de 2023, nuestra colega Tianyue Chu presentó la ponencia "Securing Federated Sensitive Topic Classification against Poisoning Attacks" en la conferencia NDSS (clasificada A* según CORE2023) en San Diego, California. Esta ponencia está relacionada con el componente de investigación FedSecure del proyecto, que testará la solución propuesta sobre la plataforma de FL de la empresa Acuratio.
En él se presenta una solución FL para construir un clasificador distribuido capaz de detectar URLs con contenido sensible (ej. relacionado con categorías como la salud, las creencias políticas, la orientación sexual, etc), y se desarrolla un esquema de agregación robusto basado en lógica subjetiva y detección de ataques basados en residuos para identificar usuarios maliciosos que difundan actualizaciones defectuosas del modelo.. Mediante una combinación de análisis teórico, simulación basada en trazas y validación experimental mediante prototipo y usuarios reales, el trabajo demuestra que el clasificador puede detectar contenidos sensibles con gran precisión, aprender nuevas etiquetas con rapidez y seguir siendo robusto frente a ataques de envenenamiento por parte de usuarios malintencionados, así como frente a entradas imperfectas de usuarios bienintencionados.