Evaluation of synthetic data generators on complex tabular data

Kein Vorschaubild vorhanden
Autor:in (Körperschaft)
Publikationsdatum
2024
Typ der Arbeit
Studiengang
Typ
04B - Beitrag Konferenzschrift
Herausgeber:in (Körperschaft)
Betreuer:in
Übergeordnetes Werk
Privacy in statistical databases. International Conference, PSD 2024, Antibes Juan-les-Pins, France, September 25–27, 2024, Proceedings
Themenheft
Link
Reihe / Serie
Lecture Notes in Computer Science
Reihennummer
14915
Jahrgang / Band
Ausgabe / Nummer
Seiten / Dauer
194-209
Patentnummer
Verlag / Herausgebende Institution
Springer
Verlagsort / Veranstaltungsort
Cham
Auflage
Version
Programmiersprache
Abtretungsempfänger:in
Praxispartner:in/Auftraggeber:in
Zusammenfassung
Synthetic data generators are widely utilized to produce synthetic data, serving as a complement or replacement for real data. However, the utility of data is often limited by its complexity. The aim of this paper is to show their performance using a complex data set that includes cluster structures and complex relationships. We compare different synthesizers such as synthpop, Synthetic Data Vault, simPop, Mostly AI, Gretel, Realtabformer, and arf, taking into account their different methodologies with (mostly) default settings, on two properties: syntactical accuracy and statistical accuracy. As a complex and popular data set, we used the European Statistics on Income and Living Conditions data set. Almost all synthesizers resulted in low data utility and low syntactical accuracy. The results indicated that for such complex data, simPop, a computational and methodological framework for simulating complex data based on conditional modeling, emerged as the most effective approach for static tabular data and is superior compared to other conditional or joint modelling approaches.
Schlagwörter
Fachgebiet (DDC)
330 - Wirtschaft
004 - Computer Wissenschaften, Internet
510 - Mathematik
Projekt
Veranstaltung
International Conference, PSD 2024
Startdatum der Ausstellung
Enddatum der Ausstellung
Startdatum der Konferenz
25.09.2024
Enddatum der Konferenz
27.09.2024
Datum der letzten Prüfung
ISBN
978-3-031-69650-3
978-3-031-69651-0
ISSN
Sprache
Englisch
Während FHNW Zugehörigkeit erstellt
Ja
Zukunftsfelder FHNW
Publikationsstatus
Veröffentlicht
Begutachtung
Peer-Review der ganzen Publikation
Open Access-Status
Closed
Lizenz
Zitation
THEES, Oscar, Jiri NOVAK und Matthias TEMPL, 2024. Evaluation of synthetic data generators on complex tabular data. In: Josep DOMINGO-FERRER und Melek ÖNEN (Hrsg.), Privacy in statistical databases. International Conference, PSD 2024, Antibes Juan-les-Pins, France, September 25–27, 2024, Proceedings. Cham: Springer. 2024. S. 194–209. Lecture Notes in Computer Science, 14915. ISBN 978-3-031-69650-3. Verfügbar unter: https://irf.fhnw.ch/handle/11654/48405