FLIE: form labeling for information extraction

Vorschaubild nicht verfügbar
Autor:in (Körperschaft)
Publikationsdatum
2021
Typ der Arbeit
Studiengang
Typ
04B - Beitrag Konferenzschrift
Herausgeber:in (Körperschaft)
Betreuer:in
Übergeordnetes Werk
Proceedings of the Future Technologies Conference (FTC) 2020
Themenheft
Link
Reihe / Serie
Advances in Intelligent Systems and Computing
Reihennummer
1289
Jahrgang / Band
2
Ausgabe / Nummer
Seiten / Dauer
550-567
Patentnummer
Verlag / Herausgebende Institution
Verlagsort / Veranstaltungsort
Vancouver
Auflage
Version
Programmiersprache
Abtretungsempfänger:in
Praxispartner:in/Auftraggeber:in
Zusammenfassung
Information extraction (IE) from forms remains an unsolved problem, with some exceptions, like bills. Forms are complex and the templates are often unstable, due to the injection of advertising, extra conditions, or document merging. Our scenario deals with insurance forms used by brokers in Switzerland. Here, each combination of insurer, insurance type and language results in a new document layout, leading to a few hundred document types. To help brokers extract data from policies, we developed a new labeling method, called FLIE (form labeling for information extraction). FLIE first assigns a document to a cluster, grouping by language, insurer, and insurance type. It then labels the layout. To produce training data, the user annotates a sample document by hand, adding attribute names, i.e. provides a mapping. FLIE applies machine learning to propagate the mapping and extracts information. Our results are based on 24 Swiss policies in German: UVG (mandatory accident insurance), KTG (sick pay insurance), and UVGZ (optional accident insurance). Our solution has an accuracy of around 84-89%. It is currently being extended to other policy types and languages.
Schlagwörter
Fachgebiet (DDC)
330 - Wirtschaft
Projekt
Veranstaltung
Future Technologies Conference (FTC) 2020
Startdatum der Ausstellung
Enddatum der Ausstellung
Startdatum der Konferenz
05.11.2020
Enddatum der Konferenz
06.11.2020
Datum der letzten Prüfung
ISBN
ISSN
Sprache
Englisch
Während FHNW Zugehörigkeit erstellt
Ja
Publikationsstatus
Veröffentlicht
Begutachtung
Peer-Review der ganzen Publikation
Open Access-Status
Closed
Lizenz
Zitation
PUSTULKA, Elzbieta, Thomas HANNE, Phillip GACHNANG und Pasquale BIAFORA, 2021. FLIE: form labeling for information extraction. In: Kohei ARAI, Supriya KAPOOR und Rahul BHATIA (Hrsg.), Proceedings of the Future Technologies Conference (FTC) 2020. Vancouver. 2021. S. 550–567. Advances in Intelligent Systems and Computing, 1289. Verfügbar unter: https://irf.fhnw.ch/handle/11654/42798