undefined

Making Sense of Bureaucratic Documents : Named Entity Recognition for State Authority Archives

Julkaisuvuosi

2024

Tekijät

Poso, Venla; Lipsanen, Mikko; Toivanen, Ida; Välisalo, Tanja

Tiivistelmä

The usability and accessibility of digitised archival data can be improved using deep learning solutions. In this paper, the authors present their work in developing a named entity recognition (NER) model for digitised archival data, specifically state authority documents. The entities for the model were chosen based on surveying different user groups. In addition to common entities, two new entities were created to identify businesses (FIBC) and archival documents (JON). The NER model was trained by fine-tuning an existing Finnish BERT model. The training data also included modern digitally born texts to achieve good performance with various types of inputs. The finished model performs fairly well with OCR-processed data, achieving an overall F1 score of 0.868, and particularly well with the new entities (F1 scores of 0.89 and 0.97 for JON and FIBC, respectively).
Näytä enemmän

Organisaatiot ja tekijät

Jyväskylän yliopisto

Toivanen Ida Orcid -palvelun logo

Välisalo Tanja Orcid -palvelun logo

Poso Venla Orcid -palvelun logo

Julkaisutyyppi

Julkaisumuoto

Artikkeli

Emojulkaisun tyyppi

Konferenssi

Artikkelin tyyppi

Muu artikkeli

Yleisö

Tieteellinen

Vertaisarvioitu

Ei-vertaisarvioitu

OKM:n julkaisutyyppiluokitus

B3 Vertaisarvioimaton artikkeli konferenssijulkaisussa

Julkaisukanavan tiedot

Lehti

Archiving

Konferenssi

Archiving Conference

Kustantaja

Society for Imaging Science & Technology

Sivut

6-10

Avoin saatavuus

Avoin saatavuus kustantajan palvelussa

Kyllä

Julkaisukanavan avoin saatavuus

Kokonaan avoin julkaisukanava

Rinnakkaistallennettu

Kyllä

Muut tiedot

Tieteenalat

Tietojenkäsittely ja informaatiotieteet; Historia ja arkeologia; Muut humanistiset tieteet

Avainsanat

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Julkaisumaa

Yhdysvallat (USA)

Kustantajan kansainvälisyys

Kansainvälinen

Kieli

englanti

Kansainvälinen yhteisjulkaisu

Ei

Yhteisjulkaisu yrityksen kanssa

Ei

DOI

10.2352/issn.2168-3204.2024.21.1.2

Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen

Kyllä