Making Sense of Bureaucratic Documents : Named Entity Recognition for State Authority Archives
Julkaisuvuosi
2024
Tekijät
Poso, Venla; Lipsanen, Mikko; Toivanen, Ida; Välisalo, Tanja
Tiivistelmä
The usability and accessibility of digitised archival data can be improved using deep learning solutions. In this paper, the authors present their work in developing a named entity recognition (NER) model for digitised archival data, specifically state authority documents. The entities for the model were chosen based on surveying different user groups. In addition to common entities, two new entities were created to identify businesses (FIBC) and archival documents (JON). The NER model was trained by fine-tuning an existing Finnish BERT model. The training data also included modern digitally born texts to achieve good performance with various types of inputs. The finished model performs fairly well with OCR-processed data, achieving an overall F1 score of 0.868, and particularly well with the new entities (F1 scores of 0.89 and 0.97 for JON and FIBC, respectively).
Näytä enemmänOrganisaatiot ja tekijät
Julkaisutyyppi
Julkaisumuoto
Artikkeli
Emojulkaisun tyyppi
Konferenssi
Artikkelin tyyppi
Muu artikkeli
Yleisö
TieteellinenVertaisarvioitu
Ei-vertaisarvioituOKM:n julkaisutyyppiluokitus
B3 Vertaisarvioimaton artikkeli konferenssijulkaisussaJulkaisukanavan tiedot
Lehti
Archiving
Emojulkaisun nimi
Konferenssi
Archiving Conference
Kustantaja
Society for Imaging Science & Technology
Sivut
6-10
ISSN
ISBN
Avoin saatavuus
Avoin saatavuus kustantajan palvelussa
Kyllä
Julkaisukanavan avoin saatavuus
Kokonaan avoin julkaisukanava
Rinnakkaistallennettu
Kyllä
Muut tiedot
Tieteenalat
Tietojenkäsittely ja informaatiotieteet; Historia ja arkeologia; Muut humanistiset tieteet
Avainsanat
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Julkaisumaa
Yhdysvallat (USA)
Kustantajan kansainvälisyys
Kansainvälinen
Kieli
englanti
Kansainvälinen yhteisjulkaisu
Ei
Yhteisjulkaisu yrityksen kanssa
Ei
DOI
10.2352/issn.2168-3204.2024.21.1.2
Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen
Kyllä