undefined

Developing named-entity recognition for state authority archives

Julkaisuvuosi

2025

Tekijät

Toivanen, Ida; Poso, Venla; Lipsanen, Mikko; Välisalo, Tanja

Tiivistelmä

Named entity recognition (NER) is one of the more common natural language processing tasks, that usually entails the detection of entities like person, location and date from textual data. Due to the bureaucratic language present in the data from state authority archives, existing NER models may not perform as well as researchers utilising them would wish. The diversity of the archival data, containing texts from different domains, as well as noise due to imperfect optical character recognition (OCR), creates challenges for NER. This gave us an incentive to train our own NER model, FinArcNER, and see if our attempts would produce better classification results in an archival setting. The aim of our study was to answer the following research questions: 1) Does training with noisy archival data bring the needed improvement to the model performance? 2) Does the training with noisy archival data skew the results with non-archival data? The FinArcNER model shows consistent performance when tested with modern and archival data (F1 scores 0.9200 and 0.8710, respectively). We can deduce from this that the increased diversity of the training data improved the model performance – that is, even though we included archival data with OCR noise, the model still learned to detect named entities correctly from noise-free, non-archival data.
Näytä enemmän

Organisaatiot ja tekijät

Jyväskylän yliopisto

Toivanen Ida Orcid -palvelun logo

Poso Venla Orcid -palvelun logo

Julkaisutyyppi

Julkaisumuoto

Artikkeli

Emojulkaisun tyyppi

Konferenssi

Artikkelin tyyppi

Muu artikkeli

Yleisö

Tieteellinen

Vertaisarvioitu

Vertaisarvioitu

OKM:n julkaisutyyppiluokitus

A4 Artikkeli konferenssijulkaisussa

Julkaisukanavan tiedot

Emojulkaisun toimittajat

Holownia, Olga; Sigurðarson, Eiríkur Smári

Volyymi

7

Numero

3

Julkaisu­foorumi

92109

Julkaisufoorumitaso

1

Avoin saatavuus

Avoin saatavuus kustantajan palvelussa

Kyllä

Julkaisukanavan avoin saatavuus

Kokonaan avoin julkaisukanava

Rinnakkaistallennettu

Kyllä

Muut tiedot

Tieteenalat

Tietojenkäsittely ja informaatiotieteet; Historia ja arkeologia; Muut humanistiset tieteet

Avainsanat

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Julkaisumaa

Norja

Kustantajan kansainvälisyys

Kansainvälinen

Kieli

englanti

Kansainvälinen yhteisjulkaisu

Ei

Yhteisjulkaisu yrityksen kanssa

Ei

DOI

10.5617/dhnbpub.12262

Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen

Kyllä