Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici
Autori
Riccardo Amerigo Vigliermo
Il riconoscimento ottico dei caratteri (Optical Character Recognition, OCR) è uno strumento centrale per la conservazione di dati digitalizzati, ma mostra limiti significativi con alfabeti non latini, specie di fronte a stampe desuete o manoscritti, dove dati “rumorosi” e variabili contestuali ostacolano il riconoscimento ottimale. L’OCR è centrale nello sviluppo di applicazioni che prevedono l’impiego di altre tecniche di elaborazione del linguaggio naturale (Natural Language Processing, NLP). L’analisi degli errori, come fase di post-elaborazione (post-processing), può migliorare l’accuratezza soprattutto se combinata con un’analisi contestuale. Lo studio qui presentato ha l’obiettivo di delineare i tratti comuni degli errori commessi da tali OCR testati nel progetto Digital Maktaba.
Dowloads
Autori/Autrici
Riccardo Amerigo Vigliermo - Università di Modena e Reggio Emilia – FSCIRE https://orcid.org/0000-0001-9914-3295
Licenza
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Copyright
Copyright (c) 2025 Riccardo Amerigo Vigliermo
- Abstract: 100
- PDF: 56
Condividi
Autori/Autrici
Riccardo Amerigo Vigliermo - Università di Modena e Reggio Emilia – FSCIRE https://orcid.org/0000-0001-9914-3295
Licenza
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Copyright
Copyright (c) 2025 Riccardo Amerigo Vigliermo
- Abstract: 100
- PDF: 56