Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici

Riccardo Amerigo Vigliermo

doi:10.36181/digitalia-00150

Sezione: Documenti e Discussioni

Data di pubblicazione: 22-12-2025

Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici

Riccardo Amerigo Vigliermo

Parole chiave: Digitisation, OCR, Alfabeto Arabo, Glifi e Grafemi Arabi, Biblioteche digitali

Il riconoscimento ottico dei caratteri (Optical Character Recognition, OCR) è uno strumento centrale per la conservazione di dati digitalizzati, ma mostra limiti significativi con alfabeti non latini, specie di fronte a stampe desuete o manoscritti, dove dati “rumorosi” e variabili contestuali ostacolano il riconoscimento ottimale. L’OCR è centrale nello sviluppo di applicazioni che prevedono l’impiego di altre tecniche di elaborazione del linguaggio naturale (Natural Language Processing, NLP). L’analisi degli errori, come fase di post-elaborazione (post-processing), può migliorare l’accuratezza soprattutto se combinata con un’analisi contestuale. Lo studio qui presentato ha l’obiettivo di delineare i tratti comuni degli errori commessi da tali OCR testati nel progetto Digital Maktaba.

PDF

Autori/Autrici

Riccardo Amerigo Vigliermo - Università di Modena e Reggio Emilia – FSCIRE https://orcid.org/0000-0001-9914-3295

Licenza

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Copyright

Come citare

Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici. (2025). DigItalia, 20(2), 179-202. https://doi.org/10.36181/digitalia-00150

Abstract: 100
PDF: 56

Autori/Autrici

Riccardo Amerigo Vigliermo - Università di Modena e Reggio Emilia – FSCIRE https://orcid.org/0000-0001-9914-3295

Licenza

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Copyright

Come citare

Abstract: 100
PDF: 56

Alfabeto arabo e OCR open source: un’analisi grafica e linguistica dei risultati di elaborazione per il recupero di dati catalografici

Autori

Riccardo Amerigo Vigliermo

Dowloads

Autori/Autrici

Licenza

Copyright

Come citare

Condividi

Autori/Autrici

Licenza

Copyright

Come citare

Condividi