Digitalizzare l'archivio del Corriere del Ticino
A proposito del Corriere del Ticino...
Il Corriere del Ticino è il principale quotidiano della Svizzera Italiana, fondato nel 1891 da Agostino Soldati. Fa parte di un gruppo multimediale che comprende giornali, siti online, radio e televisione.
Un tesoro di carta
L’archivio storico del Corriere del Ticino conta circa 1 milione di pagine, ed è costituito da più di 120 anni di documenti, rappresentando un vero tesoro di informazioni.
Oggi, mantenere una raccolta così vasta esclusivamente su supporto cartaceo comporta uno spreco significativo di risorse preziose. Trovare un particolare documento richiedeva infatti molto tempo e sforzo, poiché implicava una ricerca manuale tra montagne di carta.
Preservare il passato, abbracciare il futuro
La digitalizzazione di questo vasto archivio ha offerto l'opportunità di ridurre lo spreco di risorse e aumentare l'efficienza operativa. Grazie alla conversione digitale di questi documenti, che ha reso istantanei la ricerca e il recupero dei dati, il Corriere del Ticino può ora accedere facilmente e rapidamente a qualsiasi informazione.
Inoltre, la digitalizzazione aumenta la sicurezza e la conservazione a lungo termine dei documenti, riducendo il rischio di danni fisici o perdite irrimediabili e preservando il patrimonio storico del Corriere del Ticino per le future generazioni.
Il processo di ricerca delle informazioni e degli articoli è stato velocizzato e reso più efficiente, consentendo un minore impiego di risorse in task dal basso valore aggiunto.
L'integrazione dell'algoritmo geometrico realizzato da Goodcode con lo sfogliatore (in front end) e con Amazon Textract di AWS (in back end) ha reso possibile una transizione impeccabile alla digitalizzazione, garantendo un risultato ottimale.
Da 1 milione di documenti cartacei, a 30TB di pagine scannerizzate in alta risoluzione, in 9 mesi. 120 anni di archivio sono stati tutelati e saranno protratti nel tempo, conservandoli in modo semplice e sicuro.
Elaborazione digitale
di documenti cartacei
In Goodcode abbiamo strutturato un software con un algoritmo geometrico in grado di rilevare con accuratezza la struttura degli articoli.
Una volta scansionati i documenti, l'intero processo di digitalizzazione è completamente automatizzato: non è necessaria attività umana per l'elaborazione, neppure per eventuali correzioni manuali. In questo modo, viene minimizzato l’effort a favore di una maggiore efficienza operativa e di una valorizzazione delle risorse umane.
Caratteristiche principali
-
Implementazione della tecnologia OCR
-
Segmentazione degli articoli
-
Ricomposizione testuale degli articoli
-
Ordine di lettura corretto (da una colonna all’altra, fronte retro e testi interrotti)
-
Rilevamento di tabelle, titoli, sottotitoli e pubblicità
-
Rilevamento interruzioni
-
Riconoscimento di caratteri speciali e caption
Riconoscimento dei caratteri all'interno della pagina
Grazie alla tecnologia ML di Amazon Textract, siamo stati in grado di estrarre i testi, le tabelle e le immagini, non trascurando alcuna informazione importante. A questo punto, siamo andati oltre i limiti della tecnologia OCR, che non garantisce sempre un'estrazione accurata di testi da immagini. L'algoritmo che abbiamo costruito affina infatti il processo di ricostruzione e ricombinazione del testo, superando il problema e consentendo la digitalizzazione accurata della pagina.
Segmentazione e correzione dell'ordine di lettura
Gli articoli di giornale possono dimostrarsi realmente complessi e difficili da analizzare. In una pagina compaiono più articoli e descrizioni, didascalie, citazioni e perfino pubblicità. Grazie agli API è possibile stabilire il corretto ordine di lettura anche su layout complessi, in quanto è in grado di distinguere le sezioni logiche presenti nell'articolo con estrema precisione.
Risultati
Grazie all'utilizzo dell'algoritmo geometrico e della tecnologia ML di Amazon Textract, è stato possibile digitalizzare e ordinare l'archivio storico in modo accurato e automatizzato.
Abbiamo ottenuto più di 30TB di pagine scannerizzate in alta risoluzione, lavoro realizzato in circa 9 mesi. Questo ha permesso al Corriere del Ticino di tutelare e protrarre nel tempo 120 anni di documenti, conservandoli in modo semplice e sicuro.
La soluzione sviluppata per Il Corriere del Ticino non è vincolata esclusivamente all'ambito degli archivi storici, ma può essere estesa con successo alla digitalizzazione di documenti amministrativi complessi e a una vasta gamma di contenuti frammentati.
"Goodcode ci ha fornito un prodotto chiavi in mano senza problemi né ritardi."
Alessandro Colombi
Gruppo Corriere del Ticino SA, CEO
Sei interessato al nostro software di elaborazione dei documenti? Contattaci!
Corriere del Ticino
Digitalizzare l'archivio storico per avere accesso immediato alla documentazione e renderla sempre facilmente consultabile nel corso del tempo
Vai al progettoHetica
Fornire una piattaforma sicura e centralizzata per monitorare e seguire la performance delle attività di investimento
Vai al progettoLingue e Sport
Automatizzare i processi operativi, dalle iscrizioni fino alla fatturazione e gestione dei corsi, migliorando l'usabilità per le famiglie e facilitando il lavoro del team
Vai al progetto