Appunti scarabocchiati o la sezione sportiva del quotidiano stampato: quando si tratta di elaborare informazioni umane analogiche, ogni computer prima o poi raggiunge i suoi limiti. È qui che entra in gioco il riconoscimento ottico dei caratteri, o OCR, che riconosce automaticamente il testo da documenti e immagini scannerizzati per poterli digitalizzare ed elaborare . In questo articolo spieghiamo come funziona il riconoscimento del testo e presentiamo una panoramica dei migliori software OCR.
- Con l’aiuto del riconoscimento ottico dei caratteri, è possibile convertire i documenti stampati in file di testo ricercabili e modificabili.
- I programmi OCR di solito lavorano con i dizionari e sono quindi in grado di identificare le diverse lingue.
- Un buon software di riconoscimento del testo non deve automaticamente essere costoso. Su Internet si trovano anche molti programmi freeware in grado di ottenere risultati eccellenti.
Indice dei contenuti
1. cos’è il software OCR e come funziona?
OCR è l’acronimo di“Optical Character Recognition” (riconoscimento ottico dei caratteri) e di solito viene chiamato semplicemente “ riconoscimento del testo ” in tedesco. L’OCR è una tecnologia utilizzata per digitalizzare documenti scritti a mano o stampati (come pagine scansionate o biglietti da visita). Il testo può quindi essere ricercato, modificato o salvato elettronicamente in un formato più compatto .
Affinché le informazioni deidocumenti cartacei possano essere elaborate dal computer, non è sufficiente scansionarle. In questo caso, infatti, si tratterebbe semplicemente di una copia immagine (una cosiddetta grafica raster) del documento originale. È qui che entra in gioco il software OCR, che in più passaggi assembla l’insieme di punti bianchi e neri in parole e frasi logiche. In questo modo, l’immagine diventa un file modificabile e ricercabile che si può richiamare dal disco rigido o online tramite cloud e modificare con un programma di elaborazione testi .
Buono a sapersi: Il testo completo dell’OCR è necessario anche per la classificazione dei documenti (non strutturati). A questo scopo, il software riconosce gli attributi, i dati e le singole categorie di un documento e ne determina automaticamente il tipo sulla base di questi.
2. i migliori programmi di riconoscimento del testo per il 2019 a confronto
Non molto tempo fa, i software OCR erano ancora molto costosi e complicati da usare. Nel frattempo, però, è diventato da tempo uno strumento di produttività ed esiste anche un’ampia scelta di programmi potenti per utenti privati a un prezzo adeguato. In questa sezione abbiamo raccolto per voi i migliori programmi di riconoscimento del testo , dai freeware agli strumenti professionali.
2.1 FreeOCR
FreeOCR è un programma gratuito di riconoscimento del testo per Windows basato sul motore OCR open source Tesseract. Lo strumento riconosce il testo da file PDF e TIFF e può anche aprire documenti scansionati e formati immagine comuni (ad esempio BMP, JPEG, GIF o PNG). Durante la digitalizzazione viene preso in considerazione solo il testo; la formattazione viene ignorata. I file di output vengono visualizzati in una finestra e possono essere modificati, copiati negli appunti, salvati come RTF o esportati direttamente in Microsoft Word. Oltre ai testi in tedesco, FreeOCR è in grado di riconoscere anche contenuti in inglese, spagnolo o francese.
Buono a sapersi: Tesseract supporta numerose lingue e sistemi di scrittura, tra cui, ad esempio, molti font Fraktur asiatici. Se un pacchetto linguistico non è ancora incluso in FreeOCR, è sufficiente installarlo dal sito web di Tesseract. Il produttore fornisce anche le istruzioni per farlo.
Lostrumento utilizza il riconoscimento dei modelli per digitalizzare il testo. È anche possibile selezionare singoli passaggi o estratti. Ciò è molto utile, ad esempio, se si desidera escludere alcune parti di una pagina.
2.2 Abbyy FineReader
Abbyy FineReader è un potente pacchetto all-in-one che consente di elaborare tutta la corrispondenza cartacea delle aziende. L’applicazione offre numerose funzioni, come strumenti di scansione e conversione e vari strumenti OCR, con cui è possibile digitalizzare e gestire i documenti senza l’uso di software aggiuntivi. Il software di riconoscimento del testo può essere integrato in tutte le applicazioni di Microsoft Office e fornisce una visione originale dei documenti riconosciuti a Word.
Lo strumento è dotato di ADTR (“Adaptive Document Recognition Technology”), che ricostruisce la struttura e la formattazione di documenti a più pagine e li mappa nel nuovo file di testo. Secondo il produttore, questo dovrebbe rendere la digitazione e la riformattazione un ricordo del passato. FineReader supporta 189 lingue e numerosi formati come PDF, HTML, DOC/DOCX, RTF, Word XML, DBF, CSV, TXT o ODT. Può anche essere utilizzato per estrarre il testo dalle immagini. È quindi possibile modificarle con gli strumenti integrati e, ad esempio, effettuare impostazioni per il contrasto e la luminosità o rimuovere la sfocatura da movimento e il rumore ISO.
Un’altra caratteristica pratica è la possibilità di impostare macro e attività automatiche con le quali è possibile, ad esempio, completare più rapidamente le attività ricorrenti o assegnare ai documenti posizioni di archiviazione individuali.
La versione attuale di Abbyy FineReader è disponibile in tre versioni
- Standard
- Aziendale
- Enterprise (licenze a volume)
sono offerti. Queste si differenziano principalmente per i processi di conversione e le opzioni di automazione.
2.3 OmniPage Ultimate
Anche lo scanner di testo OmniPage Ultimate, con le sue funzioni di conversione e la connessione al cloud, si rivolge principalmente alle aziende. L’applicazione ha una precisione OCR molto elevata e riconosce l’intero layout, indipendentemente dal fatto che contenga tabelle, colonne, grafica o numerazione. Lo strumento supporta tutte le applicazioni Office più comuni e più di 120 lingue diverse. Per la digitalizzazione è possibile utilizzare qualsiasi scanner disponibile in commercio (con driver TWAIN, WIA o ISIS) o in alternativa fotografare i documenti.
https://www.youtube.com/watch?v=7N-6n_ffGco
OmniPage Ultimate dispone anche di numerose altre funzioni, come l’evidenziazione di singoli passaggi mediante la selezione di parole chiave o l’oscuramento automatico di alcune parti del testo (ad esempio i dati personali). Le impostazioni devono essere effettuate una sola volta e lo strumento ricorda le impostazioni effettuate.
OmniPage Ultimate è in grado di elaborare file immagine nei formati TIFF, PCX, DCX, BMP, JPG, GIF, PNG e MAX e di decodificare anche i file PDF.
Particolarmente pratico: con l’aiuto della tecnologia vocale integrata, è possibile far leggere i documenti ad alta voce su dispositivi compatibili con MP3.
2.4 ReadIris
ReadIris è un software OCR che si distingue soprattutto per l’interfaccia utente semplificata e la facilità d’uso. L’attenzione si concentra sulle quattro funzioni principali
- Importare
- Organizzare
- Convertire
- Modificare
I campi corrispondenti indirizzano alla rispettiva funzione; bastano pochi clic per eseguire i singoli passaggi.
ReadIris supporta oltre 130 lingue (tra cui il russo, il cinese e l’arabo) e converte immagini, file PDF, documenti MS Office e file scansionati in PDF, XLSX, DOCX, ODT, ePub, RTF, HTML, TXT, TIFF, JPEG, PNG o audio su richiesta. Il layout originale del file viene mantenuto durante la conversione.
Il produttore offre il software in tre versioni: PDF, Pro e Corporate, di cui solo quest’ultima dispone di funzioni aggiuntive come la protezione e la firma dei PDF o l’elaborazione in batch dei documenti. Tutte e tre le versioni, tuttavia, sono dotate di pratiche funzioni di editing, come la riesposizione o la rimozione delle macchie, con le quali è possibile migliorare notevolmente la qualità dei documenti scansionati.
ReadIris dispone anche di un proprio modulo di scansione ed è quindi compatibile con tutti gli scanner TWAIN (ad esempio Brother, Canon o HP) anche senza software esterno. Il software OCR è disponibile sia in versione Windows che Mac.
Suggerimento: se lavorate con Google Docs, non avete bisogno di un software OCR aggiuntivo perché la soluzione cloud office include anche un convertitore gratuito. Per utilizzare il riconoscimento del testo online, è sufficiente caricare il documento desiderato su Google Drive e fare clic con il tasto destro del mouse sul nome del file, quindi selezionare “Apri con -> Google Docs” nel menu contestuale. In questo modo si crea un documento Docs (nella stessa directory) e vi si applica automaticamente la funzione OCR.