Oramai è comune archiviare i propri appunti su PC o su smartphone. Se si ha tempo, e si è abbastanza veloci a scrivere a macchina, si possono scrivere i propri appunti direttamente sul computer o su iPhone e iPad in formato testuale.
In alternativa è possibile fare una foto ai nostri fogli, oppure anche a una pagina di un libro, e poi estrarre il testo dall’immagine con uno strumento OCR. Oramai gli algoritmi per il riconoscimento del testo stampato sono quasi perfetti, sopratutto se i caratteri sono chiari e se il contrasto della foto è buono. Il riconoscimento della scrittura a mano è più difficile, e funziona solamente in alcuni casi, e spesso richiede addestramento. Comunque, al di là di tutto, quali sono i migliori programmi OCR con cui estrarre testo dalla immagini? Vediamone alcuni.
FreeOCR
Cominciamo con FreeOCR, e direi che il nome è abbastanza esplicativo. Funziona solo con Windows, a partire da Windows XP fino a Windows 8.1, e probabilmente sarà anche compatibile con Windows 10. FreeOCR funziona con scanner TWAIN, file PDF e immagini TIFF, e riesce a inserire il testo scansionato, estratto e riconosciuto direttamente su Word. Il motore OCR è basato su Tesseract, scaricabile gratis da Google Code – Open source.
gImageReader
Sempre con il motore Tesseract OCR di Google, è possibile utilizzare gImageReader. Dal punto di vista grafico è ben fatto, con la possibilità di selezionare il testo nell’immagine, anche in più colonne, e vedere il testo trasporto in caratteri nella stessa finestra.
In questo modo è molto veloce la fase di editing e di correzione del testo acquisito, anche se si perde la formattazione. Il controllo ortografico delle parole è abbastanza preciso ma dipende sopratutto dal dizionario che si è scaricato e si sta utilizzando. Per testi tecnici conviene usare dizionari specialistici per evitare di ricevere segnalazioni sbagliate.
FreeOCR To Word
Solo per Windows c’è la possibilità di provare FreeOCR To Word: serve solamente per estrarre il testo da immagini e trasferirlo direttamente su Word mantenendone la formattazione e l’impaginazione. Funziona, funziona davvero bene. La società che l’ha sviluppato promette una precisione del 99,8%, e direi che la promessa viene mantenuta.
Questa applicazione è comoda per poter salvare come ebook i propri libri, senza stare troppo a preoccuparsi della presenza di immagini, colonne, e grafici nel testo. Inoltre riconosce come sorgente tutti i principali file immagine (TIFF, JPG, PNG e così via), compresi quelli di Photoshop.
Capture2Text
Capture2Text fa tutto in automatico, e può essere comodo se si vuole estrarre il testo da molte immagini in poco tempo. Sostanzialmente legge l’immagine e la copia direttamente nel blocco note in formato testo.
Non salva la formattazione del testo e, a volte, questo rende difficile la fase di editing. Ma se si desidera convertire in txt o doc un romanzo o un libro di poesie, o racconti, allora è forse il modo più rapido per farlo. Lo sconsiglio per saggi e libri con immagini, grafici e diagrammi: in questo caso conviene usare FreeOCR TO Word.
VueScan
Infine, simile a gImageReader ma per Mac OS X, c’è VueScan: funziona bene, è semplice da usare e si collega anche direttamente allo scanner. Qual’è il vantaggio? Che si può scannerizzare un documento ed estrarne il testo nello stesso momento, risparmiando molto tempo e migliorando la propria efficienze. Se poi si è in due, si può anche fare l’editing in tempo reale, permettendo in questo modo di ottenere un libro in formato digitale partendo da quello in carta in qualche ora.
Ovviamente tutto questo estrarre testo da immagini serve solamente se non si possiedono i file originali. O se i PDF con cui abbiamo archiviato i nostri file non permettono la selezione e l’estrazione automatica del testo. Conviene, quindi, non proteggere i PDF di uso interno e, possibilmente, conservare sempre i documenti testuali. Tanto oramai non si corre il rischio di rimanere senza spazio, e per risparmiare i 50 euro di un hard disk esterno si corre il rischio di dover passare giornate intere a scannerizzare documenti e a estrarre il testo da immagini e PDF.