Saturday, November 27, 2010

Software OCR - riconoscimento ottico dei caratteri o il riconoscimento ottico dei Crud?

Riconoscimento ottico dei caratteri (OCR) si riferisce ad una tecnologia software e processi che coinvolgono la traduzione del testo stampato in testo ricercabile computer.

Fatto correttamente, OCR permette agli utenti di cercare e recuperare singole parole contenute all'interno di un file o una pagina. Inoltre, quando un insieme di file è indicizzato, gli utenti sono in grado di cercare parole chiave in una libreria intero documento e recuperare ogni pagina con la massima precisione. OCR permette agli utenti di eseguire ricerche in pochi secondi, le ricerche che una volta che potrebbe richiedere diverse ore o giorni per essere completata.

Tuttavia, questa tecnologia non ha funzionato bene su documenti di qualità superiore o povero che conteneva i caratteri misti o combinazioni di testo e immagini. Fino ad ora!

A causa di alcuni recenti progressi della tecnologia, è ora possibile ottenere sei-sigma carattere accuratezza livello da questi tipi di collezioni di documenti.

Anche se è importante tenere a mente che la qualità e lo stato dei documenti cartacei sono ancora fattori chiave per la conversione OCR di successo, drammaticamente migliori risultati possono essere ottenuti migliorando la qualità dell'immagine acquisita prima del trattamento.

rimozione del rumore delle frontiere, macchiettature e inclina sono ormai comuni in scanner per documenti più avanzati.

Inoltre, avanzate tecnologie di filtro colore può essere utilizzato per ridurre gli eventuali colori di sfondo della pagina, in congiunzione con le tecnologie di immagini multi-catturano la luce per eliminare eventuali ombre pieghe pagina che rischia di influenzare la qualità dell'immagine o la precisione del riconoscimento.

Una volta che la scansione di documenti e la trasformazione completa, un livello di testo OCR può effettivamente essere aggiunti e nascosto dietro ogni immagine. Un orientamento ulteriore filtro può essere usato per garantire che l'immagine migliore è presentato ai motori OCR.

Per ottenere la massima precisione di conversione possibile, la caratteri dell'immagine possono essere elaborati utilizzando le tecnologie multi-motore OCR di voto che il rango di ogni personaggio per determinare la migliore forma di riconoscimento del testo. Poi una volta che una parola è generato, sarà filtrata attraverso un lessico di proprietà per garantire risultati di altissima qualità.

Infine, questo testo può essere elaborato utilizzando sofisticate tecnologie di conservazione del layout per rappresentare il layout di testo delle immagini, per fornire la migliore rappresentazione possibile del testo per la ricerca preciso e il recupero. Dopo tutto, non è per questo che lo chiamano riconoscimento ottico dei caratteri?

No comments:

Post a Comment