jueves, 24 de septiembre de 2009

El software de OCR - Optical Character Recognition o reconocimiento óptico de Crud?

El software de OCR - Optical Character Recognition o reconocimiento óptico de Crud?

Word Count:
361

Resumen:
¿Es realmente posible obtener una precisión de OCR de alta incluso en los documentos de mala calidad?


Palabras clave:
la digitalización de documentos, digitalización de documentos, servicios de escaneo, digitalización de documentos, servicios de imágenes de documentos, OCR, PDF, TIFF, oficina sin papel, archivos digitales, la conversión de documentos


Cuerpo del artículo:
Reconocimiento óptico de caracteres (OCR) se refiere a una tecnología de software y procesos que implican la traducción del texto impreso en la computadora de texto de búsqueda.

Hecho correctamente, OCR permite a los usuarios buscar y recuperar las palabras individuales contenidas en un archivo o página. Además, cuando un conjunto de archivos está indexada, los usuarios pueden buscar por palabras clave a través de una biblioteca de documentos de todo y recuperar cada página con precisión exacta. OCR permite a los usuarios realizar búsquedas en segundos, las búsquedas que una vez que podría durar varias horas o días en completarse.

Sin embargo, esta tecnología no ha funcionado bien en los documentos de más edad o de mala calidad que las fuentes que figuran mixta o combinaciones de textos y gráficos. Hasta ahora!!

Debido a varios avances tecnológicos recientes, ahora es posible obtener de seis sigma nivel de precisión de caracteres de este tipo de colecciones de documentos.

Aunque es importante tener en cuenta que la calidad y condición de los documentos de papel siguen siendo factores clave en la conversión OCR éxito, mejorar dramáticamente los resultados se pueden obtener mediante la mejora de la calidad de la imagen escaneada antes del procesamiento.

Eliminación del ruido de las fronteras, motas y sesga ahora son comunes en los scanners de documentos más avanzados.

Además, las tecnologías de filtrado avanzado de color puede usarse para reducir los colores de fondo de página, en relación con múltiples tecnologías de captura de imagen de luz para eliminar cualquier sombra de los pliegues de página que podrían afectar la calidad de imagen y precisión de reconocimiento.

Una vez que la digitalización de documentos y el procesamiento se completa, una capa de texto OCR en realidad puede ser adicional y oculta detrás de cada imagen. Un filtro de orientación adicional puede ser utilizado para garantizar que la mejor imagen se presenta a los motores de OCR.

Para lograr la máxima precisión de la conversión de lo posible, los caracteres de la imagen puede ser procesada usando multi-motor de OCR que el rango de tecnologías de voto de cada personaje para determinar la mejor forma de reconocimiento de texto. Entonces una vez que se genera una palabra, se filtra a través de un léxico de propiedad para garantizar los resultados de mayor calidad.

Por último, este texto puede ser procesado utilizando tecnologías sofisticadas de retención de diseño para representar a la disposición del texto de la imagen, para ofrecer la mejor representación posible texto para la búsqueda precisa y recuperación. Después de todo, no es por eso que lo llaman reconocimiento óptico de caracteres?