Guía Del Usuario    Edición de PDFs    OCR (reconocimiento óptico de caracteres)

OCR (reconocimiento óptico de caracteres)

Uso del OCR en PDFpen

El OCR (reconocimiento óptico de caracteres) es el proceso de convertir una imagen de mapa de bits de un texto (como un documento escaneado) en un texto que puede seleccionarse, copiarse y buscarse con PDFpen y otros programas de edición de texto. Una vez que el texto ha sido reconocido por el OCR, se coloca en una capa invisible sobre la imagen del texto que se puede ver. Cuando se copia un texto, el texto se copia desde esta capa invisible de OCR. La tecnología OCR no producirá una representación perfecta del texto en mapa de bits. Deberás corregir y editar el texto resultante del OCR.

OCR automático

  1. Abre un PDF escaneado en PDFpen.
  2. Se abre un cuadro de alerta con el mensaje:
    "Este documento parece estar escaneado. ¿Deseas realizar un reconocimiento óptico de caracteres (OCR) en él? El OCR te permitirá seleccionar el texto".
  3. Tienes tres opciones:
  • Cancela: No se realizará ningún OCR.
  • Página de OCR: El OCR se realizará en la página actual.
  • Documento OCR: Si tu documento tiene varias páginas, el OCR se realizará en todas ellas.

Elija qué idiomas reconoce el OCR en Preferencias > OCR.(Preferencias del usuario).

Mientras PDFpen realiza el OCR, aparecerá una barra de progreso. La operación puede tardar unos segundos o mucho más, dependiendo del tamaño y el contenido del documento escaneado.

OCR manual

Para realizar el OCR manualmente, selecciona Edición > Página OCR. PDFpen comienza a realizar la operación de OCR y aparece la barra de progreso.

Forzar el OCR

PDFpen mira el documento y si ves una imagen del tamaño de una página, asume que el documento es un escaneo y se ofrece automáticamente a realizar el OCR. En algunos casos, PDFpen puede no reconocer un documento escaneado. En el menú Editar, la página OCR aparecerá en gris y no se podrá seleccionar.

  1. Mantén pulsadas las teclas Comando y Opción a la vez.
  2. Selecciona Edición > Página OCR en el menú.

OCR por lotes

(Función avanzada de PDFpenPro). Ver OCR por lotes.

Consejos para mejorar los resultados del OCR

  • La calidad del documento original afecta a la calidad del rendimiento del OCR. Los originales nítidos y limpios con un texto claro producirán resultados mucho mejores que las fotocopias arrugadas y descoloridas.
  • Coloca el documento original en el escáner lo más recto posible. Si tienes una página escaneada que no está recta, puedes equilibrar o enderezar, la imagen en PDFpen eligiendo Editar > Equilibrar y Ajustar imagen...
  • Aumenta el contraste de tu documento escaneado para que el fondo sea lo más blanco posible. Puedes ajustar el contraste de la imagen eligiendo Edición > Equilibrar y Ajustar imagen...

Diccionarios y OCR

El motor de OCR de PDFpenincluye diccionarios médicos y jurídicos para mejorar la calidad del resultado del OCR de los documentos escaneados mediante el reconocimiento de palabras específicas de las profesiones médicas y jurídicas. Esta función está incorporada, por lo que no es necesario activar o ajustar ninguna configuración. Si eliges editar el texto del OCR, las palabras mal escritas del texto seleccionado pueden aparecer con un subrayado rojo.