Escanear con OCR (Reconocimiento Óptico de Caracteres): gScan2pdf

Un programa para el Reconocimiento Óptico de Caracteres (en inglés OCR)  es una aplicación dirigida a la digitalización de textos. Identifica automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto/idioma, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar. En este tema voy a explicar como hacerlo con el programa Gscan2pdf. Lógicamente hay que tener bien instalado y configurado el escáner o la función de escáner de una impresora multifunción.

Ademas del modo de hacer un OCR que explico en este tema, también se puede hacer como lo explico en : Escanear con OCR ( reconocimiento óptico de caracteres ): xSane   y/o en Escanear con OCR ( reconocimiento óptico de caracteres ): OcrFeeder

Gscan2pdf:

Paquetes necesarios: el paquete del programa: gscan2pdf, un motor de ocr: tesseract-ocr, o gocr  ( gocr es el motor de ocr que se instala por defecto, pero en este tema vamos a usar el motor tesseract-ocr ) y uno o varios paquetes para el reconocimiento en un idioma en concreto:  tesseract-ocr-spa  y tesseract-ocr-eng ( para reconocimiento de caracteres en español e inglés; si fuera necesario se pueden instalar mas paquetes para otros idiomas. ), unpaper ( es una herramienta de post-procesamiento de las hojas de papel escaneados, especialmente para las páginas de los libros que han sido escaneados desde fotocopias. El objetivo principal es hacer que las páginas escaneadas sean mas legibles en pantalla después de la conversión a PDF. Además, unpaper puede ser útil para mejorar la calidad de las páginas escaneadas antes de realizar el reconocimiento óptico de caracteres  ).

El programa gscan2pdf está en los repositorios de Ubuntu pero podemos instalar el paquete gscan2pdf, de una versión mas moderna, desde http://sourceforge.net/projects/gscan2pdf/files/gscan2pdf/  ( al instalar esta versión se instala también otro motor de ocr: ocropus; con lo cual podríamos usar gscan2pdf con estos tres motores ocr: gorc, tesseract, y ocropus – hay también otro mas: cuneiform – pero después de algunas pruebas he llegado a la conclusión de que el mejor es tesseract, por lo que es con éste motor ocr con el que se explica el tema.)

Configuración básica : Este programa se puede abrir y configurar siempre que esté conectado el escáner.  Una vez se inicia el programa Scan2pdf se debe, antes de proceder al escaneo del documento, configurar algunos detalles. Para ello primero hay que hacer click en el botón de escanear ( lo he recuadrado en rojo, en la barra de herramientas )

Tras lo cual se abre una ventana, en la que en la pestaña Opciones de Página se puede seleccionar el Motor de Ocr ( usaremos Tesseract ) y el idioma que queremos que se use para el reconocimiento ( que lógicamente debe de ser el mismo en el que esté el documento ), activamos la casilla “limpiar imágenes” ( para que se ejecute el programa unpaper ) y en opciones seleccionamos las opciones de unpaper.

En la pestaña Mode, seleccionamos el — Modo de escaneo: seleccionamos True Gray ( es decir en Escala de Grises ; seleccionaremos otro método si el documento es en color ) — Resolución de Escaneo: seleccionamos un número de resolución, que puede variar en función de la calidad de nuestro escáner ; en mi caso he seleccionado 300 dpi, pero podemos ir haciendo pruebas con otras resoluciones.

En la pestaña Geometria elegimos el tamaño del papel del documento que vamos a escanear, en este caso A4

Uso básico con el escaner:

Es necesario que el escáner, o impresora multifunción, esté conectado al pc.

Una vez se ha configurado adecuadamente el programas ( normalmente las configuraciones del programa que hemos hecho anteriormente se guardan y se mantienen en la próxima vez que ejecutemos el programa) se siguen los siguientes pasos:

– Se inicia el escaneo haciendo click en el botón Escanear, tras lo cual durante un tiempo se abren sucesivamente:  — una ventana de escaneo, — ventana de procesamiento de Unpapper, — ventana de procesamiento de OCR, luego se vuelve a la — ventana principal de Gscan2pdf.

– Se cierra la ventana de  Opciones. A continuación podemos hacer una de estas dos cosas:

A) — Se hace click sobre el texto simple resultado del escaneado y reconocimiento ocr, que aparece en la pestaña OCR-Output, para que se abra una ventana con el texto simple , y se selecciona todo él  para copiarlo y pegarlo en una ventana de un programa de edición de textos, para guardarlo en un nuevo archivo, que posteriormente, una vez hayamos cerrado el scan2pdf,  podremos editar a nuestro gusto con el editor de textos: por ejemplo podemos pegar este texto simple en LibreOffice – writter , editarlo y luego guardarlo en formato .pdf : Archivo->Exportar en formato .pdf

B) — Desde el la barra de herramientas del programa gscan2pdf -> Archivo-> Guardar:  en varios tipos ( jpeg,png,tiff,pdf,etc, o texto) , entre ellos elegimos en modo pdf, ( ya que si lo guardamos en formato de imagen luego no podremos editarlo si fuera necesario) con lo que se crea un archivo .pdf con una imagen similar a la que aparece en la pestaña Image de la ventana principal del programa scan2pdf.  También está la opción de guardarlo en formato de texto simple, que luego se podría pasar a otro editor de texto mas completo, como LibreOffice para editarlo a nuestro gusto, y guardarlo en formato .pdf

De esta forma obtenemos un archivo .pdf que posteriormente podríamos editar a nuestro gusto con alguno de los métodos que hay para editar archivos .pdf: Manejar archivos .pdf  (LibreOffice + la extensión PdfImport.oxt; o con PdfEdit )

————————————–

Uso básico a partir de un archivo de imagen o pdf escaneado anteriormente:

En este caso también se puede usar el programa sin que el escáner esté conectado al pc, y sin que tengamos el documento original en papel.

También se puede hacer un reconocimiento óptico de caracteres a partir de un archivo de imagen .jpeg creado con el programa Simple-Scan (que no tiene capacidad de análisis OCR ) , u  otro tipo de archivo de imagen .png. tiff, etc o .pdf, creado anteriormente al escanear un documento con xSane sin realizar en éste el análisis OCR.

Desde la barra de herramientas del programa:
Archivo->Importar: se elige el archivo de imagen al que se quiere realizar un OCR, y una vez que aparece en la pestaña Image de la ventana principal del programa, se pasa al siguiente paso:
Herramientas->OCR ; se abre una ventana en la que se elige el motor, el idioma y el rango de páginas, y una vez realizado el reconocimiento aparece el resultado en la pestaña OCR-Output de la ventana principal del programa, y se puede proceder de forma similar a como se hace cuando se escanea un documento directamente desde gscan2pdf.

————————————–

Resumen del uso básico de gScan2pdf:

a) Con un documento con solo texto
b) Con un documento con texto e imagen, del que queremos extraer/conservar solo el texto
c) Con un documento con texto e imagen, del que queremos conservar ambos

–  a)  y  b) :  gScan2pdf -> escanear con OCR-> pestaña OCR-output -> copiar texto ->> abrir LibreOffice ( Writter )-> pegar texto -> editarlo a nuestro gusto -> exportarlo como .pdf

– c)  : gScan2pdf -> escanear con OCR -> pestaña Image -> guardar como archivo .pdf ->> abrir LibreOffice  ( Draw ) -> abrir el archivo.pdf -> editarlo a nuestro gusto -> exportarlo como .pdf

————————————–

Si quieres valorar este tema lo puedes puntuar desde con 1 estrella  (muy pobre ) hasta con 5 estrellas (excelente ).

Deja un comentario

Fill in your details below or click an icon to log in:

Logo de WordPress.com

You are commenting using your WordPress.com account. Log Out / Cambiar )

Twitter picture

You are commenting using your Twitter account. Log Out / Cambiar )

Facebook photo

You are commenting using your Facebook account. Log Out / Cambiar )

Connecting to %s