OCR: convierte el texto de una imagen o pdf en archivo de texto editable ~ Frikinux

domingo, octubre 23, 2011

OCR: convierte el texto de una imagen o pdf en archivo de texto editable

Posted On 12:54 In escaner , gscan2pdf , ocr , tesseract , Ubuntu 6 comments

Seguro que os habréis encontrado alguna vez con la necesidad de utilizar el texto contenido en una imagen o de un pdf del que conserváis la copia en papel y no digital. Pues bien, con el reconocimiento óptico de caracteres podréis obtener unos muy buenos resultados.

Hay varios programas disponibles para Ubuntu que realizan esta opción más o menos con la misma efectividad. En mi caso, voy a utilizar dos:

sudo apt-get install gscan2pdf

sudo apt-get install tesseract-ocr-spa

Con el primero de ellos, escanearemos el documento o la imagen y podremos seleccionar que motor queremos usar para el OCR. En nuestro caso, queremos usar el tesseract-ocr-spa. Tesseract es por hoy, el que mejores resultados arroja. Además, con este paquete estamos indicando que queremos la versión en español (spanish). Al instalar el programa, la interfaz que obtenemos es la siguiente:

En la barra que aparece de herramientas tenéis distintas funciones, como la de abrir una imagen de archivo, enumerar sucesivas páginas, obtener las imagenes por escaner, etc.. Si se escoge esta última opción, os encontraréis con algo parecido a esto:

Justo en la parte inferior, donde pone "páginas escaneadas OCR", en el menú desplegable, tenemos que seleccionar Tesseract, y en Idioma, español. Si navegáis por las distintas pestañas, tenéis diversas opciones ya a gusto del consumidor. Una vez configurado a nuestro gusto, le daremos a "Escanear" para que comience el proceso.

Cuando termine el escaneado, nos saldrá un mensajito que os avisará de que se está pasando la imagen escaneada bajo el "filtro" del OCR. Es decir, que se está intentando detectar lo que hay de texto en esa imagen.

Cuando termina el proceso, en un primer plano observaremos el documento escaneado tal cual. Justo al lado, está la pestaña que pone "Resultado OCR", donde nos debe aparecer el texto detectado. Decir que en la pruebas realizadas por mi parte, el resultado ha sido totalmente decepcionante. En cambio, a muchos usuarios les funciona sin problemas, así que no descarto que sean deficiencias por la resolución del escaner, que no ande muy ajustada.

Os pongo una de las pruebas que realicé para que juzguéis vosotros mismos:

El texto escaneado tal cual

El resultado del OCR

Espero que a vosotros os sea más útil que a mí y os funcione a las mil maravillas. Un saludo!! ^^

6 Comentarios :

Anónimo24 de noviembre de 2012 a las 10:03
No inventes que maravilla es este programa, me has salvado la vida amigo guau estoy infinitamente agradecida contigo muchas gracias!!!
ResponderEliminar
Respuestas
Anónimo6 de marzo de 2013 a las 18:31
Gracias, funciona de manera aceptable =)
ResponderEliminar
Respuestas
kadavannoor16 de octubre de 2014 a las 11:44
El mejor convertidor que me he encontrado es Able2Extract. El problema es que no es gratuito y sólo dan una semana para probarlo con un límite de 3 páginas. Creo que es de lo mejor, yo lo probé con un archivo que tenía bastante basura y se la quitó casi toda. Sólo hubo que hacer muy pocas correcciones al final. Para quien desee revisarlo esta es la liga
http://www.infoclaps.com/2014/09/como-converter-imagens-digitalizadas-em.html
ResponderEliminar
Respuestas

Añadir comentario

Recent Post

Followers

Text Widget

Navigation

Entradas populares

domingo, octubre 23, 2011

OCR: convierte el texto de una imagen o pdf en archivo de texto editable

6 Comentarios :

Desde dónde nos visitan...

Contenido Protegido

Archivo

Comentarios Recientes

Twitter

Tags

Webs amigas! Visítalas!

Vistas de página en total

Entradas populares

Recent Post

Followers

Text Widget

Feeds

Navigation

Entradas populares

domingo, octubre 23, 2011

OCR: convierte el texto de una imagen o pdf en archivo de texto editable

6 Comentarios :

Desde dónde nos visitan...

Contenido Protegido

Archivo

Comentarios Recientes

Twitter

Tags

Webs amigas! Visítalas!

Vistas de página en total

Entradas populares