Cargando

Programas

Herramientas o programas OCR para extraer texto de imágenes o PDF

Si necesitas extraer el texto de una imagen o de un PDF, te presentamos las mejores herramientas o programas que vas a poder utilizar de forma gratuita. ¡Fáciles y sencillos de utilizar!

Escrito por Solvetic ene 13 2017 11:03

En diversos momentos tenemos archivos en formato PDF o en algún formato de imagen y por alguna tarea de gestión requerimos extraer el texto de dicha imagen o archivo y no contamos con alguna herramienta practica que nos brinde la oportunidad de extraerlo de forma correcta.

 

La extracción del texto de este tipo de archivos es importante cuando debemos trabajar sobre el texto ya sea copiando, editando o eliminando el contenido de la misma y tener este contenido en otro archivo editable. Para este tipo de tarea existe una tecnología llamada OCR la cual es efectiva cuando se trata de convertir los archivos PDF o imágenes como JPEG, PNG, etc, en un documento editable y hoy Solvetic analizara como podemos usar esta tecnología para siempre convertir a texto editable nuestros archivos.

 

Qué es OCR
OCR (Optical Character Recognition - Reconocimiento Óptico de caracteres) es una técnica desarrollada con el fin de digitalizar diversos tipos de documentos como los mencionados anteriormente. Esta tecnología tiene la intención de emular la capacidad del ojo del ser humano para reconocer los objetos, así que OCR se encarga de reconocer cada carácter del archivo PDF o de la imagen para posteriormente convertirlos a un formato de texto editable.

 

Cómo funciona la tecnología OCR
EL funcionamiento de la tecnología OCR está fundamentado, como hemos dicho, en el reconocimiento de los caracteres del archivo y para esto PCR inspecciona la imagen pixel por pixel buscando elementos que coincidan con los parámetros de los caracteres.
Este proceso está basado en cuatro pilares fundamentales que son:
  • Binarizacion: La mayoría de los algoritmos desarrollados en OCR están basados en dos colores (Negro y blanco) por lo cual OCR se encarga de convertir la imagen o el archivo a unja escala de negros y blancos para analizar en detalle cada pixel.
  • Fragmentación: Este proceso es vital en la tarea de reconocer los caracteres, y esta segmentación se encarga de detectar mediante un etiquetado los contornos de la imagen y a partir de allí iniciar el respectivo análisis.
  • Adelgazamiento del componente: Este proceso consiste en ir borrando de forma continua los puntos de los contornos del archivo para conservar la tipología del mismo.
  • Comparación con los patrones de caracteres: En este punto se hará una comparación entre los caracteres obtenidos con otros caracteres almacenados en una base de datos y a partir de allí desplegar el resultado.

 

Como podemos ver esta técnica es bastante profunda en la tarea de convertir a texto plano o editable nuestras imágenes o archivos ODF.

 

 

Ventajas de usar OCR
Existen algunas ventajas cuando decidimos usar OCR para la conversión de nuestros archivos, algunas de estas son:
  • Ahorro de espacio ya que un archivo en formato de imagen consume más espacio
  • Posibilidad de convertir un texto digital a uno editable
  • Ahorro de tiempo ya que OCR puede tener una velocidad de lectura hasta de 1.200 caracteres por segundo.
  • Existen herramientas que, combinadas con OCR, permiten convertir el archivo a audio o braile para personas con algún tipo de discapacidad.

 

Ahora veremos las diversas herramientas con las cuales contamos para hacer uso efectivo de OCR en la conversión de nuestros documentos.

 

Existen dos opciones para esto: Herramientas online o herramientas para instalar en el equipo.

 

Herramientas OCR Online

 

I2OCR

Imagen adjunta: I2OCR-logo.jpg

 

Esta es una herramienta online gratuita que nos ofrece grandes alternativas para la conversión de nuestros archivos usando OCR. Podemos i a la siguiente dirección para hacer un uso adecuado de ella.

 

 

Ventajas que tenemos con i2OCR
  • Reconoce más de 60 lenguajes
  • Soporta diversos formatos de imagen entre los cuales están JPG, PNG, BMP, TIF, PBM, PGM, etc.
  • Totalmente gratuito
  • Permite exportar el archivo editado a formatos como Microsoft Word, Texto, etc.
  • I2OCR cuenta con la capacidad de analizar diversas columnas dentro del archivo.
  • Es posible convertir una página web a imagen

 

El funcionamiento de i2OCR es sencillo y consta de 3 pasos:

  • Elegir el idioma a usar
  • Seleccionar el archivo o imagen a convertir
  • Ingresar el captcha para proceder con la conversión

 

Una vez realizado este proceso pulsamos en la opción Extract Text para que i2OCR inicie su proceso de conversión.

 

Imagen adjunta: _I2OCR-extraer-texto-pdf-1.jpg

 

Una vez complete el proceso podemos ver el resultado obtenido:

 

Imagen adjunta: extraer-texto-pdf-I2OCR.jpg

 

En este punto podemos decidir en qué formato descargar la imagen convertida. Una vez descargado podremos editarlo según sea la necesidad.

 

 

 

Free Online OCR

Imagen adjunta: free-online-ocr-logo.jpg

 

Free Online OCR es otra de las grandes herramientas en line a que serán bastante útiles a la hora de trabajar en la conversión de nuestros archivos digitalizados. Podemos visitar la siguiente dirección para usar Free Online OCR.

 

 

Características Free Online OCR
  • Escanea archivos PDF y los convierte a archivos DOC
  • Totalmente en línea, no es necesario instalar programas en el sistema
  • Soporta archivos PDF, GIF, BMP, JPEG, TIFF y PNG.
  • De manera automática rota las paginas en caso de estar en forma horizontal
  • Conserva el formato del archivo
  • Cuida los datos personales
  • Conserva las capas de los archivos PDF

 

El uso de Free Online OCR es sencillo, requerimos lo siguiente:

  • Seleccionar el archivo a convertir
  • Definir el formato de salida (Word, PDF. RTF o TXT)

 

Una vez definido el archivo pulsamos en la opción Convert para iniciar el proceso de conversión.

 

Imagen adjunta: Free-Online-OCR-extraer-texto-pdf.jpg

 

De esta manera convertimos cualquier imagen o archivo PDF en texto editable usando Free Online OCR.

 

 

Online OCR

Imagen adjunta: online-ocr-logo.jpg

 

Online OCR es una de las alternativas más usadas para convertir imágenes a texto plano. Podemos ir al siguiente enlace para su uso:

 

 

Características sobresalientes en Online OCR
  • Soporta múltiples lenguajes
  • Soporta múltiples formatos de entrada como BMP, PCX, PNG, GIF y PDF.
  • Permite exportar los archivos convertidos a Microsoft Word, PDF, TRF, archivos de texto o Microsoft Excel.

 

El uso de Online OCR es sencillo, debemos realizar lo siguiente:

  • Seleccionar el archivo
  • Definir el idioma
  • Establecer el formato de salida
  • Ingresar el captcha para iniciar el proceso
Una vez definido pulsamos en el botón Convert para iniciar el proceso de conversión. Podemos ver el resultado obtenido:

 

 

Imagen adjunta: extraer-texto-pdf-Online-OCR.jpg

 

 

 

New OCR

Imagen adjunta: new-ocr-logo.jpg

 

New OCR es otra de las herramientas en línea que so0n valiosas a la hora de convertir archivos a texto editable usando OCR. Podemos hacer uso de ella en la siguiente dirección:

 

 

Las ventajas de New OCR son
  • Multilenguaje
  • Soporta diversos formatos de imagen
  • Posibilidad de ver una vista previa del archivo
  • Diversas opciones de salida como Microsoft Word, PDF o archivos de texto.
  • Conversión ilimitada de archivos
  • Soporta imágenes en baja resolución
  • Reconoce ecuaciones matemáticas
  • Conserva la privacidad de los datos

 

El uso es sencillo:

  • Seleccionar el archivo
  • Podemos obtener una vista previa del archivo
Una vez la vista previa sea correcta pulsamos en el botón OCR para iniciar la conversión. Finalmente podremos decidir en qué formato exportar el resultado.

 

 

Imagen adjunta: extraer-texto-pdf-New-OCR.jpg

 

 

De esta forma contamos con diversas herramientas OCR gratuitas totalmente en línea.

 

Herramientas OCR para instalar en el sistema

Quizás no a todas las personas les agrada usar las herramientas OCR en línea por temas de seguridad, rendimiento o estabilidad. Solvetic te trae algunas de las herramientas OCR que pueden ser descargadas de forma gratuita para ser instaladas y contar siempre con una herramienta OCR a la mano.

 

FREE OCRTOWORD

Imagen adjunta: free-ocr-word.jpg

 

FREE OCRTOWORD, como su nombre lo indica, nos da la posibilidad de convertir nuestros archivos digitalizados en formato de Microsoft Word para su posterior edición. Podemos descargarla desde el siguiente enlace.

 

 

Características más importantes de FREE OCRTOWORD
  • Puede extraer el texto de diversos formatos como JPG, BMP, PNG, GIF, TIF.
  • Convierte las imágenes escaneadas y archivos PDF en documentos Word editables.
  • Esta herramienta es compatible con diversos tipos de escáneres lo cual permite escanear directamente desde la aplicación.
  • FREE OCRTOWORD tiene un margen de conversión del 98%
  • Veloz y seguro
  • Gratuito

 

El proceso de instalación de FREE OCRTOWORD es sencillo y una vez lo ejecutemos esta será su interfaz. Allí basta con acceder a la selección del archivo desde el botón Open, o bien escanearlo directamente usando la opción Scan. Una vez carguemos el archivo tenemos la posibilidad de convertir todo el documento o solo una parte de el:

 

Imagen adjunta: extraer-texto-pdf-FREE-OCRTOWORD.jpg

 

Una vez seleccionemos el área pulsamos en el botón OCR y en el panel derecho veremos la respectiva conversión seleccionada. Podemos ver que la herramienta nos ofrece diversas alternativas para el trabajo con el archivo convertido, podemos rotar la imagen, reducir o ampliar su tamaño, etc. Para guardar el texto convertido damos clic sobre el área donde se encuentra el texto convertido y allí seleccionamos la opción Export text into Microsoft Word

 

Imagen adjunta: extraer-texto-pdf-FREE-OCRTOWORD-2.jpg

 

Podemos verla gran ayuda ofrecida por esta aplicación.

 

 

 

FreeOCR

Imagen adjunta: free-ocr-logo.jpg

 

FreeOCR es una herramienta gratuita y muy práctica que puede ser descargada desde el siguiente enlace:

 

 

Las ventajas que tenemos al usar esta aplicación son
  • Soporta todas las ediciones de Windows
  • Gratuito
  • Soporta múltiples formatos de archivos a convertir
  • Podemos importar los archivos directamente desde un escáner

 

El proceso de instalación de FreeOCR es sencillo y esta será su interfaz una vez accedamos. Allí podemos escanear el archivo directamente o buscarlo en el equipo. Una vez accedamos al archivo veremos lo siguiente:

 

Imagen adjunta: extraer-texto-pdf-FreeOCR.jpg

 

Allí podemos usar los iconos en la barra central para ejecutar las tareas necesarias para la conversión de nuestra imagen o archivo, podemos convertir el archivo a Word, RFT o TXT.

 

VueScan

Imagen adjunta: vuescan-logo.jpg

 

El enfoque de VueScan está pensado más para entornos de sistemas operativos macOS pero también contamos con los archivos para Windows 10 los cuales pueden ser descargados desde el siguiente enlace:

 

 

El trabajo de VueScan está enfocado a los escáneres, ya que para su funcionamiento se requiere tener conectado un escáner al equipo.

 

Las ventajas de esta herramienta son
  • Detección automática de color
  • Soporta sistemas operativos Windows y Mac
  • Podemos reducir el tamaño de los archivos
  • Puede descifrar de manera automática los archivos
  • Podemos escanear múltiples tipos de archivos

 

Al ejecutar la herramienta tenemos múltiples opciones para la edición de los archivos:

 

Imagen adjunta: extraer-texto-pdf-VueScan.jpg

 

Desde este menú podremos gestionar todo lo relacionado a nuestros documentos.

 

gImageReader

Imagen adjunta: ocr-logo-gImageReader.jpg

 

gImageReader es una sencilla pero gran herramienta que nos brindara la posibilidad de escanear archivos directamente desde el dispositivo o tomar screenshots de lo que deseamos convertir. Esta herramienta puede ser descargada desde el siguiente enlace:

 

 

Principales características
  • Posibilidad de importar archivos en PDF para su conversión
  • Posibilidad de gestionar múltiples imágenes en un solo archivo
  • Es posible establecer el área de selección de forma manual o automática
  • Gratuito
  • Solo puede ser usado en arquitecturas de 64 bits

 

Podemos tomar un screen de la imagen a convertir:

 

Imagen adjunta: extraer-texto-pdf-gImageReader-1.jpg

 

Seleccionamos el texto que deseamos convertir y pulsamos en el botón Recognize selection y podremos ver que el texto seleccionado se ha convertido en formato de texto editable en el costado derecho.

 

Imagen adjunta: extraer-texto-pdf-gImageReader-2.jpg

 

Ahora desde allí podremos exportar este texto en formato PDF, Microsoft Word, etc.

 

Photo Scan

Imagen adjunta: photo-scan-logo.jpg

 

Esta es una herramienta propia de Windows y puede ser descargada e instalada desde el siguiente enlace:

 

 

Principales características
  • Soporta reconocimiento de voz
  • Gratuito
  • Multilenguaje
  • Es posible importar imágenes directamente desde la web
  • Es posible personalizarlo según nuestro gusto
  • Soporta Windows 10

 

Una vez descargado desde la tienda de Windows veremos varias posibilidades. Allí podemos buscar el archivo a extraer el texto, pegar la imagen, usar la cámara, etc. Una vez carguemos el archivo de manera automática se extraerá el texto de dicha imagen:

 

Imagen adjunta: extraer-texto-pdf-photo-scan.jpg

 

Desde allí podremos guardarlo en formato de TXT, HTML, etc.

 

 

 

Tenemos múltiples opciones para convertir todos los archivos digitalizados en texto editable para realizar las gestiones que sean necesarias usando estas diversas herramientas según nuestro gusto, ya sea en línea o directamente instalando la aplicación en el equipo.

 

Ver Comentarios (0) Escribir comentario