O que é OCR?
O OCR é a sigla para Optical Character Recognition (em português, Reconhecimento Óptico de Caracteres), uma tecnologia utilizada para reconhecer palavras e letras em um arquivo por meio da extração do texto, possibilitando o armazenamento do conteúdo e facilitando a manipulação dos dados.
Quais são os benefícios do OCR?
Ao utilizar o OCR em um documento digitalizado, por exemplo, podemos ter acesso facilitado a ele, pois todo o conteúdo do arquivo digitalizado é tratado como texto. Isso facilita a pesquisa, tornando possível localizar esse documento utilizando apenas palavras-chaves, um pedaço do texto ou algum número de contrato, sem a necessidade do usuário precisar informar muitos detalhes para a pesquisa.
Para mais detalhes sobre pesquisa de documentos com OCR no Orquestra ECM clique aqui.
Você também pode visualizar o texto extraído dos arquivos na importação de documentos. Para saber mais, clique aqui.
A partir da versão 3.11.0.0 o Zeev docs passa a contar com a opção extração de documentos PDF com o Google Vision.
Recomendações para uso do OCR
Para um melhor funcionamento do OCR em imagens, é preciso que o texto seja nítido, por isso seguir algumas boas práticas com a qualidade da imagem pode ajudar:
- Resolução em 300 DPIs;
- A imagem deve estar em tons de cinza (coloração);
- Alinhamento do texto na horizontal;
- Fundo da imagem com o texto deve estar limpo.
Para o correto funcionamento do OCR em documentos PDF (utilizando o Google Vision), o tamanho máximo do arquivo deve ser de 100 páginas.