Tutorial Blog

Nova Searchable Scanned Docs e um parafuso comum Up

5 de janeiro de 2009 por Michael Alexander »Deixe um Comentário Post to Twitter Post a Yahoo Buzz Post to Digg Post to Reddit Post to StumbleUpon




Menciono G oogle tantas vezes que muita gente deve pensar que eu estou sendo pago pela empresa. Apenas para o registro, eles não me pagar. I just can't help myself-Google está sempre fazendo coisas legais.

Recentemente, o Google afirmou que agora é capaz de usar o reconhecimento óptico de caracteres para indexar documentos digitalizados armazenados como Adobe PDFs. Anteriormente, a empresa raramente documentos digitalizados, porque não podia ter a certeza dos resultados da pesquisa. Segundo o blog do Google:

Embora tenhamos indexados documentos salvos como PDFs há já algum tempo, os documentos digitalizados são muito mais difícil para um computador para ler. A digitalização é o contrário da impressão. Impressão digital transforma as palavras em texto no papel, durante a pesquisa faz uma imagem digital do documento físico (e texto) para que você possa armazenar e visualizar em um computador.

Para ter um "test drive" dessa coisa de novo-novo, clique sobre essa consulta de pesquisa-Steady sucesso em um mundo volátil e você vai ver um trecho do doc PDF nos resultados da pesquisa seguida da ligação Ver como HTML.

Convert PDFs digitalizados para texto

Site Tech Digital Inspiration tem um ângulo sobre este novo recurso vale a pena mencionar:

Se você pesquisou arquivos PDF no seu disco rígido, mas falta o software de OCR, você ainda pode convertê-los em texto reconhecível, DI diz.

Crie uma pasta no seu website (por exemplo, o site é abc.com) e colocar todos os seus PDFs para a mesma pasta. Em seguida, criar uma página Web pública que liga a todos os PDFs. Aguarde o searchbots Google para rastrear suas coisas. Depois de feito isso, digite site: abc.com / pdf filetype: pdf para ver o seu PDFs em HTML.

Lifehacker adiciona esse toque para converter PDFs para HTML:

Você pode usar o Webmaster do Google Ferramentas para reinar em que começa digitalizado e indexado em seu site, embora você deve assumir qualquer coisa que você colocar on-line pode ser encontrado por aqueles que olham para ele.

Pode dizer o que há de errado com a frase Lifehacker acima? Ler "21 palavras que soam iguais, mas significam coisas diferentes." Que mal neste quadro?

Oops



Comentários estão fechados.

Tutorial Blog