Entrevista com os criadores da extensão OCR para o DSPACE

Continuamos a publicação de entrevistas com os participantes no projecto SAPO Summerbits, o primeiro programa nacional de bolsas de apoio ao software livre, organizado pela Associação Ensino Livre e o SAPO. Publicamos hoje a entrevista respeitante ao projecto OCR4DSPACE, uma extensão que integra motores de reconhecimento óptico de caracteres (acrónimo inglês, OCR) com o Dspace.

Caríssimos Luís Arriaga e Joaquim Rocha, estiveram por detrás do desenvolvimento de uma extensão para o DSPACE no âmbito do programa SAPO Summerbits. Estamos em crer que alguns dos nossos leitores estão familiarizados com o DSPACE. Contudo, para os que não estão, querem-nos falar um pouco sobre o mesmo?

O DSpace é um repositório digital open source para documentos desenvolvido pelo MIT e a HP. É desenvolvido em JAVA, nomeadamente JSP, e lançado sob os termos da licença BSD.
Os documentos podem ser adicionados nos mais variados formatos e aquando da sua submissão podem ser adicionados atributos para facilitar a indexação e busca pelo motor de pesquisa. No caso de alguns formatos como o PDF ou o Doc, estes atributos podem ser automaticamente "extraídos" dos seus conteúdos. Também é muito flexível devido a permitir criar comunidades onde cada um pode ter o seu próprio portal, licenças para submissão dos documentos, permissões, etc.
Isto torna o DSpace muito fácil de adaptar para várias instituições.


Em Portugal, têm ideia do número e tipo de instituições que usam a plataforma? Na Universidade de Évora, instituição a que estão ligados, o DSPACE também é usado?

O DSpace é amplamente usado em Universidades, Bibliotecas e Centros de Investigação por todo o mundo. No site oficial do DSpace existe uma lista com muitas instituições por país que o usam. Em Portugal sabemos que para além da Universidade de Évora, a Universidade do Minho, a Universidade de Coimbra e a FEUP também usam o DSpace.

Antes de passarmos ao projecto em si, gostaríamos de questioná-los sobre um pequeno aspecto da utilização do DSPACE. As instituições portuguesas que o usam, em particular as instituições de ensino, estão perfeitamente cientes da necessidade de armazenar a informação mediante normas abertas para assegurar a sua correcta preservação ao longo do tempo… ou nem por isso?

Gostaríamos de responder que sim; mas infelizmente a importância dos aspectos da preservação de dados e de controlo total do seu conteúdo, nomeadamente através da adesão a normas abertas, não está devidamente difundida; muitas instituições estão ainda alheias a todo este problema, preferindo a comodidade imediata dos formatos mais difundidos.

O vosso projecto consistiu na adição de suporte de reconhecimento óptico de caracteres (vulgo OCR) ao DSPACE. Portanto, imaginemos que alguém submete um documento de texto num formato de imagem PNG para o DSPACE. De que forma é que a extensão vai actuar sobre o documento e como/onde vai guardar a informação daí resultante?

Esta extensão vai permitir que o que já acontece para o caso de formatos como o PDF ou o Doc, onde o DSpace extrai os seus conteúdos e os indexa, aconteça para imagens. As imagens ainda são muito usadas como documentos de texto, isto é, ainda é muito vulgar a impressão, assinatura e digitalização de documentos como ofícios, despachos, cartas, etc. Se alguém adicionar este tipo de documentos no DSpace, é necessário a introdução das palavras-chave manualmente para ser possível uma posterior busca.

O que fizemos foi um media filter para automatizar esta tarefa. Um media filter capta automaticamente todos os ficheiros no repositório pelo seu formato/tipo e aplica as operações desejadas. Um script exterior executa todos os media filters configurados. Este script pode ser executado de X em X tempo.
Assim, quando o documento de texto em formato PNG é submetido, o script é executado; o nosso filtro converte as imagens para o formato de input do motor ou motores de OCR usados e aplica-o a esses documentos. No final, as palavras obtidas são então indexadas. Note-se que existem motores open source muito bons como é o caso do Ocrad, GOCR ou Tesseract que podem ser usados neste sistema.

Podem usar-se um ou mais motores de OCR. No caso de vários serem usados, podem configurar-se regras para decisão de qual dos textos reconhecidos vai ser indexado. Antes das regras de decisão serem empregues, o desvio padrão é calculado para o número de palavras presentes em cada texto de cada motor. Se um dos textos não tiver o número de palavras dentro do desvio padrão, não é mais considerado a partir daqui. Isto é feito porque por vezes certos motores não reconhecem quase nenhuma palavra ou separam um palavra em várias, conforme a imagem em questão, e isto poderia depois influenciar a indexação.
Também se podem configurar regras de limpeza, isto é, regras para remoção de palavras mal reconhecidas, palavras indesejadas, etc. através de expressões regulares.

Ainda na lógica do exemplo anterior, além dos metadados, isto é, da informação geral associada ao documento que será guardada no repositório, será possível depois da extensão instalada, efectuar pesquisa sobre o texto reconhecido?

Todo o texto reconhecido é “enviado” para indexação e é esse o objectivo deste projecto. Deste modo, todo o conteúdo deverá ser possível de pesquisar. O objectivo é que, por exemplo, um documento sobre software contendo as palavras Linux, Alinex, Windows, Office, etc. não necessite que estas sejam introduzidas manualmente pela pessoa que submeteu o documento pois serão consideradas para indexação.

Qual é o estado de desenvolvimento actual do projecto? Estão previstas funcionalidades no futuro?

O projecto está finalizado para as funcionalidades projectadas para o Summerbits. Como funcionalidades no futuro, seria de interesse introduzir ainda mais controlo nas configurações para além das regras de decisão e limpeza.

Por último, a vossa opinião sobre o SAPO Summerbits!

Penso que é um projecto exemplar para Portugal! Divulga o software livre e resulta em soluções nacionais provando que temos bom software bem feito, bons programadores e boas ideias. Gostaria de ver o programa continuar para os próximos anos e talvez outras empresas a juntarem-se ao SAPO e aos restantes associados do programa para fazer parte deste e dar-lhe ainda mais força.

Muito obrigado pela vossa disponibilidade, caríssimos Luís Arriaga e Joaquim Rocha.

Deixar uma resposta