Entrevista com os criadores da extensão OpenThesaurus para o OpenOffice

Continuamos a publicação de entrevistas com os participantes no projecto SAPO Summerbits, o primeiro programa nacional de bolsas de apoio ao software livre, organizado pela Associação Ensino Livre e o SAPO. Publicamos hoje a entrevista respeitante ao projecto OTOO, uma extensão que permite o acesso fácil ao dicionário de sinónimos, no OpenOffice.

Muito boa tarde, caríssimos Rui Fernandes e Joel Cordeiro. Estão envolvidos no desenvolvimento de uma extensão para o OpenOffice no âmbito do SAPO Summerbits. O OpenOffice dispensa apresentações, é a suite de produtividade de escritório livre mais conhecida em todo o mundo. A vossa extensão para o OpenOffice pretende fornecer a possibilidade de, além do corrector ortográfico de que já dispômos, termos também acesso a um dicionário de sinónimos em português baseado no OpenThesaurus à distância de um clique…

Boa tarde. Sim é verdade, tipicamente o utilizador comum que migra do Microsof Office para o OpenOffice tem um tempo de adaptação elevado, devido às ferramentas não estarem facilmente alcançáveis nem acessíveis. Um dos exemplos, é a funcionalidade do Thesaurus, cuja funcionalidade não está acessível. O que pretendemos é disponibilizar uma extensão para o OpenOffice que facilite ao utilizador o acesso ao thesaurus, adicionando no menu de contexto os sinónimos relativos a uma palavra seleccionada no texto, e substituí-la pela pretendida pelo utilizador. São estas pequenas funcionalidades que podem fazer com que a usabilidade do Open Office se aproxime da usabilidade do Microsoft Office, e assim atrair cada vez mais utilizadores para a suite de produtividade de escritório livre mais conhecida em todo o mundo.


Comecemos pelo OpenThesaurus. Querem-nos falar um pouco sobre este projecto e do seu estado actual de desenvolvimento?

O projecto OpenThesaurus, é um projecto OpenSource para a construção de um dicionário de sinónimos para a língua portuguesa, e nasceu da necessidade de existir um dicionário de sinónimos para o OpenOffice.org uma vez que os únicos existentes eram comerciais e destinados ao MS Office.

O OpenThesaurus, mais que um dicionário de sinónimos, é uma ferramenta online e colaborativa que permite que todos os utilizadores registados possam contribuir para o crescimento do actual dicionário, quer pela inserção de novos sinónimos, quer pela correcção dos actuais grupos de sinónimos existentes na base de dados.

Relativamente ao estado actual do OpenThesaurus, existem cerca de 13200 palavras que se encontram repartidas por 4000 grupos de sinónimos.

Por forma a incrementar a actual usabilidade da ferramenta foi desenvolvido no passado ano de 2007 durante o evento Codebits (também organizado pelo SAPO) um conjunto de web services que permitem a qualquer aplicação web usar o dicionário de sinónimos e até mesmo inserir novos termos.

Um dos objectivos secundários que podemos encontrar na vossa página do SAPO Summerbits é precisamente o de extender o OpenThesaurus (PT) usando informação já existente.. têm alguma novidade em relação a isso? Isto é, há esperança de dar um salto quantitativo e qualitativo no número de sinónimos já disponíveis no OpenThesaurus PT?

Relativamente à primeira questão, não foi possível obter novidades. Foram feitas algumas pesquisas pela internet, e não se encontrou nenhuma informação existente que pudesse facilitar essa tarefa. Uma das ferramentas que poderia facilitar bastante a geração de um thesaurus mais rico em vocabulário e sinónimos seria a existência de um WordNet (http://wordnet.princeton.edu/) para a língua portuguesa. Muito resumidamente, uma wordnet consiste numa base de dados lexical, que agrupa conjuntos de palavras sinónimas chamadas de synsets, disponibiliza simples definições, os vários contextos da palavra, e várias relações semânticas entre esses conjuntos de sinónimos. Por exemplo, existem vários sentidos para o conceito rato – rato acessório para o computador, ou rato como um animal, sendo que rato tem uma relação de hipónimo com animal. Sabemos que já começou a ser desenvolvida uma WordNet para a língua portuguesa, mais ainda se encontra em fase de desenvolvimento e prevê-se que seja proprietária do Instituto de Camões (http://www.instituto-camoes.pt/cvc/traduzir/wordnet.html).

Não tendo soluções que facilitem o enriquecimento do vocabulário e dos conjuntos de sinónimos do OpenThesaurus, estamos a pensar recorrer a outra ferramenta, google sets ( http://labs.google.com/sets). O google sets é uma ferramenta que dado alguns exemplos de palavras, consegue devolver um conjunto mais completo de palavras relacionadas (por exemplo, dado [banana, maçã], devolve-nos [maçã, banana, uva, laranja, abacaxi, manga] ). No contexto do thesaurus, imaginemos que lhe damos os exemplos [mansão, vivenda], o google sets retorna-nos, entre outras coisas, [mansão, vivenda, casa ].

A ideia relacionada com esta ferramenta seria, numa primeira fase, implementar um wrapper que acedesse ao google sets, dando como entrada os conjuntos de sinónimos do openthesaurus, e filtrasse o conjunto devolvido. Mediante os resultados obtidos, caso estes dessem a entender que uma ferramenta do estilo poderia enriquecer o openthesaurus, então seria de avançar para a implementação de um sistema semelhante ao google sets, mas com características específicas para a língua portuguesa (já recolhemos um conjunto de artigos relacionados com ferramentas do género, caso a ideia venha a avançar).

Num cenário optimista, apenas com o implementado na primeira fase já seria possível enriquecer o OpenThesaurus. Mas este trabalho tratar-se-ia de um trabalho com alguma investigação e com um tempo de duração previsto superior a 3 meses, pelo que não seria um objectivo concretizável no âmbito do SAPO Summerbits. Com alguma pena minha a ideia ainda não foi explorada com alguma profundidade, dado a prioridade para o summerbits ser a extensão para o openoffice, e esta ter levado mais tempo que o esperado.

Respondendo à segunda questão, sim acreditamos que esse salto quantitativo e qualitativo esteja próximo. A existência de uma wordnet para a língua portuguesa facilitaria bastante esse salto. Mas temos outras alternativas com vista à concretização desse objectivo, desde um simples conjugador de verbos automático, à implementação de ferramentas de extracção de informação da web. Dando um pequeno exemplo da informação que seria possível extrair da web, imaginemos a simples extracção de palavras que aparecem em redor do verbo “comer”, nos documentos em português espalhados pela web (páginas web ou outros recursos): o resultado seria a obtenção de um grande conjunto de palavras relacionadas.

Muito bem… falemos então em concreto da extensão para o OpenOffice. Quando estiver completamente preparada, quais as funcionalidades em detalhe que a mesma proporcionará?

A ideia da extensão é facilitar a acessibilidade à funcionalidade de thesaurus no OpenOffice, cujo resultado será a integração dos sinónimos de uma palavra seleccionada pelo utilizador, directamente no menu de contexto do OpenOffice, e a sua substituição pelo respectivo sinónimo seleccionado pelo utilizador.

Existe já nos repositórios do OpenOffice uma extensão que permite a instalação, além dos dicionários de português, do conteúdo do OpenThesaurus-PT para o OpenOffice 3.0. De que forma é que um utilizador pode, sem a vossa extensão, aceder a este mesmo conteúdo?

De facto, a partir da versão 3.0 do OpenOffice.org, a instalação de dicionários de português de correcção ortográfica e do dicionário de sinónimos para a língua portuguesa é realizada através da instalação de uma extensão, o que se traduz numa amigável melhoria relativamente às versões anteriores do OpenOffice.org.

O acesso ao conteúdo desta extensão no OpenOffice.org é realizado, à semelhança das versões anteriores, da seguinte forma: no caso da correcção ortográfica, esta funcionalidade está disponível ao utilizador a partir do menu de contexto (botão direito do rato em cima de uma palavra); no caso do dicionário de sinónimos esta funcionalidade não existe sendo necessário aceder ao menu “ferramentas -> Idioma -> Dicionário de Sinónimos” para se proceder a uma alteração. A extensão que estamos a desenvolver neste projecto vai permitir, que o dicionário de sinónimos se encontre disponível ao utilizador também através do menu de contexto, à semelhança do que já acontece no Proofing Tools da Microsoft. Esta é uma das funcionalidades já pedida por diversos membros da comunidade.

Após terminarem o desenvolvimento, prevêem que a extensão venha a ser incorporada no OpenOffice por defeito?

Actualmente o objectivo principal é conseguir implementar a extensão de forma a que esteja funcional, e ter um período de testes para correcção de bugs que possam vir a ser detectados. A incorporação na aplicação OpenOffice ou no repositório de extensões do OpenOffice será um passo desejável, mas apenas poderá ser concretizado após a estabilidade da extensão.

Deixar uma resposta