Dicionário Fonético

Descrição Detalhada

O projeto Léxico Unisyn do Português: Um Léxico de Pronúncia Independente do Dialeto para o Português (doravante LUPo) teve início em março de 2010 e foi desenvolvido durante três anos, no ILTEC, com a parceria de consultores das seguintes instituições: Universidade Federal do Rio de Janeiro (UFRJ) e Universidade de São Paulo (USP), no Brasil, e Universidade de Edimburgo, no Reino Unido. A equipa desenvolveu tecnologias que permitiram a geração automática de pronúncias de diferentes variedades do Português que são faladas em África, Ásia, Europa e América do Sul e tentou reduzir o fosso digital que ainda existe entre os membros da Comunidade dos Países de Língua Portuguesa (CPLP) através do desenvolvimento de uma base para um sistema multipronúncia de conversão de texto em fala (text-to-speech – TTS). Os sistemas TTS que abranjam diferentes variedades dialetais são extremamente caros e demorados, porque, regra geral, implicam trabalho manual na transcrição fonética de apenas um dialeto. Deste modo, o LUPo tentou minimizar esse trabalho manual através da geração automática de pronúncia de alta qualidade, adaptando uma abordagem, já desenvolvida na Universidade de Edimburgo, para dialetos do Inglês – projeto Unisyn (Fitt, 2000). Assim, em vez de se despender centenas de horas na transcrição manual ou semiautomática de um dicionário de apenas uma variedade, a metodologia envolve o desenvolvimento de um modelo que abrange todo o sistema de sons de cada dialeto.

Paralelamente, foram realizadas gravações áudio em formato digital a informantes oriundos de alguns países da CPLP. Para a gravação, foi apresentada uma lista de palavras e frases recolhidas em Rodrigues (2003). Além do uso de corpora de fala etiquetados, o LUPo dependeu significativamente da recolha, análise e modelização do seu próprio corpus para identificar as características de variantes padrão e não-padrão do Português do Brasil (PB) e do Português Europeu (PE), mas também das variantes luso-africanas e luso-asiáticas.

Posteriormente, a informação foi processada e incorporada no sistema modular LUPo e extraído um conjunto de regras independentes da pronúncia que foram aplicadas a um léxico-mãe (neste caso, um conjunto de palavras e respetiva codificação semelhante a uma transcrição fonológica abstrata – metaformas) para gerar transcrições fonéticas de dialetos específicos. Deste modo, o LUPo reduziu drasticamente o investimento por dialeto e permitiu a geração automática de dados de alta qualidade, permitindo uma abordagem única para a modelização de diferentes variedades através de um só sistema.

A motivação para este projeto assentou essencialmente na necessidade de produzir transcrições fonéticas de qualidade para integrar os TTS da língua portuguesa. Sabendo que as tecnologias da comunicação são parte integrante da vida atual e devem representar os falantes de todas as variedades de igual forma, adaptar uma tecnologia que possa representar ainda mais falantes, regiões e países do mundo e suas respetivas variedades equivale não só a incentivar estudos futuros de aspetos menos conhecidos, mas também a impulsionar um maior peso das mesmas no mundo digital.

COMO FUNCIONA?

Os utilizadores terão a opção de escolher, de entre um conjunto de variedades disponíveis, que transcrição fonética pretendem visualizar para uma determinada palavra. No canto superior direito existe uma barra onde o utilizador tem quatro ligações: (i) Apresentação, onde é feita uma síntese para o público em geral sobre como o projeto foi desenvolvido, à semelhança do que surge na introdução deste artigo; (ii) Lista Alfabética, onde estão as palavras transcritas foneticamente na variedade que selecionar; (iii) Pesquisa Avançada, que permite fazer pesquisas por ‘palavra’ ou ‘transcrição fonética’; e (iv) Mudar de variedade, onde o utilizador pode, de um conjunto de variedades, selecionar aquela que lhe interessa.

Na Lista Alfabética estão listadas as 55 000 palavras que integram o léxico-mãe. A lista é composta por uma coluna com a palavra transcrita ortograficamente, a categoria gramatical e a transcrição fonética correspondente. Nessa página é ainda possível ao utilizador alterar a variedade; para tal, só é necessário clicar em “mudar região”. Se clicar, por exemplo, na palavra “abacate”, é reencaminhado para a página onde surge a informação lexical da mesma no Portal.

Se clicar, por exemplo, na transcrição fonética da palavra “abadia” é reencaminhado para uma página onde surge a transcrição fonética desta palavra em todas as variedades existentes no LUPo.

Na Pesquisa Avançada, o utilizador pode pesquisar uma palavra que: (i) seja igual ao que digitar; (ii) comece com; (iii) contenha; (iv) termine com as letras que escreveu no campo “palavra”. O mesmo sucede no campo “IPA”, onde o utilizador escreve os símbolos IPA que lhe interessa pesquisar. O utilizador tem ainda a possibilidade de escolher a variedade sobre a qual pretende ter resultados e, por fim, pode selecionar a classe de palavras que quer.

Importa ao utilizador saber que na ligação “Mudar de variedade” estão listadas todas as variedades tratadas neste projeto (Figura 8). O utilizador pode clicar em cada uma delas e surgirá sempre a lista das 55 000 palavras ordenadas alfabeticamente. Sempre que o desejar, o utilizador pode alterar a variedade das palavras que lhe interessa pesquisar.