« (...) A Tradução Automática de base estatística ganhou a corrida, muito devido à atual capacidade de armazenamento digital, potenciada pelos avanços da ciência e da tecnologia e pela internet. (...)»
Warren Weaver foi um matemático que, durante a II Guerra Mundial, chefiou o Painel de Matemática Aplicada (EUA), desenvolvendo investigação ligada à criptografia. Consciente dos problemas de design de computadores e das velocidade, capacidade e flexibilidade lógica do seu processamento, Weaver concebeu a ideia de os usar para a tradução entre línguas, e dela deu conta a Norbert Wiener, professor do MIT, em famoso memorando de 1947, onde refere e.g. que a tradução é um dos mais sérios problemas enfrentados pela UNESCO para a consolidação da paz. De resto, multinacionais e organizações internacionais são quem mais investe em tradução.
Um dos maiores desafios que enfrenta o processamento da linguagem natural, e consequentemente a tradução automática (TA), é a cabal descodificação da ambiguidade linguística, intrínseca às línguas naturais, apenas acessível a humanos.
A TA teve início em Portugal em 1986, com o projeto europeu EUROTRA, cujo parceiro português foi o então Instituto de Linguística Teórica e Computacional (ILTEC, associação de universidades, Academia das Ciências de Lisboa e JNICT/FCT), a que Maria Helena Mira Mateus presidiu até 2012. O EUROTRA baseava-se naquilo a que podemos chamar TA de base linguística (grosso modo, transformação de estruturas sintáticas povoadas de palavras produzidas numa língua-fonte em estruturas equivalentes numa língua-alvo). As línguas envolvidas no projeto eram "só" nove; os versados em matemática calculem quantos pares de línguas são possíveis.
O EUROTRA falhou o objetivo de criar um protótipo pré-industrial para TA, por escassez de descrições linguísticas "computacionáveis" e limitações tecnológicas. Porém, é inegável o seu impacto na linguística portuguesa, originando uma série de descrições linguísticas basilares, bem como o desenvolvimento da linguística computacional.
A TA de base linguística opunha-se à TA de base estatística (grosso modo, cálculo das probabilidades de uma expressão XF da língua-fonte ser traduzível pela expressão XA da língua-alvo). A TA de base estatística ganhou a corrida, muito devido à atual capacidade de armazenamento digital, potenciada pelos avanços da ciência e da tecnologia e pela internet.
Entende-se a existência de diversas aplicações gratuitas baseadas neste tipo de TA, destacando-se o Google Tradutor (GT), provavelmente o mais usado e eficiente, até porque a Google possui a maior base de dados de documentos conhecida. O GT é muito usado como base do trabalho de tradução, contribuindo para a desvalorização da tradução humana, como bem sentem os tradutores. Quando a ele se recorre é, no entanto, preciso ter em mente que: a) a eficiência do GT é proporcional à quantidade de dados disponíveis para as línguas-alvo e fonte envolvidas, com o inglês à cabeça; b) a versão gratuita do GT é uma versão beta da aplicação; c) o GT é adequado à tradução (escrita) e não à interpretação (oral), bem mais complexa; d) o GT está longe de substituir a tradução humana, e muito menos a interpretação, simultânea ou consecutiva.
Parecerá tão obtuso trazer hoje este tema à colação quanto ontem [21 de fevereiro de 2021] se celebrou o Dia Internacional da Língua Materna. Mas o que vamos ouvindo e lendo demonstra à exaustão a credulidade que existe em torno do GT e confere valor ao fator humano na tradução, assim como às línguas, sejam maternas, segundas ou estrangeiras, na vida de todos nós.
Crónica da autora publicada no jornal Diário de Notícias em 21 de fevereiro de 2021.