Shweta Vikram
A tradução automática converte um idioma para outro. Anusaaraka é uma tradução automática, que é um software de acesso da língua inglesa para indiana. Anusaaraka é um projeto de Investigação e Desenvolvimento em Processamento de Linguagem Natural (PLN) realizado pela Chinmaya International Foundation (CIF). Quando qualquer máquina faz este trabalho, necessita de um grande corpus paralelo que possa ajudar a criar algumas regras e a desambiguar muitos sentidos. Está a seguir uma abordagem híbrida, mas estamos a trabalhar numa abordagem baseada em regras. Para esta abordagem, precisávamos de um grande corpus alinhado paralelamente. Neste artigo discutimos como recolhemos corpus paralelos com a ajuda de alguns scripts de shell, alguns programas, alguns kits de ferramentas e outras coisas.