Si necesitas traducir textos a otros idiomas de manera totalmente automática, Google ofrece la API de su producto Google Translate. Pero tienes que saber que necesitas una API Key de Google y que es de pago.

Una alternativa gratuita es hacer uso de técnicas de Web Scraping para simular que nuestra aplicación es un humano navegando por la Web y recopilar información de forma automática.

 traducir textos con python y Google Translate

Es posible traducir textos con python y Google Translate. Se trata de simular los siguientes pasos:

  1. Entrar en la página del traductor Google Translate.
  2. Introducir el texto original que queremos traducir.
  3. Indicar el idioma de origen o decirle que detecte el idioma en el que está escrito.
  4. Indicar el idioma destino.
  5. Traducir.
  6. Recoger el texto traducido.
  7. Recoger el idioma de origen si le dijimos a Google Translate que detectara el idioma.

Para implementar todos los pasos necesitamos estas librerías de Python:

  • urllib para codificar los parámetros GET.
  • urllib2 para modificar la cabecera HTTP y enviar la petición GET (Request).
  • re para adaptar la respuesta (Response) mediante el uso de expresiones regulares.
  • json para deserializar la respuesta a un objeto Python.

Si te falta alguna de estas librerías utiliza pip como gestor de paquetes e instalalas.  Este enlace te explica cómo instalar pip.

El código, mas abajo comento cómo funciona:

from urllib import urlencode
from urllib2 import urlopen, Request
import re
import json
def get_google_translate(text, translate_lang, source_lang=None):
    if source_lang == None:
        source_lang= 'auto'
    params = urlencode({'client':'t', 'tl':translate_lang, 'q':text.encode('utf-8'),
                       'sl':source_lang})
    http_headers = {"User-Agent":"Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)"}
    request_object = Request('http://translate.google.com/translate_a/t?'+params, 
                     None, http_headers)
    try:
        response = urlopen(request_object)
        string = re.sub(',,,|,,',',"0",', response.read())
        n = json.loads(string)
        translate_text = n[0][0][0]
        res_source_lang = n[2]
        return True, res_source_lang, translate_text
    except Exception, e:
        return False, '', e

En la línea 14 se hace la petición GET donde se le pasa la cabecera modificada para simular que nuestra rutina es un navegador Web. Como parámetros GET se le pasa el texto a traducir así como el idioma de destino y el idioma de origen o ‘auto’ para que detecte el idioma.

La respuesta es un array en el formato javascript:

[[[«Happy Birthday!»,»С днём рождения!»,»»,»S dnom rozhdeniya!»]],,«ru»,,[[«Happy Birthday!»,[4],True,False,627,0,3,0]],[[«С днем рождения !»,4,[[«Happy Birthday!»,627,True,False],[«Happy birthday»,0,True,False]],[[0,16]],»С днём рождения!»]],,,[],1]

Necesita de una pequeña adaptación para ser un JSON compatible y de esto se encarga la línea 15 de código mediante una expresión regular que añade un cero a cualquier aparición de item vacío. La línea 16 deserializa el JSON para después leer el texto traducido y el idioma de origen.

Test:

result, code, text = get_google_translate(u'Hola Mundo!', 'en')
print result, code, text
result, code, text = get_google_translate(u'Hello World!', 'es')
print result, code, text
result, code, text = get_google_translate(u'привет мир', 'en')  
print result, code, text
result, code, text = get_google_translate(u'مرحبا العالم', 'en') 
print result, code, text
result, code, text = get_google_translate(u'Ciao Mondo', 'pt', 'it') 
print result, code, text

En todas las traducciones, excepto en la última, indicamos que detecte automáticamente el idioma del texto a traducir.

Resultado:

True es Hello World!
True en ¡Hola Mundo!
True ru hello world
True ar Hello world
True it Olá Mundo

Comprobamos que detecta que el idioma de origen es el español (es), inglés (en), ruso (ru) y árabe (ar) respectivamente. Por último indica que el idioma es el italiano (it) que es el indicado. Ahora podemos traducir textos con python y Google Translate fácilmente.