Documentación para la traducción más allá de Google

Google es, hoy por hoy, una herramienta insustituible, y con este artículo no nos proponemos facilitar una nómina de posibles sustitutos, sino más bien proporcionar herramientas complementarias, cada una con un punto fuerte que compensa las deficiencias comprensibles del buscador estrella.

El investigador que aproveche lo expuesto aquí ganará en libertad y en flexibilidad y ahorrará algo de tiempo.

Comenzaré con una digresión sobre la publicidad engañosa. Un aviso: por más que haya empresas que se comprometan a registrar tu sitio web en más de cien buscadores; buscadores, entendidos como programas que realizan independientemente su propio rastreo de la web y la consiguiente gestión de datos, hay en realidad muy pocos. En la mayoría de los casos estamos ante herramientas que se suben a hombros de gigantes: regurgitan los datos que ellas mismas obtienen buscando en los motores consagrados y, en el mejor de los casos, aportan un valor añadido. Con registrarte en Google, Ask, Bing, Yahoo y algunos más, aparecerás automáticamente en los demás. Ahora bien, algunos de estos instrumentos merecen la pena, y los comentaré en el primer apartado.

1. Herramientas basadas en los buscadores más conocidos

1.1 Case Sensitive Google Search: Al no distinguir Google entre mayúsculas y minúsculas, surge un nicho que motiva la existencia de esta sencilla página. CSGS contiene el campo «Query», en el que se pueden introducir una o varias palabras, y que obligará a que todas ellas aparezcan en los resultados, como de costumbre, independientemente de cómo estén escritas. Por el contrario, «Filter» sirve para introducir tal cual la palabra que queramos que aparezca con una ortografía determinada. El gran inconveniente de CSGS es que no está operativo en numerosas ocasiones.

1.2 Termprofile (basado en Bing): Numera las ocasiones en las que una determinada palabra aparece en dominios de hasta tres países dados y, lo que es aún más interesante, relaciona el número de coincidencias de la palabra estudiada con otra que podemos utilizar como control. Vaya un supuesto práctico: Desconocemos cuál es la palabra más frecuente para referirse a un automóvil (coche, auto, etcétera) en varios países de habla hispana, pero sabemos que hay una determinada marca y un modelo con presencia en todos ellos (pongamos por caso Dolores Benz). El número de coincidencias de coche y auto no es en sí muy significativo, puesto que puede darse la circunstancia de que en un país se generen más páginas sobre la automoción, o de que una de esas palabras pertenezca también a otro ámbito y este hecho falsee los datos. Sin embargo, sí tendrá más valor la relación entre este y el número de veces que aparezca Dolores Benz. Si en el país A, auto aparece con mayor frecuencia relativa de lo que aparece coche y en el país B se da el caso contrario, concluiremos, con las debidas reservas, que auto es una palabra más frecuente que coche en A que en B para referirse a la misma realidad. TP permite hacer tres comparaciones con una sola operación, lo que nos proporciona un metaanálisis minimalista con un solo clic. No quisiera concluir este apartado sin antes alertar de que el guarismo que expresa la proporción entre dos palabras (esos dos números separados por dos puntos) en la página de resultados me parece erróneo. En mi opinión, los números deberían estar cambiados de orden. Quien desee comprender por qué, no tiene más que realizar una búsqueda con una palabra muy frecuente y otra rebuscada.

1.3 Diatopix (basado en Google): Muy similar al anterior, aunque menos rico en opciones. Tiene la ventaja de que ofrece un cómodo enlace a la página de resultados correspondiente de Google, mientras que TP no presenta más que enlaces a los primeros resultados, y por separado. Es interesante también saber que Diatopix ofrece un menú de selección («dominio») que circunscribe la búsqueda a un determinado campo del saber.

1.4 Ngram (basado en Google Books): Muestra la evolución en el tiempo de la frecuencia de uso de la palabra que buscamos a partir de la biblioteca virtual Google Books. Es de utilidad para alertarnos de que un término puede ser un neologismo o, por el contrario, haber quedado obsoleto.

1.5 DeeperWeb (basado en Google): De entre los instrumentos de su clase, es este quizá el más versátil por las numerosas aplicaciones prácticas a las que se presta; tan pronto sirve para conocer una frase completa en un idioma extranjero que no estamos seguros de haber oído bien, como hace las veces de improvisado diccionario inverso o de ideas afines, enmarca en su correspondiente campo un concepto con el que no estamos familiarizados o da a conocer a golpe de vista la frecuencia relativa de dos sinónimos. El funcionamiento es simple: DW genera una nube con las palabras que más frecuentemente aparecen asociadas al término de búsqueda, es decir, que están en la misma página. El tamaño de estas será mayor en función de su frecuencia. DW ofrece además varias pestañas adicionales que dan información sobre las cifras que aparecen habitualmente relacionadas con tales palabras («metric search»), y los sitios web o las zonas geográficas donde estas aparecen. Por último, cabe comentar la fluida navegación que permite, al poderse añadir o eliminar a la ecuación de búsqueda las palabras de la nube con un solo clic. Es de agradecer cómo se eliminan de un plumazo todas las páginas que contienen una palabra determinada. Esto es posible también mediante el consabido signo menos, pero la diferencia está en que DW nos pone ante los ojos un suculento menú con las palabras indeseables.

2. La web invisible: Deep Web Technologies

Los buscadores convencionales se basan en la web visible o web superficial, que consta de un colosal cuerpo de datos explorados y almacenados por unos programas denominados arañas (por aquello de que se desplazan por la web), spiders, crawlers, robots o bots. En el caso de Google, tenemos una araña con nombre propio, Googlebot, que visita todos los sitios de que tiene conocimiento con una regularidad que va en función de la frecuencia con la que estos se actualizan, y registra los cambios detectados. Cuando realizamos una consulta, Google busca la información solicitada en la base de datos que ha ido alimentando de este modo; es la llamada búsqueda estática. El inconveniente de este sistema es que solo posibilita el acceso al contenido indizable, es decir, al que está expuesto a que las arañas lo lean, y excluye una valiosa plétora de resultados no indizables: los que generan los motores de búsqueda internos de ciertos sitios: IATE, el DRAE, y, en general, todos los diccionarios y bases de datos terminológicas.

Se conoce como web invisible al conjunto de recursos no indizables por las arañas. En la web invisible se efectúan búsquedas federadas.

Paso a exponer las dificultades con las que se toparía un hipotético motor de búsqueda federada que tuviera una vocación universalista comparable a la de Google. Para empezar, con la tecnología actual es imposible acceder al contenido invisible de un solo sitio mediante un buscador, puesto que las páginas que contienen los resultados no existen antes de que se realice la operación de búsqueda, sino que se generan sobre la marcha mediante el acceso a datos que se alojan en un ordenador privado (todo el contenido visible, por el contrario, está alojado en páginas ya diseñadas y acabadas que cualquiera puede descargar con HTTrack). La única opción realista que nos queda, por tanto, es conocer de antemano estas fuentes y consultarlas una por una, solución que dista años luz del ojo omnipresente que supone Google. En segundo lugar, de diseñarse un algoritmo que solventara este problema, me sigue pareciendo difícil imaginar un sistema que fichara todos los motores de búsqueda internos posibles, y aún más difícil que pusiera en marcha los mecanismos de búsqueda, pues estos colapsarían muchos de los motores al forzarlos a efectuar todas las búsquedas no pertinentes que los usuarios tuvieran a bien efectuar (por ejemplo, buscar en el diccionario de la RAE palabras en otros idiomas). De modo que actualmente solo hay soluciones parciales a este problema, y procedo a comentarlas.

Deep Web Technologies (no confundir con Deeper Web) es una familia compuesta por los buscadores temáticos Science.gov, ScienceResearch, WorldWideScience, Mednar y Biznar. Cada uno de ellos comprende a su vez una selecta colección de recursos relacionados con un determinado ámbito (los negocios, en el caso de Biznar). Al introducir el término en el campo de búsqueda de uno de estos instrumentos, se adapta la sintaxis a las de los motores de los recursos de la colección, se realizan las operaciones pertinentes en todos ellos, se eliminan los duplicados y se presenta una lista con los resultados. Por ejemplo, Science.gov, integrado por páginas de entidades gubernamentales relacionadas con la ciencia, dispone de 55 recursos, entre ellos ClinicalTrials.gov, NASA Astrophysics Data y Cancer.gov (se puede conocer la lista completa mediante el botón «Source Status» una vez realizada la búsqueda). Las herramientas de Deep Web Technologies no solo dan acceso a un suculento filón de recursos, sino que tienen la deferencia de presentar de inmediato los resultados iniciales mientras continúan buscando (tarea lenta, pues hay que repetir todos los pasos por cada sitio consultado) y al final del proceso dan la opción de incluir o no el resto.

3. DuckDuckGo

DuckDuckGo (www.ddg.gg), además de actuar como buscador convencional, con araña propia, pone a disposición del usuario una serie de operadores que sirven para buscar dentro de otros sitios, con la sintaxis de estos si se trata de buscadores. Por ejemplo, podemos teclear «!g córdoba –argentina» y DDG buscará dentro de Google la ecuación «córdoba –argentina». El operador «!g» pertenece a la categoría de los llamados !bangs, cuya lista completa se puede consultar introduciendo el comando «!bang». A primera vista no son evidentes las ventajas; por lo que las comento a continuación:

No viene mal la alternativa de poder acceder a ciertos sitios desde un ordenador diferente al nuestro (el de DDG). Puede ocurrir que uno de ellos nos limite el número de consultas diarias, o que otro nos imponga una configuración que no nos acabe de gustar, y que en un momento dado esta se haya aplicado solo a algunos ordenadores. Con la opción redundante de las búsquedas vicarias de DDG podemos soslayar estos contratiempos.
Teclear un !bang ahorra tiempo. Es más cómodo introducir un par de teclas delante de la ecuación de búsqueda que teclear el URL completo, esperar a que la página se cargue y dirigir el puntero al campo pertinente. Hay una hermosa docena de páginas que utilizamos con frecuencia y que se abrevian con solo una o dos letras: Wikipedia (!w), Ebay (!eb), Youtube (!yt), Amazon (!a), Facebook (!fb), la página de la RAE (!rae) y algunas más. Si tenemos en cuenta que a las abreviaturas básicas se les pueden agregar en muchas ocasiones pares de letras que indican el país, (!wes, !wfr y !wde, para las páginas en español, francés y alemán, respectivamente, de la Wikipedia), el número de pulsaciones que ahorramos es considerable. Nada del otro mundo, pues Chrome ofrece una prestación similar, pero personalmente prefiero DDG porque evita la necesidad de abrir una nueva pestaña para cada sitio; con Alt + flecha de dirección marcha atrás, colocas el puntero de nuevo en el buscador y vuelta a empezar, a por la siguiente consulta.
Explorando la amplia recopilación de !bangs podemos descubrir recursos que de otra forma se perderían por el ruido.

4. blekko

El buscador blekko es similar a los de Deep Web Technologies en el sentido de que sondea solamente una recopilación temática muy limitada de fuentes, pero con la diferencia de que esta vez no se trata de motores de búsqueda, sino de la web visible. Al igual que con DDG, existe una serie de operadores, denominados en este caso slashtags, que restringen la búsqueda, no a un sitio, sino a una disciplina. Así, por ejemplo, con el slashtag «/tabs», que hace referencia a tablaturas, acotaremos la búsqueda a una serie de sitios que han sido incluidos en dicha categoría por personas y así podremos buscar una canción sin temor a toparnos con resultados en los que la palabra «tab» se utilice con los diferentes significados que no nos interesan para nuestras pesquisas. En cada búsqueda podemos utilizar un slashtag que conozcamos previamente si lo consideramos útil, o bien podemos buscar sin más y blekko presentará los resultados organizados en recuadros que corresponden a cada uno de los slashtags a los que pertenezca el término, con una disposición que recuerda a la desambiguación de la Wikipedia. Un buscador de los de siempre se limitaría simplemente a hallar todos los términos, sin contemplaciones sobre acepciones ni contextos.

Al igual que DDG, blekko es ideal para descubrir tesoros ocultos.

La característica más prometedora, y a la vez la más decepcionante tal y como están las cosas actualmente, es que blekko permite al usuario abrirse una cuenta y crear sus propias colecciones, lo cual sería como poder incluir cualquier sitio web, grande o chico, en un corpus temático. Lamentablemente, los resultados son deficientes; en mi experiencia, blekko no encuentra la gran mayoría de los términos de los sitios recopilados, si bien sé a ciencia cierta que estos aparecen. En cualquier caso, puede ser interesante seguir su evolución de cerca.

5. WolframAlpha

WolframAlpha no es un buscador propiamente dicho, sino que se parece más a un sistema de inteligencia artificial, aunque sus responsables prefieren denominarlo computational knowledge engine. El motor almacena y gestiona los datos de un enorme cuerpo de recursos bibliográficos propios, que no de sitios web externos, y, según se declara en el sitio, invierte grandes esfuerzos en la veracidad de los datos. Pero lo que lo diferencia de los demás es su capacidad de interpretar el lenguaje humano, en ocasiones con una solvencia sorprendente, y de realizar operaciones que a muchos les darían dolor de cabeza. WA resuelve ecuaciones, representa funciones, da las fórmulas químicas a partir del nombre de una sustancia y viceversa, completa proverbios, analiza la idoneidad de una contraseña y calcula índices de masa corporal, todo ello sin que tengamos que aprendernos complicados comandos. Al parecer, WA está programado para inferir lo que deseamos a partir de algunas palabras sueltas y con un margen bastante amplio para las posibles variaciones que pudieran darse. Tanto es así que WA no ofrece una lista completa de sus posibilidades, sino que presenta algunos ejemplos para que nos familiaricemos con su idiosincrasia y aventuremos otras consultas. Se diría que hay que afinar la intuición en justa correspondencia.

A continuación, copio algunos ejemplos, con su breve explicación.

Texto a introducir en la ecuación de búsqueda	Operación realizada
x+8=3x	Resuelve la ecuación
speed of light	Arroja la constante
next solar eclipse	Facilita la fecha del eclipse
Lion	Consigna el nombre científico y la taxonomía
Plot x^3+4*x^2	Representa gráficamente la función f(x)=x3+4×2
How much fat in 1 yogurt	Presenta la cantidad
Swimming 20 minutes 25yo male	Calcula las calorías quemadas por un hombre de 25 años al nadar 20 minutos.

WA no es, sin embargo, lo que mejor satisface las necesidades terminológicas que nos surgen a diario: escupe sobre todo datos, y no textos amplios, está solo en inglés, es más de ciencias que de letras y peca de etnocéntrico. Como apoyo al estudio, bien es cierto, su valía es enorme.

Comentarios

Ahí queda la retahíla.

Destacaría un valor añadido que se precia mucho en los últimos tiempos: el respeto por la privacidad, en concreto el que muestran blekko y DDG, frente a los buscadores tradicionales. A quienes inquiete su intimidad, recomiendo leer las respectivas políticas de privacidad.

Mención especial merece también la inmediatez que posibilita el uso de Deeper Web, frente a las múltiples operaciones que serían necesarias sin recurrir a este, sin olvidar que constituye un peligro por las posibles conclusiones acríticas a las que pudiera dar pie. Por el contrario, blekko no suele ser útil cuando el tiempo apremia, pues los recursos de que consta son limitados, pero sí para buscar sitios de interés con los que podamos profundizar en un tema y que podamos almacenar para adquirir la competencia cognitiva con calma.

Por otra parte, en descargo de Google diré que puesto que la base de datos con la que cuenta a día de hoy parece ser la mayor de todas, no tiene parangón cuando se trata de buscar términos muy infrecuentes.

Hemos visto que cada una tiene sus encantos. Lo ideal es ahora familiarizarse con todas estas herramientas, marcarse la disciplina de juzgar cuál es la mejor para cada caso antes de sucumbir al uso facilón de los buscadores de siempre y perseverar hasta que agucemos un instinto que nos lleve derechos al asunto sin mayor reflexión.

Cookie	Duración	Descripción
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Documentación aplicada a la traducción: hay vida más allá de Google

1. Herramientas basadas en los buscadores más conocidos

2. La web invisible: Deep Web Technologies

3. DuckDuckGo

4. blekko

5. WolframAlpha

Comentarios

Último número

Artículos relacionados

From translator to data scientist: an interview with Rubén Rodríguez de la Fuente

Local LLMs: ethical, secure and sustainable AI

Preocupaciones éticas y regulatorias del uso de la IA en la traducción profesional

Entrevista a Antoni Oliver, responsable del proyecto MTUOC para el entrenamiento, uso e integración local de la NMT

‘Language Oddity’: la extrañeza del (lenguaje) humano ante la máquina (que contesta)

Documentación aplicada a la traducción: hay vida más allá de Google

1. Herramientas basadas en los buscadores más conocidos

2. La web invisible: Deep Web Technologies

3. DuckDuckGo

4. blekko

5. WolframAlpha

Comentarios

Redes Sociales

Último número

Artículos relacionados

From translator to data scientist: an interview with Rubén Rodríguez de la Fuente

Local LLMs: ethical, secure and sustainable AI

Preocupaciones éticas y regulatorias del uso de la IA en la traducción profesional

Entrevista a Antoni Oliver, responsable del proyecto MTUOC para el entrenamiento, uso e integración local de la NMT

‘Language Oddity’: la extrañeza del (lenguaje) humano ante la máquina (que contesta)