|
From: | Martin Sevigny |
Subject: | Re: [sdx-users] SDX et le multilinguisme |
Date: | Fri, 02 Apr 2004 07:37:26 +0200 |
User-agent: | Mozilla Thunderbird 0.5 (Windows/20040207) |
Salut,
On peut "aider" les analyseurs en les hiérarchisant et/ou en postulant par exemple que si le token précédent était un token anglais, l'analyseur anglais prend la précédence sur l'analyseur français pour le token suivant : "Attention please" vs "Attention les gars".
Je me demande s'il peut découvrir que "watch out les gars" est du québécois ;-)
Ainsi, la phrase suivante "In his german / arabic dictionary, Müller translates SchweinHund by ابن الكلب" sera "correctement" analysée avec les analyseurs actuellement disponibles sous la forme : german arabic dictionary muller translates schwein hund ابن كلب
C'est bien, mais dans ce cas précis de requête de recherche, où un seul champ est cherché (le champ par défaut), tu as donc des contenus en plusieurs langues pour que ça donne quelque chose. Comment analyses-tu ces contenus ? De la même manière ? Que se passe-t-il avec les mots vides dans une langue mais significatifs dans une autre (je n'ai pas d'exemple mais ça doit bien exister) ?
A bientôt, Martin Sévigny
[Prev in Thread] | Current Thread | [Next in Thread] |