[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] analyzerConf?
From: |
Michel Bottin |
Subject: |
Re: [sdx-users] analyzerConf? |
Date: |
Mon, 20 Sep 2004 18:18:27 +0200 |
User-agent: |
Mozilla/5.0 (Macintosh; U; PPC Mac OS X Mach-O; en-US; rv:1.7.3) Gecko/20040910 |
Bonjour,
Martin Sevigny wrote:
Bonjour,
Certes, c'est peut-être beaucoup pour un cas de figure qui devrait
être assez rare...
Pas si rare pour tout le monde: nous mélangeons joyeusement les
langues à
l'intérieur d'une collection, d'un document, d'un champ, voire d'une
balise
particulière.
Je précise. Ce qui est rare c'est qu'on fasse évoluer une application
pour modifier l'analyseur d'un champ sans qu'on réindexe les
documents, donc les documents ne seront pas tous indexés de la même
manière pour un même champ.
Bien entendu, des corpus/documents/champs multilingues, c'est loin
d'être rare!
A bientôt,
Martin Sévigny
Pour mettre mon grain de sel dans la discussion je constate que dans
beaucoup de structures XML une balise donnée peut être qualifiée au
moyen d'un couple attribut-valeur du type xml:lang pour préciser la
langue du contenu de la dite balise.
Par exemple dans l'information bibliographique il existe toujours une
balise titre - éventuellement répétable - pour décrire le(s) titre(s)
propre(s) d'un ouvrage. Et ce ou ces titres peuvent être dans n'importe
quelle langue. En revanche la langue de catalogage - la langue utilisée
par le catalogueur pour décrire les autres éléments de la référence
bibliographique - est en principe unique dans un centre de documentation
donné. La seule exception pourrait être un centre de doc. s'adressant à
une population bilingue.
Donc nous avons la situation suivante:
- le document est dans une langue X (la langue de catalogage)
- certains champs - le champ titre en particulier - a très fréquemment
un contenu multilingue.
Il faut donc, si l'on veut indexer en toute rigueur les mots
significatifs du titre, pouvoir choisir l'analyseur selon la langue.
Naturellement cela implique que lors de la formulation de la requête de
recherche l'on précise la langue utilisée. Tout autre méthode ne peut
que conduire à des résultats purement aléatoires.
Michel Bottin