sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : RE : [sdx-developers] docbook, sdxdoc, <concept/>?


From: Martin Sevigny
Subject: RE : RE : [sdx-developers] docbook, sdxdoc, <concept/>?
Date: Thu, 13 Feb 2003 09:47:52 +0100

Bonjour,

> OK. Ceci dit, en quoi est-ce un "arbre" ? A vue de nez, on a 
> une liste 
> "plane"... Peu importe : j'ai bien saisi ce que vous vouliez faire.

C'est un arbre... parce qu'on décide que c'est un arbre ;-) Comme pour
tout ce qui est dans sdxtest, il ne faut pas chercher la logique trop
longtemps. J'ai envie (suis-je le seul à croire que c'est important?) de
donner un exemple d'utilisation "classique" d'un thésaurus (vous
connaissez bien cela à l'inventaire ;-) ) :

- une liste de concepts statique, avec des relations (BT, NT, RT, SN,
UF, USE)
- de l'indexation dans des documents en fonction de cette liste
- l'exploitation des relations en recherche (bon, je sais, Texto ne le
fait qu'à l'indexation, mais on peut faire classique et mieux à la
fois!)

Dans le balisage du texte, on peut prendre un lien, ça me va, mais on a
besoin d'identifier la valeur normalisée du terme indexé : si dans le
texte on a "des entrepôts", alors je terme normalisé est, par exemple,
"Entrepôt". Cette valeur normalisée est soit le libellé "Entrepôt", soit
son identifiant dans le thésaurus.

> > Voir fr.gouv.culture.sdx.thesaurus.*... Mais ce n'est pas 
> dans le sens 
> > où tu l'entends ici. C'est pour "compiler" un thésaurus à des fins 
> > d'efficacité. On pourra imaginer d'autres implémentations 
> non Lucene.
> 
> ... et même Lucene parce que ça devrait être faisable (même si c'est 
> plus coton).

En fait, on l'a fait sans "problème", en stockant beaucoup de relations
comme des champs, et lorsqu'on n'a pas les relations souhaitées, on
parcoure les concepts par leurs relations. Plus lent mais ça fonctionne.
Les relations stockées sont (de mémoire) : tous les génériques, les
spécifiques à un niveau, les associés à un niveau. Les notes
d'application sont indexées (et donc cherchables), les "employer"
deviennent du texte associé au bon terme (donc cherchable), etc.

Si quelqu'un demande d'étendre une requête en utilisant les spécifiques
à deux niveaux, alors on trouve directement le premier niveau, et pour
tous les concepts du premier niveau on va chercher les spécifiques un
niveau plus bas. Lucene est tellement rapide que je crois que ça tenir
la route. L'idée est de prévoir déjà les relations les plus demandées.

> > Frédéric, je ne me lancerais pas là-dedans. Faisons-le à la main le 
> > thésaurus...
> 
> :-(

Ce n'était pas un ordre ;-)

Vous pouvez l'automatiser si ça vous amuse, je n'en vois juste pas
l'intérêt. Ce n'est pas la même démarche (il me semble) que ce que vous
cherchez à faire à l'inventaire.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]