sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE : RE : [sdx-users] présence d'un champ d'ind exation dans le doc


From: Pierrick Brihaye
Subject: Re: RE : RE : [sdx-users] présence d'un champ d'ind exation dans le document
Date: Sun, 4 May 2003 18:33:26 +0200

Re,

>Nous avons déjà rencontré le besoin, mais la question préalable
>que l'on s'est posé alors était: quel est la part des requêtes auquel
>champs+plein texte ne peut pas répondre?

J'en citerai 2 qui me concernent directement :

1) les requêtes spatiales... à moins de patcher lucene pour qu'il sache les
gérer. J'y ai pensé mais Lucene n'a *vraiment* pas été fait pour ça.
2) les requêtes qui ont besoin d'interroger la *profondeur* des index en sus
de leur contenu. Lucene est désespérément 2(.5) D. Cependant, l'exemple de
thesaurus dans sdxtest montre que, là encore, la chose est possible.

BTW : merci Fred de jouer les Candide ;-))

> Exemple sur des thèses, comment
>répondre à la question : quels sont les chapitres qui ont des équations
>mathématiques ?

X-Path : //chapter[//equation] :-)

>Contournement mais pas réponse, si la question est importante, elle peut
>faire l'objet d'un champ.

:-)

> Si j'ai bien compris le
> principe de SDX, on ne peut pas vraiment changer d'unité documentaire
> dans une même appli (on pose les questions sur les documents indexés,
> pas sur des sous-ensembles) ?

On peut toutefois définir autant de sous-ensembles que l'on veut. Ce concept
de "jeux d'index" est à développer IMHO.

> Dans l'esprit, on a une liste de résultats de
> recherche, la bonne taille du document référencé serait: consultable en
> une page écran. Pour une thèse, par exemple, on indexera au chapitre. Si
> vos documents s'y prêtent, ils peuvent être scindés.

Mmmmh : pour moi, on a une (vue d') indexation ayant le document pour champ
de validité. En revanche, la vue de *résultat* concerne bien le sous
document. Le problème qui se pose est donc bien celui de la granularité
variable des vues...

>> Un truc tout bête : si je cherche
>> exemple:toto, je voudrais que ma page de résultats affiche directement
>> la liste des champs <exemple> comportant le mot toto (sachant que j'ai
>> bien mis l'attribut brief sur ce champ),

>Que je comprenne, le champ exemple est-il un champ "word" (dont
>chaque mot est indexé?), ou un champ "field" (indexé sans tokenisation)?

Mmmh... Ne serait-ce pas plutôt : //exemple[. = 'toto'] ?

>> D'ailleurs, à ce propos, si quelqu'un a connaissance d'un bon stemmer
>> pour le latin... ;o)

>Pierrick? (un égyptologue très investi dans SDX).

Je n'en connais pas mais le stemmer est-il la bonne solution pour un niveau
d 'exigence d'analyse l'inguistique qui semble être assez fort ? IMHO,
j'envisagerais carrément l'option "dictionnaire". Pas plus compliqué à faire
qu'un stemmer selon moi... mais "pas plus" ne veut pas dire simple, surtout
en latin !

A+

p.b.






reply via email to

[Prev in Thread] Current Thread [Next in Thread]