[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Index hiérarchiques avec Lucene
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] Index hiérarchiques avec Lucene |
Date: |
Mon, 08 Dec 2003 16:29:37 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Re,
Frédéric Glorieux a écrit:
Je ne suis pas sûr de tout comprendre.
En gros, on type le terme indexé. Au lieu d'*un* couple champ/valeur, on
a *des* triplets type/champ/valeur. En pseudo-XML :
<term field="afield" value="avalue">
<type type="type1"/>
<type type="type2"/>
<type type="type3"/>
...
</term>
(on peut transformer et prendre le problème par un autre bout, le champ
ou la valeur).
Avec ce genre de hack on pourrait
indexer en sections nativement dans Lucene ?
C'est ça.
Mais est-ce que ça ne fait
pas très mal à nos sous-documents ?
Euh... quel rapport ? On parle d'une indexation. C'est donc à la logique
applicative de fournir de la hiérarchie... si elle le désire.
Pierrick je suppose que tu vas te
faire une joie d'implanter ça sur le coran ?
Euh... non. Pour plusieurs raisons :
1) on est sur une ancienne version de Lucene
2) l'implémentation proposée n'est pa faite
3) je tiens à ce que tout le texte soit cherchable
Le problème maintenant c'est d'aller informer l'analyseur sur ce qui est
section ou paragraphe.
Ca, c'est encore assez simple. Ce qui m'intéresserait, à terme, c'est
d'avoir des anlyseurs capables de détecter des groupes nominaux et
d'associer le substantif à l'adjectif épithète par exemple. Ensuite, on
pourrait booster, dans un sens ou dans l'autre, "le chat noir" par
rapport à "le chat est noir" (adjectif attribut).
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden