[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Index hiérarchiques avec Lucene
From: |
Frédéric Glorieux |
Subject: |
Re: [sdx-developers] Index hiérarchiques avec Lucene |
Date: |
Mon, 08 Dec 2003 17:12:36 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916 |
Mais est-ce que ça ne fait pas très mal à nos sous-documents ?
Euh... quel rapport ? On parle d'une indexation. C'est donc à la logique
applicative de fournir de la hiérarchie... si elle le désire.
N'était-ce pas une solution pour attacher un terme à un chapitre plutôt
qu'à tout une thèse ? Si je comprends le principe, on a là un index qui
peut être lu pour par exemple donner des résultats en commençant par la
partie d'un document la plus citée ?
Pierrick je suppose que tu vas te faire une joie d'implanter ça sur le
coran ?
Euh... non. Pour plusieurs raisons :
1) on est sur une ancienne version de Lucene
nos surcharges ?
2) l'implémentation proposée n'est pa faite
OK
3) je tiens à ce que tout le texte soit cherchable
Là je ne vois pas ce qui empêche ?
Le problème maintenant c'est d'aller informer l'analyseur sur ce qui
est section ou paragraphe.
Ca, c'est encore assez simple. Ce qui m'intéresserait, à terme, c'est
d'avoir des anlyseurs capables de détecter des groupes nominaux et
d'associer le substantif à l'adjectif épithète par exemple. Ensuite, on
pourrait booster, dans un sens ou dans l'autre, "le chat noir" par
rapport à "le chat est noir" (adjectif attribut).
;-) tu veux te recycler dans l'espionnage ?
En attendant sache que tu as désormais des admirateurs en Egypte et en
Tunisie pour l'analyse de l'arabe. Tout le monde veut son coran sur son
ordinateur. Si tu avais le temps, beaucoup seraient intéressés d'avoir
une version plus légère (getty ?).
Plusieurs attendent aussi que d'autres dictionnaires que l'anglais
soit attaché à l'arabe. Je me demande ensuite, est-ce qu'il est possible
de chercher de l'arabe dans de l'anglais ? Rien que ça, est-ce que cela
ne ferait pas un extraordinaire moteur de recherche multilingue ? Ce
serait attaché aux regroupement linguistiques de l'arabe, mais il suffit
de ne pas le dire trop fort si cela choque les raciste.