[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Index hiérarchiques avec Lucene
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] Index hiérarchiques avec Lucene |
Date: |
Mon, 8 Dec 2003 19:26:45 +0100 |
Re,
> > Euh... non. Pour plusieurs raisons :
> >
> > 1) on est sur une ancienne version de Lucene
> nos surcharges ?
> > 2) l'implémentation proposée n'est pa faite
> OK
> > 3) je tiens à ce que tout le texte soit cherchable
>
> Là je ne vois pas ce qui empêche ?
L'ancien Lucene qui reste encore la référence de SDX :-)
> > Ca, c'est encore assez simple. Ce qui m'intéresserait, à terme, c'est
> > d'avoir des anlyseurs capables de détecter des groupes nominaux et
> > d'associer le substantif à l'adjectif épithète par exemple. Ensuite, on
> > pourrait booster, dans un sens ou dans l'autre, "le chat noir" par
> > rapport à "le chat est noir" (adjectif attribut).
>
> ;-) tu veux te recycler dans l'espionnage ?
J'ai toujours pensé que SDX pouvait servir à ça :-) V. mes exemples dans
"bien débuter" ;-)
> En attendant sache que tu as désormais des admirateurs en Egypte et en
> Tunisie pour l'analyse de l'arabe.
J'attends toujours les commentaires : il y a des points de design que
j'aimerais bien discuter. Je comptais passer le WE dans la documentation de
l'analyseur arabe pour scuciter ces discussions mais avec le CVS mort...
> Si tu avais le temps, beaucoup seraient intéressés d'avoir
> une version plus légère (getty ?).
Comment peut-on faire "plus léger" que cette appli ?
> Plusieurs attendent aussi que d'autres dictionnaires que l'anglais
> soit attaché à l'arabe.
Ici, c'est plus compliqué... sauf à se contenter des FreeDict
(http://www.freedict.de/).
Le jour où l'on aura une table de correspondances entre "terminologie" et
"concepts" pour toutes les langues du monde n'est pas encore arrivé :-(
> Je me demande ensuite, est-ce qu'il est possible
> de chercher de l'arabe dans de l'anglais ?
A priori, pas depb : il suffit de revoir le tokenizer : j'ai fait simple.
Idéalement, il faudrait choper ce qui est dans le plan Unicode arabe/ASCII
et... dispatcher vers l'analyseur ad hoc. Contribution bienvenue :-)
A+
p.b.