sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Index hiérarchiques avec Lucene


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Index hiérarchiques avec Lucene
Date: Mon, 8 Dec 2003 19:26:45 +0100

Re,

> > Euh... non. Pour plusieurs raisons :
> >
> > 1) on est sur une ancienne version de Lucene
> nos surcharges ?
> > 2) l'implémentation proposée n'est pa faite
> OK
> > 3) je tiens à ce que tout le texte soit cherchable
>
> Là je ne vois pas ce qui empêche ?

L'ancien Lucene qui reste encore la référence de SDX :-)

> > Ca, c'est encore assez simple. Ce qui m'intéresserait, à terme, c'est
> > d'avoir des anlyseurs capables de détecter des groupes nominaux et
> > d'associer le substantif à l'adjectif épithète par exemple. Ensuite, on
> > pourrait booster, dans un sens ou dans l'autre, "le chat noir" par
> > rapport à "le chat est noir" (adjectif attribut).
>
> ;-) tu veux te recycler dans l'espionnage ?

J'ai toujours pensé que SDX pouvait servir à ça :-) V. mes exemples dans
"bien débuter" ;-)

> En attendant sache que tu as désormais des admirateurs en Egypte et en
> Tunisie pour l'analyse de l'arabe.

J'attends toujours les commentaires : il y a des points de design que
j'aimerais bien discuter. Je comptais passer le WE dans la documentation de
l'analyseur arabe pour scuciter ces discussions mais avec le CVS mort...

> Si tu avais le temps, beaucoup seraient intéressés d'avoir
> une version plus légère (getty ?).

Comment peut-on faire "plus léger" que cette appli ?

>    Plusieurs attendent aussi que d'autres dictionnaires que l'anglais
> soit attaché à l'arabe.

Ici, c'est plus compliqué... sauf à se contenter des FreeDict
(http://www.freedict.de/).

Le jour où l'on aura une table de correspondances entre "terminologie" et
"concepts" pour toutes les langues du monde n'est pas encore arrivé :-(

> Je me demande ensuite, est-ce qu'il est possible
> de chercher de l'arabe dans de l'anglais ?

A priori, pas depb : il suffit de revoir le tokenizer : j'ai fait simple.
Idéalement, il faudrait choper ce qui est dans le plan Unicode arabe/ASCII
et... dispatcher vers l'analyseur ad hoc. Contribution bienvenue :-)

A+

p.b.







reply via email to

[Prev in Thread] Current Thread [Next in Thread]