sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] QueryParser... encore


From: Pierrick Brihaye
Subject: Re: [sdx-developers] QueryParser... encore
Date: Thu, 18 Sep 2003 21:32:17 +0200

Bonsoir,

>en parlant des  fichier javaCC
>dans le fichier standardTokenizer.jj, la définition du type ACRONYM est pas
>tres souple .
>Example I.B.M est pour lui un HOST  et non un ACRONYM car il manque le
point
>à la fois (en fait il faudrait faire I.B.M. )
>donc ce I.B.M n'est pas géré  dans l'analyzer standard (et donc l'analyzer
>fr de SDX) (en sortie y'aura donc i.b.m et non ibm)

Oui : je crois que ce problème a été soulevé il y a bien longtemps.

>voilà ce que j'ai fait: <ACRONYM: <ALPHA> "." (<ALPHA> ".")+ (<ALPHA> |
>(<ALPHA> ".")) >

Mmmh... vos acronymes ont donc au moins 3 lettres ? Remplacer le "+" par un
"*" ?

>vous vous attaquer à la lemmatisation .. Génial !

Ne vous emballez pas : c'est en arabe :-) Le boulot est terminé : je suis en
train de tester l'intégration dans SDX et dans ce address@hidden de queryParser.

>votre idée  c'est :
>le mot --> le lemme --> les 3 formes du lemme -> recherche dans index
>(lematisé) --> resultat
>c'est ca ?

En arabe, c'est à la fois plus simple et plus compliqué :

plus compliqué parce qu'un mot écrit (en gros un truc entouré par des
espaces) peut correspondre à plusieurs mots grammaticaux.
plus simple parce que la structure de la langue est assez rigide.
et très simple parce que je dispose :
de dictionnaires libres
d'un programme Perl (libre) que j'ai porté en Java en lui aportant quelques
petites améliorations.

>Comment comptez vous retrouvez le lemme a partir du mot ?

Le dictionnaire est organisé de cette façon. Il est à noter que je vais bien
au-delà du lemme : je garde les formes canoniques des différentes catégories
grammaticales. J'envisage en effet un jour d'aller au-delà du "mot à mot".

>(juste pour info: dans le lucene standbox , il y'a un french stemmer..)

Je contacte la liste Lucene dès que j'ai écrit le readme. Le reste (tests,
javadocs, licenes) est réglé.

[snip ~80 lignes :  pas sympa pour mon espace disque ; j'archive tout]

A bientôt,

p.b.






reply via email to

[Prev in Thread] Current Thread [Next in Thread]