sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE : [sdx-developers] Etat des questions


From: Frédéric Glorieux
Subject: Re: RE : [sdx-developers] Etat des questions
Date: Sun, 02 Nov 2003 19:54:06 +0100
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916

Or, en arabe (ou dans quelques autres langues qui seraient susceptibles de
subir un traitement identique), on ne recherche *pas* le terme de base.
Celui-ci n'existe que comme "point d'entrée" pour trouver d'autres termes
qui ont une forme plus "canonique". Ca offre d'ailleurs des perspectives
très intéressantes sur ce que l'on pourrait considérer comme une analyse
performante ; j'en reparlerai...

Je n'ai pas étudié le code d'assez prêt (manque de temps) pour apporter des remarques pertinentes, mais en tous cas conceptuellement, j'apporte mon maigre soutien à ce qu'explique Pierrick. La langue n'est pas une série de tokens.

L'arabe pose le problème brutalement avec ses consonnes, en basque ou autres langues agglutinantes en pourrait se débrouiller avec les jokers mais c'est une perte d'information regrettable...

Pierrick nous offre un concept (et du code!) qui fait faire un grand pas à SDX vers le langage naturel (au niveau du mot). Pour la phrase il y a encore du chemin, mais encore faudrait il avoir des corpus qui le nécessite (les brevets ?). On sait qu'il y a des chercheurs sur le sujet, là on a du code qui tourne.

Il s'agit par contre de s'assurer que des requêtes statistiquement plus courantes continuent à tourner, sans trop perdre de performances.





reply via email to

[Prev in Thread] Current Thread [Next in Thread]