Re: [sdx-users] indexation automatique full text : é tat de l'art (incom

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation automatique full text : é tat de l'art (incom

From:	Pierrick Brihaye
Subject:	Re: [sdx-users] indexation automatique full text : é tat de l'art (incomplet)
Date:	Wed, 14 May 2003 20:57:51 +0200

Re,

> Dans ce Thread, je serais dur, méchant et intraitable :)

Le deal me va :-) Cependant, faire attention : on risque de dériver assez
vite vers des considèrations plus générales que SDX. Qu'en pense la majorité
silencieuse ?

> j'en profite pour souligner qu'Il serait d'ailleurs pas mal que dans les
> efforts de documentation, que les concepteurs se présentent...

Je ne suis pas concepteur : SDX reste l'une des meilleures suprises de ma
carrière administrative. Mais si je peux contribuer... ;-))

> histoire de
> faire voir que ce projet est géré de mains de maitres.

... et il l'est !

>  Le fait que c'est un projet d'un ministere

Oula ! L'Administration est bien plus compliquée que ça :-) Sans autre
commentaire : je ne suis pas en service ; et si je l'étais, je n'aurais pas
le droit de commenter.

> est bien mais pas suffisant.
> pourquoi ? : comme tout novice, ne m'y connaissant pas, je ne sais pas si
> l'info que les personnes me donnent sont bonnes ou pas.

L'info n'est que le reflet de la pensée de celui qui la donne. Et il peut
changer d'avis :-)

> il est alors
> necessaire de savoir à qui ont s'addresse afin de s'assurer de la qualité
> des infos.

Pierrick Brihaye : père de famille à l'heure où je poste :-)

[snip]

> je ne rentre pas dans la phase de l'analyse ici, mais simplement sur une
> constatation :Quel que soit le traitement de l'analyse, l'analyseur va
> travailler sur les mots du documents..

Pas d'accord : SDX vous offre un pipeline alimenté par le contenu du
document. Si vous n'en voulez pas et voulez lui substituer un autre contenu,
c'est
votre droit. Il y a d'ailleurs un problème sur ce point IMHO : un document
doit être parsable en SAX. Moi, j'aimerais bien balancer une image tout ce
qu'il y  a de plus binaire dans un repository SDX et confier son indexation
aux gentils internautes. Il faut me comprendre : je connais certains
fonctionnaires qui ont 240.000 images à indexer ;-))

> mais sinon je suis d'accord avec vous quand à la représentation d'un mot
> pour un analyseur

En quoi ? Un analyseur fait ce qu'on lui dit de faire ! Je passe sur le fait
que le contrat que passe un analyseur avec le flux d'entrée soit sacrément
en défaveur de ce dernier...

> >Concept important : un analyseur utilise une *grammaire* : v. dans le
code
> >SDX celle qui est proposée...
>
> oui , oui ca roule

Tant mieux parce que ça a des répercussions importantes sur lesquelles ont
pourra longuement discuter ;-)

> >Il manque la première : la *génération* (qui peut se faire par extraction
> >et/ou par une action utilisateur... ou par tout autre moyen d'ailleurs).
>
> vous entendez extraction comme :
> extraction= phase de segmentation du texte en unité d'information (jeton
ou
> termes)

Euh... non : extraction = passage du document *d'origine* à l'analyseur,
éventuellement via un "filtre". C'est l'approche SDX (le "filtre" étant la
XSLT).

Je préfère donc le terme "génération" qui est moins connoté. Pour reprendre
l'exemple de mon image, ça pourrait être le FORM d'indexation posté en HTTP
par notre gentil internaute quand il regarde mon image qui n'a pour elle
qu'un identifiant dans un entrepôt SDX.

> Dans les docs que j'ai lu sur l'iindexation(en fait Recherche
d'Information)
> , la phase de segmentation du texte en termes (ou jeton si vous voulez)

J'insiste :-) Le mot "terme" est trop fortement connoté...

> était comprise dans l'analyse, pourquoi ? justement a cause
l'identification
> de termes comprenant plusieurs mots  (comment identifier "pomme de terre"
> comme étant un seul terme(jeton) sans analyser le corpus) donc cette phase
> fait appriori partie de l'analyse , non ?

Oui : à condition que l'on ait prévu le cas dans l'analyseur. Si on lui dit,
tu prends tous les mots, il segmentera "pomme", "de," "terre". Si on lui dit
de faire attention aux locutions, alors, oui, il pourrait considérer "pomme
de terre" comme un mot.

> >Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de code
> >informatique est du ressort de l'analyse linguistique p.e. ? Ceci dit, si

> >par "lingistique" vous entendez "utilisation d'une grammaire", je serais
> >assez d'accord :-)
>
> si vous avez d'autres types d'analyses pour extraire les concepts du
> document en s'appuyant sur les mots.. je serais ravi de les apprendre.

Je crois qu'on n'est pas d'accord sur le terme "document". Pour moi, c'est
une ressource à laquelle est associée un type : text/java, ce n'est pas la
même chose que text/xml ou image/jpeg, non ? Entre ces différents types, le
concept de mot peut varier, n'est-ce pas ? Et même, dans un même type, on
peut se
poser la question : en arabe, "be-d-dam" (on l'a beaucoup entendu ces
derniers temps) s'*écrit* comme un seuil "mot" mais est linguistiquement
composé de 3 unités. Je passe sur le basque et les langues agglutinantes en
général... pour ne parler que de ce que connais... un peu.

> Oui bien sûr que la grammaire fait partie de la linguistique, c'est
> d'ailleurs l'analyse syntaxique ! (analyse grammaticale)

Mmmmh. On n'est pas non plus d'accord sur le terme "grammaire". Je parlais
de "grammaires" au sens générique. En XML, une DTD, c'est une grammaire (qui
fait elle même l'objet d'une grammaire).

> >Ce n'est pas une limitation SDX (qui ne fait que recopier le code Lucene)
:
> >c'est un choix d'analyse ! Rien ne vous empêche de disposer d'un
analyseur
> >capable de faire coller l'étiquette MOT au jeton "pomme de terre". On
peut
> >même concevoir de lui coller l'étiquette LEGUME ou TUBERCULE ou
> >VOCABULAIREDELAFRITE
> je ne comprend pas trop ou vous voulez en venir

On peut avoir des analyseurs très fins : avec de bons outils annexes
(dictionnaires par exemple), on peut très bien coller une étiquette à ce que
l'on veut. J'avais mis en majuscules quelques idées d'étiquettes...

> la question est :"comment faire pour, dans un corpus, extraire "pomme de
> terre" comme étant un seul terme ?"

Il suffit de le déclarer dans la grammaire qui sera utilisée par l'analyseur
et, bien sûr, il faudra analyser "pomme de terre" *avant* "pomme". Par
contre, "pomme de Terre-Neuve" sera probablement très mal analysé (TUBERCULE
+ ADJECTIF)

> une autre question sous-jacentes.. imaginons que dans mon thésaurus j'ai
des
> concepts du genre "pomme de terre".., il ne pourra jamais être utiliser un
> champs de type "word"

Si. Si vous écrivez un analyser ad hoc....

> un thésaurus comprenant des terms avec plusieurs mots(TPM) est gérée par
SDX
> ?
> un anti-dictionnaire avec des TPM est -il gérer par SDX ?

Vous indexez avec XSL : vos seules limites sont celles de ce langage. XSL ne
vout plaît pas ? Ecrivez un Transformer en Java et associez lui toutes les
ressources que vous pourrez ! Le seul contrat que vous passez avec SDX,
c'est d'acdeepter le flux d'entrée (que vous pouvez royalement ignorer) et
de sortir des <sdx:field>. Ca peut d'ailleurs changer...

[snip]

> >>- analyse syntaxique non gérée par SDX
> >
> >Un exemple ?
> =analyse grammatical

Mais encore :-) ?

> le mot clé ici c'est analyse sémantique , le thésaurus n'est là qu'a titre
> de dico de concept

Ca tombe bien : c'est à ça que ça sert.

> la question est: comment extraire les concepts d'un corpus pour que
ceux-ci
> soient pertinents ?

IMHO, le problème n'est pas l'extraction, mais la définition de la
pertinence :-)

> >>mais ne gere pas l'ambiguité du sens
> >suggestion ?
> si je trouve dans le corpus un mot qui peut avoir deux sens différents,
> comment trouver le bon ? (souvent cela se fait à partir du contexte)
> a cette question, SDX repond :" j'sais pas "

Il vous faut un analyseur de phrase, ou de paragraphe, ou de texte. Si vous
en trouvez un, prenez ses résultats et sauvegardez-les dans votre index SDX.

> il est vrai que l'analyse d'un corpus n'est pas le point fort ni
réellement
> le but de SDX,

Ceci explique cela :-)

> c'est pourtant un point essentiellement dans l'indexation
> automatique.

... qui est de la logique applicative. Or, SDX est un niveau au-dessus :
aider à mettre en place cette logique applicative... Note : ce n'est pas
pour
ça que ce n'est pas intéressant, bien au contraire !

> peut être me direz vous.. "oui mais tu est libre, avec XSL tu peut le
faire"
> XSL c'est sympa mais certainement approprié quand on veut faire de
l'analyse
> semantique, syntaxique, morpho-lexicale

Même pas sûr :-(

Il faut voir XSL comme étant un moyen pratique de sortir des valeurs de
noeuds (xsl:value-of) et de (re)typer ces noeuds. Après, c'est un travail de
plus bas niveau : vous avez des chaînes de caractères : traitez les avec des
outils ad hoc... si vous pouvez.

> En plus il n'existe pas (a ma connaissance) d'outil open-source java
faisant
> ce genre d'analyse

Vous avez remarqué aussi ? :-) Une recherche sur le WEB donne des tas de
papers mais pas une ligne de code :-(

> cela serait vraiment bien d'intégrer ces fonctionnalités dans SDX
> qui serait alors une véritable alternative aux produits du marché

SDX est libre : toute contribution est bienvenue. Si certaines institutions,
publiques ou privées, voualaient "libérer" leur code, je suis persuadé que
ça bénéfécierait à tout le monde...

> pour ma part.. je compte  implementer un stemmer (sans analyse syntaxique
> mais bon..) français

Bonne idée ! J'espère que vous le ferez en libre ? Si oui, je vous promets
d'y jeter un coup d'oeil appuyé... même si je n'ai pas beaucoup d'estime
pour les stemmers en règle générale.

A bientôt,

p.b.

[Prev in Thread]

Current Thread

[Next in Thread]

Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet), maisonneuve nico, 2003/05/14
- Re: [sdx-users] indexation automatique full text : é tat de l'art (incomplet), Pierrick Brihaye <=
  - RE : [sdx-users] indexation automatique full text : état de l'art (incomplet), Martin Sevigny, 2003/05/19
    - Re: [sdx-users] indexation automatique full text : é tat de l'art (incomplet), Pierrick Brihaye, 2003/05/19
    - RE : [sdx-users] indexation automatique full text : état de l'art (incomplet), Martin Sevigny, 2003/05/19
- RE : [sdx-users] indexation automatique full text : état de l'art (incomplet), Martin Sevigny, 2003/05/19

Prev by Date: Re: RE : [sdx-users] pb d'indexation
Next by Date: RE : [sdx-users] modification du pipeline d'indexation
Previous by thread: Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet)
Next by thread: RE : [sdx-users] indexation automatique full text : état de l'art (incomplet)
Index(es):
- Date
- Thread