sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation automatique ful l text : état de l'art (incom


From: maisonneuve nico
Subject: Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet)
Date: Wed, 14 May 2003 17:37:52 +0000

Dans ce Thread, je serais dur, méchant et intraitable :)

j'en profite pour souligner qu'Il serait d'ailleurs pas mal que dans les efforts de documentation, que les concepteurs se présentent... histoire de faire voir que ce projet est géré de mains de maitres. Le fait que c'est un projet d'un ministere est bien mais pas suffisant. pourquoi ? : comme tout novice, ne m'y connaissant pas, je ne sais pas si l'info que les personnes me donnent sont bonnes ou pas. il est alors necessaire de savoir à qui ont s'addresse afin de s'assurer de la qualité des infos.


From: Pierrick Brihaye <address@hidden>
Reply-To: address@hidden
To: address@hidden
Subject: Re: [sdx-users] indexation automatique full text : état de l'art (incomplet)
Date: Wed, 14 May 2003 15:52:50 +0200

Re,

maisonneuve nico a écrit:

on a 2 modes d'indexation :

-Indexation manuelle : porte sur des concepts pouvant être des termes n'étant pas dans le document, représentés par des mots-clé résultants de l'analyse humaine du document. Indexation = représentation extérieure, forcément réductrice du contenu.

Mmmh... on peut fortement *suggérer* une représentation extérieure à partir du contenu du document (v. l'exemple que j'avais donné sur le contrôle de l'appartenance à tel ou tel thésaurus).

- Indexation automatisée sur un texte intégral : porte sur l'analyse des mots des documents

Pour un analyseur, le concept de "mot" n'est pas inné. On parle plutôt de "jeton" (token). Ainsi, address@hidden n'est qu'un seul jeton si l'on prend l'approche EMAIL et 3, 4, 5 ou 6 jetons si on prend l'approche MOT, elle même déclinable en NOM, PRENOM, (SITUATION), DOMAINE (PAYS, TYPEDOMAINE, SOUSTYPEDOMAINE)...

je ne rentre pas dans la phase de l'analyse ici, mais simplement sur une constatation :Quel que soit le traitement de l'analyse, l'analyseur va travailler sur les mots du documents.. mais sinon je suis d'accord avec vous quand à la représentation d'un mot pour un analyseur

Concept important : un analyseur utilise une *grammaire* : v. dans le code SDX celle qui est proposée...

oui , oui ca roule

POUR INDEXATION AUTOMATIQUE *FULL-TEXT*

dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes

Il manque la première : la *génération* (qui peut se faire par extraction et/ou par une action utilisateur... ou par tout autre moyen d'ailleurs).

vous entendez extraction comme :
extraction= phase de segmentation du texte en unité d'information (jeton ou termes)
si oui alors :
Dans les docs que j'ai lu sur l'iindexation(en fait Recherche d'Information) , la phase de segmentation du texte en termes (ou jeton si vous voulez) était comprise dans l'analyse, pourquoi ? justement a cause l'identification de termes comprenant plusieurs mots (comment identifier "pomme de terre" comme étant un seul terme(jeton) sans analyser le corpus) donc cette phase fait appriori partie de l'analyse , non ? (je veux pas une opinion mais de la connaissance)



2 types d'analyses : linguistique, statistique

Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de code informatique est du ressort de l'analyse linguistique p.e. ? Ceci dit, si par "lingistique" vous entendez "utilisation d'une grammaire", je serais assez d'accord :-)

si vous avez d'autres types d'analyses pour extraire les concepts du document en s'appuyant sur les mots.. je serais ravi de les apprendre.

Oui bien sûr que la grammaire fait partie de la linguistique, c'est d'ailleurs l'analyse syntaxique ! (analyse grammaticale)


- segmentation du texte en termes :segmentation en termes simples ou composées limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme de terre' sera indexé en 2 concepts 'pomme' et 'terre'

Ce n'est pas une limitation SDX (qui ne fait que recopier le code Lucene) : c'est un choix d'analyse ! Rien ne vous empêche de disposer d'un analyseur capable de faire coller l'étiquette MOT au jeton "pomme de terre". On peut même concevoir de lui coller l'étiquette LEGUME ou TUBERCULE ou VOCABULAIREDELAFRITE
je ne comprend pas trop ou vous voulez en venir
la question est :"comment faire pour, dans un corpus, extraire "pomme de terre" comme étant un seul terme ?"

une autre question sous-jacentes.. imaginons que dans mon thésaurus j'ai des concepts du genre "pomme de terre".., il ne pourra jamais être utiliser un champs de type "word", puisque si pomme de terre y est ,alors j'aurais "pomme" "terre" et il ne va pas faire la correspondance
puisque comment faire alors ?

un thésaurus comprenant des terms avec plusieurs mots(TPM) est gérée par SDX ?
un anti-dictionnaire avec des TPM est -il gérer par SDX ?

-contrôle des terms à indexer
par directement mais possible

Ici, c'est une problème de génération, pas d'analyse. Enfin, on peut le résoudre en affectant une valeur arbitrairement vide (ex. MOTVIDE) àau jeton et faire en sorte que l'index ne prenne pas ce type de jeton.

- analyse morphologique
lemmatisation non gérée par SDX

Ca pourrait se concevoir. Encore une fois, c'est une question de grammaire.

- analyse syntaxique non gérée par SDX

Un exemple ?
=analyse grammatical

- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simples seulement...!)

Euh... si vous avez un thésaurus, vous faites ce que vous voulez avec, non ?
oui..
le mot clé ici c'est analyse sémantique , le thésaurus n'est là qu'a titre de dico de concept la question est: comment extraire les concepts d'un corpus pour que ceux-ci soient pertinents ?
a cette question, SDX repond :" j'sais pas "

mais ne gere pas l'ambiguité du sens
suggestion ?
si je trouve dans le corpus un mot qui peut avoir deux sens différents, comment trouver le bon ? (souvent cela se fait à partir du contexte)
a cette question, SDX repond :" j'sais pas "

Sujet passionnant : à bientôt :-)

oui je suis d'accord ..  ;-)

il est vrai que l'analyse d'un corpus n'est pas le point fort ni réellement le but de SDX, c'est pourtant un point essentiellement dans l'indexation automatique.

peut être me direz vous.. "oui mais tu est libre, avec XSL tu peut le faire"
XSL c'est sympa mais certainement approprié quand on veut faire de l'analyse semantique, syntaxique, morpho-lexicale En plus il n'existe pas (a ma connaissance) d'outil open-source java faisant ce genre d'analyse
cela serait vraiment bien d'intégrer ces fonctionnalités dans SDX
qui serait alors une véritable alternative aux produits du marché

pour ma part.. je compte implementer un stemmer (sans analyse syntaxique mais bon..) français


A+

nico , le grincheux

_________________________________________________________________
Hotmail : un compte GRATUIT qui vous suit partout et tout le temps ! http://g.msn.fr/FR1000/9493





reply via email to

[Prev in Thread] Current Thread [Next in Thread]