[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] indexation automatique ful l text : état de l'art (incom
From: |
maisonneuve nico |
Subject: |
Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet) |
Date: |
Wed, 14 May 2003 17:37:52 +0000 |
Dans ce Thread, je serais dur, méchant et intraitable :)
j'en profite pour souligner qu'Il serait d'ailleurs pas mal que dans les
efforts de documentation, que les concepteurs se présentent... histoire de
faire voir que ce projet est géré de mains de maitres. Le fait que c'est un
projet d'un ministere est bien mais pas suffisant.
pourquoi ? : comme tout novice, ne m'y connaissant pas, je ne sais pas si
l'info que les personnes me donnent sont bonnes ou pas. il est alors
necessaire de savoir à qui ont s'addresse afin de s'assurer de la qualité
des infos.
From: Pierrick Brihaye <address@hidden>
Reply-To: address@hidden
To: address@hidden
Subject: Re: [sdx-users] indexation automatique full text : état de l'art
(incomplet)
Date: Wed, 14 May 2003 15:52:50 +0200
Re,
maisonneuve nico a écrit:
on a 2 modes d'indexation :
-Indexation manuelle : porte sur des concepts pouvant être des termes
n'étant pas dans le document, représentés par des mots-clé résultants de
l'analyse humaine du document. Indexation = représentation extérieure,
forcément réductrice du contenu.
Mmmh... on peut fortement *suggérer* une représentation extérieure à partir
du contenu du document (v. l'exemple que j'avais donné sur le contrôle de
l'appartenance à tel ou tel thésaurus).
- Indexation automatisée sur un texte intégral : porte sur l'analyse des
mots des documents
Pour un analyseur, le concept de "mot" n'est pas inné. On parle plutôt de
"jeton" (token). Ainsi, address@hidden n'est qu'un seul
jeton si l'on prend l'approche EMAIL et 3, 4, 5 ou 6 jetons si on prend
l'approche MOT, elle même déclinable en NOM, PRENOM, (SITUATION), DOMAINE
(PAYS, TYPEDOMAINE, SOUSTYPEDOMAINE)...
je ne rentre pas dans la phase de l'analyse ici, mais simplement sur une
constatation :Quel que soit le traitement de l'analyse, l'analyseur va
travailler sur les mots du documents..
mais sinon je suis d'accord avec vous quand à la représentation d'un mot
pour un analyseur
Concept important : un analyseur utilise une *grammaire* : v. dans le code
SDX celle qui est proposée...
oui , oui ca roule
POUR INDEXATION AUTOMATIQUE *FULL-TEXT*
dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes
Il manque la première : la *génération* (qui peut se faire par extraction
et/ou par une action utilisateur... ou par tout autre moyen d'ailleurs).
vous entendez extraction comme :
extraction= phase de segmentation du texte en unité d'information (jeton ou
termes)
si oui alors :
Dans les docs que j'ai lu sur l'iindexation(en fait Recherche d'Information)
, la phase de segmentation du texte en termes (ou jeton si vous voulez)
était comprise dans l'analyse, pourquoi ? justement a cause l'identification
de termes comprenant plusieurs mots (comment identifier "pomme de terre"
comme étant un seul terme(jeton) sans analyser le corpus) donc cette phase
fait appriori partie de l'analyse , non ? (je veux pas une opinion mais de
la connaissance)
2 types d'analyses : linguistique, statistique
Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de code
informatique est du ressort de l'analyse linguistique p.e. ? Ceci dit, si
par "lingistique" vous entendez "utilisation d'une grammaire", je serais
assez d'accord :-)
si vous avez d'autres types d'analyses pour extraire les concepts du
document en s'appuyant sur les mots.. je serais ravi de les apprendre.
Oui bien sûr que la grammaire fait partie de la linguistique, c'est
d'ailleurs l'analyse syntaxique ! (analyse grammaticale)
- segmentation du texte en termes :segmentation en termes simples ou
composées
limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme
de terre' sera indexé en 2 concepts 'pomme' et 'terre'
Ce n'est pas une limitation SDX (qui ne fait que recopier le code Lucene) :
c'est un choix d'analyse ! Rien ne vous empêche de disposer d'un analyseur
capable de faire coller l'étiquette MOT au jeton "pomme de terre". On peut
même concevoir de lui coller l'étiquette LEGUME ou TUBERCULE ou
VOCABULAIREDELAFRITE
je ne comprend pas trop ou vous voulez en venir
la question est :"comment faire pour, dans un corpus, extraire "pomme de
terre" comme étant un seul terme ?"
une autre question sous-jacentes.. imaginons que dans mon thésaurus j'ai des
concepts du genre "pomme de terre".., il ne pourra jamais être utiliser un
champs de type "word", puisque si pomme de terre y est ,alors j'aurais
"pomme" "terre" et il ne va pas faire la correspondance
puisque comment faire alors ?
un thésaurus comprenant des terms avec plusieurs mots(TPM) est gérée par SDX
?
un anti-dictionnaire avec des TPM est -il gérer par SDX ?
-contrôle des terms à indexer
par directement mais possible
Ici, c'est une problème de génération, pas d'analyse. Enfin, on peut le
résoudre en affectant une valeur arbitrairement vide (ex. MOTVIDE) àau
jeton et faire en sorte que l'index ne prenne pas ce type de jeton.
- analyse morphologique
lemmatisation non gérée par SDX
Ca pourrait se concevoir. Encore une fois, c'est une question de grammaire.
- analyse syntaxique non gérée par SDX
Un exemple ?
=analyse grammatical
- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simples
seulement...!)
Euh... si vous avez un thésaurus, vous faites ce que vous voulez avec, non
?
oui..
le mot clé ici c'est analyse sémantique , le thésaurus n'est là qu'a titre
de dico de concept
la question est: comment extraire les concepts d'un corpus pour que ceux-ci
soient pertinents ?
a cette question, SDX repond :" j'sais pas "
mais ne gere pas l'ambiguité du sens
suggestion ?
si je trouve dans le corpus un mot qui peut avoir deux sens différents,
comment trouver le bon ? (souvent cela se fait à partir du contexte)
a cette question, SDX repond :" j'sais pas "
Sujet passionnant : à bientôt :-)
oui je suis d'accord .. ;-)
il est vrai que l'analyse d'un corpus n'est pas le point fort ni réellement
le but de SDX, c'est pourtant un point essentiellement dans l'indexation
automatique.
peut être me direz vous.. "oui mais tu est libre, avec XSL tu peut le faire"
XSL c'est sympa mais certainement approprié quand on veut faire de l'analyse
semantique, syntaxique, morpho-lexicale
En plus il n'existe pas (a ma connaissance) d'outil open-source java faisant
ce genre d'analyse
cela serait vraiment bien d'intégrer ces fonctionnalités dans SDX
qui serait alors une véritable alternative aux produits du marché
pour ma part.. je compte implementer un stemmer (sans analyse syntaxique
mais bon..) français
A+
nico , le grincheux
_________________________________________________________________
Hotmail : un compte GRATUIT qui vous suit partout et tout le temps !
http://g.msn.fr/FR1000/9493