Re: [sdx-users] indexation automatique ful l text : état de l'art (incom

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation automatique ful l text : état de l'art (incom

From:	maisonneuve nico
Subject:	Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet)
Date:	Wed, 14 May 2003 17:37:52 +0000

Dans ce Thread, je serais dur, méchant et intraitable :)

j'en profite pour souligner qu'Il serait d'ailleurs pas mal que dans lesefforts de documentation, que les concepteurs se présentent... histoire defaire voir que ce projet est géré de mains de maitres. Le fait que c'est unprojet d'un ministere est bien mais pas suffisant.pourquoi ? : comme tout novice, ne m'y connaissant pas, je ne sais pas sil'info que les personnes me donnent sont bonnes ou pas. il est alorsnecessaire de savoir à qui ont s'addresse afin de s'assurer de la qualitédes infos.

From: Pierrick Brihaye <address@hidden>
Reply-To: address@hidden
To: address@hidden
Subject: Re: [sdx-users] indexation automatique full text : état de l'art(incomplet)
Date: Wed, 14 May 2003 15:52:50 +0200

Re,

maisonneuve nico a écrit:
on a 2 modes d'indexation :
-Indexation manuelle : porte sur des concepts pouvant être des termesn'étant pas dans le document, représentés par des mots-clé résultants del'analyse humaine du document. Indexation = représentation extérieure,forcément réductrice du contenu.
Mmmh... on peut fortement *suggérer* une représentation extérieure à partirdu contenu du document (v. l'exemple que j'avais donné sur le contrôle del'appartenance à tel ou tel thésaurus).
- Indexation automatisée sur un texte intégral : porte sur l'analyse desmots des documents
Pour un analyseur, le concept de "mot" n'est pas inné. On parle plutôt de"jeton" (token). Ainsi, address@hidden n'est qu'un seuljeton si l'on prend l'approche EMAIL et 3, 4, 5 ou 6 jetons si on prendl'approche MOT, elle même déclinable en NOM, PRENOM, (SITUATION), DOMAINE(PAYS, TYPEDOMAINE, SOUSTYPEDOMAINE)...

je ne rentre pas dans la phase de l'analyse ici, mais simplement sur uneconstatation :Quel que soit le traitement de l'analyse, l'analyseur vatravailler sur les mots du documents..mais sinon je suis d'accord avec vous quand à la représentation d'un motpour un analyseur

Concept important : un analyseur utilise une *grammaire* : v. dans le codeSDX celle qui est proposée...


oui , oui ca roule

POUR INDEXATION AUTOMATIQUE *FULL-TEXT*

dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes
Il manque la première : la *génération* (qui peut se faire par extractionet/ou par une action utilisateur... ou par tout autre moyen d'ailleurs).


vous entendez extraction comme :

extraction= phase de segmentation du texte en unité d'information (jeton outermes)

si oui alors :

Dans les docs que j'ai lu sur l'iindexation(en fait Recherche d'Information), la phase de segmentation du texte en termes (ou jeton si vous voulez)était comprise dans l'analyse, pourquoi ? justement a cause l'identificationde termes comprenant plusieurs mots (comment identifier "pomme de terre"comme étant un seul terme(jeton) sans analyser le corpus) donc cette phasefait appriori partie de l'analyse , non ? (je veux pas une opinion mais dela connaissance)

2 types d'analyses : linguistique, statistique
Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de codeinformatique est du ressort de l'analyse linguistique p.e. ? Ceci dit, sipar "lingistique" vous entendez "utilisation d'une grammaire", je seraisassez d'accord :-)

si vous avez d'autres types d'analyses pour extraire les concepts dudocument en s'appuyant sur les mots.. je serais ravi de les apprendre.

Oui bien sûr que la grammaire fait partie de la linguistique, c'estd'ailleurs l'analyse syntaxique ! (analyse grammaticale)

- segmentation du texte en termes :segmentation en termes simples oucomposéeslimitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pommede terre' sera indexé en 2 concepts 'pomme' et 'terre'
Ce n'est pas une limitation SDX (qui ne fait que recopier le code Lucene) :c'est un choix d'analyse ! Rien ne vous empêche de disposer d'un analyseurcapable de faire coller l'étiquette MOT au jeton "pomme de terre". On peutmême concevoir de lui coller l'étiquette LEGUME ou TUBERCULE ouVOCABULAIREDELAFRITE

je ne comprend pas trop ou vous voulez en venir

la question est :"comment faire pour, dans un corpus, extraire "pomme deterre" comme étant un seul terme ?"

une autre question sous-jacentes.. imaginons que dans mon thésaurus j'ai desconcepts du genre "pomme de terre".., il ne pourra jamais être utiliser unchamps de type "word", puisque si pomme de terre y est ,alors j'aurais"pomme" "terre" et il ne va pas faire la correspondance

puisque comment faire alors ?

un thésaurus comprenant des terms avec plusieurs mots(TPM) est gérée par SDX?

un anti-dictionnaire avec des TPM est -il gérer par SDX ?

-contrôle des terms à indexer
par directement mais possible
Ici, c'est une problème de génération, pas d'analyse. Enfin, on peut lerésoudre en affectant une valeur arbitrairement vide (ex. MOTVIDE) àaujeton et faire en sorte que l'index ne prenne pas ce type de jeton.

- analyse morphologique
lemmatisation non gérée par SDX


Ca pourrait se concevoir. Encore une fois, c'est une question de grammaire.

- analyse syntaxique non gérée par SDX


Un exemple ?

=analyse grammatical

- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simplesseulement...!)
Euh... si vous avez un thésaurus, vous faites ce que vous voulez avec, non?

oui..

le mot clé ici c'est analyse sémantique , le thésaurus n'est là qu'a titrede dico de conceptla question est: comment extraire les concepts d'un corpus pour que ceux-cisoient pertinents ?

a cette question, SDX repond :" j'sais pas "

mais ne gere pas l'ambiguité du sens

suggestion ?

si je trouve dans le corpus un mot qui peut avoir deux sens différents,comment trouver le bon ? (souvent cela se fait à partir du contexte)

a cette question, SDX repond :" j'sais pas "

Sujet passionnant : à bientôt :-)


oui je suis d'accord ..  ;-)

il est vrai que l'analyse d'un corpus n'est pas le point fort ni réellementle but de SDX, c'est pourtant un point essentiellement dans l'indexationautomatique.


peut être me direz vous.. "oui mais tu est libre, avec XSL tu peut le faire"

XSL c'est sympa mais certainement approprié quand on veut faire de l'analysesemantique, syntaxique, morpho-lexicaleEn plus il n'existe pas (a ma connaissance) d'outil open-source java faisantce genre d'analyse

cela serait vraiment bien d'intégrer ces fonctionnalités dans SDX
qui serait alors une véritable alternative aux produits du marché

pour ma part.. je compte implementer un stemmer (sans analyse syntaxiquemais bon..) français



A+

nico , le grincheux

_________________________________________________________________

Hotmail : un compte GRATUIT qui vous suit partout et tout le temps !http://g.msn.fr/FR1000/9493

[Prev in Thread]

Current Thread

[Next in Thread]

Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet), maisonneuve nico <=
- Re: [sdx-users] indexation automatique full text : é tat de l'art (incomplet), Pierrick Brihaye, 2003/05/15
  - RE : [sdx-users] indexation automatique full text : état de l'art (incomplet), Martin Sevigny, 2003/05/19
    - Re: [sdx-users] indexation automatique full text : é tat de l'art (incomplet), Pierrick Brihaye, 2003/05/19
    - RE : [sdx-users] indexation automatique full text : état de l'art (incomplet), Martin Sevigny, 2003/05/19
- RE : [sdx-users] indexation automatique full text : état de l'art (incomplet), Martin Sevigny, 2003/05/19

Prev by Date: Re: RE : [sdx-users] pb d'indexation
Next by Date: [sdx-users] Indexer un seul document
Previous by thread: [sdx-users] indexation automatique full te xt : état de l'art (incomplet)
Next by thread: Re: [sdx-users] indexation automatique full text : é tat de l'art (incomplet)
Index(es):
- Date
- Thread