Consignes aux auteurs

Corpus de documents. SIG. Système Multi-Agents. Agent Interface. Agents Géographique. Agents Tâche. Communication. Messages. Document1. Document2.
509KB taille 4 téléchargements 412 vues
L’apport de l’information spatiale pour l’enrichissement des bases de données Khaoula Mahmoudi, Sami Faïz * Ecole Supérieur des communications de Tunis (SUPCOM) Cité Technologique des Communications-Route de Raoued Km 3.5-2083 El Ghazala Ariana – Tunisie ** Laboratoire de Télédétection et Systèmes d’Informations à Référence Spatiale Ecole Nationale des Ingénieurs de Tunis Campus Universitaire – El Manar – Tunis – Tunisie {khaoula.mahmoudi; sami.faiz}@insat.rnu.tn RÉSUMÉ.

Dans ce papier, nous présentons une approche d’acquisition de connaissances pour l’enrichissement des contenus des bases de données géographiques. L’enrichissement peut s’opérer à travers l’intégration et la fusion de données de sources différentes. L’approche que nous préconisons génère des résumés à partir d’un corpus de documents en provenance du web. Nous faisons collaborer un ensemble d’agents qui vont conjointement générer des résumés. La distribution vise l’accélération de la génération tout en traitant les problèmes qui y sont inhérents. L’approche est modulaire, elle peut être décomposée en trois phases essentielles : une décomposition thématique, une affectation des agents délégués et enfin un filtrage textuel. Nous présentons également dans ce papier les différents modes de lancement de ce processus, notamment à travers l’exploitation de l’information spatiale des entités géographiques, plus précisément les relations topologiques. ABSTRACT. In this paper, we present a knowledge acquisition approach to enrich the contents of geographic databases. The enrichment may be undertaken by the integration and the fusion of data retrieved from different sources. The approach we advocate, generates summaries from a corpus of web documents. We use a set of collaborating agents that will jointly generate summaries. This distribution is intended to speed up the summary generation process while holding the main issues inherent to this generation. The approach is modular and is performed in three main stages: a thematic decomposition, a delegation and finally a textual filtering. Furthermore, we present different modes of launching the process, namely by exploiting the spatial information of the geographic entities, specially the topological relationships.

: système d’informations géographiques, résumé de documents multiples, système multi-agents, textTiling, structure rhétorique.

MOTS-CLÉS

KEYWORDS:

geographic information system, multi-document summarization, multi-agent system, textTiling, rhetorical structure.

1. Introduction L’enrichissement des données est un besoin permanent pour tout utilisateur de bases de données. Dans le cas de données géographiques, cette activité représente de nos jours un problème crucial afin que les décisions concernant la gestion de ce type de données ne repose pas sur des informations limitées. Une des approches pour l’enrichissement des bases de données géographiques peut s’opérer à travers l’intégration et la fusion de données de sources différentes. Assez souvent, seule la composante spatiale est traitée dans ce cas. Nous proposons une autre approche pour l’enrichissement des données géographiques et ce en utilisant les documents du web comme support et source d’informations. Nous offrons à l’opposé de l’approche de fusion de couches de données spatiales, des données plutôt descriptives et complémentaires à celles déjà disponibles dans la base de données géographiques. Les systèmes d'informations géographiques (SIG) qui nous permettent une manipulation aisée des bases de données géographiques sont utilisés dans des domaines assez variés tels que l’agriculture, la planification urbaine, l’aménagement du territoire, les réseaux routiers, la gestion des risques naturels…(Scholl, 1996 ; Faïz, 1999). Cet outil d’aide à la décision, implique le traitement d’un grand volume de données de différents types : des données spatiales et des données descriptives associées. Mais, vu les difficultés de collecte de données et le coût inhérent, les utilisateurs des SIG utilisent généralement des bases de données géographiques (BDG) dédiées qui incorporent assez souvent des données limitées. Ainsi, un décideur visant l’expansion de son secteur de travail a besoin d’avoir une variété d’informations allant du réseau routier de la zone à d’autres informations d’ordre socio-économiques. De telles variétés d’informations ne sont pas assez souvent présentes dans le même système. L’enrichissement de tels systèmes s’est donc imposé comme une solution prépondérante afin que les décisions ne reposent pas sur des informations obsolètes ou limitées. Pour atteindre cet objectif nous avons élaboré un système distribué de génération automatique de résumés à partir d’un corpus de documents en-ligne (Faïz et al., 2005 ; Mahmoudi et al., 2006). En fait, la distribution est motivée par l’explosion massive des informations suscitant un traitement dans des délais de temps raisonnable. Cette distribution est accomplie conformément au paradigme multiagents (Ferber, 1997 ; Mahmoudi et al., 2000 ; Briot et al., 2001) où plusieurs agents interagissent afin d’aboutir à un état stable du système correspondant à une solution optimale du problème à résoudre. Tout le traitement entrepris par cette société d’agents est réalisé en trois phases essentielles. Tout d’abord, une décomposition thématique est exécutée sur tous les documents du corpus. Une décision de délégation est entreprise et ayant pour finalité d’affecter pour chaque thème un agent responsable de sa condensation. Finalement, un filtrage textuel est réalisé pour générer les résumés.

Notre approche pour la génération de résumés est invoquée à la demande de l’utilisateur du SIG. Ce dernier, désirant de plus amples informations sur une ou plusieurs entités géographiques, lance le processus de génération et obtient ainsi des résumés de documents web. Dans le cas où les résultats obtenus s’avèrent insatisfaisants, un raffinement du processus général peut avoir lieu. Nous profitons dans ce cas des caractéristiques spatiales des entités géographiques manipulées pour mieux cibler notre recherche dans le web et atteindre ainsi des informations plus pertinentes. L’article est organisé comme suit : La section 2 donne un aperçu des travaux de génération de résumés à partir de documents multiples. Dans la section 3, nous détaillons le processus général d’acquisition de connaissances à partir d’un corpus de documents. Les sections 4, 5 et 6, présentent les différentes étapes du processus général. La section 7 détaille la communication au sein de la société d’agents. La section 8, décrit le principe de raffinement par l’exploitation des données spatiales. Enfin, la section 9, expose les résultats de l’implémentation de notre approche avec une illustration. 2. Résumés multi-documents L’utilisation des outils permettant d’analyser et d’extraire des connaissances est devenue un besoin accru. Ceci provient du fait que la masse d’informations électroniques ne cesse de croître de jour en jour. Une des techniques émergeante vient confronter ce problème de surcharge informationnelle : nous parlons de génération de résumés. L’activité résumante consiste à procéder à un filtrage de textes sources tout en préservant l’idée essentielle annoncée par ces textes. En fait, vu la quantité gigantesque des données à traiter, les recherches se sont orientées de plus en plus vers la production de résumés à partir de documents multiples (souvent appelés résumés multi-documents). Diverses approches de résumé multi-documents ont été proposées dans la littérature et mettant en œuvre différentes techniques issues de différentes disciplines. Un certain nombre d’approches utilisent des méthodes statistiques. Le principe commun est d’utiliser des calculs numériques tels que les mesures de similarité, la mesure de MMR pour Maximal Marginal Relevance (Goldstein et al., 2000), le calcul de degré de pertinence (Radev et al., 2000), etc. Ces différentes métriques peuvent être appliquées pour les différents niveaux de granularités allant des simples fragments de textes aux paragraphes. Selon les résultats de calculs, les passages sont regroupés en adoptant plusieurs techniques comme le clustering (Allan et al., 1998; Gees et al., 2000). D’autres approches exploitent des techniques de traitement automatique des langages naturels. A titre d’exemple, les auteurs dans (McKeown et al., 1999) ont proposé une méthode par re-formulation de textes. Cette approche procède comme suit : Des fragments ou clauses textuelles sont extraits à partir des paragraphes regroupés ensemble selon leur similarité. Ces pièces textuelles sont fournies au

générateur de texte FUF/SURGE (Elhadad et al., 1996) afin de générer un nouveau texte. Ce dernier constitue le résumé du corpus. Les techniques d’extraction d’informations sont utilisées également pour la génération des résumés à partir de corpus de documents. Une approche appartenant à ce domaine est celle de Harabagiu et Finley (Harabagiu et al., 2002) baptisée GISTexter. Il s’agit de prédéfinir des gabarits (templates) dont les slots spécifient les informations importantes à rechercher. Ces templates sont instantiés en utilisant un système existant d’extraction d’informations appelé CICERO. Les blocs de textes qui ont servi pour l’instantiation des templates sont considérés comme résumé du corpus. Au croisement de toutes ces approches, on trouve celles qui mettent en œuvre la combinaison de plusieurs techniques issues des différentes disciplines. Nous citons dans cette catégorie les travaux de Lin et Hovey (Lin et al., 2002) et Mani et Bloedorm (Mani et al., 1999). La première approche est un mixage de plusieurs techniques prouvées efficaces dans le résume de document unique, tel que, la fréquence des termes, la position des phrases, les mots stigma, une version simplifiée de MMR ainsi qu’une identification des concepts clés en unigrams, bigrams et trigrams (Kraaij et al., 2002). En ce qui concerne la deuxième approche, les auteurs ont proposé une représentation sous forme de graphes des textes du corpus (appliqués à deux documents seulement) où chaque mot est un nœud et où les liens conceptuels entre les nœuds sont les arêtes. A partir de ces deux graphes, les nœuds communs et également différents sont distingués. Ces derniers sont utilisés pour identifier les phrases à intégrer dans le résumé. Indépendamment des techniques adoptées, tous les résumeurs multi-documents visent à atteindre les mêmes objectifs. Généralement, il s’agit de traiter toute nouvelle information tout en minimisant la redondance. En effet, il se trouve que l’ensemble des approches de résumé multi-documents privilégient la forme et la qualité des résumés au détriment des temps nécessaires à leurs générations. C’est pour apporter une contribution à cette situation que nous avons proposé une approche totalement distribuée assurée à travers des agents oeuvrant d’une manière simultanée afin d’aboutir dans des temps raisonnables à un résumé du corpus de documents. 3. Processus général d’acquisition de connaissances L’approche que nous proposons est modulaire, elle consiste essentiellement en trois phases : la décomposition thématique, l’affectation des délégués et enfin le filtrage de texte. Notre approche a pour vocation l’enrichissement du contenu des bases de données géographiques avec des connaissances extraites à partir de corpus de documents en-ligne. Ainsi, un utilisateur venant solliciter son SIG à travers une requête, mais, recevant une réponse non satisfaisante, limitée ou incomplète peut avoir recours à notre approche. Cette dernière et à sa demande débute par une

collecte des différents documents du corpus. Ce corpus sera distribué entre des agents tâche qui seront chargés de traiter les documents. Concrètement, selon que l’utilisateur est concerné par une seule entité géographique ou plusieurs, on a affaire à différents types d’agents. Si l’utilisateur manipule une seule entité, nous faisons interagir un agent interface et des agents tâche. Dans le cas où plusieurs entités géographiques appartenant à une zone sont proposées par l’utilisateur, trois types d’agents sont impliqués : un agent interface, des agents géographique et des agents tâche. Indépendamment de leurs types, les agents ont une structure unique. Il s’agit d’un ensemble d’accointances (les agents qu’ils connaissent), des connaissances servant à la résolution du problème (les textes, les thèmes…) et une boîte aux lettres (pour le stockage des messages à traiter ultérieurement). En fait, l’agent interface est le premier a être créé par le système. Il s’agit d’un méta-agent ou coordinateur qui se charge à son tour de créer les agents tâche et les agents géographique. Si l’utilisateur est concerné par une seule entité géographique, l’agent interface crée des agents tâche au nombre des documents du corpus à traiter. Ces agents tâche se mettent à décomposer thématiquement les documents et retournent la liste des thèmes résultant à l’agent interface. Ce dernier, décide de l’affection des thèmes aux différents agents tâche désignés comme délégués responsables de la condensation des portions de textes associés. Cette décision est entreprise en tenant compte du coût engendré. Ce dernier est relatif au coût de la communication et la charge du travail. Chaque délégué se met à collecter les segments de textes relatifs aux thèmes relevant de sa responsabilité. Désormais, chaque agent délégué dispose d’un document généré par thème. En dernier lieu, un filtrage de texte est accompli par les agents tâche affectés comme délégués. Ceci est achevé en analysant la structure rhétorique des documents générés pour ne retenir que les fragments des textes les plus saillants. Les mêmes étapes sont entreprises au cas où un utilisateur désire obtenir des informations à propos d’une zone. Dans ce cas, les agents géographique sont également impliqués. En fait, pour toute entité géographique appartenant à la zone, un agent géographique est créé, il joue le rôle de l’agent interface pour les agents tâche. Autrement dit, les interactions par envoi de messages se font directement entre chaque agent géographique et les agents tâche correspondants. Au terme de ce processus d’extraction de connaissances, les résumés partiels générés par chacun des délégués sont regroupés pour fournir le résumé final de tout le corpus. Ces résultats constituent une méta-données d’un grand apport et d’une grande utilité pour les décideurs. En fait, nous sauvegardons les thèmes, les fragments de textes associés ainsi que les références aux documents initiaux. Tout le processus général d’acquisition de connaissances est illustré par la figure 1. Les sections 4, 5 et 6 détaillent ses différentes phases.

Il se trouve, cependant, que dans certains cas, les résumés générés sont trop limités, non pertinents ou insatisfaisants. Dans ce cas, nous proposons pour l’utilisateur une autre voie pour l’exploration des documents web à travers les relations spatiales (topologiques) entretenues dans le SIG. Nous améliorons ainsi la qualité des connaissances extraites.

Corpus de documents

SIG

Système Multi-Agents

Agent Interface Agents Géographique

Agents Tâche

Communication Messages

Document1

Document2

Thème x

Thème x

Thème Y

Thème T

Documentn Thème x

Décomposition Thématique

…… Thème Y . .

Le thésaurus WordNet

DocumentX

DocumentY

DocumentT

Thème Xdoc1

Thème Ydoc1

Thème Tdoc2

Thème Xdoc2 Thème Ydocn

Filtrage de Textes

Délégation

Thème Xdocn

DéléguéX

RésuméX

DéléguéY

RésuméY

DéléguéT

RésuméZ

BDG

Figure 1. Architecture du système d’acquisition des connaissances

4. Décomposition thématique Etant donnée les documents distribués entre les agents tâche, une décomposition thématique prend lieu. Cette opération est réalisée pour chaque document du corpus par chaque agent tâche. En fait, avant d’entamer cette étape du processus de résolution, un pré-traitement est réalisé. Il s’agit d’éliminer les mots non porteurs de sens (les prépositions, les articles…) et un stemming permettant de regrouper les mots ayant les mêmes racines. Dans ce qui suit nous parlons de tokens plutôt que de mots. Nous adoptons l’algorithme TextTiling pour segmenter le texte en blocs (Hearst, 1997). Le principe est de subdiviser le texte en pseudo-phrases appelées token-sequences de taille w. Les token-sequences sont regroupées en blocs de taille k. Un calcul de similarité est fait au niveau de chaque gap qui sépare deux blocs adjacents. Les blocs similaires sont regroupés pour former un seul segment considéré comme un fragment de textes sémantiquement homogène. Pour chaque gap j séparant deux blocs b1 et b2 et au sein desquels le poids (fréquence) ρt,b de chaque token t est calculé, la similarité est définit comme suit :

gap(j)=

∑ρ ρ ∑ρ ∑ρ t

t,b1 tb2

2 t t,b1

2 t t,b2

[1]

Les résultats de similarité sont présentés sous forme de graphe. Un lissage est appliqué au graphe afin d’éliminer les petites baisses. Les frontières sont établies là où le gap a un score inférieur à la différence entre la moyenne et la variance. Ces calculs sont illustrés par la figure 2. Les calculs : gap, smooth et reverse correspondent respectivement aux calculs de similarité, les résultats de lissage et les différences de moyenne et de variance.

Figure 2. Un graphe de textTiling Une fois les segments délimités, une identification thématique est réalisée pour associer à chaque segment détecté le thème qui lui soit le plus adéquat. En fait, nous utilisons les n plus fréquents tokens associés à chaque segment pour déterminer approximativement ses concepts à partir du thésaurus WORDNET (Miller, 1990). Ce thésaurus est le plus couramment utilisé pour l’extraction des relations sémantiques (synonymes, hyponymes…). Par exemple, les tokens agriculture,

farming et plantation sont considérés faire référence au même concept. Les thèmes ainsi dégagés sont envoyés à l’agent interface (cas d’une entité géographique) ou à un agent géographique (cas d’un ensemble d’entités géographiques). 5. Affectation des délégués A la réception des thèmes, l’agent interface ou chacun des agents géographique procède à l’affectation des agents tâche responsables de la condensation des segments associés. Cette affectation est réalisée en tenant compte du coût de communication engendré et en veillant à distribuer équitablement la charge de travail entre les différents agents tâche. Ce coût est calculé selon la fonction suivante : D(a)=λcharge+εcommunication [2] où a est une affectation d’un agent tâche à un thème. λ et ε sont des coefficients de pondération. La charge du travail est définie comme suit :

charge=∑∑Taille−segmentij i

[3]

j

où i est un thème, j représente un des agents tâche traitant i. Taille-segmentij désigne la taille (nombre de phrases) d’un segment issu de l’agent tâche j et traitant le thème i. Cette charge de travail doit être distribuée équitablement entre les différents agents tâche pour faire participer le maximum d’agents tâche. La communication est définie par :

communication =∑α

[4]

j

où α =1 et j ∈ aux accointances de l’agent tâche affecté. En fait, le coût de communication est nul si un agent tâche est affecté comme responsable d’un thème qu’il traite dans son document. Pour pénaliser toute affectation assignant à un agent tâche un thème qu’il ne traite pas dans son document original, nous augmentons le coût de communication. Ce coût est égal au nombre d’accointances à solliciter pour fournir les segments textuels relatifs au thème concerné. Les segments ramassés par les agents délégués et concernant un thème bien déterminé constituent ce que nous appelons document généré. 6. Filtrage de textes A ce niveau, chaque agent tâche affecté comme délégué lors de la phase de délégation maintient un ensemble de documents générés : Un document généré par

thème. Ces documents sont fournis comme input pour le module de filtrage de textes. Le principe de ce filtrage est de traiter chaque document généré afin de ne garder que la portion de texte qui délivre l’idée essentielle. Ceci est réalisé en analysant la structure rhétorique des documents générés. Cette analyse est basée sur la théorie de Mann et Thompson (Mann et al., 1988 ; Marcu, 1999) qui définit un texte comme un ensemble d’unités textuelles qui sont reliées par des relations rhétoriques. Les unités textuelles sont de deux types. Des unités nucléus, qui sous-tendent la compréhension du texte et d’autres appelées des satellites qui viennent subordonner les nucléus. Ces unités sont liées par des relations rhétoriques déterminées par la présence d’expressions « indicateurs » comme (but, although…). Certaines relations sont dites paratactic reliant deux unités de même importance. Par exemple, la relation jonction ne permet pas la distinction entre nucléus et satellite vu que les deux unités sont de même importance donc de type nucléus. D’autres relations sont dites hypotactic, c'est-à-dire, que la distinction entre nucléus et satellite est établie. Par exemple, une affirmation suivie de la démonstration étayant cette affirmation. Cette dernière est la partie centrale du fragment de texte. Les relations qui associent deux fragments de textes relient aussi les unités les plus importantes des deux fragments. L’arbre rhétorique que nous utilisons est un arbre binaire où chaque nœud a un statut (nucléus ou satellite), un type (la relation rhétorique reliant les deux unités connectées au niveau de ce nœud) et un ensemble de promotions qui définissent les unités les plus importants. Pour illustrer cette théorie, considérons le texte suivant et sa structure rhétorique associée : [In many countries some reforms were imposed.1] [For instance, in Egypt the reforms in the agricultural sector began in the mid-1980s.2] [As part of the reforms, some gradual removal of governmental interventions in output and input prices crop areas were undertaken.3] Ce fragment de texte est subdivisé en trois unités textuelles. Chacune est représentée par un nœud dans l’arbre rhétorique. L’unité 1 et 2 sont reliées par une relation d’exemplification. L’idée annoncée par l’unité 1 est supportée par l’exemple cité par l’unité 2. Ainsi, 1 est le nucléus et 2 est le satellite. Le nœud interne présentant le fragment 1-2 (plus précisément l’unité saillante 1) est par la suite examiné avec le nœud représentant l’unité 3. En fait, cette dernière élabore l’idée véhiculée par l’unité 1. Ainsi, 1 est l’unité la plus importante. Cette dernière est le nœud racine de l’arbre rhétorique. Créer un résumé peut se ramener à un classement des unités les plus saillantes en partant de la racine de l’arbre rhétorique vers les feuilles. Ainsi, dans l’exemple proposé, l’unité 1 substitue le contenu de tout le fragment textuel (1-3). Autrement dit, cette unité synthétise ce fragment. Si nous désirons plus de détails, nous pouvons parcourir le reste des nœuds de l’arbre en retenant à chaque niveau les unités les plus importantes.

Nous procédons de cette manière lors du filtrage de chaque document généré détenu par un délégué. En plus, si un document généré est constitué de plus qu’un segment. Nous calculons la similarité entre ses segments afin d’éliminer la redondance qui peut résulter de l’intégration de plusieurs instances de la même information dérivée de chacun des segments à traiter. Ce calcul est basé sur la formule suivante :

→ → Similarité (S1, S2)= S 1 × S 2 →× → s1 s2

[5]

où chaque segment S1 et S2 est vu comme un vecteur de nombres (fréquence des tokens au sein du segment) avec ses composants : Les tokens qui y sont détectés. De cette manière, le délégué ne considère que les segments qui sont non similaires selon un seuil de similarité préalablement fixé. En outre, en cas de relation paratactic reliant deux unités nucléus non élémentaires (qui ne sont pas des clauses), nous retenons celle qui est la plus proche du thème traité. Pour cela, nous augmentons les scores des unités non élémentaires qui sont plus en relation avec le thème afin d’augmenter leur chance de faire partie du résumé final. Nous ne procédons pas de la même manière pour les unités textuelles élémentaires (clauses) pour garder la cohérence du texte. De même, pour les co-références et afin de renforcer la cohérence du texte nous ajoutons une unité introductrice (celle qui précède l’unité à traiter) pour chaque unité commençant par un pronom comme it, he ou she. 7. Communication entre les agents Au sein de notre système, la communication est assurée par l’envoi de messages. Cette approche est justifiée car l’opération d’interaction se fait via un agent émetteur et un agent récepteur connu et identifié. Indépendamment du type de message envoyé, une seule syntaxe est respectée par tous les agents de la société. La syntaxe est la suivante : IDmessage (émetteur, récepteur, paramètre). IDmessage est l’identifiant du message, émetteur et récepteur peuvent avoir comme valeur : Tâche, Délégué (un agent tâche affecté comme délégué), Geo (désignant un agent géographique) ou Int (désignant l’agent interface) et paramètre définit ce qui est envoyé par l’émetteur au récepteur. Les agents rentrent en communication dès que le corpus de documents est à la disposition de l’agent interface (ou des agents géographique) et dès la création des agents tâche responsables de ces documents. Les agents tâche transmettent la liste de leurs thèmes traités dans leurs documents originaux à la fin de la phase de décomposition thématique à travers le message m1: listeThème(Tâche, Int|Geo, Liste-thème). A la réception des messages m1, l’agent interface (ou géographique) délègue aux agents tâche la responsabilité des thèmes à travers une notification expédiée à ces agents tâche via le message m2: Délégation(Int|Geo, Délégué, Liste-thème).

Comme sus-mentionné, un agent peut être responsable de thèmes qui sont discutés le long de son propre document ou en provenance d’autres agents tâche. Si le thème est issu de son document, un délégué doit solliciter ses accointances (les agents tâche traitant les mêmes thèmes qui relèvent de sa responsabilité). Ceci est accompli par l’envoi du message m3: DemandSegment(Délégué, Tâche, Listethème). Les accointances répondent par l’envoi des segments concernés via: m4: TextThème(Tâche, Délégué, Liste-segment). Si un agent est un délégué d’un thème qu’il ne traite pas dans son document, il doit identifier les agents tâche traitant ce thème en sollicitant l’agent interface (ou géographique) à travers le message m5: membres(Délégué, Int|Geo, liste-thème). La réponse est reçue à travers le message m6: ListeMembre(Int|Geo, Délégué, Membres). Suite à l’identification des agents, l’agent délégué concerné collecte les segments détenus par les agents tâche identifiés par envoi des messages m3, puis attend la réception de tous les messages m4. Un agent affecté comme délégué n’entame le filtrage textuel qu’à la réception de la totalité des réponses de la part de ses accointances. A la génération des résumés des documents générés relatifs aux thèmes sous sa responsabilité, l’agent délégué envoi ces résumés résultants à l’agent interface (ou géographique) via: m7: résumé (Délégué, Int|Geo, ListeRésumé). Tout le processus prend fin si l’agent interface ou chacun des agents géographique sont satisfaits. Cet état est atteint si chacun des agents tâche est satisfait. Un agent tâche est dit satisfait s’il a achevé la condensation de tous les documents générés relevant de sa responsabilité. 8. Raffinement de la recherche en exploitant la composante spatiale des entités géographiques L’idée de ce raffinement est d’exploiter la composante spatiale des entités géographiques manipulées. Ce raffinement est entrepris si les informations générées par le processus d’acquisition de connaissances sont assez limitées ou ne correspondent pas aux attentes de l’utilisateur. Il va nous permettre de mieux décrire la ou les entités géographiques sujets de l’enrichissement. Les entités géographiques que nous manipulons ne sont pas simplement stockées comme des éléments disparates, mais, sont spatialement reliées de manière cohérente. Les relations qu’entretiennent les entités géographiques dans l’espace déterminent ce qu’on appelle la topologie (Clementini et al., 1994 ; Egenhofer, 1997). C’est grâce à ces relations topologiques que nous rapprochons l’entité ou les entités géographiques objets de la recherche avec d’autres entités géographiques. En fait, la topologie au niveau des SIG peut être définit comme étant un ensemble de relations spatiales (adjacent à, inclus dans, voisin de...) existant entre les objets géographiques d’une base. La topologie dans les SIG permet de supprimer les

redondances dans la description géométrique des entités, d’une part, et d'accélérer les opérations d'analyse spatiale, d’autre part. C’est dans la topologie que réside l’une des fonctions les plus caractéristiques d’un SIG : L’édition des requêtes spatiales. Les relations topologiques qui lient les éléments les uns aux autres peuvent être du genre: Une habitation est strictement comprise dans une parcelle cadastrale qui n'intersecte pas de routes ou d'autoroutes. Exploiter toutes ces informations d’ordre spatiales à travers certaines fonctionnalités du système d’informations géographiques au niveau de notre processus d’acquisition de connaissances peut être explicité de plusieurs manières. Nous citons dans ce qui suit quelques cas d’utilisation de la topologie. Si nous cherchons des informations concernant une entité géographique, nous pouvons explorer le voisinage matérialisé par la relation topologique d’adjacence. La relation d’adjacence permet de relier les entités contiguës qui partagent au moins un élément commun (nœud ou arc). Elle peut servir à définir les entités qui peuvent apporter un supplément d’informations. A titre d’exemple, si nous sommes concernés par l’enrichissement de l’entité géographique pays. Nous pouvons élargir notre espace d’investigation et chercher de l’information pertinente à travers des textes relatifs aux pays voisins. Nous pouvons consolider ce travail de recherche en proposant à l’utilisateur des moyens d’aide dans le choix du ou des pays voisins qui feront par la suite objet de fouille de textes dans le web : Nous retenons un sous ensemble correspondant aux entités géographiques qui sont souvent invoqués lorsqu’on traite l’entité géographique en question. Ce sous ensemble peut être déterminé en s’appuyant sur le nombre de documents web qui traite au même temps notre entité géographique et une des entités qui lui est adjacente. Plus ce nombre est élevé plus il y a de chance de trouver des informations pertinentes. De même, la superposition (ou overlay) de couches peut raffiner le processus d’extraction. Ainsi, nous pouvons superposer la couche qui décrit les déplacements d’un type d’oiseaux bien déterminé et la couche du découpage de territoire. Notons qu’une couche réunit généralement des éléments géographiques de même type. La coïncidence spatiale entre les deux entités géographiques, permet de mieux localiser les territoires qui abritent ces types de oiseaux. Donc, nous considérons le couple identifiant oiseau et identifiant territoire comme clé de la recherche. De même, si nous cherchons des informations concernant une commune et que la recherche est défectueuse du point de vue de l’utilisateur, nous étendons l’espace de recherche aux entités géographiques avec les quelles l’entité courante maintient une relation d’appartenance. Cette relation permet de mieux raffiner l’extraction de connaissances. Si par exemple nous cherchons des informations concernant l’entité géographique : Hajeb lâayoun, on peut étendre l’espace de recherche à l’entité de niveau supérieur, soit la Tunisie.

9. Réalisation Pour implémenter notre approche nous avons utilisé Java comme langage de développement, étant donnée qu’il est multi-threading supportant bien la concurrence et le parallélisme. Java favorise l’exécution en parallèle de plusieurs programmes. Ceci est rendu possible grâce à la notion de threads. En utilisant ce langage nous avons élaboré un prototype manipulant les pays comme entités géographiques et ce à travers la carte des pays de la méditerranée. L’interface utilisateur de notre prototype est principalement subdivisée en deux fenêtres. Une pour l’affichage des différents documents générés regroupant des segments issus de différents agents tâche et se rapportant au même thème (c.f. figure 3). Une deuxième fenêtre affiche le résumé correspondant au document généré. Dans notre exemple, le menu principal affiche la carte de la méditerranée permettant à l’utilisateur de choisir la ou les entités géographiques qui l’intéressent. La figure 3 présente l’entité choisie par l’utilisateur, c’est en fait, l’entité pays : Tunisie. En plus, des extraits d’informations générés à partir du corpus, nous maintenons des liens vers les documents originaux. Ainsi, suite à la consultation d’un des documents générés, un utilisateur peut estimer qu’un tel segment réponde à ces attentes et décide de consulter le document source. De même l’utilisateur a le choix de stocker un extrait des documents générés, comme illustré par la figure 3 ou éventuellement tout le document. Le résumé généré peut être également sauvegardé en intégralité ou juste en partie, sous forme d’une page web ou dans la base de données existante. listes des thèmes

Données de la BDG

Onglet relatif au Résumé

Un document généré

Liens vers les documents sources

Un extrait du document généré à sauvegarder

Figure 3. Un prototype de notre approche d’acquisition des connaissances L’évaluation des résumés est une tâche complexe. La complexité provient du fait qu’il n’existe pas un résumé idéal. Mais, généralement, l’évaluation se fait par rapport à des jugements humains ou par comparaison à des systèmes existants s’ils sont disponibles. Dans notre cas, nous avons comparé nos résultats par rapport à des résumés élaborés manuellement. Nos résultats ont été jugés satisfaisants. A titre

d’illustration, nous présentons dans ce qui suit un document généré relatif au thème « Trade » concernant l’entité géographique pays : la Tunisie, ainsi que le résumé associé. Document généré : thème Trade Segment 1 During the past decade, Tunisia has adopted an economic reform strategy aimed at establishing a market-based and private-sector-driven economy that is increasingly open to world goods and capital markets. A gradual liberalization of Tunisia's trade was launched in the mid-1980s. This was complemented by liberalization of the exchange system, which culminated in 1993 in the establishment of current account convertibility and the adoption of the obligations under Article VIII of the International Monetary Fund's Articles of Agreement. Tunisia became a full member of the General Agreement on Tariffs and Trade (GATT) in 1990 and is a founding member of the World Trade Organization. The opening of Tunisia's economy was reflected in its growing integration into the world economy. Led by the rapid growth of its non-energy exports, particularly in the textile sector, Tunisia's export share in its traditional markets (mainly Europe) increased steadily during 198595, and the share of exports of goods and non factor services in its GDP trended upward, to an average of 41 percent during 199195 from 35 percent during 198285.

Segment 2

Tunisia has entered into trade agreements with forty-one developed and developing countries, which granted Tunisia most-favored-

nation status. Tunisia has entered into bilateral and regional trade preference agreements with the European Union and the Arab Maghreb Union as well as certain agreements under the framework of the Inter-Arab Cooperation, the Inter-African Cooperation and the Organization of the Islamic Conference. Furthermore, Tunisia is a member of the world trade organization (WTO) and is a signatory to the Global System on Trade Preferences. In 1995, the Tunisian government and the European Union negotiated a major economic agreement on free trade. The pact establishes the framework for free trade between Tunisia and the European Union.

Segment 3

With few exceptions, domestic trading can only be carried out by a company established under Tunisian law with majority capital

ownership and management held by Tunisians. An additional barrier regarding investments by non-European Union (EU) investors is contained in Tunisia's Association Agreement with the EU. The EU provides massive funding to Tunisia, especially for infrastructure development, but such funding often contains conditions prohibiting non-EU member investors from participation. In order to boost bilateral trade and to address U.S. investment issues in Tunisia, the U.S. government has begun a dialogue on free trade with the government of Tunisia. The first, formal step was launched in 2002 with the signing of a Trade and Investment Framework Agreement (TIFA) to formalize discussions on bilateral trade and investment. A TIFA Council convened in October 2003 as an initial step, but progress on trade liberalization with the U.S. has not moved forward significantly. Recently, however, Tunisian government officials, including the head of the Central Bank of Tunisia, have emphasized the importance of diversification of external investment sources. A large share of Tunisia's FDI in recent years has come from a privatization program to sell off state-owned or state-controlled enterprises.

Résumé du document généré A gradual liberalization of Tunisia's trade was launched in the mid-1980s. This was complemented by liberalization of the exchange system. Tunisia became a full member of the General Agreement on Tariffs and Trade (GATT) in 1990 and is a founding member of the World Trade Organization. Tunisia has entered into trade agreements with forty-one developed and developing countries. Tunisia has entered into bilateral and regional trade preference agreements with the Eurpean Union and the Arab Maghreb Union as well as certain agreements under the framework of the Inter-Arab Cooperation, the Inter-African Cooperation and the Organization of the Islamic Conference. With few exceptions, domestic trading can only be carried out by a company established under Tunisian law with majority capital ownership and management held by Tunisians. The EU provides massive funding to Tunisia, especially for infrastructure development, but such funding often contains conditions prohibiting non-EU member investors from participation. The U.S. government has begun a dialogue on free trade with the government of Tunisia. A TIFA Council convened in October 2003 as an initial step, but progress on trade liberalization with the U.S. has not moved forward significantly. A large share of Tunisia's FDI in recent years has come from a privatization program to sell off state-owned or state-controlled enterprises.

10. Conclusion Dans cet article, nous avons présenté une approche distribuée d’acquisition des connaissances à partir d’un corpus textuel pour l’enrichissement des bases de données géographiques. Notre travail s’est focalisé sur l’enrichissement de la composante descriptive des BDG. L’approche consiste à générer des résumés à partir d’un corpus de documents du web. Cette génération s’est faite d’une manière distribuée en utilisant un agent interface, des agents géographique et des agents tâche, afin d’aboutir conjointement à un résumé optimal. Les résumés viennent s’ajouter à la base existante. Le processus d’enrichissement est réalisé sur trois phases : une décomposition thématique, une délégation et un filtrage textuel. Nous proposons également dans cet article une approche basée sur l’information spatiale. En particulier, les relations topologiques stockées dans la base de données géographiques pour raffiner et optimiser le processus général de recherche. 11. Bibliographie Allan J., Carbonell J., Doddington G., Yamron J., Yang Y, «Topic Detection and Tracking Pilot Study: Final Report», Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, Morgan Kaufmann, San Francisco, 1998. Briot J.P., Demazeau Y., Principes et architecture des systèmes multi-agents, Paris, Edition Hermes Science, 2001. Clementini E., Sharma J., Egenhofer M.J., «Modeling topological spatial relations: strategies for query processing», Computers and Graphics 18 (6), 1994, p. 815-822. Elhadad, M. et Robin J., «An overview of SURGE: A re-usable comprehensive syntactic realization component», Proceedings of the 8th International Workshop on Natural Language generation (INLG’96), Brighton, UK, 1996. Egenhofer M.J., «Query processing in spatial-query by sketch», Journal of visual languages and computing, vol. 8, No. 4, 1997, p.403-424. Faïz S., Systèmes d’Informations Géographiques : Information Qualité et Data mining, Editions C.L.E, 1999. Faïz S., Mahmoudi K., «Semantic enrichment of geographical databases», in. Encyclopedia of database technologies and applications, Etats-Unis, Editors : Rivero L., Doorn J. & Ferraggine V., Editions Idea Group, Septembre 2005, p. 587-592. Ferber J., Les Systèmes Multi-Agents vers une intelligence collective, Edition InterEditions, 1997. Gees C.S., Strzalkowski T., Wise G.B., Bagga A, «Evaluating Summaries for Multiple Documents in an Interactive Environment», General Electric, Corporate R&D, United Stated, 2000.

Goldstein J., Mittal V., Carbonell J., Kantrowitz M., «Multi-document summarization by sentence extraction», In Proceedings of the ANLP/NAACL-2000 Workshop on Automatic Summarization, Seattle, WA, May 2000, p. 40-48. Harabagiu S., Finley L., «Generating single and multi document summaries with GISTEXTER», In Proceedings of the Workshop on Multi-Document Summarization Evaluation of the 2nd Document Understanding Conference at the 4th Meeting of the Association for Computational Linguistics, Philadelphia, PA, Juillet 2002. Hearst M.A., «TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages», Computational linguistics, vol. 23, No. 1, 1997, p. 33-46. Kraaij W., Spitters M., Hulth A., «Headline extraction based on a combination of uni-and multidocument summarization techniques», In Proceedings of the ACL workshop on Automatic Summarization/Document Understanding Conference (DUC), Juin 2002. Lin, C. Y., Hovy E.H., «From Single to Multi-document Summarization: A Prototype System and its Evaluation», In Proceedings of the Association for Computational Linguistics (ACL) conference, Philadelphia, 2002. McKeown, K., Klavens J., Hatzivassiloglou V., Barzilay R., Eskin E., «Towards Multidocument Summarization by Reformulation: Progress and Prospects», AAAI/IAAA, 1999. Mahmoudi K., Ghédira K., «Distributed Rescheduling for the Workforce Management Dynamic Aspect», 3rd Ibero American Workshop On Distributed Artificial Intelligence And Multi-agent Systems, Atibaia, Sao Paulo, Brazil, 2000. Mahmoudi K., Faïz S., «Une approche distribuée pour l’extraction de connaissances: Application à l’enrichissement de l’aspect factuel des BDG», Revue des Nouvelles Technologies de l’Information, Editions Cépaduès, Janvier 2006, p. 107-118. Mani I., Bloedorn E., «Summarizing Similarities and Differences Among Related Documents», Information Retrieval, Vol. 1, No. 1, 1999, p. 35-67. Mann W. C., Thompson S. A., «Rhetorical structure theory: Toward a functional theory of text organization», An Interdisciplinary Journal for the Study of Text 8(2), 1988, p. 243281. Marcu D., «Discourse Trees are good Indicators of Importance in Text», advances in Automatic Text Summarization, Mani and Maybury editors, the MIT Press, 1999, p. 123136. Miller G., «Wordnet: An on-line lexical database», International Journal of Lexicography (special issue), 3(4), 1990, p. 235-312. Radev D.R., Jing H., Budzikowska M., «Centroid-based Summarization of multiple Documents: sentence extraction, utility-based evaluation, and user Studies», In ANLP/NAACL Workshop on Automatic Summarization, Seattle, April 2000, p. 21-19. Scholl M. Voisard, Pelous A., Raynal J.P., Rigaux P, SGBD Géographiques, France, International Thomson Publishing, 1996.