thésaurus是什么意思_thésaurus的常见用法_近义词

词典释义

n. m
1（文献学、考古学的）词典，词

2主题词表

近义、反义、派生词

近义词：

glossaire, trésor, dictionnaire

联想词

corpus 文集; dictionnaire 词典，字典; dico 词典，字典; lexique 词

; bibliographique 目录学的; ontologie 本体论; sémantique 语义学; glossaire 古词词典，难词词典; vocabulaire 词

，语

; classification 分类，分级; indexation 编索引;

当代法汉科技词典

thésaurus (thesaurus) m. 术语

短语搭配

thésaurus (thesaurus)术语

élaboration de thésaurus叙词表编制

例句库

Le thésaurus du Système d'information bibliographique de l'ONU (SIBONU) sera régulièrement mis à jour dans les six langues officielles.

《联合国书目信息系统术语词库》将作为一个六种语文数据库定期维护。

Le thésaurus multilingue, qui définit le vocabulaire servant à décrire les publications des Nations Unies et des documents acquis à l'extérieur, représente un énorme progrès puisqu'il facilite la recherche thématique des documents officiels des Nations Unies dans les six langues officielles sur le Système de diffusion électronique des documents de l'ONU (Sédoc).

多种语言的术语词库在用电子格式出版联合国信息方面是一项里程碑的成就，使得人们能够用联合国所有六种正式语文通过不同主题在正式语文系统中检索联合国的正式文件。

De plus, par le biais du fichier du thésaurus, on a désormais la possibilité d'une recherche dans le SÉDOC, dans les six langues officielles, à partir de descripteurs établis.

此外，通过书目信息系统的词库档案，现已能够用六种正式语文的既定系索词在正式文件系统中搜索文件。

La Commission a pris note avec satisfaction des travaux en cours dans le cadre du système mis en place pour la collecte et la diffusion de la jurisprudence relative aux textes de la CNUDCI (Recueil de jurisprudence) qui consiste à élaborer des sommaires de décisions judiciaires et de sentences arbitrales concernant des textes de la CNUDCI, à compiler les textes intégraux de ces décisions et sentences, et à mettre au point des outils de recherche et d'analyse, tels que des thésaurus et des index.

委员会满意地注意到收集和传播贸易法委员会法规判例法（法规判例法）的系统继续进行的工作，包括编写关于贸易法委员会法规的法院判决和仲裁裁决的摘要，汇编这些判决和裁决的完整文本，以及制定研究辅助手段和分析手段，例如词汇汇编和索引。

Le premier était chargé de l'analyse des contenus et de l'indexation des sources d'information courantes et rétrospectives du Secrétariat, de la coordination du consortium d'achat d'information électronique pour 55 organismes du système des Nations Unies, du développement de la collection et de l'acquisition de supports d'information ainsi que de la mise au point et de l'entretien du thésaurus utilisé pour les recherches multilingues du Système de diffusion électronique des documents (Sédoc).

前者负责秘书处当前和以往信息资源的内容分析和内容索引、联合国系统中55个组织的电子信息采购集团协调、开展信息材料的收集和采购，以及开发和维护用于正式文件系统(ODS)多语文搜索的六种语文术语词库。

法语百科

Un thésaurus, thésaurus de descripteurs ou thésaurus documentaire, est une liste organisée de termes contrôlés et normalisés (descripteurs et non descripteurs) représentant les concepts d'un domaine de la connaissance.

C'est un langage contrôlé utilisé pour l'indexation de documents et la recherche de ressources documentaires dans des applications informatiques spécialisées. Les thésaurus sont donc une catégorie de langages documentaires parmi d'autres. Les termes (dans l'exemple ci-contre : véhicule, navire,...) sont reliés entre eux par des relations de synonymie (terme équivalent), de hiérarchie (terme générique et terme spécifique) et d'association (terme associé) ; chaque terme appartient à une catégorie ou domaine.

Introduction

Le thésaurus est un outil linguistique qui permet de mettre en relation le langage naturel des utilisateurs et celui contenu dans les ressources. Cette technique pallie les limites du langage naturel, très riche mais aussi souvent ambigu. Le thésaurus évite ainsi les risques induits par les synonymies, les homonymies et les polysémies présentes dans le langage naturel. Contrairement à un dictionnaire auquel il est souvent comparé, un thésaurus ne fournit qu'accessoirement des définitions, les relations des termes et leur sélection l'emportant sur la description des significations.

Par exemple un thésaurus reliant récolte à culture, blé à céréale, et France à Europe, permettra pour une question portant sur la récolte du blé en France de trouver des ressources indexées avec culture céréale Europe.

Les thésaurus documentaires suivent des principes de construction établis depuis les années 1970 dans une norme internationale de l'ISO, dont la dernière édition a été publiée en 2011. Avec l'élaboration de normes et d'applications informatiques spécialisées, comme dans le domaine voisin des ontologies, une convergence des problématiques (ressources, hiérarchie, réutilisation, etc.) a rapproché les thésaurus des ontologies.

Étymologie, orthographe et histoire

Thésaurus en latin veut dire recueil, répertoire. Il a donné naissance au dictionnaire thesaurus linguae latinae de Robert Estienne.

Les thésaurus prennent de l’importance par l’informatisation dès les années 1990. C’est un système de recherche privilégié notamment en raison de l’utilisation des opérateurs booléens qui permet alors de faire des équations logiques de recherche.

Les deux orthographes thesaurus et thésaurus sont admises par les dictionnaires : la première est un xénisme qui reprend directement la forme latine, la seconde en est une francisation et semble la plus fréquente dans la littérature. Le pluriel latin thesauri est quelquefois employé, mais passe pour une forme désuète ou un anglicisme (l'anglais employant le pluriel latin). La cohérence veut qu'on écrive soit un thesaurus, des thesauri, soit un thésaurus, des thésaurus.

Outil d'indexation et outil de recherche

Un thésaurus est un type particulier de langage documentaire. Il est constitué d'un ensemble structuré de concepts représentés par des termes, pouvant être utilisés pour l'indexation de documents dans une banque de données bibliographiques ou dans un catalogue de centre de documentation, à des fins de recherche documentaire. L'utilisation du thésaurus permet de pallier les imperfections du langage naturel dans un but d'indexation. Le langage naturel, soit notre langage quotidien, contient de nombreux soucis de polysémie et de synonymie. Le thésaurus est un outil d'indexation combinatoire à vocabulaire contrôlé c'est-à-dire que les termes qui le constituent sont sélectionnés et ne peuvent être modifiés (sauf lors des mises à jour). Il est post coordonné car les descripteurs définissant les concepts peuvent être combinés ou associés a posteriori lors de la recherche d'information. L'indexation en langage documentaire grâce au thésaurus permet une homogénéité du mode d'indexation qui ne dépend alors plus de la culture de l'indexeur. Le thésaurus est utilisé à l'entrée et la sortie de la chaîne documentaire c'est-à-dire lors de la phase d'indexation et lors de la phase d'interrogation par l'usager. La capacité de recherche via le thésaurus est importante puisque ce dernier utilise un langage combinatoire qui associe et recoupe les mots de la recherche pour optimiser l'obtention de résultats.

Trois types de termes composent un thésaurus :

Les descripteurs utilisés pour indexer un document, il s'agit de l'ensemble des mots autorisés pour indexer.

Les non-descripteurs qui par convention ne peuvent pas être employés pour indexer un document, et qui renvoient au descripteur à utiliser. Ils sont utilisés à la recherche.

Les mots outils : ce sont des descripteurs qui ne peuvent être utilisés seuls (exemple : méthode). Ils sont coordonnés avec au moins un autre descripteur.

Pour l'utilisateur d'un catalogue électronique ou d'une base de données bibliographique, le thésaurus peut constituer un instrument de recherche. D'ailleurs il y a différents types de recherche. On peut procéder à une recherche hiérarchique consistant à parcourir le thésaurus en suivant son arborescence : on va du plus général au plus particulier. Il y a également la recherche par termes. On part des termes pour parcourir le reste du thésaurus

Relations entre les concepts et les termes

Un thésaurus a une double organisation : entre concepts (c'est-à-dire une relation sémantique) et entre termes représentant ces concepts (c'est-à-dire une relation d'équivalence).

Relations entre concepts, relations sémantiques

Les relations entre concepts sont de trois types :

Relation hiérarchique stricto sensu, base de la hiérarchie du thésaurus. Elles sont représentées par les sigles TG (terme générique - en anglais, BT: broader term) et TS (terme spécifique - en anglais, NT: narrower term). Cette hiérarchie permet de régler la précision de l'indexation ou de l'interrogation. L'indexation s'appuiera autant que possible sur l'identification des termes spécifiques (donc du niveau le plus bas possible), alors que la recherche selon les cas pourra faire appel aux termes génériques pour augmenter le nombre de réponses. Cette relation s'appuie sur : Des concepts génériques repérés par le sigle TG. Ils désignent les entités ou concepts généraux en référence aux autres concepts et au domaine considéré. Des concepts spécifiques repérés par le sigle TS. Ils précisent et identifient les entités ou concepts plus précis à l'intérieur du champ sémantique d'un terme générique donné. Il y a également trois types de relations hiérarchiques: les relations génériques - spécifiques les relations partitives (relations partie-tout) les relations d'instance (qui donnent des exemples)

Il y a également trois types de relations hiérarchiques: les relations génériques - spécifiques les relations partitives (relations partie-tout) les relations d'instance (qui donnent des exemples)

les relations génériques - spécifiques

les relations partitives (relations partie-tout)

les relations d'instance (qui donnent des exemples)

Relation d'association ou relation associative enrichissant le réseau de relations hiérarchiques selon d'autres axes de type sujets connexes. Ces relations peuvent être de nature très variée : causalité, localisation, relations de nature temporelle, composition, etc. Les relations d'association sont représentées par le sigle TA (terme associé - en anglais, RT: related term). Ces relations entre concepts permettent au chercheur de modifier progressivement son interrogation ou de l'élargir sur d'autres bases que la relation hiérarchique.

Appartenance à un « groupe de concepts » Il est courant de sélectionner et regrouper des concepts selon un critère spécifique, tels que leur pertinence à un domaine particulier. Ces regroupements de concepts sont appelés suivant les contextes : thèmes, domaines, champs sémantiques, microthésaurus (MT).

Relations entre les termes représentant les concepts, relations d'équivalence

Les relations d'équivalence entre termes représentant un même concept permettent de lutter contre la polysémie. La nouvelle norme ISO 25964-1:2011 désigne parmi l'ensemble des termes pouvant représenter un même concept : un terme préférentiel (descripteur) et des termes non-préférentiels (non-descripteurs), base de l'univocité du concept. Cette relation est représentée par le sigle EP (abréviation d'"Employé Pour"). La relation inverse des termes non-préférentiels vers le terme préférentiel est représentée par le sigle EM (abréviation d'"Employer")

Ce sont des variantes des termes spécifiques (synonymie ou quasi-synonymie) considéré comme "équivalent" dans le langage courant, ou des termes représentant des concepts assez proches pour être considérés comme "équivalent" pour le dispositifs d'accès à l'information.

Autres attributs

Divers types de relations, rubriques ou attributs complémentaires peuvent être adjoints à cette structure pour enrichir le thésaurus ou améliorer son usage. Citons en particulier différents types de notes : notes d'emploi (ou explicative ou d'application) qui définissent ou clarifient le périmètre sémantique d'un concept, notes de définition, notes utiles aux gestionnaires,... On peut également prévoir des « équivalents linguistiques » des concepts pour des thésaurus multilingues, ainsi que des passerelles avec d'autres thésaurus du même domaine ou de domaines différents.

Constitution d'un thésaurus

Un thésaurus s'élabore, soit manuellement par la voie d'une personne ou de plusieurs, grâce à une intelligence humaine (l'élaboration d'un thésaurus de 3 000 descripteurs par une seule personne peut prendre six à huit mois), soit de manière automatique, par le biais de l'intelligence artificielle, grâce à des logiciels de construction automatique de thésaurus du type du SATO (Système d'analyse de textes par ordinateur), soit par un mélange de l'approche humaine et automatique. Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques. Ces infos-logiciels utilisent également des outils linguistiques de reconnaissance morpholexicale et syntaxique. D'après G. Salton, Luhn et Mooers furent les premiers à envisager le remplacement des indexeurs par la machine et de l'intelligence humaine par l'intelligence artificielle par exemple grâce à l'analyse de la fréquence des mots clefs (CRANFIELD II, SMART Information Retrieval System, pertinence, relevance), ce qui entraîna le courant de la génération automatique de thésaurus par exemple le NCI_Metathesaurus grâce à des logiciels spécialisés tels chez I.B.M. THESAUT-TP (création automatique d’un thésaurus à partir de profils ou questions documentaires) qui est un logiciel de traitement linguistique d’aide à l’interrogation ou TLS (Thesaurus and Linguistic System) qui avec le programme THES, permet la création et la consultation de thésaurus pour enrichir une question. Elle est à relier alors à l'indexation automatique de documents. Il s'agit d'un vocabulaire contrôlé puisqu'il résulte d'un long processus de tri des mots, appellations et expressions utilisés dans un domaine particulier. Il s'agit d'une démarche pragmatique et continue de rationalisation des termes descriptifs. Il existe trois méthodes de constitution d'un thésaurus :

analytique (a priori) : à partir des mots clefs de l'indexation ;

synthétique (a posteriori) : à partir de listes de mots-clef préétablies à l'aide de dictionnaires, lexiques, glossaires etc.

mixte.

Ces méthodes portent parfois d'autres noms, comme méthode « stalactitique » et « stalagmitique » (D. Sörgel) . En vue de la meilleure adéquation au domaine considéré, les termes sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s'appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d'emploi. La hiérarchie des termes peut tout à fait être différente d'un thésaurus à un autre et même sous réserve d'incohérence dans un usage ou un autre du même thésaurus.

Finalement, en partant du niveau le plus haut et correspondant au domaine du thésaurus, on trouve d'abord les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommés microthésaurus. Un exemple de thésaurus formé d'un ensemble de microthésaurus, puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Dans le thésaurus à schémas fléchés (ex. Thésaurus du Management), il y a une structuration en champs sémantiques, chacun constitue un ensemble de 30 à 40 descripteurs définis par un mot clef titre placé au centre de la grille. Un thésaurus peut aussi concerner plusieurs domaines, comme cela est le cas d'un macrothésaurus (exemple : Thésaurus de l'OCDE). Un thésaurus sectoriel est spécialisé lui dans un seul domaine spécifique de la connaissance (exemple : Thésaurus de la Formation).

Il demeure toujours une dimension arbitraire dans la hiérarchie d'un thésaurus, soit dans le choix des termes, soit dans leur position hiérarchique.

Il existe différentes normes pour l'élaboration des thésaurus. (Lire aussi le numéro spécial de la revue Documentaliste de l'ADBS.)

ISO 25964-1 : Thésaurus et interopérabilité avec d’autres vocabulaires

Ce projet de norme en cours de finalisation remplace les deux anciennes normes : ISO 2788-1986 : Principes directeurs pour l'établissement et le développement des thésaurus monolingues, et ISO 5964-1985 : Principes directeurs pour l'établissement et le développement des thésaurus multilingues.

SKOS : Spécification en langage RDF développé par le W3C, pour la publication et l'utilisation des thésaurus dans le cadre du Web sémantique.

Normes anglaises : BS 8723 : 2005. Structured vocabularies for information retrieval, adaptation anglaise de la norme ISO 2788.

Normes américaines : ANSI/NISO Z39-19:2005, Controlled vocabularies (pdf).

Exemple de thésaurus élémentaire

Soient les rubriques principales d'un micro-thesaurus sur un système informatique collaboratif :

Individus

Logiciel

Réseau

Ressources

La rubrique Individus se composerait par exemple de :

Lecteur (TG) ;

Participant (TG) ; Auteur (EP) ; Contributeur (EP) ; Éditeur non-inscrit (TS) ; Anonyme (EP) ; Adresse IP (forme métaphorique à éviter) ; Éditeur inscrit (TS) ;

Éditeur non-inscrit (TS) ; Anonyme (EP) ; Adresse IP (forme métaphorique à éviter) ;

Éditeur inscrit (TS) ;

Participant mandaté (TG) ; Administrateur (TS) ; Sysop (terme usuel dans la communauté) ; Gestionnaire (TS) ; Représentant (TS) (chargé des relations extérieures) ;

Administrateur (TS) ; Sysop (terme usuel dans la communauté) ;

Gestionnaire (TS) ;

Représentant (TS) (chargé des relations extérieures) ;

Utilisateur (terme imprécis : à proscrire) ; Internaute (imprécis : à proscrire).

Le responsable de toute contribution pourrait ainsi être spécifié par au moins un terme descriptif choisi parmi les cinq termes spécifiques (TS) ou parmi les trois termes génériques (TG), selon les besoins. Les termes (EP) seront par principe évités dans l'indexation, mais pourront être utilisés ultérieurement pour exploiter exclusivement tel ou tel type de contribution sans employer rigoureusement les termes propres de la description initiale.

Les modes de présentation

Quel que soit son support, un thésaurus utilise habituellement des présentations par classement alphabétique de ses termes ; premier stade avant la présentation des relations hiérarchiques. Ainsi l'utilisateur peut-il être dérouté dans un premier temps par l'absence d'un terme dans une liste, alors qu'une autre modalité d'usage du thésaurus lui révèlera que ce terme est bien pris en compte mais grâce à une relation d'équivalence à un terme préférentiel. Des présentations sous forme de graphes et cartes permettent des explorations plus complexes.

L'utilisation ou exploration d'un thésaurus peut se faire habituellement à l'aide de différents modes de présentation :

Liste(s) alphabétique(s) des termes ; pour une approche globale ou la recherche d'un terme particulier ;

Liste(s) hiérarchique(s) des termes ; pour l'approfondissement d'une notion ;

Liste(s) d'occurrences (liste permutée) ; pour la vérification de la pertinence d'un élément d'une expression utilisée comme descripteur ;

Automatiquement par un moteur de recherche.

On peut trouver dans ces listes, le symbole 'MT indiquant le microthésaurus dont relève le terme. Un micro thésaurus est un champ sémantique particulier qui permet de consulter lors de l'indexation d'un document tous les termes voisins.

Il existe plusieurs types de présentation :

le thésaurus hiérarchique

le thésaurus à schémas fléchés, spécialité du Bureau Van Dijk, Belgique : l’ensemble du vocabulaire est découpé en champ sémantique

mais encore :

Thésaurus à arborescences,

Polygones,

Cercles circulaire .....

Le thésaurus graphique continue à se développer grâce aux interfaces du web et de l'informatique. Les systèmes gestion électronique de documents (GED) comportent tous un module de gestion et d'exploitation intégrés de thésaurus.

Éléments optionnels d'un thésaurus

On trouve associées aux descripteurs des définitions (cas d'homonymie), des notes assistant l'utilisateur ou l'éditeur (notices), des liens de toute nature, etc.

法法词典

thésaurus nom commun - masculin ( thésaurus ) S'écrit aussi: thesaurus

1. linguistique index alphabétique de mots reliés entre eux par des relations sémantiques

un thésaurus multilingue