Tezauri de regăsire a informațiilor, test

Categorie:Examene
Titlu:Programare, calculatoare și cibernetică, tehnologii IT
Mărime fișier:21 Kb
Număr de descărcări:

TEMA: TEZURURI DE CĂUTARE A INFORMAȚIILOR

1. Tezaur informativ-text

Tezaurul sau dicționarele ideografice au fost dezvoltate pentru prima dată în lingvistică. Tezaurile sunt concepute pentru a facilita căutarea mijloacelor lingvistice care exprimă un concept (idee) dat. Un exemplu clasic de tezaur de căutare este tezaurul de cuvinte și expresii engleze, a cărui primă ediție a fost pregătită de Rogeston în 1852. Tezaurele similare au fost create pentru alte limbi naturale. Tezaurul lingvistic a fost elaborat în legătură cu pregătirea automată a textului.

Legături sintagmatice -este raportul unității de limbaj dintr-o declarație dată.

Institutul Limbii Române al Academiei Ruse de Științe a creat un tezaur de relații semantice (semantice) și sintagmatice dintre cuvinte și fraze, limba română ca dicționar și instrument software. Volumul tezaurului este de 64.000 de cuvinte și expresii.

1. furnizați traducere din limbajul natural în limbajul descriptorului, adică pentru indexarea coordonată a documentelor și a interogărilor.

2. reflectă relațiile paradigmatice dintre unitățile lexicale ale IPT, care sunt utilizate în pregătirea strategiei de căutare.

Relații paradigmatice-este o relație logică și asociativă între LE IL.

3. servesc drept ghid terminologic.

IPT -este un dicționar normativ de IPL descriptiv cu fix în elrelaţii paradigmatice LE.

IPT multilingveste un IPT care conține LU luate din mai multe limbi naturale și care reprezintă concepte echivalente în fiecare dintre aceste limbi.

Scopul creării IPT este de a crește rata de regăsire a informațiilor în ITP.

Macrothesaurus -IPT inclusiv LE de înaltă generalitate și care acoperă o arie largă de cunoștințe.

Microthesauruseste un mic IPT specializat compilat pe baza unui eșantion de IPT mai complet și care include în plus concepte specifice românești ale unui anumit subiect.

IPT specializatsau un sinonim pentru IPT monotematic - un IPT construit pentru a reflecta un domeniu de cunoaștere sau practică.

IPT Politematic -IPT construit pentru o gamă largă de domenii de cunoaștere.

IPT specializat- există în majoritatea științei și tehnologiei.

Numărul microtezaurilor dezvoltate numai în țara noastră este de câteva mii.

Macrotezaur și IPT politematic- concepute pentru a utiliza baza lexicală și tematică la construirea unui microtezaur.

IPT politematic include doar vocabularul de bază al unei anumite industrii și cele mai evidente relații paradigmatice.

Microtezaurul include termeni specifici de valori proprii. Nume și paradigmă dezvoltată.

Structura IPT include o parte introductivă, partea principală (index lexico-semantic) și părți suplimentare.

Partea introductivă include o pagină de titlu și introduceri de text.

Introducerea conține următoarele date:

1. scopul creării și domeniul de aplicare al IPT;

2. link-uri către sursefolosit pentru a colecta vocabular IPT (alte IPT, dicționare terminologice);

3. descrierea procedurii de întocmire a IPT;

4. descrierea compoziției și structurii IPT;

5. caracteristicile cantitative ale IPT (numărul total de articole, numărul de descriptori și ascriptori);

6. o listă a relațiilor dintre LE și metodologia de bază pentru stabilirea acestora.

7. o listă cu toate simbolurile și abrevierile speciale permise pentru prezentarea LE.

8. ordinea aranjarii alfabetice a LU.

Indexul lexico-semanticeste partea principală a IPT, în care toți descriptorii și ascriptorii sunt enumerați într-o singură ordine alfabetică, indicând relațiile lor paradigmatice.

LE IPT -un cuvânt, o expresie sau un sens lexical al componentelor cuvintelor compuse din limbajul natural incluse în IPT ca descriptor sau ascriptor.

Ascriptor (nu un descriptor) -LE IPT care în imaginile de căutare ale documentelor (cereri) urmează să fie înlocuit cu un descriptor la căutarea sau procesarea informațiilor.

În cadrul unei intrări de descriptor, termenii sunt în următoarea ordine:

1. descriptorul de cap este evidențiat cu un font. De exemplu, majuscule;

2. date suplimentare;

3. notă lexicală (o scurtă explicație a clarificării semnificației descriptorului);

4. sinonime ascriptori sau descriptori (care urmează indicele „C”);

5. descriptori superiori urmând indicele „în”;

6. descriptori subordonați după indicele „a”;

7. descriptori asociați cu alte tipuri de relații.

Un descriptor părinte,un descriptor larg este un descriptor care denotă fie un concept generic, fie un întreg în relație cu un anumitdescriptor care denotă o parte din acest întreg.

Descriptor subordonat sau descriptor restrâns -descriptor care denotă fie un concept specific, fie o parte reprezentând un descriptor părinte.

Descriptor asociativ -Un descriptor asociat cu alții fără nicio relație semantică specificată.

Principalele tipuri de conexiune sunt: ​​cauză-efect, proces-obiect, similaritate funcțională,antonimia.

Ambiguitatea LU este eliminată printr-o relație sau o notă lexicală.

Părți IPT suplimentare:

Indicații suplimentare servesc pentru a dezvălui contabilizarea și controlul relațiilor paradigmatice dintre descriptori, ceea ce este necesar la compilarea prescripțiilor de căutare.

Listele de indici sunt o listă de descriptori grupați în funcție de titlurile acceptate în IPT.

1. denumirea disciplinelor și ramurilor de activitate;

2. obiecte, materiale;

3. metode, procese, operații, fenomene;

4. proprietăți, valori, parametri, caracteristici;

5. structura relatii, modele, legi, reguli, concepte abstracte.

Fiecare descriptor se referă la o singură rubrică. În cadrul unei rubrici, descriptorul este aranjat în ordine alfabetică.

Ierarhic -este o listă de liste de descriptori, fiecare listă începând cu un descriptor fără părinte.

Dupa fiecare descriptor se dau imediat descriptori subordonati, indicandu-i pe cei ierarhici, prin aplicarea numerotarii. Sau simboluri grafice ale nivelului.

Beneficiile cheie ale IPP descriptivi:

Mai puțină intensitate a forței de muncă a dezvoltării comparativ cu clasificarea ILP;

Posibilitatea de a căuta după orice combinație predeterminată de caracteristici incluse în IPJ;

Posibilitatea procesului de indexare automată a documentelor.

Dezavantajele Descriptorului IPP:

În industriile majore, natura descriptorului CIE face dificilă utilizarea acestora pentru a face schimb de informații între sisteme cu diferite CIE;

Sensul inadecvat al termenului este ales ca descriptor în diverse IPS descriptive.

2. Analiza tezaurului de regăsire a informațiilor

2.1 Tezaur de regăsire a informațiilor privind conservarea documentelor(BAN)

1. Primul tezaur bilingv intern despre conservarea documentelor întocmit la Biblioteca Academiei Române de Științe. tezaurul conține 5.166 de termeni.

Publicația este un exemplu de tezaur mixt bilingv (română-engleză). Engleza este aleasă ca limbă principală. Aceasta înseamnă că termenii englezi sunt aleși ca descriptori, în timp ce termenii români sunt dați ca sinonimi.

Acest tezaur de regăsire a informațiilor este destinat indexării documentelor și procesării cererilor pentru a asigura siguranța (stocarea) documentelor în sistemele informaționale tradiționale și netradiționale. Tezaurul poate fi folosit ca dicționar bilingv special pentru traduceri din română în engleză și din engleză în română, precum și ca dicționar terminologic de referință.

Tezaurul include:

Indexul lexico-semantic al tezaurului conține intrări de descriptor și ascriptor.

În cadrul unei intrări de descriptor, termenii sunt aranjați în următoarea ordine:

- descriptorii majuscule sunt cu majuscule;

- ascriptori sau descriptorisinonime care urmează indicele „c”;

- descriptori superiori urmând indicele „în”;

- descriptori subordonaţi după indicele „n”.

c Controlul vizitatorilor

Controlul și managementul accesului

în ORGANIZAREA SISTEMELOR DE SECURITATE

n CONTROLUL ACCES

- descriptori asociați cu alte tipuri de relații.

2.2Tezaur de termeni maritim și de navigație. (tezaurul de regăsire a informațiilor).Alcătuit de VN.Belozerov. Moscova 2001

1. Tezaurul conține aproximativ 2200 de termeni cu definiții și link-uri la tezaur.

Acest dicționar de referință pentru turismul maritim și nautic este un dicționar terminologic, în care pentru fiecare termen se dă definiția acestuia, dacă este cazul, note privind natura utilizării, precum și relațiile semantice cu alte concepte.

Dicționarul include toată terminologia specială necesară pentru prezentarea materialului privind organizarea și desfășurarea călătoriilor turistice pe nave pliabile transportabile în apele interioare și zonele de coastă ale mărilor. Terminologia acestui tip de activitate este completată cu vocabularul de navigație clasică, navigație, navigație, hidrografie, organizare a transportului maritim, ceea ce permite folosirea dicționarului ca carte de referință pentru afacerile maritime în general.

Subiectul dicționarului poate fi atribuit următoarelor rubrici ale Rubricatorului de stat al informațiilor științifice și tehnice:

  • 71.37.01 Probleme generale ale serviciilor turistice și de excursii
  • 73.34.01 Probleme generale ale transportului pe apă
  • 77.01.33 Terminologie. Cărți de referință, dicționare, literatură educațională despre cultura fizică și sport
  • 77.29.32 Navigatie. Windsurfing
  • 77.29.33Turism sportiv

Definiția urmează direct după unitatea lexicală majusculă, este separată de aceasta printr-o liniuță și este introdusă într-un font cu o înălțime redusă a literelor (în versiunea de față, petitul nu este implementat). În unele cazuri, când definiția unui termen este evidentă din forma sa internă, acesta nu este dat. În cazurile în care termenul poate fi definit din unghiuri diferite și numai în agregat definițiile corespunzătoare descriu conceptul, sunt date două sau chiar trei definiții, separate prin punct și virgulă.

CLEVER - o velă triunghiulară înclinată, al cărei volan este atașat de un braț care conectează catargul de bompres sau de bompres.

două definiții (pe partea de valoare și pe partea de formă):

AZ - steagul Marinei, indicând litera română A; roșu cu codițe și un pătrat alb la stâlp.

Acest tezaur folosește următoarele tipuri de referințe, care sunt enumerate în următoarea ordine:

c -- într-o intrare de descriptor indică un ascriptor sinonim;

vezi -- într-o intrare ascriptor indică un descriptor sinonim;

isp -- într-un articol ascriptor indică mai mulți descriptori, dintre care trebuie să alegi unul care exprimă cel mai corect conceptul de interes pentru cititor;

despre - simbolul acestui concept;

vr - un concept generic superior;

vts - un termen superior care desemnează un obiect care include acest concept ca parte constitutivă;

vm - o mulțime, unul dintre elementele căruia este notat cu o unitate lexicală capitală;

nv - conceptul de specie inferioară;

нч - un termen subordonat care desemnează o parte a unui obiect exprimată printr-o unitate lexicală majusculă;

ne -- termen subordonat,desemnând unul dintre elementele mulţimii exprimate prin unitatea lexicală majusculă;

ax -- asociere prin asemănare de obiecte sau concepte; asm - asociere prin vecinătate a obiectelor, proceselor sau fenomenelor; furnică - antonim, adică conceptul „opus”;

AZIMUT - direcție în spațiu, exprimată în raport cu punctele cardinale

nv: azimutul stelei; azimut adevărat; azimut busola; azimut magnetic;

frasin: rulment; rhumb

asm: sistem circular de azimuturi; sistem de locomodă de azimuturi; sistem de sfert de azimut

3. Acest dicționar, considerat un tezaur, a fost pregătit în conformitate cu GOST 7.25 - 80.

1. GOST 7.24-90. Tezaur de regăsire a informațiilor multilingv.

2. GOST 7.25-2001. Tezaurul de regăsire a informațiilor monolingv.

3. GOST 7,74-96. Limbi de regăsire a informațiilor. Termeni și definiții.

Portofoliu: Lucrări selectate

Total lucrări: 71449

[Noi sosiri] [Articole populare]