Ips to... Cel i funkcje systemów wyszukiwania informacji

Współczesnemu człowiekowi trudno jest sobie wyobrazić życie bez Internet i niemal natychmiastowy dostęp do źródeł informacji. Użytkownicy rzadko zastanawiają się nad tym, jak szukają w sieci potrzebnych im treści. A to jest bardzo ciekawe.

Information Retrieval System (IRS) to złożony system sprzętowo-programowy, który wyszukuje informacje na podstawie żądań użytkownika. Informacje są przechowywane w formie cyfrowej na serwerach, tak jak kiedyś książki na półkach bibliotecznych. System składa się z wielu podsystemów. Każdy z nich wykonuje określone zadanie w procesie przetwarzania zapytania użytkownika i dostarczania informacji w formie tekstowej lub dźwiękowej. Złożoność architektury współczesnych systemów wyszukiwania informacji (akronim od ang. retrieval system) wynika z wielości problemów, które muszą one rozwiązywać. To jest jak "czarna skrzynka"Wejście: zapytanie tekstowe, nieznana treść; wyjście: kompleksowa informacja.

Prawdziwa karta indeksowa

Strumienie wejściowe

Zapytania o informacje, które człowiek formułuje w formie tekstowej na ekranie swojego gadżetu, stanowią niewielką część zapytań przetwarzanych przez wyszukiwarkę. Główne tablice zapytań są generowane przez roboty, które przyjmują zapytania od ludzi i wykonują wieloetapowe wyszukiwanie oraz przekazują użytkownikowi informację zwrotną. Tutaj do systemów wyszukiwania informacji zalicza się znany nam wszystkim Google, "Yandex" i innych, które przetwarzają miliony zapytań dziennie.

Obiekty wyszukiwania źródeł

Zbiór obiektów źródłowych interesujących dla wyszukiwań to dokumenty, rekordy, filmy, obrazy itp. Są one tworzone poza IPS. Ogólny system przechowywania i wyszukiwania informacji powinien posiadać zintegrowany system bibliograficzny, rodzaj katalogu, umożliwiający wyszukiwanie wszelkiego rodzaju obiektów.

Obiekty lub ich cyfrowe transformacje stają się "zasoby wejściowe" w systemie IPS. To spośród nich wybierane są informacje potrzebne użytkownikowi.

Wyszukiwanie informacji

Źródła zewnętrzne

W prezentacji wyborów informacyjnych wykorzystywane są zewnętrzne źródła wiedzy. Jest to informacja, której szuka użytkownik. Tytuł filmu, cytat z książki itp. W przypadku wyszukiwania komputerowego informacje te muszą być przekształcone w zapytanie w języku algorytmicznym. W IPS jest to realizowane przez jednostkę zajmującą się tworzeniem, indeksowaniem i opracowywaniem zapytań.

W idealnej sytuacji te trzy procesy - reprezentacja, indeksowanie i tworzenie zapytań - powinny opierać się na identycznych źródłach wiedzy, ale w praktyce jest to nieosiągalne.

Źródła wiedzy muszą być stale przeglądane i aktualizowane, a aktualizacje muszą być identyczne i zsynchronizowane. A zewnętrzne źródło wiedzy zawsze chronologicznie wyprzedza jego wykorzystanie w wyszukiwarkach dla danego zapytania, czasem o kilka lat.

system odzyskiwania

Przedstawicielstwa

Reprezentacje obiektów źródłowych są łączone z danych wejściowych w jakąś kombinację lub przekształcane zgodnie z regułami i algorytmami danego systemu wyszukiwania informacji-wyszukiwarka.

Reprezentacje są mniej lub bardziej przekształconymi kopiami oryginalnego obiektu poszukiwań. W zbiorze nieedytowanych pełnych tekstów, każdy tekst jest swoją własną reprezentacją. W kolekcji obiektów i artefaktów muzealnych reprezentacją może być przekształcony opis obiektu wraz z jego wizerunkiem. W niektórych przypadkach reprezentacja może pochodzić częściowo z oryginalnego obiektu, a częściowo z opisu: w systemach wyszukiwania bibliograficznego reprezentacje pochodzą z obiektu - na przykład tytuł, nazwisko autora będą połączone z abstraktem pracy.

Szukanie tego, czego potrzebujesz

Indeks z możliwością wyszukiwania

Ponieważ informacje w systemach wyszukiwania są przechowywane w widoku, logiczne jest założenie, że wyszukiwanie jest wykonywane względem widoku, a po wybraniu jest zwracane użytkownikowi. W praktyce tak nie jest. Na przykład obecne katalogi biblioteczne online ograniczają wyszukiwanie do kilku pól: autor, tytuł i podtytuł w ramach widoku zawierającego inne pola, które nie są przeszukiwane. Jest to wystarczający powód, aby odróżnić widok od przeszukiwalnego indeksu, który jest przeszukiwalną częścią widoku. Definiuje on wszystkie, że powinna być przeszukiwalny. Indeks przeszukiwalny, podobnie jak widok i obiekt źródłowy, może być podzielony na oddzielne podindeksy, aby zapewnić bardziej precyzyjne, ukierunkowane wyszukiwanie

Wyszukiwarki zazwyczaj posiadają wewnątrzsyntetyczną strukturę do dopasowywania poprawnych wyników wyszukiwania. Struktura ta jest drugim składnikiem indeksu wyszukiwawczego.

Proceduralnie proces indeksowania może być realizowany w różny sposób: indeks zwrotny można uzyskać przez:

  • dosłowne kopiowanie przeszukiwanego widoku;
  • poprzez kopiowanie części reprezentacji. Może to być część lub całość widoku, który istnieje fizycznie tylko jako fragmenty, rozmieszczone zgodnie z zasadami tworzenia przeszukiwalnego indeksu, który zostanie zebrany w razie potrzeby.
Zarządzanie wyszukiwaniem

Zasady projektowania zapytań i zapytania formalne

Projektowanie zapytań to funkcja, która pośredniczy między zapytaniem użytkownika a zapytaniem formalnym. Przekształca żądanie użytkownika poprzez dopasowanie go do słowników poleceń ekstrakcji, specyfikacji indeksu i indeksu przedekstrakcyjnego. W początkowym okresie rozwoju IPS rolę tę tradycyjnie pozostawiano wykwalifikowanym informatykom.

Opracowanie zapytań komputerowych, które mogą odwzorować zapytania na przeszukiwalny indeks słownikowy systemu, jest powszechnie określane jako moduł "hasło słownikowe". Automatyzacja tej funkcji jest obiecująca i stwarza możliwości dla metod wyszukiwania eksperckiego i probabilistycznego.

Zapytanie formalne staje się takie po przekształceniu zapytania użytkownika. Przykłady takich formalnych przekształceń obejmują obcięcie, podstawienie, normalizację, wektoryzację i inne przekształcenia "zewnętrzna" reprezentacje w "wewnętrzny" komputerowe reprezentacje IPS (deszyfrowanie - system wyszukiwania informacji).

Odzyskane zestawy odniesień do dokumentów

Wynikowy zbiór źródeł informacji jest logicznie podzbiorem widoków, utworzonym na podstawie reguł odwzorowania zastosowanych do zapytania formalnego przez indeks przeszukiwalny.

Zazwyczaj, ale niekoniecznie, istnieje oddzielny proces sortowania dla wyszukanego zestawu informacji. Internetowe katalogi biblioteczne zazwyczaj przed wyświetleniem zmieniają kolejność otrzymanych zbiorów alfabetycznie według autora. W systemach wyszukiwania informacji, które tworzą rygorystyczny ranking, porządek rangowy poprzedza wszelkie zmiany kolejności.

Analiza danych

Strumienie wyjściowe

Wynik wyszukiwania jest tradycyjnie wyświetlany, częściej jako strumień obiektów do wykorzystania w innym miejscu lub w innym celu, kończąc główny cykl wyszukiwania.Przepływy te mogą być kierowane do urządzeń wizualizacyjnych, przechowywane do dalszego przetwarzania lub wykorzystywane jako dane wejściowe do innych usług selekcji.

Systemy wyszukiwania informacji umożliwiają uzyskanie informacji zwrotnej z każdego procesu selekcji. Wyjście dowolnego procesu może stanowić informację zwrotną od innych procesów. Informacja zwrotna może zapewnić podstawa Ocena ekspercka na każdym etapie.

Artykuły na ten temat