Sieci bayesowskie: definicja, przykłady i zasady działania

Przekonanie, sieć decyzyjna, model Bayesa (ian) lub model grafu acyklicznego zorientowanego na prawdopodobieństwo to schemat wariacyjny (rodzaj modelu statystycznego), który reprezentuje zbiór zmiennych i ich warunkowe zależności poprzez skierowany graf acykliczny (DAG).

Na przykład sieć bayesowska może reprezentować związki prawdopodobieństwa między chorobami i objawami. Biorąc pod uwagę te ostatnie, sieć może być wykorzystana do obliczenia możliwości wystąpienia różnych chorób. W poniższym filmie można zobaczyć przykład bayesowskiej sieci zaufania z obliczeniami.

Wydajność

Wydajne algorytmy mogą wykonywać wnioskowanie i uczenie się w sieciach bayesowskich. Sieci, które modelują zmienne (takie jak sygnały mowy lub sekwencje białek) nazywane są dynamicznymi. Uogólnienia sieci bayesowskich, które mogą reprezentować i rozwiązywać problemy w warunkach niepewności, nazywane są diagramami wpływu.

Wniosek jest taki

Formalnie sieci bayesowskie to grupy dostępności bazy danych, których węzły reprezentują zmienne w sensie bayesowskim: mogą to być obserwowalne, ukryte zmienne, nieznane parametry lub hipotezy. Dlatego jest to bardzo interesujące.

Przykład sieci bayesowskiej

Dwa zdarzenia mogą spowodować zamoczenie trawy: aktywny zraszacz lub deszcz. Deszcz ma bezpośredni wpływ na wykorzystanie zraszaczy (mianowicie, gdy pada deszcz, zraszacze są zazwyczaj nieaktywne). Taką sytuację można zamodelować za pomocą sieci bayesowskiej.

Typowa formuła

Modelowanie

Ponieważ sieć Bayesa jest kompletnym modelem dla swoich zmiennych i ich relacji, może być wykorzystana do odpowiedzi na probabilistyczne zapytania o nie. Na przykład może być wykorzystana do aktualizacji wiedzy o stanie podzbioru zmiennych, gdy obserwowane są inne dane (zmienne dowodowe). Ten interesujący proces nazywany jest wnioskowaniem probabilistycznym.

A posteriori daje uniwersalnie wystarczające statystyki dla zastosowań detekcyjnych w wyborze wartości dla podzbioru zmiennych. Tak więc algorytm ten można uznać za mechanizm automatycznego stosowania twierdzenia Bayesa do złożonych problemów. Na zdjęciach w artykule można zobaczyć przykłady bayesowskich sieci zaufania.

Praktyczna sieć bayesowska

Metody wnioskowania

Najczęściej stosowanymi metodami wnioskowania dokładnego są: wykluczanie zmiennych, które eliminuje (przez całkowanie lub sumowanie) nieobserwowalne parametry nieistotne dla zapytania po kolei, rozkładając sumę na iloczyn.

Proliferacja "drzewo" kliknięcie, które buforuje obliczenia tak, że wiele zmiennych może być zapytanych na raz, a nowe dowody mogą być szybko propagowane; i rekurencyjne dopasowanie i/lub wyszukiwanie, które pozwala na kompromis między przestrzenią i czasem i dopasowuje wydajność wykluczania zmiennych, gdy wystarczająco dużo miejsca jest używane.

Wszystkie te metody mają określoną złożoność, która zależy wykładniczo od długości sieci. Najczęstsze z nich to algorytmy wnioskowania przybliżonego to metody takie jak eliminacja mini segmentów, cykliczna propagacja przekonań, uogólniona propagacja tych ostatnich oraz metody wariacyjne.

Rodzaje sieci

Praca z sieciami

Aby w pełni określić sieć bayesowską, a więc w pełni przedstawić wspólny rozkład prawdopodobieństwa, należy dla każdego węzła X określić rozkład prawdopodobieństwa dla X ze względu na rodziców X.

Rozkład X w zależności od jego rodziców może mieć dowolną postać. Często pracuje się z rozkładami dyskretnymi lub gaussowskimi, ponieważ upraszcza to obliczenia. Czasami znane są tylko ograniczenia dotyczące rozkładu. Entropia może być następnie użyta do określenia pojedynczego rozkładu, który ma największą entropię, biorąc pod uwagę ograniczenia.

Podobnie, w szczególnym kontekście dynamicznej sieci bayesowskiej, rozkład warunkowy dla ewolucji czasowej stanu ukrytego jest zwykle podany w celu maksymalizacji współczynnika entropii implikowanego procesu losowego.

Bayesowska sieć zaufania

Bezpośrednia maksymalizacja prawdopodobieństwa (lub prawdopodobieństwa a posteriori) jest często trudna ze względu na obecność nieobserwowanych zmiennych. Jest to szczególnie charakterystyczne dla sieci bayesowskiej parametry decyzyjne.

Podejście klasyczne

Klasycznym podejściem do tego problemu jest algorytm maksymalizacji oczekiwań, w którym na przemian oblicza się wartości oczekiwane nieobserwowanych zmiennych, które zależą od obserwowanych danych, i maksymalizuje się pełne prawdopodobieństwo (lub wartość potomną) przy założeniu, że obliczone wcześniej wartości oczekiwane są prawidłowe. Przy umiarkowanej prawidłowości proces ten jest zbieżny do maksymalnych (lub maksymalnych a posteriori) wartości.

Pełniejsze bayesowskie podejście do parametrów polega na potraktowaniu ich jako dodatkowych nieobserwowanych zmiennych i obliczeniu pełnego rozkładu potomnego dla wszystkich węzłów z obserwowanymi danymi, a następnie zintegrowaniu parametrów. Takie podejście może być kosztowne i prowadzić do powstania dużych modeli, co sprawia, że klasyczne podejścia do strojenia parametrów są bardziej dostępne.

W najprostszym przypadku sieć bayesowska jest definiowana przez eksperta, a następnie wykorzystywana do wnioskowania. W innych zastosowaniach zadanie wykrywania jest zbyt złożone dla człowieka. W tym przypadku struktura neuronowej sieci bayesowskiej oraz parametry rozkładów lokalnych muszą być wyuczone wśród danych.

Sieci bayesowskie

Metoda alternatywna

Alternatywna metoda uczenia się strukturalnego wykorzystuje wyszukiwanie optymalizacyjne. Wymaga to funkcji oceny i strategii wyszukiwania. Powszechnie stosowanym algorytmem estymacji jest prawdopodobieństwo potomne struktury przy danych treningowych, np. BIC lub BDeu.

Czas potrzebny do wyczerpującego wyszukiwania, które zwraca strukturę maksymalizującą estymację, jest superexponential w liczbie zmiennych. Strategia wyszukiwania lokalnego wprowadza przyrostowe zmiany w celu poprawy estymacji struktury. Friedman i współpracownicy rozważali wykorzystanie wzajemnej informacji między zmiennymi w celu znalezienia odpowiedniej struktury. Ograniczają zbiór kandydatów na rodziców do k węzłów i wykonują na nich dokładne wyszukiwanie.

Szczególnie szybką metodą precyzyjnego uczenia BN jest przedstawienie problemu jako problemu optymalizacyjnego i rozwiązanie go za pomocą programowania całkowitego. Ograniczenia acykliczne są dodawane do programu całkowitego (IP) podczas jego rozwiązywania w postaci płaszczyzn cięcia. Taka metoda może obsłużyć problemy z nawet 100 zmiennymi.

Grafy i sieci

Rozwiązywanie problemów

Dla rozwiązywanie problemów z tysiącami zmiennych, potrzebne jest inne podejście. Jednym z nich jest, tak, że po pierwsze wybrać jedno zamówienie, a następnie znaleźć optymalną strukturę BN w odniesieniu do tego zamówienia. Wiąże się to z pracą w przestrzeni poszukiwań możliwych uporządkowań, co jest wygodne, ponieważ jest mniejsze niż przestrzeń struktur sieciowych. Następnie wybiera się i ocenia kilka zamówień. Metoda ta okazała się najlepsza z dostępnych w literaturze, gdy liczba zmiennych jest ogromna.

Inną metodą jest skupienie się na podklasie modeli rozkładalnych, dla których MLE ma postać zamkniętą. Wtedy można znaleźć spójną strukturę dla setek zmiennych.

Badanie sieci bayesowskich o ograniczonej szerokości trzech linii jest konieczne, aby zapewnić dokładne, trakcyjne wnioskowanie, ponieważ złożoność tego ostatniego jest w najgorszym przypadku wykładnicza w długości drzewa k (zgodnie z hipotezą czasu wykładniczego). Jednak jako globalna własność grafu znacznie zwiększa złożoność procesu uczenia. W tym kontekście drzewo K może być wykorzystane do efektywnego uczenia się.

Krótka sieć

Rozwój

Tworzenie bayesowskiej sieci zaufania często rozpoczyna się od utworzenia DAG G, takiego, że X spełnia lokalną własność Markowa względem G. Czasami jest to przyczynowo-skutkowa DAG. Oszacowane warunkowe rozkłady prawdopodobieństwa każdej zmiennej według jej rodzica w G. W wielu przypadkach, zwłaszcza gdy zmienne są dyskretne, jeśli wspólny rozkład X jest iloczynem tych rozkładów warunkowych, to X staje się siecią bayesowską względem G.

Markovian "Kocówka węzła" - jest wiele węzłów. Kocówka Markowa uniezależnia węzeł od reszty w postaci węzła o tej samej nazwie i jest wystarczającą wiedzą do obliczenia jego rozkładu. X jest siecią bayesowską w odniesieniu do G, jeśli każdy węzeł jest warunkowo niezależny od wszystkich innych węzłów, biorąc pod uwagę jego koc Markowa.

Artykuły na ten temat