ARTIQ

Instytut Immunologii i Terapii Doświadczalnej Polskiej Akademii Nauk od kilkunastu lat inwestuje w infrastrukturę informatyczną, uwzględniając centrum obliczeniowe. Ukoronowaniem tych wysiłków było powołanie w 2019 roku Laboratorium Genomiki i Bioinformatyki, którego zadaniem jest opracowywanie rozwiązań analiz bioinformatycznych w oparciu o algorytmy sztucznej inteligencji (AI) oraz uczenia maszynwego (ML). W Instytucie znajduje się sprzęt do analiz omicznch (sekwenatory materiału genetycznego, mikroskopy elektronowe, NMR, spektrometry mas, systemy do proteomiki), który jest wykorzystywany do zdobywania danych niezbędnych do wieloczynnikowych analiz.

Obecnie w Instytucie planowany jest projekt dotyczący wykorzystania algorytmów sztucznej inteligecji do pełnej charakterystyki patogenów. Planowane jest parcie się o analizę danych omicznych. Wykorzystując wysokoprzepustowe sekwenatory jest możliwe uzyskanie pełnej mapy genomowej oraz transkryptomowej. Korzystając z MALDI TOF uzyskujemy dane związane z proteomiką. Natomiast technika mikroskopii elektronowej cryo oraz NMR umożliwiają analizę powstających struktur zarówno białkowych jak i cukrowych.

Dzięki wysokoprzepustowemu sekwencjonowaniu możemy uzyskać pełną sekwencję genomu danego patogenu. Wykorzystując algorytmy klasyfikacji możemy wyznaczyć stopień podobieństwa między sekwencjami kodu genetycznego badanego mikroorganizmu a sekwencjami referencyjnymi genów. Dzięki takiej analizie możemy scharakteryzować patogen pod względem obecności genów kodujących różnego typu metabolity. Dzięki takiej informacji jest możliwa charakterystyka molekularna patogenu pod względem obecności substancji warunkujących oporność na antybiotyki czy będących toksynami. Należy podkreślić, że dzięki zastosowaniu algorytmów klastryfikacji oraz analizie skupień mamy możliwość identyfikacji sekwencji o nieznanych wcześniej właściwościach.

Spektroskopia NMR dostarcza podstawowych danych strukturalnych o budowie makrocząsteczek biologicznych na poziomie atomowym. Dane te mają charakter ilościowy, uzyskiwane są w sposób powtarzalny i nieniszczący oraz są bogate w informacje na temat złożoności struktury analizowanych cząsteczek, uzyskiwane jako duże zbiory danych. Widma NMR stanowią unikatowe profile (“fingerprints”), które umożliwiają porównywanie, rozróżnianie i klasyfikację szczepów bakteryjnych na podstawie różnic w strukturach glikanów. Dane uzyskiwane z jedno i wielowymiarowych eksperymentów NMR pozwalają na wykorzystanie do tego celu matematycznych metod grupowania zbiorów (pattern recogniton) oraz analizy multiwariacyjnej (PCA). Metody te w znacznym stopniu pokrywają się z rozwijanymi obecnie technikami wykorzystującymi sieci neuronowe. Rozszerzenie zakresu tych technik o analizy wykorzystujące algorytmy AI (machine learning, deep learning) w przetwarzaniu danych NMR tworzy punkt wyjścia do opracowania metod oraz zautomatyzowanych procedur weryfikacji i przewidywania struktur w korelacji z rzeczywistymi i uzyskiwanymi w symulacjach zbiorami danych NMR. W przypadku glikanów bakteryjnych techniki AI mogą znaleźć zastosowanie w (1) klasyfikacji (chemotypowaniu) i automatycznym rozpoznawaniu elementów strukturalnych glikanów bakteryjnych oraz (2) w rekonstrukcji widm NMR na podstawie ograniczonej liczby danych (np. uzyskiwanych techniką NUS, non-uniform sampling) zwiększając efektywność pomiarów i optymalizując czas wykorzystania spektroskopów NMR.

Dzięki zastosowaniu algorytmów sztucznej inteligencji możemy połączyć opisane wyżej obszary analityczne i stworzyć ogólny model molekularny patogenów.