Spotkanie MLGdańsk #94 odbyło się online 19 października 2020 r.
Prelegentem był Tomasz Stokowy (https://www.uib.no/en/persons/Tomasz.Stokowy), pracujący na Uniwersytecie w Bergen.
Temat przedstawionej prelekcji to „Application of deep learning in medical genetics and cancer diagnostics”.
Tomasz rozpoczął prelekcję od wprowadzenia w zagadnienia związane z biologią i genetyką – znaczenie DNA, sposoby odczytywania DNA, postęp w technologii sekwencjonowania genomu ludzkiego. Dla zobrazowania tego postępu, warto przytoczyć fakt, że około 2000 roku koszt zsekwencjonowania ludzkiego genomu wynosił kilkaset milionów dolarów, obecnie wynosi niecałe tysiąc dolarów.
Innym ciekawym faktem, który mówi dużo o złożoności problemy analizy DNA jest to, że jeśli zbadamy DNA dwóch różnych osób, to różnice w sekwencji będą stanowiły zaledwie 0.1% całości genomu. A jeśli porównamy DNA człowieka i szympansa, to różnice zauważymy w zaledwie 1%. DNA człowieka jest sekwencją składającym się z 3 miliardów pozycji, które mogą przyjąć jedną z 4 wartości. Jest to rozmiar tak duży, że praca z takim materiałem jest bardzo trudna bez technik analizy danych.
W swojej prezentacji prelegent zaprezentował typy zmian, które mogą zachodzić w DNA oraz choroby jakie mogą powodować. Zmiana zaledwie jednej pozycji DNA może być przyczyną choroby. Wiele takich zmian w nieodpowiednich miejscach może prowadzić do nowotworów. Czynnikami, które mogą powodować takie zmiany (a co za tym idzie powodować większe ryzyko wystąpienia nowotworu) są m.in.: wiek, palenie papierosów, ekspozycja na promieniowanie UV czy czynniki dziedziczne.
W trakcie prezentacji, przedstawione zostały zadania, w których uczenie maszynowe może ułatwić pracę osób, zajmujących się genetyką. Takie zadania to np. wykrywanie pojedynczej zmiany w kodzie genetycznym oraz wykrywanie charakterystycznych wzorców wielu zmian.
Przedstawiona została metoda Deep Variant, oparta o głębokie sieci neuronowe umożliwiająca identyfikację pojedynczej zmiany w genomie. W tej metodzie zadanie analizy genomu przekształcone jest do zadania analizy obrazu. Dzięki temu z powodzeniem można zastosować konwolucyjne sieci neuronowe. Dodatkowo oprócz samego genomu, metoda umożliwia dostarczenie dodatkowych cech, np. danych mówiących o jakości odczytu. Metoda Deep Variant zapewnia dokładniejsze wyniki niż inne stosowane rozwiązania.
Na koniec prezentacji Tomasz przedstawił swoje prace dotyczące wykrywania rzadkich chorób genetycznych. Prezentacja wywołała żywą dyskusję, w której poruszono tematy rynku biotechnologicznego w Polsce i na świecie, możliwości finansowania projektów, dostęp do danych, oraz możliwości stosowania technik uczenia maszynowego w biologii.
Jak widać, spotkanie oprócz poznania technicznych aspektów związanych z pracą prelegenta, było również interesującą lekcją „biologii stosowanej”.
Prezentacja ze spotkania dostępna po tym linkiem.
Dodatkowe materiały:
https://ai.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html
https://github.com/google/deepvariant
https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost