Aktualności

Wywiad ze zwycięzcami hackathonu EESTech Challenge Gliwice

6 kwietnia na Politechnice Śląskiej ING Tech Poland wraz z EESTech Challenge Gliwice zorganizowało hackathon Big Data. Zadanie polegało na znalezieniu niepożądanych połączeń w logach proxy. W konkursie wzięło udział 10 drużyn, ale zwycięzca może być tylko jeden.

Zapraszamy do przeczytania wywiadu ze zwycięską drużyną. Opowiadają o swoim zainteresowaniu tematyką Big Data, obszarami, gdzie można ją zastosować i o projekcie, który wygrał hackathon.

ING Tech Poland: Skąd się wzięło zainteresowanie tematem Big Data? Czy pracujecie z tym na co dzień lub macie do czynienia z Big Data na studiach?

Szymon Kocot: Pierwszy kontakt z Big Data miałem około rok temu, gdy rozpocząłem pracę nad moim projektem inżynierskim. Analizuję w nim Big Data, ale bardziej pod kątem medycznym. Były to akurat obrazy powstałe z obrazowania NMR guza mózgu i wykorzystywałem metody deep-learning do segmentacji. Właśnie wtedy przestawiłem się z MATlaba na Pythona, ponieważ uznałem, że jest to lepsze narzędzie, możliwe do wykorzystania gdziekolwiek bez żadnych licencji, a do tego jest darmowe.

Urszula Mołdysz: U mnie to wynikało z kwestii potrzeby. Swoją pierwszą pracę magisterską też realizowałam w pewnym stopniu w zakresie Big Data, tylko musiałam ją ograniczyć do swoich potrzeb. W moim przypadku był to temat zawałów serca i analizowałam dane dotyczące zawałów. Trzeba do tego było zaprząc system rozmyty, który mógł przetworzyć mniejsze zbiory danych. Później w mojej pracy okazało się, że trzeba się tego bardziej nauczyć.

Tomasz Marzec: U mnie była to czysta ciekawość, właściwie chęć poznania czegoś nowego. Ten temat przewija się wszędzie i na pewno będzie wymagał ekspertów w tej dziedzinie.

ING Tech Poland: Czy znaliście się wcześniej jako grupa?

Ula: Tak, my z Szymonem studiujemy na tym samym wydziale.

Tomek: A ja dołączyłem. Koledzy i koleżanki z roku przestraszyli się Big Data i nie podjęli wyzwania, więc musiałem sobie znaleźć innych kompanów.

Szymon: Gdy pytałem znajomych czy chcieliby dołączyć do konkursu związanego z „Big Data”, to od razu słyszałem w odpowiedzi „Nie, nie, nie”. Nie wiem dlaczego.

ING Tech Poland: Czy zadanie postawione przed Wami na hackathonie oceniacie jako trudne czy łatwe?

Szymon: Powiedziałbym, że średnio trudne.

Ula: Brakowało trochę wskazówek od czego w ogóle zacząć. Próbowaliśmy wykorzystać metody machine learningowe, ale uznaliśmy po drodze, że to nie ma sensu.

Szymon: Machine learning danych bez zbioru treningowego, pełnego z etykietami, jest bardzo utrudniony. Trzeba znać te dane, nie można działać w ciemno. Można je poklastrować na grupy, ale różnie może wyjść – musisz wiedzieć, czego szukasz.

Tomek: Wszystko opierało się na wyłapywaniu incydentów, pojedynczych przypadków, które mogłyby dać jakieś wskazówki. Patrzyliśmy na raporty, na ilość przesyłanych bajtów i grupowaliśmy dane po różnych kategoriach.

ING Tech Poland: A co było łatwe? Szymon: Myślę, że łatwe i przyjemne było użycie Jupytera i Pythona w tym zadaniu. Przynajmniej według mnie.

ING Tech Poland: Łatwe dla osoby, która zna te technologie…

Ula: Ja już wcześniej miałam trochę do czynienia z Pythonem, ale nie w kontekście Big Data. Jest to dość prosty język - godzina wystarczyła, żeby nauczyć się pełnej składni i wiedzieć jak i do czego go zastosować.

ING Tech Poland: Opowiedzcie o rozwiązaniu, które zaproponowaliście – na czym ono polegało, co w nim było takiego, co spowodowało, że wygraliście?

Ula: Przede wszystkim był open-source. <śmiech>

Szymon: Wykorzystaliśmy w głównej mierze bibliotekę Pandas, która pozwoliła nam wczytać dane tabelaryczne i potem operować na nich. Był to dość duży plik CSV, powyżej jednego gigabajta, a rekordów było 17 milionów.

Tomek: Problem polegał przede wszystkim na przetwarzaniu tych danych. Najważniejszym krokiem było ograniczenie zbioru, musieliśmy dowiedzieć się, czego tak naprawdę szukamy, żeby zawęzić ten obszar.

Ula: W tak dużym zbiorze jest to trochę jak szukanie igły w stogu siana, natomiast gdy mamy to podzielone na te elementy, które by nas interesowały, cały proces automatycznie staje się prostszy.

ING Tech Poland: Co z perspektywy czasu można było usprawnić? Szymon: Działaliśmy w sumie na dwa fronty. Dwie osoby pracowały z bardziej eksperckim podejściem, wiedziały czego szukały.  Ja, z drugiej strony, muszę przyznać, że nigdy nie analizowałem połączeń danych, dlatego próbowałem wdrożyć metody machine-learningowe. Musiałem odinstalować Javę na klastrze Google’a i potem było w porządku – parę linijek i zadziałało. Próbowałem wykorzystać narzędzie H2O. Jest to bardziej zautomatyzowane narzędzie do machine-learningu, ale niestety był problem z K-means, które działają na całym zbiorze jednocześnie. Spowodowało to organicznie pamięci, był z tym mały problem.

ING Tech Poland: Jak oceniacie wsparcie ludzi z ING Tech Poland i współpracę w grupie?

Ula: Dużo pytaliśmy, żeby trochę rozwiać wątpliwości. Jeśli nie uzyskaliśmy odpowiedzi, to wiedzieliśmy, że jesteśmy na dobrym tropie, że to dobre podejście.

Szymon: Dużo rzeczy robiliśmy na wyczucie, bo nie mamy takiego doświadczenia.

Ula: Posługiwaliśmy się bardziej tym, co wiemy ze studiów, wiedzieliśmy mniej-więcej technicznie czego tam szukać.  Tomek nas wspomógł, jest informatykiem.

Tomek: Tak, studiuję na Politechnice informatykę. Poza studiami robię podobne rzeczy, więc troszkę się pobawiłem tymi narzędziami.

ING Tech Poland: Jaki temat byłby interesujący na kolejny hackathon?

Szymon: Dane medyczne. Big Data jest w medycynie wszędzie, w danych tabelarycznych, w mikromacierzach DNA, pomiarach z zakresu genetyki…

Ula: Może to być też obrazowanie, na przykład serca.

Szymon: Problem polega na tym, że dostęp do takich danych jest często ograniczony, bo należą one do prawdziwych osób. Po drugie jest ich mało, na przykład tylko 100 pacjentów. Dodatkowo te dane często bywają błędne. Tutaj dane były anonimowe, ale nie było w nich przekłamań.

Ula: Dane medyczne są o tyle wymagające, że trzeba mieć ich wiele, żeby udowodnić jakąś teorię. Te standardowe 30 wyników nie wystarczy do potwierdzania hipotezy, którą chcemy wprowadzić w szerszy świat medyczny.

Szymon: Zakładając, że da się zgromadzić większy zbiór danych medycznych, może to być naprawdę ciekawy temat i duże wyzwanie.

ING Tech Poland: Brzmi to naprawdę interesująco. Powodzenia w Serbii na międzynarodowym finale EESTech Challenge. Trzymamy za was mocno kciuki!

 

Zobaczcie zdjęcia z finału, który odbył sie w Nowym Sadzie, w Serbii

Powrót

Ważne: strona wykorzystuje pliki cookies.

Używamy informacji zapisanych w plikach cookies m.in. w celach statystycznych oraz w celu dopasowania serwisu do indywidualnych potrzeb użytkownika. W programie służącym do obsługi internetu możesz zmienić ustawienia dotyczące akceptowania plików cookies. Korzystanie ze strony bez zmiany ustawień dotyczących plików cookies oznacza, że będą one zapisane w pamięci urządzenia. Więcej informacji, wraz ze wskazówkami dotyczącymi zmiany ustawień, można znaleźć w Polityce cookies

Zamknij