Za nami 4. edycja największego wydarzenia Data Science w Polsce. Choć w tym roku Data Science Summit odbywało się wyłącznie online, nie mogło nas tam zabraknąć.

Dziedzina data science jest różnorodna i tak samo zróżnicowane były tematy podejmowane przez prelegentów. Oscylowały one od tych czysto technicznych (np. budowanie modeli), przez rozwiązywanie problemów z danymi aż po opis samych badań.

Ze szczególnym zainteresowaniem przysłuchiwaliśmy się jednak wystąpieniom, które poświęcone były łączeniu świata reklamy i marketingu z rozwiązaniami z zakresu sztucznej inteligencji. Chcemy dziś podzielić się z Wami naszymi wrażeniami z niektórych z nich.

Trendy w reklamie i marketingu z wykorzystaniem AI

Predykcja cen minimalnych aukcji reklam internetowych: integracja heurystycznych rozwiązań Data Science w branży ad-tech, Karol Kulasiński i Łukasz Sidor (Yieldbird)

Wydatki na reklamę cyfrową przewyższają obecnie łączną sumę wydatków na reklamę w analogowy (tv, media papierowe itp). Optymalizacja kwot wymaga jednak udziału AI ze względu na bardzo złożony proces sprzedaży reklamy w trybie RTB. 

W prezentacji poruszone zostały również pozostałe aspekty przemawiające za wykorzystaniem algorytmów sztucznej inteligencji, takie jak brak standaryzacja platform sprzedażowych aukcji, automatyzacja czynników wpływających na cenę czy też generowanie danych w czasie rzeczywistym. 

Prezentacja została oparta o case study firmy Yieldbird, która w ramach grantu NCBiR badała rozkład aukcji zakupowych (bids) oraz zmienne oddziałujące na wskaźnik optymalizacji RPM (stosunek zarobku reklamy do ruchu na danej stronie). Omówiony został cały proces researchu oraz budowy skalowalnej architektury rozwiązania udostępnionego potencjalnym klientom. Problemy, jakie towarzyszyły temu projektowi to przede wszystkim wolumen danych o bardzo dużej wariancji i ich agregacja wpływająca na koszt operacji. Kolejnym problemem był benchmark opracowanych modeli oraz optymalna stawka kreacji w udziale w akcji (bid shading). 

Prezentacja była dla nas szczególnie ciekawa, ponieważ nie tylko jesteśmy w trakcie prac nad własnym grantem, ale także nad narzędziem, które wykorzystuje dane z Facebook Marketing API i wspomaga raportowanie kampanii reklamowych. 

Predykcja efektywności działań marketingowych w serwisie Facebook
Rafał Wojdan, Lidia Kołakowska, Dominika Sagan, Tomasz Bocheński (Sotrender)

O tym, że serwis Facebook dla wielu osób stanowi źródło rozrywki i komunikacji wie już każdy. Jednak nie każdy wie, że ze względu na swoją popularność jest on coraz częściej wykorzystywany przez firmy do prowadzenia działań marketingowych. Jednym z kluczowych aspektów staje się optymalizowanie publikowanych reklam w taki sposób, aby spełniały one stawiane przed nimi cele. Pierwszym krokiem w tym kierunku jest predykcja efektywności/popularności reklam. 

Data Scientists z Sotrendera opowiadają w swojej prezentacji:

  • Jak zagadnienie badania efektywności działań marketingowych zaadresowaliśmy w Sotrenderze? 
  • Jak wygląda struktura Facebook Marketing API oraz w jaki sposób pozyskujemy dzięki niemu dane? 
  • Dlaczego zdefiniowanie zmiennej celu jest problematyczne? 
  • Jak stworzyć model, który działa w oparciu o dane tekstowe, obrazowe oraz parametry konfiguracyjne reklamy, oraz w jaki sposób można interpretować działanie tego modelu?

Explainability of uplift models in optimized marketing campaigns
Paulina Tomaszewska (PW), Jan Ludziejewski (UW), Andżelika Zalewska (PW)

Jak wiadomo w różny sposób można optymalizować reklamy i odbiorców, do których je kierujemy. Jednym ze sposobów są “uplift models”. Stworzony model przewiduje dla każdego użytkownika, co by się stało w dwóch przypadkach: 

  1. Użytkownik dostaje reklamę
  2. Użytkownik nie dostał reklamy

Różnica obu wyników definiuje, czy reklama wpływa na chęć kupna produktu przez użytkownika. 

XAI został użyty do zbadania czy modelowi możemy zaufać – czyli w jaki sposób dokonuje wyboru. Za pomocą wartości SHAP (model miał strukturę “drzewa” i użyty algorytm to treeSHAP) wyjaśnione zostały reguły jakimi kierował się model. Porównano kilka metod generalizujący wyniki SHAP – Variable importance, Dependance Plots. Na podstawie wyników zaproponowano kilka reguł, jakimi można się kierować np: gdy ktoś kupował produkty z kolekcji męskiej i damskiej to lepiej mu przedstawić reklamę kolekcji damskiej.

Personalize ads using psychology: case study, Adam Witkowski (MIM Solutions)

Autor w swojej prezentacji porusza temat zautomatyzowanych reklam oraz estymacji osobowości grupy użytkowników oraz prawdopodobieństwa z jakim klikną w daną reklamę, na podstawie osobowości. Zbiór danych na którym został zbudowany model pochodził z danych na temat reklam na urządzeniach mobilnych. 

W tym przypadku zastosowano algorytm LightGBM, który został wytrenowany w Pythonie. Model natomiast został zdeployowany w Go, gdzie głównie zdecydował tu aspekt wydajności i przewagi w szybkości nad Pythonem. Do monitorowania eksperymentów wykorzystano narzędzie MlFlow, które również wykorzystujemy w naszej pracy w Sotrenderze. Omówione zostały podstawowe cechy użyte w modelu oraz ograniczenia w wykorzystaniu pewnych cech do modelowania, wynikających z polityki Googla. Użytkowników sklasyfikowano wg. pięcioczynnikowego modelu osobowości. Wyróżniającym aspektem projektu jest zdecydowanie fakt, że poza data scientistami pracowali nad nim badacze z dziedziny psychologi, wnoszący dogłębną wiedzę ekspercka. 

Tematyka prezentacji, choć bardzo interesująca, naszym zdaniem, mogła być przedstawiona w jeszcze bardziej dogłębny sposób. 

Rozpoznawanie treści obrazków na kreacjach reklam na Facebooku z wykorzystaniem Google Vision API w R
Maciej Baranowski (Sotrender)

Modele do rozpoznawania obrazów i wykrywania tekstów i widocznych na nich obiektach rozwijają się od dłuższego czasu. Jednak z różnych przyczyn ich dostępność oraz możliwości skorzystania mogą być ograniczone ze względu na koszty użycia, czy brak danych treningowych). Z pomocą przychodzą wówczas istniejące już narzędzia – jak na przykład Google Vision API. 

W swoim wystąpieniu Maciek opowiadał, jak w łatwy i szybki sposób można przeanalizować setki obrazów. Dotyczy to na przykład obrazów używanych w postach na Facebooku – obrazów, które zawierają w sobie często więcej treści niż sam opis reklamy. Dane pozyskiwane były z biblioteki reklam Facebooka

Jeśli interesuje Was to zagadnienie, zachęcamy do zapoznania się z pełną prezentacją.

The use of look-alike profiles and attribution modeling to optimize marketing campaigns, i.e. BigData and ML in the automotive industry, Ewelina Zaborowska i Bogdan Koroluk (Havas Media Group)

Ścieżek zakupowych i punktów kontaktu z klientem jest bardzo dużo, co stanowi pierwsze wyzwanie na drodze optymalizacji kampanii marketingowych. Do agregacji i integracji zaproponowano rozwiązanie oparte o ID Graph.

Do modelowania look-alike wykorzystano 60 dni historii interakcji użytkownika z kanałami i punktami styku. W oparciu o te dane model deep learning określał podobieństwo użytkowników. Problem atrybucji został rozwiązany za pomocą modelu klasyfikacji przewidującego czy dana ścieżka zakończy się konwersją czy nie. Wybrano model lasów losowych, a dane treningowe zostały zbudowane w oparciu o informacje z cookies. Najistotniejsze było przewidywanie ścieżek, które nie konwertują. Na bazie wyników modeli określono ROI dla każdego kanału.

Do prześledzenia ścieżek konwersji zastosowano łańcuchy Markova (Markov chains), który pozwala na określenie prawdopodobieństwa przejścia klienta pomiędzy punktami kontaktu (touchpoints) i kanałami (media channels) aż do konwersji.

Przykładowo, jeśli użytkownik zaczął swoją ścieżkę od kliknięcie w Paid Search to z prawdopodobieństwem 38% zakończy swoją ścieżkę konwersją, prawdopodobieństwem 20% kliknie w kampanię remarketingową i 1% kliknie w display.

Podsumowując, choć przedstawione rozwiązania i modele należą do powszechnie znanych, fajnie byłoby wysłuchać większej liczby praktycznych informacji na temat analizowanych problemów.

Inne ciekawe tematy poruszane na Data Science Summit

Choć naszą uwagę skupiliśmy głównie na tematach marketingowo-reklamowych, co jest oczywiste z perspektywy naszych codziennych działań, również kilka innych prezentacji zwróciło naszą uwagę podczas konferencji. 

Jak przewidywać chęć kontaktu z rekruterem? Rafał Prońko (CVTimeline)

Podczas prezentacji przedstawione zostały wyniki oraz przebieg prac nad projektem mającym na celu zwiększenie częstotliwości pozytywnej odpowiedzi na wiadomość rekrutera na portalu rekrutacyjnym. Okazuje się, że przy wykorzystaniu modeli uczenia maszynowego do predykcji skłonności kandydatów do zmiany pracy w danym czasie, a następnie ich selekcji na tej podstawie, można zwiększyć skuteczność kontaktu dwukrotnie (z 10 do 20%). Oszczędza to sporo czasu rekruterom, a w konsekwencji sporo pieniędzy firmom ich zatrudniających. 

Podejmując próbę refleksji nad możliwością wykorzystania podobnego modelu w Sotrenderze, można byłoby pokusić się o próbę stworzenia modelu zwiększającego szansę na skuteczną komunikację marketingową wobec potencjalnych kandydatów na nowych użytkowników (klientów) naszego narzędzia.    

Trenowanie i wdrażanie modeli modeli uczenia maszynowego z wykorzystaniem Google Cloud Platform
Maciej Pieńkosz (Sotrender)

Okej, mam już mój świetny model w Notebooku, co dalej? Większość kursów i źródeł dotyczących uczenia maszynowego dobrze przygotowuje nas do implementacji algorytmów uczenia maszynowego i budowy modeli. Jednak w większości przypadków model jest jedynie małym fragmentem większego systemu, a jego wdrożenie i utrzymywanie okazuje się procesem czasochłonnym i generującym rozmaite błędy. Problem potęguje się, kiedy mamy do sproduktyzowania nie jeden, a więcej modeli. Choć powstaje coraz więcej narzędzi i platform do usprawnienia tego procesu, jest to zagadnienie któremu wciąż poświęca się stosunkowo mało uwagi. 

Maciek w swojej prezentacji opowiada, jakich podejść, dobrych praktyk oraz narzędzi i usług Google Cloud Platform używamy w Sotrenderze do efektywnego trenowania i produktyzacji naszych modeli ML, służących do analizy danych z mediów społecznościowych. Dodatkowo omawia, na które aspekty DevOps zwracamy uwagę w kontekście wytwarzania produktów opartych o modele ML (MLOps) i jak z wykorzystaniem Google Cloud Platform można je w łatwy sposób wdrożyć w swoim startupie lub firmie.

Wiek nie estymuje się temu dziecku. Jak stworzyć estymator wieku za pomocą YouTuba
Natalia Ziemba Jankowska (Linux Polska)

Niezwykle ciekawa prezentacja, w której przedstawioną potrzebą biznesową było zbudowanie modelu do rozpoznawania wieku użytkowników samoobsługowych automatów do gier. 

Okazało się, że nawet najbardziej obiecujące modele świetnie radziły sobie z rozpoznawaniem wieku osób dorosłych, ale nie radziły sobie z wiekiem dzieci.

Dlaczego? Publiczne, dostępne i wybrane modele były budowane w oparciu o zdjęcia umieszczone w bazie filmów IMDb – zbiór danych przygotowany na celebrytach. Jednak w materiale źródłowym nie było zdjęć dzieci, więc model nie miał na czym się uczyć.

Zauważono jednak, że model powinien tylko wspominać, czy ktoś jest powyżej 18 r. ż. czy poniżej – nie było konieczne dokładne rozpoznawanie wieku. Jednakże początkowo konieczne było zebranie danych, aby model mógł się nauczyć działania. Postanowiono sięgnąć po YouTube i z filmów umieszczonych w tym serwisie wycinać twarze osób, aby następnie z tych wycinków model mógł się uczyć estymowania wieku i przypisywania osób do odpowiedniej kategorii wiekowej. W badaniu grupy wiekowe zostały podzielone na dzieci, przedszkolaki, uczniów podstawówki, uczniów liceum, studentów i dorosłych. 

Okazało się jednak, że znalezienie odpowiedniego materiału – to wyczyn kreatywny. 

 

O Autorze

Klaudia Żyłka

Marketing Specialist

Instagram, dogs, books and food lover. Former student at Warsaw University and Malmö University. Improving her marketing skills every day. Proud owner of DIMAQ certificate