AlleNoise – wielkoskalowy zbiór danych do klasyfikacji tekstu z naturalnie zaszumionymi etykietami

XVI spotkanie meetit.live | 13 listopada 2024

Tematyka wykładu

Szum w etykietach w dalszym ciągu stanowi wyzwanie w trenowaniu modeli klasyfikacyjnych. Aby pomóc w opracowywaniu nowych metod zmniejszających wpływ szumu ma trening, opublikowaliśmy AlleNoise – wielkoskalowy zbiór danych do klasyfikacji tekstu z naturalnie zaszumionymi etykietami.

W trakcie prezentacji opowiem o tym, jak przetestowaliśmy istniejące metody do treningu z szumem w etykietach i dlaczego są one nieodpowiednie do zastosowania w przypadku realistycznego, naturalnego szumu.

O prelegentce

Alicja Rączkowska – Senior Research Engineer w zespole Allegro Machine Learning Research, gdzie zajmuje się zastosowaniem i rozwojem metod NLP w dziedzinie e-commerce. Uzyskała doktorat na Uniwersytecie Warszawskim, w trakcie którego opracowywała nowe metody uczenia maszynowego w histopatologii cyfrowej.

O firmie

Allegro – to najpopularniejsza platforma zakupowa w Polsce i jedna z największych firm e-commerce w Europie. W każdym miesiącu serwis jest odwiedzany przez 22 milionów klientów, którzy mają do wyboru ponad 250 milionów ofert od ponad 133 tysięcy sprzedawców. Nad sprawnym działaniem całej platformy pracuje 7500+ pracowników w tym 1700+ inżynierów.

Strona internetowa: https://allegro.pl/