Co musisz wiedzieć
- Gmail zawiera teraz nowy wektoryzator tekstu o nazwie RETVec, który zapewnia o 38% lepsze wykrywanie spamu.
- Wektoryzatory tekstu pomagają identyfikować litery i symbole w wiadomościach e-mail i są odpowiednio sortowane jako spam.
- Niektórzy nadawcy spamu manipulują literami i symbolami, używają homoglifów, dodają niewidoczne znaki i stosują upychanie słów kluczowych, aby ominąć filtry spamu.
Wykrywanie spamu w Gmailu powinna ulec poprawie dzięki ulepszeniu zaplecza umożliwiającego identyfikację tekstu w niektórych usługach Google. Google twierdzi, że dzięki ulepszeniu zabezpieczeń Gmail jest teraz o 38% skuteczniejszy w wykrywaniu spamu.
Firma ogłosiła niedawno aktualizację w Google Security post na blogu (przez 9to5Google). Wcześniej przez ostatni rok był testowany wewnętrznie w Google. Stanowi to „największą modernizację systemów obronnych w ostatnich latach” – twierdzi firma.
Nowym dodatkiem do wykrywania spamu w Gmailu jest RETVec, co oznacza Resilient & Efficient Text Vectorizer. Wektoryzatory tekstu służą do identyfikacji zawartości wiadomości e-mail, która czasami jest ukryta przez nadawcę. Manipulowanie literami i symbolami, używanie homoglifów (różnych znaków, które wyglądają podobnie), dodawanie niewidocznych znaków i używanie upychania słów kluczowych w celu ominięcia filtrów spamu.
„RETVec osiąga te ulepszenia dzięki bardzo lekkiemu modelowi osadzania słów (~200 tys. parametrów)” – oznajmił Google w poście. „Pozwala nam zmniejszyć rozmiar modelu Transformer przy równej lub lepszej wydajności oraz umożliwia rozdzielenie obliczeń pomiędzy hostem i TPU w sposób efektywny pod względem sieci i pamięci”.
Największą zaletą RETVec jest to, że jest o 38% skuteczniejszy w wykrywaniu spamu, ale jest też wiele innych ulepszeń. Ta poprawa dokładności obejmuje zmniejszenie liczby wyników fałszywie pozytywnych o prawie 20% i liczby fałszywie negatywnych o prawie 18%. Fałszywie negatywne wyniki mają miejsce, gdy detektor spamu Gmaila nie odfiltruje spamu jako spamu, a fałszywe alarmy mają miejsce, gdy prawidłowe wiadomości e-mail są nieprawidłowo sortowane jako spam.
Ponieważ firmie Google udało się zmniejszyć rozmiar modelu Transformera, użycie RETVec obniżyło użycie jednostki przetwarzającej Tensor o 83%. To znacząca korzyść w zakresie wydajności wynikająca z zastosowania tego nowego wektoryzatora tekstu w Gmailu.
RETVec został opracowany przez Google Research i jest całkowicie open source. Po długich wewnętrznych testach Google firma stwierdziła, że jest on „wysoce skuteczny w aplikacjach zapewniających bezpieczeństwo i zapobiegających nadużyciom”.
Osoby chcące używać RETVec do własnych zastosowań mogą skorzystać z a instruktaż od Google, który wyjaśnia, jak zacząć.