Русский
военный
корабль

Google SMITH: новий алгоритм Google для обробки довгого тексту

Google SMITH – що за алгоритм

SMITH розшифровується як Siamese Multi-depth Transformer-based Hierarchical Encoder . Це новий алгоритм Google для обробки довгих текстів на довгі запити. За якістю відповіді SMITH перевищує BERT. Головна перевага нового алгоритму в тому, що він здатний визначати значення фрагментів тексту. BERT визначає значення окремих лексем у контексті речень.

У науковій статті Google вказує, що:

The experimental results on several benchmark datasets show that our proposed SMITH model outperforms previous state-of-the-art Siamese matching models including HAN, SMASH and BERT for long-form document matching. Moreover, our proposed model increases the maximum input text length from 512 to 2048 when compared with BERT-based baseline methods.

Переклад:

Результати тестів на вибірках показують, що запропонований нами SMITH перевершує попередні моделі обробки довгого тексту, включаючи HAN, SMASH та BERT. Більш того, нова модель дозволяє збільшити довжину вступного тексту з 512 до 2048 порівняно з BERT.

На даний момент немає офіційних підтверджень Google, що новий алгоритм застосовується для обробки пошукових запитів.

Чим відрізняється SMITH та BERT

Google SMITH: новий алгоритм Google для обробки довгого тексту, Фото № 1 - google-seo.pro

Різниця обсягом робочої одиниці, і навіть у моделях навчання алгоритмів. Для BERT модель навчання передбачала прогноз прихованих у реченні слів. SMITH навчався прогнозувати як приховані слова у реченнях та смислових блоках, так і наступний фрагмент тексту.

Для навчання SMITH було створено вибірку рекомендованих документів з Вікіпедії та ACL Anthology Network.

Як працює Google SMITH

Алгоритм передбачає дворівневу обробку тексту. На першому рівні він розбиває текст на блоки, у яких може бути від однієї до кількох пропозицій. Потім визначає відповідність пошукового запиту кожному з блоків.

На другому рівні обробляється послідовність блоків та наявність відповідності запиту у всьому документі.

На рівні пропозицій алгоритм визначає взаємодію “запит – відповідність” у межах блоку. На другому рівні – взаємодія  “запит – відповідність” у межах тексту для встановлення віддалених залежностей.

Щоб розбити текст на фрагменти, SMITH використовує “greedy sentence filling” – метод, який один блок поміщає природні пропозиції до точки. Алгоритм формує блоки певної довжини. Пропозиції не розриваються між блоками. Якщо пропозиція не міститься в поточному блокі, вона переноситься в наступний.

Google SMITH: новий алгоритм Google для обробки довгого тексту, Фото № 2 - google-seo.pro

Якщо одна пропозиція перевищує довжину блоку, алгоритм скорочує його так, щоб воно вмістилося в один блок.

Кожен документ D на вході трансформується на послідовність блоків речень {S1,S2,…,SLd}, а кожен блок S представлений послідовністю слів {Wi1,Wi2,…,WiLs}.

  • Ld - Довжина документа за кількістю блоків;
  • Ls - Довжина блоку за кількістю слів.

Після чого проводиться визначення відповідності запиту на рівні речень, блоків та всього тексту. Враховується кількість входжень та позиція входження у кожному аналізованому фрагменті (пропозиція, блок, текст). На рівні обробки блоку враховується позиція входження у реченні та позиція пропозиції в блоці.

Google SMITH: новий алгоритм Google для обробки довгого тексту, Фото № 3 - google-seo.pro

Висновок

Алгоритм Google SMITH навчається аналізувати текст на рівнях речень, блоків (фрагментів) та цілого тексту.

На даний момент немає жодних заяв Google про застосування даного алгоритму для обробки пошукових запитів та формування видачі.

З огляду на суть алгоритму (порівняння довгих запитів у довгих текстах), він, найімовірніше, торкнеться невелику частину пошукових запитів користувачів.

Також є ймовірність того, що Google у такий спосіб готується до майбутньої трансформації пошукових запитів. Вже зараз запити користувачів стають більш природними, розмовними та розгорнутими.

Одне з можливих застосувань алгоритму - підвищення якості рекомендованого тематичного контенту, виходячи з того, що вже переглядав користувач.


Отправлять комментарии могут только пользователи сайта с подтвержденным Email.

Войти