Mohol by Baidu ERNIE 3.0 konkurovať spoločnosti Google BERT?

Ak ste vy alebo vaše deti niekedy pozerali sezamová ulica, potom vás mená Bert a Ernie pravdepodobne nútia premýšľať o priateľstve a hlúpych piesňach, než o zúrivej rivalite. Ale v prípade BERT spoločnosti Google a ERNIE spoločnosti Baidu je rivalita nevyhnutná.

A s odhalením najnovšej verzie predtrénovaného jazykového modelu Baidu ERNIE 3.0 v júli 2021 je konkurencia teraz ostrejšia než kedykoľvek predtým.

Čo je Baidu ERNIE 3.0?

5. júla 2021 tím viac ako 20 výskumníkov z čínskeho vyhľadávača Baidu uverejnil príspevok volal ERNIE 3.0: Predškolenie s rozšírenými znalosťami pre jazykové porozumenie a generovanie.

Aj keď názov papiera nie je práve chytľavý, zistenia, ktoré odhaľuje, sú určite nezabudnuteľné. Ako vedci vysvetľujú, predtrénovaný jazykový model Baidu, ERNIE 3.0, oficiálne prekonal ľudský výkon v najťažšom benchmarkovom teste spracovania prirodzeného jazyka (NLP), ktorý je v súčasnosti dostupný.

Tento benchmarkový test sa nazýva SuperGLUE a hodnotí modely NLP tak, že im dáva sériu náročné úlohy porozumenia jazyku. Sú navrhnuté tak, aby otestovali zručnosti, ako je čítanie s porozumením, rozpoznávanie textových dôsledkov a identifikácia slov v kontexte:

Keď ľudia dokončia úlohy SuperGLUE, zvyčajne dostanú skóre 89,8 percenta. Ale keď ich dokončila anglická verzia ERNIE 3.0, získala skóre 90,6 percenta.

Jeho čínska verzia tiež prekonala najmodernejšie modely v 54 úlohách čínskeho NLP.

Čítať:  Prečo môžu menšie tímy SEO bojovať so SEO

Táto viacjazyčná znalosť je jednou z najpôsobivejších vlastností ERNIE 3.0. Výskumníci Baidu vynaložili veľké úsilie, aby zabezpečili takúto odbornosť, zostavili rozsiahle čínske textové korpusy s celkovou veľkosťou 4 TB, čím sa stali najväčšími svojho druhu.

Ako teda ERNIE 3.0 presne funguje? Aj keď je jeho štruktúra nepopierateľne zložitá, v záujme prehľadu na vysokej úrovni ju možno zredukovať na tri základné prvky:

  • Niekoľkonásobné učenie, tj vloženie malého množstva trénovacích údajov do modelu;
  • Učenie s nulovým výstrelom, tj vytvorenie modelu klasifikácie údajov na základe malých alebo žiadnych príkladov; a
  • jemné ladenie, tj vyladenie už vyškoleného modelu, aby sa jeho výkon ešte zlepšil.

Všetky tri prvky sú uľahčené tak rozsiahlymi textovými údajmi, ako aj znalostným grafom, ako je znázornené v diagrame výskumníkov rámca ERNIE 3.0:

Výsledkom tohto procesu je predtréningový model, ktorý dokáže správne porozumieť angličtine aj čínštine na vyšších úrovniach ako ľudia a navyše dokáže preložiť angličtinu do čínštiny s vysokou presnosťou.

Čo je BERT spoločnosti Google?

Príbeh BERT začína veľmi podobne ako príbeh ERNIE 3.0. 24. mája 2019 tím štyroch výskumníkov Google uverejnil príspevok s názvom BERT: Predškolenie hlbokých obojsmerných transformátorov na porozumenie jazyka.

Ako výskumníci odhalili, model BERT získal nové, najmodernejšie výsledky v jedenástich úlohách NLP, vrátane skóre GLUE 80,5 percenta (v tom čase GLUE benchmark ešte nebol zatienený náročnejším SuperGLUE).

Čítať:  AWS vs. Azure vs. Google: Ktorý z nich vás privedie do cloudu 9?

Podobne ako SuperGLUE, aj GLUE hodnotí NLP modely pomocou niekoľkých úloh určených na testovanie porozumenia jazyka:

Na rozdiel od troch základných tréningových prvkov ERNIE 3.0 má BERT dva:

  • predtréning, v ktorej je model trénovaný na neoznačených údajoch; a
  • jemné ladenie, v ktorej sa model ďalej trénuje pomocou označených údajov.

Fáza predtréningu sa dosiahne podávaním párov viet A a B bez označenia BERT, zatiaľ čo fáza jemného dolaďovania sa vykonáva podávaním párov otázok a odpovedí. Najlepšie to ilustruje vlastný diagram výskumníkov Google:

Na predtréningové údaje použil Google BookCorpus (zbierku nepublikovaných románov v anglickom jazyku, ktorá v tom čase obsahovala 800 miliónov slov) a anglickú Wikipédiu (ktorá v tom čase obsahovala 2,5 miliardy slov).

Ako taký bol BERT pôvodne aplikovaný iba na vyhľadávanie v angličtine. V decembri 2019 Google oznámil, že BERT zavádza do viac ako 70 jazykov na celom svete, aj keď nie je jasné, či bol model trénovaný na súboroch údajov v iných jazykoch alebo bol jednoducho aplikovaný na iné jazyky pomocou existujúcej technológie prekladu.

Predbehne ERNIE BERT?

S odhalením neuveriteľných schopností NLP ERNIE 3.0 sú porovnávania s BERT nevyhnutné. Aby ste však pochopili, či ERNIE bude BERT, musíte najprv pochopiť, ako sa Baidu a Google porovnávajú z hľadiska prostredia vyhľadávacích nástrojov.

Najdôležitejšie je, že Baidu je prevládajúcim vyhľadávacím nástrojom v Číne, zatiaľ čo Google má rovnaký status vo zvyšku sveta. V globálny trh vyhľadávacích nástrojovGoogle sa môže pochváliť podielom na trhu viac ako 90 percent. Ale v Čínsky trh vyhľadávacích nástrojovBaidu má podiel na trhu približne 80 percent:

Čítať:  Google hovorí, že indexovanie stránky môže trvať niekoľko hodín až niekoľko týždňov

A keďže populácia Číny hodiny sú takmer 1,5 ľudí od júla 2021 (to je viac ako 18 percent svetovej populácie), nemožno podceňovať silu Baidu.

Takže istým spôsobom dáva zmysel len to, že Baidu vytvoril NLP predtréningový model, ktorý konkuruje spoločnosti Google – spoločnosť má obrovské množstvo zdrojov a na svojej strane tím špičkových výskumníkov a inžinierov.

A vzhľadom na to, že Baidu sa primárne používa v krajine, kde menej ako jedno percento populácie hovorí po anglicky, čo je na ERNIE 3.0 skutočne pozoruhodné, je jeho schopnosť presne prekladať čínštinu do angličtiny a naopak.

Aby sme zhrnuli situáciu, Google sa nemusí obávať, že ERNIE 3.0 predbehne svoj algoritmus BERT, aspoň zatiaľ nie. Pokiaľ Google a Baidu zostanú na samostatných trhoch, nebude existovať žiadna priama konkurencia – len ten druh zvyšovania kvality na veľké vzdialenosti, ktorý už poznáme.

Ale ak by Google niekedy vstúpil na trh Baidu alebo naopak, obe spoločnosti sa budú musieť pripraviť na bitku modelov NLP.

Ako optimalizovať pre Baidu

Ak je vaša stránka zacielená na čínske publikum, optimalizácia pre Baidu je absolútne nevyhnutná. Vo svetle vydania ERNIE 3.0 je obzvlášť dôležité zabezpečiť, aby všetok obsah vašej stránky znel čo najprirodzenejšie.

Pre zvyšok vášho úsilia Baidu SEO vám môžu pomôcť naše tipy na optimalizáciu Baidu – tu sú niektoré z najdôležitejších:

  • Obstarajte si kvalitný preklad aby sa vaše správy zobrazovali nahlas a zreteľne.
  • Optimalizujte meta popis každej stránky pretože Baidu ho použije ako hodnotiaci signál.
  • Vyhnite sa JavaScriptu na maximalizáciu indexového prehľadávania vašich stránok.
  • Optimalizujte alternatívny text každého obrázka pretože sa použije na určenie poradia.
  • Vyhnite sa kontroverzným témam ktoré by mohli skryť vaše stránky podľa čínskych obmedzení obsahu online.
  • Umiestnite svoj najdôležitejší obsah na prvé miesto aby ste sa uistili, že prehľadávače Baidu to uvidia.
  • Hostite svoje stránky na lokálnych serveroch na zlepšenie času načítania vašej stránky.
  • Doplňte svoj profil spätných odkazov s odkazmi z renomovaných čínskych webových stránok.
Čítať:  Potenciálna aktualizácia Google, ktorá sa uskutoční 1. mája: Celý týždeň sa zobrazujú masívne rachoty

BERT a ERNIE sú krk a krk

Baidu môže byť na globálnej úrovni stále menšie ako Google, no svoje high-tech nástroje zdokonaľuje už viac ako 20 rokov a pôsobivé schopnosti ERNIE 3.0 sú toho dôkazom. A ako vyhľadávač číslo jeden najľudnatejšej krajiny sveta má určite dostatok skúseností s fungovaním vo veľkom meradle.

To znamená, že hoci Baidu ešte nemusí vstúpiť na západný trh, skutočnosť, že vytvorila model strojového učenia NLP tak pokročilý ako BERT, hovorí za veľa. Aby sme zistili, čo to znamená pre Google, musíme zostať naladení.

Obrazové kredity

Snímky obrazovky od autora / júl 2021
StatCounter / jún 2021

Nové Publikácie:

ODPORÚČANIE