V rámci niekoľkých oznámení z utorka 18. mája a včera 20. mája spoločnosť Google oznámila úplne nový základný komponent svojho vyhľadávacieho algoritmu s názvom MUM alebo Multitask Unified Model.
Aký význam má tento nový model?
Je to podobné ako BERT, ale tisíckrát výkonnejšie. Inými slovami, BERT je teraz zastaraný.
Pandu Nayak, člen spoločnosti Google a viceprezident pre vyhľadávanie, sa podrobnejšie venoval fungovaniu MUM.
Tento nový model má za cieľ dať zmysel viacerým dopytom súčasne. Táto syntéza informácií umožňuje MUM poskytovať odpovede na základe jej pochopenia viacerých otázok.
Cieľom spoločnosti Google s MUM je urobiť zo spoločnosti Google jednotné kontaktné miesto pre hľadanie odpovedí. V zásade je Google vaším digitálnym osobným asistentom na jednom mieste – všetko poháňa AI. Ich cieľom je udržať ľudí na Googli, namiesto toho, aby ich presmerovali na inú stránku, aby našli odpovede.
Pandu poznamenal, že vyhľadávacie nástroje nie sú dostatočne sofistikované na to, aby sa správali ako skutočný expert tým, že vám poskytnú alternatívne odpovede na základe jednej otázky.
Ilustroval nasledujúci príklad:
“Vezmite si tento scenár: Vyšli ste na Mt. Adams.” Teraz sa chcete na budúcu jeseň vydať na túru na horu Fuji a chcete vedieť, na čo sa pripraviť inak. Dnes by vám s tým mohol pomôcť Google, ale vyžadovalo by si to veľa premyslene premyslených vyhľadávaní – museli by ste hľadať nadmorskú výšku každého vrchu, priemernú teplotu na jeseň, náročnosť turistických chodníkov, správnu výbavu na použitie, a viac. Po niekoľkých vyhľadávaniach by ste nakoniec mohli získať odpoveď, ktorú potrebujete.
Ale ak ste hovorili s odborníkom na turistiku; mohli by ste položiť jednu otázku – „čo by som mal urobiť inak, aby som sa pripravil?“ Dostanete premyslenú odpoveď, ktorá zohľadní nuansy vašej úlohy a prevedie vás mnohými vecami, ktoré je potrebné zvážiť.“
V skutočnosti je pravdepodobné, že táto technológia dramaticky zmení správanie používateľov pri vyhľadávaní v nasledujúcich rokoch po jej vydaní.
Ako MUM funguje?
Aj keď Google presne nespomenul, aké problémy sa MUM pokúša vyriešiť, zdá sa, že je navrhnutý tak, aby pracoval na dlhých otázkach a mal by pomôcť vyriešiť niektoré nejednoznačnejšie vyhľadávacie dopyty.
Dlhé otázky sú v podstate veľké otázky, ktoré vyžadujú niekoľko menších otázok na nájdenie úplnej odpovede alebo riešenia problému.
Čo sa týka jednoduchých odpovedí, Google si už vedie celkom dobre. Vyžaduje si to však viacnásobné vyhľadávanie určitých tém, aby sa našli všetky informácie, ktoré sú potrebné na to, aby sa niekto mohol informovane rozhodnúť o niečom následnom.
Cieľom MUM je zbaviť sa tohto viacúrovňového procesu vyhľadávacích dopytov a nakoniec ušetriť prácu hľadajúcemu.
Google používa architektúru transformátora s MUM, podobne ako BERT. Google vysvetľuje nasledovné o tom, ako ich proces generovania textu pracuje v oblasti Long-Form Open Domain Question Answering a NLP:
„Hlavným ťahúňom modelov NLP je architektúra Transformer, v ktorej sa každý token v sekvencii stará o každý ďalší token v sekvencii, výsledkom čoho je model, ktorý sa kvadraticky mení s dĺžkou sekvencie. Model RT zavádza dynamický mechanizmus riedkej pozornosti založený na obsahu, ktorý znižuje zložitosť pozornosti v modeli Transformer z n2 na n1.5, kde n je dĺžka sekvencie, čo umožňuje škálovanie na dlhé sekvencie. To umožňuje každému slovu venovať sa iným relevantným slovám kdekoľvek v celom texte, na rozdiel od metód, ako je Transformer-XL, kde sa slovo môže venovať iba slovám v jeho bezprostrednej blízkosti.
Kľúčovým poznatkom práce RT je, že každý token obsluhujúci každý iný token je často nadbytočný a možno ho aproximovať kombináciou lokálnej a globálnej pozornosti. Miestna pozornosť umožňuje každému tokenu vybudovať lokálnu reprezentáciu v niekoľkých vrstvách modelu, kde každý token sa venuje miestnej štvrti, čo uľahčuje miestnu konzistentnosť a plynulosť. Model RT, ktorý dopĺňa miestnu pozornosť, používa aj mini-dávkové zoskupovanie k-means, aby sa každému tokenu umožnilo venovať sa iba skupine najrelevantnejších tokenov.
Predtrénujeme RT model na dátovom súbore Project Gutenberg (PG-19) s cieľom jazykového modelovania, tj model sa naučí predpovedať ďalšie slovo na základe všetkých predchádzajúcich slov, aby bol schopný generovať plynulý odsek. dlhý text.”
Je zrejmé, že účinnosť tohto modelu transformátora nemožno podceňovať. To je s najväčšou pravdepodobnosťou dôvod, prečo ho používajú ako základnú zložku MUM.
Čo presne je odpoveď na otázku?
Wikipedia nazýva odbor informatiky. Táto disciplína pôsobí v oblasti získavania informácií a spracovania prirodzeného jazyka (NLP).
Primárnym cieľom NLP je vytvoriť systémy, ktoré sú digitálnymi asistentmi, schopnými odpovedať na otázky kladené ľudskými bytosťami v prirodzenom jazyku.
S existujúcimi vyhľadávacími technológiami nie sú schopné extrapolovať odpovede na základe série otázok, povedzme série 10 otázok, z ktorých každá odhaľuje iné informácie o konkrétnom predmete. Aspoň zatiaľ nie.
Pre každú otázku musíte vykonať jeden dotaz. Potom váš mozog hľadá ďalší logický dotaz, aby objavil informácie, ktoré potrebujete, atď.
Zodpovedanie otázok je pre Google príležitosťou vytvoriť kompletný systém otázok a odpovedí, ktorý dokáže úplne a presne odpovedať na akúkoľvek otázku a vykonávať logické rozhodnutia „ďalšieho dotazu“ ako človek.
Teoreticky by vám stačilo odpovedať na jednu otázku a mohli by ste zobraziť informácie, ktoré potrebujete pre všetky vaše otázky súvisiace s týmto úvodným dotazom.
Pokročilé zodpovedanie otázok
V technologickom svete to nie je nová výzva. Facebook publikoval v júli 2019 výskumný dokument o odpovediach na dlhé otázky, ktorý obsahoval prvý rozsiahly súbor údajov, kód a základné modely pre dlhodobú kontrolu kvality. účet Github.
Navrhli tiež nasledujúcu hypotézu: otázky o každodenných úlohách by mali byť pre každého inteligentného asistenta relatívne jednoduché. Asistent by mal byť schopný pomôcť s nespočetným množstvom každodenných úloh. Aby to bolo možné urobiť, AI musí byť schopná pomôcť aj s odpoveďami na veľmi širokú škálu otázok naraz.
Na súčasnej úrovni môžu vyhľadávače ako inteligentní asistenti odpovedať na otázky iba priamo, jednotlivo a konkrétne, pričom veľkú časť vyhľadávania ponechajú na osobe, aby našla všetky informácie, ktoré sú relevantné pre to, čo sa osoba snaží dosiahnuť.
Pokročilé zodpovedanie otázok umožňuje digitálnemu inteligentnému asistentovi vykonávať sofistikovanú analýzu prostredníctvom AI a poskytnúť hľadajúcemu všetky odpovede, ktoré hľadá. To im bráni v tom, aby museli vykonať množstvo rôznych vyhľadávaní, aby dospeli ku konečnému pochopeniu zložitej otázky.
Toto je jadrom MUM od Google. Súdiac podľa toho, ako to Google opisuje, sme si do istej miery istí, že sa pokúšajú dosiahnuť tento konečný cieľ, ktorým je vyriešenie problému s nejednoznačnou odpoveďou na otázku s integráciou MUM.
V niekoľkých bodoch nám MUM pomáha:
- riešiť zložité problémy bez toho, aby ste museli vykonávať viacnásobné vyhľadávanie;
- dosiahnuť náš cieľ rýchlejšie tým, že nebudeme musieť robiť tieto vyhľadávania sami;
- nájsť alternatívne odpovede na súvisiace otázky, o ktorých sme mohli uvažovať, ale budeme ich potrebovať neskôr; a
- zefektívnite vyhľadávanie, výsledkom čoho je niekoľkonásobne rýchlejšie nájdenie riešenia.
S výskumné práce ktoré boli vydané, sme presvedčení, že spoločnosť Google sa pokúša tieto problémy raz a navždy vyriešiť.
Ale nezverejnil Google hodnotenie priechodov? Nevyrieši to problém?
Nie, nie. Hodnotenie pasáží nie je ani zďaleka dostatočne pokročilé alebo dostatočne zložité na to, aby bolo možné klásť viacero otázok naraz a syntetizovať odpovede na základe otázok.
Hodnotenie pasáží malo za cieľ zobraziť odpovede iba na jednotlivé otázky. Nebolo to určené na syntetizovanie komplexných informácií.
Aj s týmto pokrokom má Google stále značné problémy s odpovedaním na otázky, ktoré obsahujú porovnávaciu a kontrastnú zložku.
Ako Google poskytuje spoľahlivé informácie v roku 2021
Poskytovanie spoľahlivých informácií je základnou súčasťou procesu zabezpečenia správnosti otázok a odpovedí.
In tento blogový príspevok, Danny Sullivan vysvetľuje, ako spoločnosť Google poskytuje spoľahlivé informácie, so zjednodušeným vysvetlením:
- Po prvé, zásadne navrhujeme naše hodnotiace systémy, aby sme identifikovali informácie, ktoré ľudia pravdepodobne považujú za užitočné a spoľahlivé.
- Na doplnenie tohto úsilia sme tiež vyvinuli niekoľko funkcií vyhľadávania, ktoré vám nielen pomôžu pochopiť všetky informácie, ktoré vidíte online, ale poskytujú aj priamy prístup k informáciám od úradov, ako sú zdravotnícke organizácie alebo vládne subjekty.
- Nakoniec máme pravidlá pre to, čo sa môže zobraziť vo funkciách vyhľadávania, aby sme zaistili, že zobrazujeme vysoko kvalitný a užitočný obsah.
Všetky tieto kroky fungujú prostredníctvom modelu singulárnej otázky, kde musíte vykonať viacero vyhľadávaní, aby ste našli a pochopili informácie o viacerých aspektoch daného predmetu.
MUM preberá všetko vyššie a posúva to o krok ďalej, pričom syntetizuje informácie z viacerých dopytov, zdrojov a entít, takže nemusíte vykonávať viacero vyhľadávaní úplne rovnakým spôsobom.
Stručná história systémov odpovedania na otázky
Urobme si relatívne krátky výlet po pamäťovej línii a preskúmajme, čo presne sa stalo pred týmto veľkým pokrokom.
Systémy odpovedania na otázky existovali už predtýmaj keď ešte neboli tak vyspelé ako MUM.
Dva z týchto systémov zo začiatku sedemdesiatych rokov zahŕňali BASEBALL a LUNAR. V BASEBALE by tento systém odpovedal na otázky o baseballovej lige Spojených štátov počas jedného roka.
Na porovnanie, LUNAR by pomohol odpovedať na otázky týkajúce sa hornín objavených na misiách Apollo na Mesiaci. Aj keď neboli tak pokročilé ako MUM, očividne obaja boli stále relatívne efektívni pri skutočných odpovediach na otázky na základe zvolených tém.
LUNAR mal v skutočnosti 90% mieru presnosti pri odpovediach na otázky a to bolo úspešné aj napriek tomu, že ľudia neboli úplne vyškolení na používanie systému.
Aby sme získali predstavu o tom, ako tieto systémy fungovali po jazykovej stránke, môžeme si ich predstaviť ako celkom podobné prvým programom chatbotov.
Potom 70. roky so sebou priniesli vedomostné základne. Tieto znalostné bázy pomohli zamerať špecifické systémy otázok a odpovedí na určité oblasti vedomostí.
Ako technológia napredovala, zaznamenali sme výrazné zlepšenie v porozumení textu spolu s odpovedaním na otázky.
To zahŕňalo pokrok v určitých technológiách, ako je počítačová lingvistika, čo nakoniec viedlo k rozvoju NLP.
V oblasti získavania informácií máme systém, ktorý nazývame otvoreným systémom odpovedí na otázky. Tento systém odpovedí na otázky v otvorenej doméne funguje tak, že ako priamu odpoveď na otázku používateľa vracia jedinečnú odpoveď.
Len vďaka kombinácii NLP a pokročilých odpovedí na otázky máme teraz technológiu Google nazývanú Multitask Unified Model.
Toto nie je podrobná história, ale mala by vám poskytnúť základné informácie o tom, odkiaľ sme prišli a ako sme skončili s MAMOU.
Príklady nejednoznačnosti s vyhľadávacími dopytmi
S príchodom MUM môže byť Google schopný konečne vyriešiť problém nejednoznačnosti pri určitých vyhľadávacích dopytoch.
Tieto otázky sú nejednoznačné, pretože na správne zodpovedanie zahŕňajú komponent porovnávania a kontrastu. Tento komponent porovnávania a kontrastu vytvára pri vyhľadávaní nejednoznačnosti, ktoré sa nedajú ľahko napraviť.
Vyriešením problému nejednoznačnosti pri vyhľadávacích dopytoch sa Google v podstate stáva prvým inteligentným digitálnym asistentom na svete, ktorý dokáže pomôcť s akoukoľvek úlohou vyžadujúcou komplexné porovnávanie a spracovanie kontrastu.
Jedným z takýchto príkladov nejednoznačnosti vo vyhľadávacom dopyte môže byť nasledujúci:
Aká je najlepšia najbližšia reštaurácia?
Existujúca technológia vyhľadávania Google vám nepomôže. Bude vám môcť poskytnúť zoznam návrhov, ktoré sú založené na odporúčaniach a recenziách kolegov, ale to je len tak ďaleko.
Čo by MUM teoreticky mohla urobiť, je poskytnúť vám priamu definitívnu odpoveď na obe otázky: najbližšiu reštauráciu aj tú najlepšiu.
Ďalší príklad odpovede na dlhodobú otázku, ktorý by sa dal vylepšiť pomocou MUM, je napríklad: „V čom je reštaurácia A lepšia ako reštaurácia B?“
V súčasnosti potrebujete test chuti (spolu s ďalšími prvkami ľudského bytia), aby ste našli odpoveď na túto otázku.
S MUM by sa táto otázka dala vyriešiť pohľadom na pokladnicu dokumentov vyškolených a spracovaných pomocou modelu spracovania AI. Tento model môže porovnávať a porovnávať viaceré dokumenty, ako sú recenzie a ponuky, a vo výsledku vám poskytnúť odpoveď.
Nehovoriac o tom, že MUM nemusí byť človekom, aby odpovedala na otázku, pretože z týchto viacerých dokumentov by mohla odvodiť, čo si o reštauráciách myslia iní ľudia, a použiť ich názory, vkus a vnímanie pri definovaní odpovede.
Vplyv mamy na vyhľadávanie: Vyhľadávanie bez kliknutí
Randa Fishkina Kontroverzia Zero-Click – o ktorej už písal a ktorú sme prebrali – by mohla zaznamenať nárast týchto typov výsledkov.
Od odporúčaných úryvkov po bohaté úryvky a iné typy výsledkov, ktoré prinášajú nulové kliknutia, vďaka implementácii MUM od spoločnosti Google sme mohli vidieť ešte viac nulových kliknutí.
Použitím MUM ako spôsobu poskytovania odpovedí priamo hľadajúcemu by neexistovala motivácia preklikať sa na inú webovú stránku.
To je jeden z dôvodov, prečo je komunita nadšená touto novou technológiou: má potenciál zvýšiť počet vyhľadávaní bez kliknutia, pretože ak Google nemusí poskytnúť odkaz na odpoveď (a môže poskytnúť odpoveď sám), čo existuje stimul na zvýšenie návštevnosti iných webových stránok?
To tiež prináša problém s autorskými právami a vydavateľskými právami. Ak Google vytvorí odpovede úplne sám, budú potrebovať dokumenty s textom, ktorý používajú na trénovanie nového systému odpovedí na otázky.
Plánujú poskytnúť úver samotnej webovej stránke vo forme odkazu? Plánujú poskytovať informácie o tom, kam smerujú tieto potenciálne nulové kliknutia? Čo urobíme, ak Google nahradí celú prvú stránku iba potenciálnymi odpoveďami na otázku používateľa? Preformulujeme našu SEO stratégiu? Ak áno, ako?
Toto všetko sa určite ešte uvidí. Nateraz budeme musieť zaujať obozretný a opatrný prístup k tomu, aby sme to chválili ako budúcnosť vyhľadávania, pretože redakčne povedané, toto sa zdá byť niečo, čo má za sebou veľa zlého juju.
Technológia MUM od spoločnosti Google a jej vplyv na vyhľadávanie
Po pravde, nevieme, aký vplyv to bude mať na vyhľadávanie. Nevieme, aký vplyv to bude mať na spoľahlivosť vyhľadávania. Do úplného vydania tiež nebudeme vedieť, čo môžeme očakávať.
Vieme, že otázky a odpovede sú práve teraz „veľká vec“. Google takto formuluje niektoré z ich vyhľadávacích dopytov.
S príchodom MUM jasné otázky a odpovede na otázky nezmiznú a ich dôležitosť bude len narastať.
Pretože sa zdá, že Google chce pri takýchto vyhľadávacích dopytoch eliminovať nejednoznačnosti, je možné, že sa to odtiaľto len zvýši.
Bude skutočne zaujímavé vidieť, čoho je MUM schopná, keď bude vydaná.