Google odpovedá, či je lepšie text OCR v súboroch PDF alebo nie

Profesionál v oblasti SEO sa opýtal Johna Muellera počas stretnutia na vložené súbory PDF.

Ich otázka znela: ich stránka používa prvky iframe a skript na vkladanie súborov PDF na ich stránky. Existuje nejaká výhoda zobrať text OCR z PDF a vložiť ho do HTML dokumentov pre SEO?

Alebo Google jednoducho analyzuje obsah PDF s rovnakou váhou a relevantnosťou na indexovanie obsahu?

John vysvetlil, že ho táto otázka na chvíľu vyviedla z miery, pretože to znelo, akoby chceli zobrať text PDF a jednoducho ho skryť v HTML z dôvodov SEO. A to je niečo, čo by John neodporúčal robiť.

Ak chcete mať obsah indexovateľný, povedal, mali by ste ho zviditeľniť na stránke.

Takže to je prvá vec, ktorú by povedal, pokiaľ ide o súbory PDF.

Potvrdil, že Google sa pokúša vyňať text z PDF a indexovať ho pre samotné PDF.

Z praktického hľadiska sa s PDF stane to, že ako jeden z prvých krokov ho Google prevedie na HTML stránku a pokúsi sa ju indexovať ako HTML stránku.

Takže v podstate to, čo robíte, je, že to vytvárate iframe a bola by to nepriama stránka HTML.

A pokiaľ ide o prvky iframe, Google berie tento obsah do úvahy pri indexovaní v rámci tejto primárnej stránky.

Môže sa však tiež stať, že aj tak indexujú PDF samostatne. Z tohto pohľadu je naozaj ťažké povedať, čo presne sa stane.

Čítať:  Google uvádza na trh Pixel Watch; predstavuje Pixel Tablet

John by otočil otázku a sformuloval ju ako „čo chceš, aby sa stalo? A ak chcete, aby sa vaše normálne webové stránky indexovali s obsahom súboru PDF, urobte to tak, aby bol obsah okamžite viditeľný na stránke HTML.

Namiesto vkladania PDF ako primárnej časti obsahu urobte z obsahu HTML primárnu časť a potom vytvorte prepojenie na súbor PDF.

Potom je tu otázka, či chcete tieto súbory PDF indexovať samostatne alebo nie?

Niekedy chcete mať súbory PDF indexované oddelene. A ak ich chcete mať indexované samostatne, tak prepojenie na ne je skvelé.

Ak ich nechcete mať indexované samostatne, môžete ich indexovanie zablokovať pomocou súboru robots.txt.

Môžete tiež použiť hlavičku HTTP noindex, X-robots. Je to trochu komplikovanejšie, pretože to musíte použiť ako hlavičku pre súbory PDF.

To sa deje približne o 17:30 vo videu.

John Mueller prepis stretnutia

John (otázka)
Pozrime sa tu na technickejšie. Naša webová lokalita používa prvky iframe a skript na vkladanie súborov PDF na naše stránky na našej webovej lokalite. Existuje nejaká výhoda zobrať text OCR z PDF a vložiť ho niekde do HTML dokumentu na účely SEO? Alebo Google jednoducho analyzuje obsah PDF s rovnakou váhou a relevantnosťou na indexovanie obsahu?

John (odpoveď)
Áno, takže som na chvíľu, trochu vyvedený z miery, pretože to znie, akoby ste chceli vziať text PDF a skryť ho v HTML na účely SEO. A to je niečo, čo by som rozhodne neodporúčal robiť. Ak chcete, aby bol obsah indexovateľný, zviditeľnite ho na stránke. Takže to je niečo ako prvá vec, ktorú by som povedal. Pokiaľ ide o súbory PDF, snažíme sa odstrániť text zo súborov PDF a indexovať ho pre samotné súbory PDF. Z praktického hľadiska to, čo sa stane s PDF, je, že ako jeden z prvých krokov ho prevedieme na HTML stránku a snažíme sa ju indexovať ako HTML stránku.

Čítať:  Opravte nefunkčnú alebo nepodporovanú živú tapetu TikTok v systéme Android & iPhone

Takže v podstate to, čo robíte, je, že ste niečo ako…iframovanie nepriamej HTML stránky. A pokiaľ ide o prvky iframe, môžeme tento obsah vziať do úvahy pri indexovaní v rámci primárnej stránky. Ale môže sa tiež stať, že PDF aj tak indexujeme samostatne. Takže z tohto pohľadu je naozaj ťažké povedať presne, ako napríklad to, čo sa stane. Otočil by som otázku a zarámoval ju ako “čo chceš, aby sa stalo?”

A ak chcete, aby sa vaše bežné webové stránky indexovali s obsahom súboru PDF, urobte to tak, aby bol tento obsah na stránke HTML okamžite viditeľný. Takže namiesto vkladania PDF ako primárnej časti obsahu urobte z obsahu HTML primárnu časť a vytvorte prepojenie na súbor PDF. A potom je tu otázka, či chcete tieto súbory PDF indexovať samostatne alebo nie? Niekedy chcete mať súbory PDF indexované oddelene. A ak ich chcete mať indexované samostatne, prepojenie na ne je skvelé.

Ak ich nechcete mať indexované oddelene, je tiež v poriadku použiť súbor robots.txt na zablokovanie ich indexovania. Môžete tiež použiť hlavičku HTTP noindex X-robots. Je to trochu komplikovanejšie, pretože to musíte použiť ako hlavičku pre súbory PDF, ak chcete mať tieto súbory PDF, podobne ako dostupné v rámci iframe, ale nie v skutočnosti indexované.

Nové Publikácie:

ODPORÚČANIE