Profesionál v oblasti SEO sa opýtal Johna Muellera počas stretnutia na vložené súbory PDF.
Ich otázka znela: ich stránka používa prvky iframe a skript na vkladanie súborov PDF na ich stránky. Existuje nejaká výhoda zobrať text OCR z PDF a vložiť ho do HTML dokumentov pre SEO?
Alebo Google jednoducho analyzuje obsah PDF s rovnakou váhou a relevantnosťou na indexovanie obsahu?
John vysvetlil, že ho táto otázka na chvíľu vyviedla z miery, pretože to znelo, akoby chceli zobrať text PDF a jednoducho ho skryť v HTML z dôvodov SEO. A to je niečo, čo by John neodporúčal robiť.
Ak chcete mať obsah indexovateľný, povedal, mali by ste ho zviditeľniť na stránke.
Takže to je prvá vec, ktorú by povedal, pokiaľ ide o súbory PDF.
Potvrdil, že Google sa pokúša vyňať text z PDF a indexovať ho pre samotné PDF.
Z praktického hľadiska sa s PDF stane to, že ako jeden z prvých krokov ho Google prevedie na HTML stránku a pokúsi sa ju indexovať ako HTML stránku.
Takže v podstate to, čo robíte, je, že to vytvárate iframe a bola by to nepriama stránka HTML.
A pokiaľ ide o prvky iframe, Google berie tento obsah do úvahy pri indexovaní v rámci tejto primárnej stránky.
Môže sa však tiež stať, že aj tak indexujú PDF samostatne. Z tohto pohľadu je naozaj ťažké povedať, čo presne sa stane.
John by otočil otázku a sformuloval ju ako „čo chceš, aby sa stalo? A ak chcete, aby sa vaše normálne webové stránky indexovali s obsahom súboru PDF, urobte to tak, aby bol obsah okamžite viditeľný na stránke HTML.
Namiesto vkladania PDF ako primárnej časti obsahu urobte z obsahu HTML primárnu časť a potom vytvorte prepojenie na súbor PDF.
Potom je tu otázka, či chcete tieto súbory PDF indexovať samostatne alebo nie?
Niekedy chcete mať súbory PDF indexované oddelene. A ak ich chcete mať indexované samostatne, tak prepojenie na ne je skvelé.
Ak ich nechcete mať indexované samostatne, môžete ich indexovanie zablokovať pomocou súboru robots.txt.
Môžete tiež použiť hlavičku HTTP noindex, X-robots. Je to trochu komplikovanejšie, pretože to musíte použiť ako hlavičku pre súbory PDF.
To sa deje približne o 17:30 vo videu.
John Mueller prepis stretnutia
John (otázka)
Pozrime sa tu na technickejšie. Naša webová lokalita používa prvky iframe a skript na vkladanie súborov PDF na naše stránky na našej webovej lokalite. Existuje nejaká výhoda zobrať text OCR z PDF a vložiť ho niekde do HTML dokumentu na účely SEO? Alebo Google jednoducho analyzuje obsah PDF s rovnakou váhou a relevantnosťou na indexovanie obsahu?
John (odpoveď)
Áno, takže som na chvíľu, trochu vyvedený z miery, pretože to znie, akoby ste chceli vziať text PDF a skryť ho v HTML na účely SEO. A to je niečo, čo by som rozhodne neodporúčal robiť. Ak chcete, aby bol obsah indexovateľný, zviditeľnite ho na stránke. Takže to je niečo ako prvá vec, ktorú by som povedal. Pokiaľ ide o súbory PDF, snažíme sa odstrániť text zo súborov PDF a indexovať ho pre samotné súbory PDF. Z praktického hľadiska to, čo sa stane s PDF, je, že ako jeden z prvých krokov ho prevedieme na HTML stránku a snažíme sa ju indexovať ako HTML stránku.
Takže v podstate to, čo robíte, je, že ste niečo ako…iframovanie nepriamej HTML stránky. A pokiaľ ide o prvky iframe, môžeme tento obsah vziať do úvahy pri indexovaní v rámci primárnej stránky. Ale môže sa tiež stať, že PDF aj tak indexujeme samostatne. Takže z tohto pohľadu je naozaj ťažké povedať presne, ako napríklad to, čo sa stane. Otočil by som otázku a zarámoval ju ako “čo chceš, aby sa stalo?”
A ak chcete, aby sa vaše bežné webové stránky indexovali s obsahom súboru PDF, urobte to tak, aby bol tento obsah na stránke HTML okamžite viditeľný. Takže namiesto vkladania PDF ako primárnej časti obsahu urobte z obsahu HTML primárnu časť a vytvorte prepojenie na súbor PDF. A potom je tu otázka, či chcete tieto súbory PDF indexovať samostatne alebo nie? Niekedy chcete mať súbory PDF indexované oddelene. A ak ich chcete mať indexované samostatne, prepojenie na ne je skvelé.
Ak ich nechcete mať indexované oddelene, je tiež v poriadku použiť súbor robots.txt na zablokovanie ich indexovania. Môžete tiež použiť hlavičku HTTP noindex X-robots. Je to trochu komplikovanejšie, pretože to musíte použiť ako hlavičku pre súbory PDF, ak chcete mať tieto súbory PDF, podobne ako dostupné v rámci iframe, ale nie v skutočnosti indexované.