快推365SEO问答正文

百度智能小程序资源如何收录

2020/12/16 13:29:13

338浏览量

回答

2020/12/16 13:31:14

在 Web 生态中,搜索引擎如何发现并收录资源大家并不陌生。爬虫通过抓取 Web 网页,能够很好的解析页面内容,并为其建立索引。那么作为依托于客户端形态存在的小程序,又是如何实现资源收录的呢?

答案是,既然 Web 爬虫技术已经相对成熟,只要将小程序转换为一个 Web 版本,即可轻松借助已有的爬虫能力实现小程序页面的收录。到这里,今天的主角就要隆重登场了 —— Web 化小程序

Web 化小程序是百度小程序的 Web 版本。每个 Web 化小程序都是一个单页面应用站点,可以通过唯一对应的 URL 在浏览器打开。Web 化小程序与对应的客户端打开的小程序内容、样式和交互行为基本一致。


以百度翻译小程序为例,下图为百度翻译小程序在百度 App 中打开和它的 Web 化小程序在 safari 浏览器打开的效果:

那么 Web 化小程序是如何生成的呢?

百度智能小程序具有自动生成 Web 化的能力,在小程序发布时,后台会自动为每个小程序生成一份 Web 化小程序。也就是说 Web 化对小程序开发者来说是透明的,开发者几乎不用做额外的适配即可完成转换(当然,由于H5与客户端天然存在的差异,我们仍有一些开发建议希望开发者能够关注,后面会详细介绍)。

有人问:想让爬虫认识至于那么认真吗?有个 HTML 就够了,还要和客户端小程序样式和交互保持一致?事实上,随着SPA应用的大量普及,现代爬虫如果仅通过解析静态 HTML ,无法充分获取有效页面内容。因此 爬虫的抓取过程,会渲染页面,并根据页面的动态数据和样式布局等信息更好的理解页面内容。也就是说,爬虫看到的页面和我们看到的页面是一模一样的。



在百度开发者工具 2.2.4 以上版本,默认开启 Web 化。之前版本的工具需要手动打开 Web 化开关。对于之前未开启 Web 化的小程序,只要升级工具到最新版本,重新发布,即可自动开启。



当有小程序发布后,爬虫会通过自主发现的方式收录 Web 化小程序的各个页面,为其建立索引。

除了自主发现的资源收录方式,如果开发者想要获取更高时效的资源收录效率,还可以通过主动提交资源列表,即 sitemap 的方式实现天级和周级资源收录。sitemap 提交详见官方文档《接入自然搜索结果 - 提交sitemap 》

对于在百度已收录了 H5 站的资源,也可以通过配置 H5 域名和提交 H5 与小程序页面映射规则的方式替换原 H5 页面收录结果继承已有权重。具体提交方式详见官方文档《接入自然搜索结果 - 配置URL映射规则》




此教程来源于《搜外网-夫唯SEO培训》,网址:https://www.seowhy.com/

本教程连接:https://www.seowhy.com/a/1598.html,为原创表示感谢!


0+1

0+1