基于结构化数据的丰富网页摘要研究
时间:2022-05-29 00:39:01 | 来源:网络营销
时间:2022-05-29 00:39:01 来源:网络营销
随着搜索引擎对结构化数据资料的不断更新完善,亿企邦就越发地感觉有必要对结构化数据标记、丰富网页摘要、数据标注工具、结构化数据标注等问题,作下个人学习总结,一方面算是个学习实践的回顾,同时也是为更多的新手朋友提供基础的答疑帮助。
结构化数据工具是搜索引擎快速引入结构化数据的入口。对于优质的数据资源,可应用于索引、排序、摘要展现等环节,提高索引量并以结构化摘要样式展现给用户。
结构化数据是在普通摘要基础上,增加了一些结构化因子,给用户提供更丰富的摘要内容。如问答类结果中的回复数、提问时间;资料下载中的资料大小,下载条件;软件下载类结果中的软件大小、更新时间等。
一、什么是结构化数据? 结构化数据简单来的说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
一个页面的内容,例如人物、事件、产品或评论不仅要给用户看,还要让搜索引擎可识别,而目前要让其知会特定内容含义,我们需要使用规定的标签、属性名以及特定用法等。举个简单例子,在网页中我们使用title标签包裹页面标题信息,搜索引擎就知道这是标题,当然这不是微数据,微数据也是为了方便搜索引擎识别页面内容而产生的东西,有特定的规范,有特定的格式。
1、百度的结构化数据展示 对于使用结构化数据展示的网站,大家最常见的就是百度文库了,在搜索结果的页面中你会发现搜索标题的下方会有个评分等级展示,而一般的网站则没有。如下图所示:
2、google的结构化数据展示 谷歌丰富摘要和结构化数据旨在让Google更了解您网页上的内容,创建丰富网页摘要,为用户具体查询提供更详尽的信息。旨在让用户大体了解网页上的内容,以及与用户的搜索查询有何关联。如下图所示:
如果Google了解您网页上的内容,就可以创建丰富网页摘要,也就是为用户的具体查询提供帮助的详细信息。例如,针对餐馆的摘要可能会显示平均评分和价格范围;针对食谱网页的摘要可能会显示总的准备时间、照片以及对食谱的评分;而针对音乐专辑的摘要可能会列出各首歌曲以及播放链接。这些丰富网页摘要可帮助用户了解您的网 站与他们的搜索内容是否相关,并可能让您的网页获得更多点击次数。
二、结构化数据的作用 亿企邦一直觉得,SEO就是搜索引擎与网站之间沟通的桥梁,SEO能帮助搜索引擎蜘蛛更好地抓取网站内容,且同时能使网站内容更多、更好地展示在搜索结果中。
那么结构化数据标记,就是其中一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。
搜索引擎都支持标准的结构化数据标记,以便为用户提供更好的上网体验。网页内微数据标记可以帮助搜索引擎理解网页上的信息,能更方便搜索引擎识别分类,判断相关性。
同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见你商品的重要信息。例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。
这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关,可以让网页获得更多点击。
如在搜索结果中,部分展示了更多的星级评分、评论条数以及价格等因素,这样无疑增加了网站的专业程度,且提高了客户对网站的信任度,网站良好的曝光度无形中就提高了网站的点击率与转化率。
三、百度站长平台提供的结构化数据功能 对此,在百度站长平台上,我们也能看到一个“结构化数据”功能,类似sitemap的工具,不过现在只对邀请参与sitemap的网站提供服务。文件类型目前较为单一,只有“其他”、“互联网”两类。目前sitemap模版为软件下载类、问答类、在线文档类,强烈关注该功能的发展。如下图所示:
除了普通内容外,百度一直对网上的资源(如学术、文档、资料、软件)等资源抓取的不是太好,所以结构化数据应该是sitemap工具的补充,sitemap更多是在文章、内容方面的索引,而结构化数据则是对互联网上一些特殊资源的一种主动提交方式。
结构化工具的亮点: 1、支持站长向百度提交网站内容的结构化数据,百度对符合要求的优质资源会通过结构化摘要的形式展现给用户。
2、目前已支持四种形式的结构化摘要的提交:通用问答、在线文档、资料下载、软件下载。
3、后续会不断地丰富不同类型结构化内容的提交及对应结构化摘要的展示。
四、结构化数据标记的方式有哪些? 如果你也想对你的网站进行结构化数据标记的话,可以使用HTML代码标记和谷歌管理员工具里数据标注工具进行标记。
1、使用HTML代码标记 HTML代码标记的方式主要有3种:微数据、微格式和RDFa(具体可查看亿企邦的《实例解析丰富网页摘要的三大标记格式》的详细介绍)。但对于一些外贸站站来说,标记是以微数据为主,少许时候也会用到微格式,视不用的页面类型而定吧。
2、使用微数据标记 使用微数据标记的话,有两种代码格式:http://data-vocabulary.org/ 和 http://schema.org/。由于data-vocabulary标记只支持谷歌搜索,而schema同时支持谷歌、雅虎、Bing等搜索,因而我们不妨称data-vocabulary为旧版标记,schema为新版标记。
目前的主流是使用schema进行标记。但由于页面上有些项(如:面包屑导航), schema并没推出相应的标记代码,从而也得仍旧使用data-vocabulary来标记, 这样的话页面代码上就会出现新旧代码并存的情况,不过这并不妨碍搜索引擎蜘蛛抓取页面内容。
使用数据标注工具的话,可以进行简单的内容标记。目前支持9种标记类型:文章、图书评论、事件、本地商家、电影、产品、餐馆、软件应用和电视续集。操作时你可以自己创建个网页集,针对那个类型页面进行标记,然后谷歌会抓取该类型相关网页的内容,你进行审核修改,修改后没问题的话,就点击确认创建就OK了。
那么,对此可能就有博友会问了:为什么不直接使用谷歌管理员工具的数据标注工具,而要使用微数据标记?
前面亿企邦也跟大家有说到,数据标注工具只可以进行简单的内容标记,稍微复杂些的标记便无法实现,譬如大部分电子商务网站都会在产品页上显示星级评价,但如果你使用数据标注工具的话,便无法直接标记综合星级评分多少、最佳评分多少等。且数据标注工具创建的内容只是针对谷歌搜索的,而不支持雅虎、Bing等其它搜索引擎。
而微数据标记就不同了,可标注的内容多而全。不过由于微数据标记得涉及到修改页面HTML代码,稍不小心就容易出错,因而得慎之又慎,因而谷歌便推出了结构化标记助手:https://www.google.com/webmasters/markup-helper?hl=en帮助站长进行内容的标记。这个工具可以跟数据标注工具有点类似,不过数据标注工具的结果是直接保存在谷歌管理员工具中,而结构化数据标记助手的结果是生成一个标记好的页面HTML代码,只要把那段标记好的代码放入你网站的页面代码中即可。
五、结构化数据标记后,多长时间能在搜索结果中显示? 目前结构化数据可以标记以下这些内容:文章、电影、事件、活动、评价、人物、商品、商家和组织、食谱、活动、音乐等等。
但何时显示并没确切的时长,涉及的因素有网站权重、标记页面类型等。
如果你标记的只是单个页面,且网站权重OK,那么只要该单个页面正确地标记好,便会迅速地在搜索结果中展示。
如果你标记的是产品页,且网站产品页数量达到几万,甚至几十万,那么得等蜘蛛把这些大部分产品页抓取过一遍,再根据网站权重等因素,酌情显示了。
亿企邦知识扩展: 我们本文中主要讲的是结构化数据,除此之外,还有非结构化数据和半结构化数据,我将会在亿企邦上为大家再详细的介绍。
1、非结构化数据 包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。
2、半结构化数据 包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档等基本存储需求。