网站日志基本内容
时间:2023-04-05 15:02:01 | 来源:营销百科
时间:2023-04-05 15:02:01 来源:营销百科
网站日志基本内容: 网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾文件。
n 网站日志的作用?
n 通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。
n 对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的百度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。
n 如何查看网站日志?
n 网站日志一般存放在虚拟主机的logfiles文件夹下,可以通过FTP工具将网站日志下载下来,通过txt文档方式查看。
n 日志分析
n 从网站上下载下的网站日志,在txt文本中就可以看到以下数据:
n 117.26.203.167 - - [02/May/2011:01:57:44 -0700] 'GET/index.php HTTP/1.1' 500 19967 '-' 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)'
n 分析:
n 117.26.203.167 访问ip
n 02/May/2011:01:57:44 -0700 访问日期 -时区
n GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
n 500 服务器响应状态码
n 服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
n 19967 表示抓取了19967个字节
n Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
n 如果你的日志里格式不是如此,则代表日志格式设置不同。
n 很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
n 抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。
n