18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > Web数据挖掘(数据库)

Web数据挖掘(数据库)

时间:2022-11-27 02:30:01 | 来源:信息时代

时间:2022-11-27 02:30:01 来源:信息时代

    Web数据挖掘 : 针对Web数据(Web data)进行的数据挖掘。Web数据指Web文档数据和服务包含的数据。分为以下三类:
(1) 内容数据(content data):是Web页面中可见的数据。它是提供信息的主体,包括文本、声音、图像和元数据。内容数据主要以各种文档(document)的形式存在,如HTML文件和其他各种非文本的媒体文件。
(2)结构数据(structure data):是组织内容数据而派生的数据。Web上存在着由各种超链接形成的结构(也包含超链接的描述),分为站点结构和站间结构两部分。
(3)使用数据(usage data): 是由用户使用Web而衍生的数据,描述Web页面使用模式。如Web服务器端收集的Web日志,包括IP地址、页面引用和访问时间等。
根据Web数据种类的不同,Web数据挖掘分为以下三类:
(1) Web内容挖掘(Web content mining):是从文档内容或其描述中抽取知识的过程。其目的是揭示网页的主题,但并不关心谁会真正阅读它,例如,内容挖掘可用于找出所有关于“data mining”主题的网页。搜索引擎是内容挖掘的一个最有用的例子,但Web内容挖掘又超越基本的信息检索技术,是基本搜索引擎的扩展。它包括两种策略: Web文档挖掘和搜索结果挖掘。前者是直接挖掘文档的内容,后者是对搜索引擎的查询结果进行进一步的处理,得到更为精确和更为有用的信息。常见的Web内容挖掘技术主要有对Web上大量文档集合的内容或搜索结果的文本摘要、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。
特别需要注意的是,Web上的文本挖掘与一般的文本挖掘功能和方法类似,但是Web文档中的标记,如〈Title〉、〈Heading〉等蕴涵了额外的信息,这些信息可以用于提高Web文档挖掘的性能。
(2) Web结构挖掘(Web structure mining): 是从Web的组织结构和链接关系中挖掘规律其目的在于揭示蕴涵在这些文档结构信息中的有用模式。例如,揭示哪些页面通过当前页面可以两步内到达,但并不关心多少人会实际用到这条通路。结构挖掘的源数据是一套将文档联系起来的超链接。结构挖掘常用的表达方式是图形方式(有向图),这种有向图可以映射整个网络中链接所有文档的全部链接。
由于文档之间的互连,Web提供除文档内容之外的有用信息,利用这些信息,可以对页面进行排序,发现重要的页面,通过挖掘Web结构可以发现页面的结构和Web站点的结构,在此基础上对页面进行分类和聚类从而找到权威页面(一个被许多Hub页面指向的页面称为权威页面; 一个链接到许多权威页面的页面称为中枢页面Hub),这方面工作的代表有PageRank和Hub/Authority等。
(3)Web使用挖掘(Web usage mining):是通过分析和研究Web访问记录中的规律,从中抽取感兴趣的模式。主要包括两个方面: 一般的访问模式发现和个性化的使用记录追踪。一般的访问模式发现通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。使用挖掘主要集中于客户行为的分析,特别是随时间变化的行为分析,有时感兴趣的时间片(timeframe)很短,例如,对于访问者在一次单独的会话中在一个站点中的访问路径的分析; 在其他时候时间片又会比较长,例如,对于在一个零售站点长期注册的购买者有反复的购买行为的分析。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭