计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(3)

2025-09-10

附件1：外文资料翻译译文

预处理和挖掘Web日志数据网站个性化

摘要：我们描述了Web使用挖掘活动的一个持续项目要求，我们叫它ClickWorld3，旨在提取导航行为的一个网站的用户的模型。该模型的推断在访问日志的网络服务器通过数据和Web挖掘技术的功能。提取的知识是部署的个性化和主动提供网络服务给用户。第一，我们描述预处理步骤访问日志必要的步骤，选择并准备数据，知识提取。然后，我们表现出两套实验：第一，一个尝试性预测的用户基础上访问的网页；第二，试图预测是否用户可能有兴趣参观的一部分网页。

关键词：知识发现，Web挖掘，分类。

1、导言

Web挖掘是利用数据挖掘技术在自动化发现和提取信息从网络的文件和服务。一个常见的分类Web挖掘的三个主要的研究项目明确的规定：内容分钟法，结构挖掘和使用挖掘。区分这些类别没有一个明确的界限，而是将经常使用的方法相结合区分出不同的类别。

内容涵盖数据挖掘技术提取模型，网络对象的内容，包括纯文字，半结构化文件（例如，HTML或XML语言），结构化文件（数字图书馆），动态的文件，多媒体文件。提取模型被用于分类的网页对象，提取关键字用于信息检索，推断结构的半结构化或非结构化的对象。

结构挖掘旨在发掘基本的拓扑结构的互连，筹措之间的网络对象。该模型建立可用于分类和排名的网站，并发现了它们之间的相似性。

使用挖掘是应用数据挖掘技术发现使用从网络模式的数据。数据通常是收集用户的互动关系在网上，例如网站/代理服务器日志，用户查询，登记数据。使用挖掘工具发现和预测用户行为，以帮助设计师为改善网站，来吸引游客，或给普通用户的个性化和适应性的服务。

在本文中，我们描述了Web使用挖掘活动的一个持续项目要求ClickWorld ，旨在提取模型，以用户的行为为目的的个性化网站。我们从中期全国性大型门户网站vivacity.it收集和预处理访问日志，花费的时间为5个月。该网站包括了民族地区如网址为：www.vivacity.it的新闻，论坛，笑话等，以及30多个地方，例如，

共6页:

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档