计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(4)

2025-09-10

www.roma.vivacity.it与城市专用信息，如本地新闻，餐厅地址，戏剧节目，巴士的时间表，ECC等。

预处理步骤包括数据选择，清洗和转化和通过验证的用户和用户会话。结果预处理，方法是一个数据集市的网络访问和注册信息。从预处理的数据，Web挖掘的目的是发现模式调整方法从统计数据，数据挖掘，机器学习和模式识别。其中基本数据挖掘技术，我们提到的关联规则，发现集团的物体，常常要求用户一起;集群，集团用户提供类似的浏览方式，或集团类似的物体内容或访问的模式;分类，而有利于的用户被分到某一类或类别;和序列模式，即序列请求这是常见的许多用户。

在ClickWorld项目，有几个上述方法，目前被用来提取有用的信息主动提供个性化网页网站。在本文中，我们描述了两套分类实验。第一个，一项旨在提取一分类模型能够性别歧视的用户根据设置的网页访问。第二次试验的目的是提取一分类模型能够歧视这些用户访问的网页有关例如：提供给典型的实验。

2、预处理的Web个性化

我们已经制定了一个数据集市的网页记录特殊的支持网络个人化分析。该数据集市是人口从一个网络日志数据仓库房子，如中所描述的，或更简单地说，从原材料网络/代理服务器日志种来。在这一节中，我们描述了一些预处理和编码步骤进行数据的选择，理解，清洗和转化。虽然其中一些是一般数据准备步骤，Web使用挖掘，值得注意的是，在许多人的一种领域知识必须一定要包括以清洁，正确和完整的输入数据根据网页的个性化需求。

2.1用户注册数据

除了网页访问日志，我们考虑输入包括个人资料的一个子集的用户，即那些谁注册的vivacity.it网站，备注：注册法不是强制性的。对于注册用户，该系统记录了以下资料：性别，城市，省，婚姻状况，出生日期。此信息是提供由用户在一个网页表单在登记时，作为一个可预计，数据的标准是对用户公平。作为预处理步骤，难以置信的数据检测并删除，如出生数据在未来或在遥远的过去。此外，一些额外的投入没有进口的数据信息，因为几乎所有的值分别为左为默认选择的网页表单。换言之，领域被认为是不利于区分用户的选择和喜好。

为了避免用户位数的登录名和密码在每个访问vivacity.it网站采用的Cookie 重复。如果一个Cookie是由用户的浏览器，然后认证并不是必需的。否则，身份验证后，一个新的Cookie 发送到用户的浏览器。随着这一机制，可以跟踪任何用

共6页:

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档