特点和创新之处,主要参考文献及出处):
我们正处于“信息爆炸”的时代,因特网是最主要的信息源。然而,因特网信息使用技术的发展往往跟不上因特网信息的增长。搜索引擎可以为人们查找与关键词相关的文档,但返回的结果往往是文档数量太多而命中率不高。如何合理地挖掘和利用Web信息,使因特网的巨大作用和潜能得以发挥,一直是具有挑战性的课题。
现有的Web搜索引擎普遍存在以下两方面的问题[1,2,3]:
首先,绝大部分搜索引擎,如国外的Google (http://www.google.com), Yahoo (http://www.yahoo.com),国内的天网(http://bingle.edu.cn/),百度(http://www.http://www.wodefanwen.com/)等都属于通用型的信息检索系统,它们索引的内容覆盖到所有领域。然而,由于Web信息量增长极快,作为开发和维护此类搜索引擎的实体,出于经济和技术等方面的考虑,往往不能也无法做到把Web空间上的所有内容都收录进来,因此出现搜索不完全的现象。在信息选取的策略方面,也会出现某些倾向性。比如,出于商业利益上的考虑,大部分搜索引擎都会优先搜索本国站点,优先搜索商业价值高的.com站点,而对于其他国家的许多站点就相对忽略。此外,由于其服务器存储容量的限制,Google等还规定每个站点最多索引3000个页面[4]。这样,对于某个特定的领域或主题,通用搜索引擎无法保证在信息采集方面做到真正的全面。从另一方面看,通用搜索引擎的海量存储不利于对索引内容的实时更新,存在更新成本高、频率低、周期长等问题,无法保证提供给用户的信息总是最新的,并不可避免地出现大量的“空链接”[5]。 其次就是检索模式单一,检索精度低[6,7]。目前搜索引擎在检索的时候主要还是基于传统的“关键词匹配”,常常会因为关键词存在歧义性影响查询的准确性。再加上Web信息数量庞大,而用户在进行Web信息检索时输入的查询关键词通常比较简单(70%的情况下只输入单个词[8]),导致查询结果集膨胀,用户必须在大量的与自己查询意图相关和不相关的结果集中寻找自己需要的东西。
九十年代之后,国外出现了面向领域(或主题)的Web信息检索系统,例如CiteSeer(http://www.CiteSeer.com),Coral(http://www.coral.justsearch.com)[9,10]。面向领域(或主题)的Web搜索引擎追求的是“小而全,小而精”[11]:由于搜索范围小,可以对该领域的内容进行全面索引;由于信息存储量相对较小,索引数据库的更新速度较快[12];还可以充分结合领域知识的特点,在优化信息抽取、丰富查询模式、提高检索精度等方面做更多的工作。比如,可以建立更加结构化的索引数据库以支持用户多种查询功能,可以分析本领域特定访问群体的查询特点以提供更加专门化、个性化的查询功能。而且,由于用户查询的范围限定在某个特定领域,可以在一定程度上避免查询词的歧义性,从而提高查询的准确度。总之,建立面向领域的高性能信息检索系统,不但在特定领域信息覆盖量、信息更新速度等方面有明显的优势,提高了检索质量,而且可以满足用户的特定查询需求。因此,面向领域(或主题)的Web信息检索系统是今后的重要发展方向。目前国内尚未出现成熟的面向领域的检索系统。
本课题开发面向领域的Web信息检索技术,对于我市实施信息化带动现代化有积极意义。天津市是我国北方的经贸中心,近年一直保持经济快速增长的强劲势头,全市经济发展已经全面驶入了快车道。为了不断迎接新挑战,抢占发展先机,做到与国际接轨,各企事业单位和各级行政部门的工作人员和决策者都需要随时获取确切而全面的相关信息资料。本课题所开发的高性能智能检索系统将为用户提供本领域全面而确切的相关信息,将成为企事业单位工作人员和决策者的得力助手和信息秘书。
2.研究内容和预期成果(说明研究工作的具体内容,指出重点应解决的科学和技术问题及要达到的技术指标,阐述预期成果应用的可能性和效益,或在学术、社会等方面的价值):
本课题应用多项Web挖掘和自然语言处理(NLP)技术,结合面向领域信息检索的特点,研究基于拓扑结构挖掘的动态聚类、基于超链接分析的自动摘要和基于访问模式挖掘的查询扩展等项创新性的技术,开发面向领域的智能信息检索系统,为用户准确定位信息资源并提供高质量的检索结果。
本项目研究的关键技术主要有三点: 基于拓扑结构挖掘的动态聚类 当前检索系统使用的文本聚类方法,一般是通过向量空间模型将文本标准化,形成基于距离或密度的文本层次聚类。这些方法没有充分考虑Web拓扑结构的特点,准确度还有较大的提高空间。
考虑到网站的设计者在规划网站页面时,总会根据内容特点将其放到一个合适的位置,通过Anchor文本对其内容进行适当的描述,以吸引用户浏览相关内容,我们拟采用“基于拓扑结构挖掘的动态聚类”的新思路。依据Web页面文本所在的位置,挖掘出网页在网站中的层次类别信息,通过这些信息进行动态聚类。把网站的聚类层次结构看作是一个树形目录,基于拓扑结构挖掘的动态聚类就是将这个树形目录进行归并,动态生成一个“聚类树”,从而为用户提供一种“动态的目录聚类查询服务”。 基于超链接分析的自动摘要
当前绝大部分Web信息检索系统的返回结果中不包含目标网页的摘要,只提供包含检索词的部分文本,用户难以通过这些文本确定目标页面的中心内容,只有在打开目标网页后才能知道是否是所需要的信息。显然,如果提供目标网页的摘要,可为用户节省大量的时间和精力。国内外对文本摘要技术的研究已有多年,但主要是针对纯文本而设计的。
考虑到网页及其链接比纯文本包含更丰富的信息,我们拟采用“基于超链接分析的自动摘要”方法,利用半结构化网页提供的隐含信息来提高网页文本摘要的精确度。为了充分利用这些信息,首先挖掘出网页的超链接信息,得到所有链接到该网页的文本,并根据语法/语义规则进行噪音过滤,得到该网页的特权候选摘要语句;然后利用HTML标识的知识和纯文本的词、句、段及篇章知识,计算网页中每个词句的权重;最后根据字数的要求提取权重值较大者形成网页摘要。
基于访问模式挖掘的查询扩展 目前查询扩展主要有两种途径:查询前扩展和查询后扩展。查询前扩展就是根据同义词词典、语义蕴涵词典来扩展查询检索项,在提交查询时把与检索项相关的词汇或短语添加到检索条件中;查询后扩展则是在查询后应用相关反馈法发现与查询检索项相关的词汇和短语,把它们添加到检索条件中,再次进行检索。然而,增加检索项容易引入噪音,导致检索到的不相关文本增多。另一方面,查询扩展可能由于引入不适当的关键词产生主题漂移现象。
针对上述情况,我们拟采用“基于访问模式挖掘的查询扩展”方法。通过对用户以往搜索记录的分析,即Web日志挖掘,推测用户的搜索偏好,将偏好近似的用户分类。根据已经建立的用户查询模型产生该类用户的访问模式,由此设计反映访问特征的查询扩展方法。从单一的、静态的、当前的检索过程来看,该方法具有查询前扩展的优点;而从群体的,动态的,历史的检索过程来看,该方法又具有查询后扩展的优点。该方法突破了单一扩展模式的局限,可以在一定程度上抑制噪音,避免主题漂移。
本课题的预期结果是开发面向领域的智能信息检索系统,针对领域用户提出的查询,系统提供全面、准确、精练的相关信息。计划分别面向高等教育和证券信息咨询两个领域进行开发,
为今后面向其它领域的开发应用积累经验。 下面举例说明与传统的信息检索系统相比,本课题开发的系统具有的优势。假设某用户需要检索与高等教育的现状和改革相关的研究论文,如果使用通用网站搜索,在www.google.com上输入查询“高等教育的现状和改革”,检索到的文档数量将会大得惊人(例如,17800篇)。假设该用户想要得到的只是相关的研究论文,而通用搜索引擎会把包含“高等教育”,“现状”和“改革”的所有相关报道连同研究论文一同呈现出来,其中大部分并不是该用户想要的。如果使用本课题开发的面向高等教育的智能信息检索系统,将会根据该用户以往的搜索偏好,重点搜索用户喜好的内容,至少会将该用户感兴趣的研究论文放在前面。提交的信息不但准确,而且更全面,还能够提供文本摘要,有利于用户快速掌握目标页面的中心内容。
再看看证券信息咨询领域,目前市场上主要有三种类型的检索服务系统:综合性网站(例如新浪www.sina.com)、专业资讯网站(例如和讯www.homeway.com.cn)和证券公司网站(例如中信证券www.citics.com)。这些检索系统的共同特点是用户必须输入具体的证券代码,证券简称等信息,检索结果也只是一些数据信息的简单罗列,例如走势图、股本结构、财务数据等,不能全面反映股市的状况,无法把行业信息、宏观经济走势、国家政策调整等许多更为丰富的信息提供给投资者进行决策。本课题完成的面向证券信息咨询领域的智能检索系统将有效地解决上述问题。首先,系统对证券领域的特征信息进行抽取,通过机器学习把证券代码、价格、成交量、技术指标、财务指标等数据信息与相关的文本信息绑定起来,建立特征信息库。其次,在此基础上对证券领域的结构化信息和文本信息进行动态聚类、索引和自动摘要,并通过进一步整理形成客户需要的输出形式。最后,通过对用户Web日志的挖掘进行归纳学习,发现并获得用户的习惯性访问模式,从而设计出个性化的查询扩展方法;同时可以发现客户对某些证券、板块、行业及其技术指标、财务指标的兴趣,建立这些项目间的相关性模型,通过相关性模型建立有关文本、数据的快速检索,明显地提高客户查询的响应速度和咨询质量。
3. 拟采取的研究方法和技术路线,研究工作进度安排(包括拟采用的研究方法、技术路线的先进性,实验方法和步骤及其可行性分析,可能遇到的问题和解决办法):
研究方法和技术路线: 合理吸收、有效利用现有的成熟方法,在相关领域已有的研究结果之上,加入我们提出的“基于拓扑结构挖掘的动态聚类”、“基于超链接分析的自动摘要”、“基于访问模式挖掘的查询扩展”等新方法。以集成化的技术路线完成智能检索系统的研究和开发,将数据挖掘、自然语言处理等人工智能技术与网络、数据库技术相融合。具体分以下三个阶段实现。 阶段一 搭建试验平台。建立结构化的面向高等教育领域和证券信息咨询领域的Web信息检索系统,开发爬行器、后台数据库和前台界面。这一阶段主要是实现当今大部分Web信息检索系统所具有的基本功能。试运行该Web信息检索系统,搜集相当齐全的关于高等教育领域和证券信息咨询领域的Web页面。
阶段二 技术探索。深入研究如下3方面的关键技术:
1)动态聚类:通过挖掘网站自身的拓扑结构/布局,获取该网站中表征页面分类特征的结构信息,利用分类特征标识进行聚类。利用语义分析、贝叶斯算法、决策树等技术将这些树形目录加以削减、结合、归并,动态生成一个“层次结构聚类树”。
2)自动摘要:挖掘网页链接中相关联的Anchor文本和其所在段落所提供的隐含的、带有导航性描述内容的关键字词句,利用半结构化网页提供的隐含信息来提高网页文本摘要的精确度。首先进行结构挖掘,挖掘出所有通过超链接指向该网页的文本,并根据语法/语义规
则进行噪音过滤,得到该网页的特权候选摘要语句;然后进行内容挖掘,通过HTML标识的知识和纯文本的词、句、段及篇章知识,计算网页文本中每句话的权重;最后根据字数要求,通过关联度分析、语法分析生成摘要。
3)查询扩展:应用相关反馈法,综合使用查询前扩展和查询后扩展两种方法,通过Web日志挖掘得到用户的查询习惯和兴趣特点,建立个性化的查询扩展模型。利用该模型,结合词共现和语义分析技术,对查询进行修改、扩展并自动选择搜索策略。 阶段三 系统集成。将第二阶段的研究成果整合到试验平台系统中,并进行系统评测和改进。
研究工作进度安排:
2004年3月-6月 调研、资料准备、总体设计
2004年7月-12月 文本收集、搭建基本研究系统平台
1) 面向领域的文本收集 建立基本的爬行器,在因特网上收集高等教育领域和证券信息咨询领域的资料。
2) 建立与领域内容相关的结构化索引数据库 考虑高等教育领域和证券信息咨询领域的特点,建立与领域内容相关的结构化索引数据库,并为每个页面提取其网站自身的类别信息。 3) 确定PageRank分类策略
4) 利用目前较成熟的传统算法和技术,实现基本的聚类、摘要和查询扩展,搭建基本研究系统平台
本阶段预计完成系统基础平台的建设,完成高水平论文2篇。
2005年1月-12月 深入研究与集成
1) 在前述系统平台的基础上,对聚类模型、摘要提取算法和查询扩展方法进行改进。 2) 通过本系统在试运行期间提供的日志文件挖掘用户访问模型,研究其与查询扩展相结合的方案。在支持传统关键词查询的基础上实现“查询扩展功能”和“动态的目录聚类查询服务”。设计并实现个性化查询扩展。
3) 开发个性化、多功能信息查询接口,实现用户输入的自动检错。
4) 建立面向高等教育和证券信息咨询领域的高性能智能检索系统原型投入试运行。 本阶段预计完成技术报告和高水平论文2-3篇。
2006年1月-2月:系统评测与验收
本阶段将提供系统评测报告和研究工作报告,进行项目验收。
可行性分析:
1) 完成本项目首先需要建立一个基本搜索引擎,其主体包括爬行器,后台数据库和前台界面等部分。我们实验室已经有了比较成熟的爬行器,并对后台数据库和前台开发有一定的经验。基本搜索引擎对服务器的要求比较高,我们实验室具有高性能的双CPU DELL2600服务器,可以满足爬行器和检索的需要。对于PageRank、分类算法等,我们也可以采用目前较成熟的技术。
2) 我们提出的“基于拓扑结构挖掘的动态聚类”、“基于超链接分析的自动摘要”、“基于访问模式挖掘的查询扩展”等新思路是本课题成功的关键,在这些方面,我们已经有了很好的研究基础。
总之,项目中的基础平台搭建部分我们将采用目前比较成熟的技术,创新部分我们已有一定
的研究基础,因此可以实现项目提出的预期目标。
拟解决的关键问题:
1) 基于网站拓扑结构挖掘的动态聚类模型
2) 超链接分析与Web结构挖掘相结合的摘要形成技术 3) 基于用户访问模式的查询扩展方法