基于信息智能搜索技术的教育资源搜索引擎研究

基于信息智能搜索技术的教育资源搜索引擎研究

2023年7月9日发(作者:)

基于信息智能搜索技术的教育资源搜

引擎研究

吉林

大学

分 类 号:TP391 单位代码:1 0 1 8 3

研究生学号:200553H115 密 级:公 开

吉 林 大 学

硕士学位论文

基于信息智能搜索技术的教育资源搜索引擎研究

Study on Education Resource Search Engine Based on Information

Intelligent Search Technology

作者姓名:杨 娜

专 业:软件工程

研究方向:计算机网络应用

指导教师:胡成全 教授

培养单位:计算机科学与技术学院

2008年10月

基于信息智能搜索技术的教育资源搜索引擎研究

Study on Education Resource Search Engine Based on Information

Intelligent Search Technology

作者姓名:杨 娜

专业名称:软件工程

指导教师:胡成全 教授

学位类别:软件工程硕士

答辩日期:2008年12月 6日

未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。

吉林大学硕士学位论文原创性声明

本人郑重声明:所呈交的硕士学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:

日期:2008 年 10 月 20 日

《中国优秀博硕士学位论文全文数据库》投稿声明

研究生院:

本人同意《中国优秀博硕士学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位论文评价数据库》和CNKI系列数据库中使用,同意按章程规定享受相关权益。

论文级别:■硕士 □博士

学科专业:软件工程

论文题目:基于信息智能搜索技术的教育资源搜索引擎研究

作者签名: 指导教师签名:

2008年 10 月 20 日

作者联系地址(邮编):吉林大学计算机科学与技术学院B228

作者联系电话:************提 要

目前这些搜索引擎(包括新一代搜索引擎)仍然存在着高覆盖率(Recall)和低精确率(Precision)的问题,这也就意味着这些搜索引擎,依旧无法提供准确有效地满足用户需求的信息服务。随着互联网信息资源的不断增长,研究智能搜索技术主动地为满足某一类信息需求的用户提供相应的信息服务。

论文首先论述了研究智能搜索技术的必要性,介绍了该课题的来源,以及该智能搜索技术的产生为互联网用户带来的巨大意义;然后分别介绍了网络中的统一资源定位符、超文本传输协议、超文本标记语言等相关概念, 这些是进行Web搜索引擎的基础工作;其次介绍了搜索引擎的定义,以及搜索引擎的实现原理,并分析了现有搜索引擎的不足,并对当前搜索引擎的关键组件及其技术作了介绍,阐明了评价互联网搜索引擎优劣的标准;最后是本文的核心部分,分为两章加以介绍,首先介绍了一种新型互联网信息智能搜索的新方法,该方法可以更加准确有效地为互联网用户提供搜索服务,随后介绍它在教育资源搜索中的应用。

关键词:知识表示,智能搜索技术,自学习,知识更新,教育资源

目 录

第一章 绪 论..............................................1

1.1

研究背景...............................................1.2

论文选题的来源及意义...................................1.2.1 课题来源............................................1.2.2 研究意义............................................1.3

论文组织结构...........................................1.4

本章小节...............................................1

2

2

2

3

4

第二章 对现有搜索引擎的概述及分析..........................5

2.1

搜索技术基础知识.......................................5

2.2

搜索引擎技术的实现方法.................................7

2.2.1 基于关键词的文档检索................................7

2.2.2 目录结构查阅........................................8

2.3

搜索技术的现状.........................................8

2.3.1 搜索技术的缺点......................................8

2.3.2 设计搜索引擎面临的问题..............................9

2.4

搜索引擎的关键组件.....................................9

2.4.1 页面采集系统........................................9

2.4.2 索引系统...........................................10

2.4.3 查询处理系统.......................................11

2.5

搜索策略..............................................11

2.5.1 采集策略...........................................11

2.5.2 索引技术...........................................12

2.5.3 相关性分析.........................................13

2.5.4 重要性分析.........................................14

2.5.5 查询处理...........................................15

2.6

搜索技术的判定........................................15

2.7

本章小节..............................................16

第三章 智能搜索技术的研究.................................17

3.1

言.................................................3.2

智能搜索的重要性......................................3.3

智能搜索方法描述......................................3.3.1 问题描述...........................................3.3.2 示例说明...........................................3.3.3 搜索问题...........................................3.4

智能搜索知识..........................................

17

18

18

18

19

19

20

I3.4.1 基本描述...........................................3.4.2 知识表示...........................................3.4.3 示例说明...........................................3.5

搜索算法..............................................3.5.1 基本描述...........................................3.5.2 搜索步骤...........................................3.6

知识的更新............................................4.1

教育资源搜索引擎......................................4.2

智能搜索在教育资源搜索引擎中的应用....................4.2.1 基于智能搜索算法的教育资源搜索引擎设计.............4.2.2 教育资源搜索引擎模型工作流程.......................4.3

实验分析..............................................20

20

24

25

25

26

30

33

34

34

35

36

第四章 信息智能搜索算法在教育资源搜索引擎中的应用.........33

第五章 总 结.............................................39

参考文献....................................................40

摘 要......................................................1

<3

致 谢

II第一章 绪 论

第一章 绪 论

近年来,随着互联网的快速普及和发展,信息资源与站点越来越多,而且信息的组织方式也非常自由。在网上,传统的信息查找方式通过浏览器在网页上点击超链接,以获得新的网页(信息)内容。当网上的信息越来越多,单纯地通过传统的、手工的获取信息的方式达到快速而且准确地获取信息显然不太可能,如何快速而且准确地从浩瀚的信息海洋中找到自己需要的信息,已经成为互联网应用中一个极为重要的研究课题。

为帮助用户寻找所需要的互联网信息,各种通用信息搜索引擎,如:Yahoo,Altavista,Google等,以及各种特定信息搜索引擎,如:Imdb,Cora等被不断地开发出来。这些信息搜索引擎可以为所有或某一类互联网用户提供相应的互联网信息服务,但由于这些搜索引擎都分别涵盖了一个庞大的网页集(至少几千万个),因而也就使得它们很难为互联网用户提供准确而且有效的信息服务。

针对这一情况,本文提出了一种能够对同类网站内部的信息网页进行智能搜索的新方法。该方法能够准确有效地将网站内部深处所需要的信息网页提取出来,它的提出为开展互联网个性化信息服务提供了一种可行的解决方案。例如:它能够从各电脑公司网站中自动搜索出有关各公司电脑报价的信息网页,从而能够为广大电脑购买者提供更为全面准确的电脑价格信息服务;它也能够从美国各大学网站主页出发,自动搜索出计算机系全部教员的论文信息网页等等。

1.1 研究背景

随着信息科技的进步和互联网的日益普及,人类正在进行信息史上最巨大的一项工程,即将现实世界现有的信息,诸如报纸、期刊、书籍、专利文献等,都放到网络上去,同时也不停地在网络上生产出数不胜数的新信息。任何人在任何时间、任何地点都可以通过网络发布任何信息。整个网络正在堆积成一个前所未有的超级大型数据库,也就是说网络已经成为一个庞大而杂乱无章的桌面图书馆。面对潮水般涌来的电子文献,人们迫切需要能够自动实现信息采集、过滤、整理和利用的各种网上智能业务。搜索引擎、自动文摘、文本分类、机器翻译、信息安全等等都是非常有力的智能工具。我们难以想象,如果没有搜索引擎等相应的智能工具,人们如何在浩瀚无边、

1第一章 绪 论

拥有着各种各样信息的因特网上冲浪。

随着互联网的迅速发展,互联网上流通的信息业在呈爆炸性增长。截至2006年12月31日,中国网民总数已达到13700万,较2006年7月(第18次互联网统计报告)半年间增加了1400万,据2008年第21次最新互联网统计报告统计中国网民总数已达到2.1亿,一个月后将成为全球网民数量做多的国家,中国互联网业发展迅猛前行。获取信息仍然是网民上网的首要目的,且网民每周上网时间继续增加,表明人们对互联网的使用越来越频繁,而互联网对人们日常生活的渗透性也越来越强。

互联网的作用已从最初的信息发布与接受,正发展成为各种信息流的主要传输渠道。尤其重要的是,传统产业正在或已经开始与互联网结缘,并利用它为在新知识经济时代,巩固和扩大自己的市场份额。美国时代华纳公司(传统传媒大王)与美国在线(互联网传媒巨子)的合并,就从一个侧面说明了这一点,即传统产业如不能及时有效的将自己融入到互联网经济中,那它就只有被经济发展的大潮所吞没。

1.2 论文选题的来源及意义

1.2.1 课题来源

在浩如烟海的Internet中找出自己所需的信息并不是一件容易的事,应运而生的搜索引擎成为Internet用户必备的上网工具。通过搜索引擎,用户可以穿梭于放置在不同地点、隶属于不同网络的网页,来获取所需要的各种信息。

本文在东师理想教育网站开发基础上开展研究,提出了一种互联网智能搜索新方法—智能搜索方法。该方法的主要目标是将互联网各信息源中用户所需要的有关信息准确有效地自动搜索出来。

1.2.2 研究意义

搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。

目前这些搜索引擎(包括新一代搜索引擎)仍然存在着高覆盖率(Recall)和低

2第一章 绪 论

精确率(Precision)的问题,这也就意味着这些搜索引擎,依旧无法提供准确有效地满足用户需求的信息服务。随着互联网信息资源的不断增长,如何主动地为满足某一类信息需求的用户提供相应的信息服务,专业信息服务网站是专门为某一类用户提供信息服务的网站,下面就以教育资源网站为例,说明对网站进行智能搜索的必要性。

教育资源网站中主要提供教学资源的相关内容,教师会常常登陆到网站中查找他们需要的关于教育方面的信息,而且某一个专业的教师常常需要他们自己这一特定领域的知识,这些教师会经常登陆到某一个特定专业的网站中,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,所有改变常常是浏览者所关注的信息;另外,当目标网页所在网页中的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题,只要稍加改动,常常会把用户搞得一团雾水,智能搜索方法正是为解决这些问题而产生的,智能搜索技术根据某一专业网站用户对所需网页内容信息的定制,并且利用网页与网页、网链与网链、网页与网链之间的相互约束关系,为用户搜索出他们所关心的信息。而且,智能搜索技术还可以为用户跟踪发现他们所关心知识的更新,并能够适应网站中目标网页所在位置有所改变或这个网站本身的组织结构、层次关系的变动情况。因此,智能搜索技术能够准确而有效地为用户提供信息搜索服务,对于某一专业信息网站用户来说,可谓是意义重大。

1.3 论文组织结构

本文分以下几部分介绍Web页面信息的智能搜索技术:

第一章,论述了研究智能搜索技术的必要性,介绍了该课题的来源,以及智能搜索技术的产生为互联网用户带来的巨大意义。

第二章,分别介绍了网络中的统一资源定位符、超文本传输协议、超文本标记语言等相关概念,以及搜索引擎的定义和实现原理,并分析了现有搜索引擎的不足,并对当前搜索引擎的关键组件及其技术作了介绍,最后,阐明了评价互联网搜索引擎优劣的标准。

第三章,是本文的核心部分,本章介绍了一种新型互联网信息智能搜索的新方法—智能搜索方法。该方法可以更加准确有效地为互联网用户提供搜索服务。

第四章,将该智能搜索技术应用到教育资源的搜索引擎当中,并加以实验分析。

第五章,总结上述工作。

3第一章 绪 论

1.4 本章小节

随着互联网的迅速发展,如何为广大网民提供准确有效的服务,如何从诸多专业信息服务网站中,用户可以根据自己的需要自动挖掘出用户本人所需要的(有针对性)资料也显得非常有意义。

4第二章 对现有搜索引擎的概述及分析

第二章 对现有搜索引擎的概述及分析

2.1 搜索技术基础知识

目前,由于搜索引擎系统是基于Web页面信息的,因此它涉及到网络上的URL(同一资源定位符)、网络之间的传输协议—HTTP协议,以及Internet上的超级文本标记语言—HTML。本章主要介绍以上几个相关概念,它们是掌握并实现搜索引擎的首要环节。

2.1.1

统一资源定位符

统一资源定位符(URL,英语 Uniform / Universal Resource Locator 的缩写)也被称为网页地址,是因特网上标准的资源的地址(Address)。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址的。现在它已经被万维网联盟编制为因特网标准RFC1738了。

在URL中还指定了访问这一文件的协议。URL可分为以下三个基本部分:信息服务类型、信息资源地址、文件路径。

下面简单说明每个部分:

z 信息服务类型。目前有以下几种:

TTP服务器。主要用于提供超文本信息服务的Web服务器。

telnet://Telnet服务器。供用户远程登录使用的计算机。

ftp://FTP服务器。提供各种普通文件和二进制代码文件的服务器。

gopher://Gopher服务器。

wais://WAIS服务器。

news://网络新闻USENET服务器。

z 信息资源地址

信息资源地址给出提供信息服务的计算机在Internet上的域名(hostname)。

z 文件路径

文件在服务器的具体路径。

5第二章 对现有搜索引擎的概述及分析

2.1.2 超文本传输协议

HTTP是HyperText Transfer Protocol的缩写,即超文本传输协议,是Web浏览器和Web服务器之间所遵守的格式约定。HTTP基于客户机/服务器模型,采用请求/应答模式,如图2.1所示。

(Client)

图2.1 请求/应答模式

HTTP协议由两组命令组成:一组为请求,另一组为响应。请求由浏览器发出,传给服务器,服务器接受请求,加以处理,返回浏览器相应的页面或执行结果。

请求命令主要包括:GET,HEAD,PUT。GET命令请求WWW页面,HEAD命令请求WWW页面描述信息,PUT命令请求存储页面。响应由HTTP协议版本号、状态码、原由短语和其他信息组成,如HTTP/1.0 200 OK,200表示请求成功。

HTTP通过客户机/服务器之间的彼此相互发送消息的方式来工作。客户机可以向服务器发送许多不同类型的消息,可以完成请求某一资源或向服务器传输信息等功能。

客户机

服务器

HTTP协议

(Server)

2.1.3 超文本标记语言

Web信息服务器在Internet上提供的超级文本是用一种称为超级文本标记语言的HTML (HyperText Markup Language)开发编制的。HTML是一种嵌入式语言,通过在正文文本中嵌入各种标记(Tag),使普通正文文本具有了超级文本的功能。

由HTML编制的Web文本在结构上分为文本首部和文本正文两部分。文本首部表达的是有关文本本身的信息;文本正文是向读者或用户提供的信息。一个Web文本的结构是这样通过HTML标记标识的:

文本首部内容……

6第二章 对现有搜索引擎的概述及分析

文本正文内容……

其中标记和标识一个HTML文本的开始与结束。

2.1.4 万维网和搜索引擎的定义

万维网(WWW)是一个庞大的信息网络集合,可利用诸如 Microsoft IE、Netscape

Navigator 或 Firefox 之类的浏览器访问该网络。利用浏览器,在客户计算机的屏幕上可以显示文本和图片。利用浏览器与其它应用程序相结合的办法还可以播放声音。用户可以很方便地从网站中选取各种内容,也可以利用该网站中的超链接转到其它网站。

搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

2.2 搜索引擎技术的实现方法

搜索引擎,就是因特网上一种基于WWW的信息检索工具,用来检索Web网站、Web网页、新闻组、图片、声音等Web文件。它实际上是一个专用的服务器,也可以说是互联网上提供信息检索服务的网站。这类网站与一般网站不同的是,其主要功能是采用人工或自动的方式去搜寻网上的信息,并将网络信息进行主题分类、建立索引,再把索引的内容存放到索引数据库中,通过查询语法为用户返回匹配资源,以帮助用户在茫茫网海中搜寻到所需要的信息。

目前的搜索引擎一般以两种提供服务:基于关键词的文档检索和目录结构检索。下面分别介绍这两种方式的实现原理。

2.2.1 基于关键词的文档检索

Web上的文档通过超链接互相联系起来,这种链接结构可以看作是一个图,每个文档就是这个图中的一个节点,而一个超链接则是一条有向边。基于这种有向图结构,

7第二章 对现有搜索引擎的概述及分析

我们可以用一个软件来遍历Web,循着超链接去访问每个Web文档。人们已经开发了不少这种软件,就是所谓的爬虫软件(spider、crawler、bot等)[4]。

搜索引擎首先利用爬虫软件按照某种遍历搜索算法来对Web进行遍历访问,并取回访问到的每个文档。这些文档以及它们的位置信息被提交给搜索引擎的索引系统。

索引系统从文档中提取一些有代表意义的信息,将他们保存在数据库里。当用户输入关键字进行查询时,搜索引擎检索数据库以查找匹配的文档,将结果返回给用户。

2.2.2 目录结构检索

不少搜索引擎在提供关键字搜索的同时还建立了一个文档目录结构,用户可以根据自己要查找的内容主题,按照目录结构逐步缩小范围。每个目录下都有一些以该目录为主题的站点,用户可以选择浏览这些站点。

2.3 搜索技术的现状

2.3.1 搜索技术的缺点

在搜索引擎刚产生的时候,人们认为可以建立一个完整的索引,然后就可以容易地查找到任何东西。但是随着Internet的发展,人们意识到这一想法显然是错误的。

首先,Internet的发展正在以加速度进行,内容急剧膨胀,不要说为其建立一个完整的索引,就是对其内容做一个准确的统计都是不可行的。因此现在用户不能期望搜索引擎返回和他的查询条件有关的所有结果了。也就是说,搜索引擎的查全率达不到理想的效果。

其次,人们发现,索引的完整性并不是影响搜索引擎检索结果的唯一因素:检索中经常是大量的无用的结果,真正有用的结果却被淹没在其中不容易发现。搜索引擎的索引和以前相比已经有了极大的增长,一般检索时都会返回大量的结果。但是人们查看和选择结果的能力与耐心没有得到相应的提高,通常还是只会注意到前面的部分。因此,搜索引擎的“精度”,尤其是检索结果排在前面的部分对于用户的有用性,是非常重要的,有时候相对于查全率来说显得更为突出[5]。

再次,搜索引擎是在用户接口以及互动性方面存在缺陷。搜索引擎应该让用户能够准确地表达出其检索条件,否则可能检索到偏离用户意图的结果。但是在这方面,

8第二章 对现有搜索引擎的概述及分析

现在的搜索引擎显得支持不够,尤其对于缺乏经验的用户。简单的逻辑(甚至有些搜索引擎都不能支持)有时不足以描述查询条件,也会导致查寻结果有较大的噪音,而且对于部分用户来说操作有困难,大部分搜索引擎没有采取手段获取用户的评价或意见,也不能做到为用户量体定做查询环境。

2.3.2 设计搜索引擎面临的问题

互联网是一个由各种随时可以访问的不同类型信息源所构成的分布式全球网络信息系统。它已经成为任意主题相关信息的最主要来源之一。然而,目前的互联网搜索引擎所提供的信息搜索,还远远不能满足获取互联网信息的实际需求,并存在以下诸多问题:

(1) Web信息表示所使用的数据类型并不严格,数据格式也很松散,从而使得挖掘其中所需要的信息数据就变得较为困难。

(2) 同一主题通常存在许多个相关信息源,而要确定这些信息源本身就是一件困难的事,而且即使在知道信息源的情况下,也需要付出许多繁杂的手工劳动方可获得有用的信息。

(3) 由于一个主题存在着许多个相关的信息源,因而也常常会出现信息重叠或矛盾的情况,因此如何有效整合来自多个信息源的信息内容,也就成为一个关键问题。

(4) 各信息源中的数据描述格式多种多样,从最严格的数据库格式到公开格式的各种文件或者科学数据,以及自定义格式的信息数据,有效处理和翻译这些格式就成为信息共享的一个主要问题。

2.4 搜索引擎的关键组件

一个搜索引擎要为用户提供检索服务,它必须具有以下几个功能模块:页面采集系统、索引系统、数据库、查询匹配系统。

2.4.1 页面采集系统

负责搜索引擎对Web文档的获取和更新。由于搜索引擎覆盖的文档数量极其庞

9第二章 对现有搜索引擎的概述及分析

大,采集过程必须是高效的,以较好的时效性来实现索引更新。

采集系统的核心是遍历算法。最简单的是宽度优先算法和广度优先算法。但这是不够的,为了提高效率,采集过程必须有一些智能特性,例如关于文档更新的频度的经验知识,关于文档类型分布的知识。另外,我们要考虑如下原因:Web不是一个静态的图,每时每刻都在变动之中,所以采集系统应具有一定的适应和调整能力。其次是出错处理:Web上的链接会出现很多的异常,Web文档的作者可能会犯各种各样的创作错误,每种情况都是不可预料的,采集系统必须被设计成足够健壮,不会因为这些潜在的错误而崩溃。

页面采集系统的工作情况一般是这样的:给出一个起始文档URL,采集系统用HTTP协议同这些文档的主机交互,取回文档内容。接着对这些文档进行分析,提取出其中的超链接,然后再取回这些链接所指向的文档。这样一直继续下去,直到完成预定的采集额。如果遇到以前已经采集过的文档,就检查一下是不是有版本更新,若有再取回。一般搜索引擎在采集时都是同时启动多个线程进行并行采集,URL数量的增长速度比较快,因此需要有一个组件来管理这些URL,在这些线程之间实现任务的分配和协调。

2.4.2 索引系统

对页面采集系统采集到的文档进行处理,以生成索引数据库。不同的搜索引擎通常采取了不同的索引策略。索引系统对搜索引擎的检索效果影响很大,是数据库的核心部件。为了改善索引对检索效果的作用,搜索引擎在建立索引时利用了文档的各种特征,提出了各种技术。

索引系统的基本处理过程如下:首先对文档内容进行分析,如分词处理,再进一步转化成文档表示形式,如向量表示。然后决定根据文档的什么元素建立索引,如单词或短语等;再参考文档的各种属性,根据搜索引擎自己的计算模型得出这些索引元素的评价(权值),把这个结果加入到索引数据库中。

数据库是搜索引擎存放索引信息的地方。有些搜索引擎只是将文档索引保存到数据库里,文档在经过处理后则不予保留;有些搜索引擎则还保留原文以备用户需要。鉴于互联网信息的海量特征,我们可以想象搜索引擎的索引数据库容量是很大的;搜索引擎每天要处理巨大数量的搜索请求,因此搜索引擎的数据库必须要高效、快速、并发处理能力强。

10第二章 对现有搜索引擎的概述及分析

2.4.3 查询处理系统

搜索引擎的查询匹配系统是另一个对检索效果有直接影响的地方。首先,一个搜索引擎能不能为用户提供比较方便的检索接口是很重要的,比如是否能处理逻辑查询语法,是否逐步精化查询。其次,检索到的结果以何种方式提供给用户也是很重要的:用户应该能最快找到最好的结果。匹配系统应该把匹配程度最好的结果放在前面。

用户通过查询接口(一般是Web浏览器显示的HTML页面)填写了检索请求后,提交给搜索引擎。查询处理系统首先将这些查询请求转化为其内在表示形式,然后与索引进行匹配,这时,在涉及到逻辑查询或短语查询时不同搜索引擎的处理方法是不同的。接着,查询处理系统对符合条件的结果进行一些调整,然后以一定的格式返回给查询者的浏览器。

2.5 搜索策略

到目前为止,Internet上的搜索引擎已比比皆是了。在搜索引擎的发展过程中,研究人员和开发者不断提出和应用新技术,IR(Information Retrieve,信息获取)和IF(Information Filtering,信息过滤)方面的研究也不断为搜索引擎的发展注入新的活力。现在Internet上有不少搜索引擎具有不错的检索效果。

2.5.1 采集策略

对于一个索引系统来说,当然是覆盖面越全越好。但是,对于一个搜索引擎系统来说,它必须要考虑实际情况。显然,现在没有一个索引系统能够为整个Web的内容建立索引,搜索引擎只能根据自身软硬件系统的处理能力确定其索引数据库的规模,在此前提下进行文档采集。这些限制条件主要包括:硬盘的存储容量—能为多少文档的存储、处理以及索引库提供空间;搜索引擎具备的网络宽带—可以以多达速度采集文档,进而决定采集周期和更新频率是否可以能够达到理想水平;运行在硬件平台上搜索引擎各软件模块的效率—能运行多大规模的数据处理同时又要提供理想的访问处理能力。

在确定了其采集规模之后,搜索引擎在运行采集时需要有所取舍,以提高其索引文档的质量。关于这一点,Martin Coster[6]提出了一个编写爬虫程序是遵循的若干建

11第二章 对现有搜索引擎的概述及分析

议,避免采集无用的文档。站点管理员可以通过建立一个Robot文件()来指导Robot采集其站点上的有用文档,这些建议往往是有价值的。在文[7]中,讨论了如何选择URL进行采集。

WebCrawler[5]提出的一个基本策略是:采集的文档要来自尽可能多的站点。WebCrawler采用一个经过修改的宽度优先遍历算法进行采集,保证每个站点至少有一个文档被建立索引。这是力求扩大覆盖面的方法。WebCrawler的遍历算法如下:

每当位于一个新的站点(以前没访问过)上的文档被发现,该站点被加入到一个要进行采集的站点列表中。在继续文档采集之前,要从每个这些新发现的站点上取回一篇文档建立索引。所有的站点都被访问之后,采集过程继续在这些已经发现的站点中进行,直到又发现了新的站点,然后再重复上面的过程,直到消耗了预定的时间或采集回了预定数量的文档。

2.5.2 索引技术

不同的搜索引擎建立索引的方法各不相同。就索引项来说,一般是基于词的索引。在国内的某些搜索引擎上,曾出现过以字作索引的情况,结果是检索结果中经常出现令人啼笑皆非的项目:以词BC作检索词查询时,结果中会出现包含ABCD的文档,但是在此文档里,AB是一词,CD是一词,BC却不成词。当然这也是由于汉语特定的语法结构不易处理所造成的。以词作索引的时候,一般需要一个辞典,记录不需要建立索引的词(无意义词)。此外,短语也被作为建立索引的对象[8],因为短语相对于单个的词来说,包含了更为丰富的语义信息,易于分析关键词和文档的相关性。短语索引通常结合词的索引一起使用。建立短语索引的一个问题是索引数据库容量的极大膨胀。

就建立索引的内容来说,有的是对文档里出现的每个词都建立索引,亦即全文索引;有的只是对标题建立索引,如WWWW;有的利用了超链接文字,如Jumpstation[9]。WebCrawler[5]的方法就是采取向量空间模型,对内容和标题都进行索引。

只对链接文字或者标题中出现的词建立的索引具有较高的价值,这种索引检索出来的结果一般具有不错的可用性。但是,一篇文档的主题词肯定有相当一些是没有出现在标题里的,那么以这些关键词进行检索的时候,这篇本来很有用的文档就没有被检索出来。另外,标题是HTML文档的一个可选部分,有不少文档根本没有标题,这给索引造成了困难。根据WebCrawler的总结和调查,基于内容的索引(全文索引)

12第二章 对现有搜索引擎的概述及分析

是必要的。下面介绍一下基本的全文索引。

全文索引,就是对文档中出现的每个词(无意义的词除外)建立索引。全文索引的好处在于简单和易于实现,并且检索时不会错过每个包含检索关键词的文档。但是问题在于:每个文档中都有不少和文档主题没有关系的词,当以这些词作为关键词进行检索时,这篇文档就会出现在检索结果中,成为一条不相关或相关性不高的记录。大量的这种结果湮没了真正相关的东西,往往让用户不易从中挑选出真正有意义的东西,导致了整个搜索质量的下降,这正是当前搜索引擎的一个主要问题。

全文索引的一般实现方法是:首先使用一个分词工具对文档进行分解,生成一个词序列。分词工具必须能够处理文档作者可能犯下的各种HTML标记错误或语法错误。接着用一个无关词列表对这个词序列过滤,剔除其中无意义的词,然后用文档向量表示方法计算词的权值。然后建立反向索引便于查询。

在建立索引时,为了区分索引词与不同文档的相关度(在不同文档中的重要性),引入了索引词在文档中的权值。这是为了在查询时依据这个权值来进行排序。

在建立索引时可以考虑的一个技术是多级索引。通过建立多级索引,可以进一步提高精度和检索效率,当然同时要进一步增大索引占用空间。

人们意识到建立索引时要达到的期望是:对能体现文档主题的内容建立索引,并只对这些建立索引;索引要能很好地体现出相关性。

2.5.3 相关性分析

确定关键词和文档之间的相关度。鉴于这个相关度是对最后结果进行排序的重要依据,各个搜索引擎都不遗余力地开发各种技巧力求得到最好的效果,主要包括:充分利用文档本身的各种信息—所包含的术语词汇以及表现形式;利用超文本的信息来改善效果[10~13],尤其是链接结构[14]和链接文字。

被普遍采用的是利用文档的内容来进行相关性分析。在生成索引的时候,如果没有为索引对象产生权值,那么就没有进行相关性分析,检索出来的结果也没有相关性分析,看不出来孰优孰劣。实际上,文档中有很多信息可以用来产生权值:

z 最基本的就是,利用索引对象在文档中出现频次的统计属性作为其相关性权值。如果考虑到文档长度的影响,可以对长度进行标准化[15]。

z 索引对象出现的位置。在一些特殊位置上出现的内容可以作为文档的核心内容而赋予较高的权值,比如HTML标题,HTML META标记等,文档的标题

13第二章 对现有搜索引擎的概述及分析

或小标题以及章节标题。

z 索引对象的显示形式。在文档中,有些内容的显示方式不同于周边的文字,例如用粗体、斜体,用不同的颜色。这些内容一般是作者有意突出的,因此可以赋予较高的权值。

链接文字是很有价值的信息,但是以前根本没有被利用,或是仅仅作为包含链接的文档中的内容进行处理。但是,实际上链接文字对于分析文档和关键字的相关性非常有用处:链接文字往往是对被链接的文档的内容的描述和概括,而且是人(链接文字的创作者)的理解和评价,可信度和参考价值比机器分析和处理方法高;链接有时指向的是无法进行采集的对象,如图像、数据库等,此时可以根据链接文字对这些不能采集的对象进行索引。将链接文字与它所指向的页面联系起来的技术最早被WWWW[16]所采用,其目的是帮助检索非文本信息,以及通过较少的文档采集来获得较大的索引覆盖面。Google开始利用链接文字来进行相关性分析和提高结果质量。

2.5.4 重要性分析

Web上的文档的作者差异很大,他们编写Web文档的背景互不相同,关于同一主题而创作出的文档质量也是参差不齐,在Web上的影响和对用户信息需求的参考价值有大小之分。因此在对文档进行区分时,除了考虑相关性之外,还引入了文档重要性的概念。

在分析文档的重要性时,主要有两种方法:一是Google所提出的Web文档链接结构[14]分析的方法,称为PageRank。Web文档之间的相互引用(链接)情况是很有价值的信息,但是在以前的搜索引擎中没有被意识到而加以利用。类似于文献的引用关系,如果一篇Web文档被越多的文档引用,那么它的PageRank(重要性)就越高。并不是所有的引用都同等重要,被PageRank越高的文档引用,被引用的文档的PageRank得到的好处越多。PageRank是用文档被引用的重要性情况的客观度量来替代人的主观重要性评价。PageRank的具体描述是这样的[17]:

假设有n个页面T1,T2,…,Tn指向(引用)页面A。参数d可以在0到1之间取值,通常取为0.85。C(A)为A中指向外边的链接数量。那么A的PageRank定义如下:

PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))

PageRank在网页上形成一个概率颁布,所有网页的PageRank的和是1。

14第二章 对现有搜索引擎的概述及分析

PageRank可以采用简单的递归算法来计算。从上面的公式可以看出,如果一个页面被很多的页面引用(链接),或是被一些PageRank很高的页面链接,那么它就是具有很高的PageRank。这是可以理解的:如果被广泛引用,那么说明该页面得到普遍的认可或很有参考价值,应该具有较高的PageRank;如果被比较重要的页面引用,它也应该具有的较高的PageRank—一个重要的页面(比如Yahoo或其他影响较大的网站)上出现的内容链接当然是经过仔细挑选的。

第二种分析文档重要性的方法是认为:一个网站或网页如果被越多的人选择浏览,那么它的重要性就越大。根据以前大量的检索行为中,用户选择访问的网站页面以及他们在些页面上逗留的时间来确定这些网站和页面的重要性。

2.5.5 查询处理

用户提交了查询条件之后,搜索引擎要进行查询处理。一般来说,查询处理包括如下过程:查询条件处理和转化、匹配、排序、返回。

尽管一般用户在进行查询时给出的查询条件都比较简单(平均1.5个单词),但是在进行匹配之前还是有必要转换成搜索引擎的内部表示形式。如WebCrawler在查询匹配时采用的是向量空间模型,因而必须将其查询条件转化为向量表达方式。匹配过程就是选择满足查询条件的结果的过程,一般来说就是选取查询条件对应的索引项下的文档。排序的依据主要有两个:文档和查询条件的相关度,文档的质量(重要性)。Google是结合查询词的权值(相关性)和PageRank(重要性)对查询结果进行排序。有些搜索引擎是将这些信息直接包含在索引当中,排序时就按照这些信息;有些搜索引擎则是要进一步考虑查询条件中各个查询词的重要性,如WebCrawler的向量表示匹配方式需要分析各个查询词的权值,这样,查询条件和文档的相关性是实时计算出来的。部分搜索引擎在将结果返回给用户之前会对每条结果给出一个得分评价,而在这个评价标准也是各不相同、互不兼容,但是都是用来反映结果的可用性。

2.6 搜索技术的判定

一个互联网搜索引擎的优劣,与以下几个因素密切相关[18]:

z 网页覆盖率。一个搜索引擎网页数据库包含的网页越多,它就越有可能为提供更

15第二章 对现有搜索引擎的概述及分析

全面的网页检索。

z 网页检索速度。一个搜索引擎网页数据库的检索速度越快,它就越有可能为更多用户提供检索查询服务。

z 网页检索质量。描述搜索引擎检索质量指标分别是precision和recall,前者描述查询的准确性,即所检索出的相关文档占全部检索出文档的比例,一个系统的准确率越高,则其检索到的信息噪音越低;后者是描述检索结果的完全性,即检索出相关文档占全部相关文档的比例。一个系统的查全率越高,则说明它所发现文档的能力越强。

z 网页更新率。由于互联网是一个动态的信息源,因此,一个好的搜索引擎的网页数据库内容也应能及时反映这种变化。

2.7 本章小节

对搜索引擎所涉及的几个相关概念,进行了系统的说明。本章系统地介绍了当前搜索引擎实现原理,并分析了现有搜索引擎的不足,并对当前搜索引擎的关键技术作了介绍,最后,阐明了评价互联网搜索引擎优劣的标准。

16第三章 智能搜索技术的研究

第三章 智能搜索技术的研究

3.1 引 言

目前解决Web信息智能搜索的基本方法就是,首先根据所提供大量的相关网页与超链的样本集合,进行归纳学习(数据挖掘),以获得识别这类网页和超链的模式知识,然后在Web信息的搜索过程中,利用这些知识来指导智能搜素,直到搜索任务结束为止。

尽管当前从各方面对搜索引擎加以改进,并且国内外有关互联网信息智能搜索的研究工作已取得了一些成果

[19~22],但是目前采用的这种智能搜索方法,完成从若干网站中自动获取与某一专业相关的Web网页工作,存在着以下三点明显不足:

(1) 这种智能搜索方法,没有能够充分利用网页间的相互关联信息以及被搜索网站内部的组织结构知识,这也就导致了在被搜索网站组织结构和网页内容较为复杂(包含有较多网页、超链和组织深度)时,(目标)信息网页搜索效率迅速下降。

(2) 这类智能搜索方法,需要实现提供大量具有代表性的网页和超链,以作为学习的训练样本,但这种要求在实际应用环境中常常很难满足。

(3) 这类智能搜索方法,由于没能充分利用网页间相互关联以及网站内部组织结构的有关知识,来帮助提高其网页与网链的识别能力,从而限制了这类方法搜索准确率的提高与改进。

为有效解决的信息网页智能搜索所需知识的表示、应用与获取问题,本文将介绍一种将目标网页搜索路径(一个网站内)所涉及网页、网链及它们之间关联等特征(描述)有机结合起来,以作为智能搜索所需的知识以及开展这种智能搜索的相关内容。利用这种方法,不仅可以有效地完成目标网页的搜索工作,而且还能通过对搜索过程和结果的自学习,不断完善已有的搜索知识,从而使得自己的搜索能力,随着搜索路径的不断增多而日趋提高。

17第三章 智能搜索技术的研究

3.2 智能搜索的重要性

目前,尽管几大主要搜索引擎都在从现有的技术等各个方面对其加以改进,但现有搜索引擎的搜索结果仍不能满足人们实际的需要,因此,对现有搜索引擎进行改进是十分必要的。本文提出的智能搜索方法就是为解决用户订制网站中相关信息服务的。

在许多专业的信息网站中,用户往往只对某一类信息感兴趣,例如:教师可能常常关心网上教学资源的网页信息,股民会每天经常关注股票网站中提供的价格信息。对于这类用户,每天网页信息的更新常常是他们关注的焦点,如果发现了新的相关内容网页,也许是他们生活中的重中之重;而与此同时,对于他们来说,他们经常关注的网页如果仅仅因为网页在网站中位置的改变或者因为网页在网站中层次结构的改变,常常会给他们带来许多不必要的麻烦。

为此,智能搜索技术应运而生,只要用户能够对他们所关心的网站内容有所了解,并根据智能搜索的技术需要,为他们自己量身订制他们所关心的内容网页,智能搜索技术就会为他们提供准确有效的信息服务,整个搜索过程无需用户的参与,使用户的参与降至最低,又能够准确、及时地为用户提供他们所关心的信息网页。

3.3 智能搜索方法描述

3.3.1 问题描述

进行智能搜索所要解决的问题是:根据给定若干网站网址集合(URLs),并根据所提供的有关网站及其网页与超链的搜索知识,就可以从这些网站中智能搜索出所需要的网页。整个搜索过程自动完成而无需用户参与。

在智能搜索的过程中,用户首先给定一个或若干个网站的入口(网址集合URLs),并根据自身的需要对一个或若干个网站中的网页信息内容进行定制,这样智能搜索方法就可以从这些网站中变化,为用户搜索出他们所需要的网页。当用户所关心的内容位置发生变化,或所在网站的结构发生变化,仍能被准确有效地搜索出来。更为主要的是,这种搜索技术还能发现用户所关心的内容,为用户搜索出来。

18第三章 智能搜索技术的研究

3.3.2 示例说明

这里用户感兴趣的网页描述,均通过实现给定的网站网址集合以及相应的搜索知识来加以准确地表示。以下是一些智能搜索的具体应用实例:

(1) 根据给定的教育网站网址集合,以及关于搜索其中关于教学课件网页的有关知识,就可以从教育网站中搜索出用户所需要的教学课件的网页,并且智能搜索技术还能发现新的课件,及时地为用户将新的相关网页搜索出来,整个过程无需用户的参与。

(2) 根据给定的若干所大学网站网址集合,以及搜索其中计算机系教员论文网页的有关知识,就可以从这些大学网站中自动搜索出需要的论文网页。

(3) 根据给定的若干经营粮食贸易公司网站网址集合,以及搜索其中发布公司购销粮食商品信息网页的有关知识,就可以从这些经营粮食贸易公司网站中自动搜集出所需要的购销粮食商品信息网页。

3.3.3 搜索问题

显然,现有的智能搜索方法和技术,无法胜任上述信息网页的搜索工作,因为不可能收集足够多而且有代表性的训练样本,以便提供智能搜索所需要掌握的搜索知识。再者就是这些网站内部组织结构及其网页内容也是在不断变化的。因此要想完成目标网页的搜索工作,就需要能够动态获取智能搜索所需的(至少是一部分)搜索知识,而且还应具备能够根据网站内部变化,动态更新所掌握知识的能力,只有这样才能够完成网页的智能搜索工作。

本文将介绍一种能够对(同类型)网站内部的目标网页,进行智能搜索的新方法。该方法能够准确有效地将隐藏在网站内部深处所需要的网页搜索出来。该方法的提出,为开展基于互联网的个性化信息服务提供了强有力的支持。

这种互联网信息智能搜索新方法同以往的研究工作相比,具有以下几个特点:

(1) 它是以同类网站内部的有关信息网页作为智能搜索的具体目标;

(2) 它利用网站与网页两层描述知识来帮助完成深度优先的网页智能搜索工作;

(3) 本方法能通过对自身网页搜索过程与结果的不断学习,逐步更新完善自身的搜索知识,而整个过程却无需用户的参与。

19第三章 智能搜索技术的研究

3.4 智能搜索知识

3.4.1 基本描述

在用户对网站中所关心的内容进行定制时,不仅需要给定网站网址的集合,还需要根据对一个或多个同类若干同类(组织结构和网页内容描述类似)的网站内部的相关知识的总结给出搜索知识。进行智能搜索时,将把用户提供的相关知识的总结作为智能搜索前的搜索知识。

为了能够准确有效地搜索出深藏在网站内部所需要的信息网页,本文提出了基于搜索路径的网页搜索知识描述方法(简称多层知识方法)。该方法通过搜索路径,将网站、网页与网链这三种不同类型对象的描述知识有机地结合在一起,共同组成了特定网站目标网页智能搜索所需要的搜索知识。

利用多层知识表示方法所表达的搜索知识,搜索软件能够将隐藏若干同类(组织结构和网页内容描述类似)的网站内部,用户所需要的各相应(若干)目标信息网页(即使网站内容或结构有所改变)准确有效地搜寻出来。多层知识表示方法的核心就是将可能的搜索路径作为搜索知识的描述主体(对象),对构成搜索路径的相关网页(对象)与网链(对象)进行描述。通过描述一个网站中的可能搜索路径,可以有效地将网页间相互关联的内在规律表示出来,并以此作为网页搜索知识的重要组成部分,这样做显然有助于更准确有效地搜索出相应的目标网页。例如:在了解掌握“搜索到大学主页之后,下一个遇到的网页将会是系或院的主页,而接下去就会是某个(具体)系的主页,最后才会是教员主页”这样的搜索知识之后,无疑将会使教员信息网页的搜索和有关网页的知识更加准确有效。

3.4.2 知识表示

如下图3.1所示,就是一个多层知识表示方法的示意描述。在利用多层知识表示方法描述搜索知识时,首先要对搜索知识的主要组成对象:搜索路径进行描述。

为了有效描述搜索路径,这里引入了“路标”网页的概念。所谓“路标”网页就是指该网页的存在对指导搜索路径目标网页起着积极的引导作用。接着,将会看到引入“路标”网页,对有效约束可能发生的搜索路径以及确认搜索路径的有效性都起到了很好的促进作用。

20第三章 智能搜索技术的研究

1

1.1.1

1.2.11.2.22

1.3.1

1.3.21.3.3图3.1 多层知识表示方法的示意描述

图3.1中各菱形框代表与搜索过程密切相关的各基本网页。这些基本网页或其中部分信息可能包含在最终的信息搜索结果中,或标志着搜索过程的一个重要阶段,或它能够被较为容易地识别出来。

例如:由于在大学计算机系教员信息网页搜索过程中,所获得的大学主页和计算机系教员信息网页搜索过程中,所获得的大学生主页和计算机系主页中的一部分信息内容,最后将与教员的有关信息结合在一起,作为最终的搜索结果反馈给用户。因此在描述大学计算机系教员信息网页搜索知识时,大学主页和计算机系主页全部都将作为基本网页参与描述有关的搜索路径。

图3.1所示搜索知识的基本含义就是:从一个基本网页1搜索到下一个基本网页2时,中间最多可能存在三条基本搜索路径,这三条基本搜索路径分别是:

①通过基本网页1中的某个网链,就可直接(到达)获得基本网页2;

②经过基本网页1中的某个网链,以及一个中间网链(一个过渡网页中的某个网链),便可(到达)获得基本网页2;

③经过基本网页1中的某个网链,以及两个中间网链(分别经过两个过渡网页中的各自一个网链),方可(到达)获得基本网页2。

利用多层知识表示方法描述搜索知识时,除了首先描述以上所介绍的搜索路径有关知识之外,还需要给出与这些搜索路径密切相关的网页与网链的识别知识。如图3.1所示,其中的每一个矩形框和菱形框都分别对应一个知识单元,其中分别存放着识别相应网页或网链所需要的有关知识。

例如:假设存在三个网页A,B,和C,且有从网页A到网页B,以及从网页B到网页C均存在三条可能的搜索路径,如果只用网页A和网页C来描述可能的搜索路径,就需要表示九条可能的搜索路径,如果保留网页B作为一个“路标”网页,则总共只需要表示六条搜索路径(从A到B三条以及从B到C三条);并且这六条可能

21第三章 智能搜索技术的研究

的搜索比前面九条路径都要短许多。

此外,根据“路标”网页B的内容,还能够帮助尽早确认搜索路径是否正确。因此,多层知识表示方法的一个特点就是将网页搜索过程分为若干“路标”网页所界定的搜索段落,这样做不仅有助于有效减少实际可能发生的搜索路径,更重要的是,搜索软件根据这些“路标”网页的搜索情况,可对进行搜索(路径)及其有关网页、网链进行相互确认,进而有助于对搜索路径进行交叉确认,以便尽早确认搜索路径的正确性,或尽早纠正不正确的搜索路径。同时也能够为稍后的搜索知识自我完善提供所需的训练样本示例。

在确定了整个搜索路径描述所涉及的有关网页,即搜索的起始网页、“路标”网页和最终的目标网页(有时部分“路标”网页也是搜索的目标网页,这些网页统称为基本网页)之后。接下来就是要确定各基本网页之间搜索路径所涉及的有关网链,也就是要确定从基本网页A到基本网页B之间最多可能会有几条搜索路径(称为基本搜索路径),以及每条基本搜索路径需包含哪些网链,即通过相应基本搜索路径上的这些网链(超级链接),就可以从基本网页A搜索至基本网页B。在图3.1所示的多层知识表示方法中,基本网页均用矩形框来表示,而构成基本搜索路径中各网链均用菱形框来描述。

基于多层知识的知识描述说明如图3.2所示。

多层知识表示方法所描述的搜索知识中,各网页识别知识单元所包含的主要内容有:所在搜索路径编号、网页内容特征描述类型(是标题、网链还是其它部分文字)、内容特征(单词)、特征在(导致正确搜索结果的)相应搜索路径上出现的次数,以及它在相应搜索路径上出现的总次数。而各网链识别知识单元的主要内容则包括:所在搜索路径编号、网链内容特征,相应各标题文字内容特征(如果有的话)(单词)、特征在(导致正确搜索结果的)相应搜索路径上出现的次数,以及在相应搜索路径上出现的总次数。在(菱形框所对应)网链识别知识单元中,仅包含识别下一步搜索所需要的网链知识。也就是说搜索进入有菱形框所代表的搜索步骤时,系统将只关心如何获得下一步待搜索的网链,而不在意当前所获得的究竟是什么网页。

用户在搜索开始之前,需根据自己对要搜索网站所含内容的基本了解,以及对少数这样网站内部搜索路径及其相关网页具体内容的归纳总结,给出目标信息网页智能搜索所需要的初始搜索知识,并将这些搜索知识用如图3.2所示的多层知识表示方法描述出来。

22第三章 智能搜索技术的研究

SearchKB = SearchPathSet + WebPageSet + WebLinkSet

SearchPathSet = SearchPath1 + SearchPath2 + … + SearchPathpathnum

SearchPathi = (PathID, StartPageID, EndPageID,

PathLength, PathUnitSeti)

PathUnitSeti = (WebLinkID(1)i, WebLinkID(2)i, …, WebLinkID(pathlength)i)

WebPageSet = WebPage1 + WebPage2 + … + WebPagepagenum

WebPagei = (PageID, TermSetSize, TermSeti)

TermSeti = ((TermType, Term, Pnum, Num) (1)i,

(TermType, Term, Pnum, Num) (2)i,…,

(TermType, Term, Pnum, Num) (TermSetSize)i)

WebLinkSet = WebLink1 + WebLink2 + … + WebLinklinknum

WebLinki = (LinkID, LinkTermSetSize, LinkTermSeti, PathID)

LinkTermSeti = ((TermType, Term, Pnum, Num)(1)i,

(TermType, Term, Pnum, Num) (2)i, …,

(TermType, Term, Pnum, Num) (LinkTermSetSize)i)

图3.2 基于多层知识的知识描述说明

多层知识表示方法是通过两个层面来描述进行网页准确搜索所需的有关搜索知识。这两个层面分别是:与网站内部组织结构密切相关的搜索路径知识的相关描述,以及与网站内容(网页)密切相关的搜索基本单元(网页或网链)知识的相关描述。采用这种以搜索路径对象描述为搜索知识的表示主体,网页或网链对象(搜索基本单元)描述为搜索知识基本组成的多层知识表示方法,不仅能够帮助准确有效搜索出所需要的目标网页,而且也有助于实现搜索知识的自我完善。

图3.2所示就是利用多层知识描述方法来表示搜索知识的具体内容。以下对图3.2中的有关内容作解释说明:

(1) 第一行,是对整个搜索知识内容总体描述,即整个搜索知识是由搜索路径描述、基本网页描述和网链描述这三部分知识组成。

(2) 第2,3,4行,是对搜索路径描述知识表示,即每条搜索路径有关知识是由搜索路径基本属性描述和搜索路径基本单元(网链)描述这两部分知识组成。其中,搜索路径基本属性描述主要包括路径编号、构成这一搜索路径的开始基本网页编号和结束基本网页编号,以及本路径长度(路径中的网链数),搜

23第三章 智能搜索技术的研究

索路径基本单元(网链)描述是将构造这一搜索路径的各网链(编号)一一列举出来。

(3) 第5,6,7行,是对基本网页知识的描述,即每个基本网页知识是由基本网页的属性描述和相应网页识别知识描述这两部分组成。其中,基本网页的属性描述主要包括网页编号和网页特征集合大小,而网页识别知识描述则是将识别这一网页所需要的特征属性(特征类别、特征内容、特征在正例中出现次数和特征的总出现次数)一一列举出来。

(4) 第8,9,10行,是对搜索路径基本组成单元(网链)的知识表示,即每个网链有关知识是由网链基本属性描述和网链识别知识描述这两部分知识组成。其中,网链基本属性描述则主要包括网链编号、网链所在路径编号和网链特征集合大小,而网链识别知识表述则是将识别这一网链所需要的特征属性(特征类别、特征内容、特征在正例中出现次数和特征的总出现次数)列举出来。

3.4.3 示例说明

图3.3 某学校网站

我们用从B网页到C网页搜索的部分过程进行实验,

BC11: Faculty(2,2)

BC21: Faculty(2,2) + Title(2,2) + Staff(2,2)

BC22: Faculty(2,2)

搜索知识中基本网页共有两个B和C,前者无需再识别;后者则是利用标题内容中的两个特征就可加以识别。其中特征类型说明所使用的T和L分别表示该特征为网页的标题(title)内容和超级链接(anchor text)内容。

在实际操作时,一般都是将以上所描述的智能搜索所需的搜索知识用三个知识对

24AB11AB21AB22网站

主页A网页

计算机系主页B网页BC11BC21BC22BC31BC32BC33AB31AB32AB33AB31AB32AB33AB33教员目录网页C网页CD11CD21CD22论文网页D网页第三章 智能搜索技术的研究

象,即搜索路径、基本网页和搜索路径基本单元(网链),结合在一起来加以描述。在后面章节中本文将要介绍这一搜索知识的具体应用方法,即如何进行智能搜索,以及如何完善自身的搜索知识。

1. SearchKB = SearchPathSet + WebPageSet + WebLinkSet

2. SearchPathSet = SearchPath1 + SearchPath2

3. SearchPath1 = (S1, P1, P2, 1, (L1))

4. SearchPath2 = (S2,P1,P2,2,(L2,L3))

5. WebPageSet = WebPage1 + WebPage2

6. WebPage1 = (P1,0,NULL)

7. WebPage2 = (P2,3,((T,“Falculty”,4,4),

(T,“Title”,2,2),(T,“Staff”,2,2))

8. WebLinkSet = WebLink1 + WebLink2+ WebLink3

9. WebLink1 = (L1,1,(L,“Falculty”,2,2),S1)

10. WebLink2 = (L2,3,((L,“Falculty”,2,2),

(L,“Title”,2,2),(L,“Staff”,2,2),),S2)

11. WebLink3 = (L3,1,((L,“Falculty”,2,2)),S2)

图3.4 基于多层知识表示的搜索知识描述示例

3.5 搜索算法

3.5.1 基本描述

互联网信息智能搜索中两个关键问题就是:搜索知识的具体内容与表示方法,以及搜索知识的(自动)获取方法。为了有效解决这两个关键问题,前面已经介绍了一种新的搜索知识表示方法,即基于多层知识的表示方法。该方法的最大特点就是以搜索路径描述为主导,将搜索过程所涉及的相关网页与网页有机结合为一个整体。通过充分利用搜索路径及其相关网页与网链之间的相互关联和约束的内在规律特点,即可成功地进行目标网页准确有效地搜索,也可帮助进行搜索知识的自我完善。

如图3.4所示,就是利用前面所介绍搜索知识表示方法,及其所表示的具体知识,采用深度优先的启发搜索策略,从事先指定的若干网站中,分别搜索出所需要的各目标网站的整个处理流程。此外,在搜索的过程中,还可以根据已完成的搜索过程及结果,不断地进行完善目前所拥有的搜索知识,以便能够不断地提高自己的搜索能力。

25第三章 智能搜索技术的研究

3.5.2 搜索步骤

搜索总结器

搜索工作区

初始网站地址集

搜索分析器

互联网

搜索知识库

图3.5基于多层搜索知识的网页信息智能搜索结构描述

在本文中,智能搜索算法所采取的主要处理步骤如下所示:

(1) 根据给定网站地址获取相应主页;

(2) 根据当前的搜索状态和搜索知识,以及当前所获得的网页,推断下一步搜索网址;

(3) 根据前一步分析结果,决定是继续搜索相应网页,还是搜索已失败或成功;

(4) 在当前网站搜索结果结束(无论搜索失败或者成功),对本次搜索所经历的所有搜索路径进行分析总结,以完善自己的搜索知识;

(5) 不断重复上述四个处理步骤,直到事先给定的网站全部被搜索完毕为止。

智能搜索算法总体处理流程如下图3.5所示。

在智能搜索算法总体处理流程中,SearchArea是整个智能搜索算法实际运作时的工作区,用于记录当前搜索过程的各种工作状态和参数(当前需要读取网页的网址、当前所读取网页的内容特征集、当前的搜索路径和搜索基本单元网链及其相应的开始与结束基本网页等);InitSearchURLSet是事先给定(需逐个搜索出所需各目标网页的)网站地址(URLs)集合;SearchKB是智能搜索所需要的启发搜索知识;最后是EventLog,它用于记录一个网站的整个搜索过程,包括搜索的每个步骤及其结果。EventLog的记录内容将用于搜索知识的补充与完善的处理过程。

26第三章 智能搜索技术的研究

//读入初始搜索知识、初始搜索网站集合,以及建立初始搜索工作区和日志archProc(SearchArea,InitSearchURLSet,SearchKB,EventLog) ;//从初始搜索网站集合取一个尚未搜索的地址,若没有,则结束整个搜索工作

((OneURL = GetOneInitSearchURL(InitSearchURLSet)) == NULL)

Return;

//从互联网上读取指定地址的网页

Page = FetchOneWebPage(OneURL,SearchArea) ;

//记录当前读取网页结果

RecordEvent(OneURL,SearchArea,EventLog);

//若读取网站首页失败,则准备搜索下一个网站

(OneWebPage == NULL) goto 2;

//分析所读取的网站主页,以获取该主页各网链内容描述特征

t = ParseWebPage(OneWebPage,SearchArea);

//从主页开始搜索相应网站,从中搜索所需要的各目标网页

=SearchOneSite(TermSet,SearchArea,SearchKB,EventLog,{OneWebPage});

//根据上述网站的搜索过程及其搜索结果,对当前的搜索知识进行完善

SearchKB(WebPageSet,ret,SearchArea,EventLog,SearchKB);//重新初始化搜索工作区和日志,准备搜索下一个网站

earchArea(SearchArea,EventLog); goto 2;

图3.6 智能搜索算法总体处理流程

接下来,本文将要分别介绍图3.5所示的之智能搜索算法总体处理流程中,两个主要处理函数部件,即一个网站的智能搜索与一个网站搜索日志的分析总结。图3.6所示,就是基于启发搜索知识,从一个网站中搜索与一个网站搜索日志的分析处理步骤,也就是函数SearchOneSite(TermSet,SearchArea,SearchKB,EventLog,WebPageSet)的主要处理内容。

27第三章 智能搜索技术的研究

SearchOneSite(TermSet,SearchArea,SearchKB,EventLog,WebPageSet){

//根据搜索知识、各网链特征集以及当前搜索路径,计算各网链搜索优先值

= ComputeURLPriority(TermSet,SearchArea,SearchKB) ;

//按照各网链搜索优先值将其顺序压入站中,以便进行回溯搜索

LSetToSearchStack(URLSet,SearchStack,SearchArea) ;

//从当前网链集(栈)中,弹取出一个候选URL(当前搜索优先权值最大)

= GetNextOneURL(SearchArea,SearchStack) ;

//若当前候选网链集(栈)地址已被搜索完,则进行搜索回溯

(OneURL == NULL) {返回搜索失败信息

If(UpdateSearchArea(SearchArea,NULL) == NOBACK) return FALSE;

Goto 3;

}

//从互联网上读取指定URL的网页,若读取失败,

5.(OneWebPage == FetchOnePage(OneURL,SearchArea);

//记录当前搜索参数与结果

Event(OneURL,SearchArea,EventLog);

//若读取失败,则准备读取下一个网页

(OneWePage == NULL) goto 3;

//分析所获网页并取得其内容特征

t = ParseWebPage(OneWebPage,SearchArea);

//根据搜索知识、网页特征与搜索路径,确定网页是否为下一个基本网页

= CheckWebPage(TermSet,SearchArea,SearchKB);

(Result == NEXTLINK)

//它是下一个网链所在网页,更新当前搜索状态

UpdateSearchArea(SearchArea,Result);

(Result == NEXTPAGE)

//它就是下一个网链所在网页,更新当前搜索状态

//将已搜索到的基本网页收集在一起,作为最后搜索结果

WebPageSet = WebPageSet + {OneWebPage};

//若已获得最后一个基本网页,则返回搜索成功信息

if(UpdateSearchArea(SearchArea,Result) == LASTONE) return TRUE;

}

//若它应是而实际却不是下一个基本网页,则更新当前搜索状态

else goto 3;

//之后准备进行回溯搜索

goto 1;

//继续搜索

图3.7 一个网站的智能搜索处理步骤

现在就图3.6所示的网站信息智能搜索算法中的几个主要处理函数的功能及其有关内容进行解释说明:

28第三章 智能搜索技术的研究

(1) 智能搜索算法所使用的EventLog对象,是用于记录智能搜索过程中所进行的所有网页读取操作及其操作结果。EventLog的数据记录内容主要包括:操作时间、网址、网页本地存储地址(文件名)、读取结果、当前搜索路径编号、当前搜索路径单元编号以及当前网链栈的指针值等。EventLog所记录的搜索内容将用于相应网站搜索结束时的分析学习,以便补充和完善现有的搜索知识。

(2) 网页分析函数ParseWebPage的主要功能就是分析网页的HTML描述内容,主要将网页内容描述特征分为标题内容特征(title区域)、链接文字特征(anchor

text)和其它内容特征。而在识别基本网页时,还使用了来自指向该网页的网链内容(另一网页中的anchor text)作为其第四种类型的描述特征。

(3) ComputeURLPriority函数和CheckWebPage 函数,均采用了基于概率的计算公式;来帮助计算各候选网链的搜索优先权值,或者帮助识别基本网页。该计算公式的具体内容就是:

1-∏((1-pi)

其中,pi为各特征在正例中的出现概率,它是该特征在相应搜索路径上出现并导致正确搜索结果的次数÷该特征在相应搜索路径上出现的总次数而得到的。其中,ComputeURLPriority函数根据网链内容的描述特征各(计算)概率值,以及上述计算公式,计算出各候选网链的搜索优先权值,从而实现基于启发搜索知识来指导搜索过程,提高搜索效率之目的。CheckWebPage函数则是根据基本网页内容的四种类型的描述特征的各(计算)概率值,以及上述计算公式,计算相应网页属于正例的综合概率值,并通过判断该综合概率值是否超过指定阈值(本文取0.78),来确定当前这个搜索路径上网页是否是所要搜索的一个基本网页。采用这种概率表示方法,来描述网页网链的内容识别特征,有助于通过不断学习新的实例,来完善现有的搜索知识。

⑷UpdateSearchArea函数,它负责根据当时的搜索状态和搜索结果,确定下一步的搜索方向。如果在某个搜索步骤已获得了一个网页,那么它根据以下三种情况,更新搜索状态(主要是选择搜索路径和搜索路径基本单元)。这三种情况分别是:

z 当前搜索路径的下一步仍是一个网链,这是只需修改(当前搜索路径上的)搜索路径基本单元编号,使之指向当前搜索路径的下一个搜索基本单元,(从计算当前网页所有网链搜索权值开始)继续进行搜索即可。

z 在当前搜索路径的下一步仍是一个基本网页,但这是识别判断当前所读取的网页并不是所要求的基本网页时,只需要利用当前网链栈的内容继续进行回溯搜索即

29i第三章 智能搜索技术的研究

可(若当前网页所包含的链接均已被搜索完毕,则需要回退到前一个搜索单元;若被搜索路径均已回溯完毕,则就要选择下一个搜索路径;若该搜索路段所有搜索路径均已搜索完毕(NOBACK),则返回搜索失败信息)。

z 当前搜索路径的下一步应是一个基本网页,这是识别判断当前所读取的网页也正是所要求的基本网页,这是就要重新设置搜索路段(若已无下一个搜索路段,则返回搜索成功信息),并设置新搜索路段中的第一个搜索路径编号以及相应的第一个搜索基本单元编号,然后(从计算当前网页所有网链搜索权值开始)准备继续搜索。

现在再对图3.6所示的网页信息智能搜索算法中所使用的候选网链栈的有关情况作一下说明。如图3.7所示,整个SearchStack的内容对应一个搜索路段(由两个基本网页之间的所有搜索路径构成)的全部搜索情况,即保存着搜索一个搜索路段中所有可能搜索路径所涉及的候选网链内容,以便在某部搜索失败时能够进行搜索回溯搜索。SearchStack中的每个元素主要包含三个内容,网链内容,搜索权值和是否搜索过。而每个搜索路径中的基本搜索单元中则保存三个指针,分别指向其保存在SearchStack中(与本搜索单元对应的)所有网链内容开始(S)、结束(E)和当前搜索值(P),以确保回溯搜索能够顺利进行。

SearchStack(搜索栈)

L11 21

L22

L31

L32

L33

Li1

S P E

LLLkm

Li2 ij in

一个搜索基本单元

图3.8 SearchStack的示意说明

3.6 知识的更新

搜索知识的获取方法,即为图3.5中ModifySearchKB部分的操作,在这里的智能搜索算法中,有关搜索知识自我完善函数ModifySearchKB的主要操作内容解释如下所示。图3.8,就是根据基于启发搜索知识的搜索过程与搜索结果,对已有的搜索知识(基本网页的识别知识和搜索路径上的各基本搜索单元网链的识别)进行补充与

30第三章 智能搜索技术的研究

完善处理函数的主要处理步骤。下面就图3.8所示的搜索知识自我完善算法中的几个主要处理函数的功能及其相关内容作一下解释说明。

(1) GetOneSearchPage函数负责从所完成的网站各目标网页的搜索结果(WebPageSet)中,依次逐个选择定义描述搜索路径中所涉及的各基本网页,以便能够利用所搜索出的这些基本网页内容,对现有的基本网页识别知识进行补充与完善。

(2) UpdateWebPageKB函数则根据ParseWebPage函数对所获基本网页内容的分析而得到内容特征描述集合,对搜索知识中相应基本网页识别知识所对应的有关特征出现次数(正例出现次数和总出现次数)作相应的修改。具体做法是:根据各网页内容描述特征,修改目前相应网页识别知识单元中已有特征的正例出现次数(加1)及其总次数(加1),对目前相应网页知识单元中尚没有的特征,要增加该特征,并将其正例出现次数设置为1,同时也要将其总次数设置为1,以此来改变它们在网页识别过程的(计算)概率,从而达到不断提高准确识别各基本网页的目的。

(3) GetOneSearchLink函数负责根据搜索知识中所定义的描述各搜索路径,从所记录的网站各目标网页搜索过程和搜索结果(EventLog)中,逐个选择搜索路径中各基本搜索单元(网链)的搜索信息(包括成功搜索和失败搜索情况下的网链),以便利用这些在搜索过程中出现的网链内容,对现有相应的网链识别知识进行补充与完善。

(4) UpdateWebLinkKB函数则是根据ParseWebPageLink函数,对搜索经过的网页内容的分析而得到的网链内容特征描述集合,对相应搜索路径所涉及的基本搜索单元中的网链识别知识对应的有关特征出现次数(正例出现次数和总出现次数)作相应的修改。具体做法是:根据各网页内容描述特征,修改目前相应网页知识单元中已有特征的正例出现次数(成功搜索加1,否则不变)及其总次数(始终加1);对目前相应网链识别知识单元中尚没有(导致搜索成功的)特征,要增加该特征,并将其正例出现次数设置为1;也要将其总次数设置为1。以此来改变它们在网链识别过程中的(计算)概率,进而达到不断提高各网链识别准确性的目的。

31第三章 智能搜索技术的研究

ModifySearchKB(WebPageSet,ret,SearchArea,EventLog,SearchKB)

//逐个取出搜索得到的基本网页

OneWebPage = GetOneSearchPage(WebPageSet);

//若有,则准备分析网页内容,取得其内容描述特征集合

If(OneWebPage != NULL) {

TermSet = ParseWebPage(OneWebPage);

//根据当前基本网页的特征内容,更新基本网页识别知识中的相应知识

UpdateWebPageKB(TermSet,SearchKB,WebPageSet);

Goto 1; //继续准备更新另一个基本网页识别知识

}

//从搜索过程的记录日志中,逐个取出每条搜索路径及其搜索基本单元

OneLinkUnit = GetOneSearchLink(SearchArea,EventLog,ret);

//若有,则准备分析获得其网链内容描述特征集合

if(OneLinkUnit != NULL) {

TermSet = ParseWebPageLink(OneLinkUnit);

//根据当前网链特征内容,更新相应搜索基本单元(网链)中的识别知识

UpdateWebLinkKB(TermSet,SearchKB,SearchArea,ret);

Goto6; //继续准备更新另一个搜索基本单元(网链)中的识别知识

}

}

图3.9 搜索知识的自学习处理步骤

图3.5和图3.6所介绍的互联网信息智能搜索算法,根据将搜索路径及其相关网页与网链的描述特征有机地结合起来所构成网站搜索的启发知识,对一组网站内部所指定的若干目标网页进行智能搜索。该算法不仅能够有效地帮助完成基于深度优先的目标网站智能搜索工作;而且还能够利用各目标网页的搜索过程与搜索结果,不断地对已掌握的搜索知识进行补充与完善,并通过逐步改进完善搜索知识的质量,进而达到能更加准确有效地搜索信息网页的目标。

32第四章 信息智能搜索算法在教育资源搜索引擎中的应用

第四章 信息智能搜索算法在教育资源搜索引擎中的应用

4.1 教育资源搜索引擎

如前面所说,进行智能搜索所要解决的问题是:根据给定若干网站网址集合(URLs),并根据所提供的有关网站及其网页与超链的搜索知识,就可以从这些网站中智能搜索出所需要的网页。整个搜索过程自动完成而无需用户参与。本章将信息智能搜索结合到教育资源搜索引擎中,利用信息智能搜索的特点,更方便,更准确的搜索出用户想要得到的信息,并给出了实验结果。

教育资源网站中主要提供教学资源的相关内容,教师会常常登陆到网站中查找他们需要的关于教育方面的信息,而且某一个专业的教师常常需要他们自己这一特定领域的知识,这些教师会经常登陆到某一个特定专业的网站中,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,所有改变常常是浏览者所关注的信息;另外,当目标网页所在网页中的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题,只要稍加改动,常常会把用户搞得一团雾水,智能搜索方法正是为解决这些问题而产生的,智能搜索技术根据某一专业网站用户对所需网页内容信息的定制,并且利用网页与网页、网链与网链、网页与网链之间的相互约束关系,为用户搜索出他们所关心的信息。而且,智能搜索技术还可以为用户跟踪发现他们所关心知识的更新,并能够适应网站中目标网页所在位置有所改变或这个网站本身的组织结构、层次关系的变动情况。因此,智能搜索技术能够准确而有效地为用户提供信息搜索服务,对于某一专业信息网站中的用户来说,可谓是意义极大。智能搜索技术的提出为教育资源互联网个性化信息服务提供了一种可行的解决方案,同时,该方法能够在不断的搜索过程中,有着自学习的能力,最终对知识进行更新。实验结果表明,该方法搜索的网页覆盖率高、检索速度快、检索结果质量高,对于教育资源个性化服务有着很好的应用前景。

目前搜索引擎研究主要集中在以下几个方面:

(1) 各大搜索引擎纷纷采用各种新技术为用户查询提供更多的选择信息,如Yahoo!, ODP, Google采用向用户提供文档类别层次的方法,用户可以先选择感兴趣的类别,然后进行下一步搜索,这样就大大缩小了查询的范围。Northern

33第四章 信息智能搜索算法在教育资源搜索引擎中的应用

Light, WiseNut, Vivisimo则是提供搜索结果的聚类显示。Teoma不仅提供结果聚类,而且还提供查询语句的优化。上述方法在一定程度上提高了搜索精度。然而,不同用户提交的相同查询,返回的都是相同的结果,且需要用户较多的交互。

(2) 元搜索引擎和分布式信息检索模型。通过选择合适的数据来源以及合理组织搜索结果来提高搜索准确度。

(3) 信息过滤技术和智能agent系统。主要思想就是构建显式或隐式的用户个人信息记录,利用这些记录向用户推荐文档,使之更加符合用户的兴趣。

(4) 个性化搜索技术。在使用这些技术进行优化查询的引擎中,有的利用用户信息进行查询;有的不对用户信息进行学习,而是利用局部的相关信息进行查询;还有的需要用户提供兴趣类别,根据用户提供的兴趣类别选择信息来源并进行优化。比较好的方法是,搜索引擎对用户的搜索历史进行学习,建立用户信息Profile和综合Profile,当有新的查询请求时,将该请求分别映射到两个Profile中,最后将查询语句和类别信息综合起来返回搜索结果。

4.2 智能搜索在教育资源搜索引擎中的应用

利用前面所介绍搜索知识表示方法,及其所表示的具体知识,采用深度优先的启发搜索策略,从事先指定的若干网站和教育资源数据库中,分别搜索出所需要的各目标网站的整个处理流程。此外,在搜索的过程中,还可以根据已完成的搜索过程及结果,不断地进行完善目前所拥有的搜索知识,以便能够不断地提高自己的搜索能力。

4.2.1 基于智能搜索算法的教育资源搜索引擎设计

如图4.1所示,用户通过原始数据库,Internet和用户的网络日志,搜集数据,通过搜索分析器,在知识库的指导下,经过分析,得出用户需要的结论。

34第四章 信息智能搜索算法在教育资源搜索引擎中的应用

用户

初始网站地址集

数据库,INTERNET,网络日志

搜索工作区

搜索分析器

搜索总结器

搜索知识库

图4.1基于智能搜索的教育资源搜索引擎结构描述

4.2.2 教育资源搜索引擎模型工作流程

(1)用户提出搜索请求,根据给出的网址获取相应的主页。

(2)在教育资源数据库,网络以及用户的网络日志中搜索,根据当前的根据当前的搜索状态和搜索知识,以及当前所获得的网页,推断下一步搜索网址。

(3)根据前一步分析结果,决定是继续搜索教育资源数据库,网络以及用户的网络日志,还是搜索已失败或成功。

(4)在当前网站搜索结果结束(无论搜索失败或者成功),

对本次搜索所经历的所有搜索路径进行分析总结,以完善自己的搜索知识。

(5)不断重复上述四个处理步骤,直到事先给定的网站均被搜索完毕为止。

(6)将搜索到的,符合用户标准的结果返回给用户。

从第四章我们可以看出智能搜索算法总体处理流程,主要分为两个处理函数部件,即一个网站的智能搜索(3.5.2已做解释)与一个网站搜索日志的分析总结。

网络日志主要包括两类信息的分析,一类是和搜集到的Web页面相关的信息,另一类是在服务过程中收集到的用户行为信息,前者是指经过分析器分析处理后得到的信息,主要包括网页所包含的关键词、摘要信息、元信息(如网页作者、长度、修改时间等)以及URL超链信息,这类信息通常是作为输出信息给用户看的。后者主要包括用户输入的查询项,查询时间,用户的IP地址,用户在输出页面中所点击感兴

35第四章 信息智能搜索算法在教育资源搜索引擎中的应用

趣页面的URL等内容。

日志文件分为用户查询日志和用户点击日志。其中用户查询日志是在用户提交查询请求时记录的,它记录了用户查询时提交的关键词、提交时间、用户IP、页号(查询结果分页显示,每页显示10个查询结果,用户首次查询页号为1,用户翻页时的页号即为用户选择的结果页面号)、是否在缓存中命中等信息。用户查询日志的一个简单的记录格式为:

Sat Mar 25 19:00:06 2007 // 提交时间

222.124.101.177 // 用户IP

数据 // 是否在缓存中命中

数据挖掘 // 查询词

2 // 页号

用户点击日志是用户浏览查询结果时点击页面时记录的,它记录了用户点击页面的时间、点击页面的URL、用户IP、点击页面的序号(该页面在查询结果中的位置)、该点击对应的查询词等信息。用户点击日志的一个简单的记录格式为:

Sat Mar 25 19:00:06 2007 // 点击时间

159.143.23.145 // 用户IP

三个代表 // 查询词

/lh/00826/00826_ // 点击的URL

5 // 点击页面排序

4.3 实验分析

利用本文中所介绍的智能搜索算法,首先根据对吉林大学()、吉林建筑工程学院()、北京大学、东北师范大学、厦门大学等几个网站的情况总结,给出搜索大学中关于计算机系的搜索知识,如下表中搜索开始前的知识所示,然后根据本文所介绍的智能搜索算法(其中对于计算网页和网链的优先权值的阈值给定0.75),继而根据给出的搜索知识对这些大学本身或其它同类大学等网站进行搜索,总结后的搜索知识如下表中搜索结束后的知识所示。

其中,(路标网页)计算机系主页对应的知识单元内容变化示意如表1所示。

搜索前后,(路标网页)大学主页与计算机系主页之间的搜索节点所对应的知识

36第四章 信息智能搜索算法在教育资源搜索引擎中的应用

单元内容变化分别如表4.1、4.2、4.3、4.4所示。

搜索单元内容变化表4.1

搜索开始前

搜索结束后备注说明

路标编号:2 路标编号:2

特征前的T与L分别表示其为特征描述:

特征描述:

标题文字中单词和链接文字{“T,计算机,5,5”}

{“T,计算机,8,9”}中单词

搜索单元内容变化表4.2

搜索开始前

搜索结束后备注说明

开始路标:

1

开始路标:1

特征前的T与L分别表示其结束路标:2

结束路标:2

为标题文字中单词和链接文路径长度:1

路径长度:1

字中单词

[节点编号:11

[节点编号:11

特征描述:

特征描述:

{L,计算机,1,1}]

{L,计算机,4,

4}]

搜索单元内容变化表4.3

搜索开始前

搜索结束后备注说明

开始路标:1

开始路标:1

结束路标:2

结束路标:2

路径长度:2

路径长度:2

特征前的T与L分别表示其[节点编号:21

[节点编号:21

为标题文字中单词和链接文特征描述:

特征描述:

字中单词

{L,院系,1,1}]

{L,院系,4,4}

[节点编号:22

{L,专业,1,1}]

特征描述:

[节点编号:22

{L,计算机,2,2}]

特征描述:

{L,计算机,5,

5}]

37 第四章 信息智能搜索算法在教育资源搜索引擎中的应用

搜索单元内容变化表4.4

搜索开始前

搜索结束后开始路标:1

结束路标:2

路径长度:3

[节点编号:31

特征描述:

{L,院系,2,2}]

[节点编号:32

特征描述:

{L,信息,1,1}

{L,电子,1,1}]

[节点编号:33

特征描述:

{L,计算机,2,2}]

备注说明

开始路标:1

结束路标:2

路径长度:3

[节点编号:31

特征描述:

{L,院系,2,2}]

[节点编号:32

特征描述:

{L,信息,1,1}

{L,电子,1,1}]

[节点编号:33

特征描述:

{L

,计算机,2,2}]

特征前的T与L分别表示其为标题文字中单词和链接文字中单词

该实验所涉及的搜索知识主要由2个路标网页(方框表示)以及它们间若干长度不等的搜索路径组成。这2个路标网页分别为:大学主页、计算机系主页。2个路标网页之间有3条可能发生的搜索路径,它们分别含有1~3个URL搜索节点(菱框表示).搜索开始前, URL搜索节点的知识单元分别含有0~2个网链特征描述(概率)。每个路标网页的知识单元分别含有0或1个网页特征描述(概率)。

实验结果表明,根据给出的搜索知识,去搜索同类网站或原来给定相关搜索知识的网站,即使计算机系的位置有所改变,大部分计算机系的网页仍能被搜索出来。

38第五章 总 结

第五章 总 结

通过第二章对现有搜索引擎的介绍,及对当前搜索引擎的缺点分析。在第三章和第四章中提出了基于智能搜索的教育资源搜索引擎系统模型,用户根据自身需要定制自己感兴趣的网页信息,智能搜索方法便能地搜索出用户所需要的信息,并能适应网站内容或结构的变化,准确有效地发现用户所关心的内容,为用户取回他们所关注的网页。

在这个新的模型中,不仅能够对网站中网页进行深度优先的智能搜索,而且还能够通过对其搜索过程和结果的自学习来获取更多更好的搜索知识。

在新模型的设计过程中,使用了一种有效的搜索知识的新型表示方法,并且为了有效描述搜索路径,在搜索路径中引入了“路标”网页的概念。通过路标网页可以对搜索的存在对指导搜索路径目标网页起了积极的引导作用。

39参考文献

参考文献

[1] 申瑞民,舒蓓,张同珍.个性化数字服务模型.微电子学与计算机.2001(1)

[2] 谭琼,李晓黎,史忠植.一种实现搜索引擎个性化服务的方法。计算机科学。2002

No.1,Vol,29

[3] 张惠文.网络信息检索技术的智能化趋势.情报理论与实践.:2001(6)

[4]

[5] Pinkerton B. Finding What People Want: Experiences with the WebCrawler. The

Second International WWW Conference Chicago, USA. Oct.1994

[6] Coster lines for Robot Writers. /wc/

[7] Cho J,Garcia-Molina H,Page ient Crawling Through URL Ordering. Weventh

Conf.(WWW 98) Brisbane, Australia, April 1998

[8] Jing Y,Croft W Association Thesaurus for Information Retrieval. In:Proc. Of

RIAO 1994, C.I.D.,Paris,1994,.146~160

[9] Fletcher J. /jsbin/js

[10] Marchiori M. The Quest for Correct Information on the Web:Hyper search Engins. The

Sixth Cof.(WWW 97). Santa Clara,USA,April 1997

[11] Spertus te:Mining Structural Information on the Web. The Sixth Intl. WWW

Conf.(WWW97). Santa Clara, USA. April 1997

[12] Weiss R,et uit: A Hiearchical Network Search Engine that Exploits

Content_link Hypertext : 7th ACM Conf. On Hypertext. New

York,1996

[13] Kleinberg itative Sources in a Hyperlinked Environment. In:Proc. ACM-SIAM

Symposium on Discrete Algorithms,1998

[14] Page L,et al. The PageRank Citation Ranking: Bringing Order to the Web

[15] Singhal A, Buckley C,Mitra d Document length : the

19th International ACM-SIGIR Conference on Research and Development in

Information Retrieval(SIGIR96)

[16] McBryan o and WWWW:Tools for Taming the Internation

Conference on the World Wide ,Geneva(Switzerland).May 25-26-27

1994

[17] Brin S,Page Anatomy of a Large-Scale Hypertextual Web Search Engine

[18] Krishna Bharat & George a.《When Experts A-gree: Using Non-Affiliated

40参考文献

Experts to Rank Popular Topics》./georgem/

[19] Zou Tao, Wang Jicheng, Zhu Hua yu et al. The Technology Implementation of

Information Mining on WWW. Journal of Computer Research and Development (in

Chinese),1999,36(8):13691374

[20] Qin, An, Wong, Wing S., Associative Information Network and Application to an

Intelligent Serach Engine (Search Engine, Information Retrieval), PHD Thesis of

Chinese University of Hong Kong,DAI-B 59/11, p. 5941, May 1999.

[21] Craven D, DiPasquo D, Freitag et al. Learning to extract systembolic knowledge from

World Wide Web. School of Computer Science, Carnegie Mellon University, Tech:

CMU-98-122, 1998

[22] 李盛韬,余智华,程学骑,白硕。Web信息采集研究进展。计算机科学。.2

Vol.30 P151-160

41摘 要

摘 要

近年来,随着互联网的快速普及和发展,信息资源与站点越来越多,而且信息的组织方式也非常自由。在网上,传统的信息查找方式是通过浏览器在网页上点击超链接以获得新的网页(信息)内容。当网上的信息越来越多,单纯地通过传统的、手工的获取信息的方式达到快速而且准确地获取信息显然不太可能。现在在互联网上人们用来查询信息的工具是搜索引擎。据统计,搜索引擎是排在电子邮件之后的第二个人们用的最多的网络工具。但是随着网络信息增长的速度越来越快,而且人们对知识更为精确的要求,现在的搜索引擎已经远远不能满足人们的需要了,人们需要更为智能化、个性化的搜索引擎。如何快速而且准确地从浩瀚的信息海洋中找到自己需要的信息,已经成为互联网应用中一个极为重要的研究课题。

目前现有的搜索引擎存在的问题:

(1) 现有的搜索引擎仍然存在着高覆盖率和低查全率的问题。网页数量和内容的快速增长,导致内容的急剧膨胀,不可能建立一个完整的索引,使得用户不能期望搜索引擎返回和查询条件相关的所有结果。这也就意味着这些搜索引擎,依旧无法提供准确有效地满足用户需求的信息服务。

(2) 用于表示Web信息的数据类型的多样性、数据格式的松散性导致了这些信息之间的格式转换成为了挖掘中的一个瓶颈,从而阻碍了挖掘和搜索的速度,延长了响应时间。

(3) 搜索引擎在用户接口设计方面和互动性方面存在的缺陷,使得用户无法准确地定义检索条件,使得检索结果偏离用户的意图,降低了搜索结果的准确率。

(4) 对搜索的结果无法按照用户的个性特征进行一定的排序。使得用户还需要花上大量的时间在搜索的结果中寻找自己最想获取的信息。

随着互联网信息资源的不断增长,研究智能搜索技术、主动地为满足某一类信息需求的用户提供相应的信息服务显得尤其重要。针对这一情况,本文通过对教育资源的需求和特点进行了深入的分析,对现有的各种智能搜索技术的进行了对比,提出了一种能够对多个类似的页面信息进行智能搜索的新方法:基于搜索路径的网页搜索知识方法。

该方法首先对内容类似的网页信息的知识总结,形成搜索的初始知识,用户根据自身需要制定搜索的条件,利用智能搜索方法搜索出用户需要的信息,同时还能够根

1

发布者:admin,转转请注明出处:http://www.yc00.com/web/1688893172a181750.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信