第二节 网络信息检索工具
 
Internet网络上蕴藏着非常丰富的信息资源,但要从这个信息海洋中准确方便迅速地找到并获得自己所需的信息,却往往比较困难。正是为了解决这个问题,从20世纪80年代起人们就开发了诸如Archive、WAIS、Veronica等检索工具,从90年代中期起又出现了检索万维网信息资源的搜索引擎技术,并以此构造检索所有各类网络信息资源的集成化支撑体系。
(一)搜索引擎的基本原理
1、搜索引擎(Search Engine)的定义
狭义:利用网络自动搜索技术(Robot)对网络资源进行搜集、标引、储存和检索的一种技术和系统。
广义:提供搜索和分类导航信息查询服务的一系列网站。
2、搜索引擎的类型(按检索机制划分)
(1)检索型搜索引擎:以信息查询、检索为主,不太重视信息的整理,收录的网站和网页数量大,分类目录为辅,且相对不细。
典型
● www.altavista.com;
● www.excite.com
● www.infoseek.com;
● www.hotbot.com
● www.lycos.com;
● www.opentext.com
● www.wencrawler.com
● www.google.com
● www.ccw.com.cn
● www.ccidnet.com
(2)目录型搜索引擎:以分类目录导航为主,搜索引擎相辅或并重,类目精致且相对较深,收录网站和网页往往经过人工选择,数量相对较少,质量相对较高。
典型
 ●www.yahoo.com●www.ebig.com
混合型搜索引擎:分类目录和关键词检索并重,分类目录完整且细致,检索功能强,收录网站数量较多,质量也较好,大多数搜索网站属此类。
典型
●www.sohu.com●www.sina.com.cn●www.yahoo.com
(1)资源收集与存储
使用其“Web crawlers” “spiders(网络蜘蛛)” 或 “robots(自动采集器)”等程序自动搜索互联网,或用人工采集方式,跟踪和选择有用的站点和网页。
(2)标引与整理
将收录的网站或网页整理成一条记录。robots通过从网页中自动抽取能表达网页主题意义的词作为标引词来构建网页标引记录,,根据字段内容形成可供用户检索的数据库。
(3)数据库与索引库的生成
利用数据库管理系统来组织所采集标引的网页信息,形成索引数据库,数据库的一条记录基本上对应于一个网页。原则上包括关键词、网页摘要、网页URL等信息。
(4)数据库的检索
接受用户提交的查询请求,将用户输入的检索要求编制成计算机可执行的规范化检索式,检索索引数据库,查找并寻找相应的Web页地址,对检中的记录经整理组织提供给用户。
<<上一节下一页>下一节>>