中文搜索引擎技术揭密

来源:推广小助手 时间:2007-12-15 09:11:02 字体:[ ] 收藏 我要投稿

    对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

    更新周期

    由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

    搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

    一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。

    结论

    本文主要讨论了网络蜘蛛相关的技术要点,如果要设计好的网络蜘蛛,需要了解更多的技术细节,可以参考文献[5]

    网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所指向的网页已经不存在)的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站内内容相同的网页等都是网络蜘蛛需要进一步改进的问题。

    更多参考

    说明:由于以下参考文献不是以论文的形式发表在某些杂志上,故没有表面出处,大家可以在Google或者Baidu搜索引擎上通过搜索文章标题得到相关文章的下载链接。
 
    [1] 中文搜索引擎技术揭密:中文分词。作者Winter,2004。

    [2] 中文搜索引擎技术揭密:排序技术。作者Winter,2004。

    [3] 中文搜索引擎技术揭密:系统架构。作者Winter,2004。

    [4] Robots & Spiders & Crawlers: How web and intranet search engines follow links to build indexes. Author: Avi Rapports.2001.

    [5] Guidelines for Robot Writers. Author: Martijn Koster, 1993.
责任编辑:admin
上一篇:什么是倒排索引?倒排表?如何建立倒排索引?
下一篇:搜索引擎中网络爬虫的设计分析
编辑热线:15036839807 E-mail:post@zzcn5.com 20秒注册会员 结交站长朋友 分享你的精彩
数据统计中!!
相关新闻
2009-01-05 14:26:14SEO之奇怪现象的启示
2008-12-31 09:57:00百度搜索变化
1970-01-01 08:00:00网站优化方法
1970-01-01 08:00:00谷歌收录量减少

热门新闻

推荐新闻

图片新闻