搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力,人力的大公司。即使有技术,人力,财力的保证,搜索引擎还是面临很多技术挑战。搜索引擎主要面临那几种挑战?
1、页面抓取需要快而全面:
互联网是一个动态的内容网络,每天有无数页面被更新,创建,无数用户在网站上发布内容,沟通联系。要返回最有用的内容,搜索引擎就要抓取最新的页面。
2、海量数据存储:
一些大型网站单是一个网站就有百万千万个页面,可以想象网上所有网站的页面加起来是一个什么数据。
3、搜索处理快速有效,具可扩展性:
搜索引擎将 页面数据抓取和储存后,还要进行索引处理,包括链接关系的计算,正向索引,倒排索引等。
4、查询处理快速准确:
查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入关键词,单击“搜索”按钮后通常不到一秒就会看到搜索结果。表面最简单的过程,实际上涉及非常复杂的后台处理。