暗网是什么?

暗网一词最早由Dr.JillEllsworth于1994年提出,是指普通搜索引擎很难找到信息内容的网页 。这些信息的内容是用户看不见的,因此被称为暗网 。

暗网是什么?

文章插图
暗网(HiddenWeb)是指,如其释义所示,通常在静态链接上无法获得互联网上大部分内容,特别是隐藏在搜索表格后面的大部分页面,用户只需输入一系列关键词即可获得作为图像,这些页面是当前搜索引擎无法获取的页面、无法搜索的信息(即“不可见”站点),当前搜索引擎无法索引这些页面或将其显示在结果中,因此
酱料
暗网(互联网) HiddenWeb最初由Dr.JillEllsworth在1994年提出,是指用通常的搜索引擎很难发现其信息内容的网页 。在信息量方面,“暗网”比目前可以编制索引的数据要庞大得多 。根据BrightPlanet此前发布的《TheDeepWeb-SurfacingTheHiddenValue》 (深层网络、隐性价值)白皮书,“暗网”包含100亿个不重复的表单,其信息量是“非暗网”的40倍更糟糕的是,BrightPlanet发现,无数网站似乎越来越像孤立的系统,不打算与其他网站共享信息 。可见,“暗网”是互联网新信息增长的最大来源 。也就是说,网络“越来越暗” 。
暗网是什么?

文章插图
现状
当然,“暗网”并不是真正的“不可见” 。对于知道如何访问这些内容的人来说,这无疑是可见的 。2001年,ChristSherman、GaryPrice通过internet获取隐藏的web,但由于技术限制,一般搜索引擎无法或无法索引该web根据最近HiddenWeb的调查文献,得到了以下有意义的发现 。
)1) HiddenWeb约有307,000个站点、450,000个后台数据库和1,258,000个查询接口 。增长很快,从2000年到2004年增长了3~7倍 。
)2)隐藏网络内容分布在多个主题领域,电子商务是主要驱动力,但非商业领域占有相对较大的比重 。
)3)今天的爬虫并不是没有完全爬进HiddenWeb后台数据库,一些主要的搜索引擎覆盖了约三分之一的HiddenWeb内容 。但是覆盖率上目前的搜索引擎存在技术上的本质缺陷 。
)4) HiddenWeb的后台数据库大多是结构化的,其中结构化的比非结构化的多3.4倍 。
【暗网是什么?】)5)一些隐藏的Web目录服务已经开始索引Web数据库,但它们的覆盖率很小,为0.2%~15.6% 。
(6) Web数据库多位于网站浅层,最多94%的Web数据库可以在网站前三层发现 。
暗网是什么?

文章插图
暗网分类
一般来说,暗网根据其产生原因可以分为两种:
一是由于技术原因,很多网站本身不规范,或者互联网本身缺乏统一规则,导致搜索引擎爬虫无法识别和抓取这些网站的内容 。这不是搜索引擎本身就能解决的问题,而是有赖于整个网络结构的规范化,百度的“阿拉丁计划”、谷歌的“云计算”都要从根本上解决这个问题 。
另一个原因是很多网站不想被搜索引擎抓住 。例如,考虑到版权保护内容、隐私内容等,很多网站屏蔽了百度 。例如,最近最大的视频共享网站优酷也宣布屏蔽百度 。这不是搜索引擎能解决的问题 。如果他们能被搜索引擎抓住,就是违法的 。
以上就是关于《暗网是什么?》的答疑相关内容,希望能够解决大家的疑惑,今天就介绍到这里了,如有更多疑问,请移步至百科答疑 。


    推荐阅读