ASPseek

软件截图:
ASPseek
软件详细信息:
版本: 1.2.10
上传日期: 3 Jun 15
开发: SWsoft
许可: 免费
人气: 4

Rating: nan/5 (Total Votes: 0)

ASPseek是由SWsoft公司开发并授权下GNU GPL自由软件的互联网搜索引擎软件。
ASPseek包括一个检索机器人,一个搜索守护程序,和一个CGI查找前端的。它可以索引多则几百万的网址和搜索词和短语,使用通配符,并做了布尔搜索。搜索结果可以被限制在给定的,站点或Web空间(设置场所),并依相关的时间段(PageRank是使用)或日期。
ASPseek是一个多站点优化(螺纹指数,异步DNS查找,通过现场,网络空间分组的结果),但可用于搜索一个网站也是如此。 ASPseek可以与多个语言/编码一次(包括多字节编码,如中国),由于统一存储模式下工作。其他功能还包括禁用词和ispell的支持,字符集和语言猜测者,HTML模板搜索结果,文摘,和查询词突出。
ASPseek是用C ++编写使用STL库,并使用SQL数据库和存储二进制文件的组合。
以下是“ASPseek”一些主要特点:
通过数百万文件的能力来索引和搜索
 
·使用ASPseek,你可以建立一个数据库和搜索多个站点,以及每个结果查询将返回快,即使你有几百万的索引文件。当然,这依赖于硬件,所以不要指望“老好人”的i486机器来处理每一个网站以.com域名。一切都取决于CPU(S),内存,磁盘速度等,所以做你自己之前,你买的测试专用硬件。
 
·这是ASPseek高容量优化的事实不应该用它来搜索自己的网站,其中包含的文件几百阻止你 - 它的作品也有。
 
结果很好的相关性
 
·搜索引擎的目的是要找到想要的用户。可以有数千个发现作为搜索查询的结果的URL,但它可以全部是不相关的,所以用户会不满意。
 
·输出结果ASPseek由相关(或等级)排序,但排名的计算不是一件容易的事。开发商想尽办法将最大和最新的技术引入到ASPseek发动机,同时保持良好的搜索速度。
 
ispell的支持
 
·当ASPseek被用于ispell的支持,searchd的(1)可以随意找到各种形式的所有指定词(例如:创建 - >创建或创建或创建)。因此,它可以让你找到的所有不同形式的单词。
 
统一存储模式
 
·ASPseek可以存储大约为Unicode文件信息,从而可以实现多语言搜索引擎。所以,你可以索引和搜索英文的文件,俄罗斯乃至中国,都在一个数据库中。
 
HTTP,HTTPS,HTTP代理,FTP(通过代理)协议
 
·作为ASPseek是一个网络搜索引擎,它使用HTTP协议的网站的索引。 ASPseek还支持安全的HTTPS://协议。不直接支持FTP协议,但您可以通过代理服务器使用代理服务器(如鱿鱼)和索引FTP站点。
 
·ASPseek支持HTTP的“基本授权”功能,让你可以索引受密码保护的区域(在您的Intranet例如私人信息)。
 
文/ html和text / plain的文件类型的支持
 
·ASPseek能理解写在HTML文件和纯文本文件。这些都是格式网吧最流行。
 
·其他格式,如PDF,RTF等,可以与任何外部的程序/脚本,它能够将其转换格式,HTML或纯文本的帮助支持。
 
多线程设计,异步DNS解析器等
 
·ASPseek使用POSIX线程,这意味着,一个处理具有并行运行多个线程。因此指数从下载网站很多很多的搜索查询的文档同步,和搜索守护进程。这不仅有助于ASPseek扩展以及对SMP(多处理器)系统,而且还提高了索引速度,因为如果一个线程大多数时间会在等待来自网络数据中度过。
 
·一件事,缓慢的索引过程下来不少是DNS查询(使用确定的服务器名称IP地址的过程)。为了避免延误,异步查询(查询是由单独的专用程序进行)和IP地址高速缓存来实现。
 
禁用词
 
·停用词是一个词没有意义本身。例如:是,是,在这。搜索在也没用,所以这样的话被排除在搜索查询。禁用词也被排除在索引数据库中,因此数据库将变得更小,更快。
 
·有在ASPseek没有“内置”停止词,它们在启动过程中从文件被加载。许多禁用词文件针对不同的语言带有ASPseek。
 
字符集guesse
 
·有些故障或配置服务器不告诉客户,他们提供的内容的字符集。如果你是这样的索引服务器,或使用ASPseek指数FTP服务器(FTP协议并一无所知字符集),字符集猜测者可以用来对付它。猜测者字符集字使用频率表(称为langmaps),以确定正确的字符集。
 
机器人排除标准(robots.txt的)支持
 
·ASPseek完全支持这一标准。其目的是为网站作者的讲述机器人(例如,ASPseek指数(1)),以跳过索引其网站的一些目录。
 
·欲了解更多信息,请参阅http://www.robotstxt.org/wc/robots.html
 
设置来控制网络带宽的占用和Web服务器的负载
 
·您可以精确地控制网络带宽指标(1)使用。恰好,可以限制为给定时间的日使用的索引(1)的带宽(以每秒字节数)。例如,您可以限制在工作时间的带宽,以便人们在你的办公室将不会遇到上网速度慢。
 
·您还可以设置两个查询到相同的Web服务器之间的最短时间,这样就不会超载,并获得到其膝盖,而你运行指数(1)。
 
实时异步索引
 
·一些搜索引擎需要搜索应该停止对数据库更新的时间。 ASPseek并不需要它,这样你就可以搜索不停。
 
·更多地说,有索引的一个特殊模式称为“实时”索引。您可以使用它进行少量的文件,并尽可能该文件被下载和处理,变化是在搜索界面立即可见。此功能是一个很大的帮助,如果您正在构建的搜索引擎,如在线新闻等与快速变化的内容页面
 
·注意,多个文件中的“实时”数据库是有限的。这是大约1000在我们的硬件(您的里程可能会有所不同),以及更多的文件,你必须在“实时”数据库中,慢将索引到的(并且只有)数据库的速度。这不会影响搜索速度虽然。
 
·从“实时”的数据库文件被以正常方式运行索引(1)后移动到正常的数据库。
 
依相关或按日期结果
 
·搜索引擎通常将首先返回最相关的结果。但是,如果你正在寻找最新的页面,你可以告诉ASPseek通过的最后修改日期对结果进行排序,因此最近修改(或创建)的页面将首先显示。
 
摘录,查询词突出
·摘录是一块发现文档的文字搜索强调的,只是给的文件是关于什么的想法。可以定制摘录显示和它们的长度的数目。如果将禁用摘编,文档的开头将被显示。
 
·每个发现的文件是伴随着的“网页快照”链接。 ASPseek保持处理每一份文件的本地压缩副本,所以用户可以看到(可选)的整个文件强调了搜索的话,即使它已经从原来的网站中删除(这有时会发生)。
 
按站点分组结果
 
·结果从一个站点可以组合在一起。如果通过网站分组上,只有两个结果都显示来自同一个站点默认,并且用户可以看到从同一网站其他页面通过以下链接“从......更多结果”。
 
克隆
 
·克隆是在不同的位置相同的文档。他们被检测并组合在一起,因此用户将不会看到一个完整的URL,以相同的文档页面。
 
·克隆检测通​​常是通过一个网站(从不同的网站,所以相同的文件不被视为克隆)的限制,但可以通过重新编译ASPseek用--disable-克隆逐个站点选项进行更改。
 
空间和子集
 
·空间是集网站。所以,如果你想提供搜索缩小到某个区域,您可以创建一个空间,这个空间中进行搜索。只有整个网站(例如http://www.mysite.com/)允许被包括在空间。
 
·亚群也可以用来限制搜索范围。您可以创建子集,并把网址面具(如http://www.mysite.com/mydir/%)成,然后限制搜索范围,只给一部分。
 
·您可以限制搜索范围不只有一个而是几个子集或空格。
 
为易于定制搜索结果的HTML模板
 
·您可以自定义的搜索页面,所以他们会看起来像,并与您的网站的其余部分无缝集成。这是通过搜索模板文件的简单编辑完成。
安装
GZIP -dc aspseek-1.2.10.tar.gz |焦油XF -
CD aspseek-1.2.10 /配置
使

使安装

显影剂的其他软件 SWsoft

OpenVZ Live CD
OpenVZ Live CD

2 Jun 15

Plesk for Windows
Plesk for Windows

22 Sep 15

OpenVZ kernel
OpenVZ kernel

2 Jun 15

意见 ASPseek

评论没有发现
添加评论
打开图片!