安装 TOP
1、将search目录下面的文件放置到IIs中的一个虚拟目录中

2、将spider目录下的文件放置到电脑(可以是与IIs服务器同一个电脑)任意目录,并配置CF.ini文件

变量名 描述
L-DataBaseHost: 指定主数据库服务器的IP地址或则服务器名
L-DataBase: 主数据库服务器中的数据库名,一般不做改动
L-User: 主数据库服务器中的用户名,必须有足够的权限。
L-User: 以上用户名的密码
Thno: 本spider程序的线程数,根据计算机情况而定
id: 本spider的id值,这个是区分不同spider的唯一参数
TimeOut: 在获取网页时的超时时间,以毫秒为单位
Intervel: spider程序查询服务器的时间间隔 单位毫秒(一般为30000)
Tlim: 对某一url搜索时最大的获取页面数

3、打开build.sql文件(记事本就可以),在主数据库服务器中Sql查询分析器中运行它,它将建立一个叫main的数据库(见注意)

具体方法:

用记事本打开build.sql,把里面的内容复制到sql查询分析器中的查询窗口,按“F5”.

4、配置search目录下面的web.config文件,在<appSettings>….</appSettings>里有一

<add key=”constring2″ value=”Data Source=server-huang;Initial Catalog=main;User Id=sa;Password=00110920;” />

其中红色表示主数据库服务器的地址或则主数据库服务器名褐色表示主数据库服务器中数据库名,一般不做修改绿色表示主数据库服务器中的用户名黄色表示主数据库服务器的用户名

修改以上的各项

5、安装完毕。

注意 :

在build.sql文件里有如下句

CREATE DATABASE [main] ON (NAME = N\’main_Data\’, FILENAME = N\’c:\maindata\’ , SIZE = 2, FILEGROWTH = 10%) LOG ON (NAME = N\’main_Log\’, FILENAME = N\’
c:\mainlog\’ , SIZE = 1, FILEGROWTH = 0%)

COLLATE Chinese_PRC_CI_AS

GO

红色 部分表示建立文件的路径,可能需要根据你的情况修改。

管理方法TOP

本系统管理是通过web的方式进行管理,即使你身在远处,只要有能上网的计算机,就可以对本系统进行管理。

登陆log.aspx页面后,进入管理页面(默认的用户名是admin密码pass 修改请见)。

手动模式

1、创建用与存储网页数据的数据表和数据库并新注册数据库服务器


点“数据表管理”中的“新注册数据库服务器并建立数据表” 将出现两个文本框。

在第一个文本框中依次输入 数据库服务器名或则IP地址|用户名|要建立的数据库名|密码|数据表名|该表的全文目录名|指定一个目录作为全文索引的目录中间用”|”分割。

如: 127.0.0.1|sa|00110920|db1|00110920|tb1|myfull|D:\eh

输入后再次检查输入是否正确,其中用户名和密码是事先在该服务器上存在的。

第二个文本框里是对该数据库文件组的分配情况(将数据库文件分配到各各磁盘,有效利用资源)如何配置请见:

ON

PRIMARY ( NAME = name1,文件组名

FILENAME = \’c:\1.mdf\’,主文件的路径,注意扩展名为.mdf,而其余的是.ndf

SIZE = 1MB,主文件的大小

MAXSIZE = 200,文件的最大大小

FILEGROWTH = 20),

( NAME = name2,

FILENAME = \’c:\2.ndf\’,

SIZE = 1MB,

MAXSIZE = 200,

FILEGROWTH = 20),

( NAME = name3,

FILENAME = \’
c:\3.ndf\’,

SIZE = 1MB,

MAXSIZE = 200,

FILEGROWTH = 20)



LOG ON

( NAME = log1,

FILENAME = \’
c:\log1.ldf\’,

SIZE = 10MB,

MAXSIZE = 200,

FILEGROWTH = 0)
这个是日志文件,一般只需要一个。

绿色部分一般是需要用户修改的

说明:

( NAME = name2,

FILENAME = \’c:\2.ndf\’,

SIZE = 1MB,

MAXSIZE = 200,

FILEGROWTH = 20)
,

是一个扩展的文件组由()包含,一个数据库可以由多个这样的文件组(或者一个)组成分配到各磁盘空间,如果该文件组是数据库文件的最后一个文件组(不包含日志文件)那么最后的”,“应该去掉,否则会出错。

( NAME = name1,

(FILENAME = \’c:\1.mdf\’,

SIZE = 1MB,

MAXSIZE = 200,

FILEGROWTH = 20),

这个是主文件组,只是文件扩展名不同

在第二个文本框中内容配置好后按“确定”。

2、建立数据表


1、点击某一数据库下的一个数据表 ,选择“添加数据表” ,按“确定”

2、需要配置如下参数

数据表名|全文索引名|全文索引目录

中间用“|”分割

数据表名:选择唯一的数据表名

全文索引名:选择唯一的全文索引名

全文索引目录:在计算机中选择一个已存在的目录

如: tb1|myfull|D:\eh

再三确定以上数据的正确后 按 “确定”

3、新添加spider


点击某一数据表,选择“新增加spider”按“确定”,将得到一个spider和它的id

运行spider目录下面的spider.exe,与该spider一起的cf.ini文件里的id值应该与以上得到的id值一致,否则这个spider是无效的。

新添加的spider是处与非工作状态的

点击这个新的spider


选择“启动”按“确定”

启动spider程序

注:本系统标识和区分spider程序的是id,如果一个电脑上有几个spider程序那么他们应该防在不同的目录并有不同的id。这个id值在与spider同目录的CF.ini文件里设置()。

4、启动数据表全文索引

点击某一数据表,选择“启动该表全文索引”按“确定”

注:数据表在输入数据后并不能被检索,它还需要全文索引的过程,才能被索引。

5、使数据表处于“活动”状态

点击某一数据表,选择“激活该表”按“确定”

注:只有处与激活状态的数据表才能被用户检索。而处与非活动状态的数据表,可以处于“准备”状态,也就是正在被spider填充数据。注意只有被全文索引后的数据表才能激活,否则将会出错。



下面是一个“成熟”的数据表的“制作”过程

一个空白的数据表(未被激活、未被全文索引)–>被某spider填充完毕–>启动该表的全文索引–>一个”成熟”的数据表–>激活该数据表–>过程完毕

6、确定用户检索的顺序

是由order值的降序排列的

7、向主数据库中数据表中添加url搜索列表

在主数据库中(main)有一list表,该表是搜索的url列表,这里面的url来源有两个。

1、用户“登陆网站”

2、管理者输入http://你网站的目录/add.asp?auth=00110920进行登陆网站。

其中00110920是相当与密码,可以在search目录下的web.config文件中设置(见)

本方法输入可以绕过“防恶意输入”的检测

8、移动spider

某些情况下你可能需要移动spider

点击某一spider,选“移动”,按“确定”,将出现一个小的文本框,在此输入你想要移动到的数据表的id,按“确定”

9、设置数据表的order值

用户在检索数据时,系统会根据数据表的排序情况分别检索每个数据表(循序渐进)。

检索的顺序是依照order的降序排列。

设置方法:

输入数据表id值和order值按“确定”如图



自动模式 (推荐)

自动模式是指将建立好的数据表“设置为自动”。

1、设置自动的表

点击一个刚建立好的数据表(模式为”manu”)选择“设置为自动/修改设置”按“确定”,将出现两个小的文本框,在第一个文本框里输入这个数据表目标的记录条数,后一个文本框中输入一个spider的id。

注意:被设置的spider将成为这个数据表的“主spider”,这个spider将在数据表完成计划的数据容量时自动启动该表全文索引。

2、修改设置(重新设置数据表的目标记录数)

点击一个设置为自动的数据表(“auto”),选择 “设置为自动/修改设置”按“确定”,将出现一个小的文本框,在此输入重新设置的目标记录条数。

图示



关于管理的建议TOP
过程

本系统的管理过程可以简单的理解成一个建立“成熟数据表”的过程。过程如下:

一个空白的数据表(未被激活、未被全文索引)–>被某spider填充完毕–>启动该表的全文索引–>一个”成熟”的数据表–>激活该数据表–>过程完毕

其中最后一次启动全文索引的时间将显示在数据表id号后,如果为空,表是该数据表未被索引。

性能

本系统将一个庞大的数据分解到很多小的数据表,所以分表是提高性能的关键。

本系统性能很大部分取决于电脑的性能,但是不要试图将大量数据填充如一个数据表,如当数据表填充数据量在5万(视计算机性能定)时,你可能就需要停止对它的填充,将spider转移到下一数据表。

一般规则

新制作好的成熟数据库应将order值设置为最高,制作完成太久的数据库可以删除。
其它TOP
配置web.config的其它项目



<add key=”open” value=”yes” />

<add key=”timespan” value=”1” />

这个两段是关于“用户登陆网站”的设置。

红色表是用户登陆网站功能开放改为”no”将关闭该功能

兰色表示“防恶意输入”的延迟时间,某一用户连续输入网址的最短间隔时间

<add key=”statement” value=”你必须同意如下 1、站点内容必须符合国家法律 2、站点可以被稳定的访问” />

以上是设置用户在登陆站点时必须同意的协议内容。

配置管理密码

在web.config里有如下部分,此部分设置对登陆log.aspx时候有效。

<add key=”user” value=”admin” />

<add key=”password” value=”pass” />

红色表示用户名

兰色表示密码

外观配置

本程序的呈现给用户的部分没使用图片,用户可以修改html代码,但在修改时候请小心修改<%..%>里的部分,不然可能会导致程序出错。

inc目录里有页面的头部和尾部的代码。

常见问题TOP
1、全文索引时都会出现的问题

在我使用sql server 2000中文企业版的时候出现的问题,中文全文索引不起作用,任何关键字将被视为噪音词。

解决办法如下:

搜索计算机”noise.chs”文件,并将该文件复制到目录 您的sql安装时指定的数据库目录\MSSQL\FTDATA\SQLServer\Config 本软件包里也提供该文件。

2、用户搜索时显示“无活动的数据表”

是因为你没有被激活的数据表

3、用户在搜索是出错

可能是因为在你激活的数据库中的有一个或者多个数据表未启动全文索引

4、删除数据表的问题

当一个数据库中最后一个数据表被删除后,这个数据库将不被列表出来,但是并不代表这个数据库被删除,只是里面的数据表被删除了。

5、数据组文件组的问题

文件组应该分配到有足够磁盘空间的盘。这可能需要用会对sql一定的了解,如果不太清楚可以参见相关资料。
关于TOP
本软件是完全有我自己编写的,按照自己的思路,可能有些不妥的地方,希望在以后的版本中改进。

软件编写是艰苦的工作,保护自己的知识也很重要,所以任何试图对本软件的反编译都是可恨的,更是违法的,这样会是我们这些软件编写者失去对软件编写的兴趣。
购买没有限制的版本TOP
本软件的免费版本有如下限制:

1、spider的线程只能为一个

2、对某一url的最大页面数只能为200页

3、会有我的页面标记

付费版不会有以上限制。

付费方式:

通过转帐

中国建设银行

户名:王国华

卡号:4367 4221 6996 4452 629

价格:50元

汇款后请短信与13792286750联系,勿打电话。说明汇款的时间,汇款人的姓名,电子邮件地址。在汇款时请多汇点钱,比如汇50.8元,52.5元等,这样可以区分每个汇款人。款到后正式版立即用电子邮件方式发出。

版权声明:本文为green168原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/green168/archive/2005/01/08/88850.html