更多内容请访问:蛟龙在线
Webinfo自动化搜索引擎系统介绍    v1.41 (更新日期:2005年1月21日)
系统软件:

MDAC2.8 中文版下载地址:
http://download.microsoft.com/download/8/b/6/8b6198c0-fe96-4811-9d81-d5c76dd5fea8/MDAC_TYP.EXE
.Net Framework 1.1 可再发行组件包下载地址:
http://download.microsoft.com/download/7/b/9/7b90644d-1af0-42b9-b76d-a2770319a568/dotnetfx.exe

 
ver 1.41 (2005.1.21) 补丁下载

修改数据管理页面的数据错误。修复蜘蛛程序删除页面的bug.

升级方法:

1.将压缩包内mm.exe xcprof.dll 覆盖蜘蛛程序目录下原文件。

2.将压缩包内admin.dll 覆盖web站点 bin 目录下原文件。

 

ver 1.4 (2005.1.11) 升级内容:下载地址:free1.4.rar

 1.增加屏蔽网址功能 。

 2.修正上一版本处理网页重定向时判断部分网址的错误。 

3.增加了删除重复数据功能,可选择是否采用重复页面删除模式,可定义索引重复数据的数据表。

 4.首次采用注册码注册完全版本,共享版本限制每网址索引10个页面。 

升级方法: 

1.替换spider 文件夹内所有文件. 

2.修改cf.ini文件内容,格式如下: 

Thno:线程,共享版只能使用1线程。 

id: 蜘蛛id。

Tlim:每个网址索引页面数,1.4共享版每个网址只能搜索10个页面。 

ns: 屏蔽网址中字符串,如:search?_?&&?biadu ,每个字符串之间用"?"分隔。 

cftb:重复页面索引的数据表,填写你要搜索并删除重复网页的数据表,每个数据表间用"?"分隔,如:[db2].[dbo].[tb2]?[db2].[dbo].[tb1]?[db2].[dbo].[w050103]?[db2].[dbo].[w050104]?[db2].[dbo].[w050106],其中db2是你建立的数据表的名称,tb2、tb1、w050104等是在db2数据表中数据项的名称。

reg:注册串号(没有注册可不填写),填写我们反馈给你的这册串号。 

cfy:是否进行重复网页索引,如果这里填"1",将按照上面填写的重复页面索引项搜索原有数据库中存在的重复页面,并删除,注意:此项功能请载服务器负荷较小的深夜进行,否则由于搜索量非常大可能造成数据服务器当机。 如果填写"0",将不进行重复页面筛检。 

关于软件注册: 

注册前请运行一次蜘蛛程序,在spider目录下将得到一个reg.txt的文件

付费方式:银行转帐 中国建设银行 户名:王国华 卡号:4367 4221 6996 4452 629 价格:50元 汇款后请短信与13792286750联系,并发送reg.txt 文件到greenmedia@163.com 或者 clwgh@slof.com,说明汇款的时间,汇款人的姓名,电子邮件地址。在汇款时请多汇点钱,比如汇50.8元,52.5元等,这样可以区分每个汇款人。款到后注册串号立即用电子邮件方式发出

作者博客:http://www2.cnblogs.com/green168           

了解及时信息请访问:http://green168.51.net/readme.html

 

声明
这Webinfo自动化搜索引擎系统ver 1.4 声明:这个系统属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让 中小网站也有有自己特色的搜索引擎。适合与于对某一指定领域里的网站进行搜索,比如建立一个内网的搜索引 擎。
目录
系统需要
构成
工作原理
安装
管理方法
关于管理的建议
其它
常见的问题 (必要)
关于
购买没有限制的版本
总体
这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。
适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。
使用了sql server 2000做数据库。
系统需要 TOP
本系统基与Microsoft .Net Framework 1.1 下
系统需要如下:
最小系统 :
最小只需要一台服务器,做为IIS服务器、数据库服务器、和spider服务器工作站
适合于比较小的应用。
标准系统 :
分别配备IIS服务器、数据库服务器、和spider服务器工作站。
大型系统 :
分别配备IIS服务器、数据库服务器群、和spider服务器工作站群。
构成 TOP
分别在两个目录下面
search目录下:
文件名 描述
se.aspx 提供用户搜索的界面
admin.aspx 管理系统的页面
log.aspx 管理系统的登陆页面
err.htm 搜索出错时候的页面
web.config 配置文件
add.aspx 登陆站点的页面
bin目录 dll文件,无需改动。
build_d.txt 脚本文件,无须修改。
inc目录 包含文件目录
build_t.txt 脚本文件,无须修改。
index.htm 进入搜索的页面。
spider目录下:
文件名 描述
spider.exe 蜘蛛程序
cf.ini 蜘蛛程序的配置文件

noise.chs 噪音词文件。
build.sql 建立数据的文件。
ReadMe目录 说明文件目录。
工作原理 TOP

以上是示意图,但是在实际使用中并不需要如此多的计算机,一台计算机就可以完成系统的安装。
spider服务器负责对主数据库服务器中网址列表里的内容进行搜索,主服务器中的数据库同时存有每个spider的工作参数,而每个spider由自己的id相互区分。
spider服务器所得到的数据将分别输入各数据库服务器,数据库服务器经过"全文索引"后可以提供用户检索。
IIs服务器获得了用户搜索的关键字后,将根据主数据库服务器中数据表的分配情况分布的在数据库服务器中检索。并呈现给用户。
注:数据库服务器需要Windows 2000 advanced server 或者2003下,并安装sql server 2000企业版。
全文索引:是Microsoft公司的一项技术。对海量数据的检索是非常耗时的工作,全文索引是高效的解决方法。
安装 TOP
1、将search目录下面的文件放置到IIs中的一个虚拟目录中
2、将spider目录下的文件放置到电脑(可以是与IIs服务器同一个电脑)任意目录,并配置CF.ini文件


变量名 描述
L-DataBaseHost: 指定主数据库服务器的IP地址或则服务器名
L-DataBase: 主数据库服务器中的数据库名,一般不做改动
L-User: 主数据库服务器中的用户名,必须有足够的权限。
L-User: 以上用户名的密码
Thno: 本spider程序的线程数,根据计算机情况而定
id: 本spider的id值,这个是区分不同spider的唯一参数
TimeOut: 在获取网页时的超时时间,以毫秒为单位
Intervel: spider程序查询服务器的时间间隔 单位毫秒(一般为30000)
Tlim: 对某一url搜索时最大的获取页面数

3、打开build.sql文件(记事本就可以),在主数据库服务器中Sql查询分析器中运行它,它将建立一个叫main的数据库(见注意)
具体方法:
用记事本打开build.sql,把里面的内容复制到sql查询分析器中的查询窗口,按“F5”.
4、配置search目录下面的web.config文件,在<appSettings>....</appSettings>里有一
<add key="constring2" value="Data Source=server-huang;Initial Catalog=main;User Id=sa;Password=00110920;" />
其中红色表示主数据库服务器的地址或则主数据库服务器名褐色表示主数据库服务器中数据库名,一般不做修改绿色表示主数据库服务器中的用户名黄色表示主数据库服务器的用户名
修改以上的各项
5、安装完毕。
注意 :
在build.sql文件里有如下句
CREATE DATABASE [main] ON (NAME = N'main_Data', FILENAME = N'c:\maindata' , SIZE = 2, FILEGROWTH = 10%) LOG ON (NAME = N'main_Log', FILENAME = N'
c:\mainlog' , SIZE = 1, FILEGROWTH = 0%)
COLLATE Chinese_PRC_CI_AS
GO
红色 部分表示建立文件的路径,可能需要根据你的情况修改。
管理方法TOP

本系统管理是通过web的方式进行管理,即使你身在远处,只要有能上网的计算机,就可以对本系统进行管理。
登陆log.aspx页面后,进入管理页面(默认的用户名是admin密码pass 修改请见)。
手动模式
1、创建用与存储网页数据的数据表和数据库并新注册数据库服务器

点“数据表管理”中的“新注册数据库服务器并建立数据表” 将出现两个文本框。
在第一个文本框中依次输入 数据库服务器名或则IP地址|用户名|要建立的数据库名|密码|数据表名|该表的全文目录名|指定一个目录作为全文索引的目录中间用"|"分割。
如: 127.0.0.1|sa|00110920|db1|00110920|tb1|myfull|D:\eh
输入后再次检查输入是否正确,其中用户名和密码是事先在该服务器上存在的。
第二个文本框里是对该数据库文件组的分配情况(将数据库文件分配到各各磁盘,有效利用资源)如何配置请见:
ON
PRIMARY ( NAME = name1,文件组名
FILENAME = 'c:\1.mdf',主文件的路径,注意扩展名为.mdf,而其余的是.ndf
SIZE = 1MB,主文件的大小
MAXSIZE = 200,文件的最大大小
FILEGROWTH = 20),
( NAME = name2,
FILENAME = 'c:\2.ndf',
SIZE = 1MB,
MAXSIZE = 200,
FILEGROWTH = 20),
( NAME = name3,
FILENAME = '
c:\3.ndf',
SIZE = 1MB,
MAXSIZE = 200,
FILEGROWTH = 20)


LOG ON
( NAME = log1,
FILENAME = '
c:\log1.ldf',
SIZE = 10MB,
MAXSIZE = 200,
FILEGROWTH = 0)
这个是日志文件,一般只需要一个。

绿色部分一般是需要用户修改的
说明:

( NAME = name2,
FILENAME = 'c:\2.ndf',
SIZE = 1MB,
MAXSIZE = 200,
FILEGROWTH = 20)
,

是一个扩展的文件组由()包含,一个数据库可以由多个这样的文件组(或者一个)组成分配到各磁盘空间,如果该文件组是数据库文件的最后一个文件组(不包含日志文件)那么最后的","应该去掉,否则会出错。

( NAME = name1,
(FILENAME = 'c:\1.mdf',
SIZE = 1MB,
MAXSIZE = 200,
FILEGROWTH = 20),

这个是主文件组,只是文件扩展名不同

在第二个文本框中内容配置好后按“确定”。
2、建立数据表


1、点击某一数据库下的一个数据表 ,选择“添加数据表” ,按“确定”
2、需要配置如下参数

数据表名|全文索引名|全文索引目录
中间用“|”分割
数据表名:选择唯一的数据表名
全文索引名:选择唯一的全文索引名
全文索引目录:在计算机中选择一个已存在的目录
如: tb1|myfull|D:\eh

再三确定以上数据的正确后 按 “确定”

3、新添加spider

点击某一数据表,选择“新增加spider”按“确定”,将得到一个spider和它的id
运行spider目录下面的spider.exe,与该spider一起的cf.ini文件里的id值应该与以上得到的id值一致,否则这个spider是无效的。
新添加的spider是处与非工作状态的
点击这个新的spider

选择“启动”按“确定”
启动spider程序
注:本系统标识和区分spider程序的是id,如果一个电脑上有几个spider程序那么他们应该防在不同的目录并有不同的id。这个id值在与spider同目录的CF.ini文件里设置()。
4、启动数据表全文索引
点击某一数据表,选择“启动该表全文索引”按“确定”
注:数据表在输入数据后并不能被检索,它还需要全文索引的过程,才能被索引。
5、使数据表处于“活动”状态
点击某一数据表,选择“激活该表”按“确定”
注:只有处与激活状态的数据表才能被用户检索。而处与非活动状态的数据表,可以处于“准备”状态,也就是正在被spider填充数据。注意只有被全文索引后的数据表才能激活,否则将会出错。

下面是一个“成熟”的数据表的“制作”过程
一个空白的数据表(未被激活、未被全文索引)-->被某spider填充完毕-->启动该表的全文索引-->一个"成熟"的数据表-->激活该数据表-->过程完毕

6、确定用户检索的顺序

是由order值的降序排列的
7、向主数据库中数据表中添加url搜索列表
在主数据库中(main)有一list表,该表是搜索的url列表,这里面的url来源有两个。
1、用户“登陆网站”
2、管理者输入http://你网站的目录/add.asp?auth=00110920进行登陆网站。
其中00110920是相当与密码,可以在search目录下的web.config文件中设置(见)
本方法输入可以绕过“防恶意输入”的检测
8、移动spider
某些情况下你可能需要移动spider
点击某一spider,选“移动”,按“确定”,将出现一个小的文本框,在此输入你想要移动到的数据表的id,按“确定”
9、设置数据表的order值
用户在检索数据时,系统会根据数据表的排序情况分别检索每个数据表(循序渐进)。
检索的顺序是依照order的降序排列。
设置方法:
输入数据表id值和order值按“确定”如图

自动模式 (推荐)
自动模式是指将建立好的数据表“设置为自动”。
1、设置自动的表
点击一个刚建立好的数据表(模式为"manu")选择“设置为自动/修改设置”按“确定”,将出现两个小的文本框,在第一个文本框里输入这个数据表目标的记录条数,后一个文本框中输入一个spider的id。
注意:被设置的spider将成为这个数据表的“主spider”,这个spider将在数据表完成计划的数据容量时自动启动该表全文索引。
2、修改设置(重新设置数据表的目标记录数)
点击一个设置为自动的数据表("auto"),选择 “设置为自动/修改设置”按“确定”,将出现一个小的文本框,在此输入重新设置的目标记录条数。

图示



关于管理的建议TOP
过程
本系统的管理过程可以简单的理解成一个建立“成熟数据表”的过程。过程如下:
一个空白的数据表(未被激活、未被全文索引)-->被某spider填充完毕-->启动该表的全文索引-->一个"成熟"的数据表-->激活该数据表-->过程完毕
其中最后一次启动全文索引的时间将显示在数据表id号后,如果为空,表是该数据表未被索引。
性能
本系统将一个庞大的数据分解到很多小的数据表,所以分表是提高性能的关键。
本系统性能很大部分取决于电脑的性能,但是不要试图将大量数据填充如一个数据表,如当数据表填充数据量在5万(视计算机性能定)时,你可能就需要停止对它的填充,将spider转移到下一数据表。
一般规则
新制作好的成熟数据库应将order值设置为最高,制作完成太久的数据库可以删除。
其它TOP
配置web.config的其它项目

<add key="open" value="yes" />
<add key="timespan" value="1" />
这个两段是关于“用户登陆网站”的设置。
红色表是用户登陆网站功能开放改为"no"将关闭该功能
兰色表示“防恶意输入”的延迟时间,某一用户连续输入网址的最短间隔时间

<add key="statement" value="你必须同意如下 1、站点内容必须符合国家法律 2、站点可以被稳定的访问" />
以上是设置用户在登陆站点时必须同意的协议内容。

配置管理密码
在web.config里有如下部分,此部分设置对登陆log.aspx时候有效。
<add key="user" value="admin" />
<add key="password" value="pass" />
红色表示用户名
兰色表示密码
外观配置
本程序的呈现给用户的部分没使用图片,用户可以修改html代码,但在修改时候请小心修改<%..%>里的部分,不然可能会导致程序出错。
inc目录里有页面的头部和尾部的代码。
常见问题TOP
1、全文索引时都会出现的问题
在我使用sql server 2000中文企业版的时候出现的问题,中文全文索引不起作用,任何关键字将被视为噪音词。
解决办法如下:
搜索计算机"noise.chs"文件,并将该文件复制到目录 您的sql安装时指定的数据库目录\MSSQL\FTDATA\SQLServer\Config 本软件包里也提供该文件。
2、用户搜索时显示“无活动的数据表”
是因为你没有被激活的数据表
3、用户在搜索是出错
可能是因为在你激活的数据库中的有一个或者多个数据表未启动全文索引
4、删除数据表的问题
当一个数据库中最后一个数据表被删除后,这个数据库将不被列表出来,但是并不代表这个数据库被删除,只是里面的数据表被删除了。
5、数据组文件组的问题
文件组应该分配到有足够磁盘空间的盘。这可能需要用会对sql一定的了解,如果不太清楚可以参见相关资料。
关于TOP
本软件是完全有我自己编写的,按照自己的思路,可能有些不妥的地方,希望在以后的版本中改进。
软件编写是艰苦的工作,保护自己的知识也很重要,所以任何试图对本软件的反编译都是可恨的,更是违法的,这样会是我们这些软件编写者失去对软件编写的兴趣。
购买没有限制的版本TOP
本软件的免费版本有如下限制:
1、spider的线程只能为一个
2、对某一url的最大页面数只能为10页
3、会有我的页面标记
付费版不会有以上限制。

作者博客:http://www2.cnblogs.com/green168            

预了解及时信息请访问:http://green168.51.net/readme.html

        

 
作者:green

版权所有 2004.12

虎翼网门户通主机大赠送