更多内容请访问:蛟龙在线 |
||||||||||||||||||||||||||||||
| Webinfo自动化搜索引擎系统介绍 v1.41 (更新日期:2005年1月21日) | ||||||||||||||||||||||||||||||
| 系统软件:
MDAC2.8 中文版下载地址: |
||||||||||||||||||||||||||||||
| ver 1.41 (2005.1.21) 补丁下载
修改数据管理页面的数据错误。修复蜘蛛程序删除页面的bug. 升级方法: 1.将压缩包内mm.exe xcprof.dll 覆盖蜘蛛程序目录下原文件。 2.将压缩包内admin.dll 覆盖web站点 bin 目录下原文件。
|
ver 1.4 (2005.1.11)
升级内容:下载地址:free1.4.rar
1.增加屏蔽网址功能 。 2.修正上一版本处理网页重定向时判断部分网址的错误。 3.增加了删除重复数据功能,可选择是否采用重复页面删除模式,可定义索引重复数据的数据表。 4.首次采用注册码注册完全版本,共享版本限制每网址索引10个页面。 升级方法: 1.替换spider 文件夹内所有文件. 2.修改cf.ini文件内容,格式如下: Thno:线程,共享版只能使用1线程。 id: 蜘蛛id。 Tlim:每个网址索引页面数,1.4共享版每个网址只能搜索10个页面。 ns: 屏蔽网址中字符串,如:search?_?&&?biadu ,每个字符串之间用"?"分隔。 cftb:重复页面索引的数据表,填写你要搜索并删除重复网页的数据表,每个数据表间用"?"分隔,如:[db2].[dbo].[tb2]?[db2].[dbo].[tb1]?[db2].[dbo].[w050103]?[db2].[dbo].[w050104]?[db2].[dbo].[w050106],其中db2是你建立的数据表的名称,tb2、tb1、w050104等是在db2数据表中数据项的名称。 reg:注册串号(没有注册可不填写),填写我们反馈给你的这册串号。 cfy:是否进行重复网页索引,如果这里填"1",将按照上面填写的重复页面索引项搜索原有数据库中存在的重复页面,并删除,注意:此项功能请载服务器负荷较小的深夜进行,否则由于搜索量非常大可能造成数据服务器当机。 如果填写"0",将不进行重复页面筛检。 关于软件注册: 注册前请运行一次蜘蛛程序,在spider目录下将得到一个reg.txt的文件 付费方式:银行转帐 中国建设银行 户名:王国华 卡号:4367 4221 6996 4452 629 价格:50元 汇款后请短信与13792286750联系,并发送reg.txt 文件到greenmedia@163.com 或者 clwgh@slof.com,说明汇款的时间,汇款人的姓名,电子邮件地址。在汇款时请多汇点钱,比如汇50.8元,52.5元等,这样可以区分每个汇款人。款到后注册串号立即用电子邮件方式发出。 作者博客:http://www2.cnblogs.com/green168 了解及时信息请访问:http://green168.51.net/readme.html
|
|||||||||||||||||||||||||||||
| 声明 | ||||||||||||||||||||||||||||||
| 这Webinfo自动化搜索引擎系统ver 1.4 声明:这个系统属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让 中小网站也有有自己特色的搜索引擎。适合与于对某一指定领域里的网站进行搜索,比如建立一个内网的搜索引 擎。 | ||||||||||||||||||||||||||||||
| 目录 | ||||||||||||||||||||||||||||||
| 系统需要 构成 工作原理 安装 管理方法 关于管理的建议 其它 常见的问题 (必要) 关于 购买没有限制的版本 |
||||||||||||||||||||||||||||||
| 总体 | ||||||||||||||||||||||||||||||
| 这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。 适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。 使用了sql server 2000做数据库。 |
||||||||||||||||||||||||||||||
| 系统需要 TOP | ||||||||||||||||||||||||||||||
| 本系统基与Microsoft .Net Framework 1.1 下 系统需要如下:
|
||||||||||||||||||||||||||||||
| 构成 TOP | ||||||||||||||||||||||||||||||
| 分别在两个目录下面 search目录下:
noise.chs 噪音词文件。 build.sql 建立数据的文件。 ReadMe目录 说明文件目录。 |
||||||||||||||||||||||||||||||
| 工作原理 TOP | ||||||||||||||||||||||||||||||
![]() 以上是示意图,但是在实际使用中并不需要如此多的计算机,一台计算机就可以完成系统的安装。 spider服务器负责对主数据库服务器中网址列表里的内容进行搜索,主服务器中的数据库同时存有每个spider的工作参数,而每个spider由自己的id相互区分。 spider服务器所得到的数据将分别输入各数据库服务器,数据库服务器经过"全文索引"后可以提供用户检索。 IIs服务器获得了用户搜索的关键字后,将根据主数据库服务器中数据表的分配情况分布的在数据库服务器中检索。并呈现给用户。 注:数据库服务器需要Windows 2000 advanced server 或者2003下,并安装sql server 2000企业版。 全文索引:是Microsoft公司的一项技术。对海量数据的检索是非常耗时的工作,全文索引是高效的解决方法。 |
||||||||||||||||||||||||||||||
| 安装 TOP | ||||||||||||||||||||||||||||||
| 1、将search目录下面的文件放置到IIs中的一个虚拟目录中 2、将spider目录下的文件放置到电脑(可以是与IIs服务器同一个电脑)任意目录,并配置CF.ini文件 ![]()
3、打开build.sql文件(记事本就可以),在主数据库服务器中Sql查询分析器中运行它,它将建立一个叫main的数据库(见注意)。 具体方法: 用记事本打开build.sql,把里面的内容复制到sql查询分析器中的查询窗口,按“F5”. 4、配置search目录下面的web.config文件,在<appSettings>....</appSettings>里有一 <add key="constring2" value="Data Source=server-huang;Initial Catalog=main;User Id=sa;Password=00110920;" /> 其中红色表示主数据库服务器的地址或则主数据库服务器名褐色表示主数据库服务器中数据库名,一般不做修改绿色表示主数据库服务器中的用户名黄色表示主数据库服务器的用户名 修改以上的各项 5、安装完毕。 注意 : 在build.sql文件里有如下句 CREATE DATABASE [main] ON (NAME = N'main_Data', FILENAME = N'c:\maindata' , SIZE = 2, FILEGROWTH = 10%) LOG ON (NAME = N'main_Log', FILENAME = N'c:\mainlog' , SIZE = 1, FILEGROWTH = 0%) COLLATE Chinese_PRC_CI_AS GO 红色 部分表示建立文件的路径,可能需要根据你的情况修改。 |
||||||||||||||||||||||||||||||
| 管理方法TOP | ||||||||||||||||||||||||||||||
本系统管理是通过web的方式进行管理,即使你身在远处,只要有能上网的计算机,就可以对本系统进行管理。
绿色部分一般是需要用户修改的 ( NAME = name2, 是一个扩展的文件组由()包含,一个数据库可以由多个这样的文件组(或者一个)组成分配到各磁盘空间,如果该文件组是数据库文件的最后一个文件组(不包含日志文件)那么最后的","应该去掉,否则会出错。 ( NAME = name1, 这个是主文件组,只是文件扩展名不同
3、新添加spider 是由order值的降序排列的 |
||||||||||||||||||||||||||||||
| 关于管理的建议TOP | ||||||||||||||||||||||||||||||
| 过程 本系统的管理过程可以简单的理解成一个建立“成熟数据表”的过程。过程如下: 一个空白的数据表(未被激活、未被全文索引)-->被某spider填充完毕-->启动该表的全文索引-->一个"成熟"的数据表-->激活该数据表-->过程完毕 其中最后一次启动全文索引的时间将显示在数据表id号后,如果为空,表是该数据表未被索引。 性能 本系统将一个庞大的数据分解到很多小的数据表,所以分表是提高性能的关键。 本系统性能很大部分取决于电脑的性能,但是不要试图将大量数据填充如一个数据表,如当数据表填充数据量在5万(视计算机性能定)时,你可能就需要停止对它的填充,将spider转移到下一数据表。 一般规则 新制作好的成熟数据库应将order值设置为最高,制作完成太久的数据库可以删除。 |
||||||||||||||||||||||||||||||
| 其它TOP | ||||||||||||||||||||||||||||||
| 配置web.config的其它项目 <add key="open" value="yes" /> <add key="timespan" value="1" /> 这个两段是关于“用户登陆网站”的设置。 红色表是用户登陆网站功能开放改为"no"将关闭该功能 兰色表示“防恶意输入”的延迟时间,某一用户连续输入网址的最短间隔时间 <add key="statement" value="你必须同意如下 1、站点内容必须符合国家法律 2、站点可以被稳定的访问" /> 以上是设置用户在登陆站点时必须同意的协议内容。 配置管理密码 在web.config里有如下部分,此部分设置对登陆log.aspx时候有效。 <add key="user" value="admin" /> <add key="password" value="pass" /> 红色表示用户名 兰色表示密码 外观配置 本程序的呈现给用户的部分没使用图片,用户可以修改html代码,但在修改时候请小心修改<%..%>里的部分,不然可能会导致程序出错。 inc目录里有页面的头部和尾部的代码。 |
||||||||||||||||||||||||||||||
| 常见问题TOP | ||||||||||||||||||||||||||||||
| 1、全文索引时都会出现的问题 在我使用sql server 2000中文企业版的时候出现的问题,中文全文索引不起作用,任何关键字将被视为噪音词。 解决办法如下: 搜索计算机"noise.chs"文件,并将该文件复制到目录 您的sql安装时指定的数据库目录\MSSQL\FTDATA\SQLServer\Config 里 。本软件包里也提供该文件。 2、用户搜索时显示“无活动的数据表” 是因为你没有被激活的数据表 3、用户在搜索是出错 可能是因为在你激活的数据库中的有一个或者多个数据表未启动全文索引 4、删除数据表的问题 当一个数据库中最后一个数据表被删除后,这个数据库将不被列表出来,但是并不代表这个数据库被删除,只是里面的数据表被删除了。 5、数据组文件组的问题 文件组应该分配到有足够磁盘空间的盘。这可能需要用会对sql一定的了解,如果不太清楚可以参见相关资料。 |
||||||||||||||||||||||||||||||
| 关于TOP | ||||||||||||||||||||||||||||||
| 本软件是完全有我自己编写的,按照自己的思路,可能有些不妥的地方,希望在以后的版本中改进。 软件编写是艰苦的工作,保护自己的知识也很重要,所以任何试图对本软件的反编译都是可恨的,更是违法的,这样会是我们这些软件编写者失去对软件编写的兴趣。 |
||||||||||||||||||||||||||||||
| 购买没有限制的版本TOP | ||||||||||||||||||||||||||||||
| 本软件的免费版本有如下限制: 1、spider的线程只能为一个 2、对某一url的最大页面数只能为10页 3、会有我的页面标记 付费版不会有以上限制。 作者博客:http://www2.cnblogs.com/green168 预了解及时信息请访问:http://green168.51.net/readme.html
|
||||||||||||||||||||||||||||||
作者:green
版权所有 2004.12 |