系统简介:
本搜索引擎是采用倒排结构算法,ASP_VB脚本,Access数据库的小型垂直(行业)搜索引擎。
具有平台适应性好,易于维护,速度快,源码开放等优点。

平均单个网页处理时间:小于15秒。 平均检索时间:小于300豪秒。
应用范围:(重要)
1.中小型网站的站内全文搜索,中小企业内网全文搜索。
2.小型应用范围的互联网行业搜索,例如:汽车用品搜索,化妆品网购搜索,蔬菜信息搜索等。
3.SEO工作者和初学者的实践应用,主要是虚拟大型互联网全文搜素引擎(谷歌、百度等),并用于检验SEO效果。
4.文字工作者和科研工作者提供基于本地单机的文章,学术资料的搜集整理(文库模块),建立索引,并可以发布在互联网上,即个人版的兴趣化搜索引擎。
5.类似于:hao123,265的网址站导航服务,全后台管理,精品网页的站内全文搜索。
6.基于搜索模块带来的流量,类似于百度、谷歌的收费竞价广告服务。
7.提供以上两种或多种功能的综合服务
相对以前版本的主要改进:
1.使用VB标准应用程序,加速关键任务的执行。
2.清理了垃圾代码,优化了核心算法。
3.整合第三方ASP运行平台,安装调试更方便。
4.对突发大访问量了进行优化。
5.对云虚拟服务器了进行优化。

极限临界状态:
主表不分库的情况下支持:986万有效网页,索引条目11.7亿条,最大占用空间(平均每个网页大小160K)约3.2T_NTFS。

后台管理入口:login.asp
默认用户名:admin 默认密码:admin 请在调试成功后,修改用户名和密码,以确保安全。
数据库连接文件: conn.asp 请调试成功后立即修改参数data_name的数据库名称和路径
单机运行环境:
oiis6.0 MSXML 3.0 Service ACCESS 2003 (或前述软件的更高版本)
o开放FSO权限
oASP默认语言VBS
o空间3G约支持10万左右的普通网页被检索
oNTFS格式 主文件夹必须给 USERS 用户“ 修改 ”及以上权限
oVB6常用组件支持
关于运行平台:
1.仅仅用于学习和测试,可以使用NetBox平台
2.小型网站应用,访问量有限,可以使用普通虚拟主机,硬盘空间最小3G
3.自架设服务器,建议标准:CPU双核,2G内存,win2003

快速上手建议:查看帮助文档 >>> 上手试用 >>>
一个小型搜索引擎的建立,应遵循:
⑴确立主题 >>> ⑵建立并维护主关键词库 >>> ⑶搜集整理种子网址,作网站结构分析与统计分析 >>> ⑷建立并执行抓取网址任务 >>> ⑸网址去重及监测 >>> ⑹建立并执行网页采集任务 >>> ⑺网页去重过滤及监测 >>> ⑻建立并执行索引生成任务 >>> ⑼调试检索程序 >>> ⑽监测并分析用户访问的统计资料 >>> 由⑵开始循环维护,建议20天左右为一个循环周期。
注:过程⑵-⑽全部执行过后,再次循环执行内部维护周期时,必须先初始化上一步才能进行更新,更换主题重新开始除外。

操作运营原则:
原则1:小富即安。解释:幻想在单机环境下实现谷歌、百度这样通用搜索的功能是不现实的。因此针对单机版服务器开发的自主搜索引擎,在特定行业范围内,用户体验度高于通用搜索引擎是可以实现的,但是如果在这个框架范围内合理,就算富裕了,任何想要扩大这个范围的想法都是不可能实现的。
原则2:建设一个的好搜索的重要性应该是:有效性>查准率>查全率>响应速度。船小好调头,嘟嘟行业搜索的设计容量较小,缺点就是只能再特点范围内保证可用性。优点就是:在人工干预的情况下,能够迅速更新和转换热点方向。
原则3:部分人工干预是最重要的。尽管搜索引擎的终极目标是人工智能,就是脱离人脑这种生物智能计算机。但是,实现的日期根本不确定。而嘟嘟行业搜索的使用者,以中小站长和3人下的搜索管理员为主,最大的优势就是人的智能。任何好的系统都是在模拟人脑的,对于小规模应用,人工优化策略的使用,会使嘟嘟行业搜索的用户体验,就是查准率和人性化,强于大型通用搜索。即策略由人来定,计算由程序完成。

ID:44296
声明:本站所有资源均来源于互联网收集,仅供学习参考使用,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。