*********************************************
*
*新乙王垂直搜索引擎门户系统(基于lucence+mysql+asp.net) V2.0
*作者:阮丁远
*商业授权购买或全部源代码购买或功能定制联系qq:1426875943(验证消息都填:newyw),email:1426875943@qq.com
*官方演示站:http://www.fvdou.com,官方技术站:www.yiwangcms.com
********************************************
1.版权所有 任何商业目的需要购买商业版方可正式使用,否则后果自负
2.本垂直搜索引擎系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence+mysql+asp.net,
支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集不用为每个站定义采集规则,只定义一个总的)
目录结构:
网站文件–上传这个到服务器
|
|—-spider_bin 这里为爬虫系统目录
|—-ShangPu_zhida_data商家直达栏目数据
|—-Main_set_dats 精确采集规则和模糊采集规则的采集规则文件,每个栏目建立一个目录
|—-Lanmu_Index_templete 栏目首页模板文件目录
3.使用方法步骤:
a.上传文件到服务器后,点 网站文件–上传这个到服务器 目录里的 spider_bin 目录里的
install_mysql_server_win.exe后再点击 重新安装fvdou_mysql系统服务 按钮,来开启mysql服务
,然后点 fvdou_spider.exe 开启爬虫端,点开始采集按钮 开始采集,
b.把 网站文件–上传这个到服务器 目录作为网站根目录wwwroot,如未上传到网站根目录wwwroot,
请先上传,然后服务器安装好iis+.net framework2.0后,把iis主目录指向此根目录,即可用
127.0.0.1或者你的**打开这个系统的主页网页
4.采集规则格式说明:
网站文件–上传这个到服务器/Main_set_dats/ 为 精确采集规则和模糊采集规则的采集规则文件的目录,每个栏目建立一个子目录
如 lanmu2_打折搜索 子目录下的lanmu_sets.dat为采集规则主定义文件:
—————————————————————————-
[$lanmu_name]
打折搜索
[$lanmu_sort_num]
2
[$lanmu_url_host]
/index_{$lanmu_id}.aspx
[$lanmu_index_template_file]
dazhe.html
[$lanmu_id]
dazhe_ss
[$mohu_init_search_keyword_from_other_engine]
打折网
[$mohu_web_root_title_panduan_funname]
is_dz_web_title
[$mohu_web_root_title_panduan_code]
public bool is_dz_web_title(string inn){
if(inn.IndexOf("搜索")!=-1){
//return false;
}
if(inn.IndexOf("下载")!=-1){
return false;
}
if(inn.IndexOf("打折网")!=-1||inn.IndexOf("打折信息网")!=-1){
return true;
}
return false;
}
[$page_goto_orders]
[$ext_fields_classpage]
[$ext_fields_infopage]
rem 是否为分类字段里的0 or danwei如果info页 存在 招聘单位匹配则读info页,否则读classpage 的danwei字段
rem 字段||是否为分类字段||字段采集规则英文名标示||是否储存||是否执行分词||字段是否被高级搜索||搜索类型||是否显示在左侧索引菜单||左侧菜单显示类型||固定类型,如price,addtime||采集时是否必填||Lucence搜索类型||左侧索引菜单显示次序||little_select_min_word_num
商品名||0 or danwei||spname||1||0||1||little_select||1||links_list||none||0||PrefixQuery||1||8
折扣||0||zhekou||1||0||1||little_select||1||links_list||none||1||PrefixQuery||1||8
[$ext_fields_mohu_ziduan_name_enmu]
rem 字段采集规则英文名标示 || 可能的所有字段名列表,正则||可能的值的正则,0表示匹配所有
spname|| (.{0,3})(商品名|商品|产品名|打折产品|打折商品)(.{0,3})|| 0
zhekou|| (.{0,3})(折扣)(.{0,3})|| 0
[$code_for_ext_fields_data_enmu_guilei_to_small]
—————————————————————————-
其中:[$lanmu_name]下指定栏目名
[$lanmu_url_host]下指定栏目路径
[$lanmu_index_template_file]下指定栏目模板文件,在Lanmu_Index_templete 栏目首页模板文件目录
[$lanmu_id]为栏目id,必须不能重复
[$mohu_init_search_keyword_from_other_engine]为模糊采集规则在初始化采集来源数据时 在其他搜索引擎采集搜索时的 关键字
[$mohu_web_root_title_panduan_funname]指定在[$mohu_web_root_title_panduan_code]里代码的函数名,不能重复
[$mohu_web_root_title_panduan_code]为首页标题是否为目标站类型的判断函数
[$ext_fields_infopage]为所有的采集字段的定义
[$ext_fields_mohu_ziduan_name_enmu]为模糊采集规则,如spname || (.{0,3})(商品名|商品|产品名|打折产品|打折商品)(.{0,3})|| 0
则表示提取 商品名或商品或产品名或打折产品 右边的最近的文字作为spname字段的采集数据
—
lanmu1_招聘搜索/webs_guize 下面的文件为精确采集规则文件定义,一个目标站一个文件
其中 [$page_url_regex] 为0表示不过滤url,
[$caiji_info_fields_regex]里的 正则/位置规则详细 里的如[fd_datatoget]里[fd_datatoget]表示目标采集数据部分
zpdw|+| regex|+|招聘单位:
</|+|乐清公司
zwmc|+| regex|+|职位名称:
yuexin|+| regex|+|工资待遇:
didian|+| regex|+|工作地点:
这些就是精确采集规则的具体采集规则定义,zpdw等和lanmu_sets.dat里的[$ext_fields_infopage]里的字段采集规则英文名标示 对应
5.商业授权购买或全部源代码购买或功能定制联系qq:1426875943(验证消息都填:newyw),email:1426875943@qq.com
6. 官方演示站:http://www.fvdou.com,官方技术站:www.yiwangcms.com