1. 采集二级网址,在“多级网址规则”那里填写,然后右下角“测试网址采取”
2. 多级网址采集 -> 附加参数 有些内容可能在内容页面获取不到,但它在网址页面可以获取到,此时可以用一个标签和指定字符(正则表达式)将其提取出来,提取出来的此标签值将循环的添加到符合条件的每条记录上。
3. 采集内容规则更改后,要保存退出,再进去才会生效。
4. 多页采集
左侧多页管理,添加多页提取规则,然后在添加的页面标签中,就可以选择:所属多页
5. 标签循环处理,标签编辑页里把“标签循环处理”打勾,然后在“第二步采集内容规则”的“标签循环处理”设置分隔符
6. web发布测试成功,发布时显示:发布站点【xxx】失败!
7. 火车头采集器采集测试成功,正式采集发布失败的解决方法?
8. 高级功能->发布数据构造 对数据进行处理
9. 配置好成功及错误信息,否则将很难追踪错误,调试时请用Fiddler2查看返回信息跟踪是否错误还是正常的,没有写入成功信息的成功返回。因为如果该成功信息不在列表里,会被火车头判定为失败
发布内容设置里,更换栏目,在Fiddler2提示“未登录”,在发布配置里更改为“使用数据包登录方式”后成功,但发布时还是失败,在Fiddler2提示“未登录”。
提示“您来自的链接不存在”,栏目选错了,就有可能提示
我已经使用了两个管理员账号,一个用来登陆,一个用来采集。可是还是出现“同一帐号同时只能一个在线,或是您的帐号已被禁用的提示。”答:清空IE COOKIE,然后使用火车头内置浏览器登录你的网站后台,退出火车头再打开(这个也是关键,我就是卡在这里,都快崩溃了),重新加载火车头配置。注意:发布的时候不在在另外的地方登录你的网站后台为了防止登陆过期,你可以在后台 系统参数设置-控制面板设置-登陆超时限制 里将时间设置为足够大,就可以每天正常登陆了.同时,请新建一个帐号专门用于采集,不要在火车里和浏览器里同时登陆.注意如果更改了发布配置,也必须关闭火车头,重新打开,才能正常载入新的配置。正常发布流程:双击打开采集任务->发布内容设置->看是否可以获取到栏目->否的话->web发布配置管理->登录(看是否可以取到列表)->返回采集任务窗口测试-ok的话,关闭任务->采集发布
10. ECMS 提交表单
A、打开模块 checked 为审核1为发布 0为审核B、autopage 为分页1为分页下面的5000是分页字数C、copyimg为远程保存图片就是产生缩略图getfirsttitlespic 为取第几张图片为缩略图一般写1这个还可以加一个参数 getfirsttitlepic这个是取第几张图片 作为主图D、dokey 关键字替换是这个参数同样用1和0代替1为替换E、onclick 还可以加这个参数 是文章点击数可以用标签 在规则添加随机值使用
11.火车头数据库入库模块制作步骤-简要文字记录
a. 用phpmyadmin打开数据库,拷贝未插入记录前的数据表信息
b. 在cms后台插入一篇文章
c. 再回到phpmyadmin中,对比前后记录数变化,找出涉及的所有数据表
d. 打开这些数据表,找到自增ID,把该ID作为[文章编号:数据表名]
e. 利用phpmyadmin的SQL生成功能,生成对应的Insert语句,去掉所有数据表字段名的引号”,插入对应的[标签:xx],没有的字段对照数据表中的默认值写入,除了整型,其他类型的字段值都要加单引号”。
f. 可在模块制作首页设置数据表前缀,并在SQL语句那里引用
g. 第5步测试发布那里,双击对应标签(自动根据SQL语句里的标签生成)在右边框里编辑测试值,并按“保存”数据
12. 如何隐藏cloak地址:
专门的隐藏服务如:nullurl.com
13. 多级采集时,下一级,不能调用上一获取到的【标签:XXX】
标签是不可以在下级网址中调用的。你可以用参数来代替
14. 采集 如何防止被封IP?
15. 火车头采集器可以深入多级采集吗?
多级网址采集可以用这种方法:使用导入导出功能实现无限级 {:4_197:}
火车头采集器有网址导出导入的功能你可以用这个实现无限级的网址采集。在测试网址那一块,
你选测试网址,然后就可以导出二级或二级网址。
16. 如何控制火车头采集器采集速度?
编辑任务->保存及部分高级设置->左边第一项
17. 怎么用火车头采集图片存到本地?
因为火车头中的”下载图片”功能,是检测html的img标签,所以截取的字符串中一定要包含完整的img标签,才会触发下载。
附: 这里包含很全的火车头采集器视频教程 http://www.locoy.com/CInfo/howtostart.html
18. 火车头web发布模块里的表单名不能带”:”,否则会被分配到表单值里去。