用VBS或者bat批处理又或者是sh写个访问脚本,执行的时候访问服务器上的一个PHP程序,这个程序就是采集数据用的,是否可能访问,返回当前访问的连接地址/时间/返回值(状态,是否可以访问),把这个值记录到数据库或者是文件里,再做一个HTML界面,显示图表,可以根据这些数据生成图表就可以了,生成图表的时候用ajax递归调用或者是setTimeOut定时刷新图表就可以了,
创新互联建站是一家集网站建设,清河企业网站建设,清河品牌网站建设,网站定制,清河网站建设报价,网络营销,网络优化,清河网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
问题其实不难,自己都能写。给你几个思路吧:
1.在百度知道中,输入linux,然后会出现列表。复制浏览器地址栏内容。
然后翻页,在复制地址栏内容,看看有什么不同,不同之处,就是你要循环分页的i值。
当然这个是笨方法。
2.使用php的file或者file_get_contents函数,获取链接URL的内容。
3.通过php正则表达式,获取你需要的3个字段内容。
4.写入数据库。
需要注意的是,百度知道有可能做了防抓取的功能,你刚一抓几个页面,可能会被禁止。
建议也就抓10页数据。
其实不难,你肯定写的出来。 还有,网上应该有很多抓取工具,你找找看,然后将抓下来的数据
在做分析。写入数据库。
简单的分了几个步骤:
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库