目前用Node做抓取,流程如下, 1、读取目标地址配置列表(异步) 2、遍历配置列表抓取新闻列表得到内容页Url集合 3、遍历Url集合抓取内容页,同时入库。 此流程涉及多个异步,现流程有些许混乱。代码如下,请大神指点 myconfig.FindConfigList(function (err, ops) { //异步得到配置列表 async.forEachSeries(ops, function (_soption, callback) { //遍历配置列表 spider.getHtmlByUrl(_soption.url, _soption.decode, function (err, html) { //获取列表页, async.forEachSeries(urllist, function (url, cb) { //、遍历Url集合抓取内容页 mynews.InsertNew(news, function (err) {//异步入库 cb(); }); },function(err){ callback() } }); },function(err){ }); });
@eeandrew 哎,对node绝望了,这奇葩的错误信息,等于没有信息,这流程控制,稍微复杂点的逻辑就各种不稳定,搞的头疼!是不是 node真的不适合做逻辑复杂的程序