为了账号安全,请及时绑定邮箱和手机立即绑定

正则抓取网页博客

正则抓取网页博客

繁星点点滴滴 2018-08-17 12:05:36
需要抓取的是博客标题,博客时间,博客作者等等内容。这个正则该怎么写?博客搜索页面里有很多条新闻,难道针对标题写一个,博客时间写一个,作者等等其他的各写一个正则么?然后把抓取到的东西分别放到各个数组。这样怎么把抓取到的各个相对应上,如果某条博客没有写发布时间,这样标题的数组长度和博客时间的长度不就不一样长了么,这就跑偏了,现在就是怎么能把一条的内容给提取出来。不跑偏,就是如果网页里有19条博客列表,就算有一条没有发布时间,也能完整的把这19条博客所要提取的东西提取出来。哪位大牛能给个思路。我正则刚入门,我想这个问题应该是正则能解决的。只是自己没想到。公司让做一个多论坛抓取的工具,还牵扯到多线程。。唉。。都生的很。谁有过类似的小项目,学习学习。。
查看完整描述

1 回答

  • 1 回答
  • 0 关注
  • 526 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信