需要抓取的是博客标题,博客时间,博客作者等等内容。这个正则该怎么写?博客搜索页面里有很多条新闻,难道针对标题写一个,博客时间写一个,作者等等其他的各写一个正则么?然后把抓取到的东西分别放到各个数组。这样怎么把抓取到的各个相对应上,如果某条博客没有写发布时间,这样标题的数组长度和博客时间的长度不就不一样长了么,这就跑偏了,现在就是怎么能把一条的内容给提取出来。不跑偏,就是如果网页里有19条博客列表,就算有一条没有发布时间,也能完整的把这19条博客所要提取的东西提取出来。哪位大牛能给个思路。我正则刚入门,我想这个问题应该是正则能解决的。只是自己没想到。公司让做一个多论坛抓取的工具,还牵扯到多线程。。唉。。都生的很。谁有过类似的小项目,学习学习。。
1 回答
- 1 回答
- 0 关注
- 526 浏览
添加回答
举报
0/150
提交
取消