为了账号安全,请及时绑定邮箱和手机立即绑定

请教一个火车头采集器可用的纯正规则!

请教一个火车头采集器可用的纯正规则!

红糖糍粑 2018-08-01 09:09:27
情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!这些特殊符号在标题中有的显示例如:❤♨等等等~~有的不会显示如图1 图2!那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!但是刚接触这个东西还不会写啊!所以来求助来了!我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]请会的大神不吝赐教!感激不尽!
查看完整描述

1 回答

?
HUWWW

TA贡献1874条经验 获得超12个赞

直接写一个正则表达式可能不好写,你可以换一个思路,写一个正则表达式,表示你想要的一个字符的规则,然后php遍历每一个字符,满足符合的字符,把这些留下的字符拼接下就可以了。


查看完整回答
反对 回复 2018-09-25
  • 1 回答
  • 0 关注
  • 717 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信