欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

javascript - 请教一个火车头采集器可用的纯正规则!

程序员文章站 2022-04-03 17:33:24
...

情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!
这些特殊符号在标题中有的显示例如:❤♨等等等~~

有的不会显示如图1 图2!
javascript - 请教一个火车头采集器可用的纯正规则!

javascript - 请教一个火车头采集器可用的纯正规则!

那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!

那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~

这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!

我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!
但是刚接触这个东西还不会写啊!所以来求助来了!

我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!

因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]

请会的大神不吝赐教!感激不尽!

回复内容:

情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!
这些特殊符号在标题中有的显示例如:❤♨等等等~~

有的不会显示如图1 图2!
javascript - 请教一个火车头采集器可用的纯正规则!

javascript - 请教一个火车头采集器可用的纯正规则!

那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!

那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~

这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!

我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!
但是刚接触这个东西还不会写啊!所以来求助来了!

我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!

因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]

请会的大神不吝赐教!感激不尽!