-
-
function html2text($str){
- $str = preg_replace("/
复制代码
第二步:把文件夹下的所有html文件转为txt文件
-
-
//要读取的目录
- $folder='e:\apmserv\www\htdocs\tool\html-to-txt\files';
- //打开目录
- $fp=opendir($folder);
- //阅读目录
- while (($file = readdir($fp)) !== false){
- $filetype = substr ( $file, strripos ( $file, "." ) + 1 );
- $filename=substr($file,0,strrpos($file,'.'));
- if($file!='.' &&$file!='..'&&$filetype == "html"){
- echo $filename.'
';
- $content=file_get_contents("$folder/$file");
- //打开文件
- $op = fopen("$folder/$filename.txt", 'a');
- //写入文件
- fwrite($op,html2text($content));
- //关闭文件
- fclose($op);
- //删除html文件
- unlink("$folder/$file");
- }
- }
- //关闭目录
- closedir($fp);
- ?>
-
复制代码
补充知识点:html转txt小技巧
把 替换成换行,如果 已经是行末,那么把 替换成\n会变成2个换行,也就是说会空一行。但是我们希望出现 只是换行,只有出现 才是空一行,该怎么办呢?
其实只要在替换之前多一个步骤,把 \n和\r都替换为空,即 \n|\r 替换为空,之后再去做html标签的替换,就不会出现这些问题了。
也许有人会问,为什么既要替换\n又要替换\r呢
\n代表换行,\r代表回车,在txt文本中这两种形式都有可能存在,这是我工作中所总结的,肯定不会错!
该知识点中提到的在本案例中已经融进去了,不用担心html替换txt出现什么问题。 |