自动生成文章摘要的代码[PHP 版本]

程序员文章站 2022-07-10 23:44:21

实现内容：截断一段含有html代码的文本，但是不会出现围堵标记没有封闭的问题。说明：这是php版的，用于在服务器端使用，如果你需要一个客户端版的，请阅读下一篇 ...

实现内容：截断一段含有html代码的文本，但是不会出现围堵标记没有封闭的问题。
说明：这是php版的，用于在服务器端使用，如果你需要一个客户端版的，请阅读下一篇
我们在写blog这样的程序时经常需要显示文章前一部分的，但是又怕不恰当的截断破坏封闭标签以造成整个文档结构破坏，使用我的函数可以在要求不高的情况下解决这个问题。
大家应该考虑这个函数在服务端应用还是在客户端应用。因为我考虑这个函数可能运行起来比较费机器，所以安全性要求不高的情况下可以放在客户端上。
最好数据表中单独一个字段放这个摘要，这样相应的数据库查询也优化了。牺牲一点点空间换很多时间还是划算的。
再聊一下安全性问题，主要是内容安全性。如果客户端意图更改正常的摘要信息的话，一般都是blog的主人才有这个权力，那么他使得摘要和原文的一致性破坏就是他自己的事了。内容以外的安全性都可以在服务端解决。所以还是推荐在客户端使用本函数。
核心代码

复制代码代码如下:

// php 4.3 or above needed  
define("brief_length", 800);     //word amount of the briefing of an article  
function generate_brief($text){  
  global $briefing_length;  
  if(strlen($text) <= brief_length ) return $text;     
  $foremost = substr($text, 0, brief_length);  
  $re = "/<(\/?)(p|div|h1|h2|h3|h4|h5|h6|address|pre|table|tr|td|th|input|select|textarea|object|a|ul|ol|li|base|meta|link|hr|br|param|img|area|input|span)[^>]*(>?)/i";  
  $single = "/base|meta|link|hr|br|param|img|area|input/i";     
  $stack = array(); $posstack = array();  
  preg_match_all($re,$foremost,$matches, preg_set_order | preg_offset_capture);  
  /*   [child-matching specification]:  
    $matches[$i][1] : a "/" charactor indicating whether current "<...>" friction is closing part  
    $matches[$i][2] : element name.  
    $matches[$i][3] : right > of a "<...>" friction   */  
  for($i = 0 ; $i < count($matches); $i++){  
    if($matches[$i][1][0] == ""){  
        $elem = $matches[$i][2][0];  
        if(preg_match($single,$elem) && $matches[$i][3][0] !=""){  
          continue;  
        }  
        array_push($stack, strtoupper($matches[$i][2][0]));  
        array_push($posstack, $matches[$i][2][1]);           
        if($matches[$i][3][0] =="") break;  
    }else{  
        $stacktop = $stack[count($stack)-1];  
        $end = strtoupper($matches[$i][2][0]);  
        if(strcasecmp($stacktop,$end)==0){  
          array_pop($stack);  
          array_pop($posstack);  
          if($matches[$i][3][0] ==""){  
            $foremost = $foremost.">";  
          }  
        }  
    }       
  }  
  $cutpos = array_shift($posstack) - 1;     
  $foremost = substr($foremost,0,$cutpos);  
  return $foremost;  
}; 

若遇到问题（发现上面的函数对多字节字符集支持得不好）不烦试试下面的这个！

复制代码代码如下:

function generate_brief($text){  
  global $briefing_length;  
  mb_regex_encoding("utf-8");  
  if(mb_strlen($text) <= brief_length ) return $text;     
  $foremost = mb_substr($text, 0, brief_length);  
  $re = "<(\/?)(p|div|h1|h2|h3|h4|h5|h6|address|pre|table|tr|td|th|input|select|textarea|object|a|ul|ol|li|base|meta|link|hr|br|param|img|area|input|span)[^>]*(>?)";  
  $single = "/base|meta|link|hr|br|param|img|area|input|br/i";     
  $stack = array(); $posstack = array();  
  mb_ereg_search_init($foremost, $re, 'i');  
  while($pos = mb_ereg_search_pos()){  
    $match = mb_ereg_search_getregs();  
    /*   [child-matching formulation]:  
        $matche[1] : a "/" charactor indicating whether current "<...>" friction is closing part  
        $matche[2] : element name.  
        $matche[3] : right > of a "<...>" friction     
    */  
    if($match[1]==""){  
        $elem = $match[2];  
        if(mb_eregi($single, $elem) && $match[3] !=""){  
          continue;  
        }  
        array_push($stack, mb_strtoupper($elem));  
        array_push($posstack, $pos[0]);           
    }else{  
        $stacktop = $stack[count($stack)-1];  
        $end = mb_strtoupper($match[2]);  
        if(strcasecmp($stacktop,$end)==0){  
          array_pop($stack);  
          array_pop($posstack);  
          if($match[3] ==""){  
            $foremost = $foremost.">";  
          }  
        }  
    }  
  }  
  $cutpos = array_shift($posstack) - 1;     
  $foremost = mb_substr($foremost,0,$cutpos,"utf-8");  
  return $foremost;  
}; 

上一篇： dedecms模版制作使用方法

下一篇： Python Pandas库的学习（三）

自动生成文章摘要的代码[PHP 版本]

生成ubuntu自动切换壁纸xml文件的php代码

php文章内容分页并生成相应的htm静态页面代码

PHP定时自动生成静态HTML的实现代码

php 生成自动创建文件夹并上传文件的示例代码

php实现自动获取生成文章主题关键词功能的深入分析

PHP版自动生成文章摘要

自动生成文章摘要的代码[PHP 版本]

生成ubuntu自动切换壁纸xml文件的php代码

php自动给文章加关键词链接的函数代码

python根据文章标题内容自动生成摘要的实例