asp.net采集页面上所有图像图片资源的具体方法
程序员文章站
2023-12-20 15:25:40
有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是webclient,webrequest等等,今天主要说一下,对于一个uri地址,采集这个页面上所有的图像...
有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是webclient,webrequest等等,今天主要说一下,对于一个uri地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。
/// <summary> /// 下载指定url下的所有图片 /// </summary> public class webpageimage { /// <summary> /// 获取网页中全部图片 /// </summary> /// <param name="url">网页地址</param> /// <param name="charset">网页编码,为空自动判断</param> /// <returns>全部图片显示代码</returns> public string getimages(string url, string charset) { string s = gethtml(url, charset); return getpictures(s, url); } /// <summary> /// 获取网页中全部图片 /// </summary> /// <param name="url">网址</param> /// <returns>全部图片代码</returns> public string getimages(string url) { return getimages(url, ""); } string doman(string url) { uri u = new uri(url); return u.host; } /// <summary> /// 获取网页内容 /// </summary> /// <param name="url">网站地址</param> /// <param name="charset">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param> /// <returns></returns> string gethtml(string url, string charset) { webclient mywebclient = new webclient(); //创建webclient实例mywebclient // 需要注意的: //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等 //这是就要具体问题具体分析比如在头部加入cookie // webclient.headers.add("cookie", cookie); //这样可能需要一些重载方法。根据需要写就可以了 //获取或设置用于对向 internet 资源的请求进行身份验证的网络凭据。 mywebclient.credentials = credentialcache.defaultcredentials; //如果服务器要验证用户名,密码 //networkcredential mycred = new networkcredential(struser, strpassword); //mywebclient.credentials = mycred; //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号) byte[] mydatabuffer = mywebclient.downloaddata(url); string strwebdata = encoding.default.getstring(mydatabuffer); //获取网页字符编码描述信息 match charsetmatch = regex.match(strwebdata, "<meta([^<]*)charset=([^<]*)\"", regexoptions.ignorecase | regexoptions.multiline); string webcharset = charsetmatch.groups[2].value.replace("\"", ""); if (charset == null || charset == "") charset = webcharset; if (charset != null && charset != "" && encoding.getencoding(charset) != encoding.default) strwebdata = encoding.getencoding(charset).getstring(mydatabuffer); return strwebdata; } string getpictures(string data, string url) { matchcollection ps = regex.matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgurl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"); string s = string.empty; for (int i = 0; i < ps.count; i++) { pictures p = new pictures(ps[i].value, url); s += p.gethtml + "<br />" + environment.newline; } return s; } /// <summary> /// 图片实体 /// 图片文件属性处理类 /// </summary> public class pictures { public pictures(string strhtml, string baseurl) { _html = strhtml; uri u1 = new uri(baseurl); _doman = u1.host; _baseurl = u1.scheme + "://" + _doman; setsrc(); } private string _html = string.empty; private string _baseurl = string.empty; private string _doman = string.empty; public string gethtml { get { return _html; } } public string alt { get { return getattribute("alt")[0]; } } public string src { get { string s = getattribute("src")[0]; return s; } } /// <summary> /// 根据基路径把相对路径转换成绝对径 /// </summary> /// <param name="baseurl">基础路径</param> /// <param name="u">待转换的相对路径</param> /// <returns>绝对路径</returns> public string absurl(string baseurl, string u) { uri ub = new uri(baseurl); uri ua = new uri(ub, u); return ua.absoluteuri; } private void setsrc() { string strpattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\s+[""']?"; string src = getattribute("src")[0].tolower(); if (!(src.indexof("http://") == 0 || src.indexof("https://") == 0) && _baseurl.length > 10) { src = absurl(_baseurl, src); string s = "src=\"" + src + "\""; _html = regex.replace(_html, strpattern, s); } } /// <summary> /// 获取html代码中标签属性 /// </summary> /// <param name="strhtml">html代码</param> /// <param name="strattributename">属性名称</param> /// <returns>属性值集合</returns> private string[] getattribute(string strattributename) { list<string> lstattribute = new list<string>(); string strpattern = string.format( @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\s+[""']?", strattributename ); matchcollection matchs = regex.matches(_html, strpattern, regexoptions.ignorecase); foreach (match m in matchs) { lstattribute.add(m.value.split('=')[1].replace("\"", "").replace("'", "")); } if (lstattribute.count == 0) lstattribute.add(""); return lstattribute.toarray(); } } }
调用:
new webpageimage().getimages(http://www.sina.com)
结果:
以上就是本文的全部内容,希望对大家的学习有所帮助。