python学习杂记(一)
Python的一些基础知识介绍:
windows环境下,python环境的安装很简单,只要从python官方网站下载python的exe安装包,直接进行安装,然后在环境变量path中添加python的安装路径即可。完成之后,CMD中,键入"python"命令验证下吧。
IDE工具,我使用的是PyDev,稍微吐槽一下,不知道为什么背景颜色都是黑色的,看得我眼睛有点不舒服。
关于python的一些语法知识,可以参考《简明Python教程》:http://sebug.net/paper/python/
,以及《Python文档》:http://docs.python.org/library/index.html#library-index
今天学习的一些情况总结:
今天使用python写了一个网页爬虫,在这个过程中,遇到的一些问题:
1.使用标准模块以外的lxml模块,需要安装这些模块,安装的过程参考:http://ccyl.iteye.com/admin/blogs/1616876
2.关于xpath,由于一知半解,一直以为"//"是相对路径的表示方式,导致今天在一个问题上纠结了近一个小时,最后看了下xpath的知识,才知道,"//"是表示找到某个标签,而不管它在文档中的哪个位置。如果想从当前节点开始找起的话应该是
HtmlElment.xpath("./xxx");
3.关于python操作中文字符串时,截取字符导致的乱码。在《简明Python教程》中,对于字符串的介绍有这么一段话:
Unicode是书写国际文本的标准方法。如果你想要用你的母语如北印度语或阿拉伯语写文本,那么你需要有一个支持Unicode的编辑器。类似地,Python允许你处理Unicode文本——你只需要在字符串前加上前缀u或U。例如,u"This is a Unicode string."。
1)出现字符串的地方一定要加u或者U
2)不要用str()函数,改用unicode()函数代替
3)不用过时的string模块 -- 该模块只支持ASCII编码
4)不到必要时不要在程序里解码Unicode字符。在写文件或者数据库又或者输出到网络时,才使用encode()函数;相应的在你需要把数据读回来的时候才使用decode()函数
然后查找了一些资料,其实在做中文字符串处理的时候我们应该要先把源字符转为Unicode编码,进行字符截取等操作,然后再转为你先要的编码格式的字符。操作过程代码应该如下,以截取字符为例:
# encoding=utf-8
if __name__ =='__main__':
var = "中文字符串哦";
unicode_str = var.decode("utf-8");#decode的编码根据字符串的编码方式进行选择
print unicode_str[0:4];
输入的结果为:"中文字符"
学习一门语言,动手做点东西,写点东西才是最快上手的方法。之前我的想法一直是,先看书,等我都看到了这些知识了,学会了,再动手去做。这完全就是坑爹,其实动手做,遇到不懂的或者自己不肯定的再找相关的资料了解,才能更好的掌握并且记忆更加深刻。当然,如果能把遇到的问题都自己亲自记录下来就更好了。
Python才入门,继续加油,好好学习。
上一篇: Mongdb常用操作
下一篇: impdp/expdp