杂谈
这个星期也没有专门进行一些问题的研究,这篇文章算是记录一些学习过程中的小问题以及一些学习笔记。
-
虚拟机连接eclipse运行第一个hadoop程序
这里有篇教程Windows环境下采用eclipse连接虚拟机中的伪分布式集群
在安装过程中我遇到几个问题,开始由于core-site.xml等文件修改出现一些小错误,导致格式化失败。后来又因为localhost中 192.168.237.147 localhost, 这一句要修改第一句而不是加一行,这导致我在eclipse中一直报错网络连接不上。后来在运行程序时报了错,还好有这篇博客eclipse与hadoop连接时错误排查
这里面的错误我基本上都错了个遍,不过这篇博客也有一个问题出现问题三时他提供的hadoop.dll是有问题的,还好我同学给了一个下载链接我win64 Hadoop2.6插件包
最后你要注意输入的文件夹和输出的文件夹路径
成功后应该是以下:2.用 Python 分析《红楼梦》分析笔记
上一篇文章中我曾用jieba库分析《三国演义》中出场人物的次数,可以看到jieba库对人名分析还是比较精确的,而在上一篇我提供的链接并准备实现的用 Python 分析《红楼梦》分析这篇知乎文章中,作者对jieba库分析古文的准确性产生了质疑,并且作者提供了无字典分词分析,到底jieku库对古文分词效果好不好这有待我后面继续探究,然后作者还针对情节对用词的习惯影响到底大不大?如果大怎么去除那些情节影响大的词?主要用到了主成分分析算法进行降维到2,3维,然后方便可视化。
还有一篇文章(用机器学习判定红楼梦后40回是否曹雪芹所写)则是采用svm支持向量机来分析,svm算法的实现细节,还有待研究,SVM最基本的应用是分类。 求解最优的分类面,然后用于分类。最优分类面的定义:
对于SVM,存在一个分类面,两个点集到此平面的最小距离最大,两个点集中的边缘点到此平面的距离最大。
由于其中涉及太多的优化数学知识,我自己也是半懂不懂,还需要研究。3.利用python实现图片轮廓效果
代码如下:from PIL import Image from PIL import ImageFilter im = Image.open('C:\\Users\\user\\Desktop\\1.jpg') om = im.filter(ImageFilter.FIND_EDGES) om.save('C:\\Users\\user\\Desktop\\5.jpg')
感觉还不错0.0