周记三 博客分类: 周记 id3新浪微博搜索引擎数据挖掘
程序员文章站
2024-03-03 00:01:10
...
又一篇周记
周记又来啦,时间真心的不够用啊,一下子一天过去了,再一下子一周就过去了,不得不感叹人越是长大时间越是不够用啦,真希望每天给我48小时啊,又在YY了...还在继续面对现实,做我的总结吧。。。
本周算了完成了四件小事,在最后一天(我认为星期天的最后一天)又完成了一件最缺悲剧的事,美中而又很不足哪。。。睡懒觉的习惯还是不能改掉啊,一觉到九点多啊,太过奢侈了,可是就是想睡啊,还是天气作怪,实在太冷,武汉的天,一夜入冬啊有木有!周一挣扎着起来吧ID3决策树的原理算是看了略懂了,算法也不算很大,不过刚开始看原理还是有点不好理解,直到看了例子之后才感觉比较理解,有些东西还是得举个比较贴切的例子好理解,光是原理太匮乏了。决策树是数据挖掘中的一个算法,用来决策信息的分类,经过决策看信息改分到哪个类中更为合适,ID3决策树主要就是根据信息增益构造一颗树,树的叶子节点的最后的类别,节点是相关的影响决策的因素,而树枝就是这些因素的属性。先计算每个因素的信息增益,找到增益最大的作为树根,依次每次都进行计算,直到达到叶子节点,即所有的都分在了同一类中截止,就构成了一棵决策树了。大概就是如此了。
接下来就是把新浪微博的程序大致实现了,有API是比较简单了,基本上是能够获取关注的人的列表和这些人发布的信息了,不过新浪微博看来处理的还是不够好,有些人能够同时获取10条微博,但是有些人获取10条微博的时候就会抛出越界异常,太过奇怪,我现在还没发现问题出在什么地方,明明发布的微博数量就有那么多的,还要我每次手动的改变获取数量才能下载到微博,太不自动化了,不喜欢啊。
把智能计算的论文总算是改完了,这个坑爹的程序加workpaper,搞了那么久,总算结束了这段纠结的时间了,也算了松了一口气了,下周还有一个程序,唉,继续下一个纠结吧。
前天接了一个任务,要挑词,流行词,8000个挑100个,唉,任务量不小,第一时间想到了程序实现,刚开始以为直接获取搜索结果然后排序就OK了,兴匆匆的花了两个小时用htmlunit包把程序实现了,能够在百度和google上自动获取到搜索结果的条数。就在要进行挑词的时候,问了师兄为什么这个工作不能用程序自动完成,原来这个涉及到了分词的问题,有些词在搜索引擎中搜索时是需要做分词处理的,所以搜索结果很多都不是关于那个词的流行程序,而是包含了拆分的词的流行度了,这就跟本身的词没有关系了,同时有些词还会有歧义性,也会把相同的意思的结果返回,所以直接比较结果集是无效的方法,唉,只能一个一个的人工判断了。昨天早上9点开始挑词,挑了整整一天,经过了四轮筛选,终于还是挑完了,眼花缭乱啊。。。。
今天的悲剧事情就是放了导师的鸽子,唉,周二就越好了要在今天下午去跟几个本科生见个面的,无奈今天下午跟陈博士打篮球,我也是那种想到打篮球就什么都能忘的人,竟然把这事给忘了,回来的时候突然想起,悔得肠都青了。。。急忙联系导师,终于在8:30得到回复,才松了一口气,无比纠结啊。。。唉,以后再也不能如此了。。。要事为重啊。。
好吧,这周就到此吧,期待下周的精彩!
周记又来啦,时间真心的不够用啊,一下子一天过去了,再一下子一周就过去了,不得不感叹人越是长大时间越是不够用啦,真希望每天给我48小时啊,又在YY了...还在继续面对现实,做我的总结吧。。。
本周算了完成了四件小事,在最后一天(我认为星期天的最后一天)又完成了一件最缺悲剧的事,美中而又很不足哪。。。睡懒觉的习惯还是不能改掉啊,一觉到九点多啊,太过奢侈了,可是就是想睡啊,还是天气作怪,实在太冷,武汉的天,一夜入冬啊有木有!周一挣扎着起来吧ID3决策树的原理算是看了略懂了,算法也不算很大,不过刚开始看原理还是有点不好理解,直到看了例子之后才感觉比较理解,有些东西还是得举个比较贴切的例子好理解,光是原理太匮乏了。决策树是数据挖掘中的一个算法,用来决策信息的分类,经过决策看信息改分到哪个类中更为合适,ID3决策树主要就是根据信息增益构造一颗树,树的叶子节点的最后的类别,节点是相关的影响决策的因素,而树枝就是这些因素的属性。先计算每个因素的信息增益,找到增益最大的作为树根,依次每次都进行计算,直到达到叶子节点,即所有的都分在了同一类中截止,就构成了一棵决策树了。大概就是如此了。
接下来就是把新浪微博的程序大致实现了,有API是比较简单了,基本上是能够获取关注的人的列表和这些人发布的信息了,不过新浪微博看来处理的还是不够好,有些人能够同时获取10条微博,但是有些人获取10条微博的时候就会抛出越界异常,太过奇怪,我现在还没发现问题出在什么地方,明明发布的微博数量就有那么多的,还要我每次手动的改变获取数量才能下载到微博,太不自动化了,不喜欢啊。
把智能计算的论文总算是改完了,这个坑爹的程序加workpaper,搞了那么久,总算结束了这段纠结的时间了,也算了松了一口气了,下周还有一个程序,唉,继续下一个纠结吧。
前天接了一个任务,要挑词,流行词,8000个挑100个,唉,任务量不小,第一时间想到了程序实现,刚开始以为直接获取搜索结果然后排序就OK了,兴匆匆的花了两个小时用htmlunit包把程序实现了,能够在百度和google上自动获取到搜索结果的条数。就在要进行挑词的时候,问了师兄为什么这个工作不能用程序自动完成,原来这个涉及到了分词的问题,有些词在搜索引擎中搜索时是需要做分词处理的,所以搜索结果很多都不是关于那个词的流行程序,而是包含了拆分的词的流行度了,这就跟本身的词没有关系了,同时有些词还会有歧义性,也会把相同的意思的结果返回,所以直接比较结果集是无效的方法,唉,只能一个一个的人工判断了。昨天早上9点开始挑词,挑了整整一天,经过了四轮筛选,终于还是挑完了,眼花缭乱啊。。。。
今天的悲剧事情就是放了导师的鸽子,唉,周二就越好了要在今天下午去跟几个本科生见个面的,无奈今天下午跟陈博士打篮球,我也是那种想到打篮球就什么都能忘的人,竟然把这事给忘了,回来的时候突然想起,悔得肠都青了。。。急忙联系导师,终于在8:30得到回复,才松了一口气,无比纠结啊。。。唉,以后再也不能如此了。。。要事为重啊。。
好吧,这周就到此吧,期待下周的精彩!