第6季 博客分类: 周记
程序员文章站
2024-03-03 16:48:34
...
2012年的第一天,开始了我的第六篇周记的写作,其实本该在昨天就写的东西,由于昨晚喝酒确实过量,回来就睡觉了,就放在这新的一年来书写吧。
过去的一周,是2011年的最后一周了,有一门英语口语,一门英语笔试。口语有点坑爹啊,严重的准备了一个对话,其他的都只是稍微看了一下,就希望到时候抽签的时候能抽到唯一准备好的一个,可是,有时候,事事旺旺不如人所愿,没能如愿的抽到准备好的对话,更为坑爹的是,还抽了一个我们一直认为最难的对话,没办法,硬着头皮,花了5分钟,做了个练习然后匆匆上去讲了,哎呀,有时候嘛,是塞翁失马焉知非福啊,这些即兴的对话感觉比死记硬背的更有感觉,其实,有时候,不是我们不能说,只是我们说的机会太少而已,英语,确实不会是很大的问题,只要我们好好去做了。接下来又有一门英语笔试,虽然知道是重要的公必,但是还是在考前一天才开始看了一下,英语不是我最怕的,虽然我不擅长。。。
这周做了最多的是基于贝叶斯的文本分类算法,本来准备在这周完成的,现在还是没能顺利完成,到目前为止,花了有两天半的时间在弄这个程序,大体上有了一个比较清楚的思路了,其实在这一个学期以来,现在的这个程序才算是跟研究的方向有一些相关的,需要做的工作首先是对预料的预处理,首先要对训练预料进行词频统计,而在统计之前,需要先对一堆的文本文件进行分词,用到了两个分词程序,一个是实验室的FMM,最大正向匹配的分词方法,这个方法比较慢,分大概四千多的文本文件需要耗时16个小时左右,效率太低,但是分完词后的文档格式比较好。第二个程序是中科院的分词程序,这个程序效率确实相当的高,四千多的文档,仅仅5分钟以内搞掂,不过分完后,似乎空格没有进行去除,格式有点乱,也许是二者不可得兼吧。不过总体来看,中科院的工具还是更胜一筹了,毕竟技术实力摆在那里,不得不承认的。分词后,还要对文本进行去除停用词,对文本里的一些无意义的词进行去除,留下更能表达文本信息的词。下一步就是对处理后的文档的每一类进行词频统计,将每一类的所有文件进行统计,统计在这个类的所有文件中出现的词以及该词出现的次数。统计完后,算是完成了预处理了。最后就是根据贝叶斯公式对这些文本进行处理,根据接下来计算的概率来判定文本属于哪一个分类。这是下周需要完成的东西。
通过这个程序,我还是学到了一些东西,之前虽然知道有这个朴素贝叶斯方法可以对文本进行分类,但是确无从下手,现在可以比较清楚的知道如何应用算法去实现这些功能,也对文本处理有了一些认识,对以后进行中文处理有一定的好处。有点可惜就是,我还没有能力自己写一个分词的程序,只是用了现成的分词来处理文本的,尽量自己去弄懂如何去分词和对词性标注吧,努力!
过去的一周,是2011年的最后一周了,有一门英语口语,一门英语笔试。口语有点坑爹啊,严重的准备了一个对话,其他的都只是稍微看了一下,就希望到时候抽签的时候能抽到唯一准备好的一个,可是,有时候,事事旺旺不如人所愿,没能如愿的抽到准备好的对话,更为坑爹的是,还抽了一个我们一直认为最难的对话,没办法,硬着头皮,花了5分钟,做了个练习然后匆匆上去讲了,哎呀,有时候嘛,是塞翁失马焉知非福啊,这些即兴的对话感觉比死记硬背的更有感觉,其实,有时候,不是我们不能说,只是我们说的机会太少而已,英语,确实不会是很大的问题,只要我们好好去做了。接下来又有一门英语笔试,虽然知道是重要的公必,但是还是在考前一天才开始看了一下,英语不是我最怕的,虽然我不擅长。。。
这周做了最多的是基于贝叶斯的文本分类算法,本来准备在这周完成的,现在还是没能顺利完成,到目前为止,花了有两天半的时间在弄这个程序,大体上有了一个比较清楚的思路了,其实在这一个学期以来,现在的这个程序才算是跟研究的方向有一些相关的,需要做的工作首先是对预料的预处理,首先要对训练预料进行词频统计,而在统计之前,需要先对一堆的文本文件进行分词,用到了两个分词程序,一个是实验室的FMM,最大正向匹配的分词方法,这个方法比较慢,分大概四千多的文本文件需要耗时16个小时左右,效率太低,但是分完词后的文档格式比较好。第二个程序是中科院的分词程序,这个程序效率确实相当的高,四千多的文档,仅仅5分钟以内搞掂,不过分完后,似乎空格没有进行去除,格式有点乱,也许是二者不可得兼吧。不过总体来看,中科院的工具还是更胜一筹了,毕竟技术实力摆在那里,不得不承认的。分词后,还要对文本进行去除停用词,对文本里的一些无意义的词进行去除,留下更能表达文本信息的词。下一步就是对处理后的文档的每一类进行词频统计,将每一类的所有文件进行统计,统计在这个类的所有文件中出现的词以及该词出现的次数。统计完后,算是完成了预处理了。最后就是根据贝叶斯公式对这些文本进行处理,根据接下来计算的概率来判定文本属于哪一个分类。这是下周需要完成的东西。
通过这个程序,我还是学到了一些东西,之前虽然知道有这个朴素贝叶斯方法可以对文本进行分类,但是确无从下手,现在可以比较清楚的知道如何应用算法去实现这些功能,也对文本处理有了一些认识,对以后进行中文处理有一定的好处。有点可惜就是,我还没有能力自己写一个分词的程序,只是用了现成的分词来处理文本的,尽量自己去弄懂如何去分词和对词性标注吧,努力!
下一篇: 可持久化线段树