第6季博客分类：周记

程序员文章站 2024-03-03 16:48:34

...

   2012年的第一天，开始了我的第六篇周记的写作，其实本该在昨天就写的东西，由于昨晚喝酒确实过量，回来就睡觉了，就放在这新的一年来书写吧。
   过去的一周，是2011年的最后一周了，有一门英语口语，一门英语笔试。口语有点坑爹啊，严重的准备了一个对话，其他的都只是稍微看了一下，就希望到时候抽签的时候能抽到唯一准备好的一个，可是，有时候，事事旺旺不如人所愿，没能如愿的抽到准备好的对话，更为坑爹的是，还抽了一个我们一直认为最难的对话，没办法，硬着头皮，花了5分钟，做了个练习然后匆匆上去讲了，哎呀，有时候嘛，是塞翁失马焉知非福啊，这些即兴的对话感觉比死记硬背的更有感觉，其实，有时候，不是我们不能说，只是我们说的机会太少而已，英语，确实不会是很大的问题，只要我们好好去做了。接下来又有一门英语笔试，虽然知道是重要的公必，但是还是在考前一天才开始看了一下，英语不是我最怕的，虽然我不擅长。。。
      这周做了最多的是基于贝叶斯的文本分类算法，本来准备在这周完成的，现在还是没能顺利完成，到目前为止，花了有两天半的时间在弄这个程序，大体上有了一个比较清楚的思路了，其实在这一个学期以来，现在的这个程序才算是跟研究的方向有一些相关的，需要做的工作首先是对预料的预处理，首先要对训练预料进行词频统计，而在统计之前，需要先对一堆的文本文件进行分词，用到了两个分词程序，一个是实验室的FMM，最大正向匹配的分词方法，这个方法比较慢，分大概四千多的文本文件需要耗时16个小时左右，效率太低，但是分完词后的文档格式比较好。第二个程序是中科院的分词程序，这个程序效率确实相当的高，四千多的文档，仅仅5分钟以内搞掂，不过分完后，似乎空格没有进行去除，格式有点乱，也许是二者不可得兼吧。不过总体来看，中科院的工具还是更胜一筹了，毕竟技术实力摆在那里，不得不承认的。分词后，还要对文本进行去除停用词，对文本里的一些无意义的词进行去除，留下更能表达文本信息的词。下一步就是对处理后的文档的每一类进行词频统计，将每一类的所有文件进行统计，统计在这个类的所有文件中出现的词以及该词出现的次数。统计完后，算是完成了预处理了。最后就是根据贝叶斯公式对这些文本进行处理，根据接下来计算的概率来判定文本属于哪一个分类。这是下周需要完成的东西。
       通过这个程序，我还是学到了一些东西，之前虽然知道有这个朴素贝叶斯方法可以对文本进行分类，但是确无从下手，现在可以比较清楚的知道如何应用算法去实现这些功能，也对文本处理有了一些认识，对以后进行中文处理有一定的好处。有点可惜就是，我还没有能力自己写一个分词的程序，只是用了现成的分词来处理文本的，尽量自己去弄懂如何去分词和对词性标注吧，努力！

上一篇： Hibernate实现悲观锁和乐观锁代码介绍

下一篇：可持久化线段树

第6季博客分类：周记