欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

第6季 博客分类: 周记  

程序员文章站 2024-03-03 00:00:52
...
   2012年的第一天,开始了我的第六篇周记的写作,其实本该在昨天就写的东西,由于昨晚喝酒确实过量,回来就睡觉了,就放在这新的一年来书写吧。
   过去的一周,是2011年的最后一周了,有一门英语口语,一门英语笔试。口语有点坑爹啊,严重的准备了一个对话,其他的都只是稍微看了一下,就希望到时候抽签的时候能抽到唯一准备好的一个,可是,有时候,事事旺旺不如人所愿,没能如愿的抽到准备好的对话,更为坑爹的是,还抽了一个我们一直认为最难的对话,没办法,硬着头皮,花了5分钟,做了个练习然后匆匆上去讲了,哎呀,有时候嘛,是塞翁失马焉知非福啊,这些即兴的对话感觉比死记硬背的更有感觉,其实,有时候,不是我们不能说,只是我们说的机会太少而已,英语,确实不会是很大的问题,只要我们好好去做了。接下来又有一门英语笔试,虽然知道是重要的公必,但是还是在考前一天才开始看了一下,英语不是我最怕的,虽然我不擅长。。。
      这周做了最多的是基于贝叶斯的文本分类算法,本来准备在这周完成的,现在还是没能顺利完成,到目前为止,花了有两天半的时间在弄这个程序,大体上有了一个比较清楚的思路了,其实在这一个学期以来,现在的这个程序才算是跟研究的方向有一些相关的,需要做的工作首先是对预料的预处理,首先要对训练预料进行词频统计,而在统计之前,需要先对一堆的文本文件进行分词,用到了两个分词程序,一个是实验室的FMM,最大正向匹配的分词方法,这个方法比较慢,分大概四千多的文本文件需要耗时16个小时左右,效率太低,但是分完词后的文档格式比较好。第二个程序是中科院的分词程序,这个程序效率确实相当的高,四千多的文档,仅仅5分钟以内搞掂,不过分完后,似乎空格没有进行去除,格式有点乱,也许是二者不可得兼吧。不过总体来看,中科院的工具还是更胜一筹了,毕竟技术实力摆在那里,不得不承认的。分词后,还要对文本进行去除停用词,对文本里的一些无意义的词进行去除,留下更能表达文本信息的词。下一步就是对处理后的文档的每一类进行词频统计,将每一类的所有文件进行统计,统计在这个类的所有文件中出现的词以及该词出现的次数。统计完后,算是完成了预处理了。最后就是根据贝叶斯公式对这些文本进行处理,根据接下来计算的概率来判定文本属于哪一个分类。这是下周需要完成的东西。
       通过这个程序,我还是学到了一些东西,之前虽然知道有这个朴素贝叶斯方法可以对文本进行分类,但是确无从下手,现在可以比较清楚的知道如何应用算法去实现这些功能,也对文本处理有了一些认识,对以后进行中文处理有一定的好处。有点可惜就是,我还没有能力自己写一个分词的程序,只是用了现成的分词来处理文本的,尽量自己去弄懂如何去分词和对词性标注吧,努力!