英文文本挖掘预处理流程总结

  • 时间:
  • 浏览:1
  • 来源:大发彩神下载—大发彩神APP

    对于第并与非 法律土最好的办法,常用的文本语料库在网上有全都,已经 我们歌词 可是学习,则能够直接下载下来使用,但已经 是但会 特殊主题的语料库,比如“deep learning”相关的语料库,则你并与非 法律土最好的办法行不通,时让你们歌词 被委托人用第二种法律土最好的办法去获取。

    输出是"countri",你并与非 词干并一定会另一一有一个 词。    

    TfidfVectorizer类能够帮助我们歌词 完成向量化,TF-IDF和标准化三步。当然,还能够我让你们处里停用词。这偏离 工作和珍文的底部形态处里也是删改相同的,我们歌词 参考前文即可。

    现在我们歌词 就能够用scikit-learn来对我们歌词 的文本底部形态进行处里了,在文本挖掘预处里之向量化与Hash Trick中,我们歌词 讲到了并与非 底部形态处里的法律土最好的办法,向量化与Hash Trick。而向量化是最常用的法律土最好的办法,已经 它能够接着进行TF-IDF的底部形态处里。在文本挖掘预处里之TF-IDF中,我们歌词 也讲到了TF-IDF底部形态处里的法律土最好的办法。

本文转自刘建平Pinard博客园博客,原文链接:http://www.cnblogs.com/pinard/p/6756534.html,如需转载请自行联系原作者

    而英文文本的预处里一定会被委托人特殊的地方,第三点可是拼写难题,全都已经 ,我们歌词 的预处里要包括拼写检查,比如“Helo World”原来的错误,我们歌词 只能在分析的已经 讲错纠错。全都时要在预处里前加以纠正。第四点可是词干提取(stemming)和词形还原(lemmatization)。你并与非 东西主可是英文有单数,复数和各种时态,是因为另一一有一个 词会有不同的形式。比如“countries”和"country","wolf"和"wolves",我们歌词 期望是有另一一有一个 词。

    在实际应用中,一般使用nltk来进行词干提取和词型还原。安装nltk也很简单,"pip install nltk"即可。只不过我们歌词 一般时要下载nltk的语料库,能够用下面的代码完成,nltk会弹出对话框确定要下载的内容。确定下载语料库就能够了。

    对于第二种使用爬虫的法律土最好的办法,开源工具有全都,通用的爬虫我一般使用beautifulsoup。但会 我们歌词 我们歌词 时要但会 特殊的语料数据,比如里边提到的“deep learning”相关的语料库,则时要用主题爬虫(也叫聚焦爬虫)来完成。你并与非 我一般使用ache。 ache允许我们歌词 用关键字已经 另一一有一个 分类算法模型来过滤出我们歌词 时要的主题语料,比较强大。

    在我们歌词 用scikit-learn做底部形态处里的已经 ,能够通过参数stop_words来引入另一一有一个 数组作为停用词表。你并与非 法律土最好的办法和前文讲中文停用词的法律土最好的办法相同,这里就不写出代码,我们歌词 参考前文即可。

    英文文本的预处里法律土最好的办法和珍文的有偏离 区别。首先,英文文本挖掘预处里一般能够不做分词(特殊需求除外),而中文预处里分词是必不可少的一步。第二点,大偏离 英文文本一定会uft-8的编码,原来在大多数已经 处里的已经 无需考虑编码转换的难题,而中文文本处里时要要处里unicode的编码难题。这两偏离 我们歌词 在中文文本挖掘预处里里已经 讲了。

    这偏离 英文和珍文类似于。获取法律土最好的办法一般有并与非 :使用别人做好的语料库和被委托人用爬虫去在网上去爬被委托人的语料数据。

    有了偏离 文本的TF-IDF的底部形态向量,我们歌词 就能够利用那先 数据建立分类模型,已经 聚类模型了,已经 进行主题模型的分析。此时的分类聚类模型和已经 讲的非自然语言处里的数据分析这麼那先 两样。但会 对应的算法都能够直接使用。而主题模型是自然语言处里比较特殊的一块,你并与非 我们歌词 里边再单独讲。

    在这里有个词干提取和词型还原的demo,已经 是这块的新手能够去看看,上手很至少。

    里边我们歌词 对英文文本挖掘预处里的过程做了另一一有一个 总结,希望能够帮助到我们歌词 。时要注意的是你并与非 流程主要针对但会 常用的文本挖掘,并使用了词袋模型,对于某但会 自然语言处里的需求则流程时要修改。比如有已经 时要做词性标注,而有已经 我们歌词 也时要英文分词,比如得到"New York"而一定会“New”和“York”,但会 你并与非 流程仅供自然语言处里入门者参考,我们歌词 能够根据我们歌词 的数据分析目的确定至少的预处里法律土最好的办法。

    输出是:

    词干提取(stemming)和词型还原(lemmatization)是英文文本预处里的特色。两者其实有一起去点,即一定会要找到词的原始形式。只不过词干提取(stemming)会更加激进但会 ,它在寻找词干的已经 能够会得到一定会词的词干。比如"imaging"的词干已经 得到的是"imag", 并一定会另一一有一个 词。而词形还原则保守但会 ,它一般只对能够还原成另一一有一个 正确的词的词进行处里。被委托人比较喜欢使用词型还原而一定会词干提取。

    对于一段文本,我们歌词 能够用下面的法律土最好的办法去找出拼写错误:

    你并与非 步主可是针对我们歌词 用爬虫分类分类整理的语料数据,已经 爬下来的内容暗含全都html的但会 标签,时要去掉 。小量的非文本内容的能够直接用Python的正则表达式(re)删除, 多样化的则能够用beautifulsoup来去除。另外还有但会 特殊的非英文字符(non-alpha),能够能用Python的正则表达式(re)删除。

    拼写检查,我们歌词 一般用pyenchant类库完成。pyenchant的安装很简单:"pip install pyenchant"即可。

    里边的预处里中,我们歌词 会重点讲述第三点和第四点的处里。

    而已经 是做词型还原,则一般能够使用WordNetLemmatizer类,即wordnet词形还原法律土最好的办法。

    输出是"country",比较符合需求。

    找出错误后,我们歌词 能够被委托人来决定与非 要改正。当然,我们歌词 能够能用pyenchant中的wxSpellCheckerDialog类来用对话框的形式来交互决定是忽略,改正还是删改改正文本中的错误拼写。我们歌词 感兴趣说说能够去研究pyenchant的官方文档。

    在英文文本暗含全都无效的词,比如“a”,“to”,但会 短词,还有但会 标点符号,那先 我们歌词 让你在文本分析的已经 引入,但会 时要去掉 ,那先 词可是停用词。被委托人常用的英文停用词表下载地址在这。当然一定会但会 版本的停用词表,不过你并与非 版本是我常用的。

    在nltk中,做词干提取的法律土最好的办法有PorterStemmer,LancasterStemmer和SnowballStemmer。被委托人推荐使用SnowballStemmer。你并与非 类能够处里全都种语言,当然,除了中文。

    已经 英文文本中已经 有拼写错误,但会 一般时要进行拼写检查。已经 确信我们歌词 分析的文本这麼拼写难题,能够略去此步。

    已经 英文单词有大小写之分,我们歌词 期望统计时像“Home”和“home”是另一一有一个 词。但会 一般时要将所有的词都转化为小写。你并与非 直接用python的API就能够搞定。

    在实际的英文文本挖掘预处里的已经 ,建议使用基于wordnet的词形还原就能够了。