1 Star 0 Fork 0

hanhan / TextAnalysisTools

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

文本分析工具

@Author: hanhan

1. 配置文件

Configs文件夹下的文件,Utils下为生成数据文件

文件名 功能
config.py 包含分析数据的路径,用于配置功能与位置
分析文本.txt 文本内容文件
分词.txt 被分成单词的文本内容
词频.txt 包含单词和单词统计数量的文件
自定义词表.txt 自定义的不想被切开的词语
停用词表.txt 填入词在统计词频时禁用
词云背景.png 词云生成的形状图片
生成词云图.png 词云结果图

2. 工具文件

根目录下的文件

文件名 函数名 功能
WordCut.py WordCut 读取分析文本.txt分词得分词.txt文件
WordCount.py Count 通过分词文件得词频.txt文件
DrawWordCloud.py ImgDraw 根据词云背景.png图案绘制生成词云图.png

3. 配置依赖

pip3 install -r requirements.txt

4. 备注

如果报没有nltk_data的错误请先安装nltk_data,安装好放到运行环境目录下就好,安装可能有问题,可以网上搜或留言要压缩包

Mac用户记得没有文字包先下载msyh.ttc文字包放到本地

5. 运行结果展示

样例为养生新闻的词云图

养生新闻

空文件

简介

hanhan的文本分析工具 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/wwl_hanhan/TextAnalysisTools.git
git@gitee.com:wwl_hanhan/TextAnalysisTools.git
wwl_hanhan
TextAnalysisTools
TextAnalysisTools
master

搜索帮助