前⾔
词云的使⽤相信⼤家已经不陌⽣了,使⽤很简单,直接调⽤wordcloud包就可以了。它的主要功能是根据⽂本词汇和词汇频率⽣成图⽚,从中可以直观的看出各个词汇所占⽐重。
最近正好想做⼀个⼈的logo,于是乎决定使⽤词云来制作完成。wordcloud安装
pip install wordcloud
使⽤ pip 安装你肯定会遇到⼀个坑,安装过程中可能会报错,提⽰你安装 Microsoft Visual C++ 14.0,但是这个安装过程很耗时。
⽂件下载后,cmd 进⼊whl⽂件所在⽂件夹下,然后输⼊以下命令:
pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whl
wordcloud代码使⽤
安装成功后我们马上开始制作我们的图⽚。
from os import pathfrom PIL import Imageimport numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGeneratord = path.dirname(__file__)
# 读⽂本⽂件
text = open(path.join(d, 'data.txt')).read()
# 读取⾃定义图⽚
alice_coloring = np.array(Image.open(path.join(d, \"pic.jpg\")))
# 你可以通过 mask 参数 来设置词云形状
wc = WordCloud(background_color=\"white\
mask=alice_coloring, max_font_size=60,random_state=102,scale=8, font_path=\"C:\\Windows\\Fonts\\msyhbd.ttf\").generate(text)wc.generate_from_text(text)print('开始加载⽂本')# 改变字体颜⾊
img_colors = ImageColorGenerator(alice_coloring)# 字体颜⾊为背景图⽚的颜⾊
wc.recolor(color_func=img_colors)# 显⽰词云图
plt.imshow(wc, interpolation=\"bilinear\")# 是否显⽰x轴、y轴下标plt.axis('off')plt.show()
# 获得模块所在的路径的d = path.dirname(__file__)# 将多个路径组合后返回
wc.to_file(path.join(d, \"h16.jpg\"))print('⽣成词云成功!')
上⾯ text ⽂本内容是通过爬⾍采集的,爬取的关于数据科学的⼀篇⽂章,有了⽂本源之后准备好你想要⽣成词云的图⽚就⾏了。
配置 wordcloud 的参数对于图⽚效果尤为重要,下⾯我们着重介绍⼀下wordcloud的参数含义:
font_path : string 字体路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '⿊体.ttf'width : int (default=400) 输出的画布宽度,默认为400像素height : int (default=200) 输出的画布⾼度,默认为200像素
prefer_horizontal : float (default=0.90) 词语⽔平⽅向排版出现的频率,默认 0.9
mask : nd-array or None (default=None) 若参数为空,则正常绘制词云。如果 mask ⾮空,设置的宽⾼值将被忽略,形
状被 mask 取代。除⽩⾊的部分将不会绘制,其余部分会⽤于绘制词云。
scale : float (default=1) 按照⽐例进⾏放⼤画布,如设置为2,则长和宽都是原来画布的2倍。min_font_size : int (default=4) 显⽰的最⼩的字体⼤⼩
font_step : int (default=1) 字体步长,如果步长⼤于1,会加快运算但是可能导致结果出现较⼤的误差。max_words : number (default=200) 要显⽰的词的最⼤个数
stopwords : set of strings or None 设置需要屏蔽的词,如果为空,则使⽤内置的STOPWORDS
background_color : color value (default=”black”) 背景颜⾊,如background_color='white',背景颜⾊为⽩⾊。max_font_size : int or None (default=None) 显⽰的最⼤的字体⼤⼩
mode : string (default=”RGB”) 当参数为“RGBA”并且background_color不为空时,背景为透明。relative_scaling : float (default=.5) 词频和字体⼤⼩的关联性
color_func : callable, default=None ⽣成新颜⾊的函数,如果为空,则使⽤ self.color_funcregexp : string or None (optional) 使⽤正则表达式分隔输⼊的⽂本collocations : bool, default=True 是否包括两个词的搭配
colormap : string or matplotlib colormap, default=”viridis” 给每个单词随机分配颜⾊,若指定color_func,则忽略该⽅法。效果展⽰
使⽤的照⽚是博主⾃⼰的照⽚。——————end——————总结
以上就是这篇⽂章的全部内容了,希望本⽂的内容对⼤家的学习或者⼯作具有⼀定的参考学习价值,如果有疑问⼤家可以留⾔交流,谢谢⼤家对的⽀持。
因篇幅问题不能全部显示,请点此查看更多更全内容