奇书网

奇书网>人工智能视频创作平台 > 第四节 文本情绪分析(第8页)

第四节 文本情绪分析(第8页)

importjieba

imp

sys。setreit(1000000)

#设置网络参数

vocab_dim=100#训练完毕后词向量的维数

maxlen=100

'''

下述参数表示对每个输入词向量训练函数的句子迭代的次数。这可以理解为用

来向训练函数中输入数据的迭代器的迭代次数,通常情况下,训练函数第一

次接收数据用来收集单词并计算词频,第二次及以后,用来做神经网络训练。

因为会迭代iterations+1次,所以此参数至少为1。也可以更大,用以增加对

每个输入的训练次数,但训练速度会更慢。现在模块的训练函数中,指明了

build_vo操作,所以就是训练一次。这样做,而不是直接用

gensim。models。Word2Vec(corpus)是为了可以处理输入数据不能重复的情

况,扩展性更好。

'''

&ions=1

n_exposures=10#训练中,出现频率低于10次的词会被忽略

window_size=10#训练中考虑的上下文的最大长度

batch_size=32

n_epoch=10

ih=100

#并行cpu的数量,可设置为cpu的核心数量

ultiprog。t()

#定义加载语料库函数

defloadcorpus():

#读取语料库,文件格式txt,编码utf-8

corpus=code('语料_sep。txt','w','utf-8')

source=code("语料。txt",eng='utf-8')

line=soure()

#分词

whileli;":

&rip('n')

&=jieba。e,cut_all=False)#精确模式

output=''。joi))#空格拼接

corpus。write(output+'')#空格取代换行'rn'

line=soure()

热门小说推荐

最新标签