importjieba
imp
sys。setreit(1000000)
#设置网络参数
vocab_dim=100#训练完毕后词向量的维数
maxlen=100
'''
下述参数表示对每个输入词向量训练函数的句子迭代的次数。这可以理解为用
来向训练函数中输入数据的迭代器的迭代次数,通常情况下,训练函数第一
次接收数据用来收集单词并计算词频,第二次及以后,用来做神经网络训练。
因为会迭代iterations+1次,所以此参数至少为1。也可以更大,用以增加对
每个输入的训练次数,但训练速度会更慢。现在模块的训练函数中,指明了
build_vo操作,所以就是训练一次。这样做,而不是直接用
gensim。models。Word2Vec(corpus)是为了可以处理输入数据不能重复的情
况,扩展性更好。
'''
&ions=1
n_exposures=10#训练中,出现频率低于10次的词会被忽略
window_size=10#训练中考虑的上下文的最大长度
batch_size=32
n_epoch=10
ih=100
#并行cpu的数量,可设置为cpu的核心数量
ultiprog。t()
#定义加载语料库函数
defloadcorpus():
#读取语料库,文件格式txt,编码utf-8
corpus=code('语料_sep。txt','w','utf-8')
source=code("语料。txt",eng='utf-8')
line=soure()
#分词
whileli;":
&rip('n')
&=jieba。e,cut_all=False)#精确模式
output=''。joi))#空格拼接
corpus。write(output+'')#空格取代换行'rn'
line=soure()