GPT-2中文文本训练及生成

博主： moluuser
发布时间：2020 年 10 月 24 日
18116次浏览
14 条评论
1342字数
分类：技术

前排感谢这个开源项目：https://github.com/Morizeyao/GPT2-Chinese

记录下运行以上项目的流程。

运行环境

导入语料

由于使用单一文本进行训练，只需要把数据集放置在./data/train.json即可。

如果需要合并txt文本，使用批处理type *.txt>>all.txt即可。

模型训练

python train_single.py --raw

文本生成

python ./generate.py --length=400 --nsamples=4 --prefix=xxx --fast_pattern --save_samples --save_samples_path=/mnt/xx

参数说明

--length：参数为生成文本的长度。
--prefix：生成文章的开头。
--fast_pattern：如果生成的length参数比较小，速度基本无差别，默认不采用fast_pattern方式。
--save_samples：默认将输出样本直接打印到控制台，传递此参数，将保存在根目录下的samples.txt。
--save_samples_path：可自行指定保存的目录，默认可递归创建多级目录，不可以传递文件名称，文件名称默认为samples.txt。

结果

这里model使用的是hughqiu训练生成模型，感谢分享。

Others

可能需要修改的地方

在train.py中：

        #lines = json.load(f)
        lines = f.readlines()

        #full_tokenizer.max_len = 999999

其他类似开源项目

版权属于：moluuser
本文链接：https://archive.moluuser.com/archives/74/

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

正文到此结束

扫一扫在手机打开当前页

【我要纠错】

14 条评论

kpwuwulcgn
3 个月前

2025年10月新盘做第一批吃螃蟹的人coinsrore.com
新车新盘嘎嘎稳嘎嘎靠谱coinsrore.com
新车首发，新的一年，只带想赚米的人coinsrore.com
新盘上车集合留下我要发发立马进裙coinsrore.com
做了几十年的项目我总结了最好的一个盘（纯干货）coinsrore.com
新车上路，只带前10个人coinsrore.com
新盘首开新盘首开征召客户！！！coinsrore.com
新项目准备上线，寻找志同道合的合作伙伴coinsrore.com
新车即将上线真正的项目，期待你的参与coinsrore.com
新盘新项目，不再等待，现在就是最佳上车机会！coinsrore.com
新盘新盘这个月刚上新盘新车第一个吃螃蟹！coinsrore.com

回复
aytxflrbqj
3 个月前

新盘新盘这个月刚上新盘新车第一个吃螃蟹！

回复
xecetinkkc
10 个月前

这篇文章如同一首动人的乐章，触动了读者内心深处的柔软。

回复
lrhykevwck
10 个月前

情感真挚自然，字里行间传递出强烈的感染力。

回复
cyan
2022 年 04 月 28 日

报RuntimeError: CUDA error: device-side assert triggered
怎么解决

回复
Darllen
2021 年 10 月 03 日

你好，我遇到ValueError: too many dimensions 'str'的问题。我想问你是否遇过这个问题？如果遇到过的话能否知道你是怎么解决的？

回复
jiade
2020 年 12 月 28 日

我遇到了一个process finished with exit code 139 (interrupted by signal l1:SIGSEGV)的问题。请问您遇到过吗，还有您内存多大啊

回复
1. moluuser
  2020 年 12 月 28 日
  
  @jiade
  在CentOS下运行的，内存只有1G-2G左右吧，语料大的话确实会有问题。当时我只是跑一下流程。
  
  回复
  1. jiade
    2020 年 12 月 28 日
    
    @moluuser
    python train_single.py --raw大佬，你估计要跑这个代码需要多长时间。我跑这个的时候出现了点问题。FileNotFoundError：【Errno 2】 No such file or directory:'model/model_epocha'。你遇到过吗？谢谢
    
    回复
jiade
2020 年 12 月 28 日

老哥，你这个生成文本的模型还有吗

回复
1. moluuser
  2020 年 12 月 28 日
  
  @jiade
  模型我用的项目README里面其他人分享的呀，不是自己训练的，训练时间太长了。
  
  回复
sakamote
2020 年 11 月 13 日

可否发一份你的train.json文件啊我想看看格式

回复
1. sakamote
  2020 年 11 月 13 日
  
  @sakamote
  我的邮箱371799296@qq.com 多谢
  
  回复
  1. moluuser
    2020 年 11 月 13 日
    
    @sakamote
    如果使用train_single.py的话，那train.json可以只是普通的纯文本文件。
    
    回复