在专有领域如何训练自己的BERT?
时间:2023-04-04 01:12:01 | 来源:电子商务
时间:2023-04-04 01:12:01 来源:电子商务
现在预训练BERT应该不是很难了(当然前提是
有卡有数据),如果是第一次尝试的话,可以谷歌关键词『
BERT from scratch』,应该能找到不少手把手的教程。
领域适应BERT预训练标准套路
想在专有领域上训练自己的BERT,本质就是初始的BERT学出来的知识太general,与需要应用的专有领域产生偏差。需要加入特定领域的知识,当然,建议是在BERT的基础上做
post-training,然后再
finetune 。推荐论文(实验报告):『
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks』
BERT之后有很多工作都是『BERT Initialization --> Domain Post-trainging --> Finetune』的套路,以 BioBERT 为例,
另外,如果想更丝滑一些,可以尝试『
Train No Evil: Selective Masking for Task-Guided Pre-Training』这篇论文里的思路,结合了
领域 和
任务 相关知识到BERT中。