我们使用期货市场的新闻作为训练数据,以“新闻情绪分类”为主题,人工标注了4600条样本◆★,进行了相关模型的对比。
大语言模型说到底是一个机器学习模型,而对机器学习模型的训练与应用,都离不开合理的抽样数据★■。结合研究经验★★,我们认为◆◆★■■,国内金融衍生品市场文本数据的采样,建议考虑以下几个因素:
、风险评估等效能■◆◆,所使用的方法一般是基于分词这类词汇的方法,如词频、主题分类模型■■◆◆★、朴素贝叶斯算法等。而其中历史渊源最悠久、最经典的方法便是“词典”方法,Loughran-McDonald词典方法通过使用预先定义的与金融相关的词汇列表■◆★★,来对文本数据进行分类★■■■★、计数、评分等操作,从而提取文本中有价值的信息。不过,Loughran-McDonald词典方法的使用存在某些限制,以情绪分析为例,由于这些词典是根据不同预期应用制定的,所以在其他特定领域直接使用时可能会出现不精确的情感评分■★■◆★。
目前大模型的发展日新月异,仅以BERT为例,便引申出许多不一样的模型,而从实际商品期货市场的文本分析落地上来说■◆■★★■,对于这些模型的选择应当从多个方面综合考虑■■◆◆,主要是模型效果、复杂度等方面◆★★■■■。因此,我们提出以下几点意见:
一是在模型效果方面★★■★,对于商品期货市场的文本分析★★■■★,更多时候需要一个分类模型,其中最常用的指标是精度、召回率、F1值。F1值是一种用来衡量分类模型精确度的指标◆★◆,它同时兼顾了分类模型的精确率和召回率◆★★■★,精确率又称查准率,代表了分正类的准确性■★◆■◆,召回率又称查全率◆★■★◆,代表了所有真实的正例中,我们有多少把握可以预测正确。
第三◆★◆■■■,对大模型而言,虽然需要必要的★◆◆◆★◆“赛马”■★★■,但更重要的是比较不同预训练方法与数据训练的成效。
下面基于Huetal.(2023)的文章,我们对大语言模型在我国商品期货市场的应用分析提出以下几点思考:
Bert-base-chinese:该模型是huggingface团队开源的中文语料下按照BERT论文预训练的模型■■■★,采用Transformer(一种基于自注意力机制的深度神经网络模型)网络来建立双向预训练模型。
Bart-base-chinese:该模型是复旦大学自然语言处理实验室开源的中文语料下训练的兼有双向语言建模和自回归机制的Transformer模型(Bidirectional and Auto-Regressive Transformers,BART)。相对来说,BART其实并不是一个新的模型,因为它使用的结构还是传统的序列到序列(Seq2seq)的Transformer,它是一种针对生成任务而设计的预训练方法,BART的预训练任务是在原始文本序列上加入不同类型的噪声■■★★■,然后让模型从噪声序列重建原始序列,而BERT的预训练任务是在原始文本序列上随机掩盖一些词,然后让模型预测被掩盖的词◆★■◆。
三是新闻所含的信息量。不同类型的新闻所包含的信息量是不同的,以我们所研究的情绪为例,期货日报这一类垂直性网站在新闻的价值上,会比报价性网站更具有信息量,应当给予更高的权重。
第一,大语言模型,比如BERT家族或者GPT,更适合中文非结构化数据,特别是文本数据的处理。
特别是在金融领域的文本情绪方面,与依赖词典的传统方法相比★◆◆★◆,BERT有诸多优点。首先,BERT可以捕获文本内完整的语义信息◆■,包括多个句子之间的关系和依赖关系■◆★■★◆,从而更好地理解文本的语义和情感。其次◆★★,从媒体中提取与商品相关的情感不依赖于预定的情感词典,并且可以合并相邻(上部和下部)句子中存在的一些语义细微差别,这使得我们构建的情绪模型可以具有更好的可伸缩性和鲁棒性,从而可以有效分析全市场的大体量数据◆■★◆。最后◆■★◆,使用BERT模型进行文本向量化★■★,通过将高维离散向量映射到低维密集空间,从而提取上下文相关信息,有助于防止降维过程中的信息丢失★■,使我们所得到的信息更加接近原意◆★★◆★。
以中文场景下开源的BERT家族为例,通过不同的数据与方法训练出来的模型也是不同的■◆,这里简单介绍几种Huggingface(大模型领域开源网站)上开源的BERT家族模型★◆★。
一是各媒体网站的发展程度。需同时考量门户网站的新闻发布量与流量问题◆◆★,以流量为例,我们基于站长之家(权值:百度★★◆、移动★■◆★、搜狗、必应、360、神马)与similarweb两个流量网站★★■◆,综合考量了各主流网站的流量情况,从而进行相关的采样。
Chinese-roberta-wwm-ext:该模型是哈工大与科大讯飞研究院联合实验室开源在中文语料下采用全词遮掩(Whole Word Masking,WWM)方法进行掩码的稳健优化的BERT模型(A Robustly Optimized BERT RoBERTa)◆■◆■★。相比于BERT,除了训练数据与时间的不一样■■■◆■■,RoBERTa还去掉了BERT的下一句预测(Next Sentence Prediction,NSP)任务,认为这个任务对语言理解的贡献不大,而且负样本的构造过于简单,容易让模型学习到无关的信息。
二是新闻的时效性。新闻是具有时效性的,在抽样过程中,应当从今往前,按比例逐年减少,使抽样数据更符合现实要素。
四是文本的复杂度◆★■★。文本的复杂度,是指文本的长度等因素给模型训练带来的压力,如100字的摘要会比1000字的全文来得更有意义■★■★◆■。
大模型是对文字的语义进行学习,预训练与微调分离这种特性使它可以处理不同的文本任务,如分类★★★■■◆、阅读理解◆◆■◆★■、生成等一系列任务★■■。现如今★◆★◆,已有大量学者开始探索这些大模型在各自领域应用的可能性,如社会科学★■■、医学科学、专利分类和语言研究等广泛领域◆■。大模型还用于金融子主题,如回报预测★◆、审计、财务数据分析和区块链。
Chinese-macbert-base★◆◆◆:该模型是哈工大与研究院联合实验室开源的中文语料下训练的基于文本纠错的BERT模型(Masked Language Model as correction BERT, MacBERT)。MacBERT是一种改进的BERT,以新颖的纠错型掩码语言模型(Masked Language Model,MLM)作为校正预训练任务,即用相似词或随机词替换原始文本中的一些词,然后让模型从替换后的文本恢复原始文本,减轻了预训练和微调的差异■★★◆■。
我们的团队人数
我们服务过多少企业
我们服务过多少家庭
我们设计了多少方案