「创投市场」| AI 建模实际应用场景及效益,深度( 三 )


【「创投市场」| AI 建模实际应用场景及效益,深度】
「创投市场」| AI 建模实际应用场景及效益,深度
文章图片
在GLUE的许多任务上均优于此前的神经网络架构(如上表所列) 。 BERT在语音识别和图像识别突破后带来了语义理解的突破 。 此后在BERT的基础上 , 在语义理解的许多应用上都带来了突破 。 然而由于BERT和后续的神经网络都需要庞大的计算资源和时间 , 给私有化部署的应用带来高昂的成本 , 除非能够使用云端共享的BERT计算资源 。 由于数据保密的要求 , 许多应用的数据无法上传到云端 , 例如金融业的客户数据等 。 如前所述 , 这样的科技还需要经过再创新才能应用在实际的商业场景里 。 普强在这个方面做了十年的科研投入 , 不断的将最新的科技应用在实际的商业场景上 。 四、普强语音语义框架当前人工智能算法均属在高维度的空间中寻找线性/非线性复合函数的最优值点 , 其最核心的架构设计实为设计此高维度空间里的数学复合函数 , 许多的复合函数/神经网络框架都在不同的任务中被验证有应用的效益 , 下面列举了几个重要的类别:全联多层的神经网络:每层的神经元均与下一层的所有神经元相连 , 逻辑回归等算法均使用此种网络 。 l卷积神经网络(ConvolutionalNeuralNetworks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks) , 是深度学习(deeplearning)的代表算法之一 。 卷积神经网络具有表征学习(representationlearning)能力 , 能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification) , 因此也被称为“平移不变人工神经网络(Shift-InvariantArtificialNeuralNetworks,SIANN) 。 卷积神经网络架构在视觉辨识里达到了极优的效果 。 l循环神经网络(RecurrentNeuralNetwork,RNN):是一类以序列(sequence)数据为输入 , 在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursiveneuralnetwork) 。 循环神经网络的研究始于二十世纪80-90年代 , 并在二十一世纪初发展为深度学习(deeplearning)算法之一 , 其中双向循环神经网络(BidirectionalRNN,Bi-RNN)和长短期记忆网络(LongShort-TermMemorynetworks , LSTM)是常见的的循环神经网络 。 循环神经网络具有记忆性、参数共享并且图灵完备(Turingcompleteness) , 因此在对序列的非线性特征进行学习时具有一定优势 。 循环神经网络在自然语言处理(NaturalLanguageProcessing,NLP) , 例如语音识别、语言建模、机器翻译等领域有应用 , 也被用于各类时间序列预报 。 引入了卷积神经网络(ConvoutionalNeuralNetwork,CNN)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题 。 lTransformer神经网络:抛弃了传统的CNN和RNN , 整个网络结构完全是由Attention机制组成 。 更准确地讲 , Transformer由且仅由Self-Attenion和FeedForwardNeuralNetwork组成 。 一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建 , 作者的实验是通过搭建编码器和解码器各6层 , 总共12层的Encoder-Decoder , 并在机器翻译中取得了BLEU值得新高 。 lCTC(Connectionisttemporalclassification):传统的语音识别的声学模型训练 , 对于每一帧的数据 , 需要知道对应的label才能进行有效的训练 , 在训练数据之前需要做语音对齐的预处理 。 而语音对齐的过程本身就需要进行反复多次的迭代 , 来确保对齐更准确 , 这本身就是一个比较耗时的工作 。 与传统的声学模型训练相比 , 采用CTC作为损失函数的声学模型训练 , 是一种完全端到端的声学模型训练 , 不需要预先对数据做对齐 , 只需要一个输入序列和一个输出序列即可以训练 。 这样就不需要对数据对齐和一一标注 , 并且CTC直接输出序列预测的概率 , 不需要外部的后处理 。 以上仅就目前人工智能应用领域里经常使用并产生实际应用效益的网络做了简介 , 当应用到各个实际场景里时 , 还有基于上述网络衍生的众多版本和彼此之间的结合版 , 不能一一详述 。 深度学习里的神经网络架构及其参数和超参数均需按实际场景和数据的情况作调试优化 , 方能达到理想的效果以产生实际应用价值 。 然而实际的场景虽然都有相似之处 , 但也有诸多不同的细节 , 为能满足每一应用场景的应用效益要求 , 以过往往需要由资深的算法工程师做深度的调试 , 此种模式耗时且效率低 , 常常不能满足客户快速的迭代需求 。


推荐阅读