明略科技Blockformer语音识别模子在AISHELL-1测试集上取得SOTA效果-明略科技

首页明略研究明略科技Blockformer语音识别模子在AISHELL-1测试集上取得SOTA效果

明略科技Blockformer语音识别模子在AISHELL-1测试集上取得SOTA效果

2022-09-13

明略科技即将开源Blockformer语音识别模子，，，，，，，提升销售历程中的会话智能，，，，，，，助力各行业数智化转型。。。。。。。

深度学习已乐成应用于语音识别，，，，，，，种种神经网络被各人普遍研究和探索，，，，，，，例如，，，，，，，深度神经网络（Deep Neural Network，，，，，，，DNN）、卷积神经网络（Convolutional Neural Network，，，，，，，CNN）、循环神经网络（Recurrent Neural Network，，，，，，，RNN）和端到端的神经网络模子。。。。。。。

现在，，，，，，，主要有三种端到端的模子框架：神经网络传感器（Neural Transducer，，，，，，，NT），，，，，，，基于注重力的编码器-解码器（Attention-based Encoder Decoder，，，，，，，AED）和毗连时序分类（Connectionist Temporal Classification，，，，，，，CTC）。。。。。。。

NT是CTC的增强版本，，，，，，，引入了展望网络�？？？？？�，，，，，，，可类比古板语音识别框架中的语言模子，，，，，，，解码器需要把先前展望的历史作为上下文输入。。。。。。。NT训练不稳固，，，，，，，需要更多内存，，，，，，，这可能会限制逊з度。。。。。。。

AED由编码器，，，，，，，解码器和注重力机制�？？？？？樽槌�，，，，，，，前者对声学特征举行编码，，，，，，，解码器天生句子，，，，，，，注重力机制用来对齐编码器输入特征息争码状态。。。。。。。业内不少ASR系统架构基于AED。。。。。。。然而，，，，，，，AED模子逐个单位输出，，，，，，，其中每个单位既取决于先宿世成的效果，，，，，，，又依赖后续的上下文，，，，，，，这会导致识别延迟。。。。。。。

另外，，，，，，，在现实的语音识别使命中，，，，，，，AED的注重力机制的对齐效果，，，，，，，有时也会被噪声破损。。。。。。。

CTC的解码速率比AED快，，，，，，，可是由于输出单位之间的条件自力性和缺乏语言模子的约束，，，，，，，其识别率有提升空间。。。。。。。

现在有一些关于融合AED和CTC两种框架的研究，，，，，，，基于编码器共享的多使命学习，，，，，，，使用CTC和AED目的同时训练。。。。。。。在模子结构上，，，，，，，Transformer已经在机械翻译，，，，，，，语音识别，，，，，，，和盘算机视觉领域显示了极大的优势。。。。。。。

明略科技集团高级总监、语音手艺认真人朱会峰先容，，，，，，，明略团队重点研究了在CTC和AED融合训练框架下，，，，，，，怎样使用Transformer模子来提高识别效果。。。。。。。

明略科技Blockformer语音识别模子在AISHELL-1测试集上取得SOTA效果

明略团队通过可视化剖析了差别BLOCK和HEAD之间的注重力信息，，，，，，，这些信息的多样性是很是有资助的，，，，，，，编码器息争码器中每个BLOCK的输出信息并不完全包括，，，，，，，也可能是互补的。。。。。。。（https://doi.org/10.48550/arXiv.2207.11697）

基于这种洞察，，，，，，，明略团队提出了一种模子结构，，，，，，，Block-augmented Transformer （BlockFormer），，，，，，，研究了怎样以参数化的方法互补融合每个块的基本信息，，，，，，，实现了Weighted Sum of the Blocks Output（Base-WSBO）和Squeeze-and-Excitation module to WSBO（SE-WSBO）两种block集成要领。。。。。。。

实验证实，，，，，，，Blockformer模子在中文通俗话测试集（AISHELL-1）上，，，，，，，不使用语言模子的情形下实现了4.35%的CER，，，，，，，使用语言模子时抵达了4.10%的CER。。。。。。。

AISHELL-1是希尔贝壳2017年开源的中文通俗话语音数据库，，，，，，，录音时长178小时，，，，，，，由400名中国差别地区语言人举行录制。。。。。。。该数据库涉及智能家居、无人驾驶、工业生产等11个领域，，，，，，，被高频应用在语音手艺开发及实验中，，，，，，，是当今中文语音识别评测的权威数据库之一。。。。。。。
AI Wiki网站Papers With Code显示，，，，，，，Blockformer在AISHELL-1上取得SOTA的识别效果，，，，，，，字错率降低到4.10%（使用语言模子时）。。。。。。。

（https://paperswithcode.com/sota/speech-recognition-on-aishell-1）
明略科技集团CTO郝杰体现，，，，，，，明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景，，，，，，，语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练，，，，，，，可是也不松开对通用语音识别新框架、新模子的探索，，，，，，，Blockformer模子的这个SOTA效果为语音识别的定制优化提供了一个高起点，，，，，，，明略即将开源Blockformer。。。。。。。

推荐阅读

全球双榜SOTA！明略科技专有大模子 Mano开启GUI智能操作新时代

2025-09-28

明略科技推出的GUI大模子Mano在Mind2Web和OSWorld两大基准测试中取得了创纪录的SOTA效果，，，，，，，乐成率抵达40.1%。。。。。。。通过在线强化学习和自动数据收罗，，，，，，，Mano为GUI智能体领域提供了可扩展的新范式，，，，，，，显著提升了重大使命的执行能力。。。。。。。该手艺的突破不但推动了自动化界线的扩展，，，，，，，也为企业智能化转型提供了强有力的支持

相识更多

官宣！明略科技推出专有大模子产品线DeepMiner，，，，，，，可信商业数据剖析智能体终于能用了！

2025-09-22

明略科技推出专有大模子产品线DeepMiner，，，，，，，以“可信智能体+可信数据”双轮驱动，，，，，，，解决企业智能体落地中幻觉率高、历程不透明等痛点。。。。。。。该产品通过多智能体协同架构、企业级数据整合及全流程透明化设计，，，，，，，降低幻觉率并支持知识沉淀，，，，，，，其自研Mano和Cito模子划分实现精准执行与深度推理，，，，，，，助力企业构建可信生产力。。。。。。。

相识更多

明略科技 Mano Technical Report

2025-09-18

Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.

下一篇：准备双十一，，，，，，，零售企业全域用户增添三步速赢

返回行业资讯

btt博天堂