Processing

Please wait...

Settings

Settings

Goto Application

1. WO2021143327 - VOICE RECOGNITION METHOD, DEVICE, AND COMPUTER-READABLE STORAGE MEDIUM

Publication Number WO/2021/143327
Publication Date 22.07.2021
International Application No. PCT/CN2020/128392
International Filing Date 12.11.2020
IPC
G10L 15/06 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
G10L 15/02 2006.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
Applicants
  • 腾讯科技(深圳)有限公司 TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN]/[CN]
Inventors
  • 王珺 WANG, Jun
  • 林永业 LAM, Wing Yip
Agents
  • 广州华进联合专利商标代理有限公司 ADVANCE CHINA IP LAW OFFICE
Priority Data
202010048780.216.01.2020CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) VOICE RECOGNITION METHOD, DEVICE, AND COMPUTER-READABLE STORAGE MEDIUM
(FR) PROCÉDÉ DE RECONNAISSANCE VOCALE, DISPOSITIF ET SUPPORT D'ENREGISTREMENT LISIBLE PAR ORDINATEUR
(ZH) 语音识别方法、装置和计算机可读存储介质
Abstract
(EN)
Provided are a voice recognition method, device, and computer-readable storage medium, said method comprising: obtaining a first loss function of a voice separation enhancement model and a second loss function of a voice recognition model (S202); performing back-propagation on the basis of the second loss function to train an intermediate model bridged between the voice separation enhancement model and the voice recognition model, to obtain a robust representation model (S204); combining the first loss function and the second loss function to obtain a target loss function (S206); performing joint training of the voice separation enhancement model, the robust representation model, and the voice recognition model on the basis of the target loss function, and ending training when a preset convergence condition is satisfied (S208).
(FR)
L'invention concerne un procédé de reconnaissance vocale, un dispositif et un support d'enregistrement lisible par ordinateur, ledit procédé consistant à : obtenir une première fonction de perte d'un modèle d'amélioration de séparation vocale et une seconde fonction de perte d'un modèle de reconnaissance vocale (S202) ; exécuter une rétropropagation sur la base de la seconde fonction de perte pour former un modèle intermédiaire ponté entre le modèle d'amélioration de séparation vocale et le modèle de reconnaissance vocale, pour obtenir un modèle de représentation robuste (S204) ; combiner la première fonction de perte et la seconde fonction de perte pour obtenir une fonction de perte cible (S206) ; procéder à une formation conjoint du modèle d'amélioration de séparation vocale, du modèle de représentation robuste et du modèle de reconnaissance vocale sur la base de la fonction de perte cible, et mettre fin à la formation lorsqu'une condition de convergence prédéfinie est satisfaite (S208).
(ZH)
一种语音识别方法、装置和计算机可读存储介质,方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数(S202);基于第二损失函数进行反向传播,以对桥接在语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型(S204);对第一损失函数和第二损失函数进行融合,得到目标损失函数(S206);基于目标损失函数对语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练(S208)。
Latest bibliographic data on file with the International Bureau