91书院(91shuyuan.com)更新快,无弹窗!
t;/P>
既然要做序列到序列的语言任务,那还是得回谷歌大脑,以伊利亚为首的一票人研究这方面已经有一段时间了。</P>
孟繁岐偷偷溜达回了谷歌大脑的办公室,发现伊利亚等人的确正在处理序列到序列类型的任务,其实主要还是上次孟繁岐本该接下的翻译任务。</P>
“哈哈哈,这个任务最后还是到了你手里啊。”</P>
孟繁岐记得伊利亚对这个任务不是特别感冒,没想到最后还是他来负责。</P>
“我其实也并不是不想做翻译类的任务,序列到序列类型我是很感兴趣的,我只是单纯不喜欢那种其他部门有什么需求,我们就必须得做的工作模式罢了。”</P>
伊利亚头都没抬起来,光从语气中就猜了出来孟繁岐到底是什么意思。</P>
“我觉得真正想要做出好的研究,还是很需要兴趣的。”</P>
“怎么样,有什么我能帮上忙的吗?”</P>
翻译任务属于语言任务的一种,是chatGpt功能的一部分,孟繁岐也算是比较了解。</P>
“这边我们已经做得差不多了,你如果想帮忙的话,倒是可以处理一下文字到语音的问题。”</P>
现在的许多翻译页面,都会同时提供一个文本发音的功能,只是现在这个阶段还比较粗糙。</P>
这是很合理的需求,用户使用翻译很多时候不仅仅是为了理解意思,想要学习读音也是非常正常的现象。</P>
而从文字到语音的转换过程,被称为ttS技术。译为文本转语音,是一种能把文字内容转换为语音输出的技术。</P>
chatGpt则是文本到文本技术,内容的性质没有发生改变。</P>
这样对比起来,乍一看似乎文本转语音要复杂一点,因为输入和输出的种类都不同了。</P>
chatGpt是根据文本回应文本,ttS则需要根据输入文本去输出波形从而表达声音。</P>
但事实上难度的是完全反过来的,并且ttS技术要容易不少,因为它并不需要理解文本本身的含义,chatGpt则需要理解文本本身的意义,并进行合理的回应。</P>
“文本首先需要一套语言学标注系统,将文本分词,然后标注音素音节和单词级别的信息,用以最后去合成语音。”</P>
孟繁岐大概确认了一下现在常用的传统办法的水平:“目前的语音主要是基于语音库,这个库里存放了大量的文本和它的对应音频。这就像是素材库,根据需求把素材拿出来拼在一起。”</P>
“最简单的办法,就是拼接合成。用标注系统跑一下输入的文本,得到了一大串语言学的标注。得到标注之后,直接从语音库里找对应的音频拼起来就好了。”</P>
“现在步入了深度学习时代,完全可以用新做法了。比如,我可以直接用深度网络学习文本到声学特征的对应关系,这样就不再需要去标注文本了,不过最后还是需要声码器。”</P>
语言相关的任务,万物皆可序列到序列,输入是一个序列,输出也是一个序列,其中的许多原理都是相通的。</P>
只是做这件事情不能够再用传统的循环网络和长短期记忆办法了,那样有点跟不上节奏。</P>
孟繁岐要将上次搜索引擎中已经加入的雏形transformer方法彻底实现完成,并发布出去。</P>
Gpt的t方法是时候作为论文正式出现了!