微软文字转语音常用事件处理说明教程-砝码网

微软文字转语音常用事件处理说明教程

前言说明

使用微软语音合成 API 进行语音合成时,常用的事件处理包括以下几个方面:

1. 停顿:语音合成会自动根据标点符号以及文本内容进行停顿和语调变换。同时,可以通过添加 SSML 标记来控制停顿的时长和位置,例如使用 `<break>` 标记来指定停顿的时间长度或调整语调。需要注意的是,停顿时间长度应该适当,过长或过短都不利于语音合成的自然度。

2. 多音:为了避免多音字在语音合成中的发音出现错误,可以通过在相应文字上添加注音或拼音信息来指定正确的读音。例如,可以使用 `<phoneme>` 标记来指定复杂或罕见的词汇的发音,或使用 `<sub>` 标记来替换不常用或特殊的词汇。需要注意的是,正确指定多音字的发音对于语音合成的质量具有重要影响。

3. 事件处理:在语音合成过程中,可以注册一系列事件处理函数来监听相应的事件,例如播放开始事件(`onstart`)、播放结束事件(`onend`)等。这些事件可以通过 JavaScript 代码来实现,从而可以根据具体的情况进行处理,例如更新播放状态、播放下一个语音等。使用这些事件处理函数可以更好地控制语音合成的整个流程,提高用户体验。

4. 合成设置:在语音合成中,可以通过调整合成设置来改善语音合成的质量。例如,可以调整语速、音调、语音风格和音量等参数,从而可以满足不同用户的需求。通常可以使用微软语音 SDK 提供的 API 来进行相应的设置。

因此,在使用微软语音合成 API 进行语音合成时,需要注意上述几个方面,并采取相应的措施来保证语音合成的自然度和质量。

多音字处理

`<phoneme>` 标记是 SSML(Speech Synthesis Markup Language)中的一个元素,用于指定特定音素或音序列的发音。在 Microsoft SAPI (Speech API)中,`<phoneme>` 标记可以使用 `alphabet` 属性指定音素表类型,使用 `ph` 属性指定具体的音素或音序列。

中文案例

<speak>
  <s>这是一个示例句子,<phoneme alphabet="sapi" ph="shan 4">单</phoneme>通常读作san。</s>
  <s>这是另一个示例,<phoneme alphabet="sapi" ph="dan 4">单</phoneme>则读作dan。</s>
</speak>

在 `<phoneme alphabet=”sapi” ph=”shan 4″>单</phoneme>` 这个例子中,`alphabet` 属性指定了音素表类型为 Microsoft SAPI,`ph` 属性指定了要发音的音素或音序列为 “shan 4″,这表示 “单” 这个汉字的第四声音。

因此,当微软语音合成 API 遇到这个 `<phoneme>` 标记时,会根据指定的音素进行发音,从而可以实现更准确的语音合成效果。

其它案例

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="ipa" ph="tə.ˈmeɪ.toʊ"> tomato </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="ipa" ph="təmeɪˈtoʊ"> tomato </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="sapi" ph="iy eh n y uw eh s"> en-US </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <s>His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou </phoneme></s>
    </voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
     <voice name="en-US-JennyNeural">
        <phoneme alphabet='x-sampa' ph='he."lou'>hello</phoneme>
    </voice>
</speak>

停顿处理

在使用微软文字转语音 API 进行 SSML 播放时,可以使用<break> 标签来控制语音合成的停顿或延迟时间。<break> 标签有一个 time 属性,用于指定停顿或延迟的时间长度,单位为毫秒。

例如,下面的代码片段表示在播放语音过程中间隔 2 秒钟的时间:

<speak>
<s>这是一个示例句子。</s>
<break time="2000ms" />
<s>这是下一个示例句子。</s>
</speak>

在这段代码中,通过在两个语音段之间插入 <break>`标签,并设置 time`属性为“2000ms”,就实现了两个语音段之间停顿 2 秒钟的效果。

需要注意的是,<break>标签的 time属性值不宜过长或过短,过长可能会使语音合成显得拖沓生硬,而过短则可能导致语音合成不太自然。因此,在使用<break>标签时,需要根据实际情况选择合适的停顿或延迟时间。

按例

<break time="2000ms" />

其中2000ms=2s也就是2000毫秒等于2秒,这里的事停顿事件可按需自行处理

 

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享