微软文字转语音常用事件处理说明教程

前言说明

使用微软语音合成 API 进行语音合成时，常用的事件处理包括以下几个方面：

1. 停顿：语音合成会自动根据标点符号以及文本内容进行停顿和语调变换。同时，可以通过添加 SSML 标记来控制停顿的时长和位置，例如使用 `<break>` 标记来指定停顿的时间长度或调整语调。需要注意的是，停顿时间长度应该适当，过长或过短都不利于语音合成的自然度。

2. 多音：为了避免多音字在语音合成中的发音出现错误，可以通过在相应文字上添加注音或拼音信息来指定正确的读音。例如，可以使用 `<phoneme>` 标记来指定复杂或罕见的词汇的发音，或使用 `<sub>` 标记来替换不常用或特殊的词汇。需要注意的是，正确指定多音字的发音对于语音合成的质量具有重要影响。

3. 事件处理：在语音合成过程中，可以注册一系列事件处理函数来监听相应的事件，例如播放开始事件（`onstart`）、播放结束事件（`onend`）等。这些事件可以通过 JavaScript 代码来实现，从而可以根据具体的情况进行处理，例如更新播放状态、播放下一个语音等。使用这些事件处理函数可以更好地控制语音合成的整个流程，提高用户体验。

4. 合成设置：在语音合成中，可以通过调整合成设置来改善语音合成的质量。例如，可以调整语速、音调、语音风格和音量等参数，从而可以满足不同用户的需求。通常可以使用微软语音 SDK 提供的 API 来进行相应的设置。

因此，在使用微软语音合成 API 进行语音合成时，需要注意上述几个方面，并采取相应的措施来保证语音合成的自然度和质量。

多音字处理

`<phoneme>` 标记是 SSML（Speech Synthesis Markup Language）中的一个元素，用于指定特定音素或音序列的发音。在 Microsoft SAPI （Speech API）中，`<phoneme>` 标记可以使用 `alphabet` 属性指定音素表类型，使用 `ph` 属性指定具体的音素或音序列。

中文案例

<speak>
  <s>这是一个示例句子，<phoneme alphabet="sapi" ph="shan 4">单</phoneme>通常读作san。</s>
  <s>这是另一个示例，<phoneme alphabet="sapi" ph="dan 4">单</phoneme>则读作dan。</s>
</speak>

在 `<phoneme alphabet=”sapi” ph=”shan 4″>单</phoneme>` 这个例子中，`alphabet` 属性指定了音素表类型为 Microsoft SAPI，`ph` 属性指定了要发音的音素或音序列为 “shan 4″，这表示 “单” 这个汉字的第四声音。

因此，当微软语音合成 API 遇到这个 `<phoneme>` 标记时，会根据指定的音素进行发音，从而可以实现更准确的语音合成效果。

其它案例

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="ipa" ph="tə.ˈmeɪ.toʊ"> tomato </phoneme>
    </voice>
</speak>

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="ipa" ph="təmeɪˈtoʊ"> tomato </phoneme>
    </voice>
</speak>

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="sapi" ph="iy eh n y uw eh s"> en-US </phoneme>
    </voice>
</speak>

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <s>His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou </phoneme></s>
    </voice>
</speak>

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
     <voice name="en-US-JennyNeural">
        <phoneme alphabet='x-sampa' ph='he."lou'>hello</phoneme>
    </voice>
</speak>

停顿处理

在使用微软文字转语音 API 进行 SSML 播放时，可以使用<break> 标签来控制语音合成的停顿或延迟时间。<break> 标签有一个 time 属性，用于指定停顿或延迟的时间长度，单位为毫秒。

例如，下面的代码片段表示在播放语音过程中间隔 2 秒钟的时间：

<speak>
<s>这是一个示例句子。</s>
<break time="2000ms" />
<s>这是下一个示例句子。</s>
</speak>

在这段代码中，通过在两个语音段之间插入 <break>`标签，并设置 time`属性为“2000ms”，就实现了两个语音段之间停顿 2 秒钟的效果。

需要注意的是，<break>标签的 time属性值不宜过长或过短，过长可能会使语音合成显得拖沓生硬，而过短则可能导致语音合成不太自然。因此，在使用<break>标签时，需要根据实际情况选择合适的停顿或延迟时间。

按例

<break time="2000ms" />

其中2000ms=2s也就是2000毫秒等于2秒，这里的事停顿事件可按需自行处理