Arduino爱好者

 找回密码
 立即注册

QQ登录

只需一步,快速开始

楼主: eagler8

[经验] 【Arduino】168种传感器系列实验(137)---TTS文字转语音合成

[复制链接]
 楼主| 发表于 2020-2-6 17:04 | 显示全部楼层
本帖最后由 eagler8 于 2020-2-6 17:11 编辑



由于编码不同,发出的是乱码播放,下面开始尝试学习编码转换相关.......

播放链接  https://v.youku.com/v_show/id_XNDUzNDkyMjY4OA==.html



 楼主| 发表于 2020-2-6 19:05 | 显示全部楼层
经查询资料,中文TTS文本转语音合成模块支持任意中文、 英文字母、阿拉伯数字的文本合成,并且支持中文、英文字母、数字的混读。模块支持中文 GBK 编码集;支持大、小写英文字母。

GBK编码(即汉字国标扩展码)
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。Windows 95系统就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。

编码范围
8140-FEFE (33088-65278)
全部编码分为三大部分:1.汉字区;2.图形符号区;3.用户自定义区(详情见特性码位分配及顺序)

适用范围以及存在问题
几乎完美支持汉字,但是不支持部分国家的语言(如一些东亚国家,日本等)
所以经常会有GBK到UNICODE的转换

特性
1、字汇——GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具体包括:
GB 2312 中的全部汉字、非汉字符号。
GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
13 个汉字结构符。
BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。
GB 12345 增补的 6 个拼音符号。
汉字“○”。
GB 12345 增补的 19 个竖排标点符号(GB12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
未录入《新华字典》上的一些字,如“韡”的简体。

2、码位分配及顺序
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

3、误处理
低字节是0x40-0x7E的GBK字符有一定特殊性,因为这些字符占用了ASCII码的位置,这样会给一些系统带来麻烦。有些系统中用0x40-0x7E中的字符(如“|”)做特殊符号,在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节,这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0x80的某个字节未必就 是ASCII符号;另外就是最好选用小于0×40的ASCII符号做一些特殊符号,这样就可以快速定位,且不用担心是某个汉字的另一半。Big5编码中也存在相应问题。

4、双字节编码
遵循GB2312规定。
 楼主| 发表于 2020-2-6 19:26 | 显示全部楼层
网上搜寻,请教知乎《Arduino 魔法书》专栏的兔子老师,才明白这个TTS模块只能识别16进制的GBK编码。

百度——汉字转GBK,有很多在线工具,这里使用千千秀字(https://www.qqxiuzi.cn/bianma/zifuji.php),输入“谢谢兔子老师”,自动转换结果见下图

18.jpg

 楼主| 发表于 2020-2-6 19:35 | 显示全部楼层
例如汉字”兔子”的GBK编码是“CDC3 D7D3”,再转为C语言格式“0xCD,0xC3,0xD7,0xD3”。实验开源代码如下:

[mw_shl_code=arduino,true]/*
  【Arduino】168种传感器模块系列实验(资料+代码+图形+仿真)
  实验一百三十八:中文TTS文本转语音合成模块 替代SYN6288和XFS5152
  实验之三:中文TTS文本转语音合成播放:兔子你好
模块实验接线:
  TX -> Arduino 0
  RX -> Arduino 1
  5V -> Arduino 5V
  GND -> Arduino GND
*/

char a[4]={0xC4,0xE3,0xBA,0xC3};//你好
char b[]={0xCD,0xC3,0xD7,0xD3};//兔子
String zi= "";

void setup() {
  Serial.begin(9600);  
  for(int i=0;i<4;i++) zi+=a;
}

void loop() {
  Serial.println(zi);
  Serial.println(b);
  delay(1000);   
  }[/mw_shl_code]




 楼主| 发表于 2020-2-6 19:57 | 显示全部楼层
发送到串口的16进制GBK编码


19.jpg
 楼主| 发表于 2020-2-7 10:23 | 显示全部楼层
20.jpg
 楼主| 发表于 2020-2-7 10:40 | 显示全部楼层
ndf1314 发表于 2019-10-27 19:46
我有这个模块,使用的时候发现他们编码方式不一样,直接print的会出错,想问问大神怎么解决的 ...

你好,在兔子老师帮助下,编码问题问题已经解决了,模块可以识别并播放中文汉字的语音
 楼主| 发表于 2020-2-8 08:59 | 显示全部楼层
[mw_shl_code=arduino,true]/*
  【Arduino】168种传感器模块系列实验(资料+代码+图形+仿真)
  实验一百三十八:中文TTS文本转语音合成模块 替代SYN6288和XFS5152
  实验之四:中文TTS文本转语音合成播放:春节快乐
  (GBK码 B4BA,BDDA,BFEC,C0D6)
  模块实验接线:
  TX -> Arduino 0
  RX -> Arduino 1
  5V -> Arduino 5V
  GND -> Arduino GND
*/

char a[8] = {0xB4,0xBA,0xBD,0xDA,0xBF,0xEC,0xC0,0xD6}; //春节快乐

void setup() {
  Serial.begin(9600);
}

void loop() {
  Serial.println(a);
  delay(3000);
}[/mw_shl_code]
 楼主| 发表于 2020-2-8 09:01 | 显示全部楼层
21.jpg
 楼主| 发表于 2020-2-8 09:02 | 显示全部楼层
22.jpg
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|手机版|Arduino爱好者

GMT+8, 2022-12-9 23:29 , Processed in 0.073105 second(s), 15 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表