通过门铃也能识别出是谁在敲门了吗?
这样就完成了大部分的识别任务。语音合成我想知道谁在门口。一开始,我以为在铃声设备上播放声音是最佳策略,但亚马逊不允许我这么做,只允许我播放铃声伴随的默认声音。因此,从文本到语音似乎是一种更合适的方式。这可以通过两个包GTTS和playsound来简化。GTTS使用谷歌的Tacotron 2模型。虽然完全理解它的工作原理并不重要,但对于感兴趣的读者来说,该图说明了它的架构
Tacotron与Seq2Seq非常相似,但是它使用了双向LSTM、卷积层、预网络层,以及最重要的2D生成输入到解码器(光谱图)。如果你想了解更多关于Tacotron 2的内容,这里有一个由CodeEmporium制作的关于这个主题的视频。https://www.youtube.com/watch?v=le1LH4nPfmE&ab_channel=CodeEmporium虽然Tacotron 2算不上是最好的,尤其是与transformer 模型相比,但它确实做到了。使用GTTS python API的方法如下:from gtts import gTTS
from playsound import playsound
language = 'en'
slow_audio_speed = False
filename = 'tts_file.mp3'
def text_to_speech(text):
audio_created = gTTS(text=text, lang=language,
slow=slow_audio_speed)
audio_created.save(filename)
playsound(filename)
很简单。我使用playsound而不是os.system的原因是,os.system将默认打开默认的声音播放器应用程序,而playsound不会弹出任何窗口。这就完成了项目的最后一个步骤。总结和Git存储库请在这里查看我的git存储库,以获得完整的代码,并轻松地定制你自己的门铃。https://github.com/dude123studios/SmarterRingV2在README.md中查看说明,并解释在你自己的家里使用这个系统的确切步骤。只需要5分钟就可以安装好!亚马逊,把它放进你的下一个门铃里!进一步的探索和问题FaceNet是一个相当过时的模式。在过去的五年里,在transformer模型方面有了重大发现,例如ViT。GPT-3是一个概括之神。完成创建广义嵌入的任务后,GPT-3之类的转换器会更好地工作吗?卷积神经网络可能不是面部识别的最佳选择,因为长期依赖关系(如耳朵或下颚线)需要庞大的网络。另一方面,transformer模型可以考虑到自相似性,并且实时进行人脸识别的速度要快得多。
图片新闻
最新活动更多
-
即日-3.21立即报名 >> 【深圳 IEAE】2025 消费新场景创新与实践论坛
-
精彩回顾立即查看>> STM32全球线上峰会
-
精彩回顾立即查看>> 【线下论坛】华邦电子与莱迪思联合技术论坛
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【线下论坛】华邦电子与恩智浦联合技术论坛
-
精彩回顾立即查看>> 【限时免费下载】TE暖通空调系统高效可靠的组件解决方案
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论