为了账号安全,请及时绑定邮箱和手机立即绑定

用python说话时将语音转换为文本

用python说话时将语音转换为文本

跃然一笑 2021-09-14 10:21:03
我制作了一个程序,它允许我说话并将其转换为文本。在我停止说话后,它会转换我的声音。我想要做的是在我说话时将我的声音转换为文本。https://www.youtube.com/watch?v=96AO6L9qp2U&t=2s&ab_channel=StormHack在 2:31 分。注意托尼显示器的右上角。它在说话时将他的声音转换为文本。我想做同样的事情。可以做到吗?这是我的整个程序:import speech_recognition as sr import pyaudior = sr.Recognizer()with sr.Microphone() as source:    print("Listening...")    audio = r.listen(source)    try:        text = r.recognize_google(audio)        print("You said : {}".format(text))    except:        print("Sorry could not recognize what you said")解决方案、提示、提示或任何内容将不胜感激,在此先感谢您。
查看完整描述

2 回答

?
鸿蒙传说

TA贡献1865条经验 获得超7个赞

为了做到这一点,你必须做所谓的 VAD:语音音频检测,一个简单的方法是从音频中获取一组样本并获取它们的强度,如果它们高于某个阈值,那么你应该开始录制,一旦强度在给定的时间段内低于某个阈值,您就可以结束录制并将其发送给服务。您可以在此处找到一个示例。

更复杂的系统使用更好的启发式方法来决定用户是否在说话,例如频率以及应用降噪等功能,其他系统也能够像 DeepSpeech 2 一样在用户说话时对文本执行实时语音。


查看完整回答
反对 回复 2021-09-14
  • 2 回答
  • 0 关注
  • 252 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号