ai-agent.py · 37创客/python-learn

代码拉取完成,页面将自动刷新

扫描微信二维码支付

取消

支付完成

richgiteeai

Watch

不关注关注所有动态仅关注版本发行动态关注但不提醒动态

1 Star 0 Fork 265

37创客/python-learn

forked from mktime/python-learn

代码 Issues 0 Pull Requests 0 Wiki 统计流水线

服务

加入 Gitee

与超过 1400万开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)

免费加入

已有帐号? 立即登录

文件

master

分支 (1)

管理

master

克隆/下载

HTTPS SSH SVN SVN+SSH 下载ZIP

提示

下载代码请复制以下命令到终端执行

为确保你提交的代码身份被 Gitee 正确识别,请执行以下命令完成配置

git config --global user.name userName 
git config --global user.email userEmail

初次使用 SSH 协议进行代码克隆、推送等操作时,需按下述提示完成 SSH 配置

1 生成 RSA 密钥

2 获取 RSA 公钥内容,并配置到 SSH公钥中

在 Gitee 上使用 SVN,请访问使用指南

使用 HTTPS 协议时,命令行会出现如下账号密码验证步骤。基于安全考虑,Gitee 建议配置并使用私人令牌替代登录密码进行克隆、推送等操作

Username for 'https://gitee.com': userName

Password for 'https://userName@gitee.com': # 私人令牌

分支 1

标签 0

python-learn

ai-agent.py

ai-agent.py 4.91 KB

import pyaudio
import pvporcupine
import os
import io
import sys
import logging
import pdb
import sounddevice as sd
import numpy as np
import pvcobra
import time
import wave
from tencentcloud.asr.v20190614 import asr_client, models
from tencentcloud.common import credential
import json

logging.basicConfig(
 #filename = os.path.join(expanduser('~'), 'peoplebank.log'),
 level = logging.DEBUG,
 format = "[%(asctime)s] - %(levelname)s - %(lineno)s] %(message)s",
 datefmt = "%Y-%m-%d %H:%M:%S"
)

# 访问密钥
ACCESS_KEY = os.environ.get('ACCESS_KEY')
print('access key:', ACCESS_KEY)

# 腾讯云配置
SECRET_ID = os.environ.get('TENCENT_SECRET_ID')
SECRET_KEY = os.environ.get('TENCENT_SECRET_KEY')
REGION = "ap-beijing"

# 设备编号
DEVICE_INDEX = 0
# 唤醒词
KEYWORD_PATH = ['models/暖宝宝_zh_mac_v3_0_0.ppn']
# 唤醒词的敏感度
KEYWORD_SENSITIVITIES = [0.5]
# 中文唤醒词对应的模型
MODEL_PATH = 'models/porcupine_params_zh.pv'
# Porcupine 的采样率
SAMPLE_RATE = 16000
# 单声道
CHANNELS = 1
# Porcupine 每帧音频样本数
FRAME_LENGTH = 512

# 设置录音设备编号
sd.default.device = [DEVICE_INDEX, 1]
# 开启录音
audio_stream = sd.InputStream(samplerate=SAMPLE_RATE, channels=1, dtype='int16')
audio_stream.start()

# cobra 初始化
cobra = pvcobra.create(access_key=f'{ACCESS_KEY}')

# porcupine 初始化
porcupine = pvporcupine.create(
 access_key = f'{ACCESS_KEY}',
 keyword_paths = KEYWORD_PATH,
 sensitivities = KEYWORD_SENSITIVITIES,
 model_path = MODEL_PATH
)

# 从音频流中读取一个帧的数据
def get_next_audio_frame():
 audio_frame, _ = audio_stream.read(FRAME_LENGTH)
 # 将音频帧转换为一维数组,并确保是 int16 类型
 pcm_data = np.frombuffer(audio_frame, dtype=np.int16)
 return pcm_data

# 录音
def record_audio(duration=5):
 print("开始录音...")
 audio_data = sd.rec(int(SAMPLE_RATE * duration), samplerate=SAMPLE_RATE, channels=CHANNELS, dtype='int16')
 sd.wait() # 等待录音结束
 return audio_data

# 将音频数据保存为 WAV 格式
def save_audio_to_wav(audio_data):
 with io.BytesIO() as byte_io:
 with wave.open(byte_io, 'wb') as wf:
 wf.setnchannels(CHANNELS)
 wf.setsampwidth(2) # 16 位深度
 wf.setframerate(SAMPLE_RATE)
 wf.writeframes(audio_data.tobytes())
 byte_io.seek(0)
 return byte_io

# 调用腾讯ASR服务将语音转换为文字
def transcribe_audio_tencent(audio_file):
 cred = credential.Credential(SECRET_ID, SECRET_KEY)
 client = asr_client.AsrClient(cred, REGION)

audio_data = audio_file.read()
 audio_base64 = audio_data.encode('base64')

req = models.SentenceRecognitionRequest()
 params = {
 "EngSerViceType": "16k_zh",
 "SourceType": 1,
 "VoiceFormat": "wav",
 "Data": audio_base64,
 }
 req.from_json_string(json.dumps(params))
 resp = client.SentenceRecognition(req)
 print("识别结果:", resp.Result)

def start_agent():
 # 初始化 PyAudio
 #audio = pyaudio.PyAudio()
 ## 打开音频流
 #stream = audio.open(format=pyaudio.paInt16,
 # channels=1,
 # rate=porcupine.sample_rate,
 # input=True,
 # frames_per_buffer=porcupine.frame_length)
 logging.debug('等待唤醒词...')
 try:
 while True:
 # 从音频流中读取数据
 audio_frame = get_next_audio_frame()
 result = porcupine.process(audio_frame)
 print('result:', result)
 if result >= 0:
 # 检测到唤醒词
 while True:
 # 判断是否有人说话
 audio_frame = get_next_audio_frame()
 voice_probability = cobra.process(audio_frame)
 if voice_probability >= 0.3:
 # 检测到人声 启动录音
 audio_data = record_audio(duration=5)
 audio_file = save_audio_to_wav(audio_data)
 transcribe_audio_tencent(audio_file)
 break
 #else:
 #print("没有语音活动,继续监听...")
 #time.sleep(1)

except KeyboardInterrupt:
 print('停止运行.')

# 清理资源
 #stream.stop_stream()
 #stream.close()
 #audio.terminate()

def choose_device():
 # 初始化 PyAudio
 audio = pyaudio.PyAudio()
 # 列出所有音频输入设备
 for i in range(audio.get_device_count()):
 device_info = audio.get_device_info_by_index(i)
 if device_info['maxInputChannels'] > 0:
 print(f"Device {i}: {device_info['name']}")
 audio.terminate()
 print(40 * '*')
 print('>>请输入麦克风编号:', end='', flush=True)
 DEVICE_INDEX = int(sys.stdin.readline().strip())

if __name__ == '__main__':
 choose_device()
 start_agent()

一键复制编辑原始数据按行查看历史

内部项目提交于 2024年11月15日 19:14 +08:00 . 个人AI助理

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171

import pyaudio
import pvporcupine
import os
import io
import sys
import logging
import pdb
import sounddevice as sd
import numpy as np
import pvcobra
import time
import wave
from tencentcloud.asr.v20190614 import asr_client, models
from tencentcloud.common import credential
import json

logging.basicConfig(
 #filename = os.path.join(expanduser('~'), 'peoplebank.log'),
 level = logging.DEBUG,
 format = "[%(asctime)s] - %(levelname)s - %(lineno)s] %(message)s",
 datefmt = "%Y-%m-%d %H:%M:%S"
)

# 访问密钥
ACCESS_KEY = os.environ.get('ACCESS_KEY')
print('access key:', ACCESS_KEY)

# 腾讯云配置
SECRET_ID = os.environ.get('TENCENT_SECRET_ID')
SECRET_KEY = os.environ.get('TENCENT_SECRET_KEY')
REGION = "ap-beijing"


# 设备编号
DEVICE_INDEX = 0
# 唤醒词
KEYWORD_PATH = ['models/暖宝宝_zh_mac_v3_0_0.ppn']
# 唤醒词的敏感度
KEYWORD_SENSITIVITIES = [0.5]
# 中文唤醒词对应的模型
MODEL_PATH = 'models/porcupine_params_zh.pv'
# Porcupine 的采样率
SAMPLE_RATE = 16000
# 单声道
CHANNELS = 1
# Porcupine 每帧音频样本数
FRAME_LENGTH = 512

# 设置录音设备编号
sd.default.device = [DEVICE_INDEX, 1]
# 开启录音
audio_stream = sd.InputStream(samplerate=SAMPLE_RATE, channels=1, dtype='int16')
audio_stream.start()

# cobra 初始化
cobra = pvcobra.create(access_key=f'{ACCESS_KEY}')

# porcupine 初始化
porcupine = pvporcupine.create(
 access_key = f'{ACCESS_KEY}',
 keyword_paths = KEYWORD_PATH,
 sensitivities = KEYWORD_SENSITIVITIES,
 model_path = MODEL_PATH
)

# 从音频流中读取一个帧的数据
def get_next_audio_frame():
 audio_frame, _ = audio_stream.read(FRAME_LENGTH)
 # 将音频帧转换为一维数组,并确保是 int16 类型
 pcm_data = np.frombuffer(audio_frame, dtype=np.int16)
 return pcm_data

# 录音
def record_audio(duration=5):
 print("开始录音...")
 audio_data = sd.rec(int(SAMPLE_RATE * duration), samplerate=SAMPLE_RATE, channels=CHANNELS, dtype='int16')
 sd.wait() # 等待录音结束
 return audio_data

# 将音频数据保存为 WAV 格式
def save_audio_to_wav(audio_data):
 with io.BytesIO() as byte_io:
 with wave.open(byte_io, 'wb') as wf:
 wf.setnchannels(CHANNELS)
 wf.setsampwidth(2) # 16 位深度
 wf.setframerate(SAMPLE_RATE)
 wf.writeframes(audio_data.tobytes())
 byte_io.seek(0)
 return byte_io

# 调用腾讯ASR服务将语音转换为文字
def transcribe_audio_tencent(audio_file):
 cred = credential.Credential(SECRET_ID, SECRET_KEY)
 client = asr_client.AsrClient(cred, REGION)

 audio_data = audio_file.read()
 audio_base64 = audio_data.encode('base64')

 req = models.SentenceRecognitionRequest()
 params = {
 "EngSerViceType": "16k_zh",
 "SourceType": 1,
 "VoiceFormat": "wav",
 "Data": audio_base64,
 }
 req.from_json_string(json.dumps(params))
 resp = client.SentenceRecognition(req)
 print("识别结果:", resp.Result)


def start_agent():
 # 初始化 PyAudio
 #audio = pyaudio.PyAudio()
 ## 打开音频流
 #stream = audio.open(format=pyaudio.paInt16,
 # channels=1,
 # rate=porcupine.sample_rate,
 # input=True,
 # frames_per_buffer=porcupine.frame_length)
 logging.debug('等待唤醒词...')
 try:
 while True:
 # 从音频流中读取数据
 audio_frame = get_next_audio_frame()
 result = porcupine.process(audio_frame)
 print('result:', result)
 if result >= 0:
 # 检测到唤醒词
 while True:
 # 判断是否有人说话
 audio_frame = get_next_audio_frame()
 voice_probability = cobra.process(audio_frame)
 if voice_probability >= 0.3:
 # 检测到人声 启动录音
 audio_data = record_audio(duration=5)
 audio_file = save_audio_to_wav(audio_data)
 transcribe_audio_tencent(audio_file)
 break
 #else:
 #print("没有语音活动,继续监听...")
 #time.sleep(1)

 except KeyboardInterrupt:
 print('停止运行.')

 




 # 清理资源
 #stream.stop_stream()
 #stream.close()
 #audio.terminate()

def choose_device():
 # 初始化 PyAudio
 audio = pyaudio.PyAudio()
 # 列出所有音频输入设备
 for i in range(audio.get_device_count()):
 device_info = audio.get_device_info_by_index(i)
 if device_info['maxInputChannels'] > 0:
 print(f"Device {i}: {device_info['name']}")
 audio.terminate()
 print(40 * '*')
 print('>>请输入麦克风编号:', end='', flush=True)
 DEVICE_INDEX = int(sys.stdin.readline().strip())

if __name__ == '__main__':
 choose_device()
 start_agent()

误判申诉

此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。

如您确认内容无涉及不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。

取消

提交

简介

deepseek 多轮对话,人脸检测及特征提取,个人AI助理,音频实时监听,opencv获取摄像头视频截图;Python基础编程示例:Excel读写追加处理,XML解析、JSON解析、FLV与MP4转换,PyQT界面应用程序开发示例等,https证书到期检测,糗百爬虫,pdf和图片互相转换,socket使用,百度OCR调用例子,IP及端口快速扫描。

暂无标签

https://gitee.com/mktime

使用 MIT 开源许可协议

0 Stars

1 Watching

265 Forks

取消