百度AI开放平台提供了丰富的AI接口,覆盖了语言、视觉、语音等多个领域。下面我将为你梳理这些接口,并为几个常用功能提供示例代码。
🔌 百度AI接口概览
下表整理了百度AI开放平台提供的主要官方组件,你可以快速了解它们的功能:
| 组件名称 | 功能简介 | 主要应用场景 |
|---|---|---|
| 文本翻译-通用版 | 支持200多种语言的在线文本互译,支持术语定制。 | 移动端、网站、智能硬件的翻译需求。 |
| 文生图 | 基于文心大模型,根据文本描述自动生成图像。 | 内容创作者的灵感激发和配图生成。 |
| 通用物体和场景识别 | 识别超过10万类常见物体和场景。 | 图像/视频内容分析、拍照识图。 |
| 通用文字识别 | 多场景、多语种、高精度的图片/文件文字识别。 | 文档数字化、图片文字提取。 |
| 百度AI搜索 | 结合全网实时信息,由大模型生成智能回复。 | 各行业需要实时信息支撑的智能问答。 |
| 短语音识别 | 将短音频流实时识别为文字。 | 手机语音输入、语音搜索、人机对话。 |
| 短文本在线合成 | 将文本转换为逼真、流畅的语音。 | 语音播报、有声读物制作。 |
| 图像内容理解 | 分析图像并输出描述性的文本信息。 | 图像自动标注、内容分析。 |
| 手写文字识别 | 专门识别图片中的手写中文和数字。 | 表单识别、笔记数字化。 |
| 动物识别 | 识别图片中的动物种类。 | 智能相册、生态监测。 |
| 植物识别 | 识别图片中的植物种类。 | 花卉识别、农林研究。 |
| 表格文字识别 | 识别图片或PDF中的表格结构及内容。 | 票据处理、表格数字化。 |
| 图像清晰度增强 | 提升图像的清晰度和质量。 | 老照片修复、图像预处理。 |
除了以上列出的接口,平台还提供包括人脸识别、人像分割(AI抠图)、菜品识别、地标识别等在内的众多其他能力。
⌨️ 核心接口调用示例
要使用任何百度AI接口,首先都需要完成以下准备步骤:
- 创建应用:在百度AI开放平台注册并创建应用,获取
API Key和Secret Key。 - 获取Access Token:使用你的Key换取调用接口所需的访问凭证
access_token。
下面是三个常见功能的调用示例:
1. 通用文字识别
这个接口可以识别图片中的文字。
import requests
import base64
# 1. 获取access_token
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=你的API_KEY&client_secret=你的SECRET_KEY'
response = requests.get(host)
if response:
access_token = response.json()['access_token']
# 2. 读取图片并进行base64编码
with open('image.jpg', 'rb') as f:
image = base64.b64encode(f.read()).decode()
# 3. 调用通用文字识别接口
url = 'https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic'
params = {'access_token': access_token}
headers = {'Content-Type': 'application/x-www-form-urlencoded'}
data = {'image': image}
response = requests.post(url, params=params, headers=headers, data=data)
# 4. 解析并打印结果
if response:
results = response.json()['words_result']
for result in results:
print(result['words'])
citation:3
2. 图像清晰度增强
这个接口可以提升图像的清晰度。
request_url = "https://aip.baidubce.com/rest/2.0/image-process/v1/image_definition_enhance"
# 二进制方式打开图片文件
f = open('图片地址', 'rb')
img = base64.b64encode(f.read())
params = {"image": img}
access_token = '上面获取的token值'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
# 将返回的Base64数据解码并保存为图片
imgdata = base64.b64decode(response.json()["image"])
file = open(r'保存新照片地址', 'wb')
file.write(imgdata)
file.close()
citation:10
3. 与文心大模型对话
这个接口让你能够与文心一言等大模型进行智能对话。
const access_token = 'your_access_token';
// 请注意,此接口为文心一言系列模型接口的示例
fetch('https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions_pro?access_token=' + access_token, {
method: 'POST',
headers: {
'Content-Type': 'application/json',
},
body: JSON.stringify({
messages: [
{
role: 'user',
content: '你好', // 替换为你的问题
},
],
// 还可以添加stream、temperature等参数控制生成效果
}),
})
.then(response => response.json())
.then(data => console.log(data.result));
citation:8
💡 使用注意事项
- 接口更新:AI接口更新较快,部分旧版本接口(如某些AI搜索接口V1)可能会被弃用,建议在开发时查阅官方文档,使用最新版本。
- 鉴权方式:几乎所有接口都需要使用
access_token进行鉴权。部分新推出的MCP服务则直接使用API Key进行授权。 - 免费额度:百度AI平台为许多接口提供了免费的调用额度,方便开发者测试和使用。
希望这些信息能帮助你快速上手百度AI接口。如果你对某个特定接口有更深入的使用疑问,可以随时再来提问。
发表回复