Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Commit 8d2131a

Browse files
docs:更新AI落地专栏
1 parent 88ca6f0 commit 8d2131a

File tree

5 files changed

+469
-3
lines changed

5 files changed

+469
-3
lines changed

‎docs/.vuepress/config.js‎

Lines changed: 6 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -744,7 +744,7 @@ module.exports = {
744744
},
745745
{
746746
text: '大模型平台',
747-
link: '/md/AI/llm/GPTs推荐'
747+
link: '/md/AI/llm/GPTs'
748748
},
749749
{
750750
text: 'Prompt工程',
@@ -1113,6 +1113,7 @@ module.exports = {
11131113
"04-RPC框架在网络通信的网络IO模型选型",
11141114
"熔断限流",
11151115
"11-RPC的负载均衡",
1116+
"rpc-retry-mechanism",
11161117
"RPC-Traffic-Replay",
11171118
]
11181119
}],
@@ -2096,7 +2097,7 @@ module.exports = {
20962097
sidebarDepth: 0,
20972098
children: [
20982099
"llm-api-platform",
2099-
"GPTs推荐",
2100+
"GPTs",
21002101
"ChatGPT为啥不用Websocket而是EventSource",
21012102
"携手阿里云:JetBrains AI Assistant 正式发布!",
21022103
"中国大陆用户如何使用Jetbrains内置的AI插件AI Assistant",
@@ -2110,6 +2111,7 @@ module.exports = {
21102111
"mcp-fad-or-fixture",
21112112
"mcp-and-the-future-of-ai-tooling",
21122113
"llm-reasoning-limitations",
2114+
"making-an-llm-that-sees-and-reasons",
21132115
]
21142116
},
21152117
{
@@ -2321,7 +2323,7 @@ module.exports = {
23212323
},
23222324

23232325
{
2324-
title: "Agent应用开发",
2326+
title: "Agent应用",
23252327
collapsable: false,
23262328
sidebarDepth: 0,
23272329
children: [
@@ -2336,6 +2338,7 @@ module.exports = {
23362338
"ai-agent-is-coming",
23372339
"software-development-in-AI2",
23382340
"overcoming-fear-uncertainty-and-doubt-in-the-era-of-ai-transformation",
2341+
"aigc-app-in-e-commerce-review",
23392342
]
23402343
},
23412344

Lines changed: 157 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,157 @@
1+
# 电商评论升级:AI如何赋能场景应用与技术选择?
2+
3+
## 0 前言
4+
5+
诚信难的当下,商品评论已成连接买家卖家的重要桥梁。2022年全球主要电商平台平均每件商品收到约50条评论,热门商品评论数更轻松突破千条。充分体现商品评论在电商体系地位。
6+
7+
## 1 商品评论的意义
8+
9+
Infographic: How consumers read and write local business reviews:
10+
11+
![](https://www.brightlocal.com/wp-content/uploads/2023/02/Infographic-1-1-860x682.png)
12+
13+
### 1.1 对买家
14+
15+
其他消费者的真实体验和反馈往往是做出购买决策的关键因素。研究显示,**超过** **95%**的在线用户会在做出购买决定前阅读商品评论。平均每次购物之间会查看至少 10 行评论信息。详实、客观的评论:
16+
17+
- 帮助潜在客户了解商品优缺
18+
- 提供实际使用体验
19+
- 降低购买风险
20+
- 提高购物满意度
21+
22+
你也就能理解为啥那么多带货的评测短视频了。
23+
24+
### 1.2 对卖家
25+
26+
商品评论是面照妖镜,直接反映产品质量、服务水平及客户满意度。所以你也能理解,很多 B 端产品,产商就自主隐藏差评,只留下好评忽悠新的客户。因此,结合线下使用体验才能更全面。
27+
28+
**商品评分每提高一星,销量平均可提升** **5-9%**。分析评论,卖家可及时发现并解决产品或服务中存在的问题,不断改进优化,提升品牌形象和客户忠诚度。积极评论还能吸引新客户,带来更多曝光销量。
29+
30+
## 2 传统商品评论的挑战
31+
32+
传统评论处理无法充分发挥评论的价值。当前商品评论系统痛点:
33+
34+
### 2.1 C 端用户体验不佳
35+
36+
之前商品介绍信息主要通过传统的列表、标签等呈现,难快速传达核心信息。C 端通常需手动点击和刷新评论列表,自行总结最近多数用户的评论或者产品的关键信息。耗时耗力,且:
37+
38+
- 信息过载:面对海量评论图文,用户难提取关键信息
39+
- 偏见风险:用户可能过度关注极端评论,忽视了更具代表性的中立意见
40+
- 时间成本高:需要花费大量时间阅读和筛选评论,影响购物效率
41+
- 难以全面把握:用户可能错过重要信息,无法全面了解产品的优缺点
42+
43+
### 2.2 对 B 端商家影响
44+
45+
#### 2.2.1 用户评论处理效率低下
46+
47+
- 人工成本高:通常需售后专人阅读大量评论信息,费人力
48+
- 处理速度慢:人工处理评论速度<<评论产生速度,信息滞后
49+
- 主观性强:不同人对评论理解和总结有异,影响决策准确性
50+
- 难量化:传统方法难量化分析评论,不利数据驱动决策
51+
52+
#### 2.2.2 产品迭代周期长
53+
54+
- 产品迭代需40天以上:从评论总结有效的产品和服务改进方案,到实际执行和见效,整个过程耗时过长
55+
- 市场反应迟缓:无法及时响应用户需求和市场变化,可能导致竞争力下降
56+
- 问题积累:长周期导致问题不断累积,可能造成更严重负面影响
57+
58+
#### 2.2.3 数据价值未被充分挖掘
59+
60+
- 趋势预测困难:难从评论中及时发现新兴趋势和潜在机会。
61+
- 竞品分析不足:缺乏有效工具对比分析竞品评论,难以精准把握市场定位。
62+
- 用户洞察有限:难深入分析用户需求和行为模式,影响产品开发和营销策略。
63+
64+
## 3 商品评论的特点
65+
66+
### 3.1 综合分析多条评论
67+
68+
- 需综合多条评论以获完整产品情况
69+
- 不同类型商品和用户群体的评论关注点不同
70+
- 需考虑时间因素和重点提取
71+
72+
### 3.2 多样化场景
73+
74+
- C端需快速浏览和决策辅助
75+
- B端需产品改进、市场洞察和竞品分析
76+
77+
### 3.3 离线处理
78+
79+
- 一般无需实时处理,批量处理即可
80+
- 优化资源使用和深度分析
81+
82+
### 3.4 大数据处理
83+
84+
- 处理大量评论数据,支持增量更新
85+
- 多语言支持和情感分析
86+
87+
### 3.5 信息质量不齐
88+
89+
- 需要过滤垃圾评论和验证真实性。
90+
91+
## 4 GenAI在评论应用
92+
93+
GenAI凭其强大NLP能力,可高效分析和总结大量评论、提取关键信息、识别情感倾向,甚至生成简洁明了评论摘要:
94+
95+
- 帮助买家快速了解商品优缺
96+
- 为卖家提供有价值的分析,辅助决策和改进
97+
98+
### 4.1 应用场景盘点
99+
100+
根据评论的应用场景和 GenAI 特点,应用场景可归类:
101+
102+
| **应用分类** | **应用场景** | **场景介绍** | **目标收益** |
103+
| ------------ | ---------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
104+
| C 端用户 | 用户查看的商品评论总结 | 帮助用户快速商品购买体验,提升选品效率。 结合用户和产品特点,总结针对性商品评论信息。 根据总结关键词,快速定位原始评论信息 | 1. 提升选品效率<br>2. 减少商品评论的误判<br/> 3. 减少评论页面请求 |
105+
| B 端用户 | 根据评论信息给出商品改建建议 | 快读根据评论总结改进建议,帮助商家快速了解用户对商品的体验,从而根据体验反馈改进商品。 不断提升产品迭代周期 | 1. 提升产品竞争力<br/>2. 提升产品效率<br/>3. 提升用户满意度 |
106+
| | 根据评论信息总结回复内容 | 分析评论内容,总结回复用户评论信息 | 1. 防止评论遗漏<br/>2. 提升评论回复效率<br/>3. 提升用户体验 |
107+
| | 根据评论总结产品体验趋势 | 根据评论感知用户体验的变化; 洞察用户对消费者的偏好和市场趋势 | 1. 根据市场洞察,总结市场消费趋势<br/>2. 加速产品创新 |
108+
109+
## 5 GenAI方案设计
110+
111+
### 5.1 平台选择
112+
113+
如Bedrock,某逊提供的生成式AI服务平台。允许开发者无缝接入多种顶级基础模型,而无需管理复杂基础设施。
114+
115+
### 5.2 模型选择
116+
117+
Nova是新一代最先进基础模型,具有前沿的智能和行业领先的性价比,可在Bedrock上用。 Nova模型包括三种理解模型和两种创意内容生成模型。
118+
119+
### 5.3 离线批量处理
120+
121+
使用批量推理,可提交多个提示并异步生成响应。批量推理通过发送单个请求并在 S3 生成响应,助高效处理大量请求。在您创建的文件中定义模型输入后,需将相应文件上传到S3。然后,你需提交批量推理请求并指定 S3 bucket。作业完成后,你可从 S3 检索输出文件。可用批量推理来提高对大型数据集的模型推理性能。
122+
123+
- 高效处理:一次处理大量评论,提高处理效率
124+
- 成本优化:批量处理降低 API 调用频率,优化成本
125+
- 灵活调度:可在系统负载较低时进行处理,优化资源利用
126+
- 深度分析:更充足时间全面、深入分析
127+
128+
### 5.4 语义检索
129+
130+
Bedrock Knowledge Bases
131+
132+
借助Bedrock知识库,可将专有信息集成到你的AIGC应用。查询时,知识库会搜索你的数据以查找相关信息来回答查询。为支持基于语义的评论检索,引入知识库和向量化存储:
133+
134+
- 使用适当的嵌入模型将评论内容向量化。
135+
- 将向量化后的评论存储在专门的向量数据库中(如 Amazon OpenSearch)。
136+
- 实现基于语义的相似度搜索,支持更准确的评论检索。
137+
138+
这允许我们根据总结中的关键词或概念,快速找到最相关原始评论,大大提高检索准确性和效率。
139+
140+
通过该设计,即可创建一个强大、灵活且可扩展 GenAI 解决方案,有效处理大规模电商评论数据,为C、B端用户提供高质量分析结果。
141+
142+
## 6 总结
143+
144+
本文深入GenAI在电商评论场景应用,聚焦场景分析和技术选型。先阐述商品评论对买家和卖家的重要性,揭示传统评论处理方法面临的诸多挑战,如信息过载、效率低下和产品迭代周期长等问题。
145+
146+
详细分析电商评论处理独特特点,包括需要综合分析多条评论、适应多样化的C端和B端场景、处理大量数据等。这些特点为 GenAI 的应用提供广阔空间。
147+
148+
技术选型:提出基于某逊的综合解决方案。核心技术包括用 Bedrock 的 Nova 模型进行评论分析,利用 Batch Inference 实现高效离线处理。
149+
150+
后续继续探讨实现细节,如离线数据分析处理的流程,以及如何实现基于语义的评论信息查询。为大家提供更全面、实用的 GenAI 应用指南。
151+
152+
- GenAI 在电商评论场景的应用 2 – 离线数据分析处理介绍如何使用 Batch Inference + Nova 离线处理评论数据,同时对方案的成本进行分析
153+
- GenAI 在电商评论场景的应用 3 – 根据关键词根据语义查询评论信息介绍在评论的总结中,如何实现根据关键词反像查询相关的评论记录
154+
155+
参考:
156+
157+
- https://www.brightlocal.com/research/local-consumer-review-survey-2023/
File renamed without changes.
Lines changed: 133 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,133 @@
1+
# 让 LLM 既能"看"又能"推理"!
2+
3+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/9ec1c9f42ba36473d22145067e92bdc9.png)
4+
5+
DeepSeek-R1 会推理,GPT-4o 会看。能否让
6+
7+
## 1 LLM既能看又能推理?
8+
9+
DeepSeek-R1取得很大成功,但它有个问题——**无法处理图像输入**
10+
11+
### 1.1 DeepSeek模型发展
12+
13+
自2024.12,DeepSeek已发布:
14+
15+
- **DeepSeek-V3**(2024.12):视觉语言模型(VLM),支持图像和文本输入,类似 GPT-4o
16+
- **DeepSeek-R1**(2025.1):大规模推理模型(LRM),仅支持文本输入,但具备更强的推理能力,类似 OpenAI-o1
17+
18+
我们已领略**视觉语言模型(VLM)****大规模推理模型(LRM)**,下一个是谁?
19+
20+
我们需要**视觉推理模型(VRM)**——既能看又能推理。本文探讨如何实现它。
21+
22+
## 2 现有模型的问题
23+
24+
当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能**看懂图像**,又能**深度推理**的模型?
25+
26+
### 物理问题示例
27+
28+
我是一个学生,向 LLM 提问物理问题,并附带一张图像。
29+
30+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/f84418b6a433c5ffecf67ccb39632895.png)
31+
32+
就需要一个模型能同时:
33+
34+
1. **理解图像内容**
35+
2. **进行深度推理**(如分析问题、评估答案、考虑多种可能性)
36+
37+
就需要👉 **一个大规模视觉推理模型(VRM)**,视觉推理模型示意图:
38+
39+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/63dc4902c152fdc1409a295b21750712.png)
40+
41+
讨论咋训练 VRM 之前,先了解VLM(视觉语言模型)架构。
42+
43+
## 3 VLM架构
44+
45+
如LLaVA,**L**arge **L**anguage **a**nd **V**ision **A**ssistant(大规模语言与视觉助手),2023年底发布的知名 VLM。
46+
47+
LLM 通常采用 Transformer 结构,输入文本后将其转化为 token,再通过数学计算预测下一个 token。
48+
49+
如若输入文本 **"Donald Trump is the"**,LLM可能预测下一 token 为 **"POTUS"(美国总统)**。LLM 预测过程示意图:
50+
51+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/ca32f1eacb88270e0604c0c6384b9791.png)
52+
53+
那VLM咋工作的?VLM不仅根据前面的文本预测输出,还会参考输入的**图像**。VLM 预测过程示意图:
54+
55+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/a67d25a9aad8028b85b5e2102687b855.png)
56+
57+
**咋让 LLM 理解图像?**
58+
59+
## 4 VLM咋处理图像输入?
60+
61+
核心思路:**将图像数据转换成 LLM 能理解的格式**
62+
63+
LLaVA论文用 **CLIP 视觉编码器**将图像转化为向量。然后,在编码器后添加一个**可训练的线性层**。图像编码示意图:
64+
65+
![](https://miro.medium.com/v2/resize:fit:700/1*cIsMQiUD_leIPnmRuVFN7A.png)
66+
67+
最终的视觉隐藏状态(**Hv**)会与文本 token 的隐藏状态拼接在一起,输入 Transformer 层,最后生成预测结果。
68+
69+
LLaVA 在这里使用的是 **Vicuna** 作为 LLM。
70+
71+
![LLaVA 结构示意图](https://miro.medium.com/v2/resize:fit:700/1*nf2v70Sq9lgtVZQt3cXVZw.png)
72+
73+
不过,仅仅有这个结构是不够的,模型还需要**训练**,才能真正理解图像内容。
74+
75+
## 5 VLM咋训练?
76+
77+
LLaVA 采用了**端到端微调(End-to-End Fine-tuning)**的方式。
78+
79+
> **端到端微调**:将整个模型视作一个黑盒,并进行整体训练。
80+
81+
LLaVA 端到端微调示意图:
82+
83+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/43f77298a995f94bb2959c64ddae8fcc.png)
84+
85+
训练时,**CLIP编码器的参数通常是冻结的**,只更新线性层(**W**)和 LLM(**φ**)的参数。LLaVA 微调过程示意图:
86+
87+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/0be1689a997f8ed39229979db3dee0ea.png)
88+
89+
## 6 能否用强化学习(RL)训练 VLM?
90+
91+
RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。**若用 RL 训练 VLM,是否能打造更强的视觉推理模型?**
92+
93+
**图像分类任务**为例。
94+
95+
### 6.1 任务定义:图像分类
96+
97+
训练时,希望模型能**根据图像内容,输出正确的类别标签**
98+
99+
![图像分类示意图](https://miro.medium.com/v2/resize:fit:700/1*8Z64xfuUTau8nwh1-zWDog.png)
100+
101+
数据集中的每条数据包括:**图像、标题(正确答案)、问题**
102+
103+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/e8fa3aa49a014282291f2b917bb18f38.png)
104+
105+
### 强化学习奖励设计
106+
107+
可设计两种奖励机制:
108+
109+
1. **正确性奖励**:如果模型输出的答案正确(例如"dog"),则奖励 +1。
110+
111+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/e0851ea99efeab58c8765b34467f7904.png)
112+
113+
2. **格式奖励**:如果模型按照固定格式输出(先思考 `<think>`,再回答 `<answer>`),则额外奖励。
114+
115+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/c0eee2e87edbb5ff9ffc2998ad568274.png)
116+
117+
这可鼓励模型在回答前进行推理,而不是盲目给出答案。
118+
119+
## 7 实际应用
120+
121+
VLM目前在某些场景仍表现不佳,如**数学和科学类问题**
122+
123+
如题目正确答案 **2 bpm**,但 GPT-4o 回答错误:
124+
125+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/92e01b8e0f45be1ad0756c0417fc8276.png)
126+
127+
GPT-4o错误回答:
128+
129+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/6580bca0a897483f0d8393aa733a129f.png)
130+
131+
如能让 LLM 在视觉推理方面更强,或许能正确解答。期望的 VRM 结果:
132+
133+
![](https://my-img.javaedge.com.cn/javaedge-blog/2025/03/8cff6b75d4c1a12b38dd6deed31b20ba.png)

0 commit comments

Comments
(0)

AltStyle によって変換されたページ (->オリジナル) /