AI教程 2025年01月15日
0 收藏 0 点赞 492 浏览 2834 个字
摘要 :

面向开发者的LLM入门课程-评估生成回答与标准回答的差距: 评估生成回答与标准回答的差距 在经典的自然语言处理技术中,有一些传统的度量标准用于衡量 LLM 输出与人类专……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“面向开发者的LLM入门课程-评估生成回答与标准回答的差距”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

面向开发者的LLM入门课程-评估生成回答与标准回答的差距

面向开发者的LLM入门课程-评估生成回答与标准回答的差距:

评估生成回答与标准回答的差距

在经典的自然语言处理技术中,有一些传统的度量标准用于衡量 LLM 输出与人类专家编写的输出的相似度。例如,BLUE 分数可用于衡量两段文本的相似程度。

实际上有一种更好的方法,即使用 Prompt。您可以指定 Prompt,使用 Prompt 来比较由 LLM 自动生成的客户服务代理响应与人工理想响应的匹配程度。

”’基于中文Prompt的验证集”’
test_set_ideal = {
‘customer_msg’: “””
告诉我有关 the Smartx Pro 手机 和 FotoSnap DSLR相机, the dslr one 的信息。n另外,你们这
有什么电视 ?”””,
‘ideal_answer’:”””
SmartX Pro手机是一款功能强大的智能手机,拥有6.1英寸显示屏、128GB存储空间、12MP双摄像头和5G网
络支持。价格为899.99美元,保修期为1年。
FotoSnap DSLR相机是一款多功能的单反相机,拥有24.2MP传感器、1080p视频拍摄、3英寸液晶屏和可更
换镜头。价格为599.99美元,保修期为1年。
我们有以下电视可供选择:
1. CineView 4K电视(型号:CV-4K55)- 55英寸显示屏,4K分辨率,支持HDR和智能电视功能。价格为
599.99美元,保修期为2年。
2. CineView 8K电视(型号:CV-8K65)- 65英寸显示屏,8K分辨率,支持HDR和智能电视功能。价格为
2999.99美元,保修期为2年。
3. CineView OLED电视(型号:CV-OLED55)- 55英寸OLED显示屏,4K分辨率,支持HDR和智能电视功
能。价格为1499.99美元,保修期为2年。
“””
}

我们首先在上文中定义了一个验证集,其包括一个用户指令与一个标准回答。

接着我们可以实现一个评估函数,该函数利用 LLM 的理解能力,要求 LLM 评估生成回答与标准回答是否一致。

def eval_vs_ideal(test_set, assistant_answer):
“””
评估回复是否与理想答案匹配
参数:
test_set: 测试集
assistant_answer: 助手的回复
“””
cust_msg = test_set[‘customer_msg’]
ideal = test_set[‘ideal_answer’]
completion = assistant_answer
system_message = “””
您是一位助理,通过将客户服务代理的回答与理想(专家)回答进行比较,评估客户服务代理对用户问题
的回答质量。
请输出一个单独的字母(A 、B、C、D、E),不要包含其他内容。
“””
user_message = f”””
您正在比较一个给定问题的提交答案和专家答案。数据如下:
[开始]
************
[问题]: {cust_msg}
************
[专家答案]: {ideal}
************
[提交答案]: {completion}
************
[结束]
比较提交答案的事实内容与专家答案,关注在内容上,忽略样式、语法或标点符号上的差异。
你的关注核心应该是答案的内容是否正确,内容的细微差异是可以接受的。
提交的答案可能是专家答案的子集、超集,或者与之冲突。确定适用的情况,并通过选择以下选项之一回
答问题:
(A)提交的答案是专家答案的子集,并且与之完全一致。
(B)提交的答案是专家答案的超集,并且与之完全一致。
(C)提交的答案包含与专家答案完全相同的细节。
(D)提交的答案与专家答案存在分歧。
(E)答案存在差异,但从事实的角度来看这些差异并不重要。
选项:ABCDE
“””
messages = [
{‘role’: ‘system’, ‘content’: system_message},
{‘role’: ‘user’, ‘content’: user_message}
]
response = get_completion_from_messages(messages)
return response

这个评分标准来自于 OpenAI 开源评估框架,这是一个非常棒的框架,其中包含了许多评估方法,既有OpenAI 开发人员的贡献,也有更广泛的开源社区的贡献。

在这个评分标准中,我们要求 LLM 针对提交答案与专家答案进行信息内容的比较,并忽略其风格、语法和标点符号等方面的差异,但关键是我们要求它进行比较,并输出从A到E的分数,具体取决于提交的答案是否是专家答案的子集、超集或完全一致,这可能意味着它虚构或编造了一些额外的事实。

LLM 将选择其中最合适的描述。

LLM 生成的回答为:

print(assistant_answer)

关于SmartX Pro手机和FotoSnap DSLR相机的信息:
1. SmartX Pro手机(型号:SX-PP10)是一款功能强大的智能手机,拥有6.1英寸显示屏、128GB存储空间、12MP双摄像头和5G网络支持。价格为899.99美元,保修期为1年。
2. FotoSnap DSLR相机(型号:FS-DSLR200)是一款多功能的单反相机,拥有24.2MP传感器、1080p视频拍摄、3英寸液晶屏和可更换镜头。价格为599.99美元,保修期为1年。

关于电视的信息:
我们有以下电视可供选择:
1. CineView 4K电视(型号:CV-4K55)- 55英寸显示屏,4K分辨率,支持HDR和智能电视功能。价格为599.99美元,保修期为2年。
2. CineView 8K电视(型号:CV-8K65)- 65英寸显示屏,8K分辨率,支持HDR和智能电视功能。价格为2999.99美元,保修期为2年。
3. CineView OLED电视(型号:CV-OLED55)- 55英寸OLED显示屏,4K分辨率,支持HDR和智能电视功能。价格为1499.99美元,保修期为2年。

请问您对以上产品有任何进一步的问题或者需要了解其他产品吗?

eval_vs_ideal(test_set_ideal, assistant_answer)

‘C’

对于该生成回答,GPT 判断生成内容与标准答案一致

assistant_answer_2 = “life is like a box of chocolates” eval_vs_ideal(test_set_ideal, assistant_answer_2)

‘D’

对于明显异常答案,GPT 判断为不一致

希望您从本教程中学到两个设计模式。
1. 即使没有专家提供的理想答案,只要能制定一个评估标准,就可以使用一个 LLM 来评估另一个LLM 的输出。
2. 如果您可以提供一个专家提供的理想答案,那么可以帮助您的 LLM 更好地比较特定助手输出是否与专家提供的理想答案相似。

希望这可以帮助您评估 LLM 系统的输出,以便在开发期间持续监测系统的性能,并使用这些工具不断评估和改进系统的性能。

面向开发者的LLM入门课程-不存在简单的正确答案英文版
面向开发者的LLM入门课程-不存在简单的正确答案英文版:英文版 1.对问答系统提问 import utils_en # 用户消息 customer_msg = f...

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“面向开发者的LLM入门课程-评估生成回答与标准回答的差距”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信扫一扫

支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/2641.html

相关推荐
01-15

面向开发者的LLM入门课程-路由链: 路由链 到目前为止,我们已经学习了大语言模型链和顺序链。但是…

214
01-15

面向开发者的LLM入门课程-顺序链: 顺序链 当只有一个输入和一个输出时,简单顺序链(SimpleSequen…

492
01-15

面向开发者的LLM入门课程-简单顺序链: 简单顺序链 顺序链(SequentialChains)是按预定义顺序执行…

492
01-15

面向开发者的LLM入门课程-大语言模型链: 模型链 链(Chains)通常将大语言模型(LLM)与提示(Pro…

492
01-15

面向开发者的LLM入门课程-对话储存英文版提示: 英文版提示 1.对话缓存储存 from langchain.chains…

492
01-15

面向开发者的LLM入门课程-对话摘要缓存储存: 对话摘要缓存储存 对话摘要缓存储存,使用 LLM 对到…

492
01-15

面向开发者的LLM入门课程-对话字符缓存储存: 对话字符缓存储存 使用对话字符缓存记忆,内存将限制…

492
01-15

面向开发者的LLM入门课程-对话缓存窗口储存: 对话缓存窗口储存 随着对话变得越来越长,所需的内存…

492
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站