开发者

面向开发者的LLM入门教程-文档加载-网页文档

小智 AI教程 2025年01月17日

0 收藏 0 点赞 450 浏览 2644 个字

摘要 :

面向开发者的LLM入门教程-文档加载-网页文档：网页文档在第二部分，我们对于给定的 YouTube 视频链接 (URL)，使用 LangChain 加载器将视频的音频下载到本地，然后使用……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“面向开发者的LLM入门教程-文档加载-网页文档”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

面向开发者的LLM入门教程-文档加载-网页文档：

网页文档

在第二部分，我们对于给定的 YouTube 视频链接 (URL)，使用 LangChain 加载器将视频的音频下载到本地，然后使用 OpenAIWhisperPaser 解析器将音频转化为文本。

本部分，我们将研究如何处理网页链接（URLs）。为此，我们会以 GitHub 上的一个markdown格式文档为例，学习如何对其进行加载。

1.加载网页文档

首先，我们将构建一个 WebBaseLoader 实例来对网页进行加载。

from langchain.document_loaders import WebBaseLoader

# 创建一个 WebBaseLoader Class 实例
url = “https://github.com/datawhalechina/d2l-ai-solutionsmanual/blob/master/docs/README.md”
header = {‘User-Agent’: ‘python-requests/2.27.1’,
‘Accept-Encoding’: ‘gzip, deflate, br’,
‘Accept’: ‘*/*’,
‘Connection’: ‘keep-alive’}
loader = WebBaseLoader(web_path=url,header_template=header)

# 调用 WebBaseLoader Class 的函数 load对文件进行加载
pages = loader.load()

2.探索加载的数据

同理我们通过上文代码可以展示加载数据：

print(“Type of pages: “, type(pages))
print(“Length of pages: “, len(pages))

page = pages[0]
print(“Type of page: “, type(page))
print(“Page_content: “, page.page_content[:500])
print(“Meta Data: “, page.metadata)

Type of pages:
Length of pages: 1
Type of page:
Page_content: {“payload”:{“allShortcutsEnabled”:false,”fileTree”:{“docs”:
{“items”:[{“name”:”ch02″,”path”:”docs/ch02″,”contentType”:”directory”},
{“name”:”ch03″,”path”:”docs/ch03″,”contentType”:”directory”},
{“name”:”ch05″,”path”:”docs/ch05″,”contentType”:”directory”},
{“name”:”ch06″,”path”:”docs/ch06″,”contentType”:”directory”},
{“name”:”ch08″,”path”:”docs/ch08″,”contentType”:”directory”},
{“name”:”ch09″,”path”:”docs/ch09″,”contentType”:”directory”},
{“name”:”ch10″,”path”:”docs/ch10″,”contentType”:”directory”},{“na
Meta Data: {‘source’: ‘https://github.com/datawhalechina/d2l-ai-solutionsmanual/blob/master/docs/README.md’}

可以看到上面的文档内容包含许多冗余的信息。通常来讲，我们需要进行对这种数据进行进一步处理(Post Processing)。

import json
convert_to_json = json.loads(page.page_content)
extracted_markdow = convert_to_json[‘payload’][‘blob’][‘richText’]
print(extracted_markdow)

动手学深度学习习题解答 {docsify-ignore-all}
李沐老师的《动手学深度学习》是入门深度学习的经典书籍，这本书基于深度学习框架来介绍深度学习，书
中代码可以做到“所学即所用”。对于一般的初学者来说想要把书中课后习题部分独立解答还是比较困难。本项
目对《动手学深度学习》习题部分进行解答，作为该书的习题手册，帮助初学者快速理解书中内容。
使用说明
动手学深度学习习题解答，主要完成了该书的所有习题，并提供代码和运行之后的截图，里面的内容是以深
度学习的内容为前置知识，该习题解答的最佳使用方法是以李沐老师的《动手学深度学习》为主线，并尝试完成
课后习题，如果遇到不会的，再来查阅习题解答。
如果觉得解答不详细，可以点击这里提交你希望补充推导或者习题编号，我们看到后会尽快进行补充。
选用的《动手学深度学习》版本
书名：动手学深度学习（PyTorch版）
著者：阿斯顿·张、[美]扎卡里 C. 立顿、李沐、[德]亚历山大·J.斯莫拉
译者：何孝霆、瑞潮儿·胡
出版社：人民邮电出版社
版次：2023年2月第1版

项目结构
codes———————————————-习题代码
docs———————————————–习题解答
notebook——————————————-习题解答JupyterNotebook格式
requirements.txt———————————–运行环境依赖包

关注我们
扫描下方二维码关注公众号：Datawhale
Datawhale，一个专注于AI领域的学习圈子。初衷是for the learner，和学习者一起成长。目前加
入学习社群的人数已经数千人，组织了机器学习，深度学习，数据分析，数据挖掘，爬虫，编程，统计学，
Mysql，数据竞赛等多个领域的内容学习，微信搜索公众号Datawhale可以加入我们。
LICENSE
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

面向开发者的LLM入门教程-文档加载-Notion文档

面向开发者的LLM入门教程-文档加载-Notion文档：Notion文档 · 点击Notion示例文档(https://yolospace.notion.site/Blendle-s-Employe...

查看文章

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“面向开发者的LLM入门教程-文档加载-网页文档”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫