AI教程 2025年01月17日
0 收藏 0 点赞 277 浏览 1549 个字
摘要 :

面向开发者的LLM入门教程-文档加载-PDF文档: 文档加载 用户个人数据可以以多种形式呈现:PDF 文档、视频、网页等。基于 LangChain 提供给 LLM 访问用户个人数据的能力……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“面向开发者的LLM入门教程-文档加载-PDF文档”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

面向开发者的LLM入门教程-文档加载-PDF文档

面向开发者的LLM入门教程-文档加载-PDF文档:

文档加载

用户个人数据可以以多种形式呈现:PDF 文档、视频、网页等。基于 LangChain 提供给 LLM 访问用户个人数据的能力,首先要加载并处理用户的多样化、非结构化个人数据。在本章,我们首先介绍如何加载文档(包括文档、视频、网页等),这是访问个人数据的第一步。

让我们先从 PDF 文档开始。

PDF文档

首先,我们将从以下链接加载一个PDF文档。这是 DataWhale 提供的开源教程,名为《Fantastic Matplotlib》。值得注意的是,在英文版本中,吴恩达教授使用的是他2009年的机器学习课程字幕文件作为示例。为了更适合中文读者,我们选择了上述中文教程作为示例。不过,在英文原版代码中,你仍可以找到吴恩达教授的机器学习课程文件作为参考。后续的代码实践也会遵循这一调整。

注意,要运行以下代码,你需要安装第三方库 pypdf:

!pip install -q pypdf

1.加载PDF文档

首先,我们将利用 PyPDFLoader 来对 PDF 文件进行读取和加载。

from langchain.document_loaders import PyPDFLoader

# 创建一个 PyPDFLoader Class 实例,输入为待加载的pdf文档路径
loader = PyPDFLoader(“docs/matplotlib/第一回:Matplotlib初相识.pdf”)

# 调用 PyPDFLoader Class 的函数 load对pdf文件进行加载
pages = loader.load()

2.探索加载的数据

一旦文档被加载,它会被存储在名为 pages 的变量里。此外, pages 的数据结构是一个 List 类型。为了确认其类型,我们可以借助Python内建的 type 函数来查看 pages 的确切数据类型。

print(type(pages))

通过输出 pages 的长度,我们可以轻松地了解该PDF文件包含的总页数。

print(len(pages))

3

在 page 变量中,每一个元素都代表一个文档,它们的数据类型是 langchain.schema.Document 。

page = pages[0]
print(type(page))

langchain.schema.Document 类型包含两个属性:

1. page_content :包含该文档页面的内容。

print(page.page_content[0:500])

第⼀回:Matplotlib 初相识

⼀、认识matplotlib
Matplotlib 是⼀个 Python 2D 绘图库,能够以多种硬拷⻉格式和跨平台的交互式环境⽣成出版物质量的图形,⽤来绘制各种静态,动态,交互式的图表。
Matplotlib 可⽤于 Python 脚本, Python 和 IPython Shell 、 Jupyter notebook , Web应⽤程序服务器和各种图形⽤户界⾯⼯具包等。
Matplotlib 是 Python 数据可视化库中的泰⽃,它已经成为 python 中公认的数据可视化⼯具,我们所熟知的 pandas 和 seaborn 的绘图接⼝其实也是基于 matplotlib 所作的⾼级封装。

为了对matplotlib 有更好的理解,让我们从⼀些最基本的概念开始认识它,再逐渐过渡到⼀些⾼级技巧中。

⼆、⼀个最简单的绘图例⼦
Matplotlib 的图像是画在 figure (如 windows , jupyter 窗体)上的,每⼀个 figure ⼜包含了⼀个或多个 axes (⼀个可以指定坐标系的⼦区域)。最简单的创建 figure

2. meta_data :为文档页面相关的描述性数据。

print(page.metadata)

{‘source’: ‘docs/matplotlib/第一回:Matplotlib初相识.pdf’, ‘page’: 0}

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“面向开发者的LLM入门教程-文档加载-PDF文档”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信扫一扫

支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/2757.html

下一篇:

已经没有下一篇了!

相关推荐
01-17

面向开发者的LLM入门教程-文档加载-PDF文档: 文档加载 用户个人数据可以以多种形式呈现:PDF 文档…

277
01-16

面向开发者的LLM入门教程-使用LangChain访问个人数据: 在大数据时代,数据的价值越来越重要。想要…

277
01-16

面向开发者的LLM入门课程-代理英文版(3): 3. 定义自己的工具并在代理中使用 # 导入tool函数装饰…

277
01-16

面向开发者的LLM入门课程-代理英文版(2): 2. 使用LangChain内置工具PythonREPLTool from langch…

277
01-16

面向开发者的LLM入门课程-代理英文版(1): 1. 使用LangChain内置工具llm-math和wikipedia from l…

277
01-16

面向开发者的LLM入门课程-定义工具在代理中使用: 定义自己的工具并在代理中使用 在本节,我们将创…

277
01-16

面向开发者的LLM入门课程-内置工具PythonREPLTool: 使用LangChain内置工具PythonREPLTool 我们创…

277
01-16

面向开发者的LLM入门课程-llm-math和wikipedia: 代理 大型语言模型(LLMs)非常强大,但它们缺乏“…

277
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站