如何使用LangChain、RStudio和足够的Python生成人工智能( 二 ) _人工智能

Python新手的关键点：不要将脚本文件的名称与将要加载的Python模块的名称相同!换句话说，虽然该文件不必命名为prep_docs.py，但如果要导入langchain包，就不要将其命名为langchain.py !它们会发生冲突。这在R中并不是问题。
以下是新的prep_docs.py文件的第一部分：
If running from RStudio, remember to first run in R：# library(reticulate)# use_virtualenv("the_virtual_environment_you_set_up")# api_key_py <- r_to_py(Sys.getenv("OPENAI_API_KEY"))from langchain.document_loaders import PyPDFLoadermy_loader = PyPDFLoader('docs/ggplot2.pdf')# print(type (my_loader))all_pages = my_loader.load()# print(type(all_pages)) print( len(all_pages) )这段代码首先导入PDF文档加载器PyPDFLoader 。接下来，它创建PDF加载器类的一个实例。然后，它运行加载器及其load方法，将结果存储在一个名为all_pages的变量中。该对象是一个Python列表。
在这里包含了一些注释行，如果想看到它们，它们将打印对象类型。最后一行打印列表的长度，在本例中是304 。
可以点击RStudio中的source按钮来运行一个完整的Python脚本。或者，突出显示一些代码行并只运行它们，就像使用R脚本一样。Python代码在运行时看起来与R代码略有不同，因为它在R控制台中打开一个Python交互式REPL会话。用户将被指示输入exit或quit(没有括号)以退出并在完成后返回常规R控制台。

文章插图
用户可以使用reticulate的py对象在R中检查all_pages Python对象。下面的R代码将Python all_pages对象存储到一个名为all_pages_in_r的R变量中(用户可以随意调用它) 。然后，可以像处理任何其他R对象一样处理该对象。在本例中，它是一个列表。

all_pages_in_r <- py$all_pages# Examples：all_pages_in_r[[1]]$metadata # See metadata in the first itemnchar(all_pages_in_r[[100]]$page_content) # Count number of characters in the 100th item

LangChain集成
如果用户还没有最喜欢的将PDF转换为可读文本的方法，那么LangChain的PyPDFLoader可以方便地用于其他非人工智能项目。而且，LangChain还有100多种其他文件加载器，包括PowerPoint、word、网页、YouTube、epub、Evernote和Notion等格式。可以在LangChain集成中心中看到一些文件格式和集成文档加载器。
步骤3：将文档拆分为多个部分LangChain有几个转换器可以将文档分解成块，包括按字符、标记和标记头进行拆分。一个推荐的默认值是RecursiveCharacterTextSplitter，它将“递归地尝试按不同的字符进行拆分，以找到一个有效的字符” 。另一个流行的选项是CharacterTextSplitter，它的设计目的是让用户设置其参数。
用户可以设置该拆分器的最大文本块大小，是按字符计数还是按LLM令牌计数(令牌通常是1到4个字符)，以及文本块应该重叠多少。在开始使用LangChain之前，从未考虑过文本块重叠的必要性，但它是有意义的，除非用户可以通过逻辑块(如用标题分隔的章节或节)来分隔。否则，文本可能会在句子中间被拆分，一个重要的信息可能会被分成两个部分，其中任何一个都没有明确的完整含义。
用户还可以选择希望拆分器在分割文本时优先考虑哪些分隔符。CharacterTextSplitter的默认值是首先拆分为两个新行(nn)，然后再拆分一个新行、一个空格，最后完全不使用分隔符。
下面的代码通过使用Python内部的reticulate的R对象，从R api_key_for_py变量导入OpenAI API密钥。它还加载openai Python包和LangChain的递归字符分割器，创建一个RecursiveCharacterTextSplitter类的实例，并在all_pages块上运行该实例的split_documents()方法。

import openaiopenai.api_key = r.api_key_for_py from langchain.text_splitter import RecursiveCharacterTextSplittermy_doc_splitter_recursive = RecursiveCharacterTextSplitter()my_split_docs = my_doc_splitter_recursive.split_documents(all_pages)

同样，用户可以用R代码将这些结果发送给R，例如：
My_split_docs <- py$ My_split_docs是否想知道块中的最大字符数是多少?可以用R中的一个自定义函数来检查这个列表：

get_characters <- function(the_chunk) {x <- nchar(the_chunk$page_content)return(x)}purrr：：map_int(my_split_docs, get_characters) |>max()

这将生成3,985个字符，因此看起来默认的块最大值是4,000个字符。
如果想要更小的文本块，首先尝试CharacterTextSplitter并人工地将chunk_size设置为小于4,000，例如

chunk_size = 1000chunk_overlap = 150from langchain.text_splitter import CharacterTextSplitterc_splitter = CharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap, separator=" ")c_split_docs = c_splitter.split_documents(all_pages)print(len(c_split_docs)) # To see in Python how many chunks there are now
上一页
1
2
3
4
5
下一页
		  	





























推荐阅读

           
                  
              
                  超2亿美元合作 辉瑞/Dewpoint共同开发DM1潜在疗法 
                
                   
                
              
            

                  
              
                  于欢|美女主持人竟变身土味精神小妹？绝对是史上最不正经的女主持人 
                
                   
                
              
            

                  
              
                  男子自曝猥亵女学生，警方：博眼球编造不实言论已行拘 
                
                   
                
              
            

                  
              
                  娱乐圈|娱乐圈的10位“半老徐娘”，长腿美背、旷世容颜，越老越漂亮 
                
                   
                
              
            

                  
              
                  霓虹|竟还乖乖排队让“坏人”量体温，日本警察搜查据点 
                
                   
                
              
            

                  
              
                  |马云、任正非……商界大佬为何扎堆卸任？ 
                
                   
                
              
            

                  
              
                  京东天猫角逐激烈，小象优品、寺库等C位出道，这届618很激烈！ 
                
                   
                
              
            

                  
              
                  男人是在分手后多久，开始后悔的？ 
                
                   
                
              
            

                  
              
                  口腔溃疡的中医药膳治疗方法 
                
                   
                
              
            

                  
              
                  华为亮相北京车展，多合一电驱动系统DriveONE引围观 
                
                   
                
              
            

                  
              
                  漫威里面的组织,漫威里的组织有哪些- 
                
                   
                
              
            

                  
              
                  小孩便秘吃什么药最好 
                
                   
                
              
            

                  
              
                  数字赋能，共创未来——中外人士热情期待世界互联网大会·互联网发展论坛召开 
                
                   
                
              
            

                  
              
                  「」程武兼任阅文CEO后的内部公开信：紧密联动、发展升维 
                
                   
                
              
            

                  
              
                  移动|西安地铁拟禁止使用移动充电物品 引发网友热议 
                
                   
                
              
            

                  
              
                  离骚共计多少字 
                
                   
                
              
            

                  
              
                  窗帘颜色的选择常识介绍 
                
                   
                
              
            

                  
              
                  像向日葵一样|遭到康熙帝嫉妒，死后不得安宁，此人差点代替康熙成为清朝皇帝 
                
                   
                
              
            

                  
              
                  咸阳@当“新冠”遇上“汉坦”看咸阳这家医院如何接招 
                
                   
                
              
            

                  
              
                   没事|澳洲山火令各地干旱，断水小镇居民无奈：“有啤酒就没事” 
                
                   
                
              
            

          

如何收集和准备AI模型的训练数据 

耳机插进电脑检测到了，但是麦克风没声音，应该如何解决？ 

如何补交养老保险在手机上操作 如何补交养老保险 

了解手机定位功能，如何不用对方同意查到对方位置 

新研究警示：过度使用手机会降低大脑认知功能 

鲜花如何保鲜 花泥鲜花如何保鲜 

word能咋的转换为pdf，如何将word转换为PDF 

夹板木材如何选择 夹板一般用什么木头 

如何挑选砧板 如何挑选砧板材质 

电脑上如何打开pdf文件格式