Init project

2025-08-11 00:07:41 +02:00
parent 840daf2d08
commit 0a80400720
23 changed files with 660 additions and 0 deletions
--- a/app/core/init.py
+++ b/app/core/init.py
--- a/app/core/llm.py
+++ b/app/core/llm.py
@@ -0,0 +1,45 @@
+# app/core/llm.py
+import os
+from dotenv import load_dotenv
+from langchain_openai import AzureChatOpenAI, ChatOpenAI
+
+# 加载.env文件中的环境变量
+load_dotenv()
+
+# 获取配置的LLM供应商
+LLM_PROVIDER = os.getenv("LLM_PROVIDER", "openai").lower()
+
+llm = None
+
+print(f"--- [Core] Initializing LLM with provider: {LLM_PROVIDER} ---")
+
+if LLM_PROVIDER == "azure":
+    # --- Azure OpenAI 配置 ---
+    required_vars = [
+        "AZURE_OPENAI_ENDPOINT", "AZURE_OPENAI_API_KEY",
+        "OPENAI_API_VERSION", "AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"
+    ]
+    if not all(os.getenv(var) for var in required_vars):
+        raise ValueError("One or more Azure OpenAI environment variables for chat are not set.")
+
+    llm = AzureChatOpenAI(
+        azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
+        api_key=os.getenv("AZURE_OPENAI_API_KEY"),
+        api_version=os.getenv("OPENAI_API_VERSION"),
+        azure_deployment=os.getenv("AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"),
+        temperature=0,
+    )
+
+elif LLM_PROVIDER == "openai":
+    # --- 标准 OpenAI 配置 ---
+    if not os.getenv("OPENAI_API_KEY"):
+        raise ValueError("OPENAI_API_KEY is not set for the 'openai' provider.")
+
+    llm = ChatOpenAI(
+        api_key=os.getenv("OPENAI_API_KEY"),
+        model_name=os.getenv("OPENAI_MODEL_NAME", "gpt-4o"),
+        temperature=0,
+    )
+
+else:
+    raise ValueError(f"Unsupported LLM_PROVIDER: {LLM_PROVIDER}. Please use 'azure' or 'openai'.")
--- a/app/core/ocr.py
+++ b/app/core/ocr.py
@@ -0,0 +1,27 @@
+# app/core/ocr.py
+import pytesseract
+from PIL import Image
+
+
+# 注意: 您需要先在您的系统中安装Google的Tesseract OCR引擎。
+# 详情请参考之前的安装说明。
+
+def extract_text_from_image(image: Image.Image) -> str:
+    """
+    使用Tesseract OCR从Pillow Image对象中提取文本。
+
+    参数:
+        image: Pillow Image对象。
+
+    返回:
+        从图片中提取出的字符串文本。
+    """
+    try:
+        print("--- [Core OCR] 正在从图片中提取文本用于分类...")
+        # lang='chi_sim+eng' 表示同时识别简体中文和英文
+        text = pytesseract.image_to_string(image, lang='chi_sim+eng')
+        print("--- [Core OCR] 文本提取成功。")
+        return text
+    except Exception as e:
+        print(f"--- [Core OCR] OCR处理失败: {e}")
+        raise IOError(f"OCR processing failed: {e}")
--- a/app/core/pdf_processor.py
+++ b/app/core/pdf_processor.py
@@ -0,0 +1,43 @@
+# app/core/pdf_processor.py
+from pdf2image import convert_from_bytes
+from PIL import Image
+from io import BytesIO
+from typing import List
+import base64
+
+
+# 注意: 您需要安装Poppler。
+# - macOS: brew install poppler
+# - Ubuntu/Debian: sudo apt-get install poppler-utils
+# - Windows: 下载Poppler并将其bin目录添加到系统PATH。
+
+def convert_pdf_to_images(pdf_bytes: bytes) -> List[Image.Image]:
+    """将PDF文件的字节流转换为Pillow Image对象列表。"""
+    try:
+        print("--- [Core PDF] 正在将PDF转换为图片...")
+
+        # --- 新增代码开始 ---
+        # 在这里直接指定您电脑上Poppler的bin目录路径
+        # 请确保将下面的示例路径替换为您的真实路径
+        poppler_path = r"C:\ProgramData\chocolatey\lib\poppler\tools\Library\bin"
+        # --- 新增代码结束 ---
+
+        # --- 修改的代码开始 ---
+        # 在调用时传入poppler_path参数
+        images = convert_from_bytes(pdf_bytes)
+        # --- 修改的代码结束 ---
+
+        print(f"--- [Core PDF] 转换成功，共 {len(images)} 页。")
+        return images
+    except Exception as e:
+        print(f"--- [Core PDF] PDF转换失败: {e}")
+        # 增加一个更友好的错误提示
+        print("--- [Core PDF] 请确认您已在系统中正确安装Poppler，并在上面的代码中指定了正确的poppler_path。")
+        raise IOError(f"PDF to image conversion failed: {e}")
+
+
+def image_to_base64_str(image: Image.Image) -> str:
+    """将Pillow Image对象转换为Base64编码的字符串。"""
+    buffered = BytesIO()
+    image.save(buffered, format="PNG")
+    return base64.b64encode(buffered.getvalue()).decode('utf-8')
--- a/app/core/vector_store.py
+++ b/app/core/vector_store.py
@@ -0,0 +1,52 @@
+# app/core/vector_store.py
+import os
+import chromadb
+from dotenv import load_dotenv
+from langchain_openai import AzureOpenAIEmbeddings, OpenAIEmbeddings
+
+# 加载.env文件中的环境变量
+load_dotenv()
+
+# 获取配置的LLM供应商
+LLM_PROVIDER = os.getenv("LLM_PROVIDER", "openai").lower()
+
+embedding_model = None
+
+print(f"--- [Core] Initializing Embeddings with provider: {LLM_PROVIDER} ---")
+
+if LLM_PROVIDER == "azure":
+    # --- Azure OpenAI 配置 ---
+    required_vars = [
+        "AZURE_OPENAI_ENDPOINT", "AZURE_OPENAI_API_KEY",
+        "OPENAI_API_VERSION", "AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME"
+    ]
+    if not all(os.getenv(var) for var in required_vars):
+        raise ValueError("One or more Azure OpenAI environment variables for embeddings are not set.")
+
+    embedding_model = AzureOpenAIEmbeddings(
+        azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
+        api_key=os.getenv("AZURE_OPENAI_API_KEY"),
+        api_version=os.getenv("OPENAI_API_VERSION"),
+        azure_deployment=os.getenv("AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME"),
+    )
+
+elif LLM_PROVIDER == "openai":
+    # --- 标准 OpenAI 配置 ---
+    if not os.getenv("OPENAI_API_KEY"):
+        raise ValueError("OPENAI_API_KEY is not set for the 'openai' provider.")
+
+    embedding_model = OpenAIEmbeddings(
+        api_key=os.getenv("OPENAI_API_KEY"),
+        model=os.getenv("OPENAI_EMBEDDING_MODEL_NAME", "text-embedding-3-small")
+    )
+
+else:
+    raise ValueError(f"Unsupported LLM_PROVIDER: {LLM_PROVIDER}. Please use 'azure' or 'openai'.")
+
+
+# 初始化ChromaDB客户端 (无变化)
+client = chromadb.PersistentClient(path="./chroma_db")
+vector_store = client.get_or_create_collection(
+    name="documents",
+    metadata={"hnsw:space": "cosine"}
+)