Spaces:

Shamik
/

ml_research_assistant_and_tutor

Starting

App Files Files Community

hackathon-trial

by shivampandit - opened Jun 10

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+52

-521

Files changed (7) hide show

.python-version +1 -1
README.md +4 -11
app.py +3 -4
pyproject.toml +1 -1
requirements.txt +3 -1
src/agent_hackathon/multiagent.py +36 -38
uv.lock +0 -0

.python-version CHANGED Viewed

	@@ -1 +1 @@
1	- 3.11


1	+ 3.12

README.md CHANGED Viewed

@@ -3,18 +3,11 @@ title: Ml Research Assistant And Tutor
 emoji: 👁
 colorFrom: blue
 colorTo: purple
-sdk: gradio
-sdk_version: 5.33.1
-app_file: app.py
-tags: [agent-demo-track]
-pinned: false
 license: mit
 short_description: Agentic system for ML research and tutoring
-python_version: 3.11.6
-preload_from_hub:
-  - Shamik/arxiv_cs_2020_07_2025 arxiv_docs.db
 ---
-Check out the configuration reference at <https://huggingface.co/docs/hub/spaces-config-reference>
----

 emoji: 👁
 colorFrom: blue
 colorTo: purple
+sdk: docker
+app_port: 7860
+pinned: true
 license: mit
 short_description: Agentic system for ML research and tutoring
 ---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ nest_asyncio.apply()
 logger = get_logger(log_name="multiagent", log_dir=PROJECT_ROOT_DIR / "logs")
 PRIMARY_HEADING = """# ML Topics Deep Research"""
-SECONDARY_HEADING = """### This multi agent framework queries a DB containing arxiv ML research papers from Jan 2020 - Jun 6th 2025 for select categories, and finds events/conferences related to the user's query.
 For more details on the filtered arxiv ds refer [here](https://huggingface.co/datasets/Shamik/arxiv_cs_2020_07_2025)
 """
@@ -67,10 +67,9 @@ with gr.Blocks(fill_height=True) as demo:
     clear = gr.ClearButton(components=[msg, chatbot])
     msg.submit(fn=run, inputs=[msg, api_key, chatbot], outputs=[msg, chatbot])
-    demo.queue(max_size=1).launch(share=False)
-# if __name__ == "__main__":
-#     demo.queue(max_size=1).launch(share=False)
 # example queries

 logger = get_logger(log_name="multiagent", log_dir=PROJECT_ROOT_DIR / "logs")
 PRIMARY_HEADING = """# ML Topics Deep Research"""
+SECONDARY_HEADING = """### This multi agent framework searches the web for relevant events, queries a DB containing arxiv ML research papers from Jan 2020 - Jun 6th 2025 for select categories, finds relevant content across different websites to answer the users query.
 For more details on the filtered arxiv ds refer [here](https://huggingface.co/datasets/Shamik/arxiv_cs_2020_07_2025)
 """
     clear = gr.ClearButton(components=[msg, chatbot])
     msg.submit(fn=run, inputs=[msg, api_key, chatbot], outputs=[msg, chatbot])
+if __name__ == "__main__":
+    demo.queue(max_size=1).launch(share=False)
 # example queries

pyproject.toml CHANGED Viewed

@@ -6,7 +6,7 @@ readme = "README.md"
 authors = [
     { name = "shamik", email = "[email protected]" }
 ]
-requires-python = ">=3.11"
 dependencies = [
     "arxiv>=2.2.0",
     "flagembedding>=1.3.5",

 authors = [
     { name = "shamik", email = "[email protected]" }
 ]
+requires-python = ">=3.12"
 dependencies = [
     "arxiv>=2.2.0",
     "flagembedding>=1.3.5",

requirements.txt CHANGED Viewed

@@ -463,7 +463,9 @@ sentence-transformers==4.1.0
 sentencepiece==0.2.0
     # via flagembedding
 setuptools==80.9.0
-    # via pymilvus
 sgmllib3k==1.0.0
     # via feedparser
 shellingham==1.5.4

 sentencepiece==0.2.0
     # via flagembedding
 setuptools==80.9.0
+    # via
+    #   pymilvus
+    #   torch
 sgmllib3k==1.0.0
     # via feedparser
 shellingham==1.5.4

src/agent_hackathon/multiagent.py CHANGED Viewed

@@ -1,9 +1,7 @@
-# import asyncio
 from datetime import date
-import nest_asyncio
 from llama_index.core.agent.workflow import AgentWorkflow, ReActAgent
-from llama_index.core.tools import FunctionTool
 from llama_index.llms.huggingface_api import HuggingFaceInferenceAPI
 from llama_index.tools.duckduckgo import DuckDuckGoSearchToolSpec
@@ -13,8 +11,6 @@ from src.agent_hackathon.consts import PROJECT_ROOT_DIR
 from src.agent_hackathon.generate_arxiv_responses import ArxivResponseGenerator
 from src.agent_hackathon.logger import get_logger
-nest_asyncio.apply()
 # _ = load_dotenv(dotenv_path=find_dotenv(raise_error_if_not_found=False), override=True)
 logger = get_logger(log_name="multiagent", log_dir=PROJECT_ROOT_DIR / "logs")
@@ -32,32 +28,32 @@ class MultiAgentWorkflow:
             # provider="nebius",
             temperature=0.1,
             top_p=0.95,
             # api_key=os.getenv(key="NEBIUS_API_KEY"),
             # base_url="https://api.studio.nebius.com/v1/",
-            system_prompt="Don't just plan, but execute the plan until failure.",
         )
         self._generator = ArxivResponseGenerator(
             vector_store_path=PROJECT_ROOT_DIR / "db/arxiv_docs.db"
         )
-        self._arxiv_rag_tool = FunctionTool.from_defaults(
-            fn=self._arxiv_rag,
-            name="arxiv_rag",
-            description="Retrieves arxiv research papers.",
-            return_direct=False,
-        )
         self._duckduckgo_search_tool = [
             tool
             for tool in DuckDuckGoSearchToolSpec().to_tool_list()
             if tool.metadata.name == "duckduckgo_full_search"
         ]
-        self._arxiv_agent = ReActAgent(
-            name="arxiv_agent",
-            description="Retrieves information about arxiv research papers",
-            system_prompt="You are arxiv research paper agent, who retrieves information "
-            "about arxiv research papers.",
-            tools=[self._arxiv_rag_tool],
-            llm=self.llm,
-        )
         self._websearch_agent = ReActAgent(
             name="web_search",
             description="Searches the web",
@@ -67,8 +63,8 @@ class MultiAgentWorkflow:
         )
         self._workflow = AgentWorkflow(
-            agents=[self._arxiv_agent, self._websearch_agent],
-            root_agent="arxiv_agent",
             timeout=180,
         )
         # AgentWorkflow.from_tools_or_functions(
@@ -120,27 +116,29 @@ class MultiAgentWorkflow:
         """
         logger.info("Running multi-agent workflow.")
         try:
             user_msg = (
-                f"First, give me arxiv research papers about: {user_query}."
-                f"Then search with web search agent for any events related to : {user_query}.\n"
-                f"The web search results should be relevant to the current year: {date.today().year}."
-                "Return all the content from all the agents."
             )
-            results = await self._workflow.run(user_msg=user_msg)
             logger.info("Workflow run completed successfully.")
-            return results
         except Exception as err:
             logger.error(f"Workflow run failed: {err}")
             raise
-# if __name__ == "__main__":
-#     USER_QUERY = "i want to learn more about nlp"
-#     workflow = MultiAgentWorkflow()
-#     logger.info("Starting workflow for user query.")
-#     try:
-#         result = asyncio.run(workflow.run(user_query=USER_QUERY))
-#         logger.info("Workflow finished. Output below:")
-#         print(result)
-#     except Exception as err:
-#         logger.error(f"Error during workflow execution: {err}")

+import asyncio
 from datetime import date
 from llama_index.core.agent.workflow import AgentWorkflow, ReActAgent
 from llama_index.llms.huggingface_api import HuggingFaceInferenceAPI
 from llama_index.tools.duckduckgo import DuckDuckGoSearchToolSpec
 from src.agent_hackathon.generate_arxiv_responses import ArxivResponseGenerator
 from src.agent_hackathon.logger import get_logger
 # _ = load_dotenv(dotenv_path=find_dotenv(raise_error_if_not_found=False), override=True)
 logger = get_logger(log_name="multiagent", log_dir=PROJECT_ROOT_DIR / "logs")
             # provider="nebius",
             temperature=0.1,
             top_p=0.95,
+            max_tokens=8192,
             # api_key=os.getenv(key="NEBIUS_API_KEY"),
             # base_url="https://api.studio.nebius.com/v1/",
         )
         self._generator = ArxivResponseGenerator(
             vector_store_path=PROJECT_ROOT_DIR / "db/arxiv_docs.db"
         )
+        # self._arxiv_rag_tool = FunctionTool.from_defaults(
+        #     fn=self._arxiv_rag,
+        #     name="arxiv_rag",
+        #     description="Retrieves arxiv research papers.",
+        #     return_direct=True,
+        # )
         self._duckduckgo_search_tool = [
             tool
             for tool in DuckDuckGoSearchToolSpec().to_tool_list()
             if tool.metadata.name == "duckduckgo_full_search"
         ]
+        # self._arxiv_agent = ReActAgent(
+        #     name="arxiv_agent",
+        #     description="Retrieves information about arxiv research papers",
+        #     system_prompt="You are arxiv research paper agent, who retrieves information "
+        #     "about arxiv research papers.",
+        #     tools=[self._arxiv_rag_tool],
+        #     llm=self.llm,
+        # )
         self._websearch_agent = ReActAgent(
             name="web_search",
             description="Searches the web",
         )
         self._workflow = AgentWorkflow(
+            agents=[self._websearch_agent],
+            root_agent="web_search",
             timeout=180,
         )
         # AgentWorkflow.from_tools_or_functions(
         """
         logger.info("Running multi-agent workflow.")
         try:
+            research_papers = self._arxiv_rag(query=user_query)
             user_msg = (
+                f"search with the web search agent to find any relevant events related to: {user_query}.\n"
+                f" The web search results relevant to the current year: {date.today().year}. \n"
+            )
+            web_search_results = await self._workflow.run(user_msg=user_msg)
+            final_res = (
+                research_papers + "\n\n" + web_search_results.response.blocks[0].text
             )
             logger.info("Workflow run completed successfully.")
+            return final_res
         except Exception as err:
             logger.error(f"Workflow run failed: {err}")
             raise
+if __name__ == "__main__":
+    USER_QUERY = "i want to learn more about nlp"
+    workflow = MultiAgentWorkflow()
+    logger.info("Starting workflow for user query.")
+    try:
+        result = asyncio.run(workflow.run(user_query=USER_QUERY))
+        logger.info("Workflow finished. Output below:")
+        print(result)
+    except Exception as err:
+        logger.error(f"Error during workflow execution: {err}")

uv.lock CHANGED Viewed

The diff for this file is too large to render. See raw diff