合肥电子商务网站建设建立网站的用处

张小明 2025/12/30 1:27:54
合肥电子商务网站建设,建立网站的用处,贵州建设学校网站,wordpress 子分类文章以猫的分类为例#xff0c;生动解释了向量数据库的概念与原理。通过将猫的特征转换为多维坐标向量#xff0c;展示了如何利用向量表示和区分不同数据。文章对比了传统数据库与向量数据库在搜索方式、数据存储上的差异#xff0c;详细介绍了向量数据库在人脸识别、图像搜…文章以猫的分类为例生动解释了向量数据库的概念与原理。通过将猫的特征转换为多维坐标向量展示了如何利用向量表示和区分不同数据。文章对比了传统数据库与向量数据库在搜索方式、数据存储上的差异详细介绍了向量数据库在人脸识别、图像搜索、RAG等场景的应用并解析了余弦相似度、欧式距离等相似性搜索算法及其加速计算方法。1、 为什么需要向量数据库1.1 “猫”与向量的关系与衍生这里我们以 猫 引出 词向量再引出 向量数据库 的概念通过这一个小小的演示大家就能快速掌握词向量与向量数据库。平时有养猫或者熟悉猫的小伙伴对于下面这一张猫的品类图很快就能区分出它们的品种之所以能做到这点是因为我们会从不同的角度来观察这些猫的特征如下如果我们使用一个水平轴来表示 体型大小 这个特征这些不同品种的猫将落在不同的坐标点上这样就可以通过体型的大小区分出一些品种如下然而如果仅仅靠体型一个特征依旧会有很多品种的猫特征相近比如 缅英猫、奶牛猫 和 折耳猫 就非常接近所以我们继续添加多一个特征比如毛发的长短继续建立一个毛发的垂直轴这样子就可以区分出更多品种现在每个品种的猫就可以表示为一个二维的坐标点但是哪怕有两个特征仍然会有一些品种无法区分。所以我们需要从更多的角度来观察例如 腿的长短这个时候再建立一个 腿的长短 的 z轴又有更多的品种被区分出来现在每个品种的猫就可以表示为一个三维的坐标点如下如果这个时候还想引入更多的特征进行区分比如眼睛大小、尾巴长短、毛发颜色、声音大小、耳朵形状 等等虽然在坐标图上没法展示出来但是我们却可以很轻松地将这些特征使用数值的方式展示出来例如下方1. 暹罗猫:(0.4,0.3,0.4,0.5,0.3,0.4,0.5,...)2. 英国短毛猫:(0.7,0.2,0.5,0.5,0.5,0.5,0.5,...)3. 缅甸猫:(0.5,0.3,0.4,0.5,0.3,0.4,0.5,...)4. 波斯猫:(0.8,0.8,0.4,0.8,0.7,0.4,0.6,...)5. 布偶猫:(0.7,0.6,0.5,0.8,0.5,0.4,0.5,...)6. 无毛猫:(0.6,0.1,0.4,0.5,0.3,0.4,0.5,...)7. 中华田园猫:(0.5,0.3,0.5,0.5,0.5,0.4,0.5,...)8. 折耳猫:(0.6,0.3,0.4,0.5,0.3,0.4,0.7,...)9. 三花猫:(0.5,0.3,0.5,0.5,0.5,0.5,0.5,...)10. 美国短毛猫:(0.7,0.2,0.5,0.5,0.5,0.5,0.5,...)11. 狮子猫:(0.9,0.7,0.7,0.8,0.7,0.8,0.5,...)12. 奶牛猫:(0.6,0.3,0.5,0.5,0.5,0.4,0.5,...)当记录的特征足够大维度足够大时区分的程度也会越高当看到一只猫只需要将它转换成对应的 多维坐标数据/向量就可以很轻松地找到这只猫的分类归属而且不仅仅是猫几乎所有的事物都可以使用这一套方式进行表达。所以一个字、一个词、一句话、一篇文本、甚至一张图片都可以用这样一个 多维坐标数据亦或者说 向量 记录对应的特征而将文本转换为记录特征的向量就可以被称为词向量。1.2 向量数据库概念与用途向量数据库就是一种专门用于存储和处理向量数据的数据库系统传统的关系型数据库通常不擅长处理向量数据因为它们需要将数据映射为结构化的表格形式而向量数据的维度较高、结构复杂导致传统数据库存储和查询效率低下所以向量数据库应运而生。由于高维的向量我们在三维空间没法绘图这里我们以二维向量的形式扩展到多维来一起看下向量的神通广大之处例如下图在二维坐标上概念上更接近的点在图表上也更聚集而那些概念上不同的点则一般距离比较远。如果将两个点之间作差得到一条新的向量甚至我们可以使用这条 结果向量 来表示两个点之间的关联越短表示关联越大相比传统的数据库向量数据库针对向量距离/相似度计算进行了特定的优化如下所以最常见的应用就是人脸识别将不同的人脸归一化固定大小后生成对应的向量然后将千千万万张人脸的向量进行存储。进行人脸识别时只需要将这张人脸按照统一的标准归一化并转换成向量接下来在向量数据库中搜索与这个向量最接近的向量就可以巧妙实现人脸识别这也是向量数据库的最常使用场景人脸识别、图像搜索、音频识别、智能推荐系统等。而在 RAG 中我们将对应的知识文档按照特定的规则拆分成合适的大小再转换成向量存储到向量数据库中当人类提问时将人类提问 query 转换成向量并进行搜索找到在特征上更接近的文本块这些文本块就可以看成和 query 具有强关联或者说有因果关系。这样就可以将这些 文本块 作为这次提问的额外补充知识让 LLM 基于补充知识提问生成对应的内容从而实现知识库问答.2、 传统数据库与向量数据库2.1 两种数据库差异2.1.1 搜索方式差异传统数据库比如关系型数据库擅长处理结构化数据如存储在表格中的文本和数字等。它们通过预定义的查询语言如SQL来进行精确匹配或条件搜索。这种方式在处理银行交易、客户信息等数据时效果显著但在处理复杂的模式识别问题时就显得力不从心。例如通过 SELECT WHERE 可以精准查询到 id 为 e0d13c78-870b-46df-b2f5-693ae9d5d727 的用户。SELECT * FROM account WHERE ide0d13c78-870b-46df-b2f5-693ae9d5d727但是想通过 SQL 来查询和 我喜欢打篮球游泳与编程 这句话语义相近的内容就无能力为了。相比之下向量数据库不是通过匹配确切的数值而是通过一种称为相似性搜索的方法来工作。它们可以快速找到与查询向量最相似的数据点目前绝大部分向量数据库都支持在 相似性搜索 的基础上添加筛选条件即使这些数据点在数值上并不完全相同。例如在一个向量数据库中即使没有完全相同的照片我们仍然可以找到风格相似的图片。通过这种方式向量数据库打破了传统数据库的局限为处理和分析大规模、复杂的数据提供了更灵活和强大的解决方案。2.1.2 数据处理与存储差异传统数据库采用基于行的存储方式传统数据库将数据存储为行记录每一行包含多个字段并且每个字段都有固定的列。传统数据库通常使用索引来提高查询性能例如下方就是一个典型的传统数据库表格这种方式在处理结构化数据时非常高效但在处理非结构化或半结构化数据时效率低下。向量数据库将数据以列形式存储即每个列都有一个独立的存储空间这使得向量数据库可以更加灵活地处理复杂的数据结构。向量数据库还可以进行列压缩稀疏矩阵以减少存储空间和提高数据的访问速度。并且在向量数据库中将数据表示为高维向量其中每个向量对应于数据点。这些向量之间的距离表示它们之间的相似性。这种方式使得非结构化或半结构化数据的存储和检索变得更加高效。以电影数据库为例我们可以将每部电影表示为一个特征向量。假设我们使用四个特征来描述每部电影动作、冒险、爱情、科幻。每个特征都可以在0到1的范围内进行标准化表示该电影在该特征上的强度。例如电影阿凡达的向量表示可以是[0.9, 0.8, 0.2, 0.9]其中数字分别表示动作、冒险、爱情、科幻的特征强度。其他电影也可以用类似的方式表示。这些向量可以存储在向量数据库中如下所示现在如果我们想要查找与电影阿凡达相似的电影我们可以计算向量之间的距离找到最接近的向量从而实现相似性匹配而无需复杂的SQL查询。这就像使用地图找到两个地点之间的最短路径一样简单。2.1.3 优缺点横向对比尽管向量数据库在处理高维数据和实现快速检索方面有着显著优势但它并不是一种“一刀切”的解决方案。在某些应用场景中其他类型的数据库可能更合适而且向量数据库与传统关系数据库协同发展、相互补充。3、 相似性搜索算法3.1 余弦相似度与欧式距离在向量数据库中支持通过多种方式来计算两个向量的相似度例如余弦相似度、欧式距离、曼哈顿距离、闵可夫斯基距离、汉明距离、Jaccard相似度等多种。其中最常见的就是余弦相似度和欧式距离。例如下图左侧就是 欧式距离右侧就是 余弦相似度① 余弦相似度主要用于衡量向量在方向上的相似性特别适用于文本、图像和高维空间中的向量。它不受向量长度的影响只考虑方向的相似程度余弦相似度的计算公式如下计算两个向量夹角的余弦值取值范围为[-1, 1]② 欧式距离衡量向量之间的直线距离得到的值可能很大最小为 0通常用于低维空间或需要考虑向量各个维度之间差异的情况。欧氏距离较小的向量被认为更相似欧式距离的计算公式如下3.2 相似性搜索加速计算在向量数据库中数据按列进行存储通常会将多个向量组织成一个 M×N 的矩阵其中 M 是向量的维度特征数N 是向量的数量数据库中的条目数这个矩阵可以是稠密或者稀疏的取决于向量的稀疏性和具体的存储优化策略。这样计算相似性搜索时本质上就变成了向量与 M×N 矩阵的每一行进行相似度计算这里可以用到大量成熟的加速算法矩阵分解方法SVD奇异值分解可以通过奇异值分解将原始矩阵转换为更低秩的矩阵表示从而减少计算量。PCA主成分分析类似地可以通过主成分分析将高维矩阵映射到低维空间减少计算复杂度。索引结构和近似算法LSH局部敏感哈希LSH 可以在近似相似度匹配中加速计算特别适用于高维稀疏向量的情况。ANN近似最近邻算法ANN 算法如KD-Tree、Ball-Tree等可以用来加速对最近邻搜索的计算虽然主要用于向量空间但也可以部分应用于相似度计算中。GPU 加速使用图形处理单元GPU进行并行计算可以显著提高相似度计算的速度尤其是对于大规模数据和高维度向量。分布式计算由于行与行之间独立所以可以很便捷地支持分布式计算每行与向量的相似度从而加速整体计算过程。向量数据库底层除了在算法层面上针对相似性搜索做了大量优化在存储结构、索引机制等方面均做了大量的优化这才使得向量数据库在处理高维数据和实现快速相似性搜索上展示出巨大的优势。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

flash网站教程手机上怎么设计logo

快速掌握深蓝词库转换:跨平台输入法迁移完整教程 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 还在为不同设备间的输入习惯不统一而烦恼吗?…

张小明 2025/12/28 2:31:18 网站建设

建设一个游戏网站需要多少钱网站后台和移动开发

关于Linux与Windows集成相关的错误代码及GNU通用公共许可证解读 1. 磁盘错误代码解析 在使用系统过程中,磁盘可能会出现各种错误代码,下面为大家详细介绍常见的磁盘错误代码及其解决办法: | 错误代码 | 错误描述 | 可能原因及解决办法 | | ---- | ---- | ---- | | 0x00…

张小明 2025/12/27 18:34:20 网站建设

php搭建网站教程服务器cpu天梯图

Redux-Offline性能监控完全指南:如何追踪离线应用的运行状态 【免费下载链接】redux-offline Build Offline-First Apps for Web and React Native 项目地址: https://gitcode.com/gh_mirrors/re/redux-offline 在移动应用开发中,网络连接的不稳定…

张小明 2025/12/27 19:05:23 网站建设

塘厦网站建设wordpress.备份

Agent落地常陷入"加法竞赛"误区,过度堆砌信息工具反而导致性能下滑。本文提出"减法艺术"核心逻辑,通过信息精准筛选、工具动态匹配、流程简化优化,结合RAG精准检索、上下文修剪/摘要/卸载六大动作,构建高效轻…

张小明 2025/12/27 21:32:08 网站建设

重庆网站建设公司夹夹虫专业网站源码带手机版

第一章:Agent 工具的 Dify 版本管理概述在构建基于 Agent 的智能应用时,版本管理是确保系统稳定性与可维护性的关键环节。Dify 作为一款支持可视化编排和部署 AI Agent 的平台,提供了完整的版本控制机制,使开发者能够在不同环境间…

张小明 2025/12/27 16:35:03 网站建设

一个专门做预告片的网站建站系统社区

第一章:农业物联网Agent通信延迟的挑战与机遇在现代农业物联网(IoT)系统中,大量分布式Agent(如传感器节点、边缘计算设备和自动化控制器)需实时交换环境数据与控制指令。然而,受限于无线信道质量…

张小明 2025/12/29 21:55:22 网站建设