DS検定的最后冲刺_术语总结
距离考试只剩下几天了,加油最后冲刺!!
对于这篇文章
我正在整理关于作者不理解的术语的解释。
这次我参考了DS考试准备课程的材料和官方文本来进行整理,如果有错误的地方,还请您在评论栏中指出出处和错误之处,不胜感激。
公式教材《最短路径 数据科学家认证(读写能力级别)官方参考书》[菅由纪子]
讲座文稿、模拟考试内容 zuò , mó nǐ shì
请你翻译以下内容:只需要给一个中文的翻译选项。
1. “Can you please help me with this task?”
伯努利分布
「成功、失敗」「表、裏」などの2種類の結果しか得られない試行の結果は、0と1で表された確率分布であり、コインの表裏などの確率を計算することができます。このような試行結果が2通りしかない試行をベルヌーイ試行と呼びます。
伯努利分布和二项分布都是离散概率分布,用于描述变量取离散值的情况。
二项分布
这个概率分布表示了在进行了互相独立的n次贝努利试验后,“硬币正面朝上”这个事件发生x次的概率。具体而言,可以计算出在抛掷n次硬币时正面朝上x次的概率。据已知,通过增加贝努利试验的次数n,可以接近正态分布。
假设进行了n次试验,成功了k次,
每次试验的成功概率为p,
nCk表示了在n次试验中成功k次的方法数,
以下是二项分布的概率密度函数表达式。
P(X =k) = nCk * (P ^(k)) *(1-p)^(n-k)
使用二项分布的例子是:假设掷一枚有偷梁换柱现象的硬币,正面朝上的概率为80%。如果掷10次硬币,其中出现5次正面的概率是多少?
正态分布
公式p30
由下列表达式定义的连续型概率分布
由于正态分布以其均值为中心具有左右对称性,在理论上易于处理,因此在许多场景中被广泛使用。
九
数据管道
建立数据管道可以提高数据处理的效率。
数据工程师
这个职业涉及到对大规模数据的整理、管理和运营。
数据挖掘
通过分析累积的数据,找出具有商业价值的法则。
这是利用统计等分析方法从庞大的数据中找到有益信息的技术领域。
数据集 jí)
这是关于数据的组织的问题。
十
API (应用程序接口)
API(应用程序编程接口)是用于连接程序之间的机制。
有时候也指提供的符合这种机制的服务。
这就是所谓的API服务。
利用现有的API服务的优点是可以减少应用程序开发的过程和成本。缺点是,使用的API服务可能会出现服务器故障等问题,可能会影响到自己的服务和应用程序。此外,由于使用的API服务的变更或者停止提供等原因,可能会对自己的服务提供造成困扰。
以下是对上述句子的汉语本地化的一种选择:
优点:
通过使用现有的API服务,可以减少应用开发的流程和成本。
API服务的例子包括邮编搜索、天气预报和登录认证。
API服务不仅有收费的,也有免费的。
请查看:
十一
第134个公式
数据传输方法(技术)
第二章讲座,第30页
SSH可以在网络上安全地远程连接和管理计算机。
安全壳(Secure Shell,SSH)是一种利用密码和认证技术安全地与远程计算机通信的协议。它能够加密网络上所有包括密码认证在内的通信。
参考:
https://ja.wikipedia.org/wiki/Secure_Shell
请查阅以上链接。
协议(protocol)
协议是指计算机上确定数据交换的手续或规定,电信号的电气规则,以及通信中发送和接收的步骤的规范。即使在不同制造商的软件和硬件之间,通过遵循共同的协议,可以实现正确的通信。
根据不同的目的,有各种各样的协议。作为常见的例子,TCP/IP用于互联网连接,HTTP用于Web浏览,POP和SMTP用于电子邮件的发送和接收。其中,末尾的“P”代表Protocol(协议)的缩写。
参考链接:https://www.keyence.co.jp/ss/general/iot-glossary/protocol.jsp
请提供以下内容的中文翻译(只需要提供一个选项):
Telenet(通信协议)
通过网络进行通信时的规定被称为通信协议。在操作远程服务器等时,使用的是通信协议。
文件传输协议 (FTP)
不同的数据传输技术的基础是文件传输协议 (FTP)。被用于文件传输的技术被称为文件传输协议。FTP是最古老的数据传输技术之一,它以文件的形式处理和传输数据。然而,它的缺点是通信未加密。
SCP(安全复制协议)
SCP是文件传输协议之一。SCP通过称为SSH(SecureShell)的协议加密网络,使得包括密码认证在内的所有网络通信都被加密。在SCP中,如果传输被中断,则无法从中途重新开始。SCP是通过SSH(Secure Shell)安全地进行文件传输的协议,所有网络通信包括密码等认证部分都被加密。
超文本传输协议(HTTP)
HTTP 是用于在 Web 服务器和客户端之间进行通信的协议,用于传输 HTML 中的文本等内容。通信不会进行加密,这是它的缺点之一。
超文本传输安全协议(HTTPS)
・通信被加密的HTTP
可以防止监听、篡改和冒充的通信协议
在GSC(Google Cloud Storage)的API中,数据通过HTTPS进行传输
安全文件传输协议
在中国,有一个文件传输协议。
SFTP通过SSH进行加密通信,而SCP则不同,即使在传输过程中中断,也可以从中间位置恢复传输。
十二
ER 图
第136页的公式
构成数据库ER图的要素包括实体、关系、属性和基数。
实体是表示数据集合的概念。
关系表示实体之间的联系。
属性是指实体内部的特性。
基数表示关系的关系,如“一对一”,“一对多”,“多对多”。也称为多重度。
记录是指数据库表中的行。
通过使用实体关系图,可以整理角表的关系并以一种易于理解的方式查看,使得非数据库设计者也能更容易地理解设计内容。
十八
典型的的带有教师的学习方法
第五章,第78页。
返回
输出适当的连续值给定某个输入数据
线性回归、决策树、随机森林、Adaboost、k最近邻法、神经网络。
分类
对于给定的输入数据,输出适当的类别(正面、反面等)。
支持向量机、逻辑回归、决策树、随机森林、自适应增强、k最近邻法、神经网络
十九
第五章,第50页。
正式的,第59页。
分类的误差函数(损失函数)
MSE、MAE、MSLE是用于回归模型的误差函数。这三个值经常与分析结果一起呈现。
均方误差(MSE)
预测和实际之间的差异的平均平方 预测和实际的差异的平均平方 Chinese
RMSE(Root Mean Square Error)
均方根误差(RMSE)= 平均平方根差(MSE)的平方根
平均绝对误差(MAE)
在预测与实际之间的绝对平均差方面具有很好的解释性,具有不容易受到离群值影响的特点。
均方对数误差(MSLE)
即使在正解值的分布很大的情况下,它仍然具有适当评估误差的特点。
交叉熵误差
又被称为交叉熵误差,用于分类模型的请翻。
二十三
对于时间序列数据进行处理的描述
时序分析
第五章 第122页
公式第116页
原系列的意思是指特定的一组事物或概念的最初版本或起源。
观测到的数据
当计算原始序列的移动平均时,将得到移动平均序列。将序列转化为移动平均序列后,局部波动减少,更容易捕捉到长期趋势。
对于原始数据序列,执行快速傅里叶变换即可获得频率谱。
通过观察频率谱,可以确认原始数据序列的周期性。
・將原始數據轉換為移動平均數列,可以確認長期趨勢。
・將原始數據轉換為差分數列,可以消除長期趨勢。
⇨ 可以了解到上升趨勢或下降趨勢以及(最近的狀況)趨勢。
通过将每分钟数据的原始序列按照每小时平均,可以获得每小时的数据。
请考虑以下信息:
降低采样
通过将每分钟的原始数据取平均,可以得到每小时的数据。将时间间隔扩大的这种操作称为下采样。
时间序列分析
为了捕捉某一现象的时间变动,需要进行时序数据分析。
通过捕捉变动,可以预测未来的变动。
時序数据的特征
噪音
・在分析过程中不必要的信息
・通常被观测到作为低频成分
定期发生的
某個趨勢會以固定的時間間隔重複出現
趋势 (qū shì)
・对于长期的时间序列数据的长期变化
・通过计算移动平均值,通常可以提取出趋势成分
平均移动
・平滑化时间序列数据的方法
・对时间序列数据进行区间移动平均
・移动平均的类型
– 简单移动平均
– 指数平滑移动平均
二十四
Chapter 5, page 137
Formula, page 118
分析句子结构
构建某种语法结构的技术
依存句法分析
这项技术用于推断一句话中单词之间的依存关系结构,并且属于句法分析的范畴内。
将句子分成短语并对每个短语的关系进行研究。
解析照顾
推测指代技术是用来确定代词等表达的目标的一种技术。
语义关系分析
判断两个句子之间是否存在隐含关系的技术。
词素分析
将句子划分为词素(单词),并判断每个词素的属性(词性等)。
词法单元
有意义的最小单位
代表性的工具 de
MeCab的意思是什么?
・最常见的词素分析工具
・不依赖于特定语言或词典的通用设计
贾曼++
与MeCab相比,我们使用更细致的意义分类(考虑了相同单词的不同含义)。
虽然处理时间较长,但准确度更高(能更精确地进行形态素分解)。
Sudachi可以通过以下方式进行表述:
・设计易于专业外人使用
二十四
在自然语言处理中,代表性的任务包括机器翻译、文本摘要、问答和对话等。
在不使用深度学习的自然语言处理中,通常将这些任务分解为子问题来解决。
句法分析是其中一个子问题,是构建一句话的语法结构的技术。
依存句法分析是句法分析的一部分。
自然语言处理中还使用了其他技术,比如词法分析。
对于一句话,进行词法分析后,它将被分割成单词,并为每个单词标注词性。
二十五
任务 wù)
在机器学习领域,问题设置是指机器学习模型所针对的特定任务,被称为”任务”。例如股票预测、图像识别、图像物体检测、文本分类、机器翻译。
物体的普通认知
一般物体识别是研究领域中让计算机识别和区分图像中物体名称和类型的技术。在一般物体识别的领域中,涉及到以下主要任务。
图像分类
输出图片上所拍到的物体的类别。
物体检测
输出图像中所显示物体的类型和包围该物体的矩形。
例如,对输入的照片进行处理,通过预先定义的类别,如人、汽车、树木等,以矩形区域确定物体。
语义分割
输出每个像素属于哪个物体类的图像。
只活一次
这是用于目标检测的方法名称,而不是指代任务的词汇。
二十七
第五章第141页
公式119页
图像格式
“将以下内容翻译成汉语:PNG”
・支持全彩色(1677万种颜色)
・无论保存多少次,图像质量不会降低
JPG(JPEG)的縮寫是什麼?
・支持全彩色(1,677万种颜色)
・通过删除无法肉眼识别的信息来缩小文件大小
・每次保存都会降低图像质量
GIF
・只能表达256种颜色
・文件尺寸非常小
・可以制作类似翻页漫画的动画
位图
・这是关于Windows中常见的图像保存格式。
・支持全彩色(一千六百七十七万种颜色)。
・生成的文件基本上是无压缩的,因此没有画质损害。
・无压缩导致数据容量巨大,这也是一个困扰。
BMP是Windows中一种标准的图像保存格式,也被称为位图格式。
与JPEG和PNG等压缩保存文件格式不同,BMP基本上以无压缩方式生成文件,因此不会损失画质。但无压缩导致数据容量巨大也是其难点。另外,可以通过减少色彩数量并进行压缩保存。可以设置从单色的黑白二值图到16色、256色、1677万7216色(全彩色)。
请阅读以下内容。
TIFF可以进行本地化的中文释义 :
标记图像文件格式
TIFF是标签图像文件格式(Tagged Image File Format)的缩写,是电子文件和电子化文件的一种文件格式,支持黑白,灰度和各种颜色格式。TIFF的特点如下:
– 扩展名为“.tif”和“.tiff”
– 支持1至8,12,24,32位色彩
– 压缩率并不高,但具有可逆压缩的特点
– 通过将数据数组等数据记录在称为标签的部分中,同一个TIFF文件中可能存在不同的格式
– 压缩方法包括LZW、G3 Fax、G4 Fax等,支持多页面处理。
Please refer to:
视频格式
第五章的第146页
将音频数据添加到图像数据集合中的数据
处理视频数据时需要进行图像处理和音频处理
视频数据的存储格式包括MP4、AVI、MOV、FIV等。
MP4格式
・在许多视频平台上可播放
・适合压缩大容量视频
AVI (Audio Video Interleave)
适合在Windows上进行视频编辑和播放。
電影
适合在Mac上进行视频编辑和播放的
FLV -> Flash视频文件格式
・这个也被用在YouTube和Niconico动画等平台上。
FLV 是以 Flash Video 文件格式创建的视频文件的扩展名。FLV 主要是以 Flash Player 为媒介进行处理的格式,可以通过 Web 浏览器轻松播放。它是 YouTube、Google Video、Niconico 动画、Ustream 等视频分享服务中使用的主要视频文件格式,广为人知作为在互联网上传播的动画文件格式。
Adobe Flash 包含一个名为 “Flash Video Encoder” 的工具,可以将制作的 Flash 视频编码为 FLV 文件,方便地创建 FLV 文件。
Reference:
请帮助我们填写一份问卷调查,以便我们了解顾客对我们产品的意见和建议。
音乐格式 yuè gé shì)
公式一二三
音声数据是指声音是空气振动的波。声音具有振幅(大小)和频率(高低)。这是一种模拟信号(连续符号)。
WAV 可选项
保存所有数据的方法是以WAV格式。由于使用麦克风获取并转换信息后直接保存,所以虽然音质高,但数据容量较大。这是Windows系统所使用的音频文件格式,由于非压缩,所以数据大小较大。
MP3 台式音频设备
为了克服WAV格式数据量大的弱点,MP3格式是基于人类可听范围进行开发的。
通过去除人耳听不到的音频信息,可以用较少的数据量进行存储。
– 数据大小约为原音的十分之一
– CD级别的音质
– 可以附带专辑封面照片和歌词。
AAC
AAC (Advanced Audio Coding) is a standardized audio compression format that offers high-quality sound while maintaining a smaller file size. AAC 是一种标准化的音频压缩格式,可以在保持较小文件大小的同时提供高质量的声音。
・尽管与 MP3 相比,文件大小稍大,但音质却很好。
AIFF(Audio Interchange File Format)
・AIFF是在Apple的Macintosh上作为标准音频文件格式使用的扩展名。
AIFF是一种容器格式。通常被视为非压缩的线性PCM采样数据的格式,但也可以记录压缩音频。如果使用了非可逆压缩,则文件扩展名将变为.aifc(源自英语中的AIFF-Compression)。
请看以下内容作为参考。
Reference:
请参考以下内容。
三十四
统计假设研究- de ——————————————— (统计的假设考察)
帰无假设:没有差异的假设
对立假设:存在差异的假设
假设零假设正确,并假设发生了很少发生的事件(即检验统计量进入拒绝域),则拒绝零假设。
很少发生的事情有时候会发生。
在假设检验中,存在两种可能的错误。
第一种错误
虽然原假设是正确的,却将其否定了。
第二种错误
尽管对立假设是正确的,却选择采纳了零假设。
第一种和第二种错误的区别。
四十六
数据规模
48
第二章第五页
数据存储(在硬盘或固态硬盘上管理数据的机制)
一个典型的数据存储实现示例
数据库 (databases)
・关系数据库(RDB)
・非关系数据库(NoSQL数据库)
关系数据库(RDB)
在创建关系数据库的表时,需要为每个列设置数据类型。
表是用行和列构成的表格形式的数据库。
表是在行和列中包含元素的类似Excel表格的结构。
整数(数值)
数字(包括小数)
字符(长度固定的字符串)
VERCHAR(可变长度的字符串)
日期
时间戳(日期和时间)
布尔值
四十九
第二章第26页
数据基础架构
数据湖
将收集到的数据原封不动地存储起来的地方(原始数据)
将每个存储设备的原始数据整合到一个地方的存储环境
通常而言,基于与数据结构无关的存储系统构建
数据仓库
一个方便分析的数据整理地点
· 蓄积聚合和加工数据的环境
· 蓄积的数据可用于分析等用途
· 数据仓库与SQL、Python等的协作是理想的
数据仓库
用于存储特定目的数据的地方
– 从数据仓库中提取适用数据并存储的环境
– 可以根据部门设置存储设备,实现数据取得负载均衡
为了上传数据或将数据移动到不同的数据存储系统,需要使用数据传输技术。
数据的流动
服务→(传输数据)→
⇨服务数据库→(传输数据)→
⇨数据湖(原始数据)→(处理数据)→
⇨数据仓库→(提取数据)→
⇨数据集市→(传输数据)→
⇨分析团队
五十
第145个公式
正则表达式
正規表現是一种表示字符集合的方法,使用一个字符串来表示。也被称为正則表达式,在形式语言理论领域中通常使用这个翻译。有时也被称为正规式。
请查阅:
当我们需要确定是否包含特定模式的字符串,或者需要提取其中的内容时,可以使用正则表达式来设置搜索和提取条件。
它在以下情况下被使用:
“确定输入的地址格式是否正确”
“是否可以找到包含自己公司产品代码A00-A99的列,用于销售历史文本数据”
例:
请用中文将以下内容进行改写,只需提供一种翻译选项:
– The cat is sleeping on the mat.
猫正在垫子上睡觉。
A00-A99这个字符串可以用正则表达式表示为A[0-9]{2}。
可以使用正则表达式来筛选、清洗和验证数据。
经典的正则表达式
\d:除了任何数字以外
任何数字以外
^:字符串的开头
$:字符串的结尾
{m}:重复m次
{m,n}:重复m~n次
这可能因语言而有所不同。
请查阅以下信息:
正規表達式的使用情境
・在数据库中将混合出现的字符串如「100円」と「¥100」统一为「100円」。
・搜索包含以句点(。)结尾的字符串的数据。
・将没有用逗号分隔的数字字符串如「1000」转换为带有数字分隔符的形式,如「1,000」。
51 (五十一)
表的合并处理
第三章第106页
公式在第147页
完全融合外部因素
将两个表中存在的所有数据进行合并的处理。
在SQL中,
使用FULL OUTER JOIN将左侧表和右侧表的前面的数据根据连接键值进行合并。
左侧表∪右侧表。
内部合并
在SQL中,通过在两个表中分别指定要连接的列,并连接包含相同值的数据。
使用INNER JOIN操作符。
它连接左侧表和右侧表,将连接轴的值匹配的行进行连接。
可表示为 左侧表 ∩ 右侧表。
交叉结合
提取两个表数据的所有组合的操作。
外部结合 –
外部結合是在两个表中分别指定要进行连接的列,并获取存储着相同值的数据进行连接。
在内部结合中,不会获取不匹配的数据,但在外部结合中,即使不匹配,也会将其作为数据进行获取。
在SQL中,
LEFT OUTER JOIN
(左外部连接)
将左侧表的所有数据与与指定的连接轴值匹配的右侧表进行连接。
五十二
清洁处理
从保存在数据库中的数据中查找表达差异、错误、重复等问题,并对其进行删除和修正的处理,通过这个处理过程,数据的质量得到了提高。
数据增强
在人工增加数据的过程中,对学习数据进行平移、缩放、旋转和添加噪声等处理,以增加数据的数量(水增数据)。如果是图像的话,可以通过旋转-5°,+5°的方式来增加学习数据。
抽样处理
从数据集合中以随机或固定的间隔抽取数据。
零填充
当将数字作为字符显示时,如果数字的行数少于指定的位数,则会执行如下处理。在这个处理中,根据左对齐或右对齐的要求,在显示的数字前方或后方补充0,从而将数字转换为固定长度的字符串。
五十三
地图处理
当进行数据迁移或数据合并时,处理需要将两个不同的数据相关联。
将…分组
将数据按特定的类别进行分类和汇总处理。
过滤处理
从给定条件中提取满足条件的行的过程。
五十六
表格的运算
抛影
从表格中提取特定的列进行运算。
选择
从表格中提取符合条件的行的操作
融合
按照一定的条件将多个表合并成一个表的操作。
不多
从一个表中删除包含在另一个表中的行的操作
五十七
数据格式
CSV(逗号分隔值)
将多个项目用逗号分隔的数据格式。
用逗号分隔的项目形成一个记录,每个记录之间用换行符分隔。
在处理表格形式的数据时经常使用。
(类似于Excel的感觉)
由于CSV文件无法正确读取包含逗号的数据项,因此根据存储数据的格式选择适当的数据类型非常重要。
TSV(制表符分隔值)
用制表符分隔项目的数据格式
SSV(空格分隔值)
在数据格式中,通过空白来分隔项目
XML
一种描述文档结构的标记语言
五十八
应用程序接口
API(应用程序接口)是连接两个程序的机制。有时也可以指提供基于这一机制的服务。这被称为API服务。
利用现有的API服务的好处是可以减少应用程序开发过程中的时间和成本。不足之处是,使用的API服务可能发生服务器故障等问题,可能会对自身的服务和应用程序造成影响。此外,由于使用的API服务可能变更使用方式或停止提供,可能会对自身的服务提供造成困扰。
以下是中文的翻译:
优点
– 通过使用现有的API服务,可以减少应用程序开发的过程和成本。
– API服务的例子有邮政编码搜索,天气预报,登录认证。
– API服务不仅包括付费的,还有免费的。
Reference:
请您参考:
公式134
数据传输方法(技术)
第二章讲座第30页。
SSH (Secure Shell) 是一种用于在不安全的网络中进行加密的网络协议。
安全外壳(Secure Shell,SSH)是一种利用密码和认证技术进行安全远程计算机通信的协议。所有在网络上的通信,包括密码等认证部分,都被加密处理。
参考来源:维基百科
在维基百科页面中提到的内容是关于“Secure Shell”的介绍。
协议 (xié yì)
协议是指为了在计算机上进行数据交换而确定的过程、规范和信号的电气规则,以及在通信中确定的发送和接收过程的标准。不同厂商的软件和硬件也可以通过遵守共同的协议来实现正确的通信。
根据不同的目的,存在各种各样的协议。作为常见的例子,用于互联网连接的TCP/IP,用于网页浏览等的HTTP,以及用于电子邮件的POP和SMTP等可以被提及。所有这些协议的末尾都缩写为”P”,代表着协议(Protocol)。
参考链接: https://www.keyence.co.jp/ss/general/iot-glossary/protocol.jsp
请将下列内容以中国本土口语为基础进行翻译,提供一种版本:
协议概念在物联网领域中扮演着重要角色,关于物联网协议的定义和功能,在该链接提供详尽的解答。请点击参考链接以获取更多相关信息。
Telenet(通信协议)
使用网络进行通信时的规定被称为通信协议。这是在操作连接到远程服务器等的终端时使用的通信协议。
文件传输协议 (FTP)
基于各种数据传输技术的文件传输协议
被用于文件传输的被称为文件传输协议。
– FTP是最古老的数据传输技术之一,以文件形式处理和传输数据
– 它的缺点是通信没有加密。
匿名
在FTP服务器上通常使用预先注册的用户ID和密码进行身份认证。
然而,对于要与众多用户共享文件的情况,在给每个人分配用户账户是不现实的。
如果要与众多用户共享文件,
可以创建一个名为”anonymous”的用户ID,并设置任意密码来登录。
这被称为匿名FTP。
SCP (安全复制协议)
SCP是一种文件传输协议。
SCP通过称为SSH(SecureShell)的协议对网络进行加密,包括所有网络上的通信,包括密码认证,在SCP中都被加密。
如果传输被中断,SCP无法从中途恢复。
– SCP是通过SSH(Secure Shell)安全传输文件的协议
– 包括密码等认证部分在内的所有网络上的通信都被加密
超文本传输协议 (HTTP)
HTTP是用于在Web服务器和客户端之间进行通信的协议。它用于传输HTML中的文本等内容。通信没有加密的功能,这是一个缺点。
通常,使用HTTP通信的API被称为WebAPI。
使用GET方法
在使用API服务时,获取数据需要使用HTTP通信的方法。
提交请求的方法
在进行数据通信时使用的HTTP通信方法
HTTPS(超文本传输协议安全版)
・通信被加密的HTTP
能够防止窃听、篡改和冒充的通信协议
在Google云存储(GSC)的API中,数据通过HTTPS进行传输。
安全文件传输协议
SFTP是一种文件传输协议。
在SFTP中,通信会通过SSH进行加密,但SCP则不同,即使在传输过程中中断,也可以从中间位置重新开始传输。
61
郵政編碼查詢API
请提供一个中国版本的英文,这样我才能为您提供中文的合适翻译。
搜寻网址
https://zipcloud.ibsnet.co.jp/api/search?zipcode=4420001
在上面的URL上进行搜索时,会输出以下结果。
{
“message”: null,
“results”: [
{
“address1”: “爱知县”,
“address2”: “丰川市”,
“address3”: “千两町”,
“kana1”: “アイチケン”,
“kana2”: “トヨカワシ”,
“kana3”: “チギリチョウ”,
“prefcode”: “23”,
“zipcode”: “4420001”
}
],
“status”: 200
}
“zipcode”:「4420001」は検索された番号です。
通过将数字44200001设定为所要查询的邮政编码,可以得到其他地址。
六十二
SQL代码
请参考第三章
从表名中选择列名;
从表中获取列。
如果将列名设置为“*”,就可以选择全部列。
如果想要获取多列,可以用逗号“,”分隔。
明显
删除重复行
ASC 可以用以下方式进行汉语本地化归纳:
升序
对以下内容进行本地化的中文释义,只需要一种选择 :
描写
降序
按照组进行分组
用于对数据进行分组并应用聚合函数的句子。
按照顺序排列
– 在排序数据时使用的短语
限制
用于指定最终要获取(显示)的数据数量的句子,但需要注意SQL服务器的数据读取量不会改变。
→当使用云服务器等时,也有可能会产生巨额费用。
在哪里
使用WHERE子句用于获取满足指定条件的行数据。可使用AND、OR、NOT来指定多个条件。
在两者之间
~超过〜不足
在华语中,只需要一种选择:
包含
喜欢
使用于文本搜索的方法
请用中文进行同义转述,只需要提供一个选择:
请问你能帮忙吗?
获取以“A”开头的任意长度字符串
我打算下周去看电影。
获取以A开头、以y结尾的三个字符字符串(例如Amy)。
拥有
在对分组数据进行选择符合特定条件的数据时使用。在第三章的第95页。
加入
表连接
63 -> 六十三
请给出2章第24、25页的中文翻译。
关系数据库 (RDB)
由一组具有行和列的表格组成的代表性系统包括MySQL和PostgreSQL。
非关系型数据库
所有除了RDB以外的数据库
针对没有结构的数据进行优化的数据库
– 无结构数据的一些例子
– 键值对数据
– JSON数据
– 图形数据
– 特点
· 可以通过分布式处理实现快速数据读写
(但不支持难以分布式处理的复杂操作或数据结构)
· 为了重视响应速度,一次处理的数据量较小
代表性系统:HBase、MongoDB、Cassandra、Redis。
NoSQL数据库处理的数据格式
键值对 zhí duì)
给数据附加识别标志(密钥)以进行管理。
宽柱
使用一个键来管理多个数据
可以拥有每行不同的列数
(即使每行的列数不同也没有问题)
文件
以”文档”为单位管理数据
文档的结构可以任意设定
六十四
表格的规范化
消除数据的重复,从表中消除冗余,这样可以更容易地进行数据的添加、更新和删除操作,提高维护效率。在关系型数据库设计中,使用了“规范化”这个概念。
在关系型数据库(RDB)中,从表中消除冗余或不一致性的过程被称为表的规范化。
非正規形 – 非正规形式
数据的冗余性存在不一致的情况。
第一个标准形式
以下是已解决不一致的数据调整状态:
– 存在多个相同的列
– 一个单元格中有多个值
– 存在合并的单元格
我们将解决在同一行内的重复等问题而称其为第一正规形。
⇨排除掉数据中重复的、具有相同属性的重复项。
⇨课程名称目前还处于第一范式,它依赖于课程代码。
名字 講座名 講座名 講座名
A先生 B講座 C講座 D講座
↓
名字 講座名
A先生 B講座
A先生 C講座
A先生 D講座
第二范式
满足第一范式,并解决了“当主键任意一项确定时非主键任意一项也随之确定”的状态。
满足第一范式,并将部分由非主键依赖的内容分离到另一张表中的形式被称为第二范式。
把讲座代码和讲座名称从原始数据表中分离出来,生成两个表的状态。
Aさん的年龄是28岁,講座编号为BBBB的是B講座。
↓
主键
姓名 年龄 课程编号
A先生 28 BBBB
非关键课程编号 课程名称
BBBB B课程
通过拆分表格,使它更易读。
第三范式
满足第二范式且解决了”非键之间互有依赖关系,即给定任意一个非键,则其他非键也能确定”的状态。
第三正规形是指满足第二正规形要求的表,并将非主键项之间存在从属关系的项分离到另一个表中。
在非关键表中,进一步按照第二正规形进行操作。
总结
在关系型数据库(RDB)中,从表中消除冗余和不一致性的过程被称为表的规范化。
解决了同一行中的重复等问题的称为第一范式。
满足第一范式,并将非关键部分分离到另一个表中的称为第二范式。
满足第二范式,并且除了主键之外的项目之间存在依赖关系的将其分离到另一个表中的称为第三范式。
重复相同的事情会变得复杂,并且在修正时需要对每一行进行修改,这很麻烦。
首先,通过一范式对重复的横向长项进行解决。
其次,通过二范式将主键和非主键的表分开。
最后,通过三范式将非主键和非主键的表分开。
通过区分第二范式和第三范式,使得在代码编号或内容发生变化时更容易进行相应处理。
为了方便运用关系型数据库,将进行规范化处理。
六十五
公式p167, 可在第2章p52找到。
加密技术
在暗号化中有不同种类的方法,它们的安全性(强度)和处理速度都是不同的。
电话和互联网通信等通信方式基本上是被加密的,以保护其内容。
加密
对于某个数据,进行特殊处理,将其转换为无法直接阅读的特殊数据。
公钥:加密
私钥:解密
解密
利用密钥对进行解密,将加密后的内容还原为原始数据。
公共密钥:加密操作
私有密钥:解密操作
共通密钥加密方式 mì jiā mi shì)
在一对较少的人中是有用的。发送和接收数据的人使用共同的密钥进行加密和解密。没有这个密钥的第三方无法知道原始数据。当与同一接收者进行多次通信时,它是有用的。共享密钥密码系统需要安全地将密钥传递给对方,但在互联网上安全地将共享密钥传递给大多数人是困难的问题。
公開密鑰加密方式
在一对多的情况下很有用
采用加密和解密使用不同的密钥
公钥:加密
私钥:解密
接收者生成两个密钥(私钥和公钥),将公钥公开给任何发送者
数据的发送者使用公钥进行加密
加密的数据只能被具备私钥的人解密。
安全套接字层
在使用互联网通信的加密过程中,双方采用公钥加密方式进行通信,并共享临时的共同密钥,然后使用共同密钥加密进行后续的加密过程。
六十六
哈希函数
公式p169是将特定的字符串转换为另一个数值字符串的函数。该函数通过一系列预定的步骤对输入值进行计算,并返回一个固定长度的输出值。哈希函数无论输入的长度如何都会返回固定长度的输出值。相同的输入必定会返回相同的输出。
ABCDEFG这个字符串可以通过哈希函数转换成另一个字符串8E5A。
哈希函数具有不可逆的特性,不能通过8E5A反向转换回ABCDEFG。
通过哈希函数转换后的值被称为摘要值或哈希值。
即使原始数据稍有不同,哈希值也会完全转化为不同的值。
ABCDEFG⇨8E5A
ACBDEFG⇨9G7H
哈希函数也用于数据检索。
哈希函数还用于构建数据篡改检测机制。
哈希函数将数据转换为另一种表示形式。
哈希函数用于在数据库中寻找重复记录。
哈希函数将输入的字符串转换并与预先转换的正确字符串进行比较。
哈希函数用于从数据集中找到特定的数据。
哈希函数不用于去除噪音的目的。
67 – 六十七
公式 p179, 214, 215的释义是什么?
个人信息保护
GDPR(通用数据保护条例)
欧盟一般数据保护条例
在中国,个人数据的识别、安全保障方法、透明性要求、泄露检测和报告方法等详细要求已被规定。由于适用于欧盟居民,因此在日本,如果涉及处理面向海外的电子商务或有海外访问的服务,则需要进行相应的适应。这在日本引起了很大的关注,因为它也适用于在欧盟境外提供服务的企业。
根据欧洲委员会的规定,禁止将个人数据转移到未具备与欧盟相等的个人信息保护水平的地区。但只要被认定为“与欧盟境内具有相等个人信息保护水平的国家”,就可以允许数据的转移。
CCPA(加利福尼亚消费者隐私法)
加利福尼亚州消费者隐私法
从2020年开始实施
在隐私保护方面,它类似于GDPR法规,并且在美国各州也通过了类似的法案。
修改个人信息保护法
预计在2022年,日本将实施修订个人信息保护法。这项法律涵盖了加强权利保护、加大企业责任、加强违反法规的处罚力度以及关于第三方提供数据规则等方面,同时也涵盖了对数据利用方式的规定。
预计在2021年至2022年期间,各行业将会制定并给出企业应该遵守的规定以及具体事例的指导方针。
胶水
使用于语言理解任务的基准测试的名称。
其他
承认日本已被认定为与欧盟范围内具有相同的个人信息保护水平,该认定称为”十分性认定”。
68 六十八
公式p178
数据伦理
ELS I 的中文同义表达如下:
ELS 国际人类科学伦理学中心
当实施新的科学技术到社会时,应综合考虑除技术问题之外的所有问题,包括伦理问题、法律问题和社会问题等。这是一种观点。逻辑问题、法律问题和社会问题(Ethical, Legal and Social Issues)的首字母缩写。内阁府于2019年发布的”以人为中心的人工智能社会原则”也部分反映了政府对数据伦理问题的意愿。
人类基因组计划 (HGP)
在美国政府资助的人类基因组计划中,首次使用了ELSI。
违规行为
伪造
创建不存在的数据
篡改
数据篡改、伪造
侵犯他人权益
未经适当引用,使用他人的想法和数据。
BERT(內容辨識轉換器)
由Google开发的一种基于Transformer的机器学习方法,用于自然语言处理(NLP)的预训练。BERT是由Google的Jacob Devlin及其同事于2018年创作并公开的。截至2019年,Google正在利用BERT来加深对用户搜索的理解。
蓝色
BLEU(Bilingual Evaluation Understudy)是一种用于评估从一种自然语言翻译成另一种自然语言的机器翻译文本质量的算法。
LSI (潜在语义索引)
LSI是“Large Scale Integration(大规模集成电路)”的缩写。它是由晶体管、二极管、无源元件等组成的电子电路部件,可以实现复杂的功能。通常使用硅等半导体材料来构成。
七十三
第177个公式
一条信息
我收集的数据,包括自己进行的调查问卷和访谈结果等,是实际收集和经历的信息。
“我自己收集的数据”
再次获得的信息
根据其他作者编写的书籍或论文中包含的调查结果,以及从其他公司获取的信息和临时信息编辑的信息,即所谓”公开/销售的数据”。
三个消息
找不到像传闻一样的消息来源的信息。
手写数字数据库MNIST
这是手写数字图像的开放数据集,包含了6万张用于训练的图像和1万张用于测试的图像。
RESAS可以用中文翻译为”区域经济结构分析系统”。
这是由日本经济产业省和内阁官房提供的地区经济分析系统,不是基于图像的开放数据。
这是中国人著名的精神发展理论之一。
关于数据和人工智能的利用的法律
自愿选择参与
希望参加的手续非参加则不可能。
若未获得使用数据的许可,则不能使用该数据。
不参与
当个人信息满足一定条件时,可在未经本人同意的情况下向第三方提供的制度,受个人信息保护法所规定。
选择拒绝的经营者有义务向内阁府机构——个人信息保护委员会提交必要事项登记。
如果有企业通过选择退出选项公开个人信息,那么当该企业收到个人信息主体的要求时,必须停止公开。
无法通过选择退出来提供个人信息。
我希望参加也希望能够不参加的手续
如果不希望参加,基本上就必须参加
如果希望不使用数据,请务必将数据删除
此外,也必须建立一个可以表示不使用数据的机制
如果要向第三方提供个人信息,
原则上,需要事先获得本人的同意。
如果没有得到本人的同意,则需要进行选择退出程序。
根据本人的要求,应当停止提供本人的数据。
使本人能够轻易地了解此事的状态。
① 作为第三方提供的目的。
② 提供的个人资料项目。
③ 提供的方式。
④ 根据本人的要求停止提供。
⑤ 接收本人的要求的方式。
将本人通知的事项报告给个人信息保护委员会
(个人信息保护委员会将此公开)
76
SCAMPER(替代 组合 适应 修改 放置 淘汰 反转(重新排列))
用于大规模生产创意的框架。
请提供更多的上下文信息以便进行准确的翻译。
七十八
概念验证 (Gai Nian Yan Zheng)
在日語中,这被称为概念验证。
在AI开发中,通过PoC(概念验证)进行AI模型的构建、评估性能、确认在实际运营中AI模型的可行性等。
RFM分析的概念是对客户进行细分,以便更好地了解他们的需求和行为模式。
用于深化对客户理解的分析方法
进行客户分割
关联分析
分析事象关联性的方法
常用于分析梯度历史数据的时候。
八十八
第198页的公式
瀑布开发
這種方法是按順序進行分析、設計、實施和測試的過程。
在工藝進行到下一步之後,不會回到前一個工藝,每個工藝間通過製作的文件進行傳遞。
從上游工藝到下游工藝,開發像瀑布一樣繼續進行。
在確定最終目標和需求後才開始開發。
這種方法的優點是可以較容易地確保產品質量,估算進度,教育和聘用每個工藝的專家,但缺點是開發時間容易延長,規格和計劃變更困難。
敏捷开发
敏捷开发是一种在短时间内(1周至1个月)循环进行分析、设计、实施和测试的方法,通过制作部分可运行的成品并获得客户反馈,不断重复这个过程来开发。由于逐渐建立起系统并与客户接近,因此在需求和完成品之间很少发生认知差异是其优点。然而,如果没有明确的方针,开发方向容易偏离,这是其缺点。
橄榄球争球
XP可以用中文翻译为”经验值”。
极限编程
特性驱动开发(FDD)
用戶功能驅動開發
八十九
保护措施
第164页的公式
保密性
只有经过认证的用户才能访问数据,以确保安全性。实施措施包括密码认证、访问权限控制和数据加密。
使用可行性
只要被授权访问数据的用户提出请求,确保数据随时可用。
解决方案:系统的冗余备份、数据备份。
完备性
我保证数据没有被恶意篡改,是准确且完整的。
防范措施示例:电子签名、哈希函数。
散列函数 liè shù)
将指定的字符串转换为另一个数字字符串的函数